一种生物质谱数据库快速建立与搜索的方法.pdf

摘要
申请专利号：	CN201510125438.7	申请日：	2015.03.20
公开号：	CN104765984A	公开日：	2015.07.08
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 19/22申请日:20150320\|\|\|公开
IPC分类号：	G06F19/22(2011.01)I; G06F19/28(2011.01)I	主分类号：	G06F19/22
申请人：	同济大学
发明人：	肖开捷; 田志新
地址：	200092上海市杨浦区四平路1239号
优先权：
专利代理机构：	上海科盛知识产权代理有限公司31225	代理人：	叶敏华
PDF下载：	PDF下载

内容摘要

本发明涉及一种生物质谱数据库快速建立与搜索的方法，本搜索方法基于所述质谱的原始一级质谱和候选生物大分子，靶向在线计算与动态存储二级质谱数据库。与现有技术相比，本发明的方法对高通量的质谱解析效率有着显著的提升，可以避免大量不必要数据计算任务，大幅减少搜索所需的时间和硬盘存储空间，适用于高通量的大数据的解析，特别是生物大分子(如蛋白质，糖类)质谱及串级质谱高效解析及结构准确鉴定。

权利要求书

1.  一种生物质谱数据库快速建立与搜索的方法，其特征在于，包括以下步骤：
(1)根据标准生物大分子数据库中的序列与修饰信息，分别生成所有对应生物大分子变体的理论一级质谱数据库；
(2)将生物大分子实验的一级质谱与理论的一级质谱相比较，找出所有与该一级质谱对应的候选生物大分子变体；
(3)确定数据库中是否有以上所有候选生物大分子变体的二级质谱数据，若无，则靶向地在线计算该生物大分子的理论二级质谱数据，并将其存放于数据库中，若有，则直接进行下一步的匹配；
(4)将生物大分子实验的二级质谱数据与候选生物大分子变体的理论的二级质谱相比较，进行匹配；
(5)循环以上(2)-(4)步骤，直到确定所有二级质谱对应的生物大分子。

2.  根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法，其特征在于，步骤(1)中生成所有对应生物大分子变体的理论一级质谱数据库的方法为：根据对应生物大分子变体的序列、修饰信息，计算出对应前体离子的分子式，并根据该分子式计算出与实验一级质谱对应的单同位素质量或同位素轮廓。

3.  根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法，其特征在于，步骤(3)中靶向地在线计算该生物大分子的理论二级质谱数据的计算方法为：模拟质谱仪中二级质谱的特征，将该生物大分子进行碎裂，计算出所有理论的碎片离子的分子式，并根据该分子式计算出与实验二级质谱对应的单同位素质量或同位素轮廓。

4.  根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法，其特征在于，步骤(3)中，所有理论的二级质谱数据都是在搜索的过程中在线计算与动态存储的，判断是否计算某一生物大分子变体理论二级质谱的条件是：
(1)该生物大分子变体是实验的一级质谱与理论的一级质谱匹配得到的候选生物大分子变体；
(2)使用的数据库中不包含该生物大分子变体的二级质谱数据。

5.  根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法，其特征在于，所述的生物大分子为蛋白质、核酸、糖或碳氢化合物。

说明书

一种生物质谱数据库快速建立与搜索的方法
技术领域
本发明涉及一种生物质谱数据库快速建立与搜索的方法，主要涉及与生物质谱相关的系统生物学领域，包括蛋白质组学、糖组学等技术领域。
背景技术
随着软电离技术(如电喷雾电离)及高分辨质量分析器(如轨道阱)的发展和商业化，质谱越来越多地用于生物大分子(如蛋白质、多糖)的分析。
中国专利CN 103389335 A公布了一种通过分析生物大分子质谱数据来鉴定生物大分子一级结构和组成的分析装置和方法。该分析装置和方法基于所述生物大分子的原始一级和二级质谱，通过同位素峰质荷比及轮廓指纹比对从而对该生物大分子进行鉴定。上述分析装置和方法直接利用质谱仪所采集的原始实验质谱数据，对前体离子和碎片离子同位素轮廓中每个原始实验同位素峰的精确质荷比和相对强度与相应的理论值进行比对，分别用于从数据库中找到候选生物大分子和利用串级质谱确认其中可信度最高的一个，从而对生物分子进行高可信度的定性、定量分析。
在生物信息学技术方面，与肽段的质谱鉴定方法相似，完整蛋白质的鉴定同样也是主要采用数据库搜索的方法。在蛋白质鉴定中，我们需要考虑蛋白质不同的变体形式(包括修饰、氨基酸突变等)，如何根据蛋白质的序列生成的候选变体数据库成为搜索的一个难题，种类多，计算量大。对于完整的蛋白质，发生修饰等变化的位点数目可能要多很多，这样，我们容许一个蛋白质序列上的可变修饰位点数就会增加，当可变修饰位点数增加到10个以上时，再考虑到每个位点上可能修饰类型的不同，组合起来容易产生数量巨大的蛋白质变体形式，就可能出现指数爆炸的情况。而且，若再考虑氨基酸突变等组合形式，蛋白质变体形式将再指数增长，这也是现有处理方法的一个主要瓶颈。由于蛋白质变体的数量巨大，传统基于数据库的蛋白质搜索引擎的方法需要在搜索之前对所有的蛋白质变体的理论一级谱和二级谱进行计算和存储，既要花费大量的时间，又要占用大量的硬盘存储空间。数据库中，大量的理论的二级质谱数据在搜索过程并未被使用，属于不必要计算。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种避免大量不必要数据计算任务、平均计算量小、高效高通量的生物质谱数据库快速建立与搜索的方法。
本发明的目的可以通过以下技术方案来实现：
一种生物质谱数据库快速建立与搜索的方法，包括以下步骤：
(1)根据标准生物大分子数据库中的序列与修饰信息，分别生成所有对应生物大分子变体的理论一级质谱数据库；
(2)将生物大分子实验的一级质谱与理论的一级质谱相比较，找出所有与该一级质谱对应的候选生物大分子变体；
(3)确定数据库中是否有以上所有候选生物大分子变体的二级质谱数据，若无，则靶向地在线计算该生物大分子的理论二级质谱数据，并将其存放于数据库中，若有，则直接进行下一步的匹配；
(4)将生物大分子实验的二级质谱数据与候选生物大分子变体的理论的二级质谱相比较，进行匹配；
(5)循环以上(2)-(4)步骤，直到确定所有二级质谱对应的生物大分子。
指生物大分子实验的二级质谱数据与候选生物大分子变体的理论的二级质谱相似度达到指定要求。
步骤(1)中生成所有对应生物大分子变体的理论一级质谱数据库的方法为：根据对应生物大分子变体的序列、修饰等信息，计算出对应前体离子的分子式，并根据该分子式计算出与实验一级质谱对应的单同位素质量或同位素轮廓，该方法为常规处理方法，在此不作详细阐述。
步骤(3)中靶向地在线计算该生物大分子的理论二级质谱数据的计算方法为：模拟质谱仪中二级质谱的特征，将该生物大分子进行碎裂，计算出所有理论的碎片离子的分子式，并根据该分子式计算出与实验二级质谱对应的单同位素质量或同位素轮廓，该方法为常规处理方法，在此不作详细阐述。
步骤(3)中，所有理论的二级质谱数据都是在搜索的过程中在线计算与动态存储的，判断是否计算某一生物大分子变体理论二级质谱的条件是：(1)该生物大分子变体是实验的一级质谱与理论的一级质谱匹配得到的候选生物大分子变体；(2)使用的数据库中不包含该生物大分子变体的二级质谱数据。
所述的生物大分子为蛋白质、核酸、糖或碳氢化合物。
本发明涉及的方法同样适用于其他质谱以及任何需要预先建立数据库的数据库搜索。
本发明搜索方法基于所述质谱的原始一级和二级质谱的数据库搜索策略，通过靶向在线计算的方式生成与存储二级质谱数据库。所有需要计算的理论二级质谱数据都是在本次的搜索过程中必需使用到的，从而避免了大量不必要数据的计算任务与存储。而且，该数据库具备可完善性，即通常一个体系的数据库是可以反复使用的，每一次的使用都可能有新的理论二级质谱被计算并添加进该数据库中，起到不断完善数据库的作用。与现有技术相比，本发明的解析方法对高通量的质谱解析效率有着显著的提升，可以大幅减少搜索所需的时间和硬盘存储空间，适用于高通量的大数据的解析，特别是生物大分子(如蛋白质，糖类)质谱及串级质谱高效解析及结构准确鉴定。
具体实施方式
下面结合具体实施例对本发明进行详细说明。
实施例
一种蛋白质质谱数据库快速建立与搜索的方法，包括以下步骤：
(1)根据标准蛋白质序列数据库中的序列与修饰信息，分别生成所有对应蛋白变体的理论一级质谱数据库。
(2)将实验的一级质谱与理论的一级质谱相比较，找出所有与该一级质谱对应的候选蛋白质变体。
(3)首先确定数据库中是否有以上所有候选蛋白质的二级质谱数据，若无，则靶向地在线计算该蛋白的理论二级质谱数据，并将其存放于数据库中，若有，则直接进行下一步的匹配。
(4)将实验的二级质谱数据与候选蛋白质的理论的二级质谱相比较，进行匹配；
(5)循环以上(2)-(4)步骤，直到确定所有二级质谱对应的生物大分子。
步骤(3)中，所有理论的二级质谱数据都是在搜索的过程中在线计算与动态存储，判断是否计算某一蛋白质变体理论二级质谱的条件是：(1)该蛋白质变体是实验的一级质谱与理论的一级质谱匹配得到的候选蛋白质；(2)使用的数据库中不包含该蛋白质变体的二级质谱数据。
以大肠杆菌为例，从UniProt蛋白质数据库(www.uniprot.org)获得的大肠杆菌的中氨基酸序列长度为1-200的所有序列信息，通过对不同修饰的组合，共得到2883种理论蛋白质变体，采用传统方法需要计算2883种蛋白质变体的理论一级质谱及二级质谱。在对一个用反相色谱-串级质谱分析大肠杆菌整体蛋白质组得到的数据组中第1500-20000个质谱图进行搜索时，实验一级质谱与理论的一级质谱匹配得到的候选蛋白质变体共有840种。采用本发明方法后只需计算840(相对于2883)种蛋白变体的理论二级谱，计算量相比减少70.9％。人类蛋白质按氨基酸序列有20000多个，如果考虑修饰和氨基酸突变，其整体蛋白质变体的数量至少在百万数量级；对如此大数据库进行分析时，本发明方法将大大提高分析的通量。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。