《基于质谱数据获取生物标志物的方法及装置.pdf》由会员分享,可在线阅读,更多相关《基于质谱数据获取生物标志物的方法及装置.pdf(18页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103336915 A(43)申请公布日 2013.10.02CN103336915A*CN103336915A*(21)申请号 201310213846.9(22)申请日 2013.05.31G06F 19/18(2011.01)(71)申请人中国人民解放军国防科学技术大学地址 410073 湖南省长沙市开福区德雅路109号(72)发明人刘伟 谢红卫(74)专利代理机构北京康信知识产权代理有限责任公司 11240代理人李志刚 吴贵明(54) 发明名称基于质谱数据获取生物标志物的方法及装置(57) 摘要本发明公开了一种基于质谱数据获取生物标志物的方法和装置,该方法包括。
2、:步骤S1:取与同一疾病相关的n个疾病质谱数据集,并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量,得到n个蛋白质定量结果,n为正整数;步骤S3:将n个蛋白质定量结果分别转换为n组数据,每组数据均在同一数值范围内;步骤S5:将n组数据与对照组进行比较,取与对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。本发明可节约实验成本,并能使得预测疾病的生物标志物更具有通用性和鲁棒性。(51)Int.Cl.权利要求书2页 说明书10页 附图5页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书10页 附图5页(10)申请公布号 CN 103336915 ACN 10。
3、3336915 A1/2页21.一种基于质谱数据获取生物标志物的方法,其特征在于,包括:步骤S1:取与同一疾病相关的n个疾病质谱数据集,并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量,得到n个蛋白质定量结果,所述n为正整数;步骤S3:将所述n个蛋白质定量结果分别转换为n组数据,所述每组数据均在同一数值范围内;步骤S5:将所述n组数据与对照组进行比较,取与所述对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。2.根据权利要求1所述的方法,其特征在于,在所述步骤S1之后,所述步骤S3之前,所述方法还包括:步骤S2:将所述n个蛋白质定量结果的蛋白质标号进行匹配,对出现在大于或等于预设数量。
4、的蛋白质定量结果中的蛋白进行保留,否则抛弃,得到筛选后的蛋白质定量结果;其中,所述步骤S3中的所述n个蛋白质定量结果为所述筛选后的蛋白质定量结果。3.根据权利要求1所述的方法,其特征在于,在完成所述步骤S5后,所述方法还包括:步骤S6:验证所述生物标志物是否正确;步骤S7:当所述生物标志物不正确时,重复所述步骤S3至所述步骤S6。4.根据权利要求3所述的方法,其特征在于,所述步骤S6包括:步骤S61:采用所述生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类,得到分类结果,所述p和k均为正整数;步骤S62:根据所述分类结果判断所述生物标志物是否正确。5.根据权利要求4所述的方法,其特。
5、征在于,所述步骤S61中,所述进行分类的算法是投票法、支持向量机算法及决策树算法中的一种或者任意几种的组合。6.根据权利要求1所述的方法,其特征在于,所述对照组为:取q个正常质谱数据集进行所述步骤S1中的蛋白质定量,并进行所述步骤S3中的转换后所得的q组数据,所述q为正整数。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述步骤S3中的所述转换的算法为中位值整合法,包括:步骤S31A:将所述n个蛋白质定量结果中的一个蛋白质定量结果作为基准数据集,其他n-1个蛋白质定量结果作为n-1个待转换数据集;步骤S32A:首先计算所述基准数据集中每个蛋白在所有蛋白质定量结果中的表达量的中位数j,然。
6、后根据所述基准数据集中的所有蛋白的中位数j的列表将所述所有蛋白进行排序,并生成第一排位序列Rank(j)(j=1,2,.m),其中m为所述基准数据集中的蛋白的个数;步骤S33A:将所述n-1个待转换数据集中的蛋白分别按蛋白表达量排序成第二排位序列Rank(gz);步骤S34A:按照排序位置将所述第二排位序列Rank(gz)中的蛋白表达量替换为第一排位序列Rank(j)中相应位置的蛋白表达量j(Rank(j)=Rank(gz)。8.根据权利要求1至6中任一项所述的方法,其特征在于,所述步骤S3中的所述转换的算法为相对位置排序法,包括:步骤S31B:计算蛋白g在所述n个蛋白质定量结果中的蛋白表达量。
7、的排位的均数,再权 利 要 求 书CN 103336915 A2/2页3根据如下公式分别计算每个蛋白质定量结果中各个蛋白的相对排序值其中,所述m为当前的蛋白质定量结果中的蛋白的个数,所述i为取值为1至n的变量,所述yg表示蛋白g,所述是蛋白g在所有质谱数据集中排序位置的均值,所述Rank(yg)是蛋白g在选定的质谱数据集中的排序位置;步骤S32B:根据每个所述蛋白质定量结果中各个蛋白的相对排序值对所述蛋白进行排序。9.根据权利要求1至7中任一项所述的方法,其特征在于,所述步骤S1中进行蛋白质定量的算法为基于质谱分析的绝对定量法或者相对定量法。10.根据权利要求1至7中任一项所述的方法,其特征在。
8、于,所述步骤S1中进行蛋白质定量的算法为稳定同位素标记法或者无标记定量法。11.根据权利要求1至7中任一项所述的方法,其特征在于,所述步骤S5中所述统计差异概率值是采用差异蛋白分析算法计算的P值,所述差异蛋白分析算法包括倍数法、T检验法或者SAM法。12.一种基于质谱数据获取生物标志物的装置,其特征在于,包括:定量模块(1),用于取与同一疾病相关的n个疾病质谱数据集,并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量,得到n个蛋白质定量结果,所述n为正整数;整合模块(2),用于将所述n个蛋白质定量结果分别转换为n组数据,所述每组数据均在同一数值范围内;差异比较模块(3),用于将所述n组数据与对照。
9、组进行比较,取较所述对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。13.根据权利要求12所述的装置,其特征在于,所述装置还包括:筛选模块(4),用于将所述n个蛋白质定量结果的蛋白质标号进行匹配,对出现在大于或等于预设数量的蛋白质定量结果中的蛋白进行保留,否则抛弃,得到筛选后的蛋白质定量结果;其中,所述整合模块(2)用于将筛选后的蛋白质定量结果分别转换为n组数据,所述每组数据均在同一数值范围内。14.根据权利要求12所述的装置,其特征在于,所述装置还包括:校验模块(5),用于验证所述生物标志物是否正确,其中,所述整合模块(2)还用于在校验模块(5)验证所述生物标志物为不正确时,再次。
10、将所述n个蛋白质定量结果分别转换为n组数据,所述每组数据均在同一数值范围内。15.根据权利要求14所述的装置,其特征在于,所述校验模块(5)包括:分类模块(51),用于采用所述生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类,其中,所述p和所述k均为正整数;判断模块(52),用于根据所述分类结果判断所述生物标志物是否正确。权 利 要 求 书CN 103336915 A1/10页4基于质谱数据获取生物标志物的方法及装置技术领域0001 本发明涉及生物标志物提取领域,特别地,涉及一种基于质谱数据获取生物标志物的方法及装置。背景技术0002 生物标志物,是指可以标记系统、器官、组织、细胞。
11、及亚细胞结构或功能的改变或可能发生的改变的生化指标,其主要功能是指明疾病的病理状况和应当采行的治疗方法及效果。生物标志物通常从病人的离体的肿瘤、血液、血浆或体液等组织中获得。生物标志物在临床上具有重要的应用价值,可用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。0003 蛋白质组学是研究特定时空条件下细胞、组织等所含蛋白表达谱的有效手段,也是寻找生物标志物的重要方法。其基本思想是通过蛋白质组学的方法比较疾病状态和正常生理状态下蛋白质表达的差异,寻找有效的生物标志物,其中应用较多的是二维凝胶电泳和质谱分析技术。在二维凝胶电泳中,蛋白质样品根据其等电点和相对分子质量。
12、的不同而分离,在得到的电泳图谱中,疾病状态和正常生理状态的蛋白质染色斑点的分布会出现差异,以此为线索,可以发现新的生物标志物。0004 现有技术均是基于同一样本的多次重复实验数据处理,无法用于不同来源的质谱数据的分析,得到的生物标志物不具有明显的通用性,对于不同的质谱数据集实用性较差。发明内容0005 本发明目的在于提供一种基于质谱数据获取生物标志物的方法及装置,以解决现有技术无法用于不同来源的质谱数据的分析,且得到的生物标志物不具有明显的通用性的技术问题。0006 为实现上述目的,本发明提供了一种基于质谱数据获取生物标志物的方法,包括:0007 步骤S1:取与同一疾病相关的n个疾病质谱数据集。
13、,并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量,得到n个蛋白质定量结果,所述n为正整数;0008 步骤S3:将所述n个蛋白质定量结果分别转换为n组数据,所述每组数据均在同一数值范围内;0009 步骤S5:将所述n组数据与对照组进行比较,取较所述对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。0010 进一步地,在所述步骤S1之后,所述步骤S3之前,所述方法还包括:0011 步骤S2:将所述n个蛋白质定量结果的蛋白质标号进行匹配,对出现在大于或等于预设数量的蛋白质定量结果中的蛋白进行保留,否则抛弃,得到筛选后的蛋白质定量结果;0012 其中,所述步骤S3中的所述n个蛋白质定量结果。
14、为所述筛选后的蛋白质定量结说 明 书CN 103336915 A2/10页5果。0013 进一步地,在所述步骤S5后,所述方法还包括:0014 步骤S6:验证所述生物标志物是否正确;0015 步骤S7:当所述生物标志物不正确时,重复所述步骤S3至所述步骤S6。0016 进一步地,所述步骤S6包括:0017 步骤S61:采用所述生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类,得到分类结果,所述p和k均为正整数;0018 步骤S62:根据所述分类结果判断所述生物标志物是否正确。0019 进一步地,所述步骤S61中,所述进行分类的算法是投票法、支持向量机算法及决策树算法中的一种或者任意。
15、几种的组合。0020 进一步地,所述对照组为:0021 取q个正常质谱数据集进行所述步骤S1中的蛋白质定量,并进行所述步骤S3中的转换后所得的q组数据,所述q为正整数。0022 进一步地,所述步骤S3中的所述转换的算法为中位值整合法,包括:0023 步骤S31A:将所述n个蛋白质定量结果中的一个蛋白质定量结果作为基准数据集,其他n-1个蛋白质定量结果作为n-1个待转换数据集;0024 步骤S32A:首先计算所述基准数据集中每个蛋白在所有蛋白质定量结果中的表达量的中位数j,然后根据所述基准数据集中的所有蛋白的中位数j的列表将所述所有蛋白进行排序,并生成第一排位序列Rank(j)(j=1,2,.m。
16、),其中m为基准数据集中的蛋白的个数;0025 步骤S33A:将所述n-1个待转换数据集中的蛋白分别按蛋白表达量排序成第二排位序列Rank(gz);0026 步骤S34A:按照排序位置将所述第二排位序列Rank(gz)中的蛋白表达量替换为第一排位序列Rank(j)中相应位置的蛋白表达量j(Rank(j)=Rank(gz)。0027 进一步地,所述步骤S3中的所述转换的算法为相对位置排序法,包括:0028 步骤S31B:计算蛋白g在所述n个蛋白质定量结果中的蛋白表达量的排位的均数,再根据如下公式分别计算每个蛋白质定量结果中各个蛋白的相对排序值0029 0030 其中,所述m为当前的蛋白质定量结果。
17、中的蛋白的个数,所述i为取值为1至n的变量,所述yg表示蛋白g,所述是蛋白g在所有质谱数据集中排序位置的均值,所述Rank(yg)是蛋白g在选定的质谱数据集中的排序位置;0031 步骤S32B:根据每个所述蛋白质定量结果中各个蛋白的相对排序值对所述蛋白进行排序。0032 进一步地,所述步骤S1中进行蛋白质定量的算法为基于质谱分析的绝对定量法或者相对定量法。0033 进一步地,所述步骤S1中进行蛋白质定量的算法为稳定同位素标记法或者无标说 明 书CN 103336915 A3/10页6记定量法。0034 进一步地,所述步骤S5中所述统计差异概率值是采用差异蛋白分析算法计算的P值;所述差异蛋白分析。
18、算法包括倍数法、T检验法或者SAM法。0035 作为一个总的技术构思,本发明还提供了一种基于质谱数据获取生物标志物的装置,包括:0036 定量模块,用于取与同一疾病相关的n个疾病质谱数据集,并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量,得到n个蛋白质定量结果,所述n为正整数;0037 整合模块,用于将所述n个蛋白质定量结果分别转换为n组数据,所述每组数据均在同一数值范围内;0038 差异比较模块,用于将所述n组数据与对照组进行比较,取与所述对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。0039 进一步地,所述装置还包括:0040 筛选模块,用于将所述n个蛋白质定量结果的蛋白质。
19、标号进行匹配,对出现在大于或等于预设数量的蛋白质定量结果中的蛋白进行保留,否则抛弃,得到筛选后的蛋白质定量结果;0041 其中,所述整合模块用于将筛选后的蛋白质定量结果分别转换为n组数据,所述每组数据均在同一数值范围内。0042 进一步地,所述装置还包括:0043 校验模块,用于验证所述生物标志物是否正确,0044 其中,所述整合模块还用于在校验模块验证所述生物标志物为不正确时,再次将所述n个蛋白质定量结果分别转换为n组数据,所述每组数据均在同一数值范围内。0045 进一步地,所述校验模块包括:0046 分类模块,用于采用所述生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类,其中,。
20、所述p和所述k均为正整数;0047 判断模块,用于根据所述分类结果判断所述生物标志物是否正确。0048 本发明具有以下有益效果:0049 本发明采用数据整合方法可利用不同实验室产出的不同来源的多个疾病相关质谱数据集进行分析,并转换成同一数值范围内的可比较的数据集,以获取通用的生物标志物,可节约实验成本,并能使得预测疾病的生物标志物更具有通用性和鲁棒性。0050 除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。附图说明0051 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构。
21、成对本发明的不当限定。在附图中:0052 图1是本发明优选实施例的基于质谱数据获取生物标志物的装置的组成示意图;0053 图2是本发明优选实施例的基于质谱数据获取生物标志物的装置的另一组成示意图;0054 图3是本发明优选实施例的基于质谱数据获取生物标志物的方法流程示意图;说 明 书CN 103336915 A4/10页70055 图4是本发明优选实施例的基于鸟枪法实验策略的稳定同位素标记法的质谱数据处理流程示意图;0056 图5是本发明优选实施例的无标记定量法的典型计算流程示意图;0057 图6是本发明优选实施例的中位值整合法的计算流程示意图;0058 图7是本发明优选实施例的中位值整合法的。
22、蛋白排序示意图;以及0059 图8是本发明优选实施例的支持向量机算法的分类超平面示意图。0060 图例说明:0061 1、定量模块;2、整合模块;3、差异比较模块;4、筛选模块;5、校验模块;51、分类模块;52、判断模块。具体实施方式0062 以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。0063 根据本发明的实施例,提供了一种基于质谱数据获取生物标志物的方法及装置。0064 图1是本发明优选实施例的基于质谱数据获取生物标志物的装置的组成示意图。如图1所示,本发明的基于质谱数据获取生物标志物的装置,包括定量模块1、整合模块2和差异比较模块3。。
23、其中,定量模块1用于取与同一疾病相关的n个疾病质谱数据集,并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量,得到n个蛋白质定量结果,其中,n为正整数;整合模块2用于将n个蛋白质定量结果分别转换为n组数据,每组数据均在同一数值范围内;差异比较模块3用于将n组数据与对照组进行比较,取与对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。0065 本实施例以不同实验室产出的不同来源的多个疾病相关质谱数据集为基础,并转换成同一数值范围内的可比较的数据集,以获取通用的生物标志物。其通过对不同质量的质谱数据源进行整合,能使得预测疾病的生物标志物更具有通用性和鲁棒性。另外,上述实施例可以克服一次实验。
24、产生的质谱数据较少的问题,充分利用不同实验室产出的数据进行分析,节约实验成本。0066 优选地,如图2所示,上述实施例的装置还可以包括筛选模块4。筛选模块4用于将n个蛋白质定量结果的蛋白质标号进行匹配,对出现在大于或等于预设数量的蛋白质定量结果中的蛋白进行保留,否则抛弃,得到筛选后的蛋白质定量结果,其中,整合模块2用于将筛选后的蛋白质定量结果分别转换为n组数据,每组数据均在同一数值范围内。其中,预设数量优选为三个。通过筛选模块4进行筛选,筛除不具备共性的蛋白质标号的数据集,可以便于后续步骤选取具有共性的蛋白质标号。0067 优选地,上述实施例的装置还可以包括校验模块5。校验模块5用于验证生物标。
25、志物是否正确,其中,整合模块2还用于在校验模块5验证生物标志物为不正确时,再次将n个蛋白质定量结果分别转换为n组数据,每组数据均在同一数值范围内;当校验模块5验证生物标志物为正确时,结束验证。校验模块5用于判断前述的模块的处理所得的生物标志物是否能通过质谱数据集准确地预测疾病,如不能预测或者预测结果不令人满意,则调整上述各模块的算法或者质谱数据集的来源,重新进行计算获取生物标志物,直至得到符合要求的生物标志物。说 明 书CN 103336915 A5/10页80068 优选地,上述的校验模块5可以包括分类模块51和判断模块52。其中,分类模块51用于采用生物标志物对p个疾病质谱数据集以及k个正。
26、常质谱数据集进行分类,其中,p和k均为正整数;判断模块52用于根据分类结果判断生物标志物是否正确。其中,p个疾病质谱数据集以及k个正常质谱数据集均是已知的,p个疾病质谱数据集中至少部分与前述用于获取生物标志物的n个疾病质谱数据集来源不同,这样能更好地验证生物标志物的通用性。0069 图3是本发明优选实施例的基于质谱数据获取生物标志物的方法流程示意图。如图3所示,该方法包括如下的步骤S1至步骤S5:0070 步骤S1:取与同一疾病相关的n个疾病质谱数据集,并通过上述的定量模块1分别对每个疾病质谱数据集中的蛋白进行蛋白质定量,得到n个蛋白质定量结果,n为正整数;0071 优选地,步骤S1中进行蛋白。
27、质定量的算法为基于质谱分析的绝对定量法或者相对定量法,优选采用为稳定同位素标记法或者无标记定量法。0072 上述步骤中的对照组为:取q个正常质谱数据集进行步骤S1中的蛋白质定量,并进行步骤S3中的转换后所得的q组数据,q为正整数。对照组的蛋白质定量方法以及转换的算法需与相比较的疾病质谱数据集采用的算法保持一致,根据对照组所得的多组数据与n组根据n个疾病质谱数据集所得的数据在同一数值范围内,以形成可比较的数据集,以便进行差异蛋白分析计算。在实际应用时,上述实施例采用的疾病相关的质谱数据集一般来自各种文献和数据库中,这些文献和数据库中常存储有对应的对照组数据,也可一并用于上述实施例中。0073 步。
28、骤S3:通过上述的整合模块2将n个蛋白质定量结果分别转换为n组数据,每组数据均在同一数值范围内;0074 优选地,上述步骤S3中的转换的算法(即数据整合算法)优选为中位值整合法或者相对位置排序法。实际应用中,并不限定转换的具体算法(即数据整合算法),只需能实现将多组质谱数据集整合转换为同一数值范围内,变成可比较的数据即可。0075 步骤S5:通过上述的差异比较模块3将n组数据与对照组进行比较,取与对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。0076 上述实施例中,步骤S5中统计差异概率值是采用差异蛋白分析算法计算的P值(Probability,概率),例如可取p0.01(即预设。
29、显著阈值为0.01),从而获得生物标志物。差异蛋白分析算法优选采用倍数法、T检验法或者SAM法,实际应用中,并不限定于某种具体的方法,只要能挑选出疾病数据集与对照组具有显著性统计差异的蛋白即可。0077 上述实施例利用不同实验室产出的不同来源的多个疾病相关质谱数据集进行分析,并分别转换成同一数值范围内的多个可比较的数据集,以获取通用的生物标志物。其通过对不同质量的质谱数据源进行整合,能使得预测疾病的生物标志物更具有通用性和鲁棒性。另外,上述实施例可以克服一次实验产生的质谱数据较少的问题,充分利用不同实验室产出的数据进行分析,节约实验成本。0078 其中,在步骤S1之后,步骤S3之前,上述实施例。
30、还可包括步骤S2:通过上述的筛选模块4将n个蛋白质定量结果的蛋白质标号进行匹配,对出现在大于或等于预设数量的蛋白质定量结果中的蛋白进行保留,否则抛弃,得到筛选后的蛋白质定量结果;其中,步骤说 明 书CN 103336915 A6/10页9S3中的n个蛋白质定量结果为筛选后的蛋白质定量结果。优选地,预设数量为三个。通过该步骤进行筛选,筛除不具备共性的蛋白质标号的数据集,可以便于后续步骤选取具有共性的蛋白质标号。0079 其中,在完成步骤S5后,上述实施例还可包括步骤S6:通过上述的校验模块5验证生物标志物是否正确;步骤S7:当生物标志物不正确时,重复步骤S3至步骤S6;当生物标志物正确时完成并结。
31、束验证。0080 优选地,上述实施例的步骤S6包括如下所示的步骤S61至步骤S62:0081 步骤S61:通过上述的分类模块51采用生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类,得到分类结果,所述p和k均为正整数;优选地,步骤S61中进行分类的算法是投票法、支持向量机算法及决策树算法中的一种或者任意几种的组合;0082 步骤S62:通过上述的判断模块52根据分类结果判断生物标志物是否正确。0083 以下结合附图对上述实施例中主要涉及的蛋白质定量方法、数据整合算法以及差异蛋白分析算法进行进一步的具体说明:0084 蛋白质定量方法0085 蛋白质定量方法是通过研究正常和疾病状态下细。
32、胞蛋白质组的整体及动态变化情况。其可以为生物标志物发现、疾病诊断与治疗提供重要信息,也将为生物功能等研究提供有力支持。蛋白质定量方法包括绝对定量方法和相对定量方法。绝对定量方法是测定目的基因在样本中的分子数目(即拷贝数)。相对定量方法是测定目的基因在两个或多个样本中的含量的相对比例。0086 质谱分析技术0087 质谱分析技术是实现大规模、高通量蛋白质定量的主要方法。其基本原理是,利用质谱图谱中包含的质荷比及信号强度信息对肽段和蛋白质进行规模化鉴定和定量,比较不同条件下蛋白质表达丰度的差异,寻找表达差异显著的蛋白质,然后利用其它实验技术进行验证。基于质谱的定量分析包括稳定同位素标记和无标记两种。
33、方法。0088 稳定同位素标记法0089 稳定同位素标记法是通过代谢、化学标记等方法在肽段上引入质量标签,在同一次实验中分析不同标记的混合样本,同时得到不同样本中肽段/蛋白质的响应信号。稳定同位素标记方法定量的精度较高。图4是本发明优选实施例的基于鸟枪法实验策略的稳定同位素标记法的质谱数据处理流程示意图,如图4所示,该方法的定量数据处理包括以下4个步骤:0090 步骤S21A:搜库鉴定。利用二级图谱进行数据库搜索,进行结果过滤和评估,鉴定肽段和蛋白质。其中,通过对病人的离体的组织(如肿瘤)、细胞(如血液、血浆等)或体液等进行化学标记,然后进行质谱分析得到一级图谱,可进而得到二级图谱;0091 。
34、步骤S22A:图谱定量信息提取与计算。肽段经过轻重标记后会附加质量不同的质量标签,它们在一级图谱中将表现为具有固定质荷比差异的谱峰,而峰的信号强度就是最基本的定量信息。这种情况下,定量信息主要隐藏在一级图谱中,大部分现有标记技术都属于这种情况,只有iTRAQ标记(isobaric tags for relative and absolute quantitation,同位素标记相对和绝对定量)的定量信息主要包含在二级图谱中。针对上述两种情况,图谱定量信息提取就需要从一级或二级图谱中提取特征峰的信号强度或相关说 明 书CN 103336915 A7/10页10信息量。例如,高精度质谱仪给出的是谱。
35、模式图谱,同位素峰簇面积与肽段丰度成正比,从而构成了定量信号。在提取出信号强度后,还需要进行噪声去除、面积积分等计算才能得到肽段的基本定量信息;0092 步骤S23A:肽段丰度比计算。由于肽段的色谱峰会持续一段时间,在这个过程中肽段会被质谱仪多次加以分析,所以,需要将肽段色谱流出时间内提取的定量信息加以综合。一般通过构建肽段的离子流色谱峰,来综合表示流出时间内多个分析时刻包含的定量信息,并在此基础上计算与肽段丰度成正比的定量指标,进一步计算肽段的丰度比;0093 步骤S24A:蛋白质丰度比计算。通过蛋白质与肽段的对应关系,从肽段丰度比推断得出蛋白质丰度比。0094 无标记定量法0095 无标记。
36、定量法是对不同状态下的样本单独进行质谱分析,其直接分析大规模鉴定蛋白时所产生的质谱数据,无需进行标定处理。其对实验的可重复性要求较高,但不需要进行稳定同位素标记,应用范围较广。图5是本发明优选实施例的无标记定量法的典型计算流程示意图。根据其不同的实验策略,无标记定量主要有液相色谱-质谱联用技术(LC-MS)和液相色谱-串联质谱联用技术(LC-MS/MS)两种,其主要差别在于是否利用串联质谱分析来鉴定肽段和蛋白质。两种实验策略在数据分析流程上有很大不同,其计算流程分别对应于图5中的流程一和流程二。0096 如图5中流程一所示,无需鉴定结果的定量方法是针对液相色谱-质谱联用(LC-MS)策略的实验。
37、数据处理方法,其以一级图谱数据为处理对象。其定量数据处理主要包括以下6步:0097 步骤S11B:数据预处理及谱峰检测。主要目的是从含有大量噪声的单张一级图谱中提取真实的肽段信号峰;0098 步骤S12B:基于信号强度提取肽段定量信息。在保留时间轴上,构建肽段的离子流色谱峰(extracted ion chromatography,XIC),并根据XIC计算出肽段的丰度表征;0099 步骤S13B:保留时间对齐。目的是为了消除不同实验中同一肽段的色谱保留时间偏差;0100 步骤S14B:数据归一化。消除不同实验之间肽段信号强度的系统误差;0101 步骤S15B:肽段/蛋白质序列匹配。无序列信息。
38、的目标肽段可以通过精确质量时间标签进行数据库搜索或通过靶标式LC-MS/MS分析匹配到肽段/蛋白质序列;0102 步骤S16B:蛋白质丰度比计算及统计学分析。由肽段的定量值推断出对应蛋白质的丰度比,然后通过统计学分析找出显著性差异表达的蛋白质,从而确定候选生物标志物。0103 如图5中流程二所示,需要鉴定结果的定量方法是针对LC-MS/MS策略的实验数据处理方法,其数据处理步骤包括以下3步:0104 步骤S11C:数据库搜索及结果质量控制。利用二级图谱,通过数据库搜索和结果质量控制,得到高可信度的肽段和蛋白质的鉴定结果。0105 步骤S12C:定量信息提取。有两种不同方法信号强度法和图谱计数法,分别对应图5中流程二的和。方法利用肽段的鉴定信息返回到一级图谱中提取肽段的XIC,并根据XIC计算肽段的丰度表征;方法则把蛋白质中肽段的鉴定图谱总数作为定量指标,只能用于定量蛋白质。说 明 书CN 103336915 A10。