《依据谱数据的样本分类方法、创建数据库的方法和使用该数据库的方法、以及相应的计算机程序、数据存储介质和系统.pdf》由会员分享,可在线阅读,更多相关《依据谱数据的样本分类方法、创建数据库的方法和使用该数据库的方法、以及相应的计算机程序、数据存储介质和系统.pdf(35页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201380030388.3 (22)申请日 2013.04.10 2008620 2012.04.10 NL 2009015 2012.06.15 NL G06K 9/00(2006.01) (71)申请人 拜斯帕尔有限公司 地址 荷兰莱顿 (72)发明人 雷内雷蒙德帕钦 阿尔扬劳伦范乌伊杰克胡吉斯 阿德里安努斯博斯 (74)专利代理机构 北京安信方达知识产权代理 有限公司 11262 代理人 宁晓 郑霞 (54) 发明名称 依据谱数据的样本分类方法、 创建数据库的 方法和使用该数据库的方法、 以及相应的计算机 程序、 数据存储介质和系。
2、统 (57) 摘要 本发明涉及以谱数据为基础的样本分类方 法, 创建数据库的方法和使用该数据库的方法, 以 及相应的计算机程序, 数据存储介质和系统。方 法包括 : a) 获得用于作为参考谱的至少两组第一 谱, 每组包括属于同一类的参考样本谱 ; b) 确定 每个参考谱的涉及谱特征的相同的至少一个量的 值 ; c) 在确定的值的基础上, 关联概率与量的不 同的值 ; d) 从样本中获得谱并确定该谱的相同的 至少一个量的值 ; 和 e) 以获得的所述至少两类中 的每类的谱的概率和量的值为基础, 计算样本属 于该类的概率。 (30)优先权数据 (85)PCT国际申请进入国家阶段日 2014.12.。
3、09 (86)PCT国际申请的申请数据 PCT/NL2013/050260 2013.04.10 (87)PCT国际申请的公布数据 WO2013/154425 EN 2013.10.17 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书19页 附图13页 (10)申请公布号 CN 104380311 A (43)申请公布日 2015.02.25 CN 104380311 A 1/2 页 2 1. 一种用于在谱数据的基础上对至少两类中的一类中的样本进行分类的方法, 所述方 法包括 : a) 获得用于用作参考谱的至少两组第一谱, 每个组包括。
4、属于同一类的多个参考样本的 谱 ; b) 确定每个所述参考谱的关于谱特征的相同的至少一个量的值 ; c) 在所确定的值的基础上, 关联概率与所述量的不同值 ; d) 从所述样本获得谱, 并确定这个谱的所述相同的至少一个量的值 ; 以及 e) 在所获得的所述至少两类中的每类的谱的概率和所述量的值的基础上, 计算所述样 本属于所述类的概率。 2.根据权利要求1所述的方法, 其中所述谱数据包括喇曼谱、 近红外谱、 FTIR谱、 频谱、 MALDI MS 谱或 MALDI TOF MS 谱, 优选地为 MALDI TOF MS 谱。 3.根据权利要求1或2所述的方法, 其中, 所述参考谱和获得自所述样。
5、本的所述谱是单 粒子谱。 4. 根据权利要求 1、 2 或 3 所述的方法, 其中所述样本是生物样本。 5. 根据权利要求 4 所述的方法, 其中所述生物样本包括微生物, 且分类包括微生物的 分类。 6. 根据权利要求 1-5 中的任一项所述的方法, 其中, 在参考类的特有谱特征的基础上 选择所述至少一个量。 7. 根据权利要求 1-6 中的任一项所述的方法, 其包括, 针对获得与谱特征量 Qi相关的 值 Ii的样本谱, 计算给定值 Ii时所述样本属于参考类 Aj的概率 P(Aj|Ii), 根据的公式为 : 其中 P(Ii|Aj) 是参考类 Aj与值 Ii关联的概率, 且 k j 时的 P(I。
6、i|Aj) 是不同于参考类 Aj的至少一个参考类与值 Ii相关联的概率。 8.根据权利要求1-7中的任一项所述的方法, 其中步骤b)包括确定每个所述参考谱的 与谱特征相关的相同的至少两个量的值, 且步骤 e) 包括结合获得的关于全部量的概率与 所述样本属于各个类的整体概率。 9. 根据权利要求 1-8 中的任一项所述的方法, 其中所述值与在至少一个预定的谱值处 的强度或在预定的谱值范围内的强度相关。 10. 根据权利要求 1-9 中的任一项所述的方法, 其中所述值被归一化。 11. 根据权利要求 1-10 中的任一项所述的方法, 其中, 通过将在预定谱值范围上的各 个谱的强度乘以权重函数来确定。
7、所述值。 12. 根据权利要求 11 所述的方法, 其中所述权重函数基于同一类谱的累积谱。 13. 根据权利要求 1-12 中的任一项所述的方法, 其中所述值涉及在预定谱值处的强度 之间的比值或预定谱范围内的强度之间的比值。 14. 根据权利要求 1-13 中的任一项所述的方法, 其中所述值涉及在预定谱值范围内的 峰值的位置。 15. 根据权利要求 1-14 中的任一项所述的方法, 其中所述值是向量。 权 利 要 求 书 CN 104380311 A 2 2/2 页 3 16. 根据权利要求 1-15 中的任一项所述的方法, 其中, 针对第一组参考类且随后针对 第二组参考类执行步骤 d) 和 。
8、e), 其中在所述第一组参考类中的一个参考类中的样本分类 的基础上选择所述第二组。 17. 根据权利要求 5 和 16 所述的方法, 其中在生物学分类层次的基础上选择所述第一 组和第二组。 18.根据权利要求1-17中的任一项所述的方法, 步骤d)包括从所述样本获得至少两个 谱并确定这至少两个谱的所述相同的至少一个量的值, 且步骤 e) 包括结合分类在同一类 中的样本谱与累积谱, 并通过结合各个类的所述参考谱来比较该累积谱和累积参考谱。 19. 一种用于创建用于在谱数据的基础上对在至少两类中的一类中的样本进行分类的 数据库的方法, 所述方法包括 : a) 获得用作参考谱的至少两组第一谱, 每组。
9、谱包括属于同一类的参考样本的谱 ; b) 确定每个所述参考谱的与谱特征相关的相同的至少一个量的值 ; 以及 c) 在所确定的值的基础上, 关联概率与所述量的不同的值。 20. 一种使用根据权利要求 19 所述的方法获得的数据库, 在谱数据的基础上对在至少 两类中的一类中的样本进行分类的方法, 所述方法包括 : d) 从所述样本获得谱, 并确定该谱的所述相同的至少一个量的值 ; 以及 e) 在从所述数据库获得的概率和所获得的所述至少两类中的每类的谱的所述量的值 的基础上, 计算所述样本属于所述类的概率。 21. 一种计算机程序, 当在计算机上执行所述计算机程序时, 执行根据前述权利要求中 的任意。
10、一项所述的方法的步骤。 22. 一种数据存储介质, 其包括根据权利要求 21 所述的计算机程序。 23. 一种用于在谱数据的基础上分类样本的系统, 所述系统包括 : - 设置为从样本获得谱的装置 ; - 设置为执行根据权利要求 1-20 中的任一项所述的方法的分析装置。 24. 根据权利要求 23 所述的系统, 其包括设置为从样本获得单粒子谱的装置。 权 利 要 求 书 CN 104380311 A 3 1/19 页 4 依据谱数据的样本分类方法、 创建数据库的方法和使用该 数据库的方法、 以及相应的计算机程序、 数据存储介质和系 统 0001 本发明涉及用于在谱数据的基础上对属于至少两类中的。
11、一类的样本进行分类的 方法。例如, 谱数据包括喇曼 (Raman) 谱、 近红外谱、 FT-IR 谱、 频谱、 MALDI MS 谱、 MALDI TOF-MS 谱。用这些技术中的一个获得的谱可与样本成分 ( 即呈现在样本中的分子 ) 相关。 0002 然而, 不考虑用于获得谱的技术, 在属于同一类的样本的谱之间发生了变化。 这些 变化可归因于随机效应。这些随机效应可涉及测量技术或在调查下的样本, 或二者兼而有 之。 0003 因此, 常规的分析谱数据的方法要求被分类的谱获得自具有大量粒子 ( 诸如分 子 ) 的样本。通过要求大量粒子, 由于随机过程的谱中的特征相比于由稳定过程引起的特 征将被。
12、抑制。 然而, 这使得常规方法不适合用于分析具有较少数量粒子的样本。 当随机效应 主要是由于测量技术本身时, 常规方法要求待被分类的谱为所谓的总谱, 也被称为累积谱, 通过增加相同样本的大量谱而获得。通过这种方法, 由于测量技术的随机过程将在总谱中 得到抑制。然而, 当不能获得总谱时, 这使得常规方法不适合用于分类样本。 0004 以上问题将针对其中使用质谱分析法 (MS) 获得谱数据的示例性例子进行说明。 0005 传统 MS 谱, 且特别是飞行时间 (TOF) 质谱在质量上显示大的离子强度, 该质量对 应于通过电离形成的离子流中的高度丰富的离子质量。通常, 这些高度丰富的离子来自于 出现在。
13、分析物中的高度丰富的分子。 0006 然而, 因为在电离分子的情况下容易存在大的可变性, 故高度丰富的分子的出现 将不会自动地产生大的离子强度。 0007 此外, 电离的效率依赖于大量因素, 其可在电离事件到电离时间之间强有力地改 变。实例为存在的分析物数量、 基质和分析物的比值、 基质的晶体结构、 及在基质晶体和分 析物的位置处的激光束的强度。因此, 通过各单独电离事件产生的离子强度会显著变化。 0008 最重要的是, 在电离期间, 考虑的分子会分裂成更小的部分, 有些分子可能获得两 倍或三倍的电荷, 分子可聚集到流当中, 等。因此, 除了发生在对应于分析物分子质量的质 量上的高离子强度, 。
14、单独电离事件谱将在不与分析物分子质量相关的位置处显示峰值。然 而, 由于分裂、 充电和聚集的过程本质上是高度随机的, 故非相关的峰值的位置将在电离事 件和电离事件之间强烈地变化。 0009 为产生可靠和稳定的谱, 在关于 MALDI MS 的传统的分类方法中, 累加了记录在靶 板地点上不同位置处的单独电离事件的数量。 0010 因此, 对比于由稳定过程引发的离子强度, 电离期间将抑制由随机过程引发的离 子强度。 稳定过程将产生总谱中的高强度的窄区域(峰值), 而带更多随机性质的过程将产 生总谱中的宽的低强度响应 ( 基准 )。 0011 在总谱出现的峰值可与在分析物中容易地(有效地)电离的、 。
15、丰富的分子相关联。 通常这些峰值被用于谱的分类, 且因此被认为描述谱特征的特征。 0012 因为合成谱来源于记录在靶板地点上不同位置处的大量单独电离事件, 故这些常 说 明 书 CN 104380311 A 4 2/19 页 5 规 MALDI 谱是样本的许多粒子的谱的总和。例如, 在样本包括微生物的一些情况下, 常规方 法依赖于获得自许多微生物的谱。 0013 当对单粒子谱应用常规方法时, 出现相似的问题, 单粒子谱诸如单气溶胶粒子谱。 在常规的方法中, 为产生可靠和稳定的谱, 获得自来源于单个独立种群的微生物的大量的 单气溶胶谱被结合到总谱中。这个总谱以有限数量的不同谱特征 ( 峰值 ) 。
16、叠加在光滑的基 准上为特征。 0014 建立累积谱的各个单粒子谱以大量峰值和不存在基准为特点。 一些峰值发生在与 累积谱中峰值位置相一致的位置上, 其它峰值发生在不与累积谱中峰值位置相一致的位置 上。此外, 看起来单粒子谱呈现大量的点对点变化。 0015 图 1 示出累积自大量单粒子谱的谱 (P) 的实例, 其中单粒子谱获得自源于单独独 立种群的样本, 其中还包括一些典型的基本单粒子谱的实例 (Q、 R、 S、 T)。 0016 由于大量的点对点变化和在单粒子峰值位置和累积谱峰值位置之间的有限关联, 某一位置(质量过载)的谱的振幅和带相关的质量的离子形成的物质的存在之间不存在确 定性关系。 0。
17、017 以上实例说明分析谱数据的常规方法的问题。这些方法不能直接地处理单粒子 谱, 因为他们没有考虑以上点对点的变化。此外他们不能处理由于测量技术的变化, 诸如, 如以上描述的在 MALDI MS 中由于电离的变化。 0018 本发明的目的是提供用于在谱数据的基础上对属于至少两类中的一类的样本进 行分类的改进方法, 当属于同一类的谱显示出变化时其是有效的和可靠的。 0019 根据本发明, 通过在谱数据的基础上对在至少两类中的一类中的样本进行分类的 方法来完成该目的, 该方法包括 : 0020 a) 获得至少两组第一谱用于作为参考谱使用, 每组包括属于同一类的参考谱样 本 ; 0021 b) 为。
18、每个参考谱确定与谱特征有关的相同的至少一个量的值 ; 0022 c) 在确定值的基础上, 关联概率与量的不同的值 ; 0023 d) 从样本获得谱, 并确定这个谱的相同的至少一个量的值 ; 以及 0024 e) 在关于获得的所述至少两类中的每类的谱的量的概率和值的基础上计算样本 属于该类的概率。 0025 步骤 a)-c) 描述了参考库的创建。步骤 d) 和 e) 描述了对比样本和这个参考库。 0026 在步骤b), 针对每个参考谱确定了相同的至少一个量的值。 例如, 对谱数据执行数 学操作, 以获得该值。换句话说, 步骤 b) 描述通过对每个参考谱应用预定的函数或操作而 获得分值 ( 值 )。
19、。 0027 步骤 b) 的结果是每个参考谱已与其至少一个值关联, 每个值对应于预定的量, 即 对谱的预定操作。下一步, 对于每一组参考谱, 在针对该组中谱确定的值的基础上, 概率与 至少一个量的不同值相关联。这可被认为是构造概率密度函数 (PDF)。例如, PDF 是离散概 率密度函数, 例如其可表示为数组或直方图。 0028 步骤 a)-c) 的最终结果是每组参考谱已针对至少一个量中的每个量关联的各个 量的值的 PDF。例如, 在 MS 谱数据情况下, 选择的一个量是谱的强度, 也称为谱振幅, 在 M/Z 1000Dalton。在这个实例中, 对于每组参考谱 PDF 为强度在 M/Z 10。
20、00Dalton 时创建。 说 明 书 CN 104380311 A 5 3/19 页 6 值得注意的是, 通常对于不同组的参考谱 PDF 将显著不同, 因为不同组的参考谱对应于不 同的类。 0029 在步骤d), 获得样本的谱, 且此外关于这个谱的至少一个量的值被确定。 在先前构 造的 PDF 的基础上, 在步骤 e) 中计算样本属于每一个参考类的概率。 0030 因此根据本发明的方法使用每个类的量 ( 与预定的操作 / 函数有关 ) 的值 ( 分 值)的PDF, 故该方法考虑同一类的谱中的变化。 特别地, 值得注意的是, 通过至少一个量的 值表示的特征的存在和不存在都在根据本发明的方法中被。
21、考虑。 0031 根据本发明的方法的另一优点是在步骤 e) 中的最终结果是概率。因为概率是归 一化的量, 即概率是0到1之间的值, 故样本谱属于第一参考类的概率可以与谱属于第二类 的概率相比较。这是超越常规方法 ( 其中分值被计算而不是归一化 ) 的一个优点。 0032 此外, 本发明使得定义用于接受或拒绝分类的标准成为可能。 通常, 谱将被分配给 类, 其为样本谱属于该类的概率最高的类。 然而, 这个概率可能是相对低的, 例如0.2。 该发 明使得定义表示关于可接受的分类的最小值的阈值成为可能。 关于所有类的最大概率低于 阈值时不分类样本谱, 即它们被分类到未知类中。当如在常规方法中的非归一。
22、化分值被使 用时这种过程是不可能, 因为在那种情况下阈值将是任意的。 0033 根据本发明的方法的优选方案中, 谱数据包括喇曼谱、 近红外谱、 FT-IR 谱、 频谱、 MALDI MS 谱或 MALDI TOF-MS 谱, 优选地为 MALDI TOF-MS 谱。 0034 如以上指出的, 特别地在MALDI MS谱和MALDI TOF-MS谱中, 属于同一类粒子的谱 之间的变化是相当大的。因此, 根据本发明的方法对于这些测量技术是特别有利的。 0035 在本发明的优选的实施方案中, 获得自样本的参考谱和谱是单粒子的谱。 0036 这代表小数量粒子的极端情况。如上所述, 根据本发明的方法能够。
23、说明在属于同 一类的谱中的变化, 其将特别地存在于单粒子谱中。 0037 如以上提及的, 可在单粒子和两个或多于两个粒子以及甚至许多粒子下应用根据 本发明的方法。 0038 优选地, 该方法包括使用 MALDI MS 从样本获得单粒子谱, 优选地使用 MALDI TOF-MS。这使得粒子混合物的分析成为可能。取代分析获得自混合物的多种粒子的谱, 即 复合谱, 获得的关于混合物的单粒子和各个粒子的谱在单粒子谱的基础上进行分类。 0039 例如, 单粒子的MALDI质谱, 诸如MALDI TOF MS谱, 其通过将样本分成包含至多一 个粒子的液滴而获得。 通过这些形成了液滴气溶胶, 其随后使用MA。
24、LDI MS进行电离和分析。 参考 WO 2010/021548, 其通过参考以其整体被合并, 其描述了产生包含用于通过 MALDI MS 后续分析的至多一个细胞的液滴的系统和方法。通过使用这种设备, 获得混合物的各个细 胞的谱。这些谱可使用根据本发明的方法分类, 以获得样本成分的分类。 0040 在优选的实施方案中, 样本为生物样本。 0041 生物样本包括有机体 ( 诸如微生物 ) 分子, 或由这种有机体产生的分子, 如蛋白。 特别地, 获得自样本的参考谱和谱为生物样本的单粒子谱。属于同一类的生物样本的谱的 变化是特别明显的, 使得本发明的方法对于生物样本是特别有利的。这些变化例如来源于 。
25、有机体的生命周期和同一类 ( 例如种 ) 的有机体的个体之间的差异。 0042 根据本发明的另外优选的实施方案中, 生物样本包括微生物且分类包括微生物分 类。 说 明 书 CN 104380311 A 6 4/19 页 7 0043 优选地, 获得自样本的参考谱和谱为单微生物谱。 这使能分析微生物的混合物。 例 如, 微生物的混合物被稀释并随后被分为包含至多一个粒子的液滴, 且随后使用 MALDI MS 从液滴获得谱, 诸如以上描述。 0044 在根据本发明的优选的实施方案中, 在参考类的特有谱特征的基础上, 至少一个 量被选择。 0045 例如, 在步骤 a) 到 c) 中获得了类 A、 B。
26、 和 C 的涉及类 A 的特有谱特征的量的值的 PDF。例如, 类 A 的谱示出了在位置 X 的作为特有谱特征的峰值。相应地, 选择在位置 X 的 谱强度作为值 ( 分值 )。计算所有类 A、 类 B 和类 C 的在位置 X 的这种强度。因为在位置 X 的峰值对于类 A 是特有的, 故获得的类 A 的 PDF 将示出在 X 的高强度的高概率。通常, 类 B 和类 C 将示出在位置 X 的高强度的较低概率。所以通过选择某一类的特有谱特征作为至少 一个量中的一个, 在特有的谱特征存在或不存在的基础上, 该方法能够确定谱是否属于这 个类。 0046 优选地, 在优选地多于一个参考类的优选地多于一个的。
27、特有谱特征的基础上, 选 择多于一个的量。例如, 对于类 A、 B 和 C, 计算分值 I1和 I2, 其涉及参考类 A 的两种不同的 谱特征。在另一实例中, 计算分值 I1、 I2和 I3, 其中 I1涉及类 A 的谱特征, I2涉及类 B 的谱 特征且 I3涉及类 C 的谱特征。 0047 优选地, 在参考类的累积谱的基础上, 特有谱特征被确定。例如, 可通过求和属于 同一类的各个参考样本的谱而获得参考类的累积谱。 如上所述, 这些累积谱将示出特征, 其 对于给定类是特有的, 虽然它们可能不存在于类的每个单个谱中。 值得注意的是, 如步骤a) 中所示, 通过增加每组的参考谱和确定累积谱的特。
28、有谱特征, 可使用多组参考谱确定量。 0048 优选地, 特有谱特征包括在参考类的累积谱中的峰值。 例如, 将峰值寻找算法应用 到累积谱以找到特有峰值的位置。然后, 选择的量为在这些峰值位置或在包括这些位置的 预定间隔处的强度。 0049 在本发明的优选的实施方案中, 该方法包括针对样本谱进行计算, 其中获得值 Ii, 其涉及谱特征量 Qi, 根据下式获得给定值 Ii时样本属于参考类 Aj的概率 P(Aj|Ii) : 0050 0051 其中 P(Ii|Aj) 为参考类 Aj与值 Ii相关联的概率, 且 k j 时的 P(Ii|Ak) 是至少一 个不同于参考类 Aj的参考类与值 Ii相关联的概。
29、率。 0052 特征 Qi优选地涉及特定类的特有特征。例如, 量 Q1、 Q2与类 A1的特征相关联, 且 量 Q3、 Q4和 Q5与类 A2的特征相关联。 0053 值的注意的是, 在量 Qi与指定类 Aj相关联的情况下, 也可使用这个量以获得不同 类 Ak j的概率。用以上实例说明的, 量 Q2的值 I2是用于类 A1的特有特征的测量, 然而, 其 可被使用以计算 P(A2|I1), 即在给定 I1的测量结果时谱属于类 A2的概率。 0054 当类非常不同时, 这将导致非常低的概率。 然而, 对于特征更相似的类这种计算可 变得更重要。 0055 在方法的步骤 c) 中, 每个参考类 Aj的。
30、值 Ii的 PDF 已经被计算。使用这个 PDF 值 计算获得的样本的值的概率P(Ii|Aj)。 这个概率代表如果样本属于参考类Aj时样本将产生 测量值 Ii的概率。根据贝叶斯 (Bayes) 定理, 这可与概率相关, 该概率为给定值 Ii的测量 说 明 书 CN 104380311 A 7 5/19 页 8 结果时样本属于类 Aj的概率。 0056 如在公式中所示, 这种计算也需要在所有其它参考类内的 P(Ii|Ak)P(Ak) 的总和。 此外, 使用在方法的步骤 c) 获得的 PDF 来获得每个 k 的 P(Ii|Ak) 的值。 0057 优选地, 假定概率P(Aj)对于所有j(包括jk)。
31、是相等的。 可以看出因此项P(Aj) 和 P(Ak) 退出方程。如果我们假设样本谱属于参考类的概率对库的每个参考类是相等的, 则这种方法被证明是合理的。当没有可获得的关于样本的内容的先验知识时, 这种方法是 特别有用的。然而, 如果在属于特定类的样本的先验概率比属于其它类的样本的先验概率 更高或更低的基础上, 上述信息是可获得, 那么根据本发明可对 P(Aj) 使用不同的值。 0058 在根据本发明的优选的实施方案中, 步骤 b) 包括针对每个参考谱确定与谱特征 相关联的相同的至少两个量的值, 且步骤 e) 包括将获得的关于所有量的概率结合到样本 属于各个类的整体概率。 0059 如果在使用如。
32、上所述的本发明的方法的分类谱中仅使用了一个量, 那么将获得关 于每个参考类的对应于所述一个量的单概率。 然而, 如果谱的多于一个量被确定, 即至少两 个不同的量被确定, 那么针对每个参考谱获得了对应于每个量的一些概率。根据本发明的 这个实施方案, 结合了这些概率与整体概率, 例如通过逻辑OR和/或AND。 这转换为各个量 的各个概率的总和相加。 0060 这可被表示为关于每个参考类 Aj的函数 F(P(Aj|I1)、 P(Aj|I2)、 .P(Aj|In)。 0061 对于函数 F, 可用公式表示两个极端形式 : 0062 所有 n 个特征存在于类 Aj 0063 0064 n 个特征中的任意。
33、一个存在于类 Aj 0065 0066 其中 0067 0068 除了以上两种极端形式, 可使用任何其它多变量(自学习的)分类方法, 诸如主要 成分分析或支持向量机。 0069 我们注意到关于的表达式可用与如上述关于 P(Aj|Ii) 相似的方法获 得。在这种情况下,的 PDF 在步骤 a)-c) 中从参考类的组中获得。事实上, 单 PDF 在所有不属于类 Aj( 即 k j 的所有参考类 Ak) 的参考谱的值 Ii的基础上获得。例如, 当 选择三个参考类 A、 B 和 C 时, 在获得的关于参考类 A 和 B 的谱的值的基础上, 获得用于计算 的 PDF。 0070 在根据本发明的优选的实施。
34、方案中, 该值涉及至少一个预定谱值的强度或在谱值 的预定范围内的强度。 说 明 书 CN 104380311 A 8 6/19 页 9 0071 例如, 值是其等于预定谱值的强度的标量, 即沿谱的 X 轴的给定位置处的振幅。在 另一个实例中, 值等于谱值的预定范围的强度的总和。 0072 例如, 在质谱中, 该量为预定质量与电荷比值的峰值强度或预定范围内的质量与 电荷比值的峰值强度。 0073 优选地, 在参考类的特有谱特征的基础上选择预定谱值或预定谱范围。 例如, 选择 谱值或谱值的范围作为其中参考类的总谱示出了谱中的峰值的值或范围。 0074 在优选的实施方案中, 获得的值被归一化。 00。
35、75 归一化校正在不同谱的强度中的变化, 例如由于 MS 谱中的全部离子场的变化。例 如, 这种变化可由于随机效应或由于测量系统的漂移而发生。 此外, 当使用两个或多于两个 的测量系统以获得用于该方法的谱数据时, 预期不同系统获得的谱的强度存在差异。 0076 因此, 归一化导致更可靠的算法。 例如, 通过将值除以整个谱或部分谱上的强度的 总和而归一化该值。然后, 根据方法的步骤 c) 使用归一化的谱以获得 PDF。另外, 归一化从 样本谱获得的值以对比每个参考类的相应的量的 PDF。 0077 在另外的优选的实施方案中, 通过将预定的谱值范围上的各个谱乘以权重函数而 确定值。 0078 例如。
36、, 如果谱表示为向量, 即表示谱的振幅的预定数量的标量的数组, 则权重函数 采用权重向量的形式。在这种情况下权重函数乘以谱对应于进行权重向量和谱向量的点 乘。 0079 在实践中, 对于给定的量, 谱的某一区域比其它区域更相关。 这可通过与权重函数 相乘来解释。例如, 整个谱乘以权重函数。然而, 在大多数情况下仅选择谱的感兴趣的某一 区域并乘以权重函数。我们注意到这等价于整个谱乘权重函数, 其中权重函数在感兴趣区 域之外具有 0 值。 0080 优选地, 方法包括归一化值和与权重函数相乘。我们注意到可通过选择适当的权 重函数结合这些步骤。 0081 如上所述, 权重函数对谱的重要部分给出更大的。
37、权重。实际构成重要部分的谱部 分可以基于各个类的累积谱。例如, 将峰值寻找算法应用到累积谱以找到在总的谱中的峰 值位置, 并选择权重函数使得其相对于谱的其它部分, 对在峰值处的和 / 或围绕峰值的位 置处的强度设置更大的权重。例如, 确定了在累积谱中的峰值并确定该峰值的宽度。然后, 选择权重函数作为谱的拷贝, 其中将在峰值宽度之外的权重函数的值设为零。 可选地, 权重 函数还针对累积谱的基准进行修正。 优选地, 权重函数被归一化, 使得其值的总和等于1, 或 使谱曲线下的面积等于 1。 0082 固有地, 以上实例的权重函数将把最大权重放在峰值的最大值处, 且把更小的权 重放在远离峰值的强度处。
38、。 0083 在根据本发明的另外的优选的实施方案中, 该值涉及在至少两个预定谱值之间的 强度或在至少两个预定谱范围内的强度之间的比值。 0084 这具有的优势是, 该值对谱的某些区域间的关联是敏感性的。 0085 在可替换的实施方案中, 该值涉及在预定的谱值的范围内的峰值的位置。 0086 如以上所提及的, 该值可以是标量值。然而, 在根据本发明的优选的实施方 案中, 该值是向量。在这种情况下, 与向量相关联的概率将是多变量概率密度函数 说 明 书 CN 104380311 A 9 7/19 页 10 P(I1,I2,|Aj)。例如, 向量的元素涉及不同的量, 即涉及不同谱特征的值。在极端情况。
39、下, 仅一个向量被计算, 其中向量的元素对应于所有被选择的谱特征。 在这种情况下, 使用逻辑 “与” 和 / 或逻辑 “或” 结合不同量的概率, 例如结合使用如上所述的函数 F() 的这些概 率, 是不必要的。 0087 在根据本发明的优选的实施方案中, 针对第一组参考类且随后针对第二组参考类 执行步骤 d) 和 e), 其中在第一组的参考类中的一个中的样本的分类基础上选择第二组。 0088 这定义了参考库的层次结构。首先在主类 ( 第一组参考类 ) 中分类样本, 且随后 在主参考类的子类中 ( 第二组参考类 ) 进行分类。这在计算上比使用包括全部最低等级类 的参考库的分类更不精细。因此, 根。
40、据本发明该方法是有效地。 0089 此外, 对于每个分类步骤, 样本与包含相对较少的参考类的参考库相比较。因此, 可选择各组参考类使得每组参考类示出少量重叠且分类质量提高。 0090 优选地, 在有机体分类层次结构的基础上选择第一组和第二组。 0091 例如, 当样本包括生物样本, 使用可由用于样本分类的生物分类层次结构构成。 例 如分类组的选择是基于微生物的顺序、 家族、 基因、 种类或菌株。 0092 在优选的实施方案中, 步骤 d) 包括从样本中获得至少两个谱并确定这些至少两 个谱的相同的至少一个量的值, 且步骤 e) 包括将分类在同一类中的样本谱结合到累积谱, 并对比该累积谱与通过结合。
41、各个类的参考谱获得的累积参考谱。 0093 此步骤提供了分类的可选的最终检查。从样本中获得多个谱。如上所述分类这些 样本谱。随后, 结合 ( 例如增加 ) 分类在同一类中的谱以获得累积样本谱。此累积样本谱 与各个类的参考谱的累积谱比较。 0094 我们注意到, 样本可包含成分的混合物, 例如不同的分子或微生物的混合物。因 此, 这样的混合物的谱可被分类在不同的类中。在此情况下, 组合每类谱。 0095 例如, 样本包含粒子 A 和 B。从该样本中, 获得 100 个单粒子谱。使用本发明的方 法, 89 个谱被分类为属于类 A 且 11 个被分类为属于类 B。随后, 对于类 A, 累积样本谱通过。
42、 结合 89 个样本谱中的各个样本谱获得。另外, 对于类 B, 累积样本谱使用 11 个谱中的各个 谱获得。然后, 类 A 和类 B 的累积样本谱与类 A 和类 B 的累积参考谱对比。这提供了最终 检查。 0096 优选地, 累积样本谱和累积参考谱的比较, 将更多的权重放在不同于步骤 b) 的至 少一个量的量上。换句话说, 最终检查将更多的权重放在还没有被用于分类样本谱的谱特 征上。优选地, 仅考虑这些特征, 即步骤 b) 的至少一个量没有在比较中使用。 0097 这确保了最终检查是基本上或者完全独立于分类步骤。 0098 优选地, 使用第一组参考类执行方法, 且随后使用第二组参考类执行该方法。
43、, 其中 在累积样本谱和累积参考谱之间比较的基础上选择第二组。 0099 定义了层次分类程序。该样本首先使用第一参考类的库的分类。该分类使用累积 样本谱和累积参考谱证实。如果该比较导致可进一步在子类中划分该样本的结论, 则样本 随后与第二库比较。 0100 例如, 比较揭示了相比于累积参考谱, 附加峰值存在于样本的累积谱。 这表明样本 可含有粒子的混合物, 例如属于不同的类的分子或微生物。 因此, 样本随后与第二组参考类 比较。 说 明 书 CN 104380311 A 10 8/19 页 11 0101 本发明还涉及创建用于在谱数据的基础上对在至少两类中的一类中的样本分类 的数据库的方法, 。
44、所述方法包括 : 0102 a) 获得至少两组用作参考谱的第一谱, 每个组包括属于同一类的参考样本的谱 ; 0103 b) 确定关于每个参考谱的相同的至少一个涉及谱特征的量的值 ; 以及 0104 c) 在确定值的基础上, 关联概率到量的不同的值。 0105 此外, 本发明涉及在使用以上方法获得的数据库的谱数据的基础上, 用于对在至 少两类中的一类中的样本分类的方法, 该方法包括 : 0106 d) 从样本获得谱, 并确定此谱的相同的至少一个量的值 ; 以及 0107 e) 基于从数据库获得的概率和获得的谱的量的值, 针对所述至少两类中的每类计 算样本属于该类的概率。 0108 本发明还涉及一。
45、种计算机程序, 当在计算机上执行所述计算机程序时, 执行上面 描述的方法之一的步骤, 以及还涉及包括这样的计算机程序的数据存储介质。 0109 此外, 本发明涉及一种系统, 其用于在谱数据的基础上分类样本, 所述系统包括 : 0110 - 装置, 其设置为从样本获得谱 ; 0111 - 分析装置, 其设置为执行如上所述的根据本发明的方法。 0112 如所描述的用于在谱数据的基础上分类样本的方法的相同优点和影响适用于创 建数据库的方法、 使用根据本发明的数据库、 计算机程序、 存储介质和系统的方法。 特别地, 结合用于在谱数据的基础上分类样本的方法的所描述特征可与创建数据库的方法、 使用根 据本。
46、发明的数据库、 计算机程序、 存储介质和系统结合的方法。 0113 在根据本发明的系统的优选的实施方案中, 该系统包括设置为从样本获得单粒子 谱的装置。 例如, 该系统包括设置为创建样本的液滴使得液滴包含至多一个粒子的装置, 以 及设置为获得谱的装置被设置为从各个液滴获得谱。 0114 在本发明的优选的实施方案的基础上阐述本发明的另外的优点、 特征和细节, 其 中参照附图, 在附图中 : 0115 - 图 1 示出了谱 (P), 其从获得自源于单独立种群的样本的大量单粒子谱累积得 到, 同时示出了基本的单粒子谱的一些典型实例 (Q、 R、 S、 T) ; 0116 - 图 2 示出了根据本发明。
47、的包括其子系统的系统的示意性概略图 ; 0117 - 图 3 图示了原始谱的峰形的实例 ( 左图 ) 和归一化的且基准校正后的峰形 ( 右 图 ) ; 0118 - 图 4 示出了谱特征的分值的 PDF 的实例, 其分别针对包含特征诱导物质 (P(I|A) 的粒子集合 ( 种类 A) 和不包含这种物质的集合 ( 种类 B) ; 0119 -图5基于在图4中给出的概率密度函数, 示出了特征诱导物质存在/不存在的概 率, 其作为单电离事件谱特征强度的函数 ; 0120 - 图 6 示出了包含粒子的种类 A 的参考, 其通过累积用于估算在 M/Z 5689 和 M/ Z 8339 的峰值的 PDF 。
48、的单粒子谱进行汇集, 通过竖线表示 ; 0121 - 图 7 示出了包含粒子的种类 B 的参考, 其通过累积用于估算在 M/Z 2187 和 M/ Z 3558 的峰值的 PDF 的单粒子谱进行汇集, 通过竖线表示 ; 0122 -图8示出了含有两种有机体(种类A和种类B)的混合物的样本中记录的单电离 事件谱的序列 ; 说 明 书 CN 104380311 A 11 9/19 页 12 0123 - 图 9 示出了单粒子谱混合物的累积谱 ( 顶部 )、 分配到种类 A 类的单粒子谱 ( 中 间 ) 和分配到种类 B 类的单粒子谱 ( 底部 ) ; 0124 -图10示出了分配给种类A类的粒子累。
49、积谱和源于独立的种类A的粒子累积谱之 间的比较 ; 0125 -图11示出了分配给种类B类的粒子累积谱和源于独立的种类B的粒子累积谱之 间的比较 ; 0126 - 图 12 示出了基于这些菌株中记录的 MALDI 质谱的 95 个金黄色葡萄球菌菌株的 集合的簇聚图 (clustergram) 的实例 ; 0127 - 图 13 示出了根据本发明的层次分类方案。 0128 在示例性实施方案中, 根据本发明的系统 2( 图 2) 被设置为由用于生物材料检测 的气溶胶创建谱, 诸如在空气中使用 MALDI TOF MS 的细菌。本系统和经典的 MALDI 仪器之 间的差异是气溶胶束发生器 4、 12、 14 的入口。