基因组鉴定系统.pdf

摘要
申请专利号：	CN200880124929.8	申请日：	2008.11.21
公开号：	CN102007407A	公开日：	2011.04.06
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G01N 33/48申请公布日:20110406\|\|\|实质审查的生效IPC(主分类):G01N 33/48申请日:20081121\|\|\|公开
IPC分类号：	G01N33/48; G01N33/50; G06F7/00; G06F17/30	主分类号：	G01N33/48
申请人：	考斯摩斯德公司
发明人：	R·R.·科尔韦尔; J·P.·姚库普切克; J·春
地址：	美国马里兰
优先权：	2007.11.21 US 60/989,641
专利代理机构：	永新专利商标代理有限公司 72002	代理人：	林晓红
PDF下载：	PDF下载

内容摘要

本发明属于基因组学与核酸测序领域。其涉及一种对生物材料进行测序以及对测序信息中短字符串进行实时概率匹配来鉴定所有出现在所述生物材料中的物种的新方法。其涉及测序信息的实时概率匹配，更特别涉及单一分子核酸的多个序列中短字符串的比较，所述核酸可是扩增的或者是未扩增的，可是化学合成或者是物理性探询的，随序列信息的产生随时进行，且与持续的序列信息产生与收集并行。

权利要求书

1.一种鉴定样品中生物材料的方法，包括：获得包含所述生物材料的样品，从所述样品中提取一或多种核酸分子，通过瞬时直接概率匹配(instant direct probabilistic matching)从所述核酸分子产生序列信息用于将所述序列信息与数据库中的核酸序列进行对比。2.权利要求1的方法，其中所述一或多种核酸分子选自DNA或RNA。3.权利要求1的方法，其中所述序列信息包含长度“n”的核苷酸片段。4.权利要求3的方法，其中所述长度“n”的核苷酸片段与数据库中的核酸序列进行对比。5.权利要求4的方法，其中所述长度“n”的核苷酸片段通过概率匹配与数据库中的核酸序列进行对比。6.权利要求4的方法，其中所述长度“n”的核苷酸片段的对比实时进行，或者随所述片段或所述片段的序列信息产生随时进行。7.权利要求4的方法，其中如果长度“n”的核苷酸片段的匹配概率低于靶匹配的阈值，那么从所述一或多种核酸分子产生长度“n+1”，“n+2”……“n+x”的核酸片段并与数据库中的核酸序列进行对比，其中“x”小于50。8.权利要求4的方法，其中如果长度“n”的核苷酸片段的匹配概率低于靶匹配的阈值，那么从所述一或多种核酸分子产生长度“n+1”，“n+2”……“n+x”的核酸片段并与数据库中的核酸序列进行对比，其中“x”大于50。9.权利要求1的方法，进一步包括在产生序列信息之前将所述一或多种核酸分子扩增以产生多个“i”的核酸分子。10.权利要求8的方法，其中所述序列信息包含长度“n”的核苷酸片段。11.权利要求9的方法，其中将所述多个“i”的长度“n”的核苷酸片段与数据库中的核酸序列进行对比。12.权利要求11的方法，其中将所述多个i(n)的核苷酸片段通过概率匹配与数据库中的核酸序列进行对比。13.权利要求11的方法，其中所述多个i(n)的核苷酸片段的对比是实时进行的，或者随所述片段产生随时进行。14.权利要求11的方法，其中如果多个i(n)的核苷酸片段的匹配概率低于靶匹配的阈值，那么从所述一或多种核酸分子产生长度“i(n+1)”，“i(n+2)”……“i(n+x)”的核酸片段并与数据库中的核酸序列进行对比，其中“x”小于50。15.权利要求11的方法，其中如果多个i(n)的核苷酸片段的匹配概率低于靶匹配的阈值，那么从所述一或多种核酸分子产生长度“i(n+1)”，“i(n+2)”……“i(n+x)”的核酸片段并与数据库中的核酸序列进行对比，其中“x”大于50。16.权利要求5-12任一项的方法，其中所述概率匹配是通过使用贝叶斯方法来进行的。17.权利要求5-12任一项的方法，其中所述概率匹配是通过使用递归贝叶斯方法来进行的。18.权利要求5-12任一项的方法，其中所述概率匹配是通过使用朴素贝叶斯方法来进行的。19.权利要求5-12任一项的方法，其中所述概率匹配提供阶层统计框架以鉴定所述序列信息的物种。20.权利要求1的方法，其中所述序列信息与数据库中核酸序列的对比是实时进行的，或者随序列信息产生随时进行，期间继续从所述一或多种核酸分子产生另外的序列信息。21.权利要求20的方法，其中所述另外的序列信息包含长度变化的核苷酸。22.权利要求1的方法，其中所述序列信息包含长度“n”的核苷酸片段，其与数据库中的核酸序列进行实时对比，或者随所述片段产生随时对比；期间继续从所述一或多种核酸分子产生长度“n+1”，“n+2”……“n+x”的核酸片段并与数据库中的核酸序列进行实时对比，或者随所述片段产生随时对比。23.权利要求1的方法，其中在产生长度“n”的核苷酸片段的序列信息之前将所述一或多种核酸分子扩增来产生多个“i”的核酸分子；进一步包括将所述多个i(n)的核苷酸片段与数据库中的核酸序列进行实时对比，或者随所述片段产生随时对比；期间继续从所述一或多种核酸分子产生多个“i(n+1)”，“i(n+2)”……“i(n+x)”的核酸片段并与数据库中的核酸序列进行实时对比，或者随所述片段产生随时对比。24.一种检测生物材料的系统，包含：(f)设置为接收包含生物材料的样品的样品接收单元；(g)与所述样品接收单元相通的提取单元，所述提取单元设置为从所述样品提取至少一个核酸分子；(h)与所述提取单元相通的测序盒，所述测序盒设置为从所述提取单元接收所述至少一个核酸分子并从所述至少一个核酸分子产生序列信息；(i)包含参考核酸序列的数据库；以及(j)与所述测序盒及所述数据库相通的处理单元，所述处理单元设置为从所述测序盒接收所述序列信息并将所述序列信息与所述参考核酸序列进行对比。25.权利要求24的系统，包括：便携式测序装置，其将数据电子传输到数据库用于生物体的鉴定，所述生物体的鉴定涉及确定所述核酸序列。26.权利要求24的系统，进一步包括碱基判定单元，其设置为处理由所述测序盒所接收的序列。27.权利要求26的系统，其中所述碱基判定单元与概率匹配处理器相连。28.权利要求27的系统，其中所述概率匹配处理器设置为使用贝叶斯方法来接收结果序列并在考虑到由所述碱基判定单元产生的测序质量得分的情况下计算每次测序读数的概率。29.权利要求27的系统，其中所述概率匹配处理器使用在用于鉴定病原体之前所产生与优化的数据库。30.权利要求27的系统，其中所述概率匹配处理器使用根据序列内容而改变的加权得分。31.权利要求24的系统，包括与所述处理单元相通的存储单元，其中所述处理单元设置为将所述序列信息传送至所述数据存储单元并继而从所述数据存储单元检索所述序列信息来进行处理。32.权利要求24的系统，其中所述至少一个核酸分子选自由DNA和RNA组成的组。33.权利要求24的系统，其中所述序列信息包含长度“n”的核苷酸片段。34.权利要求33的系统，其中所述提取单元设置为将所述长度“n”的核苷酸片段与所述参考核酸序列进行对比。35.权利要求34的系统，其中所述提取单元设置为通过概率匹配将所述长度“n”的核苷酸片段与所述参考核酸序列进行对比。36.权利要求34的系统，其中所述提取单元设置为将所述长度“n”的核苷酸片段与所述参考核酸序列进行实时对比，或者随所述长度“n”的片段产生随时对比。37.权利要求34的系统，其中如果长度“n”的核苷酸片段的匹配概率低于靶匹配的阈值，那么将所述测序盒设置为从所述一或多种核酸分子产生长度“n+1”，“n+2”……“n+x”的核苷酸片段的序列信息并且将所述提取单元设置为将所述长度“n+1”，“n+2”……“n+x”的核苷酸片段与数据库中的核酸序列进行对比。38.权利要求36的系统，其中将所述长度“n”的核苷酸片段与所述参考核酸序列进行实时对比，或者随所述长度“n”的片段产生随时对比，期间所述测序单元继续从所述一或多种核酸分子产生长度“n+1”，“n+2”……“n+x”的核苷酸片段的序列信息，并且所述处理单元将所述长度“n+1”，“n+2”……“n+x”的核苷酸片段的序列信息与数据库中的核酸序列进行实时对比，或者随所述片段产生随时对比。39.一种鉴定样品中生物材料的方法，包含：(i)获得包含所述生物材料的样品，(ii)从所述样品提取一或多种核酸分子，(iii)产生序列信息，包含来自所述一或多种核酸分子的核苷酸片段的序列，(iv)将核苷酸片段的所述序列与数据库中的核酸序列进行对比；并且如果核苷酸片段的所述序列的所述对比未导致鉴定出所述样品中生物材料的匹配，那么该方法进一步包括：(v)从所述一或多种核酸分子产生另外的序列信息，其中所述另外的序列信息包含由一个另外的核苷酸组成的核苷酸片段的序列，(vi)紧随着所述另外的序列信息的产生，将所述另外的序列信息与数据库中的核酸序列进行对比，并重复步骤(v)-(vi)直至匹配导致鉴定生物材料是所述样品。40.一种鉴定样品中生物材料的方法，包括：(i)获得包含所述生物材料的样品，(ii)从所述样品提取一或多种核酸分子，(iii)将所述一或多种核酸分子扩增产生多个一或多种核酸分子，(iv)产生多个序列信息，包含来自所述多个一或多种核酸分子的多个核苷酸片段序列。(v)将核苷酸片段的所述多个序列与数据库中的核酸序列进行对比；并且如果核苷酸片段所述多个序列的所述对比未导致鉴定出所述样品中生物材料的匹配，那么该方法进一步包括：(vi)从所述一或多种核酸分子产生多个另外的序列信息，其中所述另外的序列信息包含由一个另外的核苷酸组成的核苷酸片段的序列，(vii)紧随着所述另外的序列信息的产生，将所述另外的序列信息与数据库中的核酸序列进行对比，并重复步骤(vi)-(vii)直至匹配导致鉴定生物材料是所述样品。41.权利要求39或40的方法，其中所述与数据库核酸序列的对比通过概率匹配随所述序列信息产生随时进行。

说明书

基因组鉴定系统

与相关申请交叉参考

本申请要求2007年11月21日提出的美国临时申请号60/989,641的优先权，以其全文援引加入本文。

发明领域

本发明涉及鉴定生物体、更特别涉及在手持或者大型电子装置中通过概率数据匹配(probabilistic data matching)确定核酸以及其它多聚或者链型分子的序列的系统和方法。

背景技术

存在各种各样的威胁生命的情况，其中分析和测序DNA或RNA样品将有用，例如为了应对将致命病原物质释放到环境中的生物恐怖主义行为。过去，此类结果需要很多人的参与，需要太多时间。结果，快捷性和准确性受会到影响。

在生物恐怖主义分子袭击或者紧急传染病事件中，对于最早的应对者即急诊室医师(他们的选择或病床边治疗)以及对于食品制造商、分销商、零售商和对于全国公共卫生人员能够迅速、准确并且可靠地鉴定出该病原物质以及其引起的疾病是重要的。病原物质可包含在样品来源如食物、空气、土壤、水、病原物质的组织以及临床呈递物(clinical presentation)。因为所述物质和/或潜在疾病可以是威胁生命并高度传染的，因而此鉴定方法应迅速完成。这是在现有国土安全生物恐怖主义应对中的一个明显弱点。

需要系统和方法，其可基于样品中存在的核酸的基因组对比来鉴定不仅仅是单一生物体(多重技术(multiplexing))并且指明一个物种是否存在。

生物工程的快速进步已经引人注目地影响到了DNA测序工具的设计和性能，即高通量测序，其是确定DNA中碱基顺序的方法，产生遗传变异图谱，该图谱可为人类疾病的遗传基础提供线索。这种方法在使用任何数目的引物对许多不同的DNA模板进行测序时非常有用。尽管有这些生物工程中的重要进步，但在构建装置来快速鉴定所述序列(信息)并更高效和更有效传输数据方面却几乎没有进展。

DNA测序传统上由双脱氧法来完成，通常称作Sanger法[Sanger et al，1977]，其使用链终止抑制剂来使通过DNA合成的DNA链的延伸停止。

用于DNA测序策略的新方法在持续发展中。比如DNA微列阵的出现使得可以构建序列阵列并在通称为杂交测序(Sequencing-by-hybridization)的方法中与互补序列杂交。另一种考虑了当今技术水平的技术利用引物延伸接着循环加入单个核苷酸，其中每个循环后接着对该掺入结果的检测。该技术通称为合成测序(Sequencing-by-synthesis)或者焦磷酸测序，包括荧光原位测序(FISSEQ)，在实践上是重复的并且在对靶核苷酸序列测序时包含引物延伸重复循环的一系列过程。

因此，存在对快速基因组鉴定方法和系统的需求，包括对核酸序列数据、临床数据、治疗介入的多向电子通讯，和将治疗剂特制输送给适当群体从而使应对合理化，保持有价值的医材供应以及控制生物恐怖主义、疏忽造成的扩散及新出现的病原性流行病。

本系统设计用于分析任何含有生物材料的样品以确定该样品中物种或基因组的存在。这是通过获取所述生物材料的序列信息并将该序列信息与数据库进行对比来实现的。匹配的序列信息将表明基因组或者物种的存在。概率匹配(probabilistic matching)将计算物种存在的可能性。所述方法可应用于大规模并行测序系统。

发明概述

本发明的一个方面是鉴定样品中生物材料的方法，包括：获取包含所述生物材料的样品，从所述样品中提取一或多种核酸分子，从所述核酸分子产生序列信息以及基于概率将所述序列信息与数据库中的核酸序列进行对比。鉴定生物材料包括但不限于检测和/或确定样品中存在的基因组，所述样品中含有的核酸序列信息，确定生物材料中物种的能力，检测株系、突变体和工程化的生物体之间变化的能力以及鉴别未知生物体和多态性。生物材料包括但不限于生物体或病原体的DNA，RNA及相关遗传信息。

在本发明的一个实施方案中，所述一或多种核酸分子可选自DNA或者RNA。

在另一个实施方案中，本发明包括产生包含长度“n”的核苷酸片段的序列信息，以及进一步将所述长度“n”的片段与数据库中的核酸序列对比。

在一个实施方案中，“n”代表对得自所述样品的核酸分子进行阳性鉴定所需的核苷酸片段的最小长度。

在一个实施方案中，“n”的范围可以是从一个核苷酸到五个核苷酸。

在本发明的另一个实施方案中，如果长度“n”的核苷酸片段的序列信息匹配概率低于靶匹配的阈值，则产生具有长度“n+1”，“n+2”……“n+x”的核苷酸片段。

在又一个实施方案中，在产生序列信息前，本发明包括扩增所述一或多种核酸分子以产生多个“i”的一或多种核酸分子。扩增后产生的序列信息可包含长度“n”的核苷酸片段，从而多个“i(n)”数目的片段将与数据库的核酸序列对比。

在本发明的另一个实施方案中，如果所述多个“i(n)”的序列信息匹配概率低于靶匹配的阈值，则产生多个“i(n+1)”，“i(n+2)”……“i(n+x)”的序列信息。

在本发明的一个实施方案中，所述核苷酸片段通过概率匹配与数据库中的核酸序列对比，包括但不限于贝叶斯方法(Bayesian approach)、递归贝叶斯方法(Recursive Bayesian approach)或者朴素贝叶斯方法(Bayesianapproach)。

概率方法可使用贝叶斯可能性来考虑两个重要因素从而达到准确的结论：(i)P(t_i/R)是展现测试模式(test pattern)R的生物体属于分类单位(taxon)t_i的概率，和(ii)P(R/t_i)是分类单位t_i的成员展现测试模式R的概率。整合入工具的滑动窗口(sliding window)中的最小模式(minimal pattern)可在生物体“是否”以及“如何”被遗传修饰方面辅助研究人员。

在本发明的一个实施方案中，所述概率匹配提供了阶层统计框架(hierarchical statistical framework)来鉴定所述序列信息的种类。

在本发明的另一个实施方案中，所述序列信息的对比实时进行，或者随着所述序列信息产生随时进行或者在产生之后立即进行。

在本发明的另一个实施方案中，所述序列信息的对比实时进行，或者随着序列信息产生随时进行，此时另外的序列信息继续自所述一或多种核酸分子产生，其中所述另外的序列信息可包含变化长度的核苷酸，包括但不限于与此前产生的序列信息相比增加的、减少的或者相同长度的序列信息。

在本发明的另一个实施方案中，所述方法包括获取包含所述生物材料的样品，从所述样品提取一或多种核酸分子，从所述核酸分子产生序列信息，其中所述序列信息包含长度“n”的核苷酸片段，并与数据库中的核酸序列进行实时对比或者随着该片段产生随时进行对比；此时长度“n+1”、“n+2”……“n+x”的核酸片段继续由所述一或多种核酸分子产生，并与数据库中的核酸序列实时对比或者随着序列产生随时对比。

在本发明的另一个实施方案中，所述方法包括获取包含所述生物材料的样品，从所述样品提取一或多种核酸分子，在产生长度“n”的核苷酸片段的序列信息之前先扩增所述一或多种核酸分子来产生多个“i”核酸分子；进而包括将该多个“i(n)”的核苷酸片段与数据库中的核酸序列进行实时对比或者随着片段产生随时对比；此时多个“i(n+1)”、“i(n+2)”……“i(n+x)”的核酸片段继续由所述一或多种核酸分子产生，并与数据库中的核酸序列进行实时对比或者随着序列产生随时对比。

在本发明的一个实施方案中，序列信息包括但不限于层析谱，标记DNA或RNA片段的影像，对核酸分子的物理性探询(physical interrogation)以确定核苷酸顺序，纳米孔分析(nanopore analyses)以及其他确定核酸链序列的本领域已知方法。

在本发明的一个实施方案中，“x”可以选自1-10，10-20，20-30，30-40，40-50，50-60，60-70，70-80，80-90或者90-100个核苷酸。在另一个实施方案中，“x”可以选自100-200，200-300，300-400或者400-500个核苷酸。

在本发明的另一个实施方案中，如果长度“n”的核苷酸片段的序列信息匹配概率低于靶匹配的阈值，那么“n+x”代表了对从所述样品获得的核酸分子进行阳性鉴定所需的核苷酸片段的最小长度。

本发明的另一个实施方案是鉴定样品中生物材料的方法，包括：(i)获取包含所述生物材料的样品，(ii)从所述样品提取一或多种核酸分子，(iii)产生序列信息，包含来自所述一或多种核酸分子的核苷酸片段的序列，(iv)将核苷酸片段的所述序列与数据库中的核酸序列对比；并且如果核苷酸片段所述序列的所述对比没有产生鉴定所述样品中存在生物材料的匹配，那么所述方法继续包括：(v)从所述一或多种核酸分子产生另外的序列信息，其中所述另外的序列信息包括由一个另外的核苷酸组成的核苷酸片段的序列，(vi)产生所述另外的序列信息后立即将所述另外的序列信息与数据库中的核酸序列对比，并重复步骤(v)-(vi)直到匹配导致鉴定所述生物材料是所述样品。

本发明的另一个实施方案是鉴定样品中生物材料的方法，包括：(i)获取包含所述生物材料的样品，(ii)从所述样品提取一或多种核酸分子，(iii)扩增所述一或多种核酸分子来产生多个一或多种核酸分子，(iii)产生多个序列信息，包含来自所述多个一或多种核酸分子的核苷酸片段的多个序列，(iv)将核苷酸片段的所述多个序列与数据库的核酸序列对比，如果核苷酸片段的所述多个序列的所述对比没有产生鉴定样品中生物材料的匹配，那么所述方法继续包括：(v)从所述一或多种核酸分子产生多个另外的序列信息，其中所述另外的序列信息包含由一个另外的核苷酸组成的核苷酸片段的序列，(vi)产生所述另外的序列信息后立即将所述另外的序列信息与数据库中的核酸序列对比，并重复步骤(v)-(vi)直到匹配导致鉴定所述生物材料是所述样品。

本发明也涉及检测生物材料的系统，包含：(i)设置为接收含生物材料样品的样品接收单元(unit)；(ii)与所述样品接收单元相通的提取单元，所述提取单元设置为从所述样品提取至少一个核酸分子；(iii)与所述提取单元相通的测序盒(cassette)，所述测序盒设置为从所述提取单元接收所述至少一个核酸分子并从所述至少一个核酸分子产生序列信息；(iv)包含参考核酸序列的数据库；以及(v)与所述测序盒及所述数据库相通的处理单元，所述处理单元设置为从所述测序盒接收所述序列信息并将所述序列信息与所述参考核酸序列对比。

在本发明的另一个实施方案中，所述提取单元被设置为将所述长度“n”的核苷酸片段与数据库对比。

在本发明的另一个实施方案中，所述提取单元被设置为通过概率匹配将所述长度“n”的核苷酸片段与数据库对比。

在本发明的另一个实施方案中，所述提取单元被设置为将所述长度“n”的核苷酸片段与数据库进行实时对比或者随着所述片段产生随时对比。

在本发明的另一个实施方案中，如果长度“n”的核苷酸片段的匹配概率低于靶匹配的阈值，则所述测序盒将被设置为从所述一或多种核酸分子产生包含长度变化的核苷酸片段的序列信息(例如与前面产生的序列信息相比长度增加、减少或者相同)，并且所述提取单元被设置为将所述长度变化的核苷酸片段与数据库中的核酸序列对比。

而本发明的另一个实施方案包含一个系统，其中将所述长度“n”的核苷酸片段与所述参考核酸序列进行实时对比或者随着所述长度“n”的片段产生随时对比，同时所述测序单元继续从所述一或多种核酸分子产生长度“n+1”、“n+2”……“n+x”的核苷酸片段的序列信息，并且所述处理单元将所述长度“n+1”、“n+2”……“n+x”的核苷酸片段的序列信息与数据库中的核酸序列进行实时对比或者随着该片段产生随时对比。

该系统所涵盖的进一步变化将在以下本发明的相似说明书中描述。

附图简述

各种实施方案参考所附附图进行描述。在附图中，类似参考数字表示相同或者功能上相似的组件(component)。

图1是所公开的系统的示意图。

图2是图1中系统的更详细的示意图。

图3是图1中系统的一个实施方案中可更换的盒和其他组件之间的功能性相互作用的示意图。

图4是手持电子测序装置的一个实施方案的正面透视图。

图5是说明图1中系统的操作方法的流程图。

图6是图1中系统与潜在地涉及该系统的各种实体之间相互作用的示意图。

图7是手持电子测序装置与远程分析中心之间功能性相互作用的示意图。

图8是概率软件模块的整体结构示意图。

图9显示出作为所读序列长度函数的独特序列的百分比。

图10是测序原理步骤的概要。

发明详述

本发明所描述的方法与系统使用最短的独特序列信息，其在未鉴别的样品中的核酸混合物中相对于所产生或收集的完整序列信息具有最小的独特长度(n)。除了独特长度序列外，非独特的也被对比。基因组鉴定的概率随着多个匹配而增加。有些基因组会比其他基因组具有更长的最小独特序列。短长度(n)序列的匹配方法在序列信息产生或者收集的同时也在继续。对比随着随后较长序列产生或者收集随时(实时)发生。这导致可观的判定空间(decision space)缩小，因为就序列产生/收集而言，计算是早期进行的。所述概率匹配可包括但不限于完全匹配(perfect matching)，子序列独特性(subsequence uniqueness)，模式匹配(pattern matching)，多个子序列在长度n内匹配，不精确匹配(inexact matching)，种子与延伸(seed and extend)，距离测量以及进化系统树作图。它提供了自动化途径将所述序列信息进行随其产生随时或者实时匹配。所述测序设备可在对比的同时继续收集更长和更多串(string)的序列信息。随后的序列信息也可进行对比并可提高对样品中基因组或物种的鉴定的可信性。该方法不需要等候短读数(short read)的序列信息集结成较大的重叠群。

本发明公开的系统与方法提供了核酸引入(intake)、分离与分选(separation)，DNA测序，数据库网络，信息处理，数据储存，数据显示以及电子通讯来加快相关数据传送以使得可以诊断或鉴定对病原体爆发和适当应对有用途的生物体。所述系统包括便携式测序装置，其可将数据电子传输到数据库来对生物体进行鉴定，所述对生物体的鉴定涉及确定核酸和其它多聚或链型分子的序列以及概率数据匹配。

图1和图2说明了包括便携式手持电子测序装置105的系统100的实施方案。所述便携式电子测序装置105(本文称作“测序装置”)被设置为可使用户(U)易于持握和使用，并且可以通过通讯网络110与许多其他潜在相关实体通讯。

该装置被设置为可分别接收对象样品(SS)和环境样品(ES)。所述对象样品(如血液、唾液等)可包括该对象的DNA以及该对象中任何生物体(病原或其他)的DNA。所述环境样品(ES)可包括但不限于环境(包括食物、空气、水、土壤、组织)中处于其天然状态的生物体。两种样品(SS，ES)都可受生物恐怖主义行为或新出现的流行病的影响。两种样品(SS，ES)都同时通过管或药签收集并被接收到在膜或载玻片、平板、毛细管或沟槽(channel)上的溶液里或固体(作为珠)上。所述样品(SS，ES)接着被同时测序。特定环境的情形可能会需要分析由样品(SS，ES)的混合物组成的样品。一旦鉴定出概率匹配和/或在实时数据收集和数据解释期间，将联系最初的应对者。随着时间推进，渐渐增多百分比的序列可被鉴定出来。

所述测序装置105可包括如图3所示的下列功能性组件，其使得装置105能分析对象样品(SS)和环境样品(ES)，将分析结果与通讯网络110沟通。

样品接收器120和122与DNA提取和分离部件(block)130相连，其继而将样品通过流动系统传递到部件130。部件130从样品提取DNA并将其分离从而使其可被进一步处理和分析。这可通过使用试剂模板(即作为用于合成互补核酸链模式的DNA链)来完成，其可与样品120、122组合在一起通过已知流控转运技术而传递。在样品120、122中的所述核酸由提取和分离部件130分选，得到核苷酸片段或者未扩增的单个分子的流(stream)。一个实施方案可包括使用扩增方法。

可更换的盒140可以以可移除方式与测序装置105和部件130相连。所述盒140可从部件130接收所述分子流并测序DNA及产生DNA序列数据。

所述可更换的盒140可以连接到并提供所述DNA序列数据给完成概率匹配的处理器160。一个实施方案可包括以1Mb/sec的速率传输16GB数据的性能。优选测序盒140来获得所述序列信息。代表不同测序方法的不同的盒可以互换。所述序列信息通过概率匹配进行对比。超快匹配算法以及预先产生的加权特征数据库(weighted signature database)将重新得到(denovo)的序列数据与储存的序列数据对比。

所述处理器160可以是例如用途特异性集成电路，其被设计为用于完成一或多个特定功能或者使一或多种特定装置或应用成为可能。该处理器160可控制测序装置105的所有其他功能元件。例如，该处理器160可发送/接收所述DNA序列数据以存于数据存储器(内存)170。该数据存储器170也可包括任何适宜类型或形式的内存来用于将数据存储为可被处理器160读取的形式。

所述测序装置105可进一步包括通讯组件180，处理器160可将从数据存储器170读取的数据发送给所述组件180。该通讯组件180可包括任何适宜技术来用于与通讯网络110通讯，如有线、无线、卫星等。

所述测序装置105可包括用户输入模块150，用户通过其可提供输入给装置105。这可包括任何适宜输入技术如按钮、触摸板等。最后，所述测序装置105可包括用户输出模块152，其可包括用于视频输出的显示器和/或音频输出装置。

所述测序装置105也可包括全球定位系统(GPS)接收器102，其可接收定位数据并将该数据继续传给处理器160；以及电源104(即电池，插入式适配器)用于给输出负载或所述测序装置105的负载组提供电力或者其他类型能量。

所述可更换的盒140在图3中有更详细的图示。该盒140可以以可移除方式与测序装置105以及部件130相连并包括一种最新测序方法(即高通量测序)。湿法化学(wet chemistry)或者基于固态的系统可通过盒可更换的“即插即用”方式构建在层面(deck)上。所述盒140可从部件130接收所述分子流并通过测序方法测序DNA及产生DNA序列数据。实施方案包括基于但不限于以下的方法：合成测序、连接测序(Sequencing-by-ligation)、单分子测序(Single-molecule-sequencing)以及焦磷酸测序。还有另外一个实施方案包括用作电场142的源(source)并且将该电场142应用于所述分子流来实现该流中DNA的电泳。所述盒包括光源144来用于发射穿过所述DNA流的荧光144。该盒进一步包括生物医学传感器(探测器)146用于探测所述荧光发射以及用于探测/确定该样品流的DNA序列。除荧光之外，该生物医学传感器也能够探测适用于测序的标记部分的所有波长的光。

所述荧光探测包括测量标记部分的信号，该标记部分来自所述一或多种核苷酸或核苷酸类似物中的至少一种。使用荧光核苷酸的测序典型包括在探测所加入的核苷酸后将荧光标记光漂白。实施方案可包括基于珠的荧光、FRET、红外标记、焦磷酸酶、连接酶方法包括标记的核苷酸或聚合酶或使用循环可逆终止子(cyclic reversible terminator)。实施方案可包括纳米孔或者包括固定的单分子或在溶液中的光学波导(optical waveguide)等直接方法。光漂白方法包括减弱的信号强度，其随着每一个荧光标记核苷酸加入到引物链而积累。通过减弱该信号强度，任选测序更长的DNA模板。

光漂白包括将光脉冲应用于已掺入荧光核苷酸的核酸引物。所述光脉冲典型包含长等于感兴趣荧光核苷酸所吸收的光波长的波长。该脉冲被应用约50秒或更短，约20秒或更短，约10秒或更短，约5秒或更短，约2秒或更短，约1秒或更短，或者约0秒。该脉冲破坏所述荧光标记核苷酸和/或荧光标记引物或核酸的荧光，或者将该荧光减弱至可接受水平，比如背景水平，或者低至足以防止若干循环后的信号累积的水平。

所述传感器(探测器)146任选监测至少一种来自核酸模板的信号。该传感器(探测器)146任选包含或者可操作性地连接于包括软件的电脑，所述软件用于将探测器信号信息转换成测序结果信息，比如核苷酸浓度、核苷酸种类、模板核苷酸序列等。另外，任选校准样品信号，例如通过监测来自已知来源信号来校准微流体系统(microfluidic system)。

如图2所示，所述测序装置105可通过通讯网络110与各种实体通讯，所述实体可与生物恐怖主义行为或流行病爆发事件中的通报相关。这些实体可包括最初应对者(即实验室应对网络(即参比实验室(Reference Labs)，Seminal Labs，国家实验室)，疾病控制中心(CDC)，医师，公共卫生人员，医疗记录，人口普查数据，执法，食品生产商，食品分销商和食品零售商。

上面讨论的测序装置105的一个实例现参考阐述了该装置前视图的图4描述。该装置是便携式手持测序装置并以与硬币C大小对比阐述。该装置105大约长11英寸并易于运送。(图4中，硬币用于显示比例)。两个端口153、154位于该装置的一侧并代表样品接收器120、122。端口153用于接收要进行分析和测序的对象样品(SS)或环境样品(ES)。端口154用于测序对照(SC)。所述两个不同端口设计用于确定对象样品(SS)或环境样品(ES)是否含有导致测序失败的材料，如果测序失败，或者以CLIA容量运行。所述装置105包括用户输入模块150，使用户(U)可以对装置105提供输入。在这个特定实施方案中，用户输入模块150是触摸板形式，不过，任何适宜技术都可使用。所述触摸板包括按钮150a用于视频显示，150b、150c用于记录数据，150d用于实时数据传输和接收，以及150e用于电源控制来启动或停止该装置。或者，该键板可并入显示屏并且所有功能可由液晶界面控制。适宜技术在美国专利申请公开No.2007/0263163中描述，以其全文援引加入。这可以通过启用蓝牙装置配对或类似方法。该功能包括数字键，由字符表字母标记，如电话键盘常用位置，如删除键、空格键、退出键、打印键、回车键、上/下、左/右、额外字符以及其它任何用户所期望的。该装置进一步包括用户输出模块152，以视频显示形式来为用户(U)展示信息。如果需要，也可提供如157a和157b所示的音频输出装置。最后，所述测序装置105包括发光二极管155和156来指示数据的传输和接收。键/按钮的功能是控制样品测序、数据传输和概率匹配以及界面控制的所有方面，包括但不限于开启/关闭、发送、导航键、软键(soft key)、清除、以及具有算法计算出来的基因组排序的LCD显示功能和可视化工具用以列出匹配置信度。一个实施方案包括基于互联网的系统，其中多个用户可同时向/从分层网络搜苏引擎传输/接收数据。

图5是上述系统100的一个实施方案中的系统100的操作过程流程图。如图5所示，该装置的操作过程包括：在200，在样品接收器120、122接收收集的对象样品(SS)和环境样品(ES)。在202，该样品进入DNA提取和分离部件130，其中分析样品并从样品提取并分离DNA。在203，可更换的盒140从部件130接收所述分离的DNA并测序DNA。取决于所述的盒以及是否需要，140盒内的生物医学传感器146可通过用电场142和荧光144来探测/确定该样品流的DNA序列。在204，测序数据被处理和储存于数据存储器170。在205，通过概率匹配对比所述测序数据并完成基因组鉴定。这一过程在实质上不断反复。作为结果的信息可通过通讯网络110传输。GPS(全球定位系统)数据也可任选在步骤205中传输。在206，该装置从匹配中电子接收数据。在207，该装置通过用户输出模块152用视频显示从匹配中电子接收的数据。如果需要进一步分析，在208，所述测序的数据通过通讯网络被电子传输到数据解释实体(即公共卫生人员，医疗记录等)。

多方法研究途径可增强对事件的快速反应并将最初的保健护理与生物体探测相整合。可以使用三角应对(triangulate response)，其涉及将来自DNA测序的定量仪器数据与定性病危护理(critical care)汇集。在跨多地区区域收集的DNA测序数据的观察清单和审计的基础结构(infrastructure)可用于对比生物体的出现，例如地点之间的生物威胁。对基因组数据的推理统计学分析可与医学观察结合来发展优先范畴(categories of priorities)。在不同医学中心和基因组中心数据库之间收集和共享的信息可使得对事件三角划分(triangulation)、事件量级(magnitude)以及在适当时间对受影响人做出正确介入成为可能。

图6阐述了所述系统100与各种潜在资源实体之间的相互作用。所述装置105被设置为通过无线或有线通讯网络与这些资源实体相互作用。装置105可传输三角划分的表示为“样品数据”、“患者数据”和“治疗介入”的测序数据信息(310)。装置105可向和从与资源320匹配的序列传输和接收DNA序列数据，所述资源320包括和包括前哨实验室(Sentinel Labs)、参比实验室和国家实验室在内的实验室应对网络。

所述每个实验室都有具体作用。前哨实验室(医院和其他社区临床实验室)负责排除或者将其面临的危险物质上报给附近的LRN参比实验室。参比实验室(遵守生物安全等级3(BSL-3)实践的州或者地方公共卫生实验室)进行证实检验(排查(rule in))。国家实验室(BSL-4)保持能够处理病毒物质如依波拉和大天花并进行确定性鉴别的能力。

系统100可进一步向和从数据解释资源330传输和接收数据，所述资源330包括执法实体、公共卫生人员、医疗记录以及人口普查数据。最后，所述装置105可向和从最初应对者320传输和接收数据，所述应对者320包括急诊室医生或医师。所述系统100整体被设置为与疾病控制中心(CDC)340联络来向适合人员提供相关信息。

图7是手持电子测序装置与远程分析中心的功能性互动的示意图。所述装置105可包括碱基判定(base calling)单元103用于进行由可更换的盒140所接收的测序。这些序列和SNP位点分别单独依据其在每个物种被发现的概率加权。这些权重可通过理论(模拟)或实验进行计算。该装置也包括与所述碱基判定单元103相连的概率匹配处理器109。所述概率匹配实时进行或者随着序列碱基判定或序列数据收集随时进行。所述概率匹配处理器109使用贝叶斯方法可以接收结果序列及质量数据，并且可以在考虑到由碱基判定单元103产生的测序质量得分的情况下计算每次测序读数的概率。所述概率匹配处理器109可使用在其用于鉴定病原体之前产生与优化的数据库。警报系统107与所述概率匹配处理器109相连并可从所述概率匹配处理器109(现场)收集信息以及实时显示最佳匹配的生物体。

所述警报系统107被设置为访问患者数据，即患者的医疗诊断或风险评估，特别是来自护理点诊断检验或测定的数据，所述检验或测定包括免疫测定、心电图、X-射线和其他此类检验，并提供对其医疗条件或者风险或缺乏的指示。所述警报系统可包括用于读取或评价所述检验数据和用于将该数据转换成诊断或风险评估信息的软件和技术。根据所述生物物质和关于患者的医疗数据的基因组相同性，可以施用有效的“治疗介入”。该治疗可基于对所述生物物质和/或其次级影响的有效缓和或中和以及基于或者病史(如果有任何禁忌症)。该警报系统可基于事件发生的程度和数目。所述发生数目可基于对所述生物物质的基因组鉴定。一个数值在结果落入或超过由政府机构如CDC或DoD或国土安全部门确定的阈值时被宣示。该警报系统被设置为可使得临床医生能够使用具有患者数据的基因组鉴定数据的功能性。该通讯允许最早应对者或其它临床系统行动得到快速信息流以及准确决策。

所述装置105进一步包括与所述碱基判定单元103相连的数据压缩器106，其被设置为接收结果序列和质量数据来压缩。所述数据存储器170与该压缩器106相连并可接收以及储存所述序列与质量数据。

所述测序装置105与远程分析中心400相互作用，该分析中心可通过有线或无线通讯方法从所述测序装置105的通讯组件180接收电子传输的数据。所述远程分析中心400含有巨大的序列数据库，包括到目前为止可用的所有核苷酸和核酸序列及SNP数据。这个数据库也含有相关的流行病和治疗信息(如抗生素抗性)。该远程分析中心400进一步包括数据存储器401。该数据存储器401可通过电子传输从所述测序装置105的通讯组件180接收解压缩的序列数据信息。基因组集合(assembly)402与所述数据存储器401相连并集合了所述解压缩的序列数据。显而易见的污染DNA如人类DNA可在进一步分析前被过滤掉。

所述远程分析中心400进一步包括装备有概率匹配技术与同源性搜索算法的处理器403，其可用于分析集合的序列数据从而获得靶病原体403a、群落结构403b、流行病和治疗信息403c出现的概率。将靶病原体的基因组序列数据与包括人和宏基因组(metagenome)的非病原体的那些基因组的进行对比以鉴定核苷酸序列和单核苷酸多态性(SNP)位点，其只在靶生物体中出现。在远程分析中心400的分析是在数据从所述测序装置105传输期间进行的。该远程分析中心400可进一步包括通讯单元404，分析结果可由其电子传输回所述测序装置105内的警报系统107以及其他当局(如DHS，CDC等)。

概率分类：本发明提供数据库引擎、数据库设计、过滤技术(filtering techniques)以及使用概率论作为扩充逻辑。所述方法和系统使用概率论原理来对核酸测序所产生的数据进行似真推理(判定)。使用概率论方法，本文所述系统在数据一旦达到最小数目的核苷酸长度(n)时就进行分析，并计算该n聚体的概率，此外每个随后的长度增加(n+碱基对)均用于计算序列匹配概率。对每个n聚体和随后更长的n聚体的计算被进一步处理来再计算所有增加长度的概率以鉴定基因组的存在。随着单元长度增加，所述n聚体内的多个亚单元被对比用于模式识别，其可进一步提高匹配概率。此类方法包括其它贝叶斯方法提供了用于消除匹配并鉴定出相当数量的包含很短核苷酸片段的生物样品，或者读取时无需完成整个基因组测序或集合该基因组。如此将匹配的可能性分配给存在的生物体并进行下一个核酸序列读取来进一步提高匹配的可能性。本文所述的系统提高了速度，减少试剂消耗，使小型化成为可能，并显著减少了鉴定生物体所需的时间量。

为构建概率分类器来对短核酸序列做出判定，可使用各种方法来首先过滤和随后分类要读入的序列数据。在这种情况下，使用贝叶斯网络的形式。贝叶斯网络是简明地代表概率分布的一种定向非循环式图表。在此图表中，每一个随机变量由一个节点代表(例如，在生物体的进化系统树中)。两个节点之间的定向边缘(directed edge)表示亲代节点所代表的变量对子代节点所代表的变量的概率相关性。因此，所述网络的结构代表了下述假设，即所述网络中的每个节点在已知其亲代时，是有条件地与其非后代不相关的。为描述满足这些假设的概率分布，所述网络中的每个节点均与条件概率表相关联，对该节点亲代任何可能的赋值，该表指定了分布。在这种情况下贝叶斯分类器是应用于计算由任何测序系统提供的每个核苷酸的概率的分类任务的贝叶斯网络。在每个判定点，所述贝叶斯分类器可与最短途径图解算法版本如Dijkstra’s或Floyd’s相结合。

本系统可应用贝叶斯分类器系统(例如朴素贝叶斯分类器、贝叶斯分类器和递归贝叶斯评判分类器)并将结果数据融合入判定数据库。在融合所述数据后，可向每个分类器提供具有更新概率的新结果集合。

图8显示了所述概率软件模块整体结构的示意图。

DNA测序片段：任何测序方法可用于产生所述序列片段信息。所述模块，图2中160或图7中109负责处理来自可更换的盒中测序模块的数据。所述数据跟测序数据以及在序列起始和终止之上的信息、序列ID、DNA链ID封装在一起。所述模块将数据格式化并将其传递至分类学过滤器(taxonomy filter)模块。所述格式化包括系统数据的加入以及在程序块中比对。

DNA测序模块有两个界面。其与DNA Prep模块及分类学过滤器相连。

1.DNA Prep界面：可将多个市场上可得的用来完成样品制备的方法通过微流体技术整合在一起。典型的样品制备是基于溶液的并包括细胞裂解和抑制剂去除。所述核酸被回收或提取并浓缩。所述裂解的实施方案包括去污剂/酶、机械、微波、压力、和/或超声方法。提取的实施方案包括固相亲和和/或大小排阻。

2.分类学过滤器：分类学过滤器具有两个主要任务：(1)过滤掉尽可能多的生物体从而将所述分类器模块限定在一个较小的判定空间中，以及(2)帮助确定所述贝叶斯网络的结构，其涉及使用机器学习技术。

进化系统树过滤器：这一分类学过滤器子模块与“判定数据库”连接(interface)以获知前一轮分析的结果。如果未找到结果，该模块将新的数据传递给分类模块。如果找到结果则所述分类学过滤器调节分类数据来限制可能的判定空间。例如如果前期数据显示这是正在观察的病毒DNA序列，则所述分类器的判定空间将缩至仅有病毒数据。这可通过修改贝叶斯分类器在操作时所收集的数据来实现。

机器学习：机器学习算法基于该算法所期望的结果而被编入分类学。(1)监督学习——其中所述算法产生函数，其将输入映射至所期望的输出。监督学习任务的一个标准模式是分类问题：学习者被要求通过观察函数的数个输入-输出例子来学习(来近似)该函数的行为，所述函数将矢量[X₁、X₂、-……X_N]映射到数个类别之一。(2)半监督学习——其与标记的和未标记的例子结合来产生适当的函数或分类器。(3)增强学习——其中所述算法在给定一个对世界观察的情况下学习如何行动的策略。每个行动都对环境有些影响，而环境提供反馈来指导所述学习算法。(4)转换(transduction)——基于在培训中可获得的培训输入、培训输出以及测试输入预测新的输出。(5)学会学习-其中所述算法基于从前经验学会自己的归纳偏置(inductive bias)。

分类学高速缓存模块：该模块高速存储分类学过滤器产生的分类学信息。其可作为分类学过滤器与在SQL数据库中保存所有信息的分类学数据库之间的界面。分类学高速缓存被实现为具有微秒响应时间的内存数据库(in-memory database)。对所述SQL数据库的查询在与所述亚模块其它部分分开的线程中处理。高速缓存信息包括由所述分类学过滤器模块产生的网络图表。该图表在所述系统开始分析时含有整个分类学。在分类学高速缓存实现降低数据大小和对去除适当数据集合的情况下，DNA序列分析减小了所述分类学图表。

分类器选择器：所述系统可使用并行运行的多个分类技术。分类器选择器可作为不同的分类算法之间的数据仲裁器。分类器选择器可从所述判定数据库中读取信息并随着对来自DNA测序模块用于分析的每一个DNA测序单元的接收而将此类信息推动至所述分类模块。分类学过滤器在数据向所述DNA测序数据通过时发挥作用。

递归贝叶斯分类器：递归贝叶斯分类器是概率方法，其使用输入测量(incoming measurement)和数学过程模型来对未知的概率密度函数进行针对时间的递归估算。所述模块从分类器选择器以及储存先前判定的所述判定数据库接收数据。所述数据集合从所述数据库以及先前判定鉴定中检索(retrieve)，该先前判定鉴定置于所述进行过滤的模块的本地内存中。所述分类器取得DNA序列并通过迅速过滤不匹配的生物体家族来尝试将其与或不与来自分类学数据库的现有特征(signature)、条码(barcode)匹配。所述算法通过计算多重置信度(multiple beliefs)的概率以及基于输入数据调整置信度(belief)进行。此模块所用的算法可包括序列蒙特卡罗(Sequential Monte Carlo)方法以及采样重要性重采样(sampling importance resampling)。隐马尔科夫模型(Hidden Markov model)、集合卡尔曼滤波(Ensemble Kalman filter)及其他粒子滤波(particle filter)法也可以与贝叶斯最新技术一起使用。

朴素贝叶斯分类器：基于贝叶斯定理应用的简单的概率分类器。该分类器基于预先确定的规则集合来做出所有判定，所述规则集合是在起始时作为用户输入所提供的。所述模块在执行分析的时候可用新的规则集合再初始化。新的规则集合可来自用户或者其可以是所述结果融合模块(Results Fusions module)的规则融合的产物。

贝叶斯网络分类器：贝叶斯网络分类器将贝叶斯网络(或置信网络(belief network))作为概率图形模型，其代表一组变量及其概率独立性。

判定数据库：判定数据库是用于所述系统大部分模块的工作高速缓存。大部分模块对此资源可直接访问并且可以修改其各自区域。然而只有结果融合模块可以访问所有数据并相应修改所述贝叶斯规则集合。

贝叶斯规则数据(Bayesian Rules Data)：所述模块以二进制、预编译格式收集所有贝叶斯规则。所述规则对所有贝叶斯分类器以及分类学过滤器和结果融合模块均是可读写的。所述规则在有变动时进行动态重编译。

结果融合(Results Fusion)：所述模块将来自多个贝叶斯分类器以及其它所使用的统计学分类器的数据融合。结果融合模块关注每个分类器所产生答案之间的平均方差并且在需要时将数据融合。

数据库界面：对所述SQL数据库的界面。该界面被程序性地实现为具有在不同线程分开的读和写功能。MySQL是所选择的数据库而sqLite由于较快的数据库速度也可以使用。

分类学数据库(Taxonomy Database)：该数据库将保存多个内部数据库：分类树、编入索引的预处理树(indexed pre-processed tree)、用户输入和规则。

高速缓存规则(Cached Rules)：由用户提供的处理后规则的内存高速缓存。

规则管理：所述模块的图形管理界面。

用户输入：用户创建的推理规则。该规则由贝叶斯分类器来用于做出判定。

在本文中将本发明所述系统和方法描述为在具有可执行各种不同功能的编码的计算机程序中实施。特定的同类中最优(best-of-class)技术(现有或新兴)可以是授权的组件。现有用于提取DNA的方法包括使用酚/氯仿、盐析、使用离液盐和硅树脂、使用亲和树脂、离子交换层析以及使用磁珠。这类方法在U.S.Pat.Nos.5,057,426、4,923,978、EP Patents 0512767A1及EP 0515484B及WO 95/13368、WO 97/10331及WO 96/18731中均有描述，以其全文援引加入。然而应了解所述系统和方法并不局限于电子介质，作为选择也可以手工设置来实行各种功能。与所述方法相关联的数据可通过使用互联网的网络连接来进行电子传输。上述系统和技术可用于多种其他情况，包括下述那些。

疾病相关研究：许多常见疾病和病症涉及复杂的遗传因子相互作用来产生此疾病的可见特征，也称为表型。多个基因和调节区通常与特定疾病或症状相关。通过测序许多具有一定病症个体的基因组或选择的基因，可能鉴定出造成所述疾病的突变。此研究可导致在疾病检测、预防和治疗中的突破。

癌症研究：癌症遗传学涉及理解遗传和获得性突变及其他遗传学改变的作用。对于癌症的诊断和治疗的挑战因个体患者变异性以及难以预测的对药物治疗的反应而进一步加重。在小样品或肿瘤细胞活组织检查的基础上，用来鉴定造成癌症的基因组的获得性改变的低成本基因组测序的可用性可使得对癌症改良的诊断和治疗成为可能。

药物研究与开发：基因组学的一个期望是加快更有效新药的发现与开发。因为生物学途径、疾病机制及多重药物靶的复杂性，基因组学对这一领域影响的显现是缓慢的。单分子测序可使得以具成本效益的方式使用大规模基因表达分析来更好鉴定有希望的药物先导的高通量筛选称为可能。在临床开发中，所公开的技术可潜在用于产生个体基因谱(profile)以及可能促进患者筛选和治疗的个体化，所述基因谱可在对治疗可能的反应、毒理学或不良事件风险方面提供有价值的信息。

感染性疾病：所有病毒、细菌和真菌含有DNA或RNA。在单分子水平对来自病原体的DNA或RNA的检测和测序可为感染的诊断、治疗和监控以及预测潜在抗药性提供医学上和环境上有用的信息。

自身免疫病症：多种自身免疫病症，从多发性硬化和狼疮到移植排斥风险，被认为具有遗传学成因。监控与这些疾病相关的遗传学改变可以使更好的患者管理成为可能。

临床诊断学：呈现出相同疾病症状的患者经常基于其成因的遗传学差异而具有不同的预后和对药物的反应。传送患者特异性遗传信息涵盖了包括基于基因或表达的诊断试剂盒和服务的分子诊断学，用于选择和监控特定治疗的护理诊断产品(companion diagnostic product)以及用于早期疾病检测和疾病监控的患者筛选。创建更有效和靶向分子诊断剂和筛选检验需要对基因、调节因子和其它疾病或药物相关因子的更好的理解，本发明公开的单分子测序技术具有使其成为可能的潜力。

农业：为发现、开发和设计遗传学优越的动物和作物，农业研究已渐增地转向基因组学。农业综合产业已成为遗传技术特别是微阵列的大用户，用来鉴定跨变体或种群的相关遗传变化。本发明公开的测序技术可提供用于此产业基因表达分析和种群研究的更有力、直接以及具成本效益的方法。

另外的机会将在于重复序列(repeat-sequence)应用的领域，所述方法在其中可用于细微遗传变化的检测。扩大的跨物种比较基因组学分析可对人类基因组的结构和功能产生很好的见解，并且因此而对人类健康和疾病的遗传学也产生很好的见解。对人类遗传学变化及其与健康和疾病的关系的研究也在不断扩展中。大部分这些研究使用基于已知相对常见变化模式的技术。这些有力的方法将提供重要的新信息，但是其信息量少于对个体人类基因组完整连续序列的测定。例如，现有基因型分型方法很可能会错过在任何特定基因组位置的人与人之间的稀有差异，以及对确定大跨度重排有有限的能力。对于造成癌症的基因组的体细胞变化的鉴别目前使用技术组合来获得序列数据(对很少数基因)以及关于拷贝数变化、重排、或杂合性丧失的有限信息。此类研究因基因组的低分辨率及/或不完整覆盖度而遭受影响。肿瘤样品的细胞异质性提出了额外挑战。对极其小的样品，甚至可能是单个细胞的低成本全基因组测序将会在从研究实验室到临床的所有方面改变与癌症的斗争。最近启动的癌症基因组图谱(Cancer Genome Atlas，TCGA)试验计划进入了所期望的方向，但却仍旧显著地受限于测序成本。需要农业上具重要性的动植物的额外的基因组序列以研究个体变异，不同的驯养品种以及每个物种的数个野生变体。对其中很多成员不能培养的微生物群落的序列分析将提供医学上和环境上有用信息的丰富来源。并且准确快速的测序可能是对食品和环境的微生物监控的最佳途径，其包括快速检测和缓解生物恐怖主义威胁。

基因组测序也可为关键特征序列的选择提供有用的包含内含子区域的分离的核酸。目前，关键特征序列靶向外显子区域。

DNA技术的基础应用涉及用于标记DNA聚合酶产生的DNA的各种标记策略。这在微阵列技术：DNA测序、SNP检测、克隆、PCR分析以及许多其它应用中有用。

虽然本发明的各种实施方案已在上述中有所描述，但应了解其仅仅是以作为实例方式来提出，而并不是限制。因此，本发明的宽度和范围不应受到上述任何实施方案的限制，而应仅仅依照下述权利要求书及其等价内容限定。尽管本发明已参照其具体实施方案进行了特定显示和描述，应了解其仍可能会做出各种形式和细节上的变动。

实施例1

目的：使用关键特征和/或条码使得用少至8-18个核苷酸对基因组进行鉴定以及对非常短的序列数据(读数)进行实时分析成为可能。

使用线性时间后缀数组构造(linear time suffix array construction)算法来计算独特性分析。该分析确定在数个模型基因组中是独特的所有序列的百分比。对基因组中的所有序列的长度进行了分析。对在基因组中仅出现一次的序列计数。所述后缀数组算法通过计算重复分数绘图(repeat score plot)来进行，所述重复分数绘图分析了序列中特异亚序列在双碱基对滑动窗口的基础上出现的频率。储存于GenBank的基因组信息用于计算机(in silico)分析。对病毒基因组，λ噬菌体，细菌基因组，大肠杆菌(E.coli)K12 MG1655以及人基因组进行了分析。独特性读数的百分比是序列长度的函数。提出了关于序列的假设来重新构建该基因组，所述序列仅产生明确匹配并且其产生明确重叠。独特性读数的大小在7到100个核苷酸的范围内。大多数独特性大小分别短于9、13和18个氨基酸。

结果：该结果显示噬菌体基因组的12nt的随机序列对噬菌体有98％的独特性。其缓慢增加以至于400nt的序列对噬菌体有99％的独特性。对于10nt的噬菌体序列其降低至80％。对于细菌(大肠杆菌)，基因组的18nt的序列对大肠杆菌有97％的独特性。对于人类基因组，25nt的序列对人有80％的独特性，并且增加至45nt导致90％的基因组是独特的。

权利要求书(按照条约第19条的修改)

1.一种鉴定样品中生物材料的方法，包括：

(a)获得包含所述生物材料的样品；

(b)从所述样品中提取至少一个核酸分子；

(c)从所述核酸分子产生第一序列，所述第一序列包含第一数目的个别序列元件；

(d)通过概率匹配将所述第一序列与数据库中的参考核酸序列对比以鉴定所述生物材料；

(e)在所述对比步骤得到结论前，确定所述第一序列的下一个个别序列元件；

(f)将所述下一个个别序列元件附加至所述第一序列后；并且

(g)重复步骤(d)至(f)直到所述生物材料的样品被鉴定。

2.权利要求1的方法，其中所述产生序列的步骤包含焦磷酸测序。

3.权利要求1的方法，其中所述产生序列的步骤包含杂交测序。

4.权利要求1的方法，其中所述概率匹配使用贝叶斯方法进行。

5.权利要求1的方法，其中所述概率匹配使用递归贝叶斯方法进行。

6.权利要求1的方法，其中所述概率匹配使用朴素贝叶斯方法进行。

7.权利要求1的方法，其中所述概率匹配提供阶层统计框架来鉴定所述序列的物种。

8.权利要求1的方法，进一步包括在产生所述第一序列前，将所述至少一个核酸分子扩增以产生多个核酸分子。

9.一种鉴定样品中生物材料的方法，包括：

(a)获得包含所述生物材料的样品；

(b)从所述样品中提取至少一个核酸分子；

(c)从所述核酸分子中产生长度“n”的核苷酸序列；

(d)通过概率匹配来将所述序列与数据库中的参考核酸序列对比以鉴定所述生物材料；

(e)在所述对比步骤得到结论前，确定所述序列的下一个核苷酸；

(f)将所述下一个核苷酸附加至所述序列以产生长度“n+1”的核苷酸序列；并且

(g)重复步骤(d)至(f)直到所述生物材料的样品被鉴定。

10.权利要求9的方法，其中所述产生长度“n”和“n+1”的核苷酸序列的步骤包含焦磷酸测序。

11.权利要求9的方法，其中所述产生长度“n”和“n+1”的核苷酸序列的步骤包含杂交测序。

12.权利要求9的方法，其进一步包括在产生长度“n”的核苷酸序列前，将所述至少一个核酸分子扩增以产生多个“i”的核酸分子。

13.权利要求12的方法，其中多个“i”的长度“n”的核苷酸在与数据库中的参考核酸序列对比前产生。

14.权利要求13的方法，其中多个“i”的长度“n+1”的核苷酸在与数据库中的参考核酸序列对比前产生。

15.权利要求9的方法，其中所述概率匹配使用贝叶斯方法进行。

16.权利要求9的方法，其中所述概率匹配使用递归贝叶斯方法进行。

17.权利要求9的方法，其中所述概率匹配使用朴素贝叶斯方法进行。

18.权利要求9的方法，其中所述概率匹配提供阶层统计框架以鉴定所述长度“n”和“n+1”的核苷酸序列的物种。

19.一种检测生物材料的系统，包含：

(a)设置为接收包含生物材料的样品的样品接收单元；

(b)与所述样品接收单元相通的提取单元，所述提取单元设置为可从所述样品中提取至少一个核酸分子；

(c)与所述提取单元相通的测序盒，所述测序盒设置为从所述提取单元接收所述至少一个核酸分子并从所述至少一个核酸分子产生第一序列，所述第一序列包含第一数目的个别序列元件；

(d)包含参考核酸序列的数据库；以及

(e)与所述测序盒及所述数据库相通的处理单元，所述处理单元设置为从所述测序盒接收所述第一序列并与所述参考核酸序列对比。

20.权利要求19的系统，进一步包含碱基判定单元，其设置为处理由所述测序盒所接收的序列。

21.权利要求20的系统，其中所述碱基判定单元与概率匹配处理器相联。

22.权利要求21的系统，其中所述概率匹配处理器设置为使用贝叶斯方法接收结果序列并且在考虑到由所述碱基判定单元产生的测序质量得分的情况下计算每次测序读数的概率。

23.权利要求21的系统，其中所述概率匹配处理器使用在被用于鉴定病原体之前所产生与优化的数据库。

24.权利要求21的系统，其中所述概率匹配处理器使用根据序列内容而改变的加权得分。

25.权利要求19的系统，包含与所述处理单元相通的存储单元，其中所述处理单元设置为将所述序列信息传送至所述数据存储单元并随后从所述数据存储单元检索所述序列信息来进行处理。

资源描述

《基因组鉴定系统.pdf》由会员分享，可在线阅读，更多相关《基因组鉴定系统.pdf（31页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN102007407A43申请公布日20110406CN102007407ACN102007407A21申请号200880124929822申请日2008112160/989,64120071121USG01N33/48200601G01N33/50200601G06F7/00200601G06F17/3020060171申请人考斯摩斯德公司地址美国马里兰72发明人RR科尔韦尔JP姚库普切克J春74专利代理机构永新专利商标代理有限公司72002代理人林晓红54发明名称基因组鉴定系统57摘要本发明属于基因组学与核酸测序领域。其涉及一种对生物材料进行测序以及对测序信息中短字符串进行。

2、实时概率匹配来鉴定所有出现在所述生物材料中的物种的新方法。其涉及测序信息的实时概率匹配，更特别涉及单一分子核酸的多个序列中短字符串的比较，所述核酸可是扩增的或者是未扩增的，可是化学合成或者是物理性探询的，随序列信息的产生随时进行，且与持续的序列信息产生与收集并行。30优先权数据85PCT申请进入国家阶段日2010071686PCT申请的申请数据PCT/US2008/0844032008112187PCT申请的公布数据WO2009/085473EN2009070951INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书14页附图10页按照条约第19条的修改2页CN102。

3、007420A1/4页21一种鉴定样品中生物材料的方法，包括获得包含所述生物材料的样品，从所述样品中提取一或多种核酸分子，通过瞬时直接概率匹配INSTANTDIRECTPROBABILISTICMATCHING从所述核酸分子产生序列信息用于将所述序列信息与数据库中的核酸序列进行对比。2权利要求1的方法，其中所述一或多种核酸分子选自DNA或RNA。3权利要求1的方法，其中所述序列信息包含长度“N”的核苷酸片段。4权利要求3的方法，其中所述长度“N”的核苷酸片段与数据库中的核酸序列进行对比。5权利要求4的方法，其中所述长度“N”的核苷酸片段通过概率匹配与数据库中的核酸序列进行对比。6权利要求4的方。

4、法，其中所述长度“N”的核苷酸片段的对比实时进行，或者随所述片段或所述片段的序列信息产生随时进行。7权利要求4的方法，其中如果长度“N”的核苷酸片段的匹配概率低于靶匹配的阈值，那么从所述一或多种核酸分子产生长度“N1”，“N2”“NX”的核酸片段并与数据库中的核酸序列进行对比，其中“X”小于50。8权利要求4的方法，其中如果长度“N”的核苷酸片段的匹配概率低于靶匹配的阈值，那么从所述一或多种核酸分子产生长度“N1”，“N2”“NX”的核酸片段并与数据库中的核酸序列进行对比，其中“X”大于50。9权利要求1的方法，进一步包括在产生序列信息之前将所述一或多种核酸分子扩增以产生多个“I”的核酸分子。。

5、10权利要求8的方法，其中所述序列信息包含长度“N”的核苷酸片段。11权利要求9的方法，其中将所述多个“I”的长度“N”的核苷酸片段与数据库中的核酸序列进行对比。12权利要求11的方法，其中将所述多个IN的核苷酸片段通过概率匹配与数据库中的核酸序列进行对比。13权利要求11的方法，其中所述多个IN的核苷酸片段的对比是实时进行的，或者随所述片段产生随时进行。14权利要求11的方法，其中如果多个IN的核苷酸片段的匹配概率低于靶匹配的阈值，那么从所述一或多种核酸分子产生长度“IN1”，“IN2”“INX”的核酸片段并与数据库中的核酸序列进行对比，其中“X”小于50。15权利要求11的方法，其中如果多。

6、个IN的核苷酸片段的匹配概率低于靶匹配的阈值，那么从所述一或多种核酸分子产生长度“IN1”，“IN2”“INX”的核酸片段并与数据库中的核酸序列进行对比，其中“X”大于50。16权利要求512任一项的方法，其中所述概率匹配是通过使用贝叶斯方法来进行的。17权利要求512任一项的方法，其中所述概率匹配是通过使用递归贝叶斯方法来进行的。18权利要求512任一项的方法，其中所述概率匹配是通过使用朴素贝叶斯方法来进行的。权利要求书CN102007407ACN102007420A2/4页319权利要求512任一项的方法，其中所述概率匹配提供阶层统计框架以鉴定所述序列信息的物种。20权利要求1的方法，其中。

7、所述序列信息与数据库中核酸序列的对比是实时进行的，或者随序列信息产生随时进行，期间继续从所述一或多种核酸分子产生另外的序列信息。21权利要求20的方法，其中所述另外的序列信息包含长度变化的核苷酸。22权利要求1的方法，其中所述序列信息包含长度“N”的核苷酸片段，其与数据库中的核酸序列进行实时对比，或者随所述片段产生随时对比；期间继续从所述一或多种核酸分子产生长度“N1”，“N2”“NX”的核酸片段并与数据库中的核酸序列进行实时对比，或者随所述片段产生随时对比。23权利要求1的方法，其中在产生长度“N”的核苷酸片段的序列信息之前将所述一或多种核酸分子扩增来产生多个“I”的核酸分子；进一步包括将所。

8、述多个IN的核苷酸片段与数据库中的核酸序列进行实时对比，或者随所述片段产生随时对比；期间继续从所述一或多种核酸分子产生多个“IN1”，“IN2”“INX”的核酸片段并与数据库中的核酸序列进行实时对比，或者随所述片段产生随时对比。24一种检测生物材料的系统，包含F设置为接收包含生物材料的样品的样品接收单元；G与所述样品接收单元相通的提取单元，所述提取单元设置为从所述样品提取至少一个核酸分子；H与所述提取单元相通的测序盒，所述测序盒设置为从所述提取单元接收所述至少一个核酸分子并从所述至少一个核酸分子产生序列信息；I包含参考核酸序列的数据库；以及J与所述测序盒及所述数据库相通的处理单元，所述处理单元。

9、设置为从所述测序盒接收所述序列信息并将所述序列信息与所述参考核酸序列进行对比。25权利要求24的系统，包括便携式测序装置，其将数据电子传输到数据库用于生物体的鉴定，所述生物体的鉴定涉及确定所述核酸序列。26权利要求24的系统，进一步包括碱基判定单元，其设置为处理由所述测序盒所接收的序列。27权利要求26的系统，其中所述碱基判定单元与概率匹配处理器相连。28权利要求27的系统，其中所述概率匹配处理器设置为使用贝叶斯方法来接收结果序列并在考虑到由所述碱基判定单元产生的测序质量得分的情况下计算每次测序读数的概率。29权利要求27的系统，其中所述概率匹配处理器使用在用于鉴定病原体之前所产生与优化的数据。

10、库。30权利要求27的系统，其中所述概率匹配处理器使用根据序列内容而改变的加权得分。31权利要求24的系统，包括与所述处理单元相通的存储单元，其中所述处理单元设置为将所述序列信息传送至所述数据存储单元并继而从所述数据存储单元检索所述序列信息来进行处理。32权利要求24的系统，其中所述至少一个核酸分子选自由DNA和RNA组成的组。权利要求书CN102007407ACN102007420A3/4页433权利要求24的系统，其中所述序列信息包含长度“N”的核苷酸片段。34权利要求33的系统，其中所述提取单元设置为将所述长度“N”的核苷酸片段与所述参考核酸序列进行对比。35权利要求34的系统，其中所述。

11、提取单元设置为通过概率匹配将所述长度“N”的核苷酸片段与所述参考核酸序列进行对比。36权利要求34的系统，其中所述提取单元设置为将所述长度“N”的核苷酸片段与所述参考核酸序列进行实时对比，或者随所述长度“N”的片段产生随时对比。37权利要求34的系统，其中如果长度“N”的核苷酸片段的匹配概率低于靶匹配的阈值，那么将所述测序盒设置为从所述一或多种核酸分子产生长度“N1”，“N2”“NX”的核苷酸片段的序列信息并且将所述提取单元设置为将所述长度“N1”，“N2”“NX”的核苷酸片段与数据库中的核酸序列进行对比。38权利要求36的系统，其中将所述长度“N”的核苷酸片段与所述参考核酸序列进行实时对比，。

12、或者随所述长度“N”的片段产生随时对比，期间所述测序单元继续从所述一或多种核酸分子产生长度“N1”，“N2”“NX”的核苷酸片段的序列信息，并且所述处理单元将所述长度“N1”，“N2”“NX”的核苷酸片段的序列信息与数据库中的核酸序列进行实时对比，或者随所述片段产生随时对比。39一种鉴定样品中生物材料的方法，包含I获得包含所述生物材料的样品，II从所述样品提取一或多种核酸分子，III产生序列信息，包含来自所述一或多种核酸分子的核苷酸片段的序列，IV将核苷酸片段的所述序列与数据库中的核酸序列进行对比；并且如果核苷酸片段的所述序列的所述对比未导致鉴定出所述样品中生物材料的匹配，那么该方法进一步包括。

13、V从所述一或多种核酸分子产生另外的序列信息，其中所述另外的序列信息包含由一个另外的核苷酸组成的核苷酸片段的序列，VI紧随着所述另外的序列信息的产生，将所述另外的序列信息与数据库中的核酸序列进行对比，并重复步骤VVI直至匹配导致鉴定生物材料是所述样品。40一种鉴定样品中生物材料的方法，包括I获得包含所述生物材料的样品，II从所述样品提取一或多种核酸分子，III将所述一或多种核酸分子扩增产生多个一或多种核酸分子，IV产生多个序列信息，包含来自所述多个一或多种核酸分子的多个核苷酸片段序列。V将核苷酸片段的所述多个序列与数据库中的核酸序列进行对比；并且如果核苷酸片段所述多个序列的所述对比未导致鉴定出所。

14、述样品中生物材料的匹配，那么该方法进一步包括VI从所述一或多种核酸分子产生多个另外的序列信息，其中所述另外的序列信息包含由一个另外的核苷酸组成的核苷酸片段的序列，权利要求书CN102007407ACN102007420A4/4页5VII紧随着所述另外的序列信息的产生，将所述另外的序列信息与数据库中的核酸序列进行对比，并重复步骤VIVII直至匹配导致鉴定生物材料是所述样品。41权利要求39或40的方法，其中所述与数据库核酸序列的对比通过概率匹配随所述序列信息产生随时进行。权利要求书CN102007407ACN102007420A1/14页6基因组鉴定系统0001与相关申请交叉参考0002本申请要。

15、求2007年11月21日提出的美国临时申请号60/989,641的优先权，以其全文援引加入本文。发明领域0003本发明涉及鉴定生物体、更特别涉及在手持或者大型电子装置中通过概率数据匹配PROBABILISTICDATAMATCHING确定核酸以及其它多聚或者链型分子的序列的系统和方法。背景技术0004存在各种各样的威胁生命的情况，其中分析和测序DNA或RNA样品将有用，例如为了应对将致命病原物质释放到环境中的生物恐怖主义行为。过去，此类结果需要很多人的参与，需要太多时间。结果，快捷性和准确性受会到影响。0005在生物恐怖主义分子袭击或者紧急传染病事件中，对于最早的应对者即急诊室医师他们的选择或。

16、病床边治疗以及对于食品制造商、分销商、零售商和对于全国公共卫生人员能够迅速、准确并且可靠地鉴定出该病原物质以及其引起的疾病是重要的。病原物质可包含在样品来源如食物、空气、土壤、水、病原物质的组织以及临床呈递物CLINICALPRESENTATION。因为所述物质和/或潜在疾病可以是威胁生命并高度传染的，因而此鉴定方法应迅速完成。这是在现有国土安全生物恐怖主义应对中的一个明显弱点。0006需要系统和方法，其可基于样品中存在的核酸的基因组对比来鉴定不仅仅是单一生物体多重技术MULTIPLEXING并且指明一个物种是否存在。0007生物工程的快速进步已经引人注目地影响到了DNA测序工具的设计和性能，。

17、即高通量测序，其是确定DNA中碱基顺序的方法，产生遗传变异图谱，该图谱可为人类疾病的遗传基础提供线索。这种方法在使用任何数目的引物对许多不同的DNA模板进行测序时非常有用。尽管有这些生物工程中的重要进步，但在构建装置来快速鉴定所述序列信息并更高效和更有效传输数据方面却几乎没有进展。0008DNA测序传统上由双脱氧法来完成，通常称作SANGER法SANGERETAL，1977，其使用链终止抑制剂来使通过DNA合成的DNA链的延伸停止。0009用于DNA测序策略的新方法在持续发展中。比如DNA微列阵的出现使得可以构建序列阵列并在通称为杂交测序SEQUENCINGBYHYBRIDIZATION的方法。

18、中与互补序列杂交。另一种考虑了当今技术水平的技术利用引物延伸接着循环加入单个核苷酸，其中每个循环后接着对该掺入结果的检测。该技术通称为合成测序SEQUENCINGBYSYNTHESIS或者焦磷酸测序，包括荧光原位测序FISSEQ，在实践上是重复的并且在对靶核苷酸序列测序时包含引物延伸重复循环的一系列过程。0010因此，存在对快速基因组鉴定方法和系统的需求，包括对核酸序列数据、临床数据、治疗介入的多向电子通讯，和将治疗剂特制输送给适当群体从而使应对合理化，保持有说明书CN102007407ACN102007420A2/14页7价值的医材供应以及控制生物恐怖主义、疏忽造成的扩散及新出现的病原性流行。

19、病。0011本系统设计用于分析任何含有生物材料的样品以确定该样品中物种或基因组的存在。这是通过获取所述生物材料的序列信息并将该序列信息与数据库进行对比来实现的。匹配的序列信息将表明基因组或者物种的存在。概率匹配PROBABILISTICMATCHING将计算物种存在的可能性。所述方法可应用于大规模并行测序系统。0012发明概述0013本发明的一个方面是鉴定样品中生物材料的方法，包括获取包含所述生物材料的样品，从所述样品中提取一或多种核酸分子，从所述核酸分子产生序列信息以及基于概率将所述序列信息与数据库中的核酸序列进行对比。鉴定生物材料包括但不限于检测和/或确定样品中存在的基因组，所述样品中含有。

20、的核酸序列信息，确定生物材料中物种的能力，检测株系、突变体和工程化的生物体之间变化的能力以及鉴别未知生物体和多态性。生物材料包括但不限于生物体或病原体的DNA，RNA及相关遗传信息。0014在本发明的一个实施方案中，所述一或多种核酸分子可选自DNA或者RNA。0015在另一个实施方案中，本发明包括产生包含长度“N”的核苷酸片段的序列信息，以及进一步将所述长度“N”的片段与数据库中的核酸序列对比。0016在一个实施方案中，“N”代表对得自所述样品的核酸分子进行阳性鉴定所需的核苷酸片段的最小长度。0017在一个实施方案中，“N”的范围可以是从一个核苷酸到五个核苷酸。0018在本发明的另一个实施方案。

21、中，如果长度“N”的核苷酸片段的序列信息匹配概率低于靶匹配的阈值，则产生具有长度“N1”，“N2”“NX”的核苷酸片段。0019在又一个实施方案中，在产生序列信息前，本发明包括扩增所述一或多种核酸分子以产生多个“I”的一或多种核酸分子。扩增后产生的序列信息可包含长度“N”的核苷酸片段，从而多个“IN”数目的片段将与数据库的核酸序列对比。0020在本发明的另一个实施方案中，如果所述多个“IN”的序列信息匹配概率低于靶匹配的阈值，则产生多个“IN1”，“IN2”“INX”的序列信息。0021在本发明的一个实施方案中，所述核苷酸片段通过概率匹配与数据库中的核酸序列对比，包括但不限于贝叶斯方法BAYE。

22、SIANAPPROACH、递归贝叶斯方法RECURSIVEBAYESIANAPPROACH或者朴素贝叶斯方法BAYESIANAPPROACH。0022概率方法可使用贝叶斯可能性来考虑两个重要因素从而达到准确的结论IPTI/R是展现测试模式TESTPATTERNR的生物体属于分类单位TAXONTI的概率，和IIPR/TI是分类单位TI的成员展现测试模式R的概率。整合入工具的滑动窗口SLIDINGWINDOW中的最小模式MINIMALPATTERN可在生物体“是否”以及“如何”被遗传修饰方面辅助研究人员。0023在本发明的一个实施方案中，所述概率匹配提供了阶层统计框架HIERARCHICALSTA。

23、TISTICALFRAMEWORK来鉴定所述序列信息的种类。0024在本发明的另一个实施方案中，所述序列信息的对比实时进行，或者随着所述序列信息产生随时进行或者在产生之后立即进行。0025在本发明的另一个实施方案中，所述序列信息的对比实时进行，或者随着序列信息产生随时进行，此时另外的序列信息继续自所述一或多种核酸分子产生，其中所述另外说明书CN102007407ACN102007420A3/14页8的序列信息可包含变化长度的核苷酸，包括但不限于与此前产生的序列信息相比增加的、减少的或者相同长度的序列信息。0026在本发明的另一个实施方案中，所述方法包括获取包含所述生物材料的样品，从所述样品提取。

24、一或多种核酸分子，从所述核酸分子产生序列信息，其中所述序列信息包含长度“N”的核苷酸片段，并与数据库中的核酸序列进行实时对比或者随着该片段产生随时进行对比；此时长度“N1”、“N2”“NX”的核酸片段继续由所述一或多种核酸分子产生，并与数据库中的核酸序列实时对比或者随着序列产生随时对比。0027在本发明的另一个实施方案中，所述方法包括获取包含所述生物材料的样品，从所述样品提取一或多种核酸分子，在产生长度“N”的核苷酸片段的序列信息之前先扩增所述一或多种核酸分子来产生多个“I”核酸分子；进而包括将该多个“IN”的核苷酸片段与数据库中的核酸序列进行实时对比或者随着片段产生随时对比；此时多个“IN1。

25、”、“IN2”“INX”的核酸片段继续由所述一或多种核酸分子产生，并与数据库中的核酸序列进行实时对比或者随着序列产生随时对比。0028在本发明的一个实施方案中，序列信息包括但不限于层析谱，标记DNA或RNA片段的影像，对核酸分子的物理性探询PHYSICALINTERROGATION以确定核苷酸顺序，纳米孔分析NANOPOREANALYSES以及其他确定核酸链序列的本领域已知方法。0029在本发明的一个实施方案中，“X”可以选自110，1020，2030，3040，4050，5060，6070，7080，8090或者90100个核苷酸。在另一个实施方案中，“X”可以选自100200，200300。

26、，300400或者400500个核苷酸。0030在本发明的另一个实施方案中，如果长度“N”的核苷酸片段的序列信息匹配概率低于靶匹配的阈值，那么“NX”代表了对从所述样品获得的核酸分子进行阳性鉴定所需的核苷酸片段的最小长度。0031本发明的另一个实施方案是鉴定样品中生物材料的方法，包括I获取包含所述生物材料的样品，II从所述样品提取一或多种核酸分子，III产生序列信息，包含来自所述一或多种核酸分子的核苷酸片段的序列，IV将核苷酸片段的所述序列与数据库中的核酸序列对比；并且如果核苷酸片段所述序列的所述对比没有产生鉴定所述样品中存在生物材料的匹配，那么所述方法继续包括V从所述一或多种核酸分子产生另外。

27、的序列信息，其中所述另外的序列信息包括由一个另外的核苷酸组成的核苷酸片段的序列，VI产生所述另外的序列信息后立即将所述另外的序列信息与数据库中的核酸序列对比，并重复步骤VVI直到匹配导致鉴定所述生物材料是所述样品。0032本发明的另一个实施方案是鉴定样品中生物材料的方法，包括I获取包含所述生物材料的样品，II从所述样品提取一或多种核酸分子，III扩增所述一或多种核酸分子来产生多个一或多种核酸分子，III产生多个序列信息，包含来自所述多个一或多种核酸分子的核苷酸片段的多个序列，IV将核苷酸片段的所述多个序列与数据库的核酸序列对比，如果核苷酸片段的所述多个序列的所述对比没有产生鉴定样品中生物材料的。

28、匹配，那么所述方法继续包括V从所述一或多种核酸分子产生多个另外的序列信息，其中所述另外的序列信息包含由一个另外的核苷酸组成的核苷酸片段的序列，VI产生所述另外的序列信息后立即将所述另外的序列信息与数据库中的核酸序列对比，并重复步骤VVI直到匹配导致鉴定所述生物材料是所述样品。说明书CN102007407ACN102007420A4/14页90033本发明也涉及检测生物材料的系统，包含I设置为接收含生物材料样品的样品接收单元UNIT；II与所述样品接收单元相通的提取单元，所述提取单元设置为从所述样品提取至少一个核酸分子；III与所述提取单元相通的测序盒CASSETTE，所述测序盒设置为从所述提取。

29、单元接收所述至少一个核酸分子并从所述至少一个核酸分子产生序列信息；IV包含参考核酸序列的数据库；以及V与所述测序盒及所述数据库相通的处理单元，所述处理单元设置为从所述测序盒接收所述序列信息并将所述序列信息与所述参考核酸序列对比。0034在本发明的另一个实施方案中，所述提取单元被设置为将所述长度“N”的核苷酸片段与数据库对比。0035在本发明的另一个实施方案中，所述提取单元被设置为通过概率匹配将所述长度“N”的核苷酸片段与数据库对比。0036在本发明的另一个实施方案中，所述提取单元被设置为将所述长度“N”的核苷酸片段与数据库进行实时对比或者随着所述片段产生随时对比。0037在本发明的另一个实施方。

30、案中，如果长度“N”的核苷酸片段的匹配概率低于靶匹配的阈值，则所述测序盒将被设置为从所述一或多种核酸分子产生包含长度变化的核苷酸片段的序列信息例如与前面产生的序列信息相比长度增加、减少或者相同，并且所述提取单元被设置为将所述长度变化的核苷酸片段与数据库中的核酸序列对比。0038而本发明的另一个实施方案包含一个系统，其中将所述长度“N”的核苷酸片段与所述参考核酸序列进行实时对比或者随着所述长度“N”的片段产生随时对比，同时所述测序单元继续从所述一或多种核酸分子产生长度“N1”、“N2”“NX”的核苷酸片段的序列信息，并且所述处理单元将所述长度“N1”、“N2”“NX”的核苷酸片段的序列信息与数据。

31、库中的核酸序列进行实时对比或者随着该片段产生随时对比。0039该系统所涵盖的进一步变化将在以下本发明的相似说明书中描述。0040附图简述0041各种实施方案参考所附附图进行描述。在附图中，类似参考数字表示相同或者功能上相似的组件COMPONENT。0042图1是所公开的系统的示意图。0043图2是图1中系统的更详细的示意图。0044图3是图1中系统的一个实施方案中可更换的盒和其他组件之间的功能性相互作用的示意图。0045图4是手持电子测序装置的一个实施方案的正面透视图。0046图5是说明图1中系统的操作方法的流程图。0047图6是图1中系统与潜在地涉及该系统的各种实体之间相互作用的示意图。00。

32、48图7是手持电子测序装置与远程分析中心之间功能性相互作用的示意图。0049图8是概率软件模块的整体结构示意图。0050图9显示出作为所读序列长度函数的独特序列的百分比。0051图10是测序原理步骤的概要。0052发明详述0053本发明所描述的方法与系统使用最短的独特序列信息，其在未鉴别的样品中的核说明书CN102007407ACN102007420A5/14页10酸混合物中相对于所产生或收集的完整序列信息具有最小的独特长度N。除了独特长度序列外，非独特的也被对比。基因组鉴定的概率随着多个匹配而增加。有些基因组会比其他基因组具有更长的最小独特序列。短长度N序列的匹配方法在序列信息产生或者收集的。

33、同时也在继续。对比随着随后较长序列产生或者收集随时实时发生。这导致可观的判定空间DECISIONSPACE缩小，因为就序列产生/收集而言，计算是早期进行的。所述概率匹配可包括但不限于完全匹配PERFECTMATCHING，子序列独特性SUBSEQUENCEUNIQUENESS，模式匹配PATTERNMATCHING，多个子序列在长度N内匹配，不精确匹配INEXACTMATCHING，种子与延伸SEEDANDEXTEND，距离测量以及进化系统树作图。它提供了自动化途径将所述序列信息进行随其产生随时或者实时匹配。所述测序设备可在对比的同时继续收集更长和更多串STRING的序列信息。随后的序列信息也。

34、可进行对比并可提高对样品中基因组或物种的鉴定的可信性。该方法不需要等候短读数SHORTREAD的序列信息集结成较大的重叠群。0054本发明公开的系统与方法提供了核酸引入INTAKE、分离与分选SEPARATION，DNA测序，数据库网络，信息处理，数据储存，数据显示以及电子通讯来加快相关数据传送以使得可以诊断或鉴定对病原体爆发和适当应对有用途的生物体。所述系统包括便携式测序装置，其可将数据电子传输到数据库来对生物体进行鉴定，所述对生物体的鉴定涉及确定核酸和其它多聚或链型分子的序列以及概率数据匹配。0055图1和图2说明了包括便携式手持电子测序装置105的系统100的实施方案。所述便携式电子测序。

35、装置105本文称作“测序装置”被设置为可使用户U易于持握和使用，并且可以通过通讯网络110与许多其他潜在相关实体通讯。0056该装置被设置为可分别接收对象样品SS和环境样品ES。所述对象样品如血液、唾液等可包括该对象的DNA以及该对象中任何生物体病原或其他的DNA。所述环境样品ES可包括但不限于环境包括食物、空气、水、土壤、组织中处于其天然状态的生物体。两种样品SS，ES都可受生物恐怖主义行为或新出现的流行病的影响。两种样品SS，ES都同时通过管或药签收集并被接收到在膜或载玻片、平板、毛细管或沟槽CHANNEL上的溶液里或固体作为珠上。所述样品SS，ES接着被同时测序。特定环境的情形可能会需要。

36、分析由样品SS，ES的混合物组成的样品。一旦鉴定出概率匹配和/或在实时数据收集和数据解释期间，将联系最初的应对者。随着时间推进，渐渐增多百分比的序列可被鉴定出来。0057所述测序装置105可包括如图3所示的下列功能性组件，其使得装置105能分析对象样品SS和环境样品ES，将分析结果与通讯网络110沟通。0058样品接收器120和122与DNA提取和分离部件BLOCK130相连，其继而将样品通过流动系统传递到部件130。部件130从样品提取DNA并将其分离从而使其可被进一步处理和分析。这可通过使用试剂模板即作为用于合成互补核酸链模式的DNA链来完成，其可与样品120、122组合在一起通过已知流控。

37、转运技术而传递。在样品120、122中的所述核酸由提取和分离部件130分选，得到核苷酸片段或者未扩增的单个分子的流STREAM。一个实施方案可包括使用扩增方法。0059可更换的盒140可以以可移除方式与测序装置105和部件130相连。所述盒140可从部件130接收所述分子流并测序DNA及产生DNA序列数据。说明书CN102007407ACN102007420A6/14页110060所述可更换的盒140可以连接到并提供所述DNA序列数据给完成概率匹配的处理器160。一个实施方案可包括以1MB/SEC的速率传输16GB数据的性能。优选测序盒140来获得所述序列信息。代表不同测序方法的不同的盒可以互。

38、换。所述序列信息通过概率匹配进行对比。超快匹配算法以及预先产生的加权特征数据库WEIGHTEDSIGNATUREDATABASE将重新得到DENOVO的序列数据与储存的序列数据对比。0061所述处理器160可以是例如用途特异性集成电路，其被设计为用于完成一或多个特定功能或者使一或多种特定装置或应用成为可能。该处理器160可控制测序装置105的所有其他功能元件。例如，该处理器160可发送/接收所述DNA序列数据以存于数据存储器内存170。该数据存储器170也可包括任何适宜类型或形式的内存来用于将数据存储为可被处理器160读取的形式。0062所述测序装置105可进一步包括通讯组件180，处理器16。

39、0可将从数据存储器170读取的数据发送给所述组件180。该通讯组件180可包括任何适宜技术来用于与通讯网络110通讯，如有线、无线、卫星等。0063所述测序装置105可包括用户输入模块150，用户通过其可提供输入给装置105。这可包括任何适宜输入技术如按钮、触摸板等。最后，所述测序装置105可包括用户输出模块152，其可包括用于视频输出的显示器和/或音频输出装置。0064所述测序装置105也可包括全球定位系统GPS接收器102，其可接收定位数据并将该数据继续传给处理器160；以及电源104即电池，插入式适配器用于给输出负载或所述测序装置105的负载组提供电力或者其他类型能量。0065所述可更换。

40、的盒140在图3中有更详细的图示。该盒140可以以可移除方式与测序装置105以及部件130相连并包括一种最新测序方法即高通量测序。湿法化学WETCHEMISTRY或者基于固态的系统可通过盒可更换的“即插即用”方式构建在层面DECK上。所述盒140可从部件130接收所述分子流并通过测序方法测序DNA及产生DNA序列数据。实施方案包括基于但不限于以下的方法合成测序、连接测序SEQUENCINGBYLIGATION、单分子测序SINGLEMOLECULESEQUENCING以及焦磷酸测序。还有另外一个实施方案包括用作电场142的源SOURCE并且将该电场142应用于所述分子流来实现该流中DNA的电泳。

41、。所述盒包括光源144来用于发射穿过所述DNA流的荧光144。该盒进一步包括生物医学传感器探测器146用于探测所述荧光发射以及用于探测/确定该样品流的DNA序列。除荧光之外，该生物医学传感器也能够探测适用于测序的标记部分的所有波长的光。0066所述荧光探测包括测量标记部分的信号，该标记部分来自所述一或多种核苷酸或核苷酸类似物中的至少一种。使用荧光核苷酸的测序典型包括在探测所加入的核苷酸后将荧光标记光漂白。实施方案可包括基于珠的荧光、FRET、红外标记、焦磷酸酶、连接酶方法包括标记的核苷酸或聚合酶或使用循环可逆终止子CYCLICREVERSIBLETERMINATOR。实施方案可包括纳米孔或者包。

42、括固定的单分子或在溶液中的光学波导OPTICALWAVEGUIDE等直接方法。光漂白方法包括减弱的信号强度，其随着每一个荧光标记核苷酸加入到引物链而积累。通过减弱该信号强度，任选测序更长的DNA模板。0067光漂白包括将光脉冲应用于已掺入荧光核苷酸的核酸引物。所述光脉冲典型包含长等于感兴趣荧光核苷酸所吸收的光波长的波长。该脉冲被应用约50秒或更短，约20秒说明书CN102007407ACN102007420A7/14页12或更短，约10秒或更短，约5秒或更短，约2秒或更短，约1秒或更短，或者约0秒。该脉冲破坏所述荧光标记核苷酸和/或荧光标记引物或核酸的荧光，或者将该荧光减弱至可接受水平，比如背。

43、景水平，或者低至足以防止若干循环后的信号累积的水平。0068所述传感器探测器146任选监测至少一种来自核酸模板的信号。该传感器探测器146任选包含或者可操作性地连接于包括软件的电脑，所述软件用于将探测器信号信息转换成测序结果信息，比如核苷酸浓度、核苷酸种类、模板核苷酸序列等。另外，任选校准样品信号，例如通过监测来自已知来源信号来校准微流体系统MICROFLUIDICSYSTEM。0069如图2所示，所述测序装置105可通过通讯网络110与各种实体通讯，所述实体可与生物恐怖主义行为或流行病爆发事件中的通报相关。这些实体可包括最初应对者即实验室应对网络即参比实验室REFERENCELABS，SEM。

44、INALLABS，国家实验室，疾病控制中心CDC，医师，公共卫生人员，医疗记录，人口普查数据，执法，食品生产商，食品分销商和食品零售商。0070上面讨论的测序装置105的一个实例现参考阐述了该装置前视图的图4描述。该装置是便携式手持测序装置并以与硬币C大小对比阐述。该装置105大约长11英寸并易于运送。图4中，硬币用于显示比例。两个端口153、154位于该装置的一侧并代表样品接收器120、122。端口153用于接收要进行分析和测序的对象样品SS或环境样品ES。端口154用于测序对照SC。所述两个不同端口设计用于确定对象样品SS或环境样品ES是否含有导致测序失败的材料，如果测序失败，或者以CLI。

45、A容量运行。所述装置105包括用户输入模块150，使用户U可以对装置105提供输入。在这个特定实施方案中，用户输入模块150是触摸板形式，不过，任何适宜技术都可使用。所述触摸板包括按钮150A用于视频显示，150B、150C用于记录数据，150D用于实时数据传输和接收，以及150E用于电源控制来启动或停止该装置。或者，该键板可并入显示屏并且所有功能可由液晶界面控制。适宜技术在美国专利申请公开NO2007/0263163中描述，以其全文援引加入。这可以通过启用蓝牙装置配对或类似方法。该功能包括数字键，由字符表字母标记，如电话键盘常用位置，如删除键、空格键、退出键、打印键、回车键、上/下、左/右、。

46、额外字符以及其它任何用户所期望的。该装置进一步包括用户输出模块152，以视频显示形式来为用户U展示信息。如果需要，也可提供如157A和157B所示的音频输出装置。最后，所述测序装置105包括发光二极管155和156来指示数据的传输和接收。键/按钮的功能是控制样品测序、数据传输和概率匹配以及界面控制的所有方面，包括但不限于开启/关闭、发送、导航键、软键SOFTKEY、清除、以及具有算法计算出来的基因组排序的LCD显示功能和可视化工具用以列出匹配置信度。一个实施方案包括基于互联网的系统，其中多个用户可同时向/从分层网络搜苏引擎传输/接收数据。0071图5是上述系统100的一个实施方案中的系统100。

47、的操作过程流程图。如图5所示，该装置的操作过程包括在200，在样品接收器120、122接收收集的对象样品SS和环境样品ES。在202，该样品进入DNA提取和分离部件130，其中分析样品并从样品提取并分离DNA。在203，可更换的盒140从部件130接收所述分离的DNA并测序DNA。取决于所述的盒以及是否需要，140盒内的生物医学传感器146可通过用电场142和荧光144来探测/确定该样品流的DNA序列。在204，测序数据被处理和储存于数据存储器170。在205，通过概率匹配对比所述测序数据并完成基因组鉴定。这一过程在实质上不断反复。作为结果说明书CN102007407ACN102007420A。

48、8/14页13的信息可通过通讯网络110传输。GPS全球定位系统数据也可任选在步骤205中传输。在206，该装置从匹配中电子接收数据。在207，该装置通过用户输出模块152用视频显示从匹配中电子接收的数据。如果需要进一步分析，在208，所述测序的数据通过通讯网络被电子传输到数据解释实体即公共卫生人员，医疗记录等。0072多方法研究途径可增强对事件的快速反应并将最初的保健护理与生物体探测相整合。可以使用三角应对TRIANGULATERESPONSE，其涉及将来自DNA测序的定量仪器数据与定性病危护理CRITICALCARE汇集。在跨多地区区域收集的DNA测序数据的观察清单和审计的基础结构INFR。

49、ASTRUCTURE可用于对比生物体的出现，例如地点之间的生物威胁。对基因组数据的推理统计学分析可与医学观察结合来发展优先范畴CATEGORIESOFPRIORITIES。在不同医学中心和基因组中心数据库之间收集和共享的信息可使得对事件三角划分TRIANGULATION、事件量级MAGNITUDE以及在适当时间对受影响人做出正确介入成为可能。0073图6阐述了所述系统100与各种潜在资源实体之间的相互作用。所述装置105被设置为通过无线或有线通讯网络与这些资源实体相互作用。装置105可传输三角划分的表示为“样品数据”、“患者数据”和“治疗介入”的测序数据信息310。装置105可向和从与资源32。

50、0匹配的序列传输和接收DNA序列数据，所述资源320包括和包括前哨实验室SENTINELLABS、参比实验室和国家实验室在内的实验室应对网络。0074所述每个实验室都有具体作用。前哨实验室医院和其他社区临床实验室负责排除或者将其面临的危险物质上报给附近的LRN参比实验室。参比实验室遵守生物安全等级3BSL3实践的州或者地方公共卫生实验室进行证实检验排查RULEIN。国家实验室BSL4保持能够处理病毒物质如依波拉和大天花并进行确定性鉴别的能力。0075系统100可进一步向和从数据解释资源330传输和接收数据，所述资源330包括执法实体、公共卫生人员、医疗记录以及人口普查数据。最后，所述装置105。

展开阅读全文