利用基因组测序诊断胎儿染色体非整倍性 优先权声明
本 申 请 要 求 2007 年 7 月 23 日 提 交 的 题 目 为 “DETERMINING ANUCLEIC ACID SEQUENCE IMBALANCE( 确定核酸序列失衡 )” 的美国临时申请第 60/951438 号 (Attorney Docket No.016285-005200US) 的优先权, 并且是其正式申请, 在此将该临时申请的全部内 容通过引用并入并用于各种目的。
相关申请的交叉引用
本申请还涉及同时提交的题目为 “DETERMINING A NUCLEICACID SEQUENCE IMBALANCE( 确定核酸序列失衡 )” 的正式申请 (Attorney Docket No.016285-005210US), 在此将该申请内的全部内容通过引用并入并用于各种目的。
发明领域
本发明一般涉及通过确定不同核酸序列间的失衡来诊断检测胎儿染色体非整倍 性, 更具体而言, 涉及经由检测母体样品 ( 如血液 ) 来确定 21 三体性 (trisomy 21)( 唐氏 综合征 ) 和其他染色体非整倍性。 发明背景
胎儿染色体非整倍性是由异常剂量的染色体或染色体区的存在导致的。 异常剂量 可以是异常地高, 如在 21 三体性中存在额外的 21 号染色体或染色体区 ; 或异常地低, 如在 特纳综合征中缺乏 X 染色体的拷贝。
胎儿染色体非整倍性如 21 三体性的常规产前诊断方法涉及, 通过侵入性方法如 羊膜穿刺或绒毛膜绒毛取样对胎儿的材料进行取样, 但这造成胎儿流失 (fetal loss) 的有 限风险。 无创方法, 如通过超声波扫描术或生物化学标记物的筛查, 已用于在确定的侵入性 诊断方法前, 将孕妇进行风险分级。然而, 这些筛查方法通常测量与染色体非整倍性如 21 三体性有关的副现象, 而不是核心染色体异常, 因此诊断的准确性未达最佳标准, 且具有诸 如受孕龄 (gestational age) 过度影响等的其他缺点。
1997 年, 在母体血浆中发现了循环的无细胞胎儿 DNA, 这为无创产前诊断提供了 新的可能性 (Lo, YMD and Chiu, RWK 2007 Nat Rev Genet 8, 71-77)。尽管这种方法易于 应用于伴性病症 (Costa, JM et al.2002 N Engl JMed 346, 1502) 和某些单基因病症 (Lo, YMD et al.1998 N Engl J Med 339, 1734-1738) 的产前诊断, 但是, 该方法的产前检测胎儿 染色体非整倍性的应用依然代表相当大的挑战 (Lo, YMD and Chiu, RWK 2007, 同上 )。 首先, 胎儿核酸和母体来源的高背景核酸共存于母体血浆中, 而母体来源的高背景核酸经常干扰 胎儿核酸的分析 (Lo, YMD et al.1998 Am J Hum Genet62, 768-775)。其次, 胎儿核酸主要 以无细胞的形式在母体血浆中循环, 这使得难以获得胎儿基因组的基因或染色体的剂量信 息。
近年来, 已取得了克服这些挑战的显著发展 (Benachi, A & Costa, JM2007 Lancet 369, 440-442)。 一种方法是, 检测母体血浆中的胎儿特异性核酸, 因而克服了母体背景干扰 的问题 (Lo, YMD and Chiu, RWK 2007, 同上 )。21 号染色体的剂量由胎盘来源的 DNA/RNA
分子中多态性等位基因的比值来推断。 然而, 当样品中含有较低量的靶核酸时, 这种方法的 准确性较低, 并且仅可适用于对靶多态性是杂合的胎儿, 如果使用一种多态性, 则该靶核酸 仅是群体的一个亚群。
Dhallan 等 (Dhallan, R, et al.2007, 同上, Dhallan, R, et al.2007 Lancet369, 474-481) 描述了通过向母体血浆中添加甲醛富集循环的胎儿 DNA 比例的替代策略。 母体血 浆中胎儿所提供的 21 号染色体序列的比例, 通过评估 21 号染色体上单核苷酸多态性 (SNP) 的父本遗传的胎儿特异性等位基因与非胎儿特异性等位基因的比值来确定。同样, 计算参 照染色体的 SNP 比值。随后, 通过检测 21 号染色体的 SNP 比值和参照染色体的 SNP 比值 间的统计学显著差异来推断胎儿 21 号染色体的失衡, 其中利用小于等于 0.05 的固定 p 值 来定义显著。为了确保高度的群体覆盖度, 每条染色体靶向多于 500 的 SNP。然而, 存在有 关甲醛将胎儿 DNA 富集至高比例的效率的争论 (Chung, GTY, et al.2005 Clin Chem 51, 655-658), 因此, 该方法的再现性需要进一步评估。另外, 由于每个胎儿和母亲会提供每条 染色体的许多不同的 SNP, 所以 SNP 比值比较的统计学检验的效力会因情况不同而不同 (Lo YMD & Chiu, RWK.2007 Lancet 369, 1997)。 此外, 由于这些方法依赖于遗传多态性的检测, 因此它们限于对这些多态性是杂合的胎儿。
利用由 21 三体性和整倍体胎儿获得的羊水细胞培养物中 21 号染色体基因座和 参照基因座的聚合酶链式反应 (PCR) 和 DNA 定量, Zimmermann 等 (2002 Clin Chem 48, 362-363) 基于 21 三体性胎儿的羊水细胞培养物的 21 号染色体 DNA 序列增加 1.5 倍, 能区 分这两组胎儿。因为 DNA 模板浓度中的 2 倍差异仅构成了一个阈值循环 (Ct) 的差异, 所以 1.5 倍的差异的区分是常规实时 PCR 的极限。为了实现较好程度的定量区分, 需要替代策 略。
已经研发了检测核酸样品中等位基因比值偏移 (allelic ratio skewing) 的数字 PCR(Chang, HW et al.2002 J Natl Cancer Inst 94, 1697-1703)。数字 PCR 是基于扩增的 核酸分析技术, 其要求将含有核酸的样品分布于大量离散的样品中, 在所述离散样品中, 每 个样品平均含有不多于约 1 个靶序列。 通过数字 PCR, 用序列特异性引物扩增特异性核酸靶 标来产生特异性扩增子。在核酸分析前, 确定或选择待靶向的核酸基因座和待包括于反应 中的序列特异性引物的种类或组。
临床上, 已经证明, 数字 PCR 可以用于检测肿瘤 DNA 样品中的杂合性丢失 (LOH) (Zhou, W.et al.2002 Lancet 359, 219-225)。为了分析数字 PCR 的结果, 以前的研究采用 序贯概率比检验 (sequential probability ratiotesting, SPRT) 来将实验结果分类为表 示样品中存在或不存在 LOH(E1Karoui et al.2006 Stat Med 25, 3124-3133)。
在以前的研究所用的方法中, 由数字 PCR 所收集的数据的量相当低。因此, 少量的 数据点和典型的统计性涨落使得准确性受到损害。
因此期望具有高度敏感性和特异性的无创检测, 以便分别将假阴性和假阳性减少 到最低限度。然而, 胎儿 DNA 以低的绝对浓度存在, 并代表母体血浆和血清中全部 DNA 序列 的较少部分。因此, 也期望具有通过使遗传信息的量最大化以允许胎儿染色体非整倍性的 无创检测的方法, 所述遗传信息的量可由含有母体背景核酸的生物样品中作为较少部分存 在的数量有限的胎儿核酸推断。
发明概述本发明的实施方案提供了确定从孕妇获得的生物样品中是否存在核酸序列失衡 ( 如染色体失衡 ) 的方法、 系统和装置。 利用与生物样品中其他非临床相关染色体区 ( 背景 区 ) 有关的临床相关染色体区的量的参数, 可以进行这种确定。一方面, 通过对母体样品, 如尿、 血浆、 血清和其他合适的生物样品中的核酸分子进行测序来确定染色体的量。 对生物 样品中的核酸分子进行测序, 以便对基因组部分进行测序。为了确定与参照数量相比的变 化 ( 即失衡 ) 是否存在, 选择了一个或多个截止值 (cutoff value), 例如关于两个染色体区 ( 或染色体区组 ) 的量的比值。
根据一示例性的实施方案, 分析从孕妇接收的生物样品来进行胎儿染色体非整倍 性的产前诊断。生物样品包括核酸分子。对含于生物样品中的一部分核酸分子进行测序。 一方面, 所获得的遗传信息的量对诊断的准确性是足够的, 然而并未过量, 以便控制成本和 所需的生物样品的输入量。
基于测序, 由鉴定为来源于第一染色体的序列, 确定第一染色体的第一量。 由鉴定 为来源于第二染色体之一的序列, 确定一条或多条第二染色体的第二量。 随后, 将第一量和 第二量的参数与一个或多个截止值进行比较。 基于比较, 确定对于第一染色体, 是否存在胎 儿染色体非整倍性的分类。测序有利于使遗传信息的量最大化, 所述遗传信息的量可由数 量有限的作为较少部分存在于含有母体背景核酸的生物样品中的胎儿核酸推断。 根据一示例性的实施方案, 分析从孕妇接收的生物样品来实施胎儿染色体非整倍 性的产前诊断。生物样品包括核酸分子。确定生物样品中胎儿 DNA 的百分比。基于该百分 比, 基于期望的准确性, 计算待分析的序列的数量 N。对生物样品中所含有的至少 N 个核酸 分子进行随机测序。
基于随机测序, 由鉴定为来源于第一染色体的序列, 确定第一染色体的第一量。 由 鉴定为来源于第二染色体之一的序列, 确定一条或多条第二染色体的第二量。 随后, 将第一 量和第二量的参数, 与一个或多个截止值进行比较。基于比较, 确定对于第一染色体, 是否 存在胎儿染色体非整倍性的分类。 随机测序有利于使可由数量有限的作为较少部分存在于 含有母体背景核酸的样品中的胎儿核酸推断的遗传信息的量最大化。
本发明的其他实施方案涉及与本文所述方法相关的系统和计算机可读介质。
参考下文详细的描述和附图, 可获得对本发明的特征和优点的更好理解。
附图简述
图 1 是本发明实施方案的方法 100 的流程图, 该方法 100 用于在从孕妇个体获得 的生物样品中进行胎儿染色体非整倍性的产前诊断。
图 2 是本发明实施方案的方法 200 的流程图, 该方法 200 用于利用随机测序进行 胎儿染色体非整倍性的产前诊断。
图 3A 表示本发明的实施方案的, 与 21 三体性或整倍体胎儿有关的母体血浆样品 中 21 号染色体序列的百分比表现度 (percentagerepresentation) 的图表。
图 3B 表 示 本 发 明 的 实 施 方 案 的, 通过大规模并行测序和微流体数字 PCR(microfluidics digital PCR) 所确定的母体血浆胎儿 DNA 分数浓度间 (fractional fetal DNA concentration) 的相关性。
图 4A 表示本发明的实施方案的, 每条染色体的比对的序列百分比表现度的图表。
图 4B 表示图 4A 所示的 21 体情况和整倍体情况间, 每条染色体的百分比表现度中
的差异 (% ) 的图表。
图 5 表示本发明的实施方案的, 与 21 三体性胎儿有关的母体血浆中, 21 号染色体 序列过度表现 (over-representation) 的程度和胎儿 DNA 分数浓度间的相关性。
图 6 表示根据本发明的实施方案分析的一部分人类基因组的表。T21 表示从与 21 三体性胎儿有关的妊娠获得的样品。
图 7 表示本发明的实施方案的, 从 21 三体性胎儿中区分整倍体所需的序列数量的 表。
图 8A 表示本发明的实施方案的, 与 21 号染色体比对的被测序的标签的前 10 个起 始位置的表。
图 8B 表示本发明的实施方案的, 与 22 号染色体比对的被测序的标签的前 10 个起 始位置的表。
图 9 表示可与本发明实施方案的系统和方法一起使用的示例性计算机装置的方 框图。
定义
本文所用术语 “生物样品” 指从个体 ( 如诸如孕妇的人 ) 采集的含有一个或多个 感兴趣的核酸分子的任何样品。 术语 “核酸” 或 “多核苷酸” 指单链或双链形式的脱氧核糖核酸 (DNA) 或核糖核 酸 (RNA) 和其多聚体, 除非另有限制, 该术语包括含有天然核苷酸的已知类似物的核酸, 所 述类似物具有与参照核酸类似的结合特性, 并且以与天然存在的核苷酸类似的方式代谢。 除非另有说明, 特定的核酸序列还隐含地包括其保守修饰的变体 ( 如简并密码子取代 )、 等位基因、 直系同源物 (orthologs)、 SNP 和互补序列以及明确表示的序列。具体来说, 简 并密码子的取代可以通过产生如下的序列实现 : 其中一个或多个选择的 ( 或全部 ) 密码子 的第三位被混合碱基和 / 或脱氧次黄苷残基取代 (Batzeret al., Nucleic Acid Res.19 : 5081(1991) ; Ohtsuka et al., J.Biol.Chem.260 : 2605-2608(1985) ; 以 及 Rossolini et al., Mol.Cell.Probes 8 : 91-98(1994))。术语核酸与基因、 cDNA、 mRNA、 小非编码 RNA、 微 RNA(miRNA)、 Piwi- 相互作用 RNA 和基因或基因座编码的短发夹 RNA(shRNA) 交换地使用。
术语 “基因” 意指与产生多肽链有关的 DNA 的片段。其可以包括编码区之前和之 后的区域 ( 前导区和非转录尾区 ), 以及单独的编码片段 ( 外显子 ) 间的间插序列 ( 内含 子 )。
本文所用术语 “反应” 指与表示感兴趣的特定多核苷酸序列的存在或不存在的化 学、 酶促或物理作用有关的任何过程。 “反应” 的实例是诸如聚合酶链式反应 (PCR) 的扩增 反应。 “反应” 的另一实例是通过合成或通过连接的测序反应。 “信息反应” 是表示一个或 多个感兴趣的特定多核苷酸序列的存在的反应, 并且在一种情况下, 只存在一种感兴趣的 序列。本文所用术语 “孔 (well)” 指在预定位置和有限的结构中的反应, 如孔形瓶、 小室或 PCR 阵列中的室 (chamber)。
本文所用术语 “临床相关核酸序列” 可以指对应于潜在的失衡正被检测的更大的 基因组序列片段的多核苷酸序列, 或指更大的基因组序列本身。一实例是 21 号染色体的序 列。其他的实例包括 18 号、 13 号、 X 和 Y 染色体。除此以外的其他实例包括, 胎儿从其父 母之一或两者遗传的突变的基因序列或遗传多态性或拷贝数变异。 除此以外的其他实例包
括, 恶性肿瘤中突变、 缺失或扩增的序列, 如发生了杂合性丢失或基因重复的序列。在某些 实施方案中, 多种临床相关核酸序列, 或临床相关核酸序列等同的多种标记, 可用于提供用 来检测失衡的数据。例如, 来自 21 号染色体的 5 个不连续序列的数据, 能够以累加的方式 (additivefashion) 用于确定可能的 21 号染色体失衡, 从而将所需的样品体积有效地减少 至 1/5。
本文所用术语 “背景核酸序列” 指与临床相关核酸序列的正常比值是已知的核酸 序列, 如 1 ∶ 1 的比值。 作为一实例, 背景核酸序列和临床相关核酸序列是来自相同染色体, 由于杂合性而不同的两个等位基因。在另一实例中, 背景核酸序列是与另一等位基因杂合 的一等位基因, 该另一等位基因是临床相关核酸序列。 而且, 某些背景核酸序列和临床相关 核酸序列的每一种可以来自不同的个体。
本文所用术语 “参照核酸序列” 指每个反应的平均浓度是已知的或已经等同地测 量的核酸序列。
本文所用术语 “过度表现的 (overrepresented) 核酸序列” 指两种感兴趣的序列 ( 如临床相关序列和背景序列 ) 中的核酸序列, 该过度表现的核酸序列比生物样品中的其 他序列更丰富。 本文所用术语 “基于” 意指 “至少部分地基于” , 并指确定另一值所用的一个值 ( 或 结果 ), 如存在于方法的输入和该方法的输出的关系中的值。本文所用术语 “获得” 还指方 法的输入和该方法的输出的关系, 如该当获得是公式的计算时存在的关系。
本文所用术语 “定量数据” 意指, 由一个或多个反应获得的并且提供一个或多个数 值的数据。例如, 表示特定序列的荧光标记的孔的数目是定量数据。
本文所用术语 “参数” 意指, 表征定量数据集和 / 或定量数据集间数值关系的数 值。例如, 第一核酸序列的第一量和第二核酸序列的第二量之间的比值 ( 或比值的函数 ) 是参数。
本文所用术语 “截止值” 意指, 其值用于在生物样品的两个或多个分类状态 ( 例如 患病和非患病 ) 间进行裁定 (arbitrate) 的数值。例如, 如果参数大于截止值, 将定量数据 分为第一类 ( 例如, 患病状态 ), 或者如果该参数小于该截止值, 则将定量数据分为另一类 ( 例如, 未患病状态 )。
本文所用术语 “失衡” 意指, 与参考量的任何显著偏差, 其是由临床相关核酸序列 的量中的至少一个截止值所定义的。例如, 参考量的比值为 3/5, 因此如果测量的比值是 1 ∶ 1, 则存在失衡。
本文所用术语 “染色体非整倍性” 意指, 染色体的定量数量与二倍体基因组的染色 体数量的变化。这种变化可以是增加或丢失。该变化可以包括一个染色体的全部或染色体 的区域。
本文所用术语 “随机测序” 意指测序, 由此被测序的核酸片段在测序程序前并未特 异地鉴定或靶向。不需要靶向特定基因座位的序列特异性引物。被测序的核酸池随样品的 不同而不同, 甚至对于相同样品随分析的不同而不同。被测序的核酸的特征仅由所产生的 测序输出揭示。在本发明的某些实施方案中, 用共享某些共有特征的核酸分子的特定群体 富集生物样品的程序, 可先于随机测序。 在一实施方案中, 生物样品中的每个片段都具有相 等的被测序的概率。
本文所用术语 “人类基因组部分 (fraction of the human genome)” 或 “人类基 因组的一部分 (portion of the human genome)” 意指, 小于 100%的人类基因组的核苷酸 序列, 该人类基因组由约 30 亿个核苷酸碱基对组成。在测序的背景下, 该术语指小于 1 倍 覆盖度的人类基因组核苷酸序列。该术语可以表示为核苷酸 / 碱基对的百分比或绝对值。 作为用途实例, 该术语可以用来表示进行的测序的实际量。实施方案可以确定获得准确的 诊断的人类基因组被测序部分所需的最小值。作为另一用途实例, 该术语指用来获得疾病 分类的参数或量的测序数据的量。
本文所用术语 “被测序的标签” 意来自核酸分子的任何部分或全部的被测序的核 苷酸串 (string)。 例如, 被测序的标签可以是来自核酸片段的被测序的一短串核苷酸, 位于 核酸片段两端的一短串核苷酸, 或存在于生物样品中的完整核酸片段的测序。核酸片段是 更大的核酸分子的任何部分。片段 ( 如基因 ) 可以与更大核酸分子的其他部分分离地存在 ( 即不连接 )。
发明详述
本发明的实施方案提供了, 确定与非患病状态相比, 临床相关染色体的存在增加 还是减少 ( 患病状态 ) 的方法、 系统和装置。这种确定可以通过利用与生物样品中其他非 临床相关染色体区 ( 背景区 ) 有关的临床相关染色体区的量的参数来进行。对生物样品的 核酸分子进行测序, 以便对基因组部分进行测序, 并可以由测序结果确定量。 选择一个或多 个截止值, 用于确定是否存在与参照量相比的变化 ( 即失衡 ), 例如, 关于两个染色体区 ( 或 染色体区组 ) 的量的比值。
在参照量中所检测的变化可以是, 与其他非临床相关序列相比的, 与临床相关核 酸序列有关的任何偏差 ( 向上或向下 )。 因此, 参照状态可以是任何比值或其他量 ( 如除了 1-1 对应外 ), 并且如通过一个或多个截止值所确定的, 表示变化的测量状态可以是不同于 参考量的任何比值或其他量。
临床相关染色体区 ( 也称为临床相关核酸序列 ) 和背景核酸序列, 可以来自第一 类型的细胞和一种或多种第二类型的细胞。例如, 来自胎儿 / 胎盘细胞的胎儿核酸序列存 在于生物样品中, 如含有来自母体细胞的母体核酸序列的背景的母体血浆。在一实施方案 中, 至少部分地基于生物样品中第一类型细胞的百分比来确定截止值。 需要指出的是, 样品 中胎儿序列的百分比可以通过任何胎儿来源的基因座确定, 并且不限于测量临床相关核酸 序列。 在另一实施方案中, 至少部分地基于生物样品中肿瘤序列的百分比来确定截止值, 所 述生物样品, 如血浆、 血清、 唾液或尿, 含有来自体内非恶性细胞的核酸序列的背景。
I. 一般方法
图 1 是本发明实施方案的方法 100 的流程图, 该方法 100 用于在从孕妇个体获得 的生物样品中进行胎儿染色体非整倍性的产前诊断。
在步骤 110 中, 接收来自孕妇的生物样品。该生物样品可以是血浆、 尿、 血清或任 何其他合适的样品。样品含有胎儿和孕妇的核酸分子。例如, 核酸分子可以是染色体的片 段。
在步骤 120 中, 对含于生物样品中的多个核酸分子的至少一部分进行测序。被测 序的一部分代表人类基因组的部分。在一实施方案中, 核酸分子是各自染色体的片段。可 以对一端 ( 如 35 个碱基对 (bp))、 两端或完整的片段进行测序。可以对样品中全部核酸分子进行测序, 或仅对亚群进行测序。如下文更详细描述的, 该亚群可以是随机选择的。
在一实施方案中, 测序利用大规模并行测序进行。大规模并行测序, 如可通过 454 平台 (Roche)(Margulies, M.et al.2005 Nature 437, 376-380)、 Illumina 基因组分析仪 (Illumina Genome Analyzer)( 或 Solexa 平台 ) 或 SOLiD System(Applied Biosystems) 或 Helicos 真实单分子 DNA 测序技术 (the Helicos True Single Molecule DNA sequencing technology, Harris TD etal.2008 Science, 320, 106-109)、 Pacific Biosciences 的单 TM 分子实时 (SMR ) 技术和纳米孔测序 (nanopore sequencing, Soni GV and Meller A.2007 ClinChem 53 : 1996-2001) 实现, 允许对分离自样品的许多核酸分子在并行方式下, 以高阶 多路进行测序 (Dear Brief Funct Genomic Proteomic 2003 ; 1: 397-416)。 这些平台的每 一种可以对无性扩充的或者甚至未扩增的核酸片段的单个分子进行测序。
因为在每次运行中, 由每个样品产生了数十万到数百万甚至可能数亿或数十亿的 级别的大量测序读取, 所以所得的测序读取形成了原始样品中核酸种类的混合物的代表性 特征。例如, 测序读取的单元型、 转录物组 (trascriptome) 和甲基化特征与原始样品的这 些代表性特征相似 (Brenner et al Nat Biotech 2000 ; 18 : 630-634 ; Taylor et al Cancer Res 2007 ; 67 : 8511-8518)。由于从每个样品中对序列进行大量取样, 相同序列的数量, 如 以几倍覆盖度或高冗余度由核酸池的测序所产生的相同序列的数量, 也是原始样品中特定 核酸种类或基因座计数的良好定量体现。 在步骤 130 中, 基于测序 ( 如来自测序的数据 ), 确定第一染色体 ( 如临床相关染 色体 ) 的第一量。第一量由鉴定为来自第一染色体的序列确定。例如, 随后可用生物信息 学程序将这些 DNA 序列中的每一个序列定位于人类基因组。有可能从随后的分析中放弃 一部分此类序列, 因为它们存在于人类基因组的重复区域中, 或存在于经历了个体间变异 (inter-individual variation) 如拷贝数变异的区域中。因此, 可以确定感兴趣的染色体 的量或一条或多条其他染色体的量。
在步骤 140 中, 基于测序, 由鉴定为来自第二染色体之一的序列, 确定一条或多条 第二染色体的第二量。 在一实施方案中, 第二染色体是除第一染色体 ( 即被检测的染色体 ) 以外的所有其他染色体。在另一实施方案中, 第二染色体就是单条其他染色体。
存在许多确定染色体量的方式, 包括但不限于计数被测序的标签的数量、 被测序 的核苷酸 ( 碱基对 ) 的数量或来自特定染色体或染色体区的被测序的核苷酸 ( 碱基对 ) 的 累积长度。
在另一实施方案中, 可以将规则施加于测序结果来确定哪些被计数了。 一方面, 可 以基于一部分测序输出来获得量。 例如, 对应于指定大小范围的核酸片段的测序输出, 可以 在生物信息学分析后进行选择。大小范围的实例是约< 300bp、 < 200bp 或< 100bp。
在步骤 150 中, 由第一量和第二量确定参数。参数可以是, 例如, 第一量与第二量 的简单比值, 或第一量与第二量加第一量的比值。 一方面, 每个量可以是一个函数或不同函 数的自变量, 其中, 随后可以获得这些不同函数的比值。 本领域技术人员应当理解不同的合 适参数的数量。
在一实施方案中, 潜在地与染色体非整倍性, 如 21 号染色体或 18 号染色体或 13 号染色体的非整倍性有关的染色体的参数 ( 如分数表现度 ), 可以随后由生物信息学程序 的结果来计算。基于所有序列的量 ( 如包括临床相关染色体在内的所有染色体的某些测
量 ) 或染色体特定亚群的量 ( 如只除开被检测的染色体以外的一个其他染色体 ) 的量, 可 以获得分数表现度。
在步骤 150 中, 将参数与一个或多个截止值进行比较。截止值可以由任何数量的 适宜方式来确定。 此类方式包括贝叶斯型似然方法 (Bayesian-type likelihood method)、 序 贯 概 率 比 检 验、 假 发 现 (falsediscovery)、 置 信 区 间、 受 试 者 工 作 特 性 (receiver operating characteristic, ROC)。这些方法和样品特异性方法应用的实例描述于同 时提交的申请″ DETERMINING A NUCLEIC ACID SEQUENCE IMBALANCE( 确定核酸序列失 衡 )″ (Attorney Docket No.016285-005210US) 中, 将该申请通过引用并入。
在一实施方案中, 随后将参数 ( 如临床相关染色体的分数表现度 ) 与涉及正常 ( 即整倍体 ) 胎儿的妊娠中所建立的参照范围进行比较。可能的是, 在程序的某些变体中, 参照范围 ( 即截止值 ) 可以根据特定母体血浆样品中胎儿 DNA 的分数浓度 (f) 进行调整。 如果胎儿是男性, 例如利用可在 Y 染色体上定位的序列, 可以由测序数据集来确定 f 值。f 值也可以例如利用胎儿外遗传标记 (Chan KCA et al 2006 Clin Chem 52, 2211-8), 或由单 核苷酸多态性的分析, 在单独的分析中确定。
在步骤 160 中, 基于比较, 确定对于第一染色体, 是否存在胎儿染色体非整倍性的 分类。在一实施方案中, 分类是明确的存在 (yes) 或不存在 (no)。在另一实施方案中, 分类 可以是不可分类的或不确定的。在又一个实施方案中, 分类可以是例如由医生以后解释的 评分。 II. 测序、 比对以及量的确定
如上文所述, 仅对基因组的部分进行测序。一方面, 甚至当以小于 100%的基因组 覆盖度而不是以几倍的覆盖度对样品中的核酸池进行测序时, 并且在一部分所捕获的核酸 分子中, 大多数每个核酸种类仅测序一次。还可以定量地确定特定染色体或染色体区的剂 量失衡。换言之, 由样品的其他可定位的被测序的标签中的所述基因座的百分比表现度来 推断染色体或染色体区的剂量失衡。
这与下述情况相反, 即对相同池的核酸进行多次测序, 以便获得冗余度或几倍的 覆盖度, 据此将每个核酸种类测序多次。 在此情况下, 相对于另一核酸种类的已被测序的特 定核酸种类的次数, 与它们在原始样品中的相对浓度相关。随着实现核酸种类准确表现度 所需的覆盖度倍数的增加, 测序的成本增加。
在一实例中, 此类序列的一部分可以来自与非整倍性有关的染色体, 如本示例性 实例中的 21 号染色体。然而, 此类测序作业 (sequencingexercise) 的其他序列可来自其 他染色体。通过考虑与其他染色体相比的 21 号染色体的相对大小, 可以在参照范围内, 获 得此类测序作业的 21 号染色体特异性序列的标准化频率。如果胎儿具有 21 三体性, 则此 类测序作业的获得自 21 号染色的标准化频率将增加, 因而允许检测 21 三体性。标准化频 率变化的程度, 将依赖于分析的样品中胎儿核酸的分数浓度。
在一实施方案中, 我们使用 Illumina 基因组分析仪, 进行人类基因组 DNA 和人 类血浆 DNA 样品的单末端测序。Illumina 基因组分析仪可以对捕获于称为流动池 (flow cell) 的固体表面上的无性扩充的单个 DNA 分子进行测序。每个流动池具有 8 个泳道来用 于对 8 个单独的样品或样品池进行测序。 每个泳道能产生约 200Mb 的序列, 其仅是人类基因 组中 30 亿个碱基对的序列的部分。利用流动池的一条泳道, 对每个基因组 DNA 或血浆 DNA
样品进行测序。将所产生的短序列标签与人类参照基因组序列进行比对, 并标明染色体来 源。将与每条染色体比对的单独被测序的标签的总数制成表格, 并与参照人类基因组或非 疾病表现样品所预期的每条染色体的相对大小进行比较。然后确定了染色体增加或丢失。
所述方法仅仅是目前所述的基因 / 染色体的剂量策略的一范例。可选地, 可进行 配对末端 (paired-end) 测序。计数比对的被测序的标签的数量并根据染色体位置进行分 类, 而不是如 Campbell 等所述 (Nat Genet 2008 ; 40 : 722-729) 地比较参照基因组中所预期 的被测序片段的长度。 通过比较标签计数与参照基因组中的预期染色体大小或非疾病表现 样品的预期染色体大小来确定染色体区或全部染色体的增加或丢失。 因为配对末端测序允 许推断原始核酸片段的大小, 因而一实例致力于计数对应于指定大小的核酸片段的被配对 测序的标签的数量, 所述指定大小如< 300bp、 < 200bp 或< 100bp。
在另一实施方案中, 在测序前, 还对在运行中被测序的核酸池的部分进行次级选 择 (sub-select)。例如, 基于杂交的技术, 如寡核苷酸阵列可用来首先对来自某些染色体 的核酸序列进行次级选择, 所述染色体如潜在的非整倍体染色体和与检测的非整倍性无关 的其他染色体。另一实例是, 在测序前, 对样品池的核酸序列的某些亚群进行次级选择或 富集。例如, 如上文所讨论的, 已报道, 母体血浆中胎儿 DNA 分子由比母体背景 DNA 分子 短的片段组成 (Chan et al Clin Chem 2004 ; 50 : 88-92)。因此, 例如, 通过凝胶电泳或 尺寸排除柱 (size exclusion column) 或通过基于微流体的方法 (microfluidics-based approach), 可以根据分子大小, 利用本领域技术人员已知的一种或多种方法, 对样品中的 核酸序列进行分级。此外, 可选地, 在分析母体血浆中无细胞胎儿 DNA 的实例中, 通过抑制 母体背景的方法, 如通过加入甲醛, 可以富集胎儿的核酸部分 (Dhallan et al JAMA2004 ; 291 : 1114-9)。在一实施方案中, 对核酸的预选的池的一部分或亚群进行随机测序。
同样, 其他单分子测序策略也可以用于本申请中, 如 Roche 454 平台、 Applied Biosystems SOLiD 平台、 Helicos 真实单分子 DNA 测序技术、 Pacific Biosciences 的单分 TM 子实时技术 (SMRT ) 以及纳米孔测序。
III. 由测序的输出确定染色体的量
大规模并行测序后, 实施生物信息学分析, 以便定位被测序的标签的染色体来源。 该程序后, 将鉴定为来自潜在的非整倍体染色体, 即本研究中的 21 号染色体的标签, 与全 部被测序的标签或来自与非整倍性无关的一条或多条染色体的标签进行定量比较。 将检测 样品的 21 号染色体和其他非 21 号染色体的测序输出间的相互关系, 与由上节所述的方法 获得的截止值进行比较, 以确定样品是否由与整倍体或 21 三体性胎儿有关的妊娠获得。
许多不同的量, 包括但不限于下述可以由被测序的标签获得的量。 例如, 能够将和 特定染色体比对的被测序的标签的数量, 即绝对计数, 与和其他染色体比对的被测序的标 签的绝对计数进行比较。 可选地, 参照全部或某些其他被测序的标签, 21 号染色体的被测序 的标签的量的分数计数 (fractional count), 可以与其他非非整倍体染色体的分数计数进 行比较。在本实验中, 因为对每个 DNA 片段的 36bp 进行了测序, 因而, 特定染色体的被测序 的核苷酸的数量, 能够容易地由被测序的标签的计数乘以 36bp 获得。
此外, 因为利用仅能对人类基因组的部分进行测序的一个流动池, 仅对每个母体 血浆样品进行测序, 因而, 根据统计, 大多数母体血浆 DNA 片段种类只被测序了一次, 从而 产生一个被测序的标签的计数。换言之, 以小于 1 倍的覆盖度, 对存在于母体血浆样品中的核酸片段进行了测序。因此, 对于任何特定的染色体, 被测序的核苷酸的总数, 通常符合部 分已被测序的所述染色体的量、 比例或长度。 因此, 潜在的非整倍体染色体表现度的定量确 定, 能够参照其他染色体的同样获得的数量, 由该潜在的非整倍体染色体的被测序的核苷 酸的部分数量或相当的长度获得。
IV. 用于测序的核酸池的富集
如上文所提到以及下节的实施例中所建立的, 仅需要对一部分人类基因组进行测 序来从整倍体情况区分 21 三体性。因此, 可能并且节约成本的是, 在对富集的池的部分进 行随机测序前, 富集待测序的核酸池。例如, 母体血浆中的胎儿 DNA 分子由比母体背景 DNA 分子短的片段组成 (Chan et al Clin Chem 2004 ; 50 : 88-92)。因此, 例如, 通过凝胶电泳 或尺寸排除柱或通过基于微流体的方法, 根据分子大小, 可以利用本领域技术人员已知的 一种或多种方法对样品中的核酸序列进行分级。
此外, 可选地, 在分析母体血浆中无细胞胎儿 DNA 的实例中, 胎儿核酸部分可以通 过如加入甲醛的抑制母体背景的方法来富集 (Dhallan etal JAMA 2004 ; 291 : 1114-9)。 获 得自胎儿的序列的比例将在由更短的片段组成的核酸池中得以富集。 根据图 7, 区分整倍体 和 21 三体性情况所需的被测序的标签的数量, 将随着胎儿 DNA 分数浓度的增加而减少。
可选地, 来自潜在的非整倍体染色体和与非整倍性无关的一条或多条染色体的序 列, 可以通过例如寡核苷酸微阵列的杂交技术富集。核酸的富集池随后进行随机测序。这 将降低测序的成本。
V. 随机测序
图 2 是本发明实施方案的, 利用随机测序进行胎儿染色体非整倍性的产前诊断的 方法 200 的流程图。在大规模并行测序方法的一方面, 可以同时产生所有染色体的代表性 数据。不提前选择特定片段的来源。随机地进行测序, 随后进行数据库搜索, 以查明特定片 段来自何处。这与扩增 21 号染色体的特异性片段和 1 号染色体的另一特异性片段的情况 相反。
在步骤 210 中, 接收来自孕妇的生物样品。在步骤 220 中, 对于期望的准确性, 计 算待分析的序列数量 N。在一实施方案中, 首先测定生物样品中胎儿 DNA 的百分比。这可通 过本领域技术人员已知的任何合适方式进行。 测定可以是简单地读取由另一实体所测量的 值。在本实施方案中, 待分析的序列的数量 N 的计算, 以百分比为基础。例如, 当胎儿 DNA 的百分比降低时, 需要分析的序列的数量将增加, 而当胎儿 DNA 升高时, 需要分析的序列的 数量可以减少。数量 N 可以是固定数, 或相对数, 如百分比。在另一实施方案中, 可以测序 已知对准确的疾病诊断足够的数量 N。即使在具有正常范围下限 (lower end) 的胎儿 DNA 浓度的妊娠中, 也可以使数量 N 充分。
在步骤 230 中, 对含于生物样品中的多个核酸分子中的至少 N 个进行随机测序。 所 述方法的特征是, 在样品分析即测序前, 待测序的核酸不是特定地确定的或靶向的。 测序不 需要靶向具体基因座的序列特异性引物。被测序的核酸池随样品的不同而不同, 甚至对于 相同样品随分析的不同而不同。此外, 根据下文描述 ( 图 6), 情况诊断所需的测序输出的 量, 能够在所检测的样品和参照群体间不同。 这些方面与大多数分子诊断方法明显不同, 如 原位杂交中基于荧光的方法、 定量荧光 PCR、 定量实时 PCR、 数字 PCR、 比较基因组杂交、 微阵 列比较基因组杂交等, 其中待靶向的基因座需要在先的预确定, 因此需要使用基因座特异性引物或基因座特异性探针对或组 (panel)。
在一实施方案中, 对存在于孕妇血浆中的 DNA 片段进行随机测序, 并且获得原本 来自胎儿或母亲的基因组序列。 随机测序包括对存在于生物样品中的核酸分子的随机部分 进行取样 ( 测序 )。 因为测序是随机的, 因而在每次分析中, 可以对核酸分子 ( 因此基因组 ) 的不同亚群 ( 部分 ) 进行测序。即使当该亚群随样品或分析的不同而不同时, 该实施方案 依然有效。部分的实例是约 0.1%、 0.5%, 、 1%、 5%、 10%、 20%或 30%的基因组。在另一 实施方案中, 部分是至少这些值中的任一值。
可以通过与方法 100 相似的方式, 进行剩余的步骤 240-270。
VI. 被测序的标签池的测序后选择
如下文实施例 II 和 III 所述, 测序数据的亚群足以区分 21 三体性和非整倍体的 情况。测序数据的亚群可以是一定比例的传递某些性质参数的被测序的标签。例如, 在实 施例 II 中, 使用唯一与重复屏蔽的 (repeat-masked) 参照人类基因组比对的被测序的标 签。 可选地, 可以对所有染色体的核酸片段的代表性池进行测序, 但是致力于有关潜在的非 整倍体染色体的数据和有关许多非非整倍体染色体的数据间的比较。
此外, 可选地, 在测序后的分析过程中, 可以对测序输出的亚群进行次级选择, 所 述亚群包括对应于原始样品中指定大小窗口的核酸片段所产生的被测序的标签。例如, 利 用 Illumina 基因组分析仪, 可使用涉及核酸片段两个末端测序的配对末端测序。随后比对 每个配对末端的测序数据和参照人类基因组序列。 随后可以推导跨越两个末端间的核苷酸 的距离或数量。也可以推导原始核酸片段的全长。可选地, 诸如 454 平台的测序平台, 以及 可能的某些单分子测序技术, 能对全长的短核酸片度, 如 20bp 进行测序。以此方式, 可以由 测序数据直接获知核酸片段的实际长度。
利用其他的测序平台, 如 Applied Biosystems SOLiD 系统 (AppliedBiosystems SOLiD system), 此类配对末端分析也是可能的。对于 Roche454 平台, 因为与其他大规模并 行测序系统相比, 该 454 平台的读取长度增加, 因而确定片段的全序列的片段长度也是可 能的。
将数据分析集中于对应于原始母体血浆样品中的短核酸片段的被测序的标签的 亚群具有优点, 因为来自胎儿的 DNA 序列有效地富集了数据集。这是因为, 母体血浆中的 胎儿 DNA 分子由比母体背景 DNA 分子短的片段组成 (Chan et al Clin Chem 2004 ; 50 : 88-92)。根据图 7, 区分整倍体和 21 三体性情况所需的被测序的标签的数量, 将随胎儿 DNA 分数浓度的增加而降低。
核酸池亚群测序后的选择不同于在样品分析前实施的其他核酸富集策略, 所述策 略如用于选择特定大小的核酸分子的凝胶电泳或尺寸排除柱, 并且所述策略需要从核酸 背景池中物理分离富集的池。物理程序可以引入更多的实验步骤, 因而可以招致诸如污 染等问题。取决于疾病确定所需的敏感性和特异性, 测序输出亚群的测序后计算机选择 (post-sequencing in silico selection) 也可以允许改变选择。
用于确定母体血浆样品是否获得自怀有 21 三体性或整倍体胎儿的孕妇的生物信 息学、 计算和统计方法, 可以编译成计算机程序产品, 用于确定测序输出的参数。计算机程 序的运行包括确定潜在的非整倍体染色体的定量数量以及一个或多个其他染色体的量。 确 定参数, 并与适当的截止值比较, 以确定对于潜在的非整倍体染色体, 是否存在胎儿染色体非整倍性。 实施例 为了示例而非限制所要求保护的本发明, 提供了下面的实施例。
I. 胎儿 21 三体性的产前诊断
本研究募集 8 名孕妇。所有的孕妇都处于妊娠首三月或妊娠中三月, 并是单胎妊 娠。其中的 4 名, 每个都怀有 21 三体性胎儿, 其他的 4 名, 每个都怀有整倍体胎儿。从每个 个体采集 20 毫升外周静脉血。 在 1600×g 下离心 10 分钟后, 收获母体血浆, 并 16000×g 进 一步离心 10 分钟。随后由 5-10ml 每个血浆样品提取 DNA。通过 Illumina 基因组分析仪, 根据制造商的说明书, 将母体血浆 DNA 用于大规模并行测序。在测序和序列数据分析过程 中, 进行测序的技术人员不了解胎儿的诊断情况。
简而言之, 将约 50ng 母体血浆 DNA 用于制备 DNA 文库。 可以以较少的量如 15ng 或 10ng 母体血浆 DNA 开始。将母体血浆 DNA 片段平末端化, 与 Solexa 连接物 (adaptor) 连 接, 并通过凝胶纯化选择 150-300bp 的片段。可选地, 可以将平末端化和连接物连接的母体 血浆 DNA 片段通过柱 ( 如 AMPure, Agencourt), 以便除去未连接的连接物, 而无需在簇产生 (clusters genearation) 前进行大小选择。将连接物连接的 DNA 与流动池的表面杂交, 并 利用 Illumina 簇站 (cluster station) 产生 DNA 簇, 随后在 Illumina 基因组分析仪上进 行 36 个循环的测序。通过一个流动池对每个母体血浆样品的 DNA 进行测序。利用 Solexa Analysis Pipeline 编辑测序读取。 随后利用 Eland 应用软件, 将所有的读取与重复屏蔽的 参照人类基因组序列, 即 NCBI 汇编 36(NCBI 36 assembly)(GenBank 登录号 : NC_000001 至 NC_000024) 进行比对。
在本研究中, 为了减少数据分析的复杂性, 仅进一步考虑了已经定位于重复屏蔽 的人类基因组参照的唯一位置的序列。可选地, 可以使用测序数据的其他亚群或整套测序 数据。计数每一样品的唯一可定位 (mappable) 的序列的总数。将唯一地与 21 号染色体比 对的序列的数量表示为, 与每一样品的比对的序列的总计数的比例。因为母体血浆含有母 体来源的背景 DNA 中的胎儿 DNA, 因此, 由于在胎儿基因组中存在 21 号染色体的额外拷贝, 21 三体性胎儿提供了来自 21 号染色体的额外的被测序的标签。因此, 在来自怀有 21 三体 性胎儿的妊娠的母体血浆中, 21 号染色体序列的百分比, 比来自怀有整倍体胎儿的妊娠的 21 号染色体的百分比高。 分析不需要靶向胎儿特异性序列。 分析也不需要从母体核酸中在 先地以物理方式分离胎儿核酸。分析也不需要在测序后, 从母体序列中区分或鉴定胎儿序 列。
图 3A 表示 8 个母体血浆 DNA 样品中每一个的定位于 21 号染色体的序列的百分比 (21 号染色体的百分比表现度 )。 21 三体性妊娠的母体血浆中的 21 号染色体的百分比表现 度, 明显地高于整倍体妊娠的 21 号染色体的百分比表现度。这些数据表明, 胎儿非整倍性 无创产前诊断, 可以通过确定与参照群体的百分比表现度相比的非整倍体染色体的百分比 表现度来实现。可选地, 21 号染色体的过度表现度可通过以下方法来检测 : 将以实验方式 获得的 21 号染色体的百分比表现度与预期为整倍体人类基因组的 21 号染色体序列的百分 比表现度进行比较。这可通过屏蔽或不屏蔽人类基因组中的重复区进行。
8 名孕妇中的 5 名, 每个都怀有男性胎儿。定位于 Y 染色体的序列可以是胎儿特
异性的。将定位于 Y 染色体的序列的百分比用于计算原始母体血浆样品中胎儿 DNA 分数浓 度。而且, 胎儿 DNA 分数浓度也通过利用微流体数字 PCR 来确定, 所述微流体数字 PCR 涉及 锌指蛋白、 X 连锁的 (ZFX) 和锌指蛋白、 Y 连锁的 (ZFY) 共生同源基因。
图 3B 表示由经测序的 Y 染色体的百分比表现度推断的胎儿 DNA 分数浓度和通过 ZFY/ZFX 微流体数字 PCR 所确定的胎儿 DNA 分数浓度间的相关性。这两种方法确定的母体 血浆中胎儿 DNA 分数浓度间存在正相关性。正相关性系数 (r) 在 Pearson 相关性分析中为 0.917。
对于两种代表性情况, 与 24 条染色体 (22 条常染色体和 X 染色体以及 Y 染色体 ) 中的每一条比对的母体血浆 DNA 序列的百分比显示于图 4A 中。一名孕妇怀有 21 三体性胎 儿, 其他的孕妇怀有整倍体胎儿。与怀有正常胎儿的孕妇相比, 定位于 21 号染色体的序列 的百分比表现度在怀有 21 三体性胎儿的孕妇中更高。
上述两种情况的母体血浆 DNA 样品间每条染色体的百分比表现度的差异 (% ) 显 示于图 4B 中。特定染色体的百分比差异用下述公式计算 :
百分比差异 (% ) = (P21-PE)/PE×100%, 其中
P21 =在怀有 21 三体性胎儿的孕妇中, 与特定染色体比对的血浆 DNA 序列的百分 比; 以及 PE =在怀有整倍体胎儿的孕妇中, 与特定染色体比对的血浆 DNA 序列的百分比。
如图 4B 所示, 与怀有整倍体胎儿的孕妇相比, 怀有 21 三体性胎儿的孕妇血浆中有 21 号染色体序列的 11%的过度表现度。对于与其他染色体比对的序列, 两种情况间的差异 在 5%以内。 因为与整倍体母体血浆样品相比, 21 三体性中, 21 号染色体的百分比表现度增 加了, 因此, 差异 (% ) 可选地称为 21 号染色体过度表现的程度。除了 21 号染色体百分比 表现度间的差异 (% ) 和绝对差异以外, 还能够计算检测样品和参照样品计数的比值, 并且 该比值表示与整倍体样品相比的 21 三体性中 21 号染色体过度表现的程度。
对于每个都怀有整倍体胎儿的 4 名孕妇, 将她们平均 1.345%的血浆 DNA 序列, 与 21 号染色体进行比对。在怀有 21 三体性胎儿的 4 名孕妇中, 她们的胎儿中有 3 名是男性。 计算这三种情况下每一种情况的 21 号染色体的百分比表现度。如上文所述, 根据获得自 4 个整倍体情况的值的 21 号染色体的平均百分比表现度, 确定这三种 21 三体性情况的 21 号 染色体百分比表现度中的差异 (% )。换言之, 在本计算中, 将 4 个怀有整倍体胎儿的情况 的平均值用作参照。这三种男性 21 三体性情况的胎儿 DNA 分数浓度, 由他们各自的 Y 染色 体序列的百分比表现度来推断。
21 号染色体序列过度表现的程度和胎儿 DNA 分数浓度间的相关性显示于图 5 中。 两个参数间存在显著的正相关性。相关性系数 (r) 在 Pearson 相关性分析中为 0.898。这 些结果表明, 母体血浆中 21 号染色体序列过度表现的程度与母体血浆样品中胎儿 DNA 的分 数浓度相关。因此, 可以确定与胎儿 DNA 分数浓度相关的 21 号染色体序列过度表现程度中 的截止值, 以鉴定与 21 三体性胎儿有关的妊娠。
母体血浆中胎儿 DNA 分数浓度的确定, 也可以独立于测序运行进行。例如, Y 染色 体 DNA 浓度可以利用实时 PCR、 微流体 PCR 或质谱法来预定。例如, 我们已经在图 3B 中证 明, 基于测序运行过程中所产生的 Y 染色体计数所估计的胎儿 DNA 浓度和在测序运行外所 产生的 ZFY/ZFX 比值间存在良好的相关性。 实际上, 胎儿 DNA 浓度可以利用除 Y 染色体以外
的基因座确定, 并适用于女性胎儿。例如, Chan 等证明, 在母体来源的未甲基化的 RASSF1A 序列的背景下, 可以在孕妇血浆中检测到胎儿来源的甲基化的 RASSF1A 序列 (Chan et al, Clin Chem2006 ; 52 : 2211-8)。因此, 胎儿 DNA 分数浓度可以用甲基化的 RASSF1A 序列的量 除以全部 RASSF1A( 甲基化和未甲基化的 ) 序列的量来确定。
对于实施我们的发明, 预期母体血浆比母体血清优选, 因为在血液凝固过程中, 母 体血细胞释放了 DNA。因此, 如果使用血清, 则预期胎儿 DNA 的分数浓度在母体血浆中将比 在母体血清中低。换言之, 如果使用母体血清, 对于待诊断的胎儿染色体非整倍性, 与同时 从同一孕妇获得的血浆样品相比, 预期需要产生更多的序列。
此外, 确定胎儿 DNA 的分数浓度的另一可选方式是, 经由定量孕妇和胎儿间多态 性差异 (Dhallan R, et al.2007 Lancet, 369, 474-481)。本方法的实例是, 靶向多态性位 点, 在该位点孕妇是纯合的, 而胎儿是杂合的。 将胎儿特异性等位基因的量与共同等位基因 的量进行比较, 以便确定胎儿 DNA 的分数浓度。
与检测染色体畸变的现有技术相反, 所述现有技术包括检测和定量一个或多个特 异性序列的比较基因组杂交、 微阵列比较基因组杂交、 定量实时聚合酶链式反应, 大规模并 行测序不依赖于预定或预限定的 DNA 序列组的检测或分析。对样品池 DNA 分子的随机代表 性部分进行测序。在含有或不含有感兴趣的 DNA 种类的样品间比较与各种染色体区比对的 不同的被测序的标签的数量。 染色体畸变将由与样品中任何给定的染色体区比对的序列的 数量 ( 或百分比 ) 中的差异来揭示。
在另一实施方案中, 可以将血浆无细胞 DNA 的测序技术用于检测血浆 DNA 中的染 色体畸变来检测具体的癌症。不同的癌症具有一套典型的染色体畸变。可以使用多个染色 区中的变化 ( 扩增和缺失 )。因此, 与扩充的区域比对的序列的比例将增加, 而与减少的区 域比对的序列的比例将减少。 每条染色体的百分比表现度可以与参照基因组中每条相应染 色体的大小进行比较, 所述大小表示为相对于全基因组的任何给定染色体的基因组表现度 的百分比。也可以使用与参照染色体直接比较或比较。
II. 仅对人类基因组部分进行测序
在上文实施例 I 所述的实验中, 仅利用一个流动池, 对每个单独样品的母体血浆 DNA 进行测序。经测序运行, 由每个检测的样品所产生的被测序的标签的数量显示于图 6 中。T21 表示由与 21 三体性胎儿有关的妊娠所获得的样品。
因为对每个被测序的母体血浆 DNA 片段的 36bp 进行测序, 因此, 每个样品的被测 序的核苷酸 / 碱基对的数量可以用被测序的标签的计数乘以 36bp 来确定, 并且也显示于图 6 中。 因为人类基因组中有大约 30 亿个碱基对, 因此, 由每个母体血浆样品所产生的测序数 据的量, 仅代表约 10%至 13%的部分。
此外, 在本研究中, 如上文实施例 I 所述, 仅将唯一可定位的被测序的标签, 在 Eland 软件的命名法中称为 U0, 用于证明, 在来自怀有 21 三体性胎儿的妊娠的每一个的母 体血浆样品中, 存在 21 号染色体序列的量的过度表现。如图 6 所示, U0 序列仅代表由每 个样品所产生的全部被测序的标签的亚群, 并且还代表甚至更小比例的, 约 2%的人类基因 组。 这些数据表明, 仅对存在于检测的样品中的人类基因组序列的一部分进行测序, 就足以 实现胎儿非整倍性的诊断。
III. 所需序列的数量的确定本次分析使用来自怀有整倍体男性胎儿的孕妇的血浆 DNA 的测序结果。可以无错 配地定位至参照人类基因组序列的被测序的标签的数量为 1,990,000。从这些 1,990,000 标签中随机地选择序列的亚群, 并在每个亚群中计算与 21 号染色体比对的序列的百分比。 亚群中序列的数量在 60,000-540,000 条序列变动。对于每个亚群大小, 相同数量的被测序 的标签的多个亚群, 通过从总的池中随机地选择被测序的标签进行编辑, 直到没有其他可 能的组合。随后, 在每个亚群大小内, 由多个亚群计算与 21 号染色体比对的序列的平均百 分比和其标准偏差 (SD)。跨越不同亚群大小比较这些数据, 以便确定亚群大小对与 21 号 染色体比对的序列的百分比分布的影响。随后根据平均值和 SD, 计算百分比的第 5 和第 95 个百分点。
当孕妇怀有 21 三体性胎儿时, 由于来自胎儿的 21 号染色体的额外剂量, 与 21 号 染色体比对的被测序的标签在母体血浆中应当是过度表现的。 过度表现的程度依赖于母体 血浆 DNA 样品中胎儿 DNA 百分比, 并采用下述等式计算 :
PerT21 = PerEu×(1+f/2), 其中,
PerT21 表示怀有 21 三体性胎儿的女性中与 21 号染色体比对的序列的百分比 ; 并且
PerEu 表示怀有整倍体胎儿的女性中与 21 号染色体比对的序列的百分比 ; 以及
f 表示母体血浆 DNA 中胎儿 DNA 的百分比。
如图 7 所示, 与 21 号染色体比对的序列百分比的 SD, 随每个亚群中序列数量的增 加而降低。 因此, 当每个亚群中序列的数量增加时, 第 5 和第 95 个百分点间的区间降低。 当 整倍体和 21 三体性情况的 5% -95%区间不重叠时, 则区分这两组情况是可能的, 并且准确 性大于 95%。
如图 7 所示, 区分 21 三体性情况和整倍体情况的最小亚群大小依赖于胎儿 DNA 百 分比。对于 20%、 10%和 5%的胎儿 DNA 百分比, 区分 21 三体性和整倍体情况的最小亚群 大小分别为 120,000、 180,000 和 540,000 条序列。换言之, 当母体血浆 DNA 样品含有 20% 的胎儿 DNA 时, 对于确定胎儿是否具有 21 三体性, 需要分析的序列的数量为 120,000。 当胎 儿 DNA 百分比降低为 5%时, 需要分析的序列的数量将增加到 540,000。
因为利用 36 碱基对测序产生数据, 因而 120,000、 180,000 和 540,000 条序列分别 对应于 0.14%、 0.22%和 0.65%的人类基因组。因为据报道, 从早期妊娠获得的母体血浆 中较低范围的胎儿 DNA 浓度为约 5% (Lo, YMD et al.1998 Am J Hum Genet 62, 768-775), 因而对约 0.6%的人类基因组进行测序, 可以代表, 在检测任何妊娠的胎儿染色体非整倍性 中, 准确性至少为 95%的诊断所需的测序的最小量。
IV. 随机测序
为了示例被测序的 DNA 片段在测序运行过程中是随机选择的, 我们获得了由实施 例 I 所分析的 8 个母体血浆样品产生的被测序的标签。对于每个母体血浆样品, 相对于参 照人类基因组序列即 NCBI 汇编 36, 我们确定了每个 36bp 被测序的标签的起始位置, 该标签 唯一地与 21 号染色体进行了比对, 而无错配。我们随后按升序对来自每个样品的比对的被 测序的标签池的起始位置数进行了排序。我们对 22 号染色体进行了相似的分析。出于示 例的目的, 将每个母体血浆样品的 21 号染色体和 22 号染色体的前 10 个起始位置分别显示 于图 8A 和图 8B 中。由这些表可知, DNA 片段的被测序的池在样品间是不同的。
利用任何合适的计算机语言, 如 Java、 C++ 或使用例如常规或面向对象技术的Perl, 本申请所述的任何软件组件或函数可以作为由处理器运行的软件代码来执行。软件 代码可在用于存储和 / 或传输的计算机可读介质上存储为一系列指令或命令, 合适的介质 包括随机存取存储器 (RAM)、 只读存储器 (ROM)、 诸如硬盘或软盘的磁性介质或诸如光盘 (CD) 或 DVD( 多功能数码光盘 ) 的光学介质、 闪存等。 计算机可读介质可以是此类存储或传 输装置的任何组合。
此类程序也可以利用适合通过有线、 光学和 / 无线网络传播的载波信号来编码和 传输, 该网络符合包括国际互联网在内的各种协议。 因此, 本发明实施方案的计算机可读介 质, 可以利用此类程序编码的数据信号产生。用程序代码编码的计算机可读介质可以与兼 容的装置组装, 或由其他装置 ( 如经由互联网下载 ) 独立地提供。任何此类计算机可读介 质可以位于一个计算机程序产品上或在该产品内 ( 例如, 硬盘或整个计算机系统 ), 并且可 以存在于系统或网络内不同计算机程序产品上或在该产品内内。 计算机系统可以包括显示 屏、 打印机或向用户提供本文所提到的任何结果的其他合适的显示器。
计算机系统的实例显示于图 9 中。图 9 中所示的子系统经由系统总线 975 相互连 接。图 9 显示了其他子系统, 如打印机 974、 键盘 978、 硬盘 979、 与显示适配器 982 连接的显 示屏 976 等。与 I/O 控制器 971 连接的外围装置和输入 / 输出 (I/O) 装置, 可以通过本领 域已知的任何数量的方式连接至计算机系统, 如串行端口 977。例如, 串行端口 977 或外部 界面 981 可用于将计算机装置连接至诸如互联网的广域网、 鼠标输入装置或扫描仪。经由 系统总线互联允许中央处理器 973 与每个子系统通讯, 并控制系统内存 972 或硬盘 979 的 指令的执行以及子系统间信息的交换。系统内存 972 和 / 或硬盘 979 是计算机可读介质的 具体表现。
出于示例和描述的目的, 上文呈现了本发明示例性实施方案的描述。不意图是全 面的或将本发明限制为所述的准确形式, 并且根据上文的教导, 可以做出许多修饰和变化。 为了最好地解释本发明的原理及其实践应用而选择和描述了实施方案, 由此使本领域技术 人员在各种实施方案中, 并且通过适于所考虑的具体用途的各种修饰来最佳地利用本发 明。
出于各种目的, 将本文所引用的所有出版物、 专利和专利申请通过引用全文并入。