核酸序列失衡的确定.pdf

上传人:1520****312 文档编号:1282930 上传时间:2018-04-12 格式:PDF 页数:75 大小:2.58MB
返回 下载 相关 举报
摘要
申请专利号:

CN200880108126.3

申请日:

2008.07.23

公开号:

CN101971178A

公开日:

2011.02.09

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 19/00申请日:20080723|||公开

IPC分类号:

G06F19/00; C12Q1/68

主分类号:

G06F19/00

申请人:

香港中文大学

发明人:

卢煜明; 赵慧君; 陈君赐; 徐仲锳; 庄家俊

地址:

中国香港新界

优先权:

2007.07.23 US 60/951,438

专利代理机构:

北京英赛嘉华知识产权代理有限责任公司 11204

代理人:

王达佐;洪欣

PDF下载: PDF下载
内容摘要

本发明提供了用于确定生物样品中是否存在核酸序列失衡的方法、系统和装置。选取了用于确定,例如,两个序列(或两组序列)的比率的失衡的一个或多个截止值。可以至少部分地基于含有母体核酸序列背景的诸如母体血浆的样品中胎儿DNA的百分比来确定所述截止值。还可以基于每一反应的序列的平均浓度来确定该截止值。在一方面,从估计含有特定核酸序列的信息孔的比例来确定该截止值,其中该比例基于上文所述的百分比和/或平均浓度来确定。可以利用诸如序贯概率比检验(SPRT)的许多不同类型的方法来确定该截止值。

权利要求书

1: 用于确定生物样品中是否存在核酸序列失衡的方法, 所述方法包括 : 接收来自多个反应的数据, 其中所述数据包括 (1) 表示临床相关的核酸序列的第一量的第一组定量数据 ; 和 (2) 表示不同于所述临床相关的核酸序列的背景核酸序列的第二量的第二组定量数 据; 从所述两个数据组确定参数 ; 从所述多个反应的每一个中的参考核酸序列的平均浓度导出第一截止值, 其中所述参 考核酸序列是所述临床相关的核酸序列或所述背景核酸序列 ; 将所述参数与所述第一截止值比较 ; 以及 基于所述比较, 确定是否存在核酸序列失衡的分类。
2: 如权利要求 1 所述的方法, 其中从一个或多个第一标记物获得所述第一组数据, 并 且其中从一个或多个第二标记物获得所述第二组数据, 所述第一标记物的每个检测一部分 所述临床相关的核酸序列在反应中存在, 所述第二标记物的每个检测一部分所述背景核酸 序列在反应中存在。
3: 如权利要求 1 所述的方法, 其还包括 : 利用将从所述参考核酸序列的数据导出的值作为输入的概率分布的逆函数, 来确定所 述多个反应的每一个中的所述参考核酸序列的平均浓度。
4: 如权利要求 1 所述的方法, 其中所述临床相关的核酸序列来自染色体 21, 并且所述 背景核酸序列来自染色体 21 以外的染色体。
5: 如权利要求 1 所述的方法, 其中所述临床相关的核酸序列来自染色体 18 或染色体 13, 并且所述背景核酸序列分别来自染色体 18 以外的或染色体 13 以外的染色体。
6: 如权利要求 1 所述的方法, 其中所述临床相关的核酸序列是遗传多态性的等位基 因, 并且所述背景核酸序列是所述遗传多态性的另一等位基因。
7: 如权利要求 1 所述的方法, 其中所述临床相关的核酸序列是囊性纤维化跨膜传导调 节因子 (CFTR) 基因、 β- 球蛋白基因或 α- 球蛋白基因的突变拷贝, 并且所述背景核酸序 列来自相应基因的野生型拷贝。
8: 如权利要求 1 所述的方法, 其中所述生物样品是来自孕妇的血浆或血清。
9: 如权利要求 1 所述的方法, 其中反应是扩增反应。
10: 如权利要求 9 所述的方法, 其中反应是数字 PCR 方法的一部分。
11: 如权利要求 1 所述的方法, 其中反应是测序反应。
12: 如权利要求 1 所述的方法, 其中所述临床相关的核酸序列的第一部分和所述背景 核酸序列的第一部分来自第一个体, 并且所述临床相关的核酸序列的第二部分和所述背景 核酸序列的第二部分来自第二个体。
13: 如权利要求 12 所述的方法, 其中所述截止值基于所述第一部分的一个的测量或基 于所述第二部分的一个的测量。
14: 如权利要求 1 所述的方法, 其还包括将所述参数与第二截止值比较。
15: 如权利要求 14 所述的方法, 其中所述分类包括疾病状态、 非疾病状态和不可分类 的。
16: 如权利要求 14 所述的方法, 其中所述分类包括纯合的、 杂合的和不可分类的。 2
17: 如权利要求 14 所述的方法, 其中所述第二截止值基于非疾病状态中所述临床相关 的核酸序列的第一量相对于所述背景核酸序列的第二量的比率。
18: 如权利要求 1 所述的方法, 其中所述参数是所述临床相关的核酸序列的第一量相 对于所述背景核酸序列的第二量的比率。
19: 如权利要求 1 所述的方法, 其中计算所述第一截止值包括使用序贯概率比检验、 假 发现率、 置信区间和接收器工作特性曲线中的至少一种。
20: 如权利要求 1 所述的方法, 其中导出所述第一截止值包括 : 确定含有过度表现的核酸序列的信息反应的比例 P1, 所述过度表现的核酸序列是所述 参考核酸序列或非参考核酸序列 ; 以及 从第一比例 P1 计算所述第一截止值。
21: 如权利要求 20 所述的方法, 其中确定所述比例 P1 包括 : 确定含有至少一种所述过度表现的 (overrepresented) 核酸序列的反应的第一概率 ; 计算反应是信息反应的第二概率 ; 以及 利用所述第一概率和所述第二概率来计算所述比例 P1。
22: 如权利要求 21 所述的方法, 其中所述第一概率是通过将所述参考核酸序列的平均 浓度乘以相对于所述非参考核酸序列的预期比率来确定的。
23: 如权利要求 21 所述的方法, 其中所述第一概率是利用泊松分布来确定的, 所述泊 松分布将所述多个反应的每一个中的过度表现的核酸序列的平均浓度作为输入。
24: 如权利要求 21 所述的方法, 其还包括 : 确定含有至少一种过少表现的核酸序列的反应的第三概率, 其中所述反应是信息反应 的第二概率的计算包括假定所述第一概率和所述第二概率是独立的。
25: 用于确定生物样品中是否存在核酸序列失衡的方法, 所述方法包括 : 接收来自多个反应的数据, 其中所述数据包括 : (1) 表示临床相关的核酸序列的第一量的第一组定量数据 ; 和 (2) 表示不同于所述临床相关的核酸序列的背景核酸序列的第二量的第二组定量数 据; 其中所述临床相关的核酸序列和所述背景核酸序列来自第一类型的细胞和来自一种或 多种第二类型的细胞 ; 从所述两个数据组确定参数 ; 从由核酸序列的量的测量产生的第一百分比导出第一截止值, 所述核酸序列来自所述 生物样品中的所述第一类型的细胞 ; 将所述参数与所述第一截止值比较 ; 以及 基于所述比较, 确定是否存在核酸序列失衡的分类。
26: 如权利要求 25 所述的方法, 其中所述第一类型的细胞来自第一有机体, 并且所述 第二类型的细胞来自第二有机体。
27: 如权利要求 25 所述的方法, 其中导出所述第一截止值包括 : 确定每个反应的参考核酸序列的第一平均浓度, 其中所述参考核酸序列是过少表现的 (underrepresented) 所述临床相关的核酸序列或所述背景核酸序列 ; 以及 将所述第一平均浓度乘以从所述第一百分比导出的因子来获得不是所述参考核酸序 列的所述核酸序列的第二平均浓度。 3
28: 如权利要求 27 所述的方法, 其还包括 : 利用将从所述参考核酸序列的数据导出的值作为输入的概率分布的逆函数, 来确定所 述多个反应的每一个中的所述参考核酸序列的平均浓度。
29: 如权利要求 28 所述的方法, 其中所述概率分布是泊松分布。
30: 如权利要求 25 所述的方法, 其中利用定量实时 PCR、 数字 PCR、 半定量竞争 PCR、 实 时竞争 PCR 或质谱, 通过测定胎儿特异性标记物的量来测量所述百分比。
31: 计算机程序产品, 其包括被编码的具有多个指令的计算机可读取的介质, 所述指令 用于控制计算系统以执行确定生物样品中是否存在核酸序列失衡的操作, 所述操作包括下 述步骤 : 接收来自多个反应的数据, 其中所述数据包括 : (1) 表示临床相关的核酸序列的第一量的第一组定量数据 ; 和 (2) 表示不同于所述临床相关的核酸序列的背景核酸序列的第二量的第二组定量数 据; 从所述两个数据组确定参数 ; 从所述多个反应的每一个中的参考核酸序列的平均浓度导出第一截止值, 其中所述参 考核酸序列是所述临床相关的核酸序列或所述背景核酸序列 ; 将所述参数与所述第一截止值比较 ; 以及 基于所述比较, 确定是否存在核酸序列失衡的分类。

说明书


核酸序列失衡的确定

    优先权的要求
     本申请要求于 2007 年 7 月 23 日提交的、 题目为 “核酸序列失衡的测定”的第 60/951438 号美国临时申请 ( 代理公司案卷号 016285-005200US) 的优先权, 并且是所述临 时申请的正式申请, 该临时申请的全部内容通过引用的方式并入本文用于所有目的。
     相关申请的交叉引用
     本申请还涉及同时提交的、 题目为 “利用基因组测序诊断胎儿染色体非整倍性” 的 正式申请 ( 代理公司案卷号 016285-005220US), 该正式申请的全部内容通过引用的方式并 入本文用于所有目的。
     发明领域
     本发明一般地涉及通过确定两个不同核酸序列之间的失衡对基因型和疾病进行 的诊断检测, 更具体地, 涉及通过检测母体血液样品对胎儿的唐氏综合征、 其它染色体非整 倍性、 突变和基因型的鉴定。本发明还涉及癌症的检测、 移植的监测和传染病监测。
     发明背景
     遗传疾病、 癌症和其它病况通常由两个对应的染色体或等位基因或其它核酸序列 中的失衡导致或产生两个对应的染色体或等位基因或其它核酸序列中的失衡。也就是说, 一个序列相对于另一序列的量大于或小于正常值。通常地, 正常比率恰好是 50/50 的比率。 唐氏综合征 (21 三体性 ) 是具有额外的染色体 21 失衡的这类疾病。
     21 三体性的常规产前诊断方法包括通过诸如羊膜穿刺取样或绒毛膜绒毛取样的 侵入性操作的胎儿物质的取样, 这引起胎儿丢失的有限风险。诸如通过超声波扫描术和生 化标记物的筛查的无创性方法已经用于在确定性的侵入性诊断方法前对孕妇进行风险分 级 (risk-stratify)。 然而, 这些筛查方法通常测量与 21 三体性有关的附带现象, 而不是核 心染色体异常, 因此该筛查方法的诊断准确性不是最佳的, 并且具有其它劣势, 例如受孕龄 影响大。
     1997 年发现的母体血浆中循环的无细胞胎儿 DNA 为无创产前诊断提供了新的可 能性 (Lo, YMD and Chiu, RWK 2007 Nat Rev Genet 8, 71-77)。 尽管这种方法已经容易地应 用于性连锁 (Costa, JM et al.2002 NEngl J Med 346, 1502) 和某些单基因病症 (Lo, YMD et al.1998 N Engl JMed 339, 1734-1738) 的产前诊断, 但是该方法在胎儿染色体非整倍性 的产前检测的应用表现出相当的挑战 (Lo, YMD and Chiu, RWK 2007, 见上文 )。首先, 胎儿 核酸与经常能够干扰分析的母体来源的核酸的高背景共同存在于母体血浆中 (Lo, YMD et al.1998 Am J Hum Genet 62, 768-775)。其次, 胎儿核酸主要以无细胞形式在母体血浆中 循环, 这使得难以获得胎儿基因组中的基因或染色体的剂量信息。
     最近实现了克服这些挑战的明显发展 (Benachi, A & Costa, JM2007 Lancet 369, 440-442)。一种方法检测母体血浆中的胎儿特异性核酸, 从而克服了母体背景干扰的问题 (Lo, YMD and Chiu, RWK 2007, 见上文 )。从源自胎盘的 DNA/RNA 分子中的多态性等位基因 的比率来推断染色体 21 的剂量。然而, 当样品含有较低量的靶向的基因时, 这种方法较不准确, 并且只能应用于对靶向的多态性是杂合的胎儿, 如果使用了一种多态性, 则该靶向的 多态性只是群体的子集。
     Dhallan 等人 (Dhallan, R, et al.2007, 见上文, Dhallan, R, et al.2007 Lancet 369, 474-481) 描述了通过向母体血浆中添加甲醛来富集循环的胎儿 DNA 比例的替代策略。 通过评价对于染色体 21 上的单核苷酸多态性 (SNP) 遗传自父亲的胎儿特异性等位基因比 非胎儿特异性等位基因的比率, 来确定由母体血浆中胎儿贡献的染色体 21 序列的比例。类 似地计算参考染色体的 SNP 比率。然后通过检测染色体 21 的 SNP 比率与参考染色体的 SNP 比率之间统计学的显著差异来推断胎儿染色体 21 的失衡, 其中使用确定的小于 0.05 的 p 值来定义显著。为了保证高群体覆盖, 靶向每个染色体多于 500 个的 SNP。然而, 对富集高 比例的甲醛的有效性仍有争议 (Chung, GTY, et al.2005 Clin Chem51, 655-658), 因此, 该 方法的可重复性需要进一步的评价。此外, 由于每个胎儿和母亲将提供每个染色体的不同 数目的 SNP 的信息, 所以 SNP 比率比较的统计学检验的效能在不同个例之间是可变的 (Lo, YMD & Chiu, RWK.2007 Lancet 369, 1997)。 而且, 由于这些方法依赖于遗传多态性的检测, 所以它们局限于对这些多态性是杂合的胎儿。
     利用聚合酶链式反应 (PCR) 以及从 21 三体性胎儿和整倍体胎儿获得的羊膜细胞 (amniocyte) 培养物中的染色体 21 基因座和参考基因座的 DNA 定量, 基于 21 三体性胎儿中 染色体 21 的 DNA 序列的 1.5 倍的增加, Zimmermann 等人 (2002 Clin Chem 48, 362-363) 能 够区分这两组胎儿。由于 DNA 模板浓度的 2 倍差异组成了只有一个阀值循环的差别 (Ct), 所以 1.5 倍差异的鉴别已经是常规实时 PCR 的极限。为了实现更精细程度的定量鉴别, 亟 需替代的策略。因此, 出于这一目的, 本发明的某些实施方案使用数字 PCR(Vogelstein, B et al.1999 ProcNatl Acad Sci USA 96, 9236-9241)。
     已经开发了数字 PCR 来检测核酸样品中偏移的等位基因比率 (Chang, HW et al.2002 J Natl Cancer Inst 94, 1697-1703)。数字 PCR 在临床上已经被证实对于检测肿 瘤 DNA 样品中的杂合性丢失 (LOH) 是有用的 (Zhou, W.et al.2002 Lancet 359, 219-225)。 对于数字 PCR 结果分析, 以前的研究采用了序贯概率比检验 (SPRT) 来将实验结果分类为提 示样品中存在 LOH 或不存在 LOH(El Karoui et al.2006 Stat Med 25, 3124-3133)。在以 前的研究所用的方法中, 确定 LOH 的截止值 (cutoffvalue) 使用了 DNA 中两个等位基因的 固定参考比率, 该比率为 2/3。 由于母体血浆中胎儿核酸的量、 比例和浓度是可变的, 所以这 些方法对于使用母体血浆中的母体核酸背景中的胎儿核酸来检测 21 三体性是不合适的。
     期望具有基于循环的胎儿核酸分析的胎儿 21 三体性 ( 和其它失衡 ) 检测的无创 检测, 特别是不依赖于遗传多态性和 / 或胎儿特异性标记物的使用的无创检测。还期望具 有截止值和序列记数的准确测定, 这能够减少准确性所需的数据孔的数目和 / 或母体血浆 核酸分子的量, 从而提供了增加的效率和成本效益。还期望该无创检测具有高灵敏度和特 异性以将误诊断降至最低。
     母体血浆中胎儿 DNA 检测的另一应用是单基因病症的产前诊断, 例如 β- 地中海 贫血症。然而, 由于胎儿 DNA 只组成了母体血浆 DNA 的一小部分, 所以这种方法被认为只 能够检测胎儿从其父亲遗传但是其母亲没有的突变。这种突变的实例包括导致 β- 地中 海贫血症的 β- 球蛋白基因的密码子 41/42 的 4bp 缺失 (Chiu RWK et al.2002 Lancet, 360, 998-1000) 和导致囊性纤维化的囊性纤维化跨膜传导调节因子基因的 Q890X 突变(Gonzalez-Gonzalez et al.2002 Prenat Diagn, 22, 946-8)。然而, 由于 β- 地中海贫血 症和囊性纤维化都是常染色体隐性条件的, 其中在该疾病自身显现前, 胎儿需要继承来自 双亲中每个的突变, 所以只检测遗传自父亲的突变只会使得胎儿患有该疾病的风险从 25% 增加至 50%。这在诊断上不是理想的。因此, 当胎儿能够被排除具有纯合疾病状态时, 现 有方法的主要诊断应用是用于在母体血浆中不能检测到遗传自父亲的胎儿突变的情况。 然 而, 这种方法在诊断上的劣势是, 结论是基于父亲突变的阴性检测做出的。因此, 允许从母 体血浆中确定完整的胎儿基因型 ( 纯合正常、 纯合突变体或杂合 ) 而没有上文的限制的方 法是非常理想的。
     发明简述
     本发明的实施方案提供了用于确定在生物样品中是否存在核酸序列失衡 ( 例如, 等位基因失衡、 突变失衡或染色体失衡 ) 的方法、 系统和装置。例如, 选择了用于确定两个 序列 ( 或两组序列 ) 的量的比率的失衡的一个或多个截止值。
     在一实施方案中, 至少部分地基于诸如母体血浆或血清或尿的含有母体核酸序列 背景的生物样品中的胎儿 ( 临床相关的核酸 ) 序列的百分比来确定所述截止值。在另一实 施方案中, 基于多个反应中的序列的平均浓度来确定所述截止值。 在一方面, 从估计含有特 定核酸序列的信息孔的比例来确定所述截止值, 其中该比例是基于上文所述的百分比和 / 或平均浓度来确定的。 可以使用许多不同类型的方法来确定所述截止值, 例如 SPRT、 假发现 (false discovery)、 置信区间、 接收器工作特性 (receiver operatingcharacteristic)(ROC)。这 种策略还在能够做出置信分类 (confidentclassification) 前将检测所要求的量降至最 少。这种策略与模板的量通常是有限的血浆核酸分析是特别相关的。
     根据一示例性实施方案, 提供了用于确定生物样品中是否存在核酸序列失衡的方 法, 该方法包括 : 接收来自多个反应的数据, 其中该数据包括 : (1) 表明临床相关的核酸序 列的第一量的第一组定量数据 ; 和 (2) 表明不同于所述临床相关的核酸序列的背景核酸序 列的第二量的第二组定量数据 ; 从这两个数据组来确定参数 ; 从多个反应的每一个中的参 考核酸序列的平均浓度导出第一截止值, 其中该参考核酸序列是所述临床相关的核酸序列 或所述背景核酸序列 ; 将所述参数与所述第一截止值比较 ; 并且, 基于该比较来确定是否 存在核酸序列失衡的分类。
     根据另一示例性实施方案, 提供了用于确定生物样品中是否存在核酸序列失衡的 方法, 该方法包括 : 接收来自多个反应的数据, 其中该数据包括 : (1) 表明临床相关的核酸 序列的第一量的第一组定量数据 ; 和 (2) 表明不同于所述临床相关的核酸序列的背景核酸 序列的第二量的第二组定量数据, 其中, 所述临床相关的核酸序列和所述背景核酸序列来 自第一类型的细胞和来自一种或多种第二类型的细胞 ; 从这两个数据集来确定参数 ; 从得 自核酸序列的量的测量的第一百分比导出第一截止值, 该核酸序列来自生物样品中所述第 一类型的细胞 ; 将所述参数与所述截止值比较 ; 并且, 基于该比较来确定是否存在核酸序 列失衡的分类。
     本发明的其它实施方案涉及与本文所述的方法相关的系统和计算机可读取的介 质。
     参照下文的发明详述和附图将更好地理解本发明的特性和优势。
     附图简述
     图 1 是示出数字 PCR 实验的流程图。
     图 2A 示出本发明实施方案的数字 RNA-SNP 和 RCD 方法。
     图 2B 显示了在癌症中可频繁检测到的染色体畸变的实例的表格。
     图 3 示出按照本发明的实施方案用于确定唐氏综合征的具有 SPRT 曲线的图。
     图 4 显示了按照本发明的实施方案利用胎儿细胞百分比来确定疾病状态的方法。
     图 5 显示了按照本发明的实施方案利用平均浓度来确定疾病状态的方法。
     图 6 显示的表格的列出了按照本发明的实施方案对于表示为每孔的平均参考模 板浓度 (mr) 的一系列模板浓度而言, 21 三体性样品的预期数字 RNA-SNP 等位基因比率和 Pr。
     图 7 显示的表格列出了按照本发明的实施方案对于表示为每孔的平均参考模板 浓度 (mr) 的一系列模板浓度而言, 21 三体性样品中的 10%、 25%、 50%和 100%的部分胎儿 DNA 浓度的预期 Pr。
     图 8 显示的图示出了按照本发明的实施方案, 数字 RNA-SNP 分析的 0.1、 0.5 和 1.0 的 mr 值的 SPRT 曲线的差异程度。 图 9A 显示了按照本发明的实施方案在 96 孔数字 RNA-SNP 分析中比较用于分类整 倍体和 21 三体性实例的新和旧 SPRT 算法的有效性的表格。
     图 9B 显示了按照本发明的实施方案在 384 孔数字 RNA-SNP 分析中比较用于分类 整倍体和 21 三体性实例的新和旧 SPRT 算法的有效性的表格。
     图 10 的表格显示了按照本发明的实施方案, 对于给定的信息计数, 被正确或错误 分类为整倍体或非整倍体以及那些不可分类的胎儿的百分比。
     图 11 是表格 1100, 显示了按照本发明的实施方案, 纯 (100% ) 胎儿 DNA 样品的数 字 RCD 分析的计算机模拟。
     图 12 是表格 1200, 显示了按照本发明的实施方案, mr = 0.5 的数字 RCD 分析的准 确性的计算机模拟的结果, 该数字 RCD 分析用于对来自具有不同部分浓度的胎儿 DNA 的整 倍体或 21 三体性胎儿的样品进行分类。
     图 13A 显示了按照本发明的实施方案, 整倍体妊娠和 21 三体性妊娠的胎盘组织的 数字 RNA-SNP 分析的表格 1300。
     图 13B 显示了按照本发明的实施方案, 来自整倍体妊娠和 21 三体性妊娠的母体血 浆的数字 RNA-SNP 分析的表格 1350。
     图 14A-14C 显示的图示例了按照本发明实施方案得自 RCD 分析的截止曲线。
     图 15A 显示了按照本发明的实施方案, 整倍体妊娠和 21 三体性妊娠的胎盘组织中 的数字 RNA-SNP 分析的表格。
     图 15B 显示了按照本发明的实施方案, 来自一个母体血浆样品的 12 个反应板的数 字 RNA-SNP 数据的表格。
     图 15C 显示了按照本发明的实施方案, 来自整倍体妊娠和 21 三体性妊娠的母体血 浆的数字 RNA-SNP 分析的表格。
     图 16A 显 示 了 按 照 本 发 明 的 实 施 方 案, 整 倍 体 胎 盘 和 18 三 体 性 胎 盘 的 数 字 RNA-SNP 分析的表格。
     图 16B 显 示 了 按 照 本 发 明 的 实 施 方 案, 整 倍 体 胎 盘 和 18 三 体 性 胎 盘 的 数 字 RNA-SNP 数据的 SPRT 解释。
     图 17 显示了按照本发明的实施方案, 整倍体妊娠和 21 三体性妊娠的 50%胎盘 / 母体血液细胞 DNA 混合物的数字 RCD 分析的表格。
     图 18 显示的 SPRT 曲线示例了按照本发明的实施方案, 用于正确分类的判定边界 (decision boundary)。
     图 19 显示了按照本发明的实施方案, 来自整倍体妊娠和 21 三体性妊娠的羊水样 品的数字 RCD 分析的表格。
     图 20 显示了按照本发明的实施方案, 来自整倍体妊娠和 18 三体性妊娠的胎盘 DNA 样品的数字 RCD 分析的表格 (E =整倍体 ; T18 = 18 三体性 )。
     图 21 显示了按照本发明的实施方案, 整倍体妊娠和 21 三体性妊娠的 50%胎盘 / 母体血液细胞 DNA 混合物的多重数字 RCD 分析的表格 (E =整倍体 ; T21 = 21 三体性 ; U= 未分类的 )。
     图 22A 和 22B 显示按照本发明的实施方案, 50 %整倍体或 21 三体性胎盘基因组 DNA/50%母体血沉棕黄色层 (buffy coat)DNA 混合物的多重数字 RCD 分析的表格。 Unclass 表示不可分类的并且 T21 表示 21 三体性。
     图 23 显示了雄性和雌性配偶都携带相同突变的情况。
     图 24A 显示按照本发明的实施方案, 雌性 / 雄性和雄性 / 雄性 DNA 混合物的数字 RMD 分析的表格。
     图 24B 显示了按照本发明的实施方案, 25 %雌性与 75 %雄性 DNA 混合物的数字 RMD 分析的表格。
     图 25 显示了按照本发明的实施方案, 模拟母体血浆样品 HbE 突变的 15% -50% DNA 混合物的数字 RMD 分析的表格。
     图 26A 显 示 了 按 照 本 发 明 的 实 施 方 案, 模 拟 母 体 血 浆 样 品 CD41/42 突 变 的 5% -50%的 DNA 混合物的数字 RMD 分析的表格。
     图 26B 显示了按照本发明的实施方案, 模拟母体血浆样品 CD41/42 突变的 20%的 DNA 混合物的数字 RMD 分析的表格。
     图 27 显示了可用于本发明的实施方案的系统和方法的示例性计算机装置的方框 图。
     定义
     本文所用的术语 “生物样品” 意指取自个体 ( 例如, 诸如孕妇的人 ) 并含有一种或 多种感兴趣的核酸分子的任何样品。
     术语 “核酸” 或 “多核苷酸” 意指脱氧核糖核酸 (DNA) 或核糖核酸 (RNA) 及其单 链或双链形式的聚合物。除非特别地限定, 该术语包括含有天然核苷酸的已知类似物的核 酸, 其具有与参考核酸类似的结合特性, 并且以与天然存在的核苷酸类似的方式进行代谢。 除非另外指明, 特定的核酸序列还隐含地包括其保守地修饰的变体 ( 例如, 简并密码子取 代 )、 等位基因、 直向同源物、 SNP 和互补序列以及明确地指出的序列。具体地, 简并密码子 取代可以通过产生如下的序列实现 : 其中一个或多个选择的 ( 或全部 ) 密码子的第三位被 混合碱基和 / 或脱氧次黄苷残基取代 (Batzer et al., Nucleic Acid Res.19 : 5081(1991) ;Ohtsuka et al., J.Biol.Chem.260 : 2605-2608(1985) 和 Rossolini et al., Mol.Cell. Probes 8 : 91-98(1994))。术语核酸与基因、 cDNA、 mRNA、 小非编码 RNA、 微 RNA(miRNA)、 Piwi- 相互作用 RNA 以及基因或基因座编码的短发夹 RNA(shRNA) 可交换使用。
     术语 “基因” 表示与产生多肽链有关的 DNA 的片段。其可以包括编码区之前和之 后的区域 ( 前导区和非转录尾区 ) 以及单独的编码片段 ( 外显子 ) 之间的间插序列 ( 内含 子 )。
     本文所用的术语 “反应” 意指与表示感兴趣的特定多核苷酸序列的存在或不存在 的化学、 酶或物理作用有关的任何过程。 “反应” 的实例是诸如聚合酶链式反应 (PCR) 的扩 增反应。 “反应” 的另一实例是通过合成或通过连接的测序反应。 “信息反应” 是表明一种 或多种感兴趣的特定多核苷酸序列的存在的反应, 并且在一种情况下, 只存在一种感兴趣 的序列。本文所用的术语 “孔” 意指在有限的结构内的预定位置的反应, 例如, PCR 阵列中的 孔状小管、 单元或室。
     本文所用的术语 “临床相关的核酸序列” 能够指对应于更大的基因组序列的片段 的多核苷酸序列或者指更大的基因组序列自身, 该多核苷酸序列的潜在失衡被检测。一个 实例是染色体 21 的序列。其它实例包括染色体 18、 13、 X 和 Y。仍然其它的实例包括胎儿 遗传自其双亲中一个或两个的突变的遗传序列或遗传多态性或拷贝数变异。仍然其它的 实例包括在恶性肿瘤中突变、 缺失或扩增的序列, 例如, 发生了杂合性丢失或基因重复的序 列。在某些实施方案中, 多个临床相关的核酸序列或该临床相关的核酸序列等同的多个标 记物能够用于提供检测失衡的数据。例如, 来自染色体 21 上的 5 个不连续序列的数据能够 以累加的方式用于确定可能的染色体 21 失衡, 从而将所需的样品体积有效地减少至 1/5。 本文所用的术语 “背景核酸序列” 意指与所述临床相关的核酸序列的正常比率是 已知的核酸序列, 例如, 1 比 1 的比率。 作为一个实例, 所述背景核酸序列和所述临床相关的 核酸序列是来自相同的染色体并且由于杂合性而不同的两个等位基因。在另一实例中, 所 述背景核酸序列是与另一等位基因杂合的一个等位基因, 所述另一等位基因是所述临床相 关的核酸序列。而且, 某些背景核酸序列和临床相关的核酸序列的每一个可以来自不同的 个体。
     本文所用的术语 “参考核酸序列” 意指每个反应的平均浓度是已知的或者已经被 等同地测量过的核酸序列。
     本文所用的术语 “过度表现的 (overrepresented) 核酸序列” 意指在生物样品中 的两个感兴趣的序列 ( 例如, 临床相关的序列和背景序列 ) 之中丰度比另一序列更高的的 核酸序列。
     本文所用的术语 “基于” 表示 “至少部分地基于” , 并且意指在确定另一值时所用的 一个值 ( 或结果 ), 例如, 发生在方法的输入和该方法的输出的联系中。 本文所用的术语 “导 出” 也意指方法的输入和该方法的输出的联系, 例如, 当导出是公式的计算时发生。
     本文所用的术语 “定量数据” 表示从一个或多个反应获得并且提供一个或多个数 值的数据。例如, 显示特定序列的荧光标记物的孔的数目是定量数据。
     本文所用的术语 “参数” 表示表征定量数据组和 / 或定量数据组之间的数值联系 的数值。例如, 第一核酸序列的第一量与第二核酸序列的第二量之间的比率 ( 或比率的函 数 ) 是参数。
     本文所用的术语 “截止值” 表示用于在生物样品的两个或更多个类别状态 ( 例如, 患病和未患病 ) 之间进行裁定 (arbitrate) 的数值。例如, 如果参数大于截止值, 将定量数 据分为第一类 ( 例如, 患病状态 ), 或者如果该参数小于该截止值, 则将定量数据分为另一 类 ( 例如, 未患病状态 )。
     本文所用的术语 “失衡” 表示由临床相关的核酸序列的量中至少一个截止值所定 义的与参考量的任何显著偏差。例如, 该参考量能够是 3/5 的比率, 因此如果测量的比率是 1 ∶ 1, 则发生了失衡。
     发明详述
     本发明提供了方法、 系统和装置, 用于确定在生物样品中, 与临床相关的核酸序列 相对于其它非临床相关的序列的参考 ( 例如, 未患病 ) 量比较, 是否存在增加或减少 ( 例 如, 染色体或等位基因失衡 )。选择一个或多个截止值来确定与参考量相比是否存在变化 ( 即, 失衡 ), 例如, 关于两个序列 ( 或两组序列 ) 的量的比率。检测到的参考量变化可以是 临床相关的核酸序列与其它非临床相关的序列的关系的任何偏差 ( 上升或下降 )。 因此, 参 考状态可以是任何比率或其它量 ( 例如, 除了 1-1 的对应 ), 并且表示变化的测量状态可以 是任何比率或不同于由一个或多个截止值所确定的参考量的其它量。
     所述临床相关的核酸序列和所述背景核酸序列可以来自第一类型的细胞和来自 一种或多种第二类型的细胞。例如, 源自胎儿 / 胎盘细胞的胎儿核酸序列存在于诸如母体 血浆的生物样品中, 该生物样品包含源自母体细胞的母体核酸序列的背景。 因此, 在一实施 方案中, 至少部分地基于生物样品中所述第一类型的细胞的百分比来确定截止值。 注意, 可 以通过任何源自胎儿的基因座来测定样品中胎儿序列的百分比, 并且不限于测量所述临床 相关的核酸序列。在另一实施方案中, 至少部分地基于诸如血浆、 血清、 唾液或尿的生物样 品中肿瘤序列的百分比来确定截止值, 该生物样品包含源自体内的非恶性细胞的核酸序列 的背景。
     仍然在另一实施方案中, 基于多个反应中序列的平均浓度来确定截止值。在一方 面, 从估计含有特定核酸序列的信息孔的比例来确定所述截止值, 其中该比例是基于上文 所述的百分比和 / 或平均浓度来确定的。可以使用许多不同类型的方法来确定截止值, 例 如, SPRT、 假发现、 置信区间、 接收器工作特性 (ROC)。这种策略还能够在做出确信的分类前 将检测所要求的量降至最少。这与模板的量通常有限的血浆核酸分析是特别相关的。尽管 通过数字 PCR 来表现这种策略, 但是也可以使用其它方法。
     数字 PCR 包括极端稀释的核酸的多个 PCR 分析, 从而大部分阳性扩增反映了来自 单个模板分子的信号。由此数字 PCR 允许计数单独的模板分子。分析的 PCR 总数中的阳性 扩增的比例允许估计原始或未稀释的样品中的模板浓度。 这种技术被认为允许检测各种遗 传现象 (Vogelstein, B et al.1999, 见上文 ), 并且最近被用于检测肿瘤样品 (Zhou, W.et al.2002, 见上文 ) 和癌症患者血浆 (Chang, HW et al.2002, 见上文 ) 中的杂合性丢失。由 于通过数字 PCR 的模板分子定量不依赖于报道染料与核酸浓度之间的剂量反应关系, 所以 理论上数字 PCR 分析的精度应当高于实时 PCR 的精度。因此, 数字 PCR 潜在地能够允许鉴 别靶基因座与参考基因座之间更精细程度的定量差异。
     为了对此进行检测, 我们首先评价数字 PCR 是否能够测定母体血浆中来自染色体 21 的胎盘转录物, PLAC4mRNA 的等位基因比率 (Lo, YMD, et al.2007 Nat Med 13, 218-223),从而区分 21 三体性胎儿和整倍体胎儿。这种方法被称为数字 RNA-SNP 方法。我们然后评 价数字 PCR 增加的精度是否能够允许检测胎儿的染色体非整倍性而不依赖于遗传多态性。 我们将这种方法称为数字相关的染色体剂量 (RCD) 分析。数字 RNA-SNP 方法依赖于多态 性, 但是在定量鉴别中要求较低的精度, 而数字相关的染色体剂量 (RCD) 分析不依赖于多 态性, 但是对于定量鉴别要求较高的精度。
     I. 数字 RNA-SNP
     A. 概述
     数字 PCR 能够检测 DNA 样品中两个等位基因的等位基因比率偏移的存在。例如, 数字 PCR 已经用于检测肿瘤 DNA 样品中的杂合性丢失 (LOH)。假定在 DNA 样品中有两个等 位基因, 即 A 和 G, 并且 A 等位基因将在细胞中随着 LOH 而丢失。当在肿瘤样品的 50%的细 胞中存在 LOH 时, 该 DNA 样品中 G ∶ A 的等位基因比率将是 2 ∶ 1。然而, 如果在该肿瘤样 品中不存在 LOH, 则 G ∶ A 的等位基因比率的比率将是 1 ∶ 1。
     图 1 是示出数字 PCR 实验的流程图。在步骤 110 中, 将 DNA 样品稀释, 然后分配至 单独的孔中。注意, 发明人已经确定在原始样品中, 某些血浆核酸种类已经被充分地稀释。 因此, 如果某些模板已经以需要的浓度存在, 则不需将它们稀释。在以前的研究中 ( 例如, Zhouet al.2002, 见上文 ), 将 DNA 样品稀释至特定的 “模板 DNA” 的平均浓度约是每孔的两 个模板中的一个模板 0.5 分子的程度。注意, 术语 “模板 DNA” 看起来意指 A 等位基因或 G 等位基因, 并且没有为这种具体的浓度提供原理阐述。 在步骤 120 中, 在每个孔中进行 PCR 过程来同时检测 A 等位基因和 / 或 G 等位基 因。在步骤 130 中, 在每个孔中鉴定了标记物 ( 例如, 通过荧光 ), 例如, A、 G、 A 和 G 或者 A 和 G 都不是。在没有 LOH 的情况下, DNA 样品中的 A 等位基因与 G 等位基因的丰度将是相同 的 ( 每孔一个拷贝 )。因此, 孔对该 A 等位基因与对该 G 等位基因是阳性的概率是相同的。 这通过对该 A 等位基因或对该 G 等位基因是阳性的孔的数目相似反映出。然而, 当在肿瘤 样品的 50%或更多的细胞中存在 LOH 时, G 等位基因和 A 等位基因的等位基因比率将至少 是 2 ∶ 1。以前的方法简单地假定, 样品是至少 50%癌性的。因此, 孔对 G 等位基因是阳性 的概率将高于对 A 等位基因是阳性的概率。因此, 对 G 等位基因是阳性的孔的数目将大于 对 A 等位基因是阳性的孔的数目。
     在步骤 140 中, 为了分类数字 PCR 的结果, 计数对每个等位基因是阳性的, 但是对 另一等位基因不是阳性的孔。在上文的实例中, 计数了对 A 等位基因是阳性, 但对 G 等位基 因是阴性的孔的数目和对 G 等位基因是阳性, 但对 A 等位基因是阴性的孔的数目。在一实 施方案中, 表现出较少的阳性孔的等位基因被视为参考等位基因。
     在步骤 150 中, 信息孔的总数被确定为对所述两个等位基因的任一个是阳性的孔 的数目的总和。在步骤 160 中, 计算了由具有较多的阳性孔的等位基因贡献的信息孔的比 例 (Pr)( 参数的实例 )。Pr =只对具有较多阳性孔的等位基因是阳性的孔的数目 / 只对一 个等位基因 (A 或 G) 是阳性的孔的总数。其它实施方案能够使用具有一个等位基因的全部 孔除以具有至少一个等位基因的全部孔。
     在步骤 170 中, 确定 Pr 的值是否表示等位基因失衡。由于期望准确度和效能, 所 以这一任务并非简单的。确定失衡的一种方法使用了 Bayesian 类似然方法, 序贯概率比检 验 (SPRT)。SPRT 是允许随着数据的积累比较两种概率假设的方法。换言之, SPRT 是将数
     字 PCR 结果分类为表示等位基因偏移存在或不存在的统计学方法。该方法具有将获得特定 统计功效和准确度所需要分析的孔的数目减至最小的优势。
     在示例性的 SPRT 分析中, 将针对无效假设和备选假设来检验实验结果。当在样品 中有等位基因比率偏移时, 则接受备选假设。 当在样品中没有等位基因比率偏移时, 则接受 无效假设。将该 Pr 值与两个截止值比较以接受无效假设或备选假设。如果没有接受任何 一个假设, 则将该样品标记为未分类的, 这表示观察到的数字 PCR 结果不足以以期望的统 计学可信度将该样品进行分类。
     通常基于在假设中给出的假定下的 Pr 固定值来计算接受无效假设或备选假设的 截止值。在所述无效假设中, 假定样品没有表现出等位基因比率偏移。因此, 对 A 等位基因 和 G 等位基因是阳性的每个孔的概率将是相同的, 因此, Pr 的预期值将是 1/2。在所述备选 假设中, Pr 的预期值是 2/3, 或者大约是 0.5 与 2/3 的中间值, 例如 0.585。并且, 由于有限 的实验数目, 能够选择上限 (.585+3/N) 和表示为 (.585-3/N) 的下限。
     B. 唐氏综合征的检测
     在本发明的一实施方案中, 数字 SNP 用于从孕妇血浆中检测胎儿唐氏综合征。使 用对胎儿 / 胎盘细胞特异性的标记物可以测量染色体 21 中的等位基因比率。例如, 为了确 定观察到的 PLAC4 等位基因的过度表现的程度是否是统计学显著的, 使用 SPRT。
     根 据 一 示 例 性 的 实 施 方 案, 数 字 RNA-SNP 确 定 了 位 于 PLAC4mRNA 的 A/G SNP, rs8130833 的多态性等位基因比率的失衡, 该 mRNA 是从染色体 21 转录并被胎盘表达的。 对 于杂合的整倍体胎儿, A 等位基因和 G 等位基因应当在胎儿基因组中被相等地表现 (1 ∶ 1 基因组比率 ) ; 而在 21 三体性中, 三体的染色体 21 将与胎儿基因组中的一个 SNP 等位基 因的额外拷贝有关, 从而获得 2 ∶ 1 的比率。数字 PCR 的目的是确定分析的样品中的两个 PLAC4 等位基因的量是否相等。因此, A PLAC4 等位基因和 G PLAC4 等位基因都是靶模板。 设计了实时 PCR 测定来扩增 PLAC4 mRNA, 并且通过 TaqMan 荧光探针来鉴别这两个 SNP 等位 基因。分析步骤的示意图示于图 2A 中。
     图 2A 示出本发明实施方案的数字 RNA-SNP 方法 200。在步骤 210 中, 接收样品。 在步骤 220 中, 在提取的 RNA 样品中将诸如 PLAC4mRNA 的核酸序列定量。在一实施方案中, 通过 PLAC4 mRNA 的实时 PCR 来进行这种定量。在一方面, 这个步骤为操作者提供在靶标达 到数字 PCR 分析的 “范围” 前所需的稀释程度的概念。
     在步骤 230 中, 将样品稀释。在步骤 240 中, 测量稀释的样品的浓度。稀释的样品 浓度可以被证实为约 1 个模板 / 孔 ( 即, 参考序列或非参考序列或任何一个等位基因 )。某 些实施方案使用第 IV 部分所述的技术来进行这一测量。例如, 我们将稀释的样品分配至实 时 PCR 分析的 96 个孔中来保证实现了可用的稀释。如在后文中将解释的, 稀释浓度也可以 是未知的, 从而省略这一步骤。
     在步骤 250 中, 在阵列的每个孔中进行数字 PCR。例如, 将相同的稀释的样品分配 至实时 PCR 分析的 384 个孔中。从 PCR 结果中鉴定了每个核酸序列的标记物的量和信息孔 的数目。信息孔被定义为仅对 A 等位基因或 G 等位基因是阳性, 而不是对两个等位基因都 是阳性的孔。在步骤 260 中, 计算 Pr 的预期值。在后文中将更详细地讨论这些步骤。所述 计算包括从步骤 250 所测定的值来确定参数。例如, 可以计算每孔的实际平均模板浓度。
     在步骤 270 中, 可以进行 SPRT 或其它似然比率检验来确定是否存在失衡。对于整倍体情况, 我们预期相等数目的 A 阳性孔和 G 阳性孔。然而, 当分析来自 21 三体性胎儿的 模板分子时, 只含有一个等位基因的孔的数目将大于只含有另一等位基因的孔的数目。简 而言之, 等位基因失衡对 21 三体性是预期的。
     如 上 文 所 述 的, SPRT 是 Bayesian 类 似 然 方 法 (Bayesian-typelikelihood method), 该方法允许随数据的积累比较两个概率假设。在 21 三体性检测的数字 PCR 分析 中, 当存在等位基因失衡时 ( 即, 检测到 21 三体性 ), 则接受备选假设 ; 当没有等位基因失 衡时 ( 即, 没有检测到 21 三体性 ), 则接受无效假设。 更多数目计数的等位基因被称为潜在 地过度表现的等位基因, 并且将计算该等位基因在全部信息孔中的比例 (Pr)。如果该 Pr 表 明了足够程度的对 21 三体性样品预期的等位基因失衡, 则应用 SPRT 来进行确定。
     可操作地, 能够通过使用具有一对 SPRT 曲线的图来应用和解释 SPRT, 构建该 SPRT 曲线来定义接受或拒绝任何一个假设的概率边界。图 3 示出按照本发明的实施方案用于确 定唐氏综合征的 SPRT 曲线的图。 当能做出确信的分类时, SPRT 曲线将对潜在过度表现的等 位基因是阳性的信息孔的所需比例 Pr(y- 轴 ) 对信息孔的给定的总数 (x- 轴 ) 作图。 如图 3 所示, 上部曲线设定接受备选假设的概率边界, 而下部曲线设定接受无效假设的概率边界。
     将实验推导出的 Pr 值与预期 Pr 值相比较以便接受或拒绝任一假设。如果接受无 效假设, 则将该样品分类为从怀有整倍体胎儿的孕妇获得的样品。 如果接受备选假设, 则将 该样品分类为从怀有 21 三体性胎儿的孕妇获得的样品。可选择地, 如果给定数目的信息计 数的 Pr 没有达到疾病分类所要求的统计学可信度, 则不能接受任何一个假设。在有更多的 可用数据以前, 这些情况被视为不可分类的。 如果疾病分类是不可能的, 则可以进行额外的 384 孔板直到累积的数据可以通过 SPRT 来分类。
     因此, 对于给定水平的可信度, SPRT 比其它统计学方法提供了更少的所需检测量 的优势。在实践中, 只要积累了所需量的数据, SPRT 就允许接受或拒绝任何一个假设, 从而 将不需要的额外分析降至最低。这种特性与通常以低浓度存在的血浆核酸的分析特别相 关, 其中可用的模板的数目是有限的。 除了严格的分类以外, 所述分类还可以包括百分比准 确度。例如, 来自与截止值比较的分类可以提供表现出具有某一百分比的核酸序列失衡的 可能性的样品, 或者, 等效地提供准确至某一百分比或其它值的确定失衡。
     利用母体血浆或血清中的胎儿核酸, 可以应用类似的方法来确定关于突变或遗传 多态性的胎儿基因型。应当记得的是, 胎儿将从其母亲遗传胎儿一半的基因组。作为示例, 考虑具有两个等位基因 A 和 B 的特定遗传基因座。如果母亲是基因型为 AB 的杂合子, 则胎 儿理论上能够具有 AA、 BB 或 AB 的基因型。如果胎儿的基因型为 AB, 即, 与母亲相同, 则母 体血浆中将只有 AB 基因型的核酸 ( 既来自母亲又来自胎儿 )。因此, 在母体血浆中观察到 了核酸或等位基因的平衡。在另一方面, 如果胎儿的基因型为 AA 或 BB, 则在母体血浆中将 分别有过度表现的 A 等位基因或 B 等位基因的等位基因失衡。这种考虑还适用于导致疾病 的突变 ( 例如, 导致囊性纤维化、 β- 地中海贫血症或脊髓型肌萎缩的那些突变 ), 在这种情 况下, A 能够被考虑为野生型等位基因, 而 B 能够被考虑为突变体等位基因。
     II. 数字 RCD
     数字 RNA-SNP 的劣势是, 其只能应用于被分析的 SNP 是杂合的个例。一个改进是, 基于循环的胎儿核酸分析的检测胎儿 21 三体性或其它胎儿染色体非整倍性 ( 例如, 18 三体 性、 13 三体性和性染色体非整倍性 ) 的无创检测与遗传多态性的使用无关将是理想的。因此, 在一实施方案中, 通过相对于位于参考染色体, 即本研究中的染色体 1 上的基因座的非 多态性的染色体 21 基因座的数字 PCR 分析来测定染色体剂量。从 21 三体性个例中区分整 倍体胎儿基因组中染色体 21 比染色体 1 的比率偏离 2 ∶ 2 的变化。在 21 三体性检测的数 字 PCR 分析中, 要比较的两个假设将是没有染色体失衡 ( 即, 没有检测到 21 三体性 ) 的无 效假设和存在染色体失衡 ( 即, 检测到了 21 三体性 ) 的备选假设。
     这种方法能够被推广至与其它染色体非整倍性有关的其它染色体, 例如, 18 三体 性中的染色体 18、 13 三体性中的染色体 13、 特纳综合征中的染色体 X。 另外, 除了染色体 1, 与非整倍性无关的其它染色体也能够用作参考染色体。 通过分析在癌症中通常部分地缺失 的染色体比参考染色体的比率的变化, 能够将类似的方法应用于检测癌症。通常部分地缺 失的染色体的实例包括直结肠癌中的染色体 5q、 肺癌中的染色体 3p 和鼻咽癌中的染色体 9p。图 2B 列出了某些导致序列失衡的某些常见的与癌症有关的染色体畸变。
     图 2A 还示出本发明实施方案的数字 RCD 方法 205。在步骤 220-230 的一实施方案 中, 例如, 通过 Nanodrop 技术, 将提取的 DNA 定量, 并稀释至每孔大约一个靶模板的浓度, 所 述靶模板来自染色体 21 或标准化的染色体 ( 例如, 染色体 1) 的。在步骤 240 的一实施方 案中, 在 384 孔板中使用两个 TaqMan 探针进行数字 RCD 分析前, 可以进行如下证实 : 通过分 析稀释的 DNA 样品来证实约 37%的水平的孔是否是阴性的, 该分析只通过使用 96 孔格式的 染色体 1 探针的测定来进行。37%的显著性将在后面的第 IV 部分中进行讨论。 步骤 240 的检测和步骤 250 的结果可以用设计成扩增存在于两条染色体上的种内 同源序列 (paralogous sequence)(Deutsch, S.et al.2004J Med Genet 41, 908-915) 的实 时 PCR 测定来完成, 所述染色体被通过一对 TaqMan 探针鉴别的平行同源序列变化所区分。 在本文中, 信息孔被定义为对任一染色体 21 或染色体 1 基因座是阳性的, 而对这两条染色 体不都是阳性的孔。 对于整倍体胎儿, 对任一基因座是阳性的信息孔的数目应当大致相等。 对于 21 三体性胎儿, 应当有与染色体 1 阳性孔相比, 染色体 21 阳性孔的过度表现。在下文 的部分中描述了过度表现的确切比例。
     III. 并入胎儿序列的百分比
     上文所述的方法 200 和 205 的实施方案的劣势在于胎儿特异性的标记物是必需 的。因此, 在本发明的一实施方案中使用了非胎儿特异性的标记物。为了使用这种非胎儿 特异性的标记物, 本发明的实施方案测量了母体血浆 ( 即, 生物样品 ) 中胎儿 DNA 的部分浓 度 (fractionalconcentration)。通过这些信息, 可以按照如下步骤来计算更有用的 Pr 值。
     即便对于母体血浆中胎儿 DNA 的小的部分百分比, 21 三体性胎儿将通过释放至母 体血浆中的胎儿 DNA 的基因组当量 (genome-equivalent)(GE) 贡献额外剂量的染色体 21 序列。例如, 含有 50GE/ml 总 DNA 和 5GE/ml 胎儿贡献的 DNA( 即, 10%胎儿 DNA 部分浓度 ) 的来自整倍体妊娠的母体血浆样品将会含有每毫升母体血浆总共 100 个拷贝 (90 个母体拷 贝 +10 个胎儿拷贝 ) 的染色体 21 序列。对于 21 三体性妊娠, 每个胎儿 GE 将贡献 3 个拷贝 的染色体 21, 这导致母体血浆中总共 105 个拷贝 /ml(90 个母体拷贝 +15 个胎儿拷贝 ) 的染 色体 21 序列。因此, 在 10%的胎儿 DNA 浓度时, 三体妊娠母体血浆中源自染色体 21 的序列 的量将是整倍体情况的 1.05 倍。因此, 如果能够开发测定这种小程度的定量差异的分析方 法, 将实现不依赖于多态性的胎儿 21 三体性的无创产前诊断检测。
     因此, 过度表现的程度将取决于分析的 DNA 样品中部分胎儿 DNA 浓度。例如, 当分
     析胎盘 DNA 时, 胎儿基因组中的理论 RCD 比率应当是 3 ∶ 2, 即, 1.5 倍的差异。然而, 如上 文所述的, 当分析含有 10%的胎儿母体血浆时, 该理论 RCD 比率将降至 1.05。通过将只对 染色体 21 基因座是阳性的孔的数目除以信息孔的总数来计算实验导出的 Pr。用计算的 Pr 和理论 RCD 比率来对实验导出的 Pr 进行 SPRT 分析。
     图 4 表示按照本发明的实施方案, 利用胎儿核酸百分比来确定疾病状态的方法 400。在步骤 410 中, 测量了胎儿物质的部分百分比。在一实施方案中, 通过测量相对于非 胎儿特异性标记物 ( 即, 在母亲和胎儿中都存在的基因序列 ) 的胎儿特异性标记物 ( 例如, Y 染色体, 遗传多态性标记物 ( 例如, SNP)、 胎盘外遗传特征 (epigenetic signature)) 的 量来确定所述部分百分比。通过实时 PCR、 数字 PCR、 测序反应 ( 包括大规模平行基因组测 序 ) 或任何其它定量方法来进行实际的测量。在一方面, 优选地不使用对于本测量能够潜 在地处于等位基因失衡的基因靶标。
     在步骤 420 中, 进行了数字 PCR 或其它测量方法, 包括将样品稀释, 将该稀释的样 品置于孔中并测量每孔中的反应。在步骤 430 中, 将 PCR 结果用于鉴定不同参考核酸序列 ( 例如染色体或等位基因 ) 的标记物。在步骤 440 中, 计算了过度表现的序列的实际比率 (Pr)。 在步骤 450 中, 利用样品中胎儿物质的百分比来计算用于确定疾病状态的截止值。 在 步骤 460 中, 从该实际 Pr 和该截止值来确定是否存在失衡。 在一实施方案中, 将参考核酸序列的部分百分比并入数字 RNA-SNP 方法中。因此, 当研究由于癌细胞的 LOH 时, 能够用少于 50%癌细胞的肿瘤样品来进行这一步骤。还可以 将这一步骤用于多于 50%的癌细胞的样品以获得更准确的 Pr, 并因此减少将导致错误诊断 的假阳性的数目。在另一实施方案中, 将胎儿核酸百分比并入数字 PCR 方法中以确定胎儿 是否已遗传了父母的基因突变 ( 例如, 导致囊性纤维化或 β- 地中海贫血症或脊髓型肌萎 缩的突变 ) 或确定来自母体血浆核酸分析的多态性。
     IV. 并入每孔的平均浓度
     以前的方法 ( 例如, Zhou, W.et al.2002, 见上文 ) 的另一个劣势是要求每孔的平 均模板浓度 (m) 是每孔 1 个。考虑到难以获得确切的浓度, 这能够导致误差。而且, 甚至对 于每孔 1 个模板的确切浓度, 以前的方法忽略了孔中的模板的统计学分布。在以前的方法, 即, 老的算法中, 假定接受备选假设的 Pr 的预期值是等位基因比率, 因此, 该 Pr 的预期值与 每孔中的模板 DNA 的平均浓度无关。
     然而, 由于稀释样品中模板的天然统计变异 (statistical variation), 将不会有 确切的每孔 1 个模板。本发明的实施方案测量至少一种序列的平均浓度, 然后将该平均浓 度用于计算截止值, 即预期的 Pr。 在一方面, 这种计算包括了统计学分布以确定含有不同核 酸序列的孔的概率, 然后将该概率用于确定预期的 Pr。
     在一实施方案中, 获取了一种参考核酸序列的平均浓度, 其在一实例中是 DNA 样 品中较低浓度的核酸序列。在样品不具有失衡的情况下, 样品中两种序列的浓度将是相同 的, 并且任何一种都能够被视为参考等位基因。在样品具有, 例如, LOH 的情况下, 在癌细胞 中缺失的等位基因将被视为参考等位基因。将该参考等位基因的平均浓度表示为 mr。在另 一实施方案中, 浓度较高的序列可以被视作参考序列。
     A. 数字 SNP : 使用 SPRT 和数字 PCR 的实例
     图 5 显示了按照本发明的实施方案, 使用平均模板浓度来确定疾病状态的方法
     500。在步骤 510 中, 测量了不同序列的量。例如, 可以通过计数如上文所解释的数字 PCR 实验中的标记物来进行这一步骤。 然而, 可以通过其它方法来进行这一步骤, 该方法不包括 扩增步骤或者不使用荧光标记物, 但是能够使用其它属性, 例如如同质量的物理属性、 比旋 光属性或碱基配对属性。
     在步骤 520 中, 测定了过度表现的序列的实际比例。如上文所述的, 可以通过 获取只表现出过度表现的序列的孔的数目, 然后将该数目除以信息孔的数目来完成这 个步骤。在步骤 530 中, 测量了至少一种序列 ( 参考序列 ) 的平均浓度。在一实施方 案中, 所述参考序列是过度表现的序列。在另一实施方案中, 所述参考序列是过少表现 (underrepresented) 的序列。 可以通过计数在数字 PCR 实验中对参考序列是阴性的孔的数 目来进行测量。如在下个分段中所述的, 通过泊松分布 (Poisson distribution) 来描述阴 性孔的比例与平均目标浓度之间的关系。
     在步骤 540 中, 例如, 使用泊松分布来计算对不同的序列是阳性的孔的预期量。该 预期量可以是每孔的序列的概率、 每孔的平均序列、 含有序列的孔的数目或其它合适的量。 在步骤 550 中, 从该预期的量计算预期的 Pr。在步骤 560 中, 例如, 通过使用 SPRT, 从预期 的 Pr 计算截止值。在步骤 570 中, 确定了核酸序列失衡的分类。现在将描述方法 500 的具 体方面。
     1. 确定序列的预期量
     一旦从步骤 530 知道了每孔的平均浓度 ( 反应或反应混合物 ), 就可以在步骤 540 中计算表现出该序列的孔的预期数目。这种量可以表示为%、 分数值或整数值。利用具体 的实例进行说明, 假定每孔的参考模板的平均浓度 (mr) 是每孔 0.5 个, 并且 21 三体性胎儿 在 PLAC4SNP, rs8130833 的基因型是 AGG。因此, 参考模板是 A 等位基因, 并且过度表现的 模板是 G 等位基因。
     在一实施方案中, 假定 A 等位基因在诸如数字 PCR 的测量方法的孔的反应混合物 中的分布是泊松分布。在其它实施方案中, 使用了其它分布函数, 例如二项分布。
     泊松方程式是 :其中, n =每孔的模板分子的数目 ; P(n) = n 个模板分子在特定的孔中的概率 ; 并且 m =特定的数字 PCR 实验中一个孔中的模板分子的平均数目。
     因此, 在 0.5 的平均 A 等位基因的浓度下, 不含 A 等位基因的任何分子的任何孔的 概率是 :
     因此, 含有 A 等位基因的至少一个分子的任何孔的概率是 : 1-0.6065 = 0.3935。 因此, 预期约 39%的孔将含有 A 等位基因的至少一个分子。
     关于非参考核酸序列, 对于 21 三体性胎儿的每个细胞, A 比 G 的基因组比率将是 1 ∶ 2。假定在提取的 RNA 或 DNA 样品中的 A 比 G 的比率保持不变, 则每孔的 G 等位基因的 平均浓度将是 A 等位基因的平均浓度的 2 倍, 即, 2×0.5 = 1。
     因此, 在平均的 G 等位基因浓度为 1 的情况下, 不含 G 等位基因的任何分子的任何 孔的概率是 :
     因此, 含有 G 等位基因的至少一个分子的任何孔的概率是 : 1-0.3679 = 0.6321。 因此预期约 63%的孔会含有 G 等位基因的至少一个分子。
     2. 确定过度表现的序列的比例
     计算了预期量后, 可以确定过度表现的核酸序列的比例。假定用 A 等位基因和 G 等位基因填充孔是独立的, 则含有两个等位基因的孔的概率是 0.3935×0.6321 = 0.2487。 因此, 预期约 25%的孔将含有两个等位基因。
     预期含有 A 等位基因, 但是不含有 G 等位基因的孔的比例将是含有至少一个 A 等 位基因的孔的数目减去既含有 A 等位基因又含有 G 等位基因的孔的数目 : 0.3935-0.2487 = 0.1448。 类 似 地, 预 期 含 有 G 等 位 基 因, 但是不含有 A 等位基因的孔的比例将是 0.6321-0.2487 = 0.3834。信息孔被定义为对 A 等位基因或 G 等位基因是阳性, 但是不对 两个等位基因都是阳性的孔。
     因此, 在数字 RNA-SNP 分析中, 含有 A 等位基因的孔相对于 G 等位基因的孔的预期 比率是 0.1448/0.3834。 换言之, 只对 G 等位基因是阳性的孔的比例是只对 A 等位基因是阳 性的孔的比例的 2.65 倍。这与胎儿基因组比率形成对比, 其中过度表现的等位基因是另一 等位基因的 2 倍。
     对于 SPRT 分析, 计算了对过度表现的等位基因是阳性的信息孔的比例 ((Pr), 并利 用 SPRT 曲线对该比例进行解释。在本实例中, 信息孔的比例是 : 0.1448+0.3834 = 0.5282。 因此, 在 mr 为 0.5 时, 21 三体性病例的预期 Pr 是 0.3834/0.5282 = 0.73。
     由于平均模板浓度 (m) 是泊松方程式中的关键参数, 所以 Pr 将随 m 而变化。图 6 显示了本发明实施方案的表 600, 该表列出了对于表示为每孔的平均参考模板浓度 (mr) 的 一系列模板浓度, 21 三体性样品的预期的数字 RNA-SNP 等位基因比率和 Pr。表 600 显示了 对于一系列每孔的平均参考模板浓度 (mr), 预期的等位基因比率和对过度表现的等位基因 是阳性的信息孔的比例 (Pr)。
     Pr 的预期值以非线性的方式随每孔的参考等位基因的平均浓度 (mr) 而变化。如 表 600 所示, 接受备选假设的 Pr 的预期值随 mr 而增加。由于接受无效假设的 Pr 的预期值 固定为 0.5, 所以当 mr 增加时, 具有或不具有等位基因失衡的样品就 Pr 值而言将分得更开。 注意, 在其它实施方案中, 接受无效假设的值可以不同于 0.5。当正常比率不同于 1 ∶ 1, 例 如 5 ∶ 3 时, 可能发生这种情况, 因此, 当比率偏离 5 ∶ 3 时, 将发生失衡。将基于具体情况 来确定两种不同核酸序列的量的差异。
     然而, 由于以前的方法 ( 例如, Zhou, W.et al.2002, 见上文 ) 使用了 LOH 样品的固 定的 Pr 预期值, 所以这些方法低估了具有 LOH 的那些样品的 Pr 值 ( 接受备选假设 )。低估 的程度将随 mr 而增加。换言之, DNA 样品中参考等位基因的平均浓度越高, 旧方法就越不准 确。这种接受备选假设的 Pr 的低估将导致既接受无效假设又接受备选假设的截止值的不 准确的计算。
     3. 基于预期 Pr 计算截止值
     对于使用 SPRT 的实施方案, 可以使用来自 El Karoui 等人 (2006) 的计算 SPRT 曲 线的上限和下限的方程式。而且, 优选接受无效假设或备选假设的统计学可信度能够通过 调整方程式中的阀值似然比率而变化。在这个研究中, 使用的阀值似然比率是 8, 因为这个 值已经被证实在癌症检测的环境下提供了鉴别包含或不包含等位基因失衡的样品的令人满意的性能。因此, 在一实施方案中, 计算 SPRT 曲线的上限和下限的方程式是 :
     上限= [(ln8)/N-lnδ]/lnγ
     下限= (ln 1/8)/N-lnδ]/lnγ
     其中,
     δ = (1-θ1)/(1-θ0)
     γ = -(θ1(1-θ0)/θ0(1-θ1)
     θ0 =如果无效假设是真实的, 含有非参考等位基因的信息孔的比例
     = 0.5( 参见下文 )
     θ1 =如果备选假设是真实的, 含有非参考 ( 即, 过度表现的 ) 等位基因的信息孔 的比例
     N =信息孔的数目
     =只对任何一个等位基因是阳性的孔的数目
     (ln 是表示自然对数的数学符号, 即 loge)
     对于接受无效假设的 θ0 的测定, 假定从怀有整倍体胎儿的孕妇获得样品。在这 一假定下, 对任一个模板是阳性的孔的预期数目将是 1 ∶ 1, 因此含有非参考等位基因的信 息孔的预期比例将是 0.5。
     对于接受备选假设的 θ1 的测定, 假定从怀有 21 三体性胎儿的孕妇获得样品。数 字 RNA-SNP 分析的 21 三体性情况的预期 Pr 的计算细节列于表 600 中。因此, 数字 RNA-SNP 分析的 θ1 意指表 600 最后一列所示的数据。
     4. 平均浓度的测量
     可以通过对本领域技术人员公知或将公知的多种方法来测量 mr。在一实施方案 中, 在数字 PCR 分析的实验过程期间确定 mr 的值。由于 mr 值与对参考等位基因是阳性的孔 的总数的关系能够被分布所控制 ( 例如, 泊松分布 ), 所以能够利用下述公式, 从对参考等 位基因是阳性的孔的数目来计算 mr :
     mr = -ln(1- 对参考等位基因是阳性的孔的比例 )。
     注意, ln 是自然对数, 即 loge。这种方法提供了用于数字 PCR 实验的 DNA 样品中 mr 直接和精确的估计。
     这种方法可以用于获得期望的浓度。例如, 如方法 200 的步骤 240 中所做的, 可以 将样品中提取的核酸稀释至具体的浓度, 例如, 每一反应孔一个模板分子。在使用泊松分 布的实施方案中, 不含模板的孔的预期比例可以计算为 e-m, 其中 m 是每孔的模板分子的平 均浓度。例如, 在每孔一个模板分子的平均浓度下, 不含模板分子的孔的预期比例是 e-1, 即 0.37(37% )。剩下的 63%的孔将含有一个或多个模板分子。通常, 然后将计数数字 PCR 运 行 (run) 中阳性孔和信息孔的数目。 信息孔的定义和解释数字 PCR 数据的方式取决于应用。
     在其它实施方案中, 每孔的平均浓度 mr 通过其它定量方法来测量, 例如, 定量实时 PCR、 半定量竞争 PCR、 利用质谱方法的实时竞争 PCR(real-competitive PCR) 等。
     B. 数字 RCD
     可以以与上文所述的数字 SNP 方法类似的方式进行使用平均浓度的数字 RCD。能 够通过数字 PCR 来确定对参考染色体 ( 非染色体 21) 标记物是阳性、 对染色体 21 标记物是 阳性以及对两种标记物都是阳性的孔的数目。根据数字 SNP 分析的 mr 计算中的泊松概率函数, 能够从对参考标记物是阴性的孔的总数来计算每孔的参考标记物的平均浓度 (mr), 而不管染色体 21 标记物的阳性。
     然后可以将 SPRT 分析用于将血浆样品分类为获自怀有整倍体胎儿的孕妇或者获 自怀有 21 三体性胎儿的孕妇。当胎儿是整倍体时, 接受无效假设。在这种情况下, 对参考 标记物和染色体 21 标记物是阳性的孔的预期比率将是 1 ∶ 1, 因此, 具有对染色体 21 标记 物阳性信号的信息孔的预期比率将是 0.5。当胎儿是染色体 21 三体时, 将接受备选假设。 在这种情况下, 如果样品 DNA 只来自胎儿, 则每个孔中的染色体 21 标记物的平均浓度将是 参考标记物的平均浓度 (mr) 的 3/2 倍。
     当将数字 RCD 用于通过检测诸如胎盘的外遗传特征的胎儿特异性标记物来测定 染色体剂量时 (Chim, SSC.et al.2005 Proc Natl AcadSci USA 102, 14753-14758), 数 字 RCD 分析的实施方案使用非胎儿特异性的标记物。因此, 当使用非胎儿特异性标记物 时, 将进行测量胎儿物质百分比的额外步骤。因此, 每孔的染色体 21 标记物的平均浓度 将取决于样品中胎儿 DNA 的比例, 并且能够使用下式进行计算 : mr[(200% + 胎儿 DNA 百分 比 )/200% ]。
     再次利用具体实例进行说明, 假定每孔的参考模板、 染色体 1 的平均浓度 (mr) 是 0.5, 并且假定 50%的 DNA 源自胎儿, 样品中 50%的 DNA 源自母亲。
     因此, 利用泊松分布, 当染色体 1 的平均浓度是每孔 0.5 时, 不含染色体 1 基因座 的任何分子的任何孔的概率将是 :
     因此, 含有染色体 1 基因座的至少一个分子的任何孔的概率将是 : 1-0.6065 = 0.3935。因此, 预期约 39%的孔将含有该基因座的至少一个分子。
     对于这种三体性胎儿的每个细胞, 染色体 21 比染色体 1 的基因组比率将是 3 ∶ 2。 DNA 样品中染色体 21 与染色体 1 之间的比率将取决于部分胎儿 DNA 浓度 ( 胎儿 DNA% ), 并且是 : 3× 胎儿 DNA% +2(1- 胎儿 DNA% ) : 2× 胎儿 DNA% +2×(1- 胎儿 DNA% )。因此, 在这种情况下, 当部分胎儿 DNA 浓度是 50%时, 该比率是 : (3×50% +2×50% )/(2×50% +2×50% ) = 1.25。如果数字 SNP 方法没有使用胎儿特异性标记物, 则这种计算还能够用 于计算非参考序列的平均浓度。
     因此, 当每孔的染色体 1 基因座的平均浓度是 0.5 时, 每孔的染色体 21 基因座的 平均浓度是 : 1.25×0.5 = 0.625。因此, 不含染色体 21 基因座的任何分子的任何孔的概率 在染色体 21 基因座平均浓度为每孔 0.625 时将是 :
     因此, 含有染色体 21 基因座的至少一个分子的任何孔的概率将是 : 1-0.5353 = 0.4647。因此, 预期约 46%的孔将含有该基因座的至少一个分子。假定用任一个基因座填 充孔是独立的, 则含有两个基因座的孔的概率将是 : 0.3935×0.4647 = 0.1829。 因此, 预期 约 18%的孔将含有两个基因座。
     预期含有染色体 1 基因座, 但是不含有染色体 21 基因座的孔的比例将是含有至
     少一个染色体 1 基因座的孔的数目减去含有两个基因座的孔的数目 : 0.3935-0.1829 = 0.2106。类似地, 预期含有染色体 21 基因座而不是两个基因座都含有的孔的比例将是 : 0.4647-0.1829 = 0.2818。信息孔被定义为对染色体 1 基因座或染色体 21 基因座是阳性, 但是不对两个基因座都是阳性的孔。
     因此, 数字 RCD 分析中预期的染色体 21 比染色体 1 的比率是 0.2818/0.2106 = 1.34。换言之, 只对染色体 21 基因座是阳性的孔的比例是只对染色体 1 基因座是阳性的孔 的比例的 1.34 倍。这与 DNA 样品中 1.25 的比率形成对比。
     对于 SPRT 分析, 需要计算对染色体 21 基因座是阳性的信息孔的比例 (Pr), 并使用 SPRT 曲线来解释该比例。 在本实例中, 信息孔的比例将是 : 0.2106+0.2818 = 0.4924。 因此, 在 0.5 的 mr 下, 具有 50%胎儿 DNA 的 21 三体性个例的预期 Pr 是 0.2818/0.4924 = 0.57。
     由于平均模板浓度 (m) 是泊松方程式中的关键参数, 所以 Pr 将随 m 而变化。图 7 显示了按照本发明实施方案的表 700, 其列出了在表示为每孔的平均参考模板浓度 (mr) 的 一系列模板浓度下, 21 三体性样品中 10%、 25%、 50%和 100%的部分胎儿 DNA 浓度的预期 Pr。对于数字 RCD 分析, 21 三体性个例的预期 Pr 的运算详细列于表 700 中。因此, 能够从表 700 中表示对应的预期 Pr 值的列获得胎儿 DNA 部分浓度变化的样品的数字 RCD 分析的 θ1。
     C. 结果
     1. 不同 mr 的比较
     等位基因或染色体失衡的理论程度 ( 胎儿基因组中 ) 和实验预期程度之间的差异 的基础以及确定针对一系列 mr 值的实验预期程度的计算结果示于表 600 和 700 中。在 21 三体性样品的数字 RNA-SNP 分析中, 当 mr = 0.5 时, 只含有过度表现的等位基因的孔比只 含有参考等位基因的孔, 即数字 RNA-SNP 比率是 2.65( 表 600)。在由 100%的胎儿 DNA 组 成的样品的数字 RCD 分析中, 当 mr = 0.5 时, 只对染色体 21 基因座是阳性的孔比只对染色 体 1 基因座是阳性的孔, 即数字 RCD 比率, 是 1.7( 表 700)(Pr = 0.63, 因此, 数字 RCD 比率 是 0.63/(1-0.63) = 1.7)。随着部分胎儿 DNA 浓度下降, 数字 RCD 对相同的 mr 下降。
     如表 600 和 700 所示, 等位基因或染色体的过度表现的程度随着 mr 而增加。 然而, 信息孔的百分比在 mr = 0.5 附近时达到其最大值, 并且随着 mr 的进一步增加而逐渐下降。 在实践中, 如果不限制样品的模板分子的量, 则信息孔比例的下降能够通过增加分析的孔 的总数来补偿, 但是额外的孔需要增加试剂成本。因此, 最优的数字 PCR 性能是模板浓度和 每个样品测试的孔的总数之间的权衡。
     2. 使用 SPRT 曲线的实例
     如上文所讨论的, 数字 PCR 实验的等位基因或染色体失衡的预期程度取决于每个 反应混合物 ( 例如, 孔 ) 的实际模板浓度。我们描述了基于参考等位基因的模板浓度, 即每 孔的平均参考模板浓度 (mr)。如在上文的方程式中所示, 预期的 Pr 能够用于确定上部 SPRT 曲线和下部 SPRT 曲线的作图。由于预期的 Pr 相应地依赖于 mr 的值, 所以 SPRT 曲线的作图 基本上取决于 mr 的值。因此, 在实践中, 需要使用与数字 PCR 数据集的实际 mr 相关的一组 SPRT 曲线来解释来自该特定运行 (run) 的 Pr。
     图 8 显示了图 800, 示例了按照本发明的实施方案, 对于用于数字 RNA-SNP 分析的 0.1、 0.5 和 1.0 的 mr 值的 SPRT 曲线中的差异程度。每组数字 PCR 结果应当用与该特定运 行的确切 mr 值相关的具体曲线来解释。 注意, 由于对于数字 RNA-SNP 和数字 RCD 方法而言,等位基因或染色体失衡的预期程度是不同的 ( 对于数字 RNA-SNP 为 2 ∶ 1, 对于数字 RCD 为 3 ∶ 2), 所以两个数字 PCR 系统需要不同组的 SPRT 曲线。用通过数字 PCR 运行的对应 mr 选择的相关 SPRT 曲线来解释实验导出的 Pr。这与以前报道的将 SPRT 用于通过数字 PCR 的 LOH 的分子检测形成对比, 该以前报道中使用了一组固定的曲线。
     利用假设的数字 RNA-SNP 运行, 下文示例了使用 SPRT 解释数字 PCR 数据的实施方 式。每个实例的数字 RNA-SNP 分析后, 计数了只对 A 等位基因是阳性的孔的数目、 只对 G 等 位基因是阳性的孔的数目或者对这两个等位基因都是阳性的孔的数目。 参考等位基因被定 义为具有较少数目的阳性孔的等位基因。根据泊松概率密度函数, 使用对参考等位基因是 阴性的孔的总数来计算 mr 值, 而不管其它等位基因是否是阳性。我们假设的实例的数据如 下所述 :
     在 96 孔反应中, 20 个孔只对 A 等位基因是阳性的, 24 个孔只对 G 等位基因是阳性 的, 并且 33 个孔对这两个等位基因都是阳性的。将 A 等位基因视为参考等位基因, 因为 A 阳性的孔少于 G 阳性的孔。对参考等位等位基因是阴性的孔的数目是 96-20-33 = 43。因 此, 能够使用泊松方程式来计算 mr : -ln(43/96) = 0.80。这种情况的实验确定的 Pr 是 24/ (20+24) = 0.55。 根据表 600, mr = 0.8 时的 21 三体性样品的预期 Pr 是 0.76。因此, 这种情况的 θ1 是 0.76。将基于 θ1 = 0.76 的 SPRT 曲线用于解释这种情况的实验导出的 Pr, 0.55。当将 Pr = 0.55 拟合至相关的 SPRT 曲线时, 数据点落在下部曲线下。 因此, 将这种情况分类为整 倍体, 参见图 3。
     3. 与旧方法的比较
     图 9A 显示了表 900, 其比较了用于分类 96 孔数字 RNA-SNP 分析中整倍体和 21 三 体性实例的新和旧 SPRT 算法的有效性。图 9B 显示了表 950, 其比较了用于分类 384 孔数字 RNA-SNP 分析中整倍体和 21 三体性实例的新和旧 SPRT 算法的有效性。新的算法指选择对 源自数字 PCR 数据的 mr 特异性的 SPRT 曲线。旧的算法指对全部数字 PCR 运行使用固定组 的 SPRT 曲线。通过如表 900 所示的模拟分析揭示了截止值的错误计算对分类准确度的影 响。
     如表 900 和 950 所示, 与以前的研究中使用固定组的 SPRT 曲线相比, 我们的研究 中不可分类的数据的比例低得多。 例如, 使用我们的方法, 在 mr = 0.5 时, 14%和 0%的三体 性样品分别对 96 孔和 384 孔数字 RNA-SNP 分析是不可分类的, 但是使用固定曲线时, 62% 和 10%的样品分别是不可分类的 ( 表 900)。因此, 我们的方法允许用较少数目的信息孔对 疾病分类。
     如表 900 所示, 对于 0.1 至 2.0 的全部 mr 值, 新的算法在将样品分类为具有或不 具有等位基因比率偏移上更准确。例如, 当 mr 等于 1.0 并且进行了 96 孔数字 RNA-SNP 运 行时, 新的算法分别正确地分类了 88%和 92%的具有或不具有等位基因比率偏移的样品, 而使用旧的算法, 具有或不具有等位基因比率偏移的样品的正确分类的百分比分别是 19% 和 36%。
     使用新的算法, 具有或不具有等位基因比率偏移的样品的分离将随 mr 而增加。因 此, 分类准确度将随 mr 而增加。当 mr 增加至大于 2.0 时, 由于信息孔百分比的下降, 两组样 品分离的增加对分类准确度影响将降低。相比之下, 使用旧的算法, 当 mr 增加时, 由于预期
     的 P 值与其真实值偏离的增加, 分类准确度明显地下降。
     我们的实验和模拟数据表明对于 21 三体性检测, 数字 RNA-SNP 是有效和准确的方 法。由于母体血浆中的 PLAC4mRNA 完全源自胎儿, 所以对于 13 个检测的母体血浆样品中 的 12 个, 只需要一个 384 孔数字 PCR 来进行正确的分类 ( 图 13B 的表 1350)。因此, 这种 均一的基于实时数字 PCR 的方法为 RNA-SNP 分析的基于质谱的方法提供了替代选择 (Lo, YMD, et al.2007 Nat Med, 见上文 )。除了胎盘特异性转录物以外, 我们还展望, 母体血浆 中其它类型的胎儿特异性核酸种类能够用于基于数字 PCR 的胎儿染色体非整倍性检测。 一个实例是胎儿外遗传标记物 (Chim, SSC et al.(2005)Proc Natl Acad Sci USA 102, 14753-14758 ; Chan, KCA et al.(2006)Clin Chem 52, 2211-2218), 其最近被用于使用外 遗传等位基因比率 (EAR) 方法的 18 三体性的无创产前检测 (Tong, YK et al.(2006)Clin Chem 52, 2194-2202)。因此, 我们, 预测数字 EAR 将是可能的分析技术。
     V. 渐增的百分比、 多个标记物和 PCR 替代选择
     如上文所述, 当胎儿 DNA 只组成母体血浆 DNA 的一小部分, 并且妊娠的 11 周至 17 周之间的平均部分浓度为约 3%时, 本发明的实施方案应用于从母体血浆提取的 DNA 是复 杂的。然而, 如本文所示, 甚至当非整倍体 DNA 以较少的群体存在时, 数字 RCD 允许非整倍 性检测。随着胎儿 DNA 部分浓度的下降, 例如可以存在于早期妊娠期间, 数字 RCD 需要较大 数目的信息计数。如图 12 的表 1200 所总结的, 本工作的意义是我们提供了可以在其上建 立诊断测定的一组基准参数, 例如所需的部分胎儿 DNA 和总模板分子。 我们认为, 对于 25% 的部分胎儿 DNA 浓度, 7680 的反应总数是特别有吸引力的一组基准参数。如表 1200 所示, 这些参数应当允许正确地分类当前 97%的整倍体样品和 21 三体性样品。
     存在于单位体积的母体血浆中的血浆 DNA 分子的数目是有限的 (Lo, YMD.et al.1998 Am J Hum Genet 62, 768-7758)。例如, 在早期妊娠中, 常染色体基因座, β- 球蛋 白基因的中间母体血浆浓度被证实是 986 个拷贝 / 毫升, 这既有来自胎儿的贡献又有来自 母亲的贡献 (Lo, YMD.et al.1998 Am J Hum Genet 62, 768-7758)。为了捕获 7,680 个分 子, 需要提取约 8mL 的母体血浆的 DNA。可以从约 15mL 母体血液获得的这个体积的血浆是 常规实践的极限。然而, 我们预测对于数字 RCD 分析可以组合多组染色体 21 和参考染色体 靶标。对于 5 对染色体 21 和参考染色体靶标, 只需要 1.6mL 的母体血浆来提供分析所需的 模板分子的数目。 能够进行多重单分子 PCR。 对于单分子单体型分析, 以前已经证明了这种 多重单分子分析的稳健度 (Ding, C.and Cantor, CR.2003 Proc Natl Acad Sci USA 100, 7449-7453)。
     可选择地, 为了实现 25%的部分胎儿 DNA 浓度, 方法可以允许选择性地富集母体 血浆中的胎儿的 DNA(Li, Y.et al.2004 Clin Chem50, 1002-1011) 或抑制母体血浆中的母 体 DNA 背景 (Dhallan, R et al.2004 JAMA 291, 1114-1119) 或者既富集母体血浆中的胎 儿 DNA 又抑制母体血浆中的母体 DNA 背景。除了富集胎儿 DNA 和抑制母体 DNA 的物理方法 以外, 还可能使用分子富集策略, 例如通过靶向表现出特定 DNA 甲基化方式的胎儿 DNA 分 子 (Chim, SSC et al.2005 Proc NatlAcad Sci USA 102, 14753-14758, Chan, KCA et al. 2006 Clin Chem 52, 2211-2218 ; Chiu, RWK et al.2007 Am J Pathol 170, 941-950)。
     另外, 如进行数字 PCR 的目前的研究所用的, 现在有许多人工进行数字实时 PCR 分 析的替代方法。 这些替代方法包括微流体数字 PCR 芯片 (Warren, L et al.2006 Proc NatlAcad Sci USA 103, 17807-17812 ; Ottesen, EA et al.2006 Science 314, 1464-1467)、 乳液 PCR(Dressman, D et al.2003 Proc Natl Acad Sci USA 100, 8817-8822) 和使用 例如 Roche454 平台、 Illumina Solexa 平台和 Applied Biosystems 的 SOLiDTM 系统等的 大规模平行基因组测序 (Margulies, M.et al.2005 Nature 437, 376-380)。对于后者, 我们的方法也适用于单个 DNA 分子的大规模平行测序方法, 该方法不要求扩增步骤, 例 如 Helicos True 单分子 DNA 测序技术 (Harris TD et al.2008 Science, 320, 106-109)、 TM PacificBiosciences 的 单 分 子 实 时 (SMRT ) 技 术 和 纳 米 孔 测 序 (Soni GV andMeller A.2007 Clin Chem 53, 1996-2001)。通过使用这些方法, 能够在大量样品上快速地进行数 字 RNA-SNP 和数字 RCD, 从而增强了本文提出的方法用于无创产前诊断的临床可行性。 实施例 提供下文的实施例来示例而不是不限制要求保护的发明。
     I. 计算机模拟
     进行计算机模拟来估计使用 SPRT 方法的 21 三体性诊断的准确性。 使用 Microsoft Excel 2003 软件 (Microsoft Corp., USA) 和 Windows 软件 SAS 9.1(SAS Institute Inc., NC, USA) 来进行计算机模拟。数字 PCR 的性能是参考模板浓度 (mr)、 信息计数的数目和等 位基因或染色体失衡的预期程度 (Pr) 之间的相互作用。对一系列这些变量的每个进行了 单独的模拟。由于数字 RNA-SNP 和数字 RCD 的 SPRT 曲线的判定边界是不同的, 所以分别进 行这两个系统的模拟分析。
     对模拟的每个数字 PCR 条件 ( 即, mr、 胎儿 DNA 部分浓度、 总孔数 ), 进行了两轮模 拟。第一轮模拟的情情境是检测的样品获得自怀有整倍体胎儿的孕妇。第二轮模拟的情境 是检测的样品获得自怀有 21 三体性胎儿的孕妇。每轮模拟检测了 5000 个胎儿。
     A.RNA-SNP
     对于数字 RNA-SNP, 进行了 mr = 0.1 至 mr = 2.0 的 384 孔实验的模拟。在每个 mr 值, 我们模拟了检测 5000 个整倍体胎儿和 5000 个 21 三体性胎儿的情境。使用对给定的 mr 合适的 SPRT 曲线来分类所述 10,000 个胎儿。 图 10 是本发明实施方案的表 1000, 该表 1000 表示正确或错误地分类为整倍体或非整倍体的胎儿, 以及对于给定的信息计数不可分类的 胎儿的百分比。对于 0.5 至 2.0 的 mr, 诊断整倍体和非整倍体情况的准确度都是 100%。当 mr = 0.1 时, 384 孔分析后, 只有 57%的整倍体胎儿和 88%的 21 三体性胎儿能够被准确地 分类。
     按下述步骤生成模拟数据 :
     在 步 骤 1 中, 对 每 个 孔, 利 用 SAS 程 序 的 随 机 ( 泊 松 ) 函 数 (www.sas.com/ technologies/analytics/statistics/index.html) 生成两个随机数来分别表示 A 等位基 因和 G 等位基因。该随机 ( 泊松 ) 函数将生成从 0 开始的正整数 ( 即, 0、 1、 2、 3...), 对于 表示每孔的等位基因的平均浓度的给定的平均值, 生成每个整数的概率取决于这个数根据 泊松概率密度函数的概率。 如果表示 A 等位基因的随机数大于 0, 则孔被视为对 A 等位基因 是阳性的, 即含有 A 等位基因的一个或多个分子。类似地, 如果表示 G 等位基因的随机数大 于 0, 则孔被视为对 G 等位基因是阳性的。
     为了模拟怀有整倍体胎儿的孕妇的情境, 使用相同的平均值来生成对于 A 等位基
     因和 G 等位基因的随机数。例如, 在模拟 mr = 0.5 的数字 RNA-SNP 分析的分析中, 将对于 A 等位基因或 G 等位基因的平均值相同地设为 0.5, 这表示任何一个等位基因的平均浓度是 每孔 0.5 个分子。利用泊松方程式, 在 0.5 的平均浓度下, 对 A 等位基因或 G 等位基因是阳 性的孔的比例将是相同的, 并且是 0.3935, 参见表 600。
     当模拟 mr = 0.5 的怀有 21 三体性胎儿的孕妇的数字 RNA-SNP 分析时, 预期每孔 的过度表现的等位基因的平均浓度将是参考等位基因的平均浓度即 1 的 2 倍。在这种情况 下, 对过度表现的等位基因是阳性的孔的概率是 0.6321, 参见表 600。
     生成数字 PCR 孔的随机数后, 该孔能够被分类为以下情况的一种 :
     a. 对 A 等位基因和 G 等位基因都是阴性
     b. 对 A 等位基因和 G 等位基因都是阳性
     c. 对 A 等位基因是阳性, 但是对 G 等位基因是阴性
     d. 对 G 等位基因是阳性, 但是对 A 等位基因是阴性
     在步骤 2 中, 重复步骤 1 至生成了期望数目的孔, 对当前的模拟是 384 个孔。计数 了只对 A 等位基因是阳性的孔的数目和只对 G 等位基因是阳性的孔的数目。将具有较少阳 性孔的等位基因视为参考等位基因, 并且将具有较多阳性孔的等位基因视为潜在地过度表 现的等位基因。信息孔的数目是对任何一个等位基因是阳性, 但是不对两个等位基因都是 阳性的孔的总数。然后计算了含有潜在地过度表现的等位基因的信息孔的比例 (Pr)。根据 本发明的实施方案, 计算了接受无效假设或备选假设的相关 SPRT 曲线的上限和下限。
     在步骤 3 中, 对怀有整倍体胎儿或 21 三体性胎儿的孕妇的两种情境的每一种进行 了 5000 个模拟。 每个模拟能够被视为从孕妇获得的独立生物样品。 在表 1000 中, 正确分类 的整倍体个例指接受了无效假设的那些整倍体个例, 而错误分类的整倍体例指接受了备选 假设的那些整倍体个例。类似地, 接受备选假设的那些 21 三体性个例被视为正确的分类, 而接受无效假设的那些 21 三体性个例被视为错误的分类。对于两个组, 在模拟了预先指定 的总数的孔后, 那些既没有接受无效假设又没有接受备选假设的个例被视为不可分类的。
     在步骤 4 中, 对以 0.1 的增量增加的 0.1 至 2.0 的 mr, 进行步骤 1 至步骤 3。
     B.RCD
     图 11 是本发明实施方案的表 1100, 该表 1000 显示了对于从 0.1 至 2.0 的 mr, 纯 (100% ) 胎儿 DNA 样品的数字 RCD 分析的计算机模拟。随着部分胎儿 DNA 浓度变小, 过度 表现的染色体 21 的程度降低, 因此需要用于准确的疾病分类的更多数目的信息孔。因此, 还对在 mr = 0.5 时, 384 孔至 7680 孔的总孔数的 50%、 25%和 10%的胎儿 DNA 浓度进行了 模拟。
     图 12 是本发明实施方案的表 1200, 该表 1200 显示了对于来自具有不同胎儿 DNA 部分浓度的整倍体胎儿或 21 三体性胎儿的样品的分类, 在 mr = 0.5 时, 数字 RCD 分析的准 确度的计算机模拟的结果。数字 RCD 的效能对于胎儿 DNA 部分浓度较高的个例更好。在胎 儿 DNA 浓度为 25%并且 PCR 分析的总数为 7680 时, 97%的整倍体和非整倍体个例都是可以 分类的, 并且没有错误的分类。剩下的 3%个例在能够实现分类前, 需要进一步的分析。
     模拟数字 RCD 分析的过程类似于对数字 RNA-SNP 所述的那些过程。模拟的步骤如 下所述 :
     在步骤 1 中, 在泊松概率密度函数下产生两个随机数来表示参考等位基因座, 染色体 1 基因座和染色体 21 基因座。对于怀有整倍体胎儿的个体, 染色体 1 基因座和染色体 21 基因座的平均浓度是相同的。在一模拟分析中, 使用了每个基因座每孔 0.5 的平均模板 浓度。如表 700 所示, 对于怀有 21 三体性胎儿的个体, 这一模拟中的 mr 是 0.5, 但是每孔的 染色体 21 基因座的平均浓度将取决于检测样品中部分胎儿 DNA 浓度。通过代表各自的基 因座的随机数来确定参考基因座和 / 或染色体 21 基因座向孔的分布, 所述随机数是根据泊 松概率密度函数, 用每孔的基因座的合适的平均浓度产生的。
     在步骤 2 中, 重复步骤 1 至生成了期望数目的孔, 例如, 384 孔板实验的 384 个孔。 计数了只对染色体 1 是阳性的孔的数目和只对染色体 21 是阳性的孔的数目。信息孔的总 数是对上述染色体任一条是阳性而不对两条染色体都是阳性的孔的总数。 然后计算了对染 色体 21 是阳性的信息孔的比例 (Pr)。如上文关于 SPRT 分析的部分所述, 计算了接受无效 假设或备选假设的相关 SPRT 曲线的上限和下限。
     在步骤 3 中, 对怀有整倍体胎儿或 21 三体性胎儿的孕妇的两种情境的每一种进行 了 5000 个模拟。每个模拟能够被视为从孕妇获得的独立生物样品。在表 1100 中, 正确分 类的整倍体个例指接受了无效假设的那些整倍体个例, 而错误分类的整倍体个例指接受了 备选假设的那些整倍体个例。类似地, 接受备选假设的那些 21 三体性个例被视为正确分类 的, 而接受无效假设的那些 21 三体性个例被视为错误分类的。对于两个组, 在模拟了预先 指定的总数的孔后, 那些既没接受无效假设又没接收备选假设的个例被视为不可分类的。
     在步骤 4 中, 在 384 至 7680 的总孔数下, 对 10%、 25%、 50%和 100%的胎儿 DNA 的样品重复步骤 1 至步骤 3。
     II.21 三体性检测的验证
     A.PLAC4 的 RNA-SNP
     利用染色体 21 上的 PLAC4 基因的 rs8130833 SNP 来证明数字 RNA-SNP 的实际可 行性 (Lo, YMD et al.2007 Nat Med 13, 218-223)。分析了来自两个整倍体杂合胎盘和两 个 21 三体性杂合胎盘的胎盘 DNA 和 RNA 样品。用数字 RNA-SNP 方法来分析胎盘 DNA 样品, 但是省略了逆转录步骤, 因此基本上将该方法转变成数字 DNA-SNP 分析。为了达到正确的 个例分类的可能性与信息孔的比例之间的平衡, 我们将样品稀释旨在实现每孔一个任何类 型的等位基因, 并且通过 96 孔数字 PCR 分析来证实。然后, 进行 384 孔数字 RNA-SNP 实验。 计算了 Pr 和 mr, 并将这个 mr 值的 SPRT 曲线用于数据解释。
     图 13A 显示了按照本发明的实施方案, 整倍体妊娠和 21 三体性妊娠的胎盘组织的 数字 RNA-SNP 分析的表 1300。通过质谱测定来确定基因型。当实验获得的 Pr 低于不可分 类的区域时, 指定为 “整倍体” ; 当实验获得的 Pr 高于不可分类的区域时, 指定为表示 21 三 体性的 “T21” 。T21 即 21 三体性。通过一个 384 孔实验, 既利用 DNA 样品又利用 RNA 样品 正确地分类了这些个例每一个。
     我们还检测了来自 9 个怀有整倍体胎儿的妇女和 4 个怀有 21 三体性胎儿的妇女 的血浆 RNA 样品。图 13B 显示了按照本发明的实施方案, 来自整倍体妊娠和 21 三体性妊 娠的母体血浆的数字 RNA-SNP 分析的表 1350。正确分类了全部个例。一个 21 三体性实例 (M2272P) 在一个 384 孔实验后, 的初始结果落在 SPRT 曲线之间的不可分类区域中。因此, 进行了另外的 384 孔实验。从总共 768 个孔汇集的数据计算了新的 mr 和 Pr 值, 并且使用基 于这个 mr 值选择的新的一组 SPRT 曲线进行了分类。然后, 该个例被正确地评分为非整倍体。 我们的实验和模拟数据表明数字 RNA-SNP 对 21 三体性检测是有效且准确的方法。 由于母体血浆中的 PLAC4 mRNA 全部源自胎儿, 所以对于 13 个检测的母体血浆样品中的 12 个, 正确的分类只要求一个 384 孔数字 PCR 实验。因此, 这种均一的基于实时数字 PCR 的方 法提供了用于 RNA-SNP 分析的基于质谱的方法的替代选择。除了胎盘特异性 mRNA 转录物 以外, 我们还预测母体血浆中的其它类型的胎儿特异性核酸种类能够用于胎儿染色体非整 倍性的基于数字 PCR 的检测。一个实例是胎儿外遗传标记物, 其最近被用于利用外遗传等 位基因比率 (EAR) 方法的 18 三体性的无创产前检测 (Tong YK et al.2006 ClinChern, 52, 2194-2202)。因此, 我们预测数字 EAR 将是可能的分析技术。
     B.RCD
     还利用靶向染色体 21 和染色体 1 上的种内同源序列的 PCR 测定来研究用于检测 21 三体性的数字 RCD 的实际可行性。作为示例, 本文使用了种内同源基因座 (paralogous loci)。染色体 21 和其它参考染色体上的非种内同源序列也能够用于 RCD。将来自两个整 倍体胎盘和两个 21 三体性胎盘的胎盘 DNA 样品稀释至约每孔来自任何一条染色体的一个 靶模板, 并且通过 96 孔数字 PCR 分析来证实。通过 384 孔数字 RCD 实验来分析每个证实的 样品, 并且计算了 Pr 和 mr 的值。对于数字 RCD, 染色体 1 种内同源基因 (paralog) 是参考
     模板。将这个 mr 值用于选择解释数据的一组对应的 SPRT 曲线。如图 14A 所示, 正确地分 类了全部胎盘样品。
     为了证明数字 RCD 方法能够用于检测与过量的整倍体 DNA 混合的 21 三体性 DNA, 例如母体血浆中的胎儿 DNA 的情境, 在整倍体母体血液细胞 DNA 的背景下, 分析了含有 50% 和 25%的 21 三体性胎盘 DNA 的混合物。将来自 10 个 21 三体性个例和 10 个整倍体个例的 胎盘 DNA 分别与等量的整倍体母体血液细胞 DNA 混合, 从而获得 20 个 50%的 DNA 混合物。 图 14B 显示按照本发明的实施方案, 示出 50%胎儿 DNA 混合物的 RCD 分析的 SPRT 解释的图 1440。类似地, 将来自 5 个 21 三体性个例和 5 个整倍体个例的胎盘 DNA 分别与超出 3 倍的 整倍体母体血液细胞 DNA 混合, 从而获得 10 个 25%的 DNA 混合物。 图 14C 显示了示出 25% 胎儿 DNA 混合物的 RCD 分析的 SPRT 解释的图 1470。如图 14B 和 14C 所示, 正确地分类了全 部的整倍体和非整倍体 DNA 混合物。
     如图 14B 和 14C 所表示的, 多个 384 孔数字 PCR 分析后, 每个样品达到了可以分类 的点。50%的 DNA 混合物所要求的 384 孔板的数目是 1 至 5。25%的 DNA 混合物所要求的 384 孔板的数目是 1 至 7。通过如表 1200 所示的计算机模拟, 预测了随每个 384 数字 PCR 分析的增加, 正确分类的个例的累积比例。
     III. 数字 PCR 方法
     A. 数字 RNA-SNP
     首先使用 ThermoScript 逆转录酶 (Invitrogen), 利用基因特异性的逆转录引 物, 将全部 RNA 样品进行逆转录。逆转录引物的序列是 5’ -AGTATATAGAACCATGTTTAGGCCAG A-3’ (Integrated DNATechnologies, Coralville, IA)。用于数字 RNA-SNP 的逆转录 RNA 样品 ( 即, cDNA) 随后的处理与 DNA 样品 ( 例如, 胎盘 DNA) 基本上相同。在数字 PCR 分 析前, 首先利用针对 PLAC4 的实时 PCR 测定, 将 DNA 样品和 cDNA 样品定量, 该测定由引物 5’ -CCGCTAGGGTGTCTTTTAAGC-3’ 、 5’ -GTGTTGCAATACAAAATGAGTTTCT-3’ 和荧光探针 5’ -(FAM)ATTGGAGCAAATTC(MGBNFQ)-3’ (Applied Biosystems, Foster City, CA) 组成, 其中 FAM 是 6- 羧基荧光素并且 MGBNFQ 是小沟结合非荧光猝灭剂。
     通过指定扩增子的 HPLC 纯化的单链合成的 DNA 寡核苷酸 (Proligo, Singapore) 的连续稀释来制备校准曲线。 序列是 5’ -CGCCGCTAGGGTGTCTTTTAAGCTATTGGAGCAAATTCAAATT TGGCTTAAAGAAAAAGAAACTCATTTTGTATTGCAACACCAGGAGTATCCCAAGGGACTCG-3’ 。 使用 2X TaqMan Universal PCR MasterMix(Applied Biosystems) 进行反应, 反应体积为 25μL。在每个反 应中使用 400nM 的每种引物和 80nM 的探针。 在 50℃下开始反应持续 2min, 然后 95℃、 10min 以及 95℃、 15s 与 60℃、 1min 的 45 个循环, 在 ABI PRISM 7900HT 序列检测系统 (Applied Biosystems) 中进行上述反应。然后将 DNA 或 cDNA 样品进行连续稀释, 从而随后的数字 PCR 扩增能够在约每孔 1 个模板分子下进行。在这种浓度下, 预期约 37%的反应孔将表现 出阴性扩增, 并且首先通过进行 96 孔数字实时 PCR 分析来证实。然后使用一组非内含子跨 越引物 (non-intron spanningprimer) 在 384 孔板中进行数字 RNA-SNP 分析 : 正向引物是 5’ -TTTGTATTGCAACACCATTTGG-3’ , 基因特异性逆转录引物如上文所述。
     设计了靶向 PLAC4 序列上的 rs8130833SNP 的两个等位基因的每一个的两个等 位基因特异性 TaqMan 探针。它们对于 G 等位基因和 A 等位基因的序列分别是 5’ -(FAM) TCGTCGTCTAACTTG(MGBNFQ)-3’ 和 5’ -(VIC)ATTCGTCATCTAACTTG(MGBNFQ)。 使 用 2X TaqManUniversal PCR Master Mix(Applied Biosystems) 进行反应, 反应体积为 5μL。每 个反应含有 1X TaqMan Universal PCR Master Mix、 572nM 的每种引物、 107nM 的等位基 因 -G- 特异性探针和 357nM 等位基因 -A- 特异性探针。 在 ABI PRISM 7900HT 序列检测系统 中进行反应。在 50℃下开始反应持续 2min, 然后 95℃、 10min 以及 95℃、 15s 与 57℃、 1min 的 45 个循环。在反应期间, 通过 SDS 2.2.2 软件 (AppliedBiosystems) 的 “绝对定量” 应 用来收集荧光数据。该软件自动地计算基线和阀值。记录了对 A 等位基因或 G 等位基因是 阳性的孔的数目, 并对其进行 SPRT 分析。
     B. 数字 RCD 分析
     首先通过 NanoDrop 分光光度计 (NanoDrop Technology, Wilmington, DE), 将在本 研究中所用的全部胎盘和母体血沉棕黄色层 DNA 样品进行定量。利用 6.6pg/ 细胞的换算, 将 DNA 浓度转换成拷贝 /μL。通过将 DNA 样品连续稀释来确定对应于约每孔一个模板的 DNA 的量, 并通过 96 孔格式的实时 PCR 测定来证实, 其中我们预期约 37%的孔表现出阴性 扩增。除了只添加了参考染色体的探针以外, 确认板 (confirmatory plate) 的 PCR 设置和 下文所述的相同。 在数字 RCD 分析中, 首先通过正向引物 5’ -GTTGTTCTGCAAAAAACCTTCGA-3’ 和 反 向 引 物 5’ -CTTGGCCAGAAATACTTCATTACCATAT-3’ , 将 染 色 体 21 和 染 色 体 1 上 的 种 内 同 源 基 因 座 (Deutsch, S.et al.2004 J MedGenet 41, 908-915) 进 行 共 扩 增。 设 计 了 两 个 染 色 体 特 异 性 TaqMan 探 针 来 靶 向 染 色 体 21 和 染 色 体 1 种 内 同 源 基 因, 并 且 它 们 的 序 列 分 别 是 5 ′’ -(FAM)TACCTCCATAATGAGTAAA(MGBNFQ)-3’ 和 5’ -(VIC) CGTACCTCTGTAATGTGTAA(MGBNFQ)-3’ 。每个反应含有 1X TaqMan Universal PCR Master Mix、 450nM 的每种引物和 125nM 的每种探针。总反应体积是 5μL/ 孔。在 50 ℃下开始反 应持续 2min, 然后 95 ℃、 10min 以及 95 ℃、 15s 与 60 ℃、 1min 的 50 个循环。在 ABI PRISM 7900HT 序列检测系统 (Applied Biosystems) 中进行全部实时 PCR 实验, 并通过 SDS 2.2.2 软件 (Applied Biosystems) 的 “绝对定量” 应用来收集荧光数据。使用了默认的基线和手动阀值 (manualthreshold)。记录了对染色体 21 或染色体 1 是阳性的孔的数目, 并对其进 行 SPRT 分析。将分析一个或多个 384 孔板直至疾病通过 SPRT 进行分类是可能的。
     IV. 使用基于微流体的数字 PCR
     A. 数字 RNA-SNP
     本实施例证明了使用基于微流体的数字 PCR 的数字 PCR 分析的性能。本文示例了 这种方法的一个变体, 为了示例而不是为了限制, 使用 Fluidigm BioMarkTM 系统。 这个系统 每个运行能够进行超过 9000 个数字 PCR。
     从怀有整倍体胎儿或 21 三体性胎儿的孕妇获得胎盘组织样品和母体外周血液样 品。通过引物延伸及随后的质谱来进行胎盘 DNA 样品中的 PLAC4 基因上的 rs8130833SNP 的基因型分型。从胎盘样品和母体血浆样品中提取 RNA。
     使用 ThermoScript 逆转录酶 (Invitrogen), 利用基因特异性逆转录引物 (5’ -AGT ATATAGAACCATGTTTAGGCCAGA-3’ ), 将全部 RNA 样品逆转录。对胎盘 cDNA 样品, 进行连续稀 释, 从而随后的数字 PCR 扩增能够在约每孔一个模板分子下进行。
     在具有 12.765 数字阵列 (Fluidigm) 的 BioMark SystemTM(Fluidigm) 上进行数 字 PCR。每个数字阵列由用于容纳 12 个样品 - 测定混合物的 12 个板组成。每个板还分成 进行 7nL 反应 / 孔的 765 个孔。通过正向引物 (5’ -TTTGTATTGCAACACCATTTGG-3’ ) 和上 文所述的基因特异性逆转录引物来扩增 PLAC4 基因上的 rs8130833SNP 区域。设计了靶向 rs8130833SNP 的两个等位基因的每一个的两个等位基因特异性 TaqMan 探针。它们对 G 等 位基因和 A 等位基因的序列分别是 5’ -(FAM)TCGTCGTCTAACTTG(MGBNFQ)-3’ 和 5’ -(VIC) ATTCGTCATCTAACTTG(MGBNFQ)-3’ 。利用 2X TaqManUniversal PCR Master Mix 来进行一个 阵列板的反应, 反应体积为 10μL。每个反应含有 1X TaqMan Universal PCR Master Mix、 572nM 的每种引物、 53.5nM 的等位基因 -G- 特异性探针、 178.5nM 的等位基因 -A- 特异性探 针和 3.5μL 的 cDNA 样品。对每个胎盘 cDNA 样品使用一个反应板, 而对每个母体血浆样品 TM 使用 12 个板。通过 NanoFlex IFC 控制器 (Fluidigm), 将样品 - 测定混合物加载至数字 TM 阵列中。在 BioMark 系统中进行反应。在 50℃下开始反应持续 2min, 然后 95℃、 10min 以 及 95℃、 15s 与 57℃、 1min 的 40 个循环。
     在 765 孔反应板中分析来自一个整倍体杂合胎盘和两个 T21 杂合胎盘的胎盘 RNA 样品。对于每个样品, 计数了包括对 A 等位基因或 G 等位基因是阳性 ( 但是不对这两个等 位基因都是阳性 ) 的孔的信息孔的数目。确定了在全部信息孔中过度表现的等位基因的比 例 (Pr)。应用对这些运行的每孔确切的平均参考模板浓度 (mr) 合适的 SPRT 曲线来确定实 验获得的 Pr 是否表示了整倍体样品或 T21 样品。如图 15A 所示, 利用这种方法, 正确地分 类了全部 RNA 样品。
     我们还检测了来自 4 个怀有整倍体胎儿的妇女和 1 个怀有 21 三体性胎儿的妇女 的血浆 RNA 样品。在 12 个 765 孔反应板中分析每个样品, 即每个血浆 RNA 样品 9180 个反 应。图 15B 表示这个血浆 RNA 样品的 12 个板的每一个的信息孔的数目。如该表中所示, 血 浆样品中的模板浓度被稀释至任一反应板中的信息孔的数目不足以进行 SPRT 分类。在将 样品分类为整倍体样品前, 必须将来自三个反应板的信息孔合并 ( 图 15C)。 图 15C 表明, 利 用从 2 至 12 个板汇集的数据, 全部血浆个例能够被正确地分类。
     与进行数字 PCR 的手动方法相比, 这种基于微流体的方法快的多, 并且劳动强度小得多。能够在 2 个半小时内完成全部过程。
     B. 用于 18 三体性产前检测的数字 RNA-SNP
     在本实施例中, 我们在染色体 18 上的胎盘表达的转录物, 即丝氨酸蛋白酶抑制 剂肽酶抑制剂进化枝 (clade)B( 卵清蛋白 ) 成员 2(SERPINB2)mRNA 上进行基于数字 PCR 的等位基因鉴别测定, 来检测 18 三体性胎儿的多态性等位基因比率的失衡。如生产商的 说明书所述, 分别使用 QIAamp DNA Mini 试剂盒 (Qiagen, Hilden, Germany) 和 TRIzol 试 剂 (Invitrogen, Carlsbad, CA) 从胎盘组织样品中提取 DNA 和 RNA。提取的胎盘 RNA 样品 进行 DNase I(Invitrogen) 处理以除去污染的基因组 DNA。如上文所述, 利用 MassARRAY Compact(Sequenom, San Diego), 使用同类 MassEXTEND(hME) 测定 (homogenousMassEXTEND assay), 在胎盘组织 DNA 样品中进行 SERPINB2 基因上的 rs6098SNP 的基因型分型。
     使 用 基 因 特 异 性 引 物 5’ -CGCAGACTTCTCACCAAACA-3’ (Integrated DNA Technologies, Coralville, IA), 利用 ThermoScript 逆转录酶 (Invitrogen), 在胎盘组织 RNA 样品上进行 SERPINB2 转录物的逆转录。全部 cDNA 样品稀释的浓度使得随后的数字 PCR 扩增能够在每个反应孔一个模板分子的平均浓度下进行。使用 TaqMan Universal PCR Master Mix(AppliedBiosystems, Foster City, CA) 和 BiomarkTM PCR 试 剂 (Fluidigm, SanFrancisco) 进行数字 PCR。所用的正向引物 5’ -CTCAGCTCTGCAATCAATGC-3’ (Integra ted DNA Technologies) 和反向引物 ( 与用于逆转录的基因特异性引物相同 ) 的浓度是 600nM。靶向 SERPINB2 序列上的 rs6098SNP 的 A 等位基因或 G 等位基因的两个 TaqMan 探 针是 5’ -(FAM)CCACAGGGAATTATTT(MGBNFQ)-3’ 和 5’ -(FAM)CCACAGGGGATTATTT(MGBNFQ)-3 ’ (AppliedBiosystems)。 FAM 是 6- 羧基荧光素, MGBNFQ 是小沟结合非荧光猝灭剂, 并且 FAM 和 MGBNFQ 的使用浓度分别是 300nM 和 500nM。利用 NanoflexTM IFC 控制器 (Fluidigm), 将每个样品 - 试剂混合物分配至 BiomarkTM 12.765 数字阵列上的 765 个反应孔。分配后, 将该阵列置于 BiomarkTM 实时 PCR 系统 (Fluidigm) 中进行热扩增和荧光检测。在 50℃下 开始反应持续 2min, 在 95℃下继续 5min, 然后进行 95℃、 15sec 与 59℃、 1min 的 45 个循环。 扩增后, 计数信息孔的数目 ( 只对 A 等位基因或 G 等位基因是阳性的孔 ) 和对两个等位基 因都是阳性的孔的数目, 并对它们进行序贯概率比检验 (SPRT) 分析。
     对于杂合的整倍体胎儿, A 等位基因和 G 等位基因应当在胎儿基因组中相等地表 现 (1 ∶ 1), 而对于 18 三体性, 将有一个等位基因的额外拷贝, 从而在胎儿基因组中表现出 2 ∶ 1 的比率。对不同样品的解释产生一系列 SPRT 曲线。这些曲线示出了对于分类所需的 给定的信息孔总数 (x 轴 ), 对过度表现的等位基因是阳性的信息孔的预期比例 Pr(y 轴 )。 对于每个样品, 将实验导出的 Pr 与预期的 Pr 值进行比较。 将高于上部曲线的样品分类为 18 三体性, 而将低于底部曲线的样品分类为整倍体。 两个曲线之间的面积是不可分类的区域。
     通过利用 SERPINB2 基因上的 rs6098 SNP 来证明用于检测胎儿 18 三体性的数字 RNA-SNP 分析的可行性。 首先通过质谱对来自具有整倍体胎儿和 18 三体性胎儿的个体的胎 盘组织 DNA 样品进行基因型分型, 以鉴定杂合个例。发现了 9 个整倍体杂合胎盘和 3 个 18 三体性杂合胎盘, 并对它们进行数字 RNA-SNP 分析。对于每个样品, 计算了 Pr 和 mr, 并且将 这个 mr 值的 SPRT 曲线用于疾病分类。如图 16A 所示, 正确地分类了全部样品。18 三体性 胎盘的 Pr 值高于不可分类的区域, 而整倍体胎盘的 Pr 值则低于这个区域。
     具有基于 mr = 0.1、 0.2 和 0.3 的 SPRT 曲线的样品示于图 16B 中。这些数据表明数字 RNA-SNP 方法对 18 三体性妊娠是有价值的诊断工具。两个曲线描绘出不可分类区域 的界限。将数据点高于上部曲线的样品分类为非整倍体, 而将数据点低于底部曲线的样品 分类为整倍体。
     C. 数字 RCD 分析
     本实施例证明了利用基于微流体的数字 PCR 的数字 RCD 分析的效能。作为示例但 不作为限制, 利用 Fluidigm BioMarkTM 系统, 在此处示例了这种方法的一个变体。 这种系统 的每个运行能进行超过 9000 个数字 PCR。
     从怀有整倍体胎儿或 21 三体性 (T21) 胎儿的孕妇获得胎盘组织、 母体血液细胞和 羊水样品。将来个 10 个 T21 个例和 10 个整倍体个例的胎盘 DNA 分别与等量的整倍体母体 血液细胞 DNA 混合, 从而获得 20 个 50%的 DNA 混合物。为了保证该混合物样品中准确的胎 儿比例, 首先通过 260nm 下的光密度 (OD) 测量来定量提取的 DNA。然后利用 12.765 数字阵 列 (Fluidigm), 通过 BioMarkTM 系统 (Fluidigm) 来数字地定量该提取的 DNA。除了只使用 参考染色体的探针以外, 用于定量样品的测定与下文所述的相同。
     通 过 数 字 PCR 对 相 对 于 位 于 染 色 体 1 的 基 因 座 的 非 多 态 性 染 色 体 21 基 因 座 进 行 分 析 来 测 定 50 % 的 DNA 混 合 物 和 羊 水 样 品 中 的 染 色 体 剂 量。 首 先 通 过 正 向 引 物 5’ -GTTGTTCTGCAAAAAACCTTCGA-3’ 和 反 向 引 物 5’ -CTTGGCCAGAAATACTTCATTACC ATAT-3’来 共 扩 增 染 色 体 21 和 染 色 体 1 上 的 一 对 种 内 同 源 基 因 座 的 101-bp 的 扩 增 子。 设 计 了 两 个 染 色 体 特 异 性 TaqMan 探 针 来 区 分 染 色 体 21 和 染 色 体 1 的 种 内 同 源 基 因, 且 探 针 的 序 列 分 别 是 5’ -(FAM)TACCTCCATAATGAGTAAA(MGBNFQ)-3’和 5’ -(VIC) CGTACCTCTGTAATGTGTAA(MGBNFQ)-3’ 。仅作为示例在此处使用种内同源基因座。换言之, 非 种内同源基因座也能够用于这种分析。
     为 了 证 明 数 字 RCD 方 法 用 于 检 测 18 三 体 性 (T18) 的,设 计 了 靶 向 染 色 体 21 和 染 色 体 18 上 的 种 内 同 源 序 列 的 另 一 测 定。 首 先 通 过 正 向 引 物 5’ -GTACAGAAACCACAAACTGATCGG-3’和反向引物 5’ -GTCCAGGCTGTGGGCCT-3’来共扩增染 色体 21 和染色体 18 上的种内同源基因座的 128-bp 的扩增子。设计了两个染色体特异性 TaqMan 探针来区分染色体 21 和染色体 18 的种内同源基因, 且探针的序列分别是 5’ -(FAM) AAGAGGCGAGGCAA(MGBNFQ)-3’ 和 5’ -(VIC)AAGAGGACAGGCAAC(MGBNFQ)-3’ 。仅作为示例在此 处使用种内同源基因座。换言之, 非种内同源基因座也能够用于这种分析。
     利用 12.765 数字阵列 (Fluidigm), 在 BioMarkTM 系统 (Fluidigm) 上进行全部实 验。利用 2X TaqMan Universal PCR Master Mix(AppliedBiosystems) 在 10μL 的反应体 积下进行一个板的反应。 每个反应含有 1X TaqMan Universal PCR Master Mix、 900nM 的每 种引物、 125nM 的每种探针和 3.5μL 的 50%胎盘 / 母体血液细胞 DNA 样品。 通过 NanoFlexTM IFC 控制器 (Fluidigm) 将样品 / 测定混合物加载至数字阵列。在 50 ℃下开始反应持续 2min, 然后 95℃、 10min 以及 95℃、 15s 和 57℃、 1min 的 40 个循环。
     通过染色体 21/ 染色体 1(chr21/chr1) 测定, 在数字阵列上分析整倍体和 T2150% 胎盘 / 母体血液细胞 DNA 样品。对于每个样品, 计数了包括只对染色体 21 标记物或染色体 1 标记物是阳性 ( 但不对这两个标记物都是阳性 ) 的孔的信息孔的数目。确定了在全部信 息孔中过度表现的标记物的比例 (Pr)。将对任一数字 PCR 板的每孔的确切平均参考模板浓 度 (mr) 合适的 SPRT 曲线用于确定实验获得的 Pr 是否表示整倍体样品或 T21 样品。对尚未分类的样品, 从额外的板汇集数据直至能够做出判定。如图 17 所示, 利用这种方法和所需 的 1 个到 4 个板的数据, 正确地分类了全部 50%胎盘 / 母体血液细胞 DNA 样品。如图 18 所 示, 还将 SPRT 曲线作图来显示用于正确分类的判定边界 (decisionboundaries)。
     我们还将 RCD 分析应用于从 23 个怀有整倍体胎儿的妇女和 6 个怀有 T21 胎儿的 妇女获得的羊水样品。使用染色体 21/ 染色体 1 测定, 在单个 765 孔反应板中分析了每个 样品。图 19 显示了 SPRT 分类的汇总。如图 19 所示, 正确地分类了全部 29 个样品。因 此, 数字 RCD 方法是在诸如羊水和绒毛膜绒毛活组织检查的用于产前诊断的多种样品类型 中, 利用微卫星标记物 (Levett LJ, et al.A large-scale evaluation ofamnio-PCR for the rapid prenatal diagnosis of fetal trisomy( 用于胎儿三体性快速产前诊断的羊 膜 PCR 的大规模评价 ).Ultrasound ObstetGynecol 2001 ; 17 : 115-8) 或单核苷酸多态性 (SNP)(Tsui NB, et al.Detection of 21 trisomy by quantitative mass spectrometric analysis ofsingle-nucleotide polymorphisms( 通过单核苷酸多态性的定量质谱分析检 测 21 三体性 ).Clin Chem 2005 ; 51 : 2358-62) 标记物或实时非数字 PCR(Zimmermann B, et al.Novel realtime quantitative PCR test for 21trisomy(21 三体性的新实时定量 PCR 检测 ).Clin Chem 2002 ; 48 : 362-3) 检测三体性的替代方法。 在检测 T18 个例的尝试中, 我们将染色体 21/ 染色体 18(chr21/chr18) 测定应用 于 3 个整倍体胎盘 DNA 样品和 5 个 T18 胎盘 DNA 样品。计算了全部信息孔中过度表现的标 记物的比例 (Pr)。除了一个 T18 个例被错误地分类为整倍体以外, 正确地分类了全部样品。 结果汇总于图 20 中。
     V. 在质谱平台上使用多重数字 RCD 测定
     每单位体积的母体血浆存在的血浆 DNA 分子的数目是有限的 (LoYMD.et al.1998 Am J Hum Genet 62, 768-7758)。例如, 在早期妊娠中, 常染色体基因座, 即 β- 球蛋白基因 的母体血浆浓度中位数被证实是 986 个拷贝 /mL, 这既有来自胎儿的贡献又有来自母亲的 贡献 (LoYMD.et al.1998 Am J Hum Genet 62, 768-7758)。 为了捕获 7,680 个分子, 需要从 约 8mL 母体血浆提取的 DNA。 可以从约 15mL 母体血液获得的这个体积的血浆是常规实践的 极限。 然而, 我们预测对于数字 RCD 分析, 可以组合多组染色体 21 和参考染色体靶标。 对于 5 对染色体 21 和参考染色体靶标, 只需要 1.6mL 的母体血浆来提供分析所需的模板分子的 数目。能够进行多重单分子 PCR。以前已经证明了这种多重单分子分析对于单分子单体型 分析的稳健度 (Ding, C.andCantor, CR.2003 Proc Natl Acad Sci USA 100, 7449-7453)。
     在一实施例中, 从怀有整倍体胎儿或 21 三体性 (T21) 胎儿的孕妇获得胎盘组织和 母体血液细胞样品。将 5 个整倍体胎盘 DNA 样品和 5 个 T21 胎盘 DNA 样品分别与等比例的 母体血液细胞 DNA 混合, 以获得 10 个模拟 50%胎儿 DNA 的血浆样品的 DNA 混合物。为了保 证混合物样品中准确的胎儿比例, 首先通过 260nm 下的光密度 (OD) 测量来定量提取的 DNA。 然后通过 384 孔格式的实时 PCR 对提取的 DNA 进行数字定量。用于定量样品的测定与上文 的数字 RCD 分析的实施例中所述的相同。
     通过相对于位于染色体 1 上的基因座的非多态性染色体 21 基因座的数字 PCR 分 析来确定 50%的混合物中的染色体剂量。这种方法被称为数字相对染色体剂量 (Digital Relative Chromosome Dosage, RCD) 分析。通过正向引物 5’ -ACGTTGGATGGTTGTTCTGCAAA AAACCTTCGA-3’ 和反向引物 5’ -ACGTTGGATGCTTGGCCAGAAATACTTCATTACCATAT-3’ 来共扩增
     染色体 21 和染色体 1 上的一对种内同源基因座的 121-bp 的扩增子 ( 包括每种引物上的 10-mer)。设计了靶向染色体 21 和染色体 1 之间的碱基差异的延伸引物, 该延伸引物的序 列是 5’ -CTCATCCTCACTTCGTACCTC-3’ 。
     为了证明多重数字 PCR 测定检测 T21 个例的用途, 设计了靶向染色体 21 和染色 体 18 上的种内同源序列的另一数字 RCD 测定。通过正向引物 5’ -ACGTTGGATGGTACAGAAAC CACAAACTGATCGG-3’和反向引物 5’ -ACGTTGGATGGTCCAGGCTGTGGGCCT-3’来共扩增染色体 21 和染色体 18 上的种内同源基因座的 148-bp 的扩增子 ( 包括每种引物上的 10-mer)。 设计了靶向染色体 21 和染色体 18 之间的碱基差异的延伸引物, 该延伸引物的序列是 5’ -ACAAAAGGGGGAAGAGG-3’ 。
     利用延伸引物方案来进行多重数字 RCD 分析。利用 GeneAmpPCR Core 试剂盒 (Applied Biosystems) 来进行 PCR 反应, 并且反应体积为 5μL。每个反应含有 1X Buffer II、 2mM 的 MgCl2、 200μM 的 dNTP 混合物、 0.2U 的 AmpliTaq Gold、 4 种引物各 200nM 以及 50% DNA 混合物。 将测定 / 样品混合物分配至 384 孔 PCR 板, 在 50℃下开始反应持续 2min, 然后 95℃进行 10min 以及进行 95℃、 15s 和 57℃、 1min 的 40 个循环。
     将 PCR 产物用虾碱性磷酸酶 (SAP) 处理以除去未并入的 dNTP。 将该混合物在 37℃ 下孵育 40min, 然后在 85℃下孵育 5min。然后进行引物延伸反应。简而言之, 向 SAP 处理的 PCR 产物中添加 771nm 来自染色体 21/ 染色体 1 测定的延伸引物、 1.54μM 来自染色体 21/ 染色体 18 测定的延伸引物、 0.67U 热测序酶 (Thermosequenase)(Sequenom) 以及延伸混合 物 (extension cocktail) 中的 ddCTP、 ddGTP、 dATP 和 dTTP 各 64μM。反应条件是 94℃、 2min, 然后 94℃、 5s, 50℃、 5s 以及 72℃、 5s 进行 80 个循环。向该延伸产物中添加 16μL 水 和 3mg 纯净树脂 (Clean Resin)(Sequenom) 来进行最后的清理。将该混合物在旋转器中混 合 20min 至 30min, 然后在 361g 下离心 5min。 通过 MassARRAY 纳米分配器 (Nanodispenser) S(Sequenom) 将 15nL 至 25nL 终产物分配至 SpectroCHIP 中。在 MassARRAY Analyzer 紧 凑型质谱仪 (MassARRAY Analyzer Compact Mass Spectrometer)(Sequenom) 进行来自 SpectroCHIP 的数据获取。将质谱数据输入 MassARRAYTyper(Sequenom) 软件进行分析。
     用双重 RCD 测定来分析 5 个整倍体和 5 个 T2150%胎盘 / 母体 DNA 样品。对于每 个样品, 计数了来自单独测定的信息孔的数目, 该信息孔包括只对染色体 21 标记物或染色 体 1 标记物或染色体 18 标记物是阳性的孔。对每个 RCD 测定, 单独计算了全部信息孔中染 色体 21 标记物的比例 (Pr)。然后应用序贯概率比检验 (SPRT) 来确定该 Pr 是否表示整倍 体样品或 T21 样品。通过进行这个步骤, 由于将每个板计数了两次, 所以减少了所需的孔的 数目。
     通常首先应用染色体 21/ 染色体 1 测定。如果样品尚未分类, 则加入来自染色体 21/ 染色体 18 测定的值来进行进一步的计算。 , 对尚未分类的样品使用额外的板直至能够 进行判定。如图 21 所示, 利用单个 384 孔板正确地分类了全部整倍体 50%混合物样品。某 些 T21 个例需要 2 个或更多个板来进行正确的分类。如果只使用一个测定, 则需要更多数 目的板来获得实现分类所要求的信息孔的数目。例如, 当只使用任何一个 RCR 测定时, 个例 N0230 的数据是不可分类的。然而, 当合并来自两个测定的数据时, 实现了正确的分类。如 果不使用二重 RCD 测定, 则需要额外板的分析。我们预期更高水平的多重测定将进一步减 少孔的数目。在另一实施例中, 我们开发了靶向染色体 21 上的 4 个不同扩增子以及和它们位于 其它非染色体 21 的常染色体上的对应种内同源伴侣的 4 重 (4-plex) 测定。在数字 RCD 分 析中使用这种 4 重测定, 然后进行来自整倍体妊娠和 21 三体性妊娠的样品的 SPRT 分类。 利 用 QIAamp 组织试剂盒 (Qiagen, Hilden, Germany) 从胎盘样品提取 DNA。
     首先通过 NanoDrop 分光光度计 (NanoDrop Technology, Wilmington, DE) 来定量 本研究中所用的全部胎盘和母体血沉棕黄色层 DNA 样品。利用 6.6pg/ 细胞的换算将 DNA 浓度转换成基因组当量 (GE)/μL。通过将 DNA 样品连续稀释来确定对应于约每孔一个模 板的 DNA 的量。在这种条件下, 我们预期约 37%的孔将表现出阴性扩增。在多重数字 RCD 分析中, 选择了 4 组种内同源序列靶标 : 通过正向引物 5’ -ACGTTGGATGTTGATGAAGTCTCATC TCTACTTCG-3’ 和反向引物 5’ -ACGTTGGATGCAATAAGCTTGGCCAGAAATACT-3’ 来共扩增染色体 21 和染色体 1 上的种内同源基因座, 从而获得 81bp 的扩增子。通过正向引物 5’ -ACGTTG GATGGAATTTAAGCTAAATCAGCCTGAACTG-3’ 和反向引物 5’ -ACGTTGGATGGTTTCTCATAGTTCATCGT AGGCTTAT-3’ 来共扩增染色体 21 和染色体 7 上的种内同源基因座, 从而获得 82bp 的扩增 子。通过正向引物 5’ -ACGTTGGATGTCAGGCAGGGTTCTATGCAG-3’ 和反向引物 5’ -ACGTTGGATG AGGCGGCTTCCTGGCTCTTG-3’ 来共扩增染色体 21 和染色体 2 上的种内同源基因座, 从而获得 101bp 的扩增子。通过正向引物 5’ -ACGTTGGATGGCTCGTCTCAGGCTCGTAGTT-3’和反向引物 5’ -ACGTTGGATGTTTCTTCGAGCCCTTCTTGG-3’ 来共扩增染色体 21 和染色体 6 上的种内同源 基因座, 从而获得 102bp 的扩增子。每个反应含有 10X 缓冲液 II(Applied Biosystems)、 MgCl2 和 100nM 的每种引物。总反应体积是 5μL/ 孔。在 95℃下开始反应持续 5min, 然后 95℃、 30sec, 62℃、 30sec 和 72℃、 30sec 进行 45 个循环, 最后在 72℃下最终延伸 7min。在 GeneAmp PCR 系统 9700(AppliedBiosystems) 上进行全部常规 PCR 扩增。通过虾碱性磷 酸酶 (SAP) 处理来灭活未被并入的核苷酸。每个反应含有 10X SAP 缓冲液 (Sequenom) 和 SAP 酶 (Sequenom)。向每一 PCR 中添加 2μL 的 SAP 混合物。将该 SAP 反应在 37 ℃下孵 育 40min, 以及在 85 ℃下孵育 5min。SAP 处理后, 利用 iPLEX Gold 试剂盒 (Sequenom) 在 PCR 产物上进行引物延伸反应。通过延伸引物 5’ -GTCTCATCTCTACTTCGTACCTC-3’ 来询问 染色体 21 和染色体 1 上的种内同源基因座上的种内同源序列错配 (PSM)。通过延伸引物 5’ -TTTTACGCTGTCCCCATTT-3’ 来询问染色体 21 和染色体 7 上的种内同源基因座上的 PSM。 通过延伸引物 5’ -GGTCTATGCAGGAGCCGAC-3’ 来询问染色体 21 和染色体 2 上的种内同源基 因座上的 PSM。通过延伸引物 5’ -TGGGCGCGGGAGCGGACTTCGCTGG-3’ 来询问染色体 21 和染色 体 6 上的种内同源基因座上的 PSM。除了用于染色体 21 和染色体 6 上的 PSM 的延伸引物是 1.03μM 以外, 每个反应含有 10X iPLEX 缓冲液 (Sequenom)、 iPLEX 终止混合物 (Sequenom)、 iPLEX 酶 (Sequenom) 和 343nM 的每种延伸引物。向 5μL 的 PCR 产物中添加 2μL 的 iPLEX 混合物。根据 200- 短 - 循环程序来循环 iPLEX 反应。简而言之, 将样品首先在 94℃下变性 35sec, 然后在 52℃下退火 5sec, 并在 80℃下延伸 5sec。将退火和延伸循环再重复 4 次, 总 共 5 个循环, 然后返回 94℃的变性步骤保持 5sec, 然后再进行 5 个循环的退火和延伸循环。 将 5 个退火和延伸循环与单次变性步骤重复 39 次, 总共是 40 次。问在 72℃下进行最终延 伸 3min。 然后将每个 PCR 的 iPLEX 反应产物用 16μL 水稀释, 并用 6mg 树脂脱盐。 在分配至 SpectroCHIP(Sequenom) 和基质辅助激光解吸 / 电离飞行时间质谱法 MS 分析 (Sequenom) 前, 将 384 孔板在 1600g 下离心 3min。独立地记录了 4 个测定的每一个的只对染色体 21 是阳性或只对参考染色体是阳 性的孔的数目。对于每个测定, 计算了染色体 21 和参考染色体的分子的泊松 (Poisson) 修 正数目。计算来自全部 4 个测定的染色体 21 的泊松修正分子数目的总和及参考染色体的 泊松修正分子数目的总和, 并将这两个总和视为 4 重测定的信息计数。Pr 值是 4 重测定的 染色体 21 计数除以 4 重测定的染色体 21 计数与参考染色体计数的总和。将实验导出的 Pr 进行 SPRT 分析。分析一个或多个 384 孔板直至通过 SPRT 进行疾病分类是可能的。分析了 总共两个 50%整倍体胎盘基因组 DNA/50%母体血沉棕黄色层 DNA 混合物和两个 50% 21 三 体性胎盘基因组 DNA/50%母体血沉棕黄色层 DNA 混合物。
     将实验导出的 Pr 值与 Pr 的预期值进行比较来检验无效假设或备选假设。可选择 地, 如果给定数目的信息计数的 Pr 仍然未能达到疾病分类的统计学置信度, 则既不接受无 效假设也不接受备选假设。在有更多的可用数据前, 将这些个例视为不可分类的。
     每个样品的结果和 SPRT 分类列于表 22A 和 22B 中。在实现 SPRT 分类前, 两个整 倍体样品需要 2 个和 5 个 384 孔多重数字 RCD 分析。没有来自 4 重测定的单独成员的数据 允许通过 SPRT 进行疾病分类。只通过一个 384 孔多重数字 RCD 分析分别正确地分类了两 个 21 三体性样品。类似地, 没有来自 4 重测定的单独成员的数据允许通过 SPRT 进行疾病 分类。然而, 来自 4 重测定的综合计数允许正确的 SPRT 分类。这些数据表明, 通过使用多 重数字 RCD, 与使用单重 (single-plex) 数字 RCD 测定相比, 对于给定数目的数字 PCR 分析, 信息计数的有效数目明显增加。
     VI. 使用数字外遗传相对染色体剂量
     在 此 处, 我 们 概 述 了 称 为 数 字 外 遗 传 相 对 染 色 体 剂 量 (digitalepigenetic relative chromosome dosage)( 数字 ERCD) 的方法, 其中对在与染色体非整倍性有关的染 色体 ( 例如, 21 三体性中的染色体 21) 和参考染色体上表现出胎儿特异性的 DNA 甲基化方 式或其它外遗传变化的外遗传标记物进行数字 PCR 分析。在从怀有正常胎儿的孕妇提取的 血浆 DNA 中, 对染色体 21 外遗传标记物是阳性的孔的数目与对参考染色体外遗传标记物是 阳性的孔的数目的比率将为我们提供参考范围。如果胎儿具有 21 三体性, 则预期该比率将 增加。对本领域的技术人员显而易见的是, 在这个分析中能够使用多于一个的染色体 21 标 记物和多于一个的参考染色体标记物。
     表现出胎儿 ( 胎盘 ) 特异性甲基化方式的染色体 21 上的基因的一个实例是羧化 全酶合成酶 (HLCS) 基因。 HLCS 在胎盘中是高度甲基化的, 但是在母体血液细胞中是低甲基 化的, 并且被第 11/784499 号美国专利申请所包括, 该申请在此处通过引用的方式被并入。 表现出胎儿 ( 胎盘 ) 特异性甲基化方式的参考染色体上的基因的一个实例是染色体 3 上的 RASSFlA 基因 [10]。 RASSFlA 在胎盘中是高度甲基化的, 但是在母体血液细胞中是低甲基化 的, 参见第 11/784501 号美国专利申请, 该申请在此处通过引用的方式被并入。
     在高度甲基化的 HLCS 和高度甲基化的 RASSFlA 在利用母体血浆来检测胎儿 21 三体性的数字 PCR 的应用中, 首先收集母体外周血液。然后将该血液离心并收集血浆。然 后利用本领域技术人员公知的技术来从该血浆中提取 DNA, 例如使用 QIAamp 血液试剂盒 (Qiagen)。 然后用一种或多种甲基化敏感的限制性内切酶来消化该血浆 DNA, 例如 HpaII 和 BstUI。这些甲基化敏感的限制性内切酶将切割这些基因的母体的未甲基化的形式, 而留 下完整的胎儿高度甲基化的序列。然后将该消化的血浆 DNA 样品稀释至某种程度, 即每个反应孔将检测到平均约 0.2 至 1 个分子的任何一种经限制性内切酶处理但完整的 HLCS 或 RASSFlA 序列。使用两种实时 PCR 系统来扩增稀释的 DNA, 一种系统具有两种引物和一种对 HLCS 基因特异性的 TaqMan 探针, HLCS 基因包含如果序列是未甲基化的, 则被限制性内切酶 切割的区域 ; 另一种系统针对 RASSFlA 基因, 该系统类似地具有两种引物和一种 TaqMan 探 针。对于后一种 RASSFlA 引物 / 探针组, Chan et al.2006, ClinChem 52, 2211-2218 已经 描述了一个实例。针对 HLCS 和 RASSFlA 靶标的 TaqMan 探针具有不同的荧光报道分子, 例 如分别为 FAM 和 VIC。然后使用 384 孔板来进行数字 PCR 实验。计数只对 HLCS 是阳性的孔 的数目和只对 RASSFlA 是阳性的孔的数目, 并计算这些计数的比率。与怀有正常的整倍体 胎儿的孕妇相比, 预期取自怀有 21 三体性胎儿的孕妇的母体血浆的 HLCS ∶ RASSFlA 比率 将更高。过度表现的程度将取决于数字 PCR 运行中每孔的平均参考模板浓度。
     评分这些结果的其它方法将是可能的, 例如, 计数对 HLCS 是阳性的孔的数目, 而 不论同时存在的对 RASSFlA 的阳性 ; 反之对 RASSFlA 也是这样, 而不论同时存在的对 HLCS 的阳性。而且, 代替计算比率, HLCS 和 RASSFlA 计数的总数或差异能够用于表示胎儿的 21 三体性状态。
     除了在板中进行数字 PCR 以外, 对本领域技术人员显而易见的是, 能够使用数字 PCR 的其它变体, 例如, 微流体芯片、 纳升 PCR 微板系统、 乳液 PCR、 polony PCR 和滚动循环 扩增、 引物延伸以及质谱等。作为示例而不作为限制来描述这些数字 PCR 的变体。
     除了实时 PCR 以外, 对本领域技术人员还显而易见的是, 诸如质谱的方法能够用 于评分数字 PCR 的结果。
     除了利用甲基化敏感性限制性内切酶来区分 HLCS 和 RASSFlA 的胎儿与母体形式 以外, 对本领域技术人员显而易见的是, 确定甲基化状态的其它方法也是可用的, 例如, 亚 硫酸氢盐修饰、 甲基化特异性 PCR、 利用甲基化的胞嘧啶的抗体的免疫沉淀、 质谱等。
     对本领域技术人员还显而易见的是, 本实施例和本专利申请中的其它实施例中所 示的方法能够用于可以发现胎儿 DNA 的其它体液, 包括母体尿、 羊水、 宫颈灌洗、 绒毛膜绒 毛、 母体唾液等。
     VII. 利用乳液 PCR 和其它策略的大规模平行基因组测序
     此处, 我们将描述能够将核酸分子的数字读取用于检测母体血浆中的诸如 21 三 体性的胎儿染色体非整倍性的另一实施例。 胎儿染色体非整倍性由染色体或染色体区域的 异常剂量导致。 无创检测具有高灵敏度和特异性以将误诊降至最低是理想的。 然而, 在母体 血浆和血清中, 胎儿 DNA 以低的绝对浓度存在, 并表现出全部 DNA 序列的一小部分。因此, 靶向具体基因座的数字 PCR 取样的数目不能在相同的生物样品中无限地增加。因此, 多组 具体靶基因座的分析可以用于增加从样品中获得的数据的量, 而不增加进行的数字 PCR 取 样的数目。
     因此, 实施方案允许通过将遗传信息的量最大化来进行胎儿染色体非整倍性的无 创检测, 所述遗传信息能够从在含有母体背景核酸的生物样品中以小群体存在的有限量的 胎儿核酸推断出。在一方面, 获得的遗传信息的量足以进行准确的诊断, 但是不过度地过 量, 从而控制所需的输入生物样品的成本和量。
     诸如可在 454 平台 (Roche)(Margulies, M. et al.2005 Nature 437, 376-380)、 Illumina 基 因 组 分 析 仪 ( 或 Solexa 平 台 ) 或 SOLiD 系 统 (AppliedBiosystems) 或Helicos True 单 分 子 DNA 测 序 技 术 (Harris TD et al.2008Science, 320, 106-109)、 TM Pacific Biosciences 的单分子实时 (SMRT ) 技术以及纳米孔测序 (Soni GV and Meller A.2007 Clin Chem 53 : 1996-2001) 上实现的大规模平行测序允许在平行模式下, 以高阶的 倍增来测序分离自样品的许多核酸分子 (Dear Brief Funct GenomicProteomic 2003 ; 1: 397-416)。这些平台的每个测序了克隆扩增的或者甚至未扩增的单分子核酸片段。
     由于在每个运行中, 从每个样品产生了十万至百万或者甚至可能亿至十亿级的大 量测序读数, 得到的测序的读数形成了原始样品中核酸种类的混合物的代表性谱。例如, 测序读数的单元型、 转录物组、 甲基化谱与原始样品的那些 (Brenner et al.Nat Biotech 2000 ; 18 : 630-634 ; Taylor et al.Cancer Res 2007 ; 67 : 8511-8518) 类似。由于每个样品 的序列的大量取样, 相同序列的数目, 诸如以几倍的覆盖率或高冗余度从核酸池的测序产 生的那些, 也是原始样品中特定核酸种类或基因座的计数的好的定量表现方式。
     在一实施方案中, 对存在于孕妇血浆中的 DNA 片段进行随机测序, 并获得最初来 自胎儿或母亲的基因组序列。 随机测序包括存在于生物样品中的核酸分子的随机部分的取 样 ( 测序 )。由于测序是随机的, 所以可以在每个分析中测序核酸分子的不同子集 ( 部分 ) ( 并且因此基因组 )。甚至当这个子集随样品变化和随分析变化时, 这甚至可以在使用相同 的样品时发生, 实施方案也起作用。该部分的实例是基因组的约 0.1%、 0.5%或 1%。在其 它实施方案中, 所述部分是这些值的至少任意一个。
     然后可以用生物信息学方法将这些 DNA 序列的每一个定位于人基因组上。可能 地, 将从随后的分析中排除这些序列的比例, 因为它们存在于人基因组的重复区域中, 或存 在于发生了个体间变异 (inter-individual variation) 的区域中, 例如拷贝数变异。 因此, 可以测定感兴趣的染色体的量和一个或多个其它染色体的量。
     在一实施方案中, 则能够由生物信息学方法的结果来计算潜在地涉及诸如染色体 21 或染色体 18 或染色体 13 的染色体非整倍性的染色体参数 ( 例如, 部分表现 (fractional representation))。可以基于全部序列 ( 例如, 全部染色体的某些测量 ) 或染色体的特定 子集 ( 例如, 除了被检测的染色体之外的仅一个其它染色体 ) 的量来获得部分表现。
     然后将该部分表现与在涉及正常 ( 即, 整倍体 ) 胎儿的妊娠中建立的参考范围进 行比较。可能地, 在所述方法某些变体中, 根据特定的母体血浆样本中的胎儿 DNA 的部分浓 度 (f) 来调整该参考范围。能够从测序数据集来确定 f 的值, 例如, 如果胎儿是男性, 则使 用可被定位到 Y 染色体的序列。还可以在单独的分析中确定 f 的值, 例如, 使用胎儿外遗传 标记物 (Chan KCA et al.2006 Clin Chem 52, 2211-8) 的分析或通过单核苷酸多态性的分 析。
     在一方面, 甚至当样品中的核酸池以小于 100%的基因组覆盖率进行测序, 并且捕 获的核酸分子的比例中, 大部分的每个核酸种类只测序了一次时, 也能够定量地确定特定 基因座或染色体的剂量失衡。换言之, 从所述基因座在样品的全部可被定位的 (mappable) 测序的标签中的表现百分比来推断该基因座或染色体的剂量失衡。
     在大规模平行基因组测序方法的一方面, 可以同时生成全部染色体的代表性数 据。不提前选择特定片段的来源。随机地进行测序, 然后进行数据库检索来发现特定片段 的出处。这与扩增来自染色体 21 的一个具体片段和来自染色体 1 的另一具体片段的情况 形成对比。在一实施例中, 这种序列的比例将来自与非整倍性有关的染色体, 例如示例性实 施例中的染色体 21。这种测序应用的其它的序列将源自其它染色体。考虑到染色体 21 与 其它染色体的相对大小, 能够获得来自这种测序应用的染色体 21 特异性序列的参考范围 内的标准化频率 (normalized frequency)。 如果胎儿具有 21 三体性, 则来自这种测序应用 的源自染色体 21 的序列的标准化频率将增加, 从而能够检测出 21 三体性。标准化化频率 的变化程度将取决于分析的样品中胎儿核酸的部分浓度。
     在一实施方案中, 我们使用了用于人基因组 DNA 样品和人血浆 DNA 样品的单末端 测序的 Illumina 基因组分析仪。该 Illumina 基因组分析仪测序了被捕捉在称为流动池 (flow cell) 的固体表面的克隆扩增的单个 DNA 分子。每个流动池具有用于测序 8 个单独 样品或样品池的 8 条道。每条道能够生成约 200Mb 的序列, 这只是人基因组序列的 30 亿个 碱基对的一部分。利用流动池的一条道来测序每个基因组 DNA 样品或血浆 DNA 样品。将生 成的短序列标签与人参考基因组进行比对, 并且记录染色体来源。将与每条染色体比对的 单独测序的标签的总数列成表, 并将其与预期来自参考人基因组或非疾病代表性样品的每 条染色体的相对大小进行比较。然后鉴定了染色体增加或减少。
     所述方法只是目前描述的基因 / 染色体剂量策略的一个示例。可选择地, 能够进 行配对末端测序。 不是如 Campbell 等人所述 (Nat Genet2008 ; 40 : 722-729) 将测序的片段 长度与参考基因组中预期的片段长度进行比较, 而是根据染色体位置计数和分类比对的测 序的标签的数目。 通过将标签计数与参考基因组中的预期染色体大小或与非疾病代表性样 品中的预期染色体大小进行比较来确定染色体区域或完整染色体的增加或减少。 在另一实施方案中, 将运行中测序的核酸池部分进行另外的子选择 (subselect), 然后进行测序。例如, 能够将诸如寡核苷酸阵列的基于杂交的技术用于首先从某些染色 体对核酸序列进行子选择, 例如, 潜在的非整倍体染色体和与检测的非整倍性无关的其它 染色体。另一实例是, 在测序前, 将来自样品池的核酸序列的某些亚群进行子选择或富集。 例如, 据报道母体血浆中的胎儿 DNA 分子由比母体背景 DNA 分子短的片段组成 (Chan et al.Clin Chem 2004 ; 50 : 88-92)。因此, 根据分子大小, 可以使用对本领域技术人员公知的 一种或多种方法来将样品中的核酸序列分级, 例如, 通过凝胶电泳或尺寸排除柱, 或者通过 基于微流体的方法。仍然, 可选择地, 在分析母体血浆中无细胞胎儿 DNA 的实例中, 能够通 过抑制母体背景的方法来富集胎儿核酸部分, 例如, 通过添加甲醛 (Dhallan et al.JAMA 2004 ; 291 : 1114-9)。
     能 够 在 这 种 应 用 中 类 似 地 使 用 其 它 单 分 子 测 序 策 略, 例 如, Roche454 平 台、 Applied Biosystems SOLiD 平 台、 Helicos True 单 分 子 DNA 测 序 技 术、 Pacific TM Biosciences 的单分子实时 (SMRT ) 技术以及纳米孔测序。
     可以在同时提交的申请 “DIAGNOSING FETALCHROMOSOMAL ANEUPLOIDY USING GENOMIC SEQUENCING( 利用基因组测序来诊断胎儿染色体非整倍性 )” 中找到结果的实例和 进一步的讨论 ( 例如, 对于测序和计算参数 )( 代理公司案卷号 016285-005220US), 该申请 通过引用的方式被并入。 注意, 当反应是例如本部分所述的测序时, 可以实施用于确定截止 值的本文所述的方法。
     还能够与测序运行分开地进行母体血浆中胎儿 DNA 的部分浓度的确定。例如, 能 够利用实时 PCR、 微流体 PCR 或质谱来预确定 Y 染色体 DNA 浓度。实际上, 能够利用 Y 染色
     体以外的基因座来测定胎儿 DNA 浓度, 并且适用于女性胎儿。例如, Chan 等人表明源自胎 儿的甲基化的 RASSFlA 序列会在源自母体的未甲基化的 RASSFlA 序列的背景下的孕妇血浆 中检测出 (Chan et al.Clin Chem2006 ; 52 : 2211-8)。因此, 能够通过用甲基化的 RASSFlA 序列的量除以总 RASSFlA( 甲基化的和未甲基化的 ) 序列的量来确定部分胎儿 DNA 浓度。
     对于实施我们的发明, 预期母体血浆比母体血清优选, 因为在血液凝固中, 从母体 血液细胞中释放了 DNA。因此, 如果使用血清, 预期母体血浆中的胎儿 DNA 的部分浓度将低 于母体血清中的浓度。换言之, 如果使用母体血清, 与同时从相同孕妇获得的血浆样品相 比, 预期将需要生成更多的序列来诊断胎儿染色体非整倍性。
     测定胎儿 DNA 的部分浓度的仍然另一替代方法是通过孕妇与胎儿之间的多态性 差异的定量 (Dhallan R, et al.2007 Lancet, 369, 474-481)。这种方法的实例是靶向孕妇 是纯合而胎儿是杂合的多态性位点。 能够将胎儿特异性等位基因的量与共同等位基因的量 进行比较以确定胎儿 DNA 的部分浓度。
     与检测染色体畸变的现有技术相比, 大规模平行测序不依赖于预定或预定义的组 的 DNA 序列的检测或分析, 所述现有技术包括比较基因组杂交、 微阵列比较基因组杂交、 检 测并定量一种或多种特异性序列的定量实时聚合酶链式反应, 。测序了来自样品池的 DNA 分子的随机代表性部分。在含有或不含有肿瘤 DNA 的样品之间比较与各种染色体区域比对 的不同序列标签的数目。通过与样品中任何给定的染色体区域比对的序列的数目 ( 或百分 比 ) 的差异来揭示染色体畸变。
     在另一实施例中, 可以使用血浆无细胞 DNA 的测序技术来检测血浆 DNA 中的染色 体畸变, 以检测具体的癌症。 不同的癌症具有一组典型的染色体畸变。 可以使用多个染色体 区域的变化 ( 扩增和缺失 )。因此, 将有增加比例的与扩增区域比对的序列, 和降低比例的 与减少的区域比对的序列。 能够将每条染色体的百分比表现与表示为相对于全基因组的任 何给定的染色体的基因组表现的百分比的参考基因组中每条对应染色体的大小进行比较。 还可以使用与参考染色体的直接比较或比较。
     VIII. 突变检测
     母体血浆中的胎儿 DNA 以较小的群体存在, 并且母体血浆 DNA 由胎儿贡献的平均 为 3%至 6%。由于这一原因, 本领域中以前的大部分工作集中于检测胎儿从父亲遗传的 DNA 靶标, 其可以与母体血浆中的占多数的母体 DNA 背景区分开。 这种以前检测的靶标的实 例包括 Y 染色体上的 SRF 基因 (Lo YMD et al.1998 Am J Hum Genet, 62, 768-775) 和当母 亲是 RhD 阴性时的 RHD 基因 (Lo YMD et al.1998 NEngl J Med, 339, 1734-1738)。
     对于胎儿突变检测, 利用母体血浆的以前的策略局限于父亲是携带者的常染色体 显性状态, 当父亲和母亲携带不同的突变时, 通过直接突变检测来排除常染色体隐性疾病, 或者通过连锁分析来排除常染色体隐性疾病 (Ding C.et al.2004 Proc Natl Acad Sci USA 101, 10762-10767)。这些以前的策略具有明显的局限性。例如, 对于雄性和雌性配偶 都携带相同突变的情况, 则不可能通过母体血浆中的直接突变检测来进行有意义的产前诊 断。
     这种情境示于图 23 中。在该情境中, 有 3 个可能的胎儿基因型 : NN、 NM 和 MM, 其 中 N 表示正常等位基因, M 表示突变体等位基因。 突变体等位基因的实例包括那些导致囊性 纤维化、 β- 地中海贫血症、 α- 地中海贫血症、 镰形细胞贫血、 脊髓型肌萎缩、 先天性肾上腺增生等的突变体等位基因。能够在在线人类孟德尔遗传 (OMIM)www.ncbi.nlm.nih.gov/ sites/entrez ? db = OMIM&itool = toolbar 找到这些病症的其它实例。在母体血浆中, 大部分 DNA 来自母亲, 并且是 NM 的。对于 3 种胎儿基因型的任一种, 将不会有允许在母体 血浆中被独特地检测出的任何独特的胎儿等位基因。因此, 不能在此处应用常规策略。
     本文所述的实施方案允许处理这种情境。在母亲和胎儿都是 NM 的情境下, N 等位 基因和 M 等位基因将是等位基因平衡的。然而, 如果母亲是 NM 而胎儿是 NN, 则将在母体血 浆中有等位基因失衡, 并且 N 等位基因是过度表现的。在另一方面, 如果母亲是 NM 而胎儿 是 MM, 则将在母体血浆中有等位基因失衡, 并且 M 等位基因是过度表现的。因此, 对于胎儿 突变检测, 无效假设指当胎儿的基因型是 NM 时, 没有等位基因失衡。备选假设指存在等位 基因失衡, 并且取决于 N 等位基因或 M 等位基因是否是过度表现的, 胎儿的基因型能够是 NN 或 MM。
     能够通过利用本文所述的实施方案的数字 PCR 来确定存在或不存在等位基因失 衡。在第一种情境下, 特定体积的母体血浆含有从 100 个细胞释放的 DNA, 其中 50 个细胞 来自母亲, 50 个细胞来自胎儿。因此, 在这个体积的血浆中的胎儿 DNA 的部分浓度是 50%。 当母亲的基因型是 NM 时, 则母亲将贡献 50 个 N 等位基因和 50 个 M 等位基因。如果胎儿的 基因型是 NM, 则胎儿将贡献 50 个 N 等位基因和 50 个 M 等位基因。因此, N 等位基因和 M 等 位基因之间没有等位基因失衡, 并且每个等位基因总共各 100 个拷贝。在另一方面, 如果胎 儿的基因型是 NN, 则在这个体积的血浆中将有 100 个源自胎儿的 N 等位基因。因此, 总共 有 150 个 N 等位基因和 50 个 M 等位基因。换言之, 在 N 与 M 之间存在等位基因失衡, 并且 N 是过度表现的, N 与 M 的比率为 3 ∶ 1。
     在相反的情况下, 如果胎儿的基因型是 MM, 则在这个体积的血浆中将有 100 个源 自胎儿的 M 等位基因。因此, 将有 150 个 M 等位基因和 50 个 N 等位基因。换言之, 在N等 位基因与 M 等位基因之间存在等位基因失衡, 并且 M 是过度表现的, M 与 N 的比率是 3 ∶ 1。 能够通过数字 PCR 来测量这种等位基因失衡。将具有较少数目的阳性孔的等位基因视为参 考模板。与数字 RNA-SNP 和数字 RCD 分析类似, 数字 PCR 实验中等位基因的实际分布将受 泊松概率密度函数控制。因此, 由于本情境中等位基因失衡的理论程度是 3 ∶ 1, 所以等位 基因失衡的预期程度将取决于数字 PCR 分析中每孔的平均模板浓度。因此, 需要将对每孔 的平均参考模板浓度 (mr) 适合的诸如用于 SPRT 分析的解释截止值用于对个例进行分类。
     而且, 需要测量的等位基因失衡的程度取决于部分胎儿 DNA 浓度。与上文的实施 例对比, 让我们考虑含有从 100 个细胞中释放的 DNA 的特定体积的母体血浆, 其中 90 个细 胞来自母亲而 10 个细胞来自胎儿。 因此, 这个体积的血浆中的胎儿 DNA 的部分浓度是 10%。 当母亲的基因型是 NM 时, 则母亲将贡献 90 个 N 等位基因和 90 个 M 等位基因。如果胎儿的 基因型是 NM, 则胎儿将贡献 10 个 N 等位基因和 10 个 M 等位基因。因此, 在 N 等位基因与 M 等位基因之间不存在等位基因失衡, 并且每个等位基因总共各 100 个拷贝。在另一方面, 如 果胎儿的基因型是 NN, 则在这个体积的血浆中将有 20 个源自胎儿的 N 等位基因。因此, 总 共有 110 个 N 等位基因和 90 个 M 等位基因。
     换言之, N 等位基因与 M 等位基因之间存在等位基因失衡, 并且 N 等位基因是过度 表现的。在相反的情况下, 如果胎儿的基因是 MM, 则在这个体积的血浆中将有 20 个源自胎 儿的 M 等位基因。因此, 将有 110 个 M 等位基因和 90 个 N 等位基因。换言之, N 等位基因与 M 等位基因之间存在等位基因失衡, 并且 M 是过度表现的。当胎儿 DNA 部分浓度是 10% 时, 等位基因失衡的理论程度是 110 ∶ 90, 这不同于上文的实施例所示的, 有 50%的胎儿 DNA 时的比率 3 ∶ 1。因此, 需要将对胎儿 DNA 部分浓度适合的解释截止值用于对个例进行 分类, 例如, 用于 SPRT 分析的解释截止值。
     因此, 提取血浆 DNA。 定量血浆样品中母体 DNA 和胎儿 DNA 的量, 例如, 通过以前建 立的实时 PCR 测定 (Lo, et al.1998 Am J HumGenet 62, 768-775) 或对本领域技术人员公 知的其它类型的量标 (quantifier), 例如 SNP 标记物 (Dhallan R et al.2007 Lancet, 369, 474-481) 和胎儿外遗传标记物 (Chan KCA et al.2006 Clin Chem, 52, 2211-2218)。将计 算胎儿 DNA 百分比。然后制备定量的血浆 DNA 样品 ( 例如, 稀释的或浓缩的 ), 从而在数字 PCR 分析中, 每个反应孔平均含有 1 个模板分子 ( 能够是 N 等位基因或 M 等位基因 )。利用 一对引物加两个 TaqMan 探针来进行数字 PCR 分析, 其中一个 TaqMan 探针对 N 等位基因是 特异性的, 而另一个 TaqMan 探针对 M 等位基因是特异性的。计数只对 M 等位基因是阳性的 孔的数目和只对 N 等位基因是阳性的孔的数目。将这些孔的比率用于确定是否有等位基因 失衡的证据。能够通过对本领域技术人员公知的方法来寻找等位基因失衡的统计证据, 例 如利用 SPRT。在该分析的一个变体中, 还可能计数只对 M 等位基因是阳性的孔的数目或对 M 等位基因和 N 等位基因是阳性的孔的数目 ; 并计数只对 N 等位基因是阳性的孔的数目或 对 M 等位基因和 N 等位基因是阳性的孔的数目, 并导出这些计数的比率。再次地, 能够通过 对本领域技术人员公知的方法来寻找等位基因失衡的统计证据, 例如利用 SPRT。
     利用雌性 / 雄性 (XX/XY)DNA 混合物来验证称为数字相对突变体剂量 (RMD) 的胎 儿基因突变的剂量测定。 如图 24A 所示, 将来自雄性和雌性的血液细胞 DNA 分别与雄性 DNA 混合, 从而分别在部分浓度为 25%和 50%时获得 XY 的背景下的 XX 基因型或 XY 基因型的 样品, 部分浓度分别为 25%和 50%的。
     另外, 还从 12 个雄性个体和 12 个雌性个体获得血液细胞样品。将雌性血液细胞 DNA( 基因型 XX) 分别与 3 倍的过量雄性血液细胞 DNA( 基因型 XY) 混合, 从而获得 75% XY 基因型的 DNA 背景下的 25% XX 基因型的 DNA 的 12 个 DNA 混合物, 并且结果示于图 24B 中。
     SPRT 的目的在于确定背景 DNA 中存在的少数基因型。在 75%的 XY DNA 的背景下 的 25%的 XX DNA 的 DNA 混合物中, 少数等位基因是源自 75%的 DNA 的 Y。由于该样品中 25%的 DNA 的基因型是 XX, 因此如果在该样品中共有 200 个分子的 DNA, 则 150 个分子将源 自 XY 个体。因此, 预期 Y 等位基因的数目是 75。雄性部分 DNA( 基因型 XY) 贡献的 X 等位 基因的数目也是 75。雌性 ( 基因型 XX) 贡献的 X 等位基因的数目是 50(2 乘以 25)。因此, X 比 Y 的比率是 125/75 = (1+25% )/(1-25% ) = 5/3。
     对于这个研究的第二部分, 从在 β- 球蛋白基因, 即血红蛋白, β(HBB) 基因上携 带 HbE(G → A) 和 CD41/42(CTTT/-) 突变的雄性和雌性个体获得血液细胞样品。 为了模拟从 怀有具有全部可能的基因型 (MM、 MN 或 NN) 的雄性胎儿的杂合母亲 (MN, 其中 M =突变体并 且 N =野生型 ) 获得的母体血浆样品, 将来自对野生型等位基因是纯合 (NN), 或对两个突变 中的一个是杂合 (MN) 的雄性的血液细胞 DNA 分别与从对相同的突变是杂合 (MN) 的雌性收 集的血液细胞 DNA 样品混合。从而获得各种部分雄性 / 突变体 DNA 浓度的 DNA 混合物。还 将来自对 CD41/42 缺失是纯合 (MM) 的雌性的血液细胞 DNA 样品用于制备 DNA 混合物。为 了保证用于 SPRT 分类的准确雄性比例, 利用 ZFY/X 测定来确定每种 DNA 混合物的部分雄性DNA 浓度。
     将数字 ZFY/X 测定用于验证 SPRT, 以及用于确定 DNA 混合物中部分雄性 DNA 浓度。 通过数字 PCR 分析来测定染色体 X(ZFX) 和染色体 Y(ZFY) 上的锌指蛋白序列的剂量。首先 通过正向引物 5’ -CAAGTGCTGGACTCAGATGTAACTG-3’ 和反向引物 5’ -TGAAGTAATGTCAGAAGCTA AAACATCA-3’ 来共扩增 ZFX 基因座和 ZFY 基因座的 87-bp 的扩增子。 设计了两个染色体特异 性 TaqMan 探针来区分染色体 X 和染色体 Y 种内同源基因, 且探针的序列分别是 5’ -(VIC) TCTTTAGCACATTGCA(MGBNFQ)-3’ 和 5’ -(FAM)TCTTTACCACACTGCAC(MGBNFQ)-3’ 。
     通过正常等位基因相对于突变体等位基因的数字 PCR 分析来确定 DNA 混合物中的 突变体剂量。对于 HbE 突变, 首先通过正向引物 5’ -GGGCAAGGTGAACGTGGAT-3’ 和反向引物 5 ’ -CTATTGGTCTCCTTAAACCTGTCTTGTAA-3’ 来共扩增正常等位基因和突变体等位基因的 87-bp 的扩增子。设计了两个等位基因特异性 TaqMan 探针来区分正常 (G) 等位基因和突变体 (A) 等位基因, 且探针的序列分别是 5′’ -(VIC)TTGGTGGTGAGGCC(MGBNFQ)-3’ 和 5’ -(FAM) TTGGTGGTAAGGCC(MGBNFQ)-3’ 。HbE 突变的结果示于图 25 中。
     对 于 CD41/42 缺 失 突 变, 首 先 通 过 正 向 引 物 5’ -TTTTCCCACCCTTAGGCTGC-3’和 反向引物 5’ -ACAGCATCAGGAGTGGACAGATC-3’来分别共扩增正常等位基因和突变体等位 基因的 87-bp 和 83-bp 的扩增子。设计了两个等位基因特异性 TaqMan 探针来区分正 常 ( 无缺失 ) 等位基因和突变体 ( 有缺失 ) 等位基因, 且探针的序列分别是 5’ -(VIC) CAGAGGTTCTTTGAGTCCT(MGBNFQ)-3’和 5’ -(FAM)AGAGGTTGAGTCCTT(MGBNFQ)-3’ 。HbE 突变 的结果示于图 26A 和 26B 中。
     利用 12.765 数字阵列 (Fluidigm), 在 BioMarkTM 系统 (Fluidigm) 上进行这些实 验。 利用 2X TaqMan Universal PCR Master Mix(AppliedBiosystems) 进行一个板的反应, 并且反应体积是 10μL。对于 CD41/42 和 ZFY/X 测定, 每个反应含有 1X TaqMan Universal PCR Master Mix、 900nM 的每种引物、 125nM 的每种探针和 3.5μL 1ng/μL 的 DNA 混合物。 对于 HbE 测定, 添加分别靶向正常 (G) 等位基因和突变体 (A) 等位基因的 250nM 和 125nM 的探针。通过 NanoFlexTM IFC 控制器 (Fluidigm) 将样品 / 测定混合物加载至数字阵列。 在用于信号检测的 BioMarkTM 系统上进行反应。在 50℃下开始反应持续 2min, 然后 95℃、 10min, 以及 95℃、 15s 和 57℃ ( 对于 ZFY/X 和 CD41/42) 或 56℃ ( 对 HbE)、 1min 的进行 50 个循环。每一个例至少使用一个反应板, 对尚未可分类的样品从额外的板汇集数据直至能 够做出判定。
     对本领域技术人员还显而易见的是, 能够利用对本领域技术人员公知的方法来进 行数字 PCR, 例如, 微流体芯片、 纳升 PCR 微板系统、 乳液 PCR、 polony PCR 和滚动循环扩增、 引物延伸以及质谱。
     IX. 癌症的实施例
     在一实施方案中, 可以进行本发明来将样品分类为具有或不具有在肿瘤中可能发 生的等位基因比率偏移。在一方面, 对于每一个例, 通过数字 PCR 来确定只对 A 等位基因、 只对 G 等位基因和对两个等位基因都是阳性信号的孔的数目。参考等位基因定义为具有较 少数目阳性孔的等位基因。 ( 在不大可能的情况下, 即两个等位基因都具有相同数目的阳性 孔, 则任何一个等位基因都能够用作参考等位基因 )。根据泊松概率密度函数, 利用对参考 等位基因是阴性的孔的数目来计算每孔的参考等位基因的推断的平均浓度 (mr), 而不论其它等位基因是否是阳性的。我们使用假设的实例来对计算进行说明。
     在 96 孔反应中, 20 个孔对 A 等位基因是阳性的, 24 个孔对 G 等位基因是阳性的, 并且 28 个孔对两个等位基因都是阳性的。将 A 等位基因视为参考等位基因, 因为对这个等 位基因是阳性的孔较少。对参考等位基因是阴性的孔的数目是 96-20-28 = 48。因此, 能够 利用泊松分布来计算 mr, 并且 mr 是 -ln(48/96) = 0.693。
     在 LOH 检测的情况下, 无效假设指假定没有由存在一个等位基因缺失导致的等位 基因比率偏移的样品。在这个假定下, 两个等位基因的阳性孔数目的预期比率将是 1 ∶ 1, 因此, 含有潜在地过度表现的等位基因的信息孔 ( 只对一个等位基因是阳性的孔 ) 的预期 比例将是 0.5。
     在 LOH 检测的情况下, 备选假设指假定具有由样品的 50%的细胞中存在一个等位 基因缺失而导致的等位基因比率偏移的样品。 由于过度表现的等位基因与参考等位基因之 间的等位基因比率是 2 ∶ 1, 所以每孔过度表现的等位基因的平均浓度将是参考等位基因 的平均浓度的 2 倍。然而, 对该过度表现的等位基因是阳性的孔的数目并不简单地是对该 参考等位基因是阳性的孔的数目的 2 倍, 而是服从泊松分布。
     信息孔被定为对 A 或 G 等位基因是阳性的, 但对 A 和 G 不都是阳性的孔。对于具 有等位基因比率偏移的样品, 含有过度表现的等位基因的孔的数目的预期比例的计算与表 600 所示的相同。在上文的实施例中, 如果在 50%的肿瘤细胞中存在 LOH, 则每孔的 G 等位 基因的平均浓度将是 2×0.693 = 1.386。如果在多于 50%的肿瘤细胞中存在 LOH, 则每孔 的 G 等位基因的平均浓度将根据下述公式来计算 : 1/[1-(LOH 的比例 )]×mr。 对 G 等位基因是阳性的孔的预期比例将是 1-e-1.386 = 0.75( 即 75%或 72 个孔 )。 假定对于 A 等位基因或 G 等位基因, 孔的阳性是独立的, 则 0.5×0.75 = 0.375 的孔将对 A 等位基因和 G 等位基因都是阳性的。因此, 0.5-0.375 = 0.125 的孔只对 A 等位基因是 阳性的, 而 0.75-0.375 = 0.375 的孔只对 G 等位基因是阳性的。因此, 信息孔的比例是 0.125+0.375 = 0.5。携带 G 等位基因的信息孔的预期比例是 0.375/0.5 = 0.75。然后将 Pr 的这个预期值用于构建合适的 SPRT 曲线来确定样品中是否存在等位基因比率偏移 ( 即, 这种情况下的 LOH)。
     然后将通过数字 PCR 分析实验确定的携带非参考等位基因的信息孔的实际比例 用于确定是否接受无效假设或备选假设, 或者确定是否需要更多孔的进一步分析。基于 阀值似然比率 8 来计算接受无效假设或备选假设的 Pr 的判定边界, 因为这个值已经被证 实在癌症检测的情况下提供了鉴别具有或不具有等位基因失衡的样品的令人满意的性能 78-81 ; Zhou et al.2002, 见上文 )。在上文的 (Zhou, W, et al.(2001)Nat Biotechnol 19, 实施例中, 信息孔的数目是 20+24 = 44, 而实验获得的 Pr 是 24/44 = 0.5455。接受无效假 设的判定边界是≤ 0.5879 而接受备选假设的判定边界是≥ 0.6739。 因此, 将这个实施例中 的样品分类为不具有等位基因比率偏移。
     综上所述, 我们描述了在样品中检测序列失衡的方法。在一实施方案中, 本发明 能够通过分析母体血浆中的胎儿核酸用于诸如 21 三体性的胎儿染色体非整倍性的无创检 测。这种方法还能够应用于其它含有胎儿核酸的生物材料, 包括羊水、 绒毛膜绒毛样品、 母 体尿、 宫颈样品、 母体唾液等。首先, 我们证明了本发明在怀有 21 三体性胎儿的妇女的母体 血浆中, 用于确定 PLAC4 mRNA 即染色体 21 上的胎盘表达的转录物上的 SNP 的等位基因失
     衡的用途。其次, 我们证明, 通过相对染色体剂量 (RCD) 分析, 我们的发明能够用作用于 21 三体性的无创产前检测的基于非多态性的方法。这种基于数字 RCD 的方法包括直接评价含 有胎儿 DNA 样品中的染色体 21 的总拷贝数相对于参考染色体是否是过度表达的。甚至不 需要复杂的仪器, 数字 RCD 允许在含有 25%胎儿 DNA 的样品中检测 21 三体性。我们应用序 贯概率比检验 (SPRT) 来解释数字 PCR 数据。计算机模拟分析证实了疾病分类算法的高准 确性。
     我们还描述了能够用于确定染色体非整倍性以外的其它形式的核酸序列失衡的 方法, 例如, 用于胎儿突变检测的方法, 或用于母体血浆中多态性检测的方法, 以及通过血 浆中源自肿瘤的核酸的分析来检测恶性肿瘤细胞基因组中的区域增加或减少的方法。
     本申请中所述的任何软件组分或函数可以作为通过使用任何合适的计算机语言 的处理器运行的软件代码来执行, 所述计算机语言诸如例如 Java、 C++ 或使用例如常规或 面向对象技术的 Per1。 所述软件代码可以保存为用于储存和 / 或传送的计算机可读取的介 质上的一系列的指令或命令, 合适的介质包括随机存取存储器 (RAM)、 只读存储器 (ROM)、 诸如硬盘或软盘的磁性介质、 诸如光盘 (CD) 或 DVD( 数字多用光盘 ) 的光学介质、 闪速存储 器等。计算机可读取的介质可以是这些储存或传送装置的任何组合。
     还可以利用适合通过有线、 光和 / 无线网络传送的载波信号来编码和传送这些程 序, 所述网络符合包括因特网在内的各种协议。 这样, 可以利用这些程序编码的数据信号来 产生本发明实施方案的计算机可读取的介质。 用所述程序代码编码的计算机可读取的介质 可以用兼容的装置来包装或与其它装置分开提供 ( 例如, 通过因特网下载 )。 任何这种计算 机可读取的介质可以位于单个计算机程序产品 ( 例如, 硬盘或整个计算机系统 ) 上或在产 品内, 并且可以存在于系统或网络内的不同计算机程序产品上或在产品内。计算机系统可 以包括监视器、 打印机或用于向使用者提供本文所述的任何结果的其他合适的显示器。
     计算机系统的实例示于图 27 中。图 27 所示的子系统通过系统总线 2775 互相连 接。显示了另外的子系统, 例如打印机 2774、 键盘 2778、 固定磁盘 2779、 与显示适配器 2782 连接的监视器 2776 等。与 I/O 控制器 2771 连接的外设和输入 / 输出 (I/O) 装置能够通过 本领域已知的多种方式来与该计算机系统连接, 诸如串行端口 2777。 例如, 能够使用串行端 口 2777 或外部界面 2781 来将所述计算机设备与诸如因特网的广域网络、 鼠标输入装置或 扫描仪相连接。通过系统总线的相互连接允许中央处理器 2773 与每个子系统通讯并控制 来自系统内存 2772 或固定磁盘 2779 的指令的执行, 以及子系统之间的信息交换。系统内 存 2772 和 / 或固定磁盘 2779 可以包括计算机可读取的介质。
     出于示例和说明的目的, 上文描述了本发明的示例性的实施方案。并不意图穷尽 本发明或将本发明局限于所述的精确形式, 并且根据上文的教导, 许多修饰和变化是可能 的。选择并描述实施方案以最好地解释本发明的原理和及其实践应用, 从而允许本领域其 他技术人员在各种实施方案中最好地利用本发明, 并且可以作出适用于所包括的特定用途 的各种修饰。
     本文引用的全部出版物、 专利和专利申请的全部内容通过引用的方式并入本文用 于所有目的。

核酸序列失衡的确定.pdf_第1页
第1页 / 共75页
核酸序列失衡的确定.pdf_第2页
第2页 / 共75页
核酸序列失衡的确定.pdf_第3页
第3页 / 共75页
点击查看更多>>
资源描述

《核酸序列失衡的确定.pdf》由会员分享,可在线阅读,更多相关《核酸序列失衡的确定.pdf(75页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN101971178A43申请公布日20110209CN101971178ACN101971178A21申请号200880108126322申请日2008072360/951,43820070723USG06F19/00200601C12Q1/6820060171申请人香港中文大学地址中国香港新界72发明人卢煜明赵慧君陈君赐徐仲锳庄家俊74专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐洪欣54发明名称核酸序列失衡的确定57摘要本发明提供了用于确定生物样品中是否存在核酸序列失衡的方法、系统和装置。选取了用于确定,例如,两个序列或两组序列的比率的失衡的一个或。

2、多个截止值。可以至少部分地基于含有母体核酸序列背景的诸如母体血浆的样品中胎儿DNA的百分比来确定所述截止值。还可以基于每一反应的序列的平均浓度来确定该截止值。在一方面,从估计含有特定核酸序列的信息孔的比例来确定该截止值,其中该比例基于上文所述的百分比和/或平均浓度来确定。可以利用诸如序贯概率比检验SPRT的许多不同类型的方法来确定该截止值。30优先权数据85PCT申请进入国家阶段日2010032286PCT申请的申请数据PCT/GB2008/0025242008072387PCT申请的公布数据WO2009/013492EN2009012951INTCL19中华人民共和国国家知识产权局12发明专。

3、利申请权利要求书3页说明书40页附图31页CN101971178A1/3页21用于确定生物样品中是否存在核酸序列失衡的方法,所述方法包括接收来自多个反应的数据,其中所述数据包括1表示临床相关的核酸序列的第一量的第一组定量数据;和2表示不同于所述临床相关的核酸序列的背景核酸序列的第二量的第二组定量数据;从所述两个数据组确定参数;从所述多个反应的每一个中的参考核酸序列的平均浓度导出第一截止值,其中所述参考核酸序列是所述临床相关的核酸序列或所述背景核酸序列;将所述参数与所述第一截止值比较;以及基于所述比较,确定是否存在核酸序列失衡的分类。2如权利要求1所述的方法,其中从一个或多个第一标记物获得所述第。

4、一组数据,并且其中从一个或多个第二标记物获得所述第二组数据,所述第一标记物的每个检测一部分所述临床相关的核酸序列在反应中存在,所述第二标记物的每个检测一部分所述背景核酸序列在反应中存在。3如权利要求1所述的方法,其还包括利用将从所述参考核酸序列的数据导出的值作为输入的概率分布的逆函数,来确定所述多个反应的每一个中的所述参考核酸序列的平均浓度。4如权利要求1所述的方法,其中所述临床相关的核酸序列来自染色体21,并且所述背景核酸序列来自染色体21以外的染色体。5如权利要求1所述的方法,其中所述临床相关的核酸序列来自染色体18或染色体13,并且所述背景核酸序列分别来自染色体18以外的或染色体13以外。

5、的染色体。6如权利要求1所述的方法,其中所述临床相关的核酸序列是遗传多态性的等位基因,并且所述背景核酸序列是所述遗传多态性的另一等位基因。7如权利要求1所述的方法,其中所述临床相关的核酸序列是囊性纤维化跨膜传导调节因子CFTR基因、球蛋白基因或球蛋白基因的突变拷贝,并且所述背景核酸序列来自相应基因的野生型拷贝。8如权利要求1所述的方法,其中所述生物样品是来自孕妇的血浆或血清。9如权利要求1所述的方法,其中反应是扩增反应。10如权利要求9所述的方法,其中反应是数字PCR方法的一部分。11如权利要求1所述的方法,其中反应是测序反应。12如权利要求1所述的方法,其中所述临床相关的核酸序列的第一部分和。

6、所述背景核酸序列的第一部分来自第一个体,并且所述临床相关的核酸序列的第二部分和所述背景核酸序列的第二部分来自第二个体。13如权利要求12所述的方法,其中所述截止值基于所述第一部分的一个的测量或基于所述第二部分的一个的测量。14如权利要求1所述的方法,其还包括将所述参数与第二截止值比较。15如权利要求14所述的方法,其中所述分类包括疾病状态、非疾病状态和不可分类的。16如权利要求14所述的方法,其中所述分类包括纯合的、杂合的和不可分类的。权利要求书CN101971178A2/3页317如权利要求14所述的方法,其中所述第二截止值基于非疾病状态中所述临床相关的核酸序列的第一量相对于所述背景核酸序列。

7、的第二量的比率。18如权利要求1所述的方法,其中所述参数是所述临床相关的核酸序列的第一量相对于所述背景核酸序列的第二量的比率。19如权利要求1所述的方法,其中计算所述第一截止值包括使用序贯概率比检验、假发现率、置信区间和接收器工作特性曲线中的至少一种。20如权利要求1所述的方法,其中导出所述第一截止值包括确定含有过度表现的核酸序列的信息反应的比例P1,所述过度表现的核酸序列是所述参考核酸序列或非参考核酸序列;以及从第一比例P1计算所述第一截止值。21如权利要求20所述的方法,其中确定所述比例P1包括确定含有至少一种所述过度表现的OVERREPRESENTED核酸序列的反应的第一概率;计算反应是。

8、信息反应的第二概率;以及利用所述第一概率和所述第二概率来计算所述比例P1。22如权利要求21所述的方法,其中所述第一概率是通过将所述参考核酸序列的平均浓度乘以相对于所述非参考核酸序列的预期比率来确定的。23如权利要求21所述的方法,其中所述第一概率是利用泊松分布来确定的,所述泊松分布将所述多个反应的每一个中的过度表现的核酸序列的平均浓度作为输入。24如权利要求21所述的方法,其还包括确定含有至少一种过少表现的核酸序列的反应的第三概率,其中所述反应是信息反应的第二概率的计算包括假定所述第一概率和所述第二概率是独立的。25用于确定生物样品中是否存在核酸序列失衡的方法,所述方法包括接收来自多个反应的。

9、数据,其中所述数据包括1表示临床相关的核酸序列的第一量的第一组定量数据;和2表示不同于所述临床相关的核酸序列的背景核酸序列的第二量的第二组定量数据;其中所述临床相关的核酸序列和所述背景核酸序列来自第一类型的细胞和来自一种或多种第二类型的细胞;从所述两个数据组确定参数;从由核酸序列的量的测量产生的第一百分比导出第一截止值,所述核酸序列来自所述生物样品中的所述第一类型的细胞;将所述参数与所述第一截止值比较;以及基于所述比较,确定是否存在核酸序列失衡的分类。26如权利要求25所述的方法,其中所述第一类型的细胞来自第一有机体,并且所述第二类型的细胞来自第二有机体。27如权利要求25所述的方法,其中导出。

10、所述第一截止值包括确定每个反应的参考核酸序列的第一平均浓度,其中所述参考核酸序列是过少表现的UNDERREPRESENTED所述临床相关的核酸序列或所述背景核酸序列;以及将所述第一平均浓度乘以从所述第一百分比导出的因子来获得不是所述参考核酸序列的所述核酸序列的第二平均浓度。权利要求书CN101971178A3/3页428如权利要求27所述的方法,其还包括利用将从所述参考核酸序列的数据导出的值作为输入的概率分布的逆函数,来确定所述多个反应的每一个中的所述参考核酸序列的平均浓度。29如权利要求28所述的方法,其中所述概率分布是泊松分布。30如权利要求25所述的方法,其中利用定量实时PCR、数字PC。

11、R、半定量竞争PCR、实时竞争PCR或质谱,通过测定胎儿特异性标记物的量来测量所述百分比。31计算机程序产品,其包括被编码的具有多个指令的计算机可读取的介质,所述指令用于控制计算系统以执行确定生物样品中是否存在核酸序列失衡的操作,所述操作包括下述步骤接收来自多个反应的数据,其中所述数据包括1表示临床相关的核酸序列的第一量的第一组定量数据;和2表示不同于所述临床相关的核酸序列的背景核酸序列的第二量的第二组定量数据;从所述两个数据组确定参数;从所述多个反应的每一个中的参考核酸序列的平均浓度导出第一截止值,其中所述参考核酸序列是所述临床相关的核酸序列或所述背景核酸序列;将所述参数与所述第一截止值比较。

12、;以及基于所述比较,确定是否存在核酸序列失衡的分类。权利要求书CN101971178A1/40页5核酸序列失衡的确定0001优先权的要求0002本申请要求于2007年7月23日提交的、题目为“核酸序列失衡的测定”的第60/951438号美国临时申请代理公司案卷号016285005200US的优先权,并且是所述临时申请的正式申请,该临时申请的全部内容通过引用的方式并入本文用于所有目的。0003相关申请的交叉引用0004本申请还涉及同时提交的、题目为“利用基因组测序诊断胎儿染色体非整倍性”的正式申请代理公司案卷号016285005220US,该正式申请的全部内容通过引用的方式并入本文用于所有目的。。

13、发明领域0005本发明一般地涉及通过确定两个不同核酸序列之间的失衡对基因型和疾病进行的诊断检测,更具体地,涉及通过检测母体血液样品对胎儿的唐氏综合征、其它染色体非整倍性、突变和基因型的鉴定。本发明还涉及癌症的检测、移植的监测和传染病监测。0006发明背景0007遗传疾病、癌症和其它病况通常由两个对应的染色体或等位基因或其它核酸序列中的失衡导致或产生两个对应的染色体或等位基因或其它核酸序列中的失衡。也就是说,一个序列相对于另一序列的量大于或小于正常值。通常地,正常比率恰好是50/50的比率。唐氏综合征21三体性是具有额外的染色体21失衡的这类疾病。000821三体性的常规产前诊断方法包括通过诸如。

14、羊膜穿刺取样或绒毛膜绒毛取样的侵入性操作的胎儿物质的取样,这引起胎儿丢失的有限风险。诸如通过超声波扫描术和生化标记物的筛查的无创性方法已经用于在确定性的侵入性诊断方法前对孕妇进行风险分级RISKSTRATIFY。然而,这些筛查方法通常测量与21三体性有关的附带现象,而不是核心染色体异常,因此该筛查方法的诊断准确性不是最佳的,并且具有其它劣势,例如受孕龄影响大。00091997年发现的母体血浆中循环的无细胞胎儿DNA为无创产前诊断提供了新的可能性LO,YMDANDCHIU,RWK2007NATREVGENET8,7177。尽管这种方法已经容易地应用于性连锁COSTA,JMETAL2002NENG。

15、LJMED346,1502和某些单基因病症LO,YMDETAL1998NENGLJMED339,17341738的产前诊断,但是该方法在胎儿染色体非整倍性的产前检测的应用表现出相当的挑战LO,YMDANDCHIU,RWK2007,见上文。首先,胎儿核酸与经常能够干扰分析的母体来源的核酸的高背景共同存在于母体血浆中LO,YMDETAL1998AMJHUMGENET62,768775。其次,胎儿核酸主要以无细胞形式在母体血浆中循环,这使得难以获得胎儿基因组中的基因或染色体的剂量信息。0010最近实现了克服这些挑战的明显发展BENACHI,ACOSTA,JM2007LANCET369,440442。。

16、一种方法检测母体血浆中的胎儿特异性核酸,从而克服了母体背景干扰的问题LO,YMDANDCHIU,RWK2007,见上文。从源自胎盘的DNA/RNA分子中的多态性等位基因的比率来推断染色体21的剂量。然而,当样品含有较低量的靶向的基因时,这种方法较不说明书CN101971178A2/40页6准确,并且只能应用于对靶向的多态性是杂合的胎儿,如果使用了一种多态性,则该靶向的多态性只是群体的子集。0011DHALLAN等人DHALLAN,R,ETAL2007,见上文,DHALLAN,R,ETAL2007LANCET369,474481描述了通过向母体血浆中添加甲醛来富集循环的胎儿DNA比例的替代策略。。

17、通过评价对于染色体21上的单核苷酸多态性SNP遗传自父亲的胎儿特异性等位基因比非胎儿特异性等位基因的比率,来确定由母体血浆中胎儿贡献的染色体21序列的比例。类似地计算参考染色体的SNP比率。然后通过检测染色体21的SNP比率与参考染色体的SNP比率之间统计学的显著差异来推断胎儿染色体21的失衡,其中使用确定的小于005的P值来定义显著。为了保证高群体覆盖,靶向每个染色体多于500个的SNP。然而,对富集高比例的甲醛的有效性仍有争议CHUNG,GTY,ETAL2005CLINCHEM51,655658,因此,该方法的可重复性需要进一步的评价。此外,由于每个胎儿和母亲将提供每个染色体的不同数目的S。

18、NP的信息,所以SNP比率比较的统计学检验的效能在不同个例之间是可变的LO,YMDCHIU,RWK2007LANCET369,1997。而且,由于这些方法依赖于遗传多态性的检测,所以它们局限于对这些多态性是杂合的胎儿。0012利用聚合酶链式反应PCR以及从21三体性胎儿和整倍体胎儿获得的羊膜细胞AMNIOCYTE培养物中的染色体21基因座和参考基因座的DNA定量,基于21三体性胎儿中染色体21的DNA序列的15倍的增加,ZIMMERMANN等人2002CLINCHEM48,362363能够区分这两组胎儿。由于DNA模板浓度的2倍差异组成了只有一个阀值循环的差别CT,所以15倍差异的鉴别已经是常。

19、规实时PCR的极限。为了实现更精细程度的定量鉴别,亟需替代的策略。因此,出于这一目的,本发明的某些实施方案使用数字PCRVOGELSTEIN,BETAL1999PROCNATLACADSCIUSA96,92369241。0013已经开发了数字PCR来检测核酸样品中偏移的等位基因比率CHANG,HWETAL2002JNATLCANCERINST94,16971703。数字PCR在临床上已经被证实对于检测肿瘤DNA样品中的杂合性丢失LOH是有用的ZHOU,WETAL2002LANCET359,219225。对于数字PCR结果分析,以前的研究采用了序贯概率比检验SPRT来将实验结果分类为提示样品中存。

20、在LOH或不存在LOHELKAROUIETAL2006STATMED25,31243133。在以前的研究所用的方法中,确定LOH的截止值CUTOFFVALUE使用了DNA中两个等位基因的固定参考比率,该比率为2/3。由于母体血浆中胎儿核酸的量、比例和浓度是可变的,所以这些方法对于使用母体血浆中的母体核酸背景中的胎儿核酸来检测21三体性是不合适的。0014期望具有基于循环的胎儿核酸分析的胎儿21三体性和其它失衡检测的无创检测,特别是不依赖于遗传多态性和/或胎儿特异性标记物的使用的无创检测。还期望具有截止值和序列记数的准确测定,这能够减少准确性所需的数据孔的数目和/或母体血浆核酸分子的量,从而提供。

21、了增加的效率和成本效益。还期望该无创检测具有高灵敏度和特异性以将误诊断降至最低。0015母体血浆中胎儿DNA检测的另一应用是单基因病症的产前诊断,例如地中海贫血症。然而,由于胎儿DNA只组成了母体血浆DNA的一小部分,所以这种方法被认为只能够检测胎儿从其父亲遗传但是其母亲没有的突变。这种突变的实例包括导致地中海贫血症的球蛋白基因的密码子41/42的4BP缺失CHIURWKETAL2002LANCET,360,9981000和导致囊性纤维化的囊性纤维化跨膜传导调节因子基因的Q890X突变说明书CN101971178A3/40页7GONZALEZGONZALEZETAL2002PRENATDIAG。

22、N,22,9468。然而,由于地中海贫血症和囊性纤维化都是常染色体隐性条件的,其中在该疾病自身显现前,胎儿需要继承来自双亲中每个的突变,所以只检测遗传自父亲的突变只会使得胎儿患有该疾病的风险从25增加至50。这在诊断上不是理想的。因此,当胎儿能够被排除具有纯合疾病状态时,现有方法的主要诊断应用是用于在母体血浆中不能检测到遗传自父亲的胎儿突变的情况。然而,这种方法在诊断上的劣势是,结论是基于父亲突变的阴性检测做出的。因此,允许从母体血浆中确定完整的胎儿基因型纯合正常、纯合突变体或杂合而没有上文的限制的方法是非常理想的。0016发明简述0017本发明的实施方案提供了用于确定在生物样品中是否存在核酸。

23、序列失衡例如,等位基因失衡、突变失衡或染色体失衡的方法、系统和装置。例如,选择了用于确定两个序列或两组序列的量的比率的失衡的一个或多个截止值。0018在一实施方案中,至少部分地基于诸如母体血浆或血清或尿的含有母体核酸序列背景的生物样品中的胎儿临床相关的核酸序列的百分比来确定所述截止值。在另一实施方案中,基于多个反应中的序列的平均浓度来确定所述截止值。在一方面,从估计含有特定核酸序列的信息孔的比例来确定所述截止值,其中该比例是基于上文所述的百分比和/或平均浓度来确定的。0019可以使用许多不同类型的方法来确定所述截止值,例如SPRT、假发现FALSEDISCOVERY、置信区间、接收器工作特性R。

24、ECEIVEROPERATINGCHARACTERISTICROC。这种策略还在能够做出置信分类CONFIDENTCLASSIFICATION前将检测所要求的量降至最少。这种策略与模板的量通常是有限的血浆核酸分析是特别相关的。0020根据一示例性实施方案,提供了用于确定生物样品中是否存在核酸序列失衡的方法,该方法包括接收来自多个反应的数据,其中该数据包括1表明临床相关的核酸序列的第一量的第一组定量数据;和2表明不同于所述临床相关的核酸序列的背景核酸序列的第二量的第二组定量数据;从这两个数据组来确定参数;从多个反应的每一个中的参考核酸序列的平均浓度导出第一截止值,其中该参考核酸序列是所述临床相关。

25、的核酸序列或所述背景核酸序列;将所述参数与所述第一截止值比较;并且,基于该比较来确定是否存在核酸序列失衡的分类。0021根据另一示例性实施方案,提供了用于确定生物样品中是否存在核酸序列失衡的方法,该方法包括接收来自多个反应的数据,其中该数据包括1表明临床相关的核酸序列的第一量的第一组定量数据;和2表明不同于所述临床相关的核酸序列的背景核酸序列的第二量的第二组定量数据,其中,所述临床相关的核酸序列和所述背景核酸序列来自第一类型的细胞和来自一种或多种第二类型的细胞;从这两个数据集来确定参数;从得自核酸序列的量的测量的第一百分比导出第一截止值,该核酸序列来自生物样品中所述第一类型的细胞;将所述参数与。

26、所述截止值比较;并且,基于该比较来确定是否存在核酸序列失衡的分类。0022本发明的其它实施方案涉及与本文所述的方法相关的系统和计算机可读取的介质。0023参照下文的发明详述和附图将更好地理解本发明的特性和优势。说明书CN101971178A4/40页80024附图简述0025图1是示出数字PCR实验的流程图。0026图2A示出本发明实施方案的数字RNASNP和RCD方法。0027图2B显示了在癌症中可频繁检测到的染色体畸变的实例的表格。0028图3示出按照本发明的实施方案用于确定唐氏综合征的具有SPRT曲线的图。0029图4显示了按照本发明的实施方案利用胎儿细胞百分比来确定疾病状态的方法。00。

27、30图5显示了按照本发明的实施方案利用平均浓度来确定疾病状态的方法。0031图6显示的表格的列出了按照本发明的实施方案对于表示为每孔的平均参考模板浓度MR的一系列模板浓度而言,21三体性样品的预期数字RNASNP等位基因比率和PR。0032图7显示的表格列出了按照本发明的实施方案对于表示为每孔的平均参考模板浓度MR的一系列模板浓度而言,21三体性样品中的10、25、50和100的部分胎儿DNA浓度的预期PR。0033图8显示的图示出了按照本发明的实施方案,数字RNASNP分析的01、05和10的MR值的SPRT曲线的差异程度。0034图9A显示了按照本发明的实施方案在96孔数字RNASNP分析。

28、中比较用于分类整倍体和21三体性实例的新和旧SPRT算法的有效性的表格。0035图9B显示了按照本发明的实施方案在384孔数字RNASNP分析中比较用于分类整倍体和21三体性实例的新和旧SPRT算法的有效性的表格。0036图10的表格显示了按照本发明的实施方案,对于给定的信息计数,被正确或错误分类为整倍体或非整倍体以及那些不可分类的胎儿的百分比。0037图11是表格1100,显示了按照本发明的实施方案,纯100胎儿DNA样品的数字RCD分析的计算机模拟。0038图12是表格1200,显示了按照本发明的实施方案,MR05的数字RCD分析的准确性的计算机模拟的结果,该数字RCD分析用于对来自具有不。

29、同部分浓度的胎儿DNA的整倍体或21三体性胎儿的样品进行分类。0039图13A显示了按照本发明的实施方案,整倍体妊娠和21三体性妊娠的胎盘组织的数字RNASNP分析的表格1300。0040图13B显示了按照本发明的实施方案,来自整倍体妊娠和21三体性妊娠的母体血浆的数字RNASNP分析的表格1350。0041图14A14C显示的图示例了按照本发明实施方案得自RCD分析的截止曲线。0042图15A显示了按照本发明的实施方案,整倍体妊娠和21三体性妊娠的胎盘组织中的数字RNASNP分析的表格。0043图15B显示了按照本发明的实施方案,来自一个母体血浆样品的12个反应板的数字RNASNP数据的表格。

30、。0044图15C显示了按照本发明的实施方案,来自整倍体妊娠和21三体性妊娠的母体血浆的数字RNASNP分析的表格。0045图16A显示了按照本发明的实施方案,整倍体胎盘和18三体性胎盘的数字RNASNP分析的表格。说明书CN101971178A5/40页90046图16B显示了按照本发明的实施方案,整倍体胎盘和18三体性胎盘的数字RNASNP数据的SPRT解释。0047图17显示了按照本发明的实施方案,整倍体妊娠和21三体性妊娠的50胎盘/母体血液细胞DNA混合物的数字RCD分析的表格。0048图18显示的SPRT曲线示例了按照本发明的实施方案,用于正确分类的判定边界DECISIONBOUN。

31、DARY。0049图19显示了按照本发明的实施方案,来自整倍体妊娠和21三体性妊娠的羊水样品的数字RCD分析的表格。0050图20显示了按照本发明的实施方案,来自整倍体妊娠和18三体性妊娠的胎盘DNA样品的数字RCD分析的表格E整倍体;T1818三体性。0051图21显示了按照本发明的实施方案,整倍体妊娠和21三体性妊娠的50胎盘/母体血液细胞DNA混合物的多重数字RCD分析的表格E整倍体;T2121三体性;U未分类的。0052图22A和22B显示按照本发明的实施方案,50整倍体或21三体性胎盘基因组DNA/50母体血沉棕黄色层BUFFYCOATDNA混合物的多重数字RCD分析的表格。UNCL。

32、ASS表示不可分类的并且T21表示21三体性。0053图23显示了雄性和雌性配偶都携带相同突变的情况。0054图24A显示按照本发明的实施方案,雌性/雄性和雄性/雄性DNA混合物的数字RMD分析的表格。0055图24B显示了按照本发明的实施方案,25雌性与75雄性DNA混合物的数字RMD分析的表格。0056图25显示了按照本发明的实施方案,模拟母体血浆样品HBE突变的1550DNA混合物的数字RMD分析的表格。0057图26A显示了按照本发明的实施方案,模拟母体血浆样品CD41/42突变的550的DNA混合物的数字RMD分析的表格。0058图26B显示了按照本发明的实施方案,模拟母体血浆样品C。

33、D41/42突变的20的DNA混合物的数字RMD分析的表格。0059图27显示了可用于本发明的实施方案的系统和方法的示例性计算机装置的方框图。0060定义0061本文所用的术语“生物样品”意指取自个体例如,诸如孕妇的人并含有一种或多种感兴趣的核酸分子的任何样品。0062术语“核酸”或“多核苷酸”意指脱氧核糖核酸DNA或核糖核酸RNA及其单链或双链形式的聚合物。除非特别地限定,该术语包括含有天然核苷酸的已知类似物的核酸,其具有与参考核酸类似的结合特性,并且以与天然存在的核苷酸类似的方式进行代谢。除非另外指明,特定的核酸序列还隐含地包括其保守地修饰的变体例如,简并密码子取代、等位基因、直向同源物、。

34、SNP和互补序列以及明确地指出的序列。具体地,简并密码子取代可以通过产生如下的序列实现其中一个或多个选择的或全部密码子的第三位被混合碱基和/或脱氧次黄苷残基取代BATZERETAL,NUCLEICACIDRES1950811991;说明书CN101971178A6/40页10OHTSUKAETAL,JBIOLCHEM260260526081985和ROSSOLINIETAL,MOLCELLPROBES891981994。术语核酸与基因、CDNA、MRNA、小非编码RNA、微RNAMIRNA、PIWI相互作用RNA以及基因或基因座编码的短发夹RNASHRNA可交换使用。0063术语“基因”表示与。

35、产生多肽链有关的DNA的片段。其可以包括编码区之前和之后的区域前导区和非转录尾区以及单独的编码片段外显子之间的间插序列内含子。0064本文所用的术语“反应”意指与表示感兴趣的特定多核苷酸序列的存在或不存在的化学、酶或物理作用有关的任何过程。“反应”的实例是诸如聚合酶链式反应PCR的扩增反应。“反应”的另一实例是通过合成或通过连接的测序反应。“信息反应”是表明一种或多种感兴趣的特定多核苷酸序列的存在的反应,并且在一种情况下,只存在一种感兴趣的序列。本文所用的术语“孔”意指在有限的结构内的预定位置的反应,例如,PCR阵列中的孔状小管、单元或室。0065本文所用的术语“临床相关的核酸序列”能够指对应。

36、于更大的基因组序列的片段的多核苷酸序列或者指更大的基因组序列自身,该多核苷酸序列的潜在失衡被检测。一个实例是染色体21的序列。其它实例包括染色体18、13、X和Y。仍然其它的实例包括胎儿遗传自其双亲中一个或两个的突变的遗传序列或遗传多态性或拷贝数变异。仍然其它的实例包括在恶性肿瘤中突变、缺失或扩增的序列,例如,发生了杂合性丢失或基因重复的序列。在某些实施方案中,多个临床相关的核酸序列或该临床相关的核酸序列等同的多个标记物能够用于提供检测失衡的数据。例如,来自染色体21上的5个不连续序列的数据能够以累加的方式用于确定可能的染色体21失衡,从而将所需的样品体积有效地减少至1/5。0066本文所用的。

37、术语“背景核酸序列”意指与所述临床相关的核酸序列的正常比率是已知的核酸序列,例如,1比1的比率。作为一个实例,所述背景核酸序列和所述临床相关的核酸序列是来自相同的染色体并且由于杂合性而不同的两个等位基因。在另一实例中,所述背景核酸序列是与另一等位基因杂合的一个等位基因,所述另一等位基因是所述临床相关的核酸序列。而且,某些背景核酸序列和临床相关的核酸序列的每一个可以来自不同的个体。0067本文所用的术语“参考核酸序列”意指每个反应的平均浓度是已知的或者已经被等同地测量过的核酸序列。0068本文所用的术语“过度表现的OVERREPRESENTED核酸序列”意指在生物样品中的两个感兴趣的序列例如,临。

38、床相关的序列和背景序列之中丰度比另一序列更高的的核酸序列。0069本文所用的术语“基于”表示“至少部分地基于”,并且意指在确定另一值时所用的一个值或结果,例如,发生在方法的输入和该方法的输出的联系中。本文所用的术语“导出”也意指方法的输入和该方法的输出的联系,例如,当导出是公式的计算时发生。0070本文所用的术语“定量数据”表示从一个或多个反应获得并且提供一个或多个数值的数据。例如,显示特定序列的荧光标记物的孔的数目是定量数据。0071本文所用的术语“参数”表示表征定量数据组和/或定量数据组之间的数值联系的数值。例如,第一核酸序列的第一量与第二核酸序列的第二量之间的比率或比率的函数是参数。说明。

39、书CN101971178A7/40页110072本文所用的术语“截止值”表示用于在生物样品的两个或更多个类别状态例如,患病和未患病之间进行裁定ARBITRATE的数值。例如,如果参数大于截止值,将定量数据分为第一类例如,患病状态,或者如果该参数小于该截止值,则将定量数据分为另一类例如,未患病状态。0073本文所用的术语“失衡”表示由临床相关的核酸序列的量中至少一个截止值所定义的与参考量的任何显著偏差。例如,该参考量能够是3/5的比率,因此如果测量的比率是11,则发生了失衡。0074发明详述0075本发明提供了方法、系统和装置,用于确定在生物样品中,与临床相关的核酸序列相对于其它非临床相关的序列。

40、的参考例如,未患病量比较,是否存在增加或减少例如,染色体或等位基因失衡。选择一个或多个截止值来确定与参考量相比是否存在变化即,失衡,例如,关于两个序列或两组序列的量的比率。检测到的参考量变化可以是临床相关的核酸序列与其它非临床相关的序列的关系的任何偏差上升或下降。因此,参考状态可以是任何比率或其它量例如,除了11的对应,并且表示变化的测量状态可以是任何比率或不同于由一个或多个截止值所确定的参考量的其它量。0076所述临床相关的核酸序列和所述背景核酸序列可以来自第一类型的细胞和来自一种或多种第二类型的细胞。例如,源自胎儿/胎盘细胞的胎儿核酸序列存在于诸如母体血浆的生物样品中,该生物样品包含源自母。

41、体细胞的母体核酸序列的背景。因此,在一实施方案中,至少部分地基于生物样品中所述第一类型的细胞的百分比来确定截止值。注意,可以通过任何源自胎儿的基因座来测定样品中胎儿序列的百分比,并且不限于测量所述临床相关的核酸序列。在另一实施方案中,至少部分地基于诸如血浆、血清、唾液或尿的生物样品中肿瘤序列的百分比来确定截止值,该生物样品包含源自体内的非恶性细胞的核酸序列的背景。0077仍然在另一实施方案中,基于多个反应中序列的平均浓度来确定截止值。在一方面,从估计含有特定核酸序列的信息孔的比例来确定所述截止值,其中该比例是基于上文所述的百分比和/或平均浓度来确定的。可以使用许多不同类型的方法来确定截止值,例。

42、如,SPRT、假发现、置信区间、接收器工作特性ROC。这种策略还能够在做出确信的分类前将检测所要求的量降至最少。这与模板的量通常有限的血浆核酸分析是特别相关的。尽管通过数字PCR来表现这种策略,但是也可以使用其它方法。0078数字PCR包括极端稀释的核酸的多个PCR分析,从而大部分阳性扩增反映了来自单个模板分子的信号。由此数字PCR允许计数单独的模板分子。分析的PCR总数中的阳性扩增的比例允许估计原始或未稀释的样品中的模板浓度。这种技术被认为允许检测各种遗传现象VOGELSTEIN,BETAL1999,见上文,并且最近被用于检测肿瘤样品ZHOU,WETAL2002,见上文和癌症患者血浆CHAN。

43、G,HWETAL2002,见上文中的杂合性丢失。由于通过数字PCR的模板分子定量不依赖于报道染料与核酸浓度之间的剂量反应关系,所以理论上数字PCR分析的精度应当高于实时PCR的精度。因此,数字PCR潜在地能够允许鉴别靶基因座与参考基因座之间更精细程度的定量差异。0079为了对此进行检测,我们首先评价数字PCR是否能够测定母体血浆中来自染色体21的胎盘转录物,PLAC4MRNA的等位基因比率LO,YMD,ETAL2007NATMED13,218223,说明书CN101971178A8/40页12从而区分21三体性胎儿和整倍体胎儿。这种方法被称为数字RNASNP方法。我们然后评价数字PCR增加的精。

44、度是否能够允许检测胎儿的染色体非整倍性而不依赖于遗传多态性。我们将这种方法称为数字相关的染色体剂量RCD分析。数字RNASNP方法依赖于多态性,但是在定量鉴别中要求较低的精度,而数字相关的染色体剂量RCD分析不依赖于多态性,但是对于定量鉴别要求较高的精度。0080I数字RNASNP0081A概述0082数字PCR能够检测DNA样品中两个等位基因的等位基因比率偏移的存在。例如,数字PCR已经用于检测肿瘤DNA样品中的杂合性丢失LOH。假定在DNA样品中有两个等位基因,即A和G,并且A等位基因将在细胞中随着LOH而丢失。当在肿瘤样品的50的细胞中存在LOH时,该DNA样品中GA的等位基因比率将是2。

45、1。然而,如果在该肿瘤样品中不存在LOH,则GA的等位基因比率的比率将是11。0083图1是示出数字PCR实验的流程图。在步骤110中,将DNA样品稀释,然后分配至单独的孔中。注意,发明人已经确定在原始样品中,某些血浆核酸种类已经被充分地稀释。因此,如果某些模板已经以需要的浓度存在,则不需将它们稀释。在以前的研究中例如,ZHOUETAL2002,见上文,将DNA样品稀释至特定的“模板DNA”的平均浓度约是每孔的两个模板中的一个模板05分子的程度。注意,术语“模板DNA”看起来意指A等位基因或G等位基因,并且没有为这种具体的浓度提供原理阐述。0084在步骤120中,在每个孔中进行PCR过程来同时。

46、检测A等位基因和/或G等位基因。在步骤130中,在每个孔中鉴定了标记物例如,通过荧光,例如,A、G、A和G或者A和G都不是。在没有LOH的情况下,DNA样品中的A等位基因与G等位基因的丰度将是相同的每孔一个拷贝。因此,孔对该A等位基因与对该G等位基因是阳性的概率是相同的。这通过对该A等位基因或对该G等位基因是阳性的孔的数目相似反映出。然而,当在肿瘤样品的50或更多的细胞中存在LOH时,G等位基因和A等位基因的等位基因比率将至少是21。以前的方法简单地假定,样品是至少50癌性的。因此,孔对G等位基因是阳性的概率将高于对A等位基因是阳性的概率。因此,对G等位基因是阳性的孔的数目将大于对A等位基因是。

47、阳性的孔的数目。0085在步骤140中,为了分类数字PCR的结果,计数对每个等位基因是阳性的,但是对另一等位基因不是阳性的孔。在上文的实例中,计数了对A等位基因是阳性,但对G等位基因是阴性的孔的数目和对G等位基因是阳性,但对A等位基因是阴性的孔的数目。在一实施方案中,表现出较少的阳性孔的等位基因被视为参考等位基因。0086在步骤150中,信息孔的总数被确定为对所述两个等位基因的任一个是阳性的孔的数目的总和。在步骤160中,计算了由具有较多的阳性孔的等位基因贡献的信息孔的比例PR参数的实例。PR只对具有较多阳性孔的等位基因是阳性的孔的数目/只对一个等位基因A或G是阳性的孔的总数。其它实施方案能够。

48、使用具有一个等位基因的全部孔除以具有至少一个等位基因的全部孔。0087在步骤170中,确定PR的值是否表示等位基因失衡。由于期望准确度和效能,所以这一任务并非简单的。确定失衡的一种方法使用了BAYESIAN类似然方法,序贯概率比检验SPRT。SPRT是允许随着数据的积累比较两种概率假设的方法。换言之,SPRT是将数说明书CN101971178A9/40页13字PCR结果分类为表示等位基因偏移存在或不存在的统计学方法。该方法具有将获得特定统计功效和准确度所需要分析的孔的数目减至最小的优势。0088在示例性的SPRT分析中,将针对无效假设和备选假设来检验实验结果。当在样品中有等位基因比率偏移时,则。

49、接受备选假设。当在样品中没有等位基因比率偏移时,则接受无效假设。将该PR值与两个截止值比较以接受无效假设或备选假设。如果没有接受任何一个假设,则将该样品标记为未分类的,这表示观察到的数字PCR结果不足以以期望的统计学可信度将该样品进行分类。0089通常基于在假设中给出的假定下的PR固定值来计算接受无效假设或备选假设的截止值。在所述无效假设中,假定样品没有表现出等位基因比率偏移。因此,对A等位基因和G等位基因是阳性的每个孔的概率将是相同的,因此,PR的预期值将是1/2。在所述备选假设中,PR的预期值是2/3,或者大约是05与2/3的中间值,例如0585。并且,由于有限的实验数目,能够选择上限5853/N和表示为5853/N的下限。0090B唐氏综合征的检测0091在本发明的一实施方案中,数字SNP用于从孕妇血浆中检测胎儿唐氏综合征。使用对胎儿/胎盘细胞特异性的标记物可以测量染色体21中的等位基因比率。例如,为了确定观察到的PLAC4等位基因的过度表现的程度是否是统计学显著的,使用SPRT。0092根据一示例性的实施方案,数字RNASNP确定了位于PLAC4MRNA的A/GSNP,RS8130833的多态性等位基因比率的失衡,该MRNA是从染色体21转录并被胎盘表达的。对于杂合的整倍体胎儿,A等位基因和G等。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1