从生物样品中选择性捕获和扩增外显子或靶标基因组区域 的方法 【技术领域】
本发明主要涉及靶标基因组 DNA(gDNA) 区域的捕获和扩增, 更特别地, 本发明涉 及使用从模板 DNA 克隆产生的杂交 DNA 和 / 或 RNA 探针选择性捕获并扩增来自任意生物物 种 ( 包括动物、 植物、 真菌、 原生动物、 古生菌和真细菌 ) 的基因组、 线粒体和其它形式的 DNA 的所有外显子、 外显子的任意子集、 或任意其它目标区域的方法。背景技术
目前的技术发展已经能够实现每次实验进行数百万至数十亿碱基对 (bps) 规模 的脱氧核糖核酸 (DNA) 测序 (Margulies 等人, 2005)。现在至少有三个公司可以提供商业 化的大规模并行测序系统 ( 例如, Roche 提供的 454 系统 ; Illumina 提供的 Illumina 系统 ; Applied BioSystems 提供的 SOLiD 系统 )。目前这些系统的测序能力有的已经足以对很多 生物物种 ( 包括人类和小鼠 ) 的基因组进行常规的从头测序 (de novo sequencing) 并对 其重要部分进行再测序 (Stephens 等人, 2006)。但是, 在广泛应用的新技术的成功使用中 存在一个主要瓶颈 : 即如何能以有效的方式在头尾步骤中从散落于基因组、 线粒体和其它 形式的 DNA 中选择性捕获并富集靶标外显子或靶标内含子区域。选择性捕获并富集来自生 物物种的基因组、 线粒体和其它形式的 DNA 的特定区域具有广泛的应用。 传统的捕获并扩增靶标基因组 DNA 片段的方法如下 :
(1) 从包含核酸的生物样品中提取 DNA ;
(2) 通过各种方式 ( 包括通过机械、 超声或酶学方法 ) 将提取的 DNA 片段化 ;
(3) 通过 DNA 片段与互补性 DNA 和 / 或 RNA 探针的杂交选择性捕获靶标 DNA 片段 ;
(4) 首先洗掉未与杂交探针结合的 DNA 片段。然后在下一个步骤中在合适的条件 下洗脱与杂交探针结合的 DNA 片段 ;
(5) 将捕获的 DNA 用于下游应用。如果需要更大数量的捕获的 DNA, 可以使用通用 引物对通过聚合酶链反应 (PCR) 扩增捕获的 DNA 片段。具有特异性设计的序列的通用 DNA 引物在步骤 (2) 或步骤 (4) 之后连接到所有 DNA 片段的 5’ 和 3’ 末端。
任何旨在成功捕获 DNA 片段的有商业价值的操作来讲, 整个过程中关键的技术是 产生杂交 DNA 和 / 或 RNA 探针并将其置于固体支持材料上或混合于液体溶液中的方法 ( 用 于上述方法的步骤 3)。捕获的特异性是由杂交探针的 DNA 或 RNA 序列决定的。选择性捕获 来自任意生物物种的基因组和线粒体 DNA 的任何目标区域需要低成本和灵活的方式以可 靠地产生并验证大量的杂交探针。这些 DNA 和 / 或 RNA 探针的序列必须与目标生物物种的 基因组和线粒体 DNA 中的目标区域精确互补。捕获能力是由可用于杂交的不同探针的数目 和长度的组合决定的。 捕获的灵活性是由探针产生的方式以及将其置于固体支持材料上或 混合于液体溶液中的方式决定的。这些杂交 DNA 和 / 或 RNA 探针应该具备选择性捕获来自 任意生物物种的基因组、 线粒体和其它形式的 DNA 的所有外显子、 外显子的任意子集、 或任 意其它目标区域的总体能力和灵活性。必须以低成本的方式达到特异性、 能力和灵活性以
便在市场上竞争。 因此, 如果可以获得有效解决所有这些问题的方法的话, 则可以得到巨大 的技术和商业相关性。
因此本领域中存在尚未满足的需要以解决上述缺陷和不足。 发明内容 在一个方面, 本发明涉及从生物样品中选择性捕获和 / 或扩增外显子或靶标基因 组区域的方法。特别地, 本发明要求保护从 DNA 克隆制备 DNA 和 / 或 RNA 杂交探针的新方 法。在一个具体实施方式中, 该方法包括以下步骤 : 获得针对靶标基因组区域的 DNA 模板, 将 DNA 模板克隆进入克隆载体以形成模板 DNA 克隆, 构建至少包括靶标基因组区域的模板 DNA 克隆库, 从库中的 DNA 模板克隆产生杂交 DNA 和 / 或 RNA 探针, 通过靶标基因组 DNA 区 域与所产生的杂交探针的杂交捕获靶标基因组 DNA 区域, 以及通过使用将结合的 DNA 从杂 交探针上释放的条件洗脱捕获的基因组 DNA。 洗脱条件可以包括温度的变化, 盐溶液的变化 或溶液 pH 的变化。
在一个具体实施方式中, 从来自生物样品的总 RNA 或 mRNA 通过逆转录获得 DNA 模 板。在另一个具体实施方式中, 通过进行多重聚合酶链反应 (PCR) 或通过含有 DNA 的靶标 遗传区域的基因合成获得 DNA 模板。在另一个具体实施方式中, DNA 模板对应于预先确定 的线粒体 DNA 片段或全长的线粒体 DNA。
在一个具体实施方式中, 克隆步骤包括将 DNA 模板连接进入克隆载体或质粒的步 骤。 克隆 DNA 模板的目的是为了容易地存储、 扩增、 复制和繁殖模板 DNA 材料以备将来之用。
在一个具体实施方式中, 取决于起始 RNA 材料, 库中的模板 DNA 克隆包含生物样品 表达的基因的全长 mRNA、 mRNA 的开放读码框或部分长度的 cDNA。在另一个具体实施方式 中, 当通过多重 PCR 或基因合成扩增内含子区域时, 模板 DNA 克隆库代表目标内含子区域。
在一个具体实施方式中, 通过逆转录或 PCR 反应从 cDNA 制备的库中的模板 DNA 克 隆用于捕获生物样品的外显子。在另一个具体实施方式中, 通过多重 PCR 扩增内含子区域 制备的库中的模板 DNA 克隆用于捕获生物样品的内含子区域。在另一个具体实施方式中, 从线粒体 DNA 制备的库中的模板 DNA 克隆用于捕获生物样品的线粒体 DNA。克隆中的模板 DNA 可直接用作杂交探针, 或者可以通过酶式消化或 PCR 扩增将模板本身从质粒中释放出 来以用作杂交探针。
在一个具体实施方式中, 库中的模板 DNA 克隆按照自动化系统可以操作的形式进 行组织。模板 DNA 克隆的信息储存在计算机化数据库中, 该信息至少包括身份、 产生日期、 制备克隆的人员和每个克隆的位置。
在一个具体实施方式中, 构建步骤包括以下步骤 : 检验库中的模板 DNA 克隆的质 量和完整性, 以及监视并保持库中的模板 DNA 克隆的质量以长期使用。检验步骤包括以下 步骤 : 确认库中每个克隆的 DNA 序列, 以及将克隆的 DNA 序列与生物样品的靶标基因或靶标 基因组区域的参考 DNA 序列进行比较从而检测库中的克隆的完整性和序列准确性。
在一个具体实施方式中, 使用限制性酶将模板 DNA 片段从克隆载体或质粒中消化 出来, 从而释放克隆载体或质粒中携带的 DNA 片段, 由此产生杂交探针。在另一个具体实施 方式中, 使用克隆载体或质粒的多个克隆位点上包含的通用引物对序列通过 PCR 扩增产生 杂交探针。在另一个具体实施方式中, 克隆载体或质粒直接用作杂交探针而不将模板探针
通过酶式方法切割出来或通过 PCR 扩增 DNA 模板。 在另一个具体实施方式中, 从库中的 DNA 模板克隆通过体外转录产生杂交探针。在替代的具体实施方式中, 通过库中的 DNA 模板的 体外逆转录获得基因的 cDNA 或 cRNA, 从而产生杂交探针。
在一个具体实施方式中, 捕获步骤包括将杂交探针固定于固体支持材料的表面或 将杂交探针混合于液体溶液中的步骤。
在另一个方面, 本发明涉及从生物样品中选择性捕获和 / 或扩增靶标基因组区域 的方法。靶标基因组区域包括来自生物样品 ( 包括动物、 植物、 真菌、 原生动物、 古生菌和 / 或真细菌 ) 的基因组、 线粒体和其它形式的 DNA 的外显子、 外显子的子集、 或目标区域。
在一个具体实施方式中, 该方法包括以下步骤 : 提供至少包括靶标基因组区域的 模板 DNA 克隆库, 从库中的 DNA 模板克隆产生杂交探针, 通过靶标基因组 DNA 区域与所产生 的杂交探针的杂交捕获靶标基因组 DNA 区域。
在一个具体实施方式中, 提供步骤包括以下步骤 : 获得针对靶标基因组区域的 DNA 模板, 将 DNA 模板克隆进入克隆载体以形成模板 DNA 克隆, 构建至少包括靶标基因组区 域的模板 DNA 克隆库, 以及检验库中的模板 DNA 克隆的质量和完整性。
另外, 该方法可以包括以下步骤 : 通过使用将结合的 DNA 从杂交探针上释放的条 件洗脱捕获的基因组区域。 在另一个方面, 本发明涉及从生物样品中捕获和 / 或扩增靶标基因组区域的试剂 盒。在一个具体实施方式中, 试剂盒具有 : 至少包括靶标基因组区域的模板 DNA 克隆库, 其 中模板 DNA 克隆通过将从靶标基因组区域获得的 DNA 模板克隆进入克隆载体而形成 ; 从库 中的 DNA 模板克隆产生的杂交探针 ; 以及将靶标基因组 DNA 区域与所产生的杂交探针杂交 从而捕获靶标基因组 DNA 区域的工具。
在一个具体实施方式中, 杂交工具包含具有一个或多个表面的固体支持材料, 其 中杂交探针置于这些表面上以用于杂交探针与基因组 DNA 片段的杂交, 或者包含溶液, 杂 交探针混合于该溶液中以用于杂交探针与基因组 DNA 片段的杂交。
在一个具体实施方式中, 模板 DNA 克隆库储存于计算机化数据库中并由其管理。
另外, 试剂盒具有用于洗脱捕获的基因组区域的工具和 / 或用于检测洗脱的基因 组片段 / 区域的工具。
本发明的这些方面和其它方面将通过以下优选的具体实施方式的描述以及以下 的附图变得明显, 虽然可以不脱离本公开的新概念的精神和范围做出各种变化和修饰。
附图说明 附图举例说明了本发明的一个或多个具体实施方式, 与说明书一起解释本发明的 原理。在所有附图中尽可能以相同的指代编号指代具体实施方式的相同或相似元素, 其 中:
图 1 显示了根据本发明的一个具体实施方式从生物样品中选择性捕获和 / 或扩增 外显子或靶标基因组区域的方法的流程图。
图 2 显示了根据本发明的方法捕获 gDNA 片段之后洗脱的 gDNA 的确认, 其中图板 A) 和 B) 分别是设计为捕获 GJB2&MYO7A 的捕获实验结果。每个电泳凝胶泳道中加入的 DNA 样品为 : 泳道 1 : 鲑鱼精 DNA( 作为阴性对照 ) ; 泳道 2 : 人类 gDNA 片段, 使用检测 Cx26 基因
的引物通过 PCR 扩增 ; 泳道 3 : 以第二个人类 gDNA 样品重复, 与泳道 2 相似 ; 泳道 4 : 水, 作为 Cx26PCR 引物的 PCR 扩增的阴性对照 ; 泳道 5 : 未经过片段化处理和 DNA 捕获处理的 gDNA, 用作实验中以 Cx26PCR 引物进行的 PCR 扩增的阳性对照 ; 泳道 6 : 洗脱的鲑鱼精 DNA, 使用了 针对 MYO7A 的引物 ( 另一个阴性对照 ) ; 泳道 7 : 洗脱的人类 gDNA, 使用了针对 MYO7A 的引 物 ( 另一个阴性对照 ) ; 泳道 8 : 第二个洗脱的人类 gDNA 样品, PCR 扩增中使用了针对 MYO7A 的引物 ( 另一个阴性对照 ) ; 泳道 9 : 直接来自水的 PCR 扩增的阴性对照 ; 泳道 10 : 使用未经 消化的人类 gDNA( 未经过 DNA 捕获处理 ) 的阳性对照 ; 泳道 A : 通过我们的方法捕获之后洗 脱的人类 gDNA, PCR 扩增中使用了针对 MYO7A 的引物 ; 泳道 B : 通过我们的方法捕获之后洗 脱的鲑鱼精 DNA, PCR 中使用了针对 MYO7A 的引物 ( 用作阴性对照 ) ; 泳道 C : 水, 阴性对照 ; 泳道 D : 未经过片段化处理和 DNA 捕获处理的 gDNA, 用作以 MYO7A 引物进行的 PCR 扩增的阳 性对照。在图像顶端的图标中显示了实验中使用的 PCR 引物的相对位置。
图 3 显示了根据本发明的方法捕获的洗脱的 gDNA 的另一个确认测试。通过 Southern 印迹检测了捕获前 ( 总量的大约 10% ) 和洗脱后 (90%的 DNA 样品经我们的方法 处理 ) 的经过 Bsu36I 消化的人类 gDNA。结果显示出捕获前和捕获后的样品都在预计的大 约 2400bp 大小的地方有单一的带 ( 箭头指示 )。通过比较 Southern 印迹中带的深度给出 通过本发明的方法捕获 gDNA 的效率的评估值为大约 56%。 图 4 显示了根据本发明的方法捕获到的 gDNA 的另一组确认数据。这次我们用的 是 Illumina Genome 高通量测序仪。在测序中我们测了单边 52 个碱基并加上解样品的分 子编码的过程。图 4A 中显示的是四个独立的样本。捕捉到的 DNA 小片段和 MYO15A 的基因 序列作了比对。比对的结果用颜色编码。我们挑了 MYO15A 基因的原因是因为这个基因的 结构是所有耳聋基因中最复杂的。所有样本的颜色编码的结果均显示捕捉到的 DNA 小片段 的富集模式完全和 MYO15A 的基因结构重合。因为捕捉探针的目标针对的是 MYO15A 的外显 子区域, 这些结果说明我们的基因捕捉方法具有很好的特异性。图 4B 显示 MYO15A 外显子 的目标区域中的每个碱基被覆盖了 20 到 1106 次。平均的覆盖次数是 476 次。这种覆盖的 均一性至少可以对同一个突变测 20 次。这样对任意一个碱基用下一带高通量测序仪测错 的概率就可以下降到每 420 中有一个, 这是相当相当的小。
具体实施方式
以下实施例更详细地描述了本发明, 这些实施例仅为示例性的, 因为其中的多种 修饰和变化对于本领域技术人员来说是显而易见的。 现在更详细地描述本发明的各种具体 实施方式。当提及附图时, 同一个数字通篇代表同一个成分。除非上下文另有特别指明, 否 则本说明书和权利要求书通篇所用的 “一个 (a)” 、 “一个 (an)” 和 “the” 包括复数。同样, 除非上下文另有特别指明, 本说明书和权利要求书通篇所用的 “in” 包括 “in” 和 “on” 。另 外, 下文对本说明书中使用的一些术语进行了更具体的定义。
在本发明上下文和使用某术语的特定上下文中, 本说明书中使用的术语一般具有 本领域通用的含义。 在下文中或本说明书中其它地方描述了某些术语以提供实施本发明的 说明书的额外指导。本说明书其它地方使用的实施例 ( 包括本文讨论的任何术语的例子 ) 仅为示例性的, 不以任何方式限制本发明或任何例举的术语的范围和涵义。 同样, 本发明不 局限于本说明书提供的各种具体实施方式。本文使用的 “约” 、 “大约” 或 “大概” 一般包括给定数值或范围的 20%以内, 优选 10%以内, 更优选 5%以内。本文给出的数值数量是大约的, 意思是术语 “约” “大约” 、 或 “大 概” 如果没有明文指出也可以推断出来。
本 文 使 用 的 术 语 “包 含” 、 “包 括 (including)” 、 “具 有” 、 “含 有” 、 “包 括 (involving)” 等等应理解为开放式的, 即意思是包括但不限于。
根据本发明的目的, 如本文所包括并详细描述的那样, 本发明的一个方面涉及选 择性捕获和 / 或扩增来自任意生物物种的基因组、 线粒体和其它形式的 DNA 的所有外显子、 外显子的任意子集、 或任意其它目标区域的方法。生物物种包括动物、 植物、 真菌、 原生动 物、 古生菌、 真细菌等。一个具体实施方式中的方法通过产生并使用杂交 DNA 和 RNA 探针实 现。
参见图 1, 其中显示了根据本发明的一个具体实施方式从生物样品中选择性捕获 和 / 或扩增外显子或靶标基因组区域的方法的流程图。
在步骤 110 中, 获取了针对靶标基因组 DNA 区域的 DNA 模板。在一个具体实施方 式中, 从特定的目标生物物种的总 RNA 或 mRNA 通过逆转录获得这些针对外显子的模板。为 了获得含有靶标外显子的特定生物物种表达的总 RNA 或 mRNA 完整集合, 应该从该特定生物 物种的不同器官和组织获取样品。同样, 为了表达的 RNA 的集合的完整性, 应该在不同的发 育阶段收集样品。 作为替代性的产生模板 ( 特别是非编码内含子区域中的那些 ) 的方法, 还可以通 过多重聚合酶链反应 (PCR) 选择性扩增所需的外显子 DNA, 或对于所选的任何 DNA 序列可以 使用基因合成的方法。
如果内含子是需要捕获的靶标基因组 DNA 区域, 则需要通过多重 PCR 从基因组 DNA 或从含有靶标内含子区域的细菌人工染色体 (BAC) 扩增这些内含子区域。
由于线粒体 DNA 的长度相对较短, 所以全长线粒体 DNA 或其大片段可直接用作通 过多重 PCR 或通过基因合成方法产生探针的模板。
在步骤 120 中, 将用于产生杂交探针的 DNA 模板克隆进入克隆载体以用于储存、 繁 殖和其它分子操作的目的。将步骤 110 中获得的 DNA 模板连接进入克隆载体或质粒。克隆 载体或质粒可以是用于分子克隆目的的任意克隆载体或质粒, 例如构建 cDNA 库。
一旦连接进入特定的克隆载体或质粒之后, 通过典型的分子克隆技术处理步骤 110 中获得的 DNA 模板, 这是为了储存、 繁殖和进一步操作 ( 例如亚克隆 ) 和制备数量更大 的克隆以及其它目的。
根据本发明, 为了产生杂交捕获探针的目的, 不需要获得可表达的 cDNA 克隆 ( 可 以转染进入细胞系以产生特定基因的全长蛋白的那些 ), 也不需要 100%无误差的克隆序 列。预计这种低要求能够极大地提高捕获 gDNA 片段整个过程所需的收集 DNA 探针模板和 DNA 克隆的效率。
在步骤 130 中, 组建了包括所有的靶标基因和 / 或基因组区域的模板 DNA 克隆库。 在一个具体实施方式中, 取决于起始 RNA 材料, 获得了代表目标生物物种表达的基因的全 长 RNA、 开放读码框 RNA 或部分长度的 cDNA 的 cDNA 克隆库。例如, 在步骤 110 中通过多重 PCR 扩增内含子的例子中, 获得了代表目标内含子区域的克隆库。
根据本发明的具体实施方式, 通过逆转录或通过基因合成方法从 cDNA 制备的库
中的克隆用于捕获外显子。通过多重 PCR 扩增内含子区域或通过基因合成方法制备的库中 的克隆用于捕获内含子区域。从线粒体 DNA 制备的库中的克隆用于捕获特定生物物种的线 粒体 DNA。
为了长期和一致性管理的目的, 大量的 DNA 克隆按照自动化系统可以操作的形式 进行组织。例如 ( 但不限于这些形式 ), 克隆可以储存于多孔板中, 例如 96 孔或 384 孔板, 或具有更多数目的孔的其它的板。在一个具体实施方式中, 使用计算机化数据库辅助管理 DNA 克隆中的探针集合。
在步骤 140 中, 检验库中的模板 DNA 克隆的质量和完整性 : 需要通过测序确认库中 每个克隆的 DNA 序列。丢弃那些含有太短、 太多错误或不是来源于想要的靶标的 DNA 序列 的克隆。在一个具体实施方式中, 经确认的 DNA 克隆被转移至新的板中以备将来之用。储 存板中的克隆的身份、 位置和克隆的其它信息储存于计算机化数据库中并由其管理。
将获得的克隆的 DNA 序列与特定生物物种的靶标基因或靶标基因组区域的参考 DNA 序列进行比较从而检测库中的克隆的精确性和完整性。可以从公开渠道或者通过该特 定生物物种的从头测序 ( 如果它们已经不可获得的话 ) 获得针对任意生物物种的参考 DNA 序列。
在一个具体实施方式中, 重复步骤 110 至 140 直至获得代表所选的所有靶标基因 或含有特定生物物种表达的所有基因的 cDNA 克隆的完整集合, 或者获得目标内含子区域。
对于重复步骤 110-140 多次之后仍然缺失的那些基因, 使用替代性的步骤通过 PCR 反应或通过使用基因合成方法直接扩增目标 DNA 区域。 另外, 现在可以在公开市场通过 商业渠道获得一些物种的很多基因 ( 全长的或开放读码框 ) 的 DNA 克隆, 这也可以用作获 得 DNA 克隆的替代性渠道。
在步骤 150 中, 监视并保持库中的模板 DNA 克隆的数量和质量以长期使用。在一 个具体实施方式中, 可以按照需要通过自动方式或人工方式复制 DNA 库。通过正确的维护, 定期质量监测并解决问题, 库中含有针对任何想要的靶标基因和基因组区域的特定生物物 种的外显子和 / 或内含子的克隆可用作无限产生杂交探针的稳定来源。
在步骤 160 中, 从库中的 DNA 模板克隆产生杂交探针 : 使 DNA 库中的克隆生长至需 要的数量。从 DNA 模板产生的、 连接进入克隆载体和 / 或质粒中的杂交 DNA 或 RNA 探针用 于捕获基因组和线粒体 DNA 片段。
在一个具体实施方式中, 使用限制性酶将模板 DNA 片段从克隆载体和 / 或质粒中 消化出来, 从而释放克隆载体和 / 或质粒中携带的 DNA 片段, 由此产生杂交探针。
在另一个具体实施方式中, 使用克隆载体和 / 或质粒中包含的 ( 通常包含于多克 隆位点中 ) 通用引物对序列通过 PCR 扩增产生杂交探针。通过人工方式设置这些反应, 或 者, 如果需要产生的杂交探针的数目太多而不能通过人工操作有效进行的话, 则通过自动 化方式设置这些反应。 在多孔板的每个孔中设定并进行 PCR 反应。 在一个具体实施方式中, 对于库中的很多克隆, 在同一个热循环仪中同时进行多个板的 PCR 反应。
在另一个具体实施方式中, 克隆载体 / 或质粒中携带的杂交探针这样产生 : 直接 使用这些载体或质粒而不通过酶式方法将探针切割出来或通过 PCR 扩增 DNA 片段。 携带 DNA 探针的载体或质粒可以生长至需要的数量并且被纯化。 将纯化的载体或质粒置于使其变成 单链的条件中, 然后直接固定于固体支持材料上或混合于液体溶液中, 从而用作杂交探针。在替代的实施方式中, 通过体外转录从库中包含的 DNA 模板克隆产生 RNA 杂交探 针。这些可以是常规 RNA 探针或增强后续步骤可操作性的引入了生物素化核苷酸的 RNA 探 针。
在实践中, 在探针用于杂交之前, 这些探针 ( 从克隆载体或质粒通过酶式方法切 割下来的 DNA 片段, 或每个孔中的 PCR 扩增子, 或载体或质粒 ) 需要经过纯化。对应于每个 靶标的经纯化的 DNA 探针的数量需要被定量。
在一个具体实施方式中, 通过体外逆转录从以上获得的包含于库中的模板 DNA 获 得基因的 cDNA 或 cRNA, 从而产生杂交探针。cDNA 或 cRNA( 长度为基因的部分长度至全长 ) 可用于这些目的。如果 cDNA 或 cRNA 只含有基因的部分长度 ( 特别是对于那些长基因来 讲 ), 需要使用多个 cDNA 或 cRNA 以确保这些 cDNA 探针的组合覆盖横越基因的全长。使用 单一全长 cDNA 或跨越基因的全部外显子区域的多个部分长度的 cDNA 确保捕获针对该特定 基因的全部外显子集合。
在实践中, 这些 cDNA 或 cRNA 可以含有少数的序列误差, 只要这些误差的效应不累 积至足以严重破坏用于捕获的杂交步骤的结合特异性和效率的程度。这种低于 100%无误 差的要求将降低产生探针的步骤的成本。 在步骤 170 中, 通过杂交捕获靶标基因组 DNA 区域并洗脱。
根据本发明, 通过以上任何一种方法获得的合适数量的 DNA/RNA 探针可用作捕获 靶标 gDNA 区域的杂交探针。 原则是使用饱和浓度的杂交 DNA/RNA 探针以确保有效捕获。 在 将双链探针置于固体支持材料上或混合于液体溶液中的过程之前和 / 或之中, 将双链探针 置于使其变成单链的条件。通过体外转录产生的单链 RNA 探针直接用于杂交。
通常通过以下方法或其组合将 DNA 杂交探针置于固体支持材料上 : (a) 使用任何 常规基因芯片阵列点样机 (genechip arrayer) 或基因芯片打印机 (genechip printer) 将 探针点印于玻璃片上 ; 和 (b) 通过人工方式将探针置于固体支持材料上。
固体支持材料包括但不限于, 玻璃片, 以亲和素、 链霉亲和素或其它任何适合于 DNA 结合或排斥的包被物包被的玻璃片, 无任何包被物的玻璃珠, 以亲和素、 链霉亲和素或 其它任何用于 DNA 结合或排斥的包被物包被的玻璃珠, Southern 或 Northern 或 Western 印迹杂交中通常使用的任何薄膜, 以亲和素、 链霉亲和素或其它任何包被物包被的在 Southern 或 Northern 或 Western 印迹杂交中通常使用的任何薄膜, 以亲和素或链霉亲和素 包被或不包被的多孔板。
另一种使用克隆载体 / 质粒中携带的杂交探针的方式是直接使用这些载体 / 质粒 而不将探针通过酶式方法切割出来或通过 PCR 扩增 DNA 片段。携带 DNA 探针的载体 / 质粒 可以生长至需要的数量并且被纯化。将含有针对靶标基因组区域的 DNA 探针的载体 / 质粒 直接固定于固体支持材料上作为单链 DNA, 从而用作杂交探针。
在一个具体实施方式中, 为了使 DNA 探针与固体支持材料结合得更紧密, 可以在 将其放置之后使用烘焙 (baking) 和 / 或 UV 交联。
在一个具体实施方式中, 可以不先将杂交探针固定于固体材料上, 而是混合于杂 交溶液中以用于液相中的捕获反应。
杂交之后, 在步骤 180 中, 通过使用合适的使结合的 DNA 从探针上释放的条件洗脱 所捕获的基因组区域。所述条件包括但不限于, 温度的变化, 盐浓度的变化和 / 或溶液 pH
的变化。将释放的 DNA 收集起来 ( 如果需要的话进行扩增 ) 以备将来之用。
本发明的一个方面提供了从生物样品中捕获和 / 或扩增靶标基因组区域的试剂 盒。在一个具体实施方式中, 在一个具体实施方式中, 试剂盒具有 : 包括感兴趣的靶标基因 组区域的含有模板 DNA 探针的克隆库, 其中模板 DNA 克隆通过将从靶标基因组区域获得的 DNA 模板克隆进入克隆载体而形成 ; 从库中的 DNA 模板克隆产生的杂交探针 ; 以及将靶标基 因组 DNA 区域与所产生的杂交探针杂交从而捕获靶标基因组 DNA 区域的工具。
此外, 试剂盒具有洗脱捕获的基因组片段 ( 将其从杂交探针上释放并分离 ) 的工 具和用于检测洗脱的基因组片段的身份的工具。
在一个具体实施方式中, 杂交工具包括具有一个或多个表面的固体支持材料, 其 中杂交探针置于这些表面上以用于杂交探针与靶标基因组 DNA 区域的杂交, 或者包含溶 液, 杂交探针混合于该溶液中以用于杂交探针与基因组和 / 或线粒体 DNA 片段的杂交。
在一个具体实施方式中, 模板 DNA 克隆库储存于计算机化数据库并由其管理。
以下提供了根据本发明的具体实施方式的示例性方法及其相关结果, 这不是为了 限制本发明的范围。注意 : 为了读者方便, 可以在实施例中使用标题或小标题, 这不是为了 以任何方式限制本发明的范围。此外, 本文提出并公开了一些理论 ; 但是, 不论这些理论是 对是错, 均不是以任何方式限制本发明的范围。 以下示例性实验数据证明本发明的方法以高效率选择性捕获靶标基因组 DNA(gDNA)。主要想法是使用基于 cDNA 探针的方式作为高密度基于寡聚体的基因芯片方法 的低成本替代方式。为了测试根据本发明的方法捕获 gDNA 片段的特异性, 以限制性内切酶 (HindIII) 消化人类 gDNA(50μg)。然后通过本发明的方法捕获 gDNA 片段并进行鉴定。
在这个示例性的实验中, 测试了两个 cDNA 捕获探针。一个是捕获 GJB2 的编码序 列 ( 其编码连接蛋白 26(Cx26) 蛋白 ) 的 cDNA 探针, 其结果显示于图 2A。另一个设计为捕 获编码人类肌球蛋白 7a 蛋白的 MYO7A 的一部分 ( 外显子 5 至 7), 其结果显示于图 2B。经 HindIII 消化的 gDNA 被捕获并被洗脱。以引物对 ( 其设计显示于图 2 中的图的顶端 ) 进 行的第一个特异性 PCR 扩增用于测试捕获的特异性。阳性样品来自经本发明的方法捕获的 人类 gDNA, 显示于图 2A 中的泳道 2 和 3, 阳性对照显示于图 2A 中的泳道 5。泳道 5 中使用 的人类 gDNA 未经任何处理。所有的样品均产生预期大小的清晰的带。从阴性对照洗脱的 DNA( 来自鲑鱼精的 DNA 样品或直接从水进行 PCR, 分别显示于图 2A 中的泳道 1 和 4) 未产 生任何带。为了测试 gDNA 捕获的特异性, 使用针对 MYO7A 的外显子 5 至 7 设计的引物对通 过 PCR 扩增捕获并洗脱的 DNA, 结果均为阴性的, 如图 2A 中泳道 6-8 所示。泳道 9 是另一 个直接从水进行 PCR 的阴性对照。使用未经消化的人类 gDNA( 未经过本发明的方法处理 ) 的阳性对照产生了清晰的带, 如图 2A 中泳道 10 所示, 其具有预期大小。这些结果提示 : 通 过本发明的方法针对 GJB2( 编码 Cx26 蛋白 ) 捕获的 gDNA 富集了 gDNA 片段中想要的靶标 ( 其特异性包含 GJB2), 但没有富集不在靶标中的其它区域 ( 例如 MYO7A)。
为了测试设计用于从 gDNA 扩增 MYO7A 的引物对 ( 如图 2A 顶端图所示 ) 是否能够 产生阳性结果, 通过本发明的方法从 HindIII 消化的 gDNA 片段中捕获了 MYO7A 的外显子 5 至外显子 7。捕获并洗脱的人类 gDNA 片段 ( 图 2B 中的泳道 A) 和阳性对照 ( 图 2B 中的泳 道 D, 其为通过 PCR 从未经消化的人类 gDNA 直接扩增 ) 均产生预期大小的清晰的带。相反, 捕获之后来自鲑鱼精 DNA 的 PCR 扩增物 ( 图 2B 中的泳道 B) 和直接来自水的 ( 图 2B 中的
泳道 C) 产生了阴性结果。
为了确定本发明的方法的捕获效率, 首先以 Bsu36I 消化 gDNA。 经消化的 gDNA 的总 量的 10%用作捕获前对照样品。 其余的 90%的 gDNA 样品经过本发明的方法捕获 GJB2(Cx26 的外显子 2)。通过 Southern 印迹检测捕获前和洗脱后的 DNA, 捕获前和捕获后样品均在预 期的~ 2400bp 大小处显示出单一的带, 如图 3 中箭头所示。比较这两条带的相对强度可以 得到本发明的方法对人类 gDNA 样品的捕获效率为~ 56%。 因此, 本文呈现的数据证明本发 明的方法能够从人类基因组 DNA 捕获靶标外显子, 其具有高度特异性和有效性。
图 4 显示了对根据本发明的方法捕获到的 gDNA 用另一种方法作的确认。这次我 们用的是 Illumina Genome 高通量测序仪。在测序中我们测了单边 52 个碱基并加上解样 品的分子编码的过程。图 4A 中显示的是四个独立的样本。捕捉到的 DNA 小片段和 MYO15A 的基因序列作了比对。比对的结果用颜色编码。我们挑了 MYO15A 基因的原因是因为这个 基因的结构是所有耳聋基因中最复杂的。所有样本的颜色编码的结果均显示捕捉到的 DNA 小片段的富集模式完全和 MYO15A 的基因结构重合。因为捕捉探针的目标针对的是 MYO15A 的外显子区域, 这些结果说明我们的基因捕捉方法具有很好的特异性。图 4B 显示 MYO15A 外显子的目标区域中的每个碱基被覆盖了 20 到 1106 次。平均的覆盖次数是 476 次。这种 覆盖的均一性至少可以对同一个突变测 20 次。这样对任意一个碱基用下一带高通量测序 仪测错的概率就可以下降到每 420 中有一个, 这是相当相当的小。 本发明的优点
迄今为止, 旨在选择性同时捕获上千个外显子或其它数目的靶标外显子和基因 组区域的最成功的方法是 : 将基因组 DNA(gDNA) 片段与高密度寡聚体基因芯片杂交, 然后 通过洗脱释放捕获的 DNA 片段 (Albert 等人, 2007 ; Okou 等人, 2007 ; Porreca 等人, 2007 ; Gnirke 等人, 2009)。在现有技术中, 捕获基因组 DNA 所需的饵探针是在高密度基因芯片上 原位合成的 DNA 寡聚体。相反, 根据本发明, 用于捕获基因组 DNA 的靶标区域的饵探针是从 cDNA 库或其它类型的 DNA 模板产生的。现有技术中使用的方法与本发明相比具有以下缺 点:
(1) 生产高密度寡聚体基因芯片需要非常昂贵和专业的基因芯片生产机器。 但是, 本发明的方法不需要这样的专业机器, 因此显著降低了操作成本, 这能够使捕获的 DNA 片 段获得广泛应用, 例如下一代的测序系统。
目前, 只有少数几个公司具有生产高密度寡聚体基因芯片的核心技术。为了在高 密度微阵列基因芯片上原位合成大量的寡聚体探针, 需要大量的资金和操作规模以运行寡 聚体合成机器。 但是, 根据本发明的方法使世界上大量的具有常规设备的小规模实验室、 公 司、 医院和其它使用者能够进行大规模的基因捕获和 / 或选择性靶标基因系列 ( 或基因组 区域 ) 的捕获以用于遗传、 诊断和其它分析。该方法尤其适合于选择性捕获高度选择性的 靶标基因系列, 例如与特定疾病相关的基因, 或相关疾病的特定系列, 或可能产生对疾病的 易感性的遗传标记物。在这样的应用中, 通常要靶向数百个基因的系列, 这使得使用 cDNA 模板库的方法尤其适合于实际操作。
(2) 在高密度微阵列中使用短探针限制捕获 DNA 片段的有效性和特异性。 但是, 根 据本发明, 使用长 cDNA 模板以产生饵探针的方法增加了捕获 DNA 片段的特异性和有效性。
通过照相平版印刷法原位合成的寡聚体杂交探针用于产生置于高密度微阵列基
因芯片上的杂交饵探针 (Albert 等人, 2007 ; Okou 等人, 2007 ; Porreca 等人, 2007 ; Gnirke 等人, 2009)。为了捕获靶标基因组 DNA 片段的目的, 故意将寡聚体探针的长度增加至大约 80 个碱基对 (bp) 甚至更长 (Gnirke 等人, 2009), 以确保更有效地捕获 (Albert 等人, 2007 ; Okou 等人, 2007 ; Porreca 等人, 2007)。合成更长的探针是技术上的挑战, 并且基因芯片的 生产会更加昂贵。
已经知道高密度寡聚体微阵列捕获物含有大约一半的不是来自想要的靶标的 DNA 片段 (Albert 等人, 2007 ; Okou 等人, 2007 ; Porreca 等人, 2007)。 短的寡聚体 DNA 探针的使 用是引起污染问题的部分原因。
相反, 根据本发明, 使用了比现有技术中使用的 DNA 寡聚体探针 (Albert 等人, 2007 ; Okou 等人, 2007 ; Porreca 等人, 2007) 长得多的全长 cDNA 探针或长的 DNA 探针缓解 了上述问题。通过使用典型长度为 2,000bp 的饵探针, 通过使用更严谨的杂交条件, 改进了 杂交步骤中捕获的特异性。本发明的方法使用的长的 DNA 探针还确保了可以使用高度严谨 杂交条件, 在该条件下靶标 DNA 片段仍然能够与探针结合。这些高度严谨杂交条件应该能 够减少非特异性结合, 从而减少非靶标基因组区域的非特异性捕获。
由于捕获基因组和线粒体 DNA 片段时不需要可表达的和 100%无误差的 DNA 克隆, 所以显著减少了获得代表任意特定生物物种所表达的完整基因系列的 DNA 库所需的工作 量。另外, 现在已经可以在公开市场通过商业渠道获得一些物种的很多基因的全长 cDNA 或 开放读码框 cDNA 克隆。通过从商业渠道直接购买这些克隆, 更大的缩短了完成构建 DNA 探 针库所需的时间。
(3) 现有技术中使用的高密度微阵列基因芯片上的小的斑点尺寸显著限制了捕获 的能力和完整性。 但是, 根据本发明的方法能够使尺寸大得多的斑点置于固体表面上, 甚至 使用 cRNA 探针在溶液中进行杂交。
对于 500k- 探针高密度微阵列基因芯片来讲, 每个部件的典型斑点尺寸是大约 2 15x18μm( 或 270μm )(Cutler 等人, 2001)。 更高的密度和更大的斑点尺寸是两个不可兼得 的要求。 对于目前市场上最先进的微阵列基因芯片来讲, 一个基因芯片上组装了 2,100,000 个探针, 对于每个部件来说斑点更小。这些超高密度基因芯片的价格也更加昂贵。小的斑 点尺寸会降低捕获能力, 特别是需要使用更大量的基因组和线粒体 DNA 作为下游应用的材 料的时候。
在本发明中, DNA 探针斑点以低得多的密度被固定于玻璃片上, 或者被固定于玻璃 珠的表面上, 或者这些探针被固定于多孔板的孔的表面。通过常规阵列点样机点印的探针 将具有大得多的表面积 ( 对于玻璃片上的每个探针来讲 ), 因为探针斑点的密度低得多。 通 过常规阵列点样机产生的斑点尺寸是可以调节的, 通常比 500k 微阵列基因芯片上产生的 斑点大 50 倍。通过使用玻璃珠、 薄膜和多孔板可以为杂交探针提供更大的表面积。所有这 些因素均有助于获得更高的 DNA 捕获能力。
如果 RNA 杂交探针用于捕获基因组 DNA 片段, 则可以在液体溶液中直接使用这些 探针而不首先将其固定在固体材料上。在液相中进行的 DNA 捕获的能力将会更高。
当成本是一个重要的考虑因素时 ( 任何成功的商业操作一向如此 ), 每个基因芯 片能够捕获的 DNA 片段的饱和量成为重要问题。例如, 两个商业渠道可获得的大规模并行 DNA 测序系统 (SOLiD 系统和 Illumina 系统 ) 的最低起始 DNA 数量为 0.1μg。人类的外显子大约为总基因组的 2%。 对于从 2 毫升人类唾液或血液样品中通常可以获得的 40-100μg 基因组 DNA 来讲, 其中 0.8-2μg 应该是外显子区域。这至少比用于下游遗传分析的基因组 DNA 的最低数量高 8 倍。 因此, 如何在尽可能少的机器操作轮次中尽可能完全地捕获所有的 基因组 DNA 和线粒体片段对于成功进行所有外显子系列的分析是至关重要的。由于每次机 器运行的成本是大约 $8,000-10,000, 所以更少的机器运行将显著降低操作成本。
由于本发明的方法可以捕获更多的靶标基因组 DNA, 所以在很多情况下可能不需 要在将样品送去进行大规模并行测序之前进行 PCR 扩增。避免过多的 PCR 步骤对于测序应 用是至关重要的, 因为 PCR 扩增之后不同基因之间的相对量的差异通常为至少 100 倍。这 为基于克隆单一分子测序方法的下一代测序 ( 以覆盖所有需要的靶标 ) 提供了取样偏向。
(4) 现有技术使用的高密度微阵列基因芯片的能力不足以在单一基因芯片上捕获 人类外显子的完整集合 ( 人类外显子组 )。 但是, 根据本发明的方法提供了捕获人类外显子 的完整集合的能力, 因为使用了从 cDNA 模板产生的长的饵探针。这显著降低了操作成本。
在现有技术中, 叠瓦式 (tiling) 探针或非叠瓦式探针跨越覆盖整个基因, 通常具 有不超过 10bp 的缝隙间隔。这是因为探针之间的更大的间隔或针对给定区域的单一探针 将降低捕获全部基因的机会。假设寡聚体探针的间隔为 10bp, 则 500k- 探针阵列最大可以 捕获 5,000,000bp 的长度。通过相同的分析可以得知, 2,000,000- 探针高密度微阵列基因 芯片可以捕获 20,000,000bp。这对于捕获人类外显子的全部集合所需的 60,000,000bp 仍 然是不足的。 所以, 要么是降低对间隔的要求, 要么通过使用多个寡聚体高密度微阵列完成 全部外显子组的捕获。这些方案要么降低有效捕获的机会, 要么显著增加操作成本。对于 目前市场上最流行的 500k 微阵列来讲, 需要 10-12 个基因芯片以捕获人类外显子的全部集 合。
相 反, 典 型 的 基 因 芯 片 点 样 机 ( 例 如, Genomics Solutions 生 产 的 OmniGrid Arrayer OGR-03) 能够将至少 80,000 个斑点点印在常规玻璃片上。平均来讲, 每个人类基 因将在玻璃片上具有一个以上的斑点, 因为估计人类基因的总数时大约 30,000。 因此, 本发 明实现了使用点印于单一玻璃片上的单一杂交阵列捕获所有人类外显子的能力。 这个覆盖 能力不是通过使用更多的探针实现的, 而是通过使用更长的和 / 或全长的 DNA 探针实现的。
(5) 已知点印于高密度微阵列上的寡聚体探针产生不一致的捕获。 但是, 根据本发 明的方法提供了解决这个问题的灵活性。
最近发表的论文均承认捕获中的不均一性是有效利用下一代测序平台的重大阻 碍 (Porreca 等人, 2007) 和 (Albert 等人, 2007 ; Porreca 等人, 2007)。但是, 根据本发明, 可以调整相对捕获效率从而确保在所有基因靶标上的一致性捕获。 这是通过调整放置于阵 列设计中的基因的相对比例实现的。 通过增加那些始终表现出较低捕获效率的针对外显子 和基因组区域的探针的数目, 可以调节并改进捕获的一致性。
总之, 本发明提供了使用从模板 DNA 克隆产生的杂交 DNA 和 RNA 探针选择性捕获 并扩增来自任意生物物种 ( 包括动物、 植物、 真菌、 原生动物、 古生菌和真细菌 ) 的基因组、 线粒体和其它形式的 DNA 的所有外显子、 外显子的任意子集、 或任意其它目标区域的方法。
以上的本发明的示例性具体实施方式的描述仅是为了解释和描述本发明的目的, 不是为了穷举或将本发明限制在所公开的确切形式上。 根据以上教导可进行很多修饰和改 变。具体实施方式的选择和描述是为了解释本发明的原理及其实际应用, 从而使本领 域其它技术人员应用本发明和各种具体实施方式并进行适合于所考虑的特定用途的各种 修饰。不脱离本发明的精神和范围, 替代性的具体实施方式对于本发明所属领域技术人员 将是显而易见的。 因此, 本发明的范围由随附的权利要求限定, 而不是由以上的说明书和其 中描述的示例性具体实施方式所限定。
参考文献
Albert TJ, Molla MN, Muzny DM, Nazareth L, Wheeler D, SongX, Richmond TA, Middle CM, Rodesch MJ, Packard CJ, WeinstockGM, Gibbs RA(2007)Direct selection of human genomic loci bymicroarray hybridization.Nat Methods 4 : 903-905.
Cutler DJ, Zwick ME, Carrasquillo MM, Yohn CT, Tobin KP, Kashuk C, Mathews DJ, Shah NA, Eichler EE , Warrington JA , Chakravarti A(2001)High-throughput variation detection andgenotyping using microarrays.Genome research 11 : 1913-1925.
Gnirke A, Melnikov A, Maguire J, Rogov P, LeProust EM, Brockman W, Fennell T, Giannoukos G, Fisher S, Russ C, Gabriel S, Jaffe DB, Lander ES, Nusbaum C(2009) Solution hybrid selection withultra-long oligonucleotides for massively parallel targeted sequencing.Nature biotechnology 27 : 182-189. Margulies EH, Vinson JP, Miller W, Jaffe DB, Lindblad-Toh K, Chang JL, Green ED, Lander ES, Mullikin JC, Clamp M(2005)Aninitial strategy for the systematic identification of functional elementsin the human genome by low-redundancy comparative sequencing.Proceedings of the National Academy of Sciences of the United Statesot America 102 : 4795-4800.
Okou DT, Steinberg KM, Middle C, Cutler DJ, Albert TJ, ZwickME(2007) Microarray-based genomic selection for high-throughputresequencing.Nat Methods 4: 907-909.
Porreca GJ, Zhang K, Li JB, Xie B, Austin D, Vassallo SL, Leproust EM, Peck BJ, Emig CJ, Dahl F, Gao Y, Church GM, Shendure J(2007)Multiplex amplification of large sets of human exons.Nat Methods.
Stephens M, Sloan JS, Robertson PD, Scheet P, Nickerson DA(2006)Automating sequence-based detection and genotyping of SNPsfrom diploid samples.Nature genetics 38 : 375-381.