1、(10)申请公布号 CN 102776270 A (43)申请公布日 2012.11.14 CN 102776270 A *CN102776270A* (21)申请号 201110123176.2 (22)申请日 2011.05.12 C12Q 1/68(2006.01) C12M 1/34(2006.01) G06F 19/18(2011.01) (71)申请人 中国科学院上海生命科学研究院 地址 200031 上海市徐汇区岳阳路 320 号 申请人 上海生物芯片有限公司 (72)发明人 刘世旭 肖华胜 李明辉 邵祥强 林剑 (74)专利代理机构 上海专利商标事务所有限公 司 31100 代
2、理人 崔佳佳 (54) 发明名称 检测 DNA 甲基化的方法和装置 (57) 摘要 本发明公开了检测 DNA 甲基化的方法, 用于 检测 DNA 甲基化的装置。所述方法包括获得细胞 和组织的甲基化 DNA 富集样本的测序数据的步骤 和筛选可信甲基化位点的步骤 ; 所述装置包括用 于执行获得细胞和组织的甲基化 DNA 富集样本的 测序数据的步骤的组件 ; 和用于执行筛选可信甲 基化位点的步骤的功能模块。 (51)Int.Cl. 权利要求书 1 页 说明书 21 页 附图 6 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 21 页 附图 6 页 1/1
3、 页 2 1. 一种检测全基因组 DNA 甲基化位点的方法, 该方法包括 : 1) 获得细胞或组织的甲基化 DNA 片段的富集样本以及获得片段信息的步骤 ; 和 2) 筛选可信甲基化位点的步骤 ; 其中步骤2)包括 : 获得甲基化DNA片段在基因组上的坐标, 即, 染色体编号, 起始位点, 终止位点和方向 ( 正义或反义链 ) ; 再进行位点识别与可信度打分, 根据预先设定好的阈 值, 筛选出可信的甲基化位点 ; 其中位点识别与可信度打分包括 : a-1. 划分 CpG 簇 将基因组上 CpG 位点划分为 N 个子集 (Pi, i 1.N), 要求每个子集内部的位点在染 色体上连续排列, 且相
4、邻两个位点之间距离小于等于 L, 而任意两个子集中的位点之间的距 离大于 L, 按照上述方法划分出的一个子集定义为 CpG 簇, CpG 簇中相距最远的两个位点在 染色体上所跨越的范围定义为 CpG 簇区域 ; a-2. 获得各 CpG 簇区域的覆盖度 对于一个 CpG 簇, 其 CpG 簇区域在染色体上的起点为 Si, 终点为 Ei, 获取所测序列中比 对起点位点落于 Si-21, Ei+21 范围内的序列子集 R, 1 为超声破碎后片段的片段长度的期 望值, 获得 CpG 簇区域的覆盖度 ; a-3 划分子区域 将基因组划分为 N 个区域 (Qj, j 1.N ), 每个区域内, 相邻两个
5、 CpG 位点间距离 小于等于 L , 而任意两区域内的 CpG 位点间距离大于 L , 并且满足 L L ; a-4 获得各子区域的覆盖度 具体步骤同 a-2 ; a-5 获得各 CpG 簇包含甲基化位点的概率 对于一个子区域 Qj, 其覆盖度为 C, 它包含了 k 个 CpG 簇区域 Pi(i 1.k), 各 CpG 簇 区域覆盖度为 ci, 获得 Pi包含甲基化位点的概率。 2. 如权利要求 1 所述的方法, 其特征在于, 所述细胞或组织是肝癌细胞或组织。 3. 如权利要求 1 或 2 所述方法, 其特征在于, 步骤 1) 包括 : 1-1. 提取和纯化待测动物细胞或组织的 DNA ;
6、1-2.DNA 的片段化 ; 1-3. 亲和层析柱的准备 ; 1-4. 甲基化 DNA 的富集 ; 和 1-5. 富集样本的测序。 4. 如权利要求 3 所述的方法, 其特征在于, 所述步骤 1-3 包括利用 MBD2b 蛋白。 5. 一种用于检测全基因组 DNA 甲基化位点的装置, 所述装置包括 : 1) 用于执行获得细胞或组织的甲基化 DNA 富集样本的测序数据的步骤的组件 ; 和 2) 用于执行筛选可信甲基化位点的步骤的功能模块。 6. 如权利要求 5 所述的装置, 其特征在于, 所述细胞或组织是肝癌细胞或组织。 7. 如权利要求 5 或 6 所述的装置, 其特征在于, 所述组件 1)
7、包含 MBD2b 蛋白。 权 利 要 求 书 CN 102776270 A 2 1/21 页 3 检测 DNA 甲基化的方法和装置 技术领域 0001 本发明涉及 DNA 检测领域, 更具体地说, 本发明涉及检测 DNA 甲基化的方法和装 置。 背景技术 0002 一 .DNA 甲基化与癌症 0003 5- 甲基胞嘧啶是在 DNA 转甲基酶的催化作用下, 某些胞嘧啶被转移上一个甲基所 得的产物 ( 图 1), 许多人称为 “第五种碱基” 1, 它的形成过程被称为 “DNA 甲基化” 。研究 证实, 在哺乳动物和植物基因组中, 包含约 1 -6的 5- 甲基胞嘧啶 2, 它通过参与基因 表达的调
8、控而影响生物体的发育、 遗传、 细胞的新陈代谢等过程 3, 它的重要作用在近年 来已经逐渐被人们重视, 成为新的研究热点。 0004 根据目前的研究结果, 5- 甲基胞嘧啶在转录水平抑制基因表达的机制主要有 : 1. 阻碍转录复合物 (CF、 CA 等 ) 与转录因子 (E2F 等 ) 结合 4 ; 2. 与甲基化结合蛋白相结 合, 激发去乙酰化酶作用, 改变染色质的结构, 阻止转录进行 5 ; 3. 在其他条件的诱导下, 甲基化区域发生去乙酰化作用, 组蛋白空间上变得紧密, 使染色质结构改变从而抑制转录 6。 0005 DNA 甲基化与癌症发生有密切的关系, 早在上世纪 80 年代, 研究人
9、员利用高效液 相色谱方法 (High performance liquid chromatography, HPLC), 比较研究肿瘤细胞和正 常细胞的 5- 甲基胞嘧啶的含量, 发现肿瘤细胞, 尤其是开始发生癌转移的恶性肿瘤细胞基 因组中, DNA 甲基化水平显著低于正常细胞 7。L Dubeau, Efiala 等人检测了 19 组卵巢 癌与正常卵巢表皮细胞的甲基化水平, 有 17 组癌细胞的全局 DNA 甲基化水平低于正常细 胞 8, 同样, Cheng 等发现卵巢癌细胞中的 5- 甲基胞嘧啶含量与正常细胞相比, 平均少了 25 9。 0006 基因组的全局低甲基化现象在许多不同种类的癌
10、症中都有报道, 包括前列腺癌 10, 白血病 11, 肝癌 12, 宫颈癌 13 等等, 但同时局部的高甲基化也与疾病相关。 0007 在哺乳动物中, DNA 甲基化只发生在 CG 二核苷酸的胞嘧啶上 14, 在他们的基因 组中, 存在一些 CG 特别密集的区域, 被称作 CpG 岛 (CpG island), 国际上, 对于 CpG 岛有一 个统一的定义 15 : 1. 长度大于 500bp ; 2.CG 含量超过 55; 3.CG 出现数目的观察值与期 望值的比大于 0.65。 0008 据统计, 人类基因组中含有约 3 万个 CpG 岛。在正常组织中, 位于基因启动子区域 的 CpG 岛
11、通常是非甲基化的, 然而在肿瘤细胞中, 经常会观察到这些区域的过甲基化现象 14。Costello 等对 98 对原发性肿瘤细胞 ( 包括乳腺癌, 结肠癌, 睾丸癌, 肝癌, 肺癌等 ) 与正常组织细胞中 1200 个随机选取的 CpG 岛做研究 16, 发现了不同程度的高甲基化现 象, 在同类型的肿瘤细胞中, 甲基化水平也存在极大差异, 甲基化程度最高的是结肠癌, 而 睾丸癌相对较低, 只有 12 个 CpG 岛过量甲基化。发生高甲基化的 CpG 岛通常都位于基因的 5 端附近, 或是转录起始位点, 并且, 不局限于那些已知的癌症相关基因, 一些与肿瘤似乎 说 明 书 CN 10277627
12、0 A 3 2/21 页 4 并不相关的基因也有过甲基化, 如 MYOD 等 17, 另外, 乳腺癌细胞中, 核糖体基因 5 端 CpG 岛也被报道存在高水平甲基化 16、 18。 0009 二 .DNA 甲基化与非侵入性产前诊断 0010 非侵入性产前检验对于包括妊娠期间并发症和胎儿遗传缺陷在内的妊娠相关状 况的早期检测至关重要, 因为这样能对母亲和胎儿进行早期医学干预。然而, 常规检测方 法是侵入性的, 对母亲和胎儿均有风险。国家卫生局 (The National Health Service) 最 近指出在侵入性羊膜穿刺和绒膜绒毛取样 (CVS) 检验后有 1-2的流产率。Lo 等 19
13、 和 美国专利 6,258,540 指出可在母体血浆和血清中检测循环无细胞胎儿核酸, 已经开发了 这些侵入性方法的备选方法进行产前筛选, 例如检测胎儿异常。PCT 专利申请国际公布号 WO2010/033639 描述了胎儿和母亲之间显示不同 CpG 甲基化模式的基因组 DNA, 因此, 可根 据母体样品中核酸的甲基化状态检测和定量测定所述样品中的胎儿核酸。 0011 三 .DNA 甲基化的研究方法 0012 在过去几年, 人们已经发明出一系列方法用于 DNA 甲基化的研究, 这些方法可以 大致概括为两步, 第一步是对基因组 DNA 进行处理, 甲基化位点和非甲基化位点处理后的 结果会有区别,
14、而第二步是用实验手段让这种区别体现出来。 0013 1. 基因组 DNA 处理方法 : 0014 目前的基因组DNA处理方法大致有以下三种 : 1)甲基化特异性酶切法。 其依据是, 一些限制性内切酶的敏感位点包含 CG 位点, 当胞嘧啶被甲基化修饰后, 会影响酶对位点的 识别, 因此, 只有非甲基化区域会发生酶切作用, 甲基化位点完全不受影响。此方法所使用 的两个经典酶对是 Hpa II-MspI(CCGG) 和 Sma I-Xma I(CCCGGG)20, 由于第二对限制酶 识别序列非常罕见, 所以一般使用 Hpa II-MspI(CCGG)。这种方法简便易行, 但受到酶切位 点序列的限制,
15、 如对于Hpa II-MspI来说, 只能检测CCGG形式的序列区域, 应用范围比较狭 窄。 2)亚硫酸盐转换法。 亚硫酸盐能够将未甲基化的胞嘧啶转为尿嘧啶1, 经过PCR扩增 反应后, 尿嘧啶即转为胸腺嘧啶, 而对于甲基化修饰过的胞嘧啶则不会发生改变, 因此从序 列的差异上就能判断出哪些 CG 中的胞嘧啶为 5- 甲基胞嘧啶。此法可靠性与精确性极高, 亚硫酸盐测序方法称为目前 DNA 甲基化研究的金标准。然而如果要检测全基因组的位点, 则需耗费大量的试剂, 时间与人力, 成本问题是该方法的瓶颈。3)DNA 甲基化结合蛋白富集 法。此法类似于染色体免疫共沉淀 (Chromatin Immuno
16、Precipitation, ChIP) 方法, 先将 DNA 打断, 用能够识别甲基化位点的 DNA 结合蛋白 21( 如 5- 甲基胞嘧啶抗体, 或 MBD 蛋 白等 ) 对 DNA 片段进行富集。富集区域所在染色体坐标通常就是甲基化位点。这种方法常 用于全基因组甲基化谱的绘制, 本发明对基因组 DNA 处理采用的是此方法。该方法弥补了 Bisulfite-seq 的缺陷, 能够高通量检测全基因组的位点, 然而位点识别的准确度却大大降 低了。 主要原因是富集度达不到预期要求, 芯片质量参差不齐, 同时缺少有效地芯片数据分 析方法, 因而只有当存在足够量的生物学重复的前提下, 该方法的结果才
17、能令人满意。 0015 2. 检测位点的方法 0016 检测位点大致可分为低通量和高通量两种方法 : 0017 2.1 低通量方法 0018 此法包括 : 电泳、 一代测序和 PCR 等, 较为常用的亚硫酸盐测序 (BSP) 及甲基化特 异性 PCR(MSP)22 即属于这类方法。 说 明 书 CN 102776270 A 4 3/21 页 5 0019 BSP 方法指在 DNA 经过亚硫酸盐转换后, 用一代测序检测序列与参考序列的差异 : 如果参考序列为胞嘧啶 (C), 测序结果为胸腺嘧啶 (T), 表示该处为非甲基化位点, 若测序 结果仍为胞嘧啶 (C), 此处可以认定为甲基化位点 1。
18、0020 MSP 方法也是由亚硫酸盐处理, 然后设计两种不同的引物, 分别针对甲基化和非甲 基化两种情况下的序列, 对 DNA 进行扩增, 根据两种引物条件下的扩增情况即可判断是否 被甲基化修饰 22。 0021 此类方法规模较小, 但是准确性高, 通常用于个别基因或 CpG 岛区域的甲基化水 平检测。 0022 2.2 高通量方法 0023 包括芯片检测和高通量测序两类。各大基因芯片制造商如 Nimblegen、 Agilent、 Affymetrix 等都有成熟的商业化芯片可以检测甲基化富集位点。他们主要采用的是 TileArray 技术, 即对预先设计好的基因组区域, 用平铺法设计探针
19、23。杂交后, 富集区 域的探针信号会显著高于其余探针, 用合适的统计学方法对数据进行分析, 即可得到甲基 化位点所在坐标。 0024 Xiaoyu Zhang 等 2006 年用 5- 甲基胞嘧啶抗体结合 TileArray 芯片的方法 ( 称 为 MeDIP-chip) 绘制了第一副拟南芥全基因组甲基化图谱 24, 此后, 人们将该技术及其 改进方法用于各物种全基因组 DNA 甲基化的研究, 得到了许多重要成果。 0025 然而, 芯片检测法受到设计区域的限制, 对于大型哺乳动物, 目前制作工艺还不能 使芯片覆盖到整个基因组, 因而通常选取 CpG 岛和基因启动子区域进行设计。近年来高通
20、量测序技术逐步成熟, 在许多方面的研究都有取代芯片的趋势。对于 DNA 甲基化来说, 高通 量测序没有检测区域的限制, 并且比芯片检测结果更为准确 25。 0026 目前高通量测序技术较为成熟的有 Roche 公司的 454, Illumina 公司的产品 GenomeAnalyzer, 和 Applied Biosystem 公司的 SOLiD, 后两种产品一次测序数据都可以达 到30G以上, 相当于覆盖了基因组10倍, 同时错误率也可以控制在0.01以内, 这已经完全 满足了我们检测需求。 0027 Cokus 等用亚硫酸盐处理后结合高通量测序方法 ( 称为 BS-seq 或 Methyl
21、C-seq) 绘制了拟南芥的单碱基分辨率级别的甲基化图谱 26, Meissner 等人用同样的方法绘制 了小鼠基因组部分区域的甲基化谱 27, 这些研究人员的尝试让人们看到全基因组高分辨 率甲基化谱绘制的可能性。Ryan Lister 等首次使用该方法绘制了人类 H1 干细胞和 IMR90 胎儿肺纤维原细胞的甲基化谱, 他们对每个细胞系产生了将近 90G 数据, 包含 12 亿条短序 列 (Short Reads), 覆盖了 86的基因组范围 28。 0028 BS-seq 作为目前通量最高, 准确性最好, 分辨率最大的技术, 其成本问题是它主要 的瓶颈, 对于大型哺乳动物, 需要进行多轮测
22、序才能获取一组样本的甲基化谱, 如果有大量 样本需要检测, 该方法所耗的人力及财力是无法令人接受的。此时人们想到了一些较为折 中的方法, 如 Capture-BS-seq, MeDIP-seq, MBD-seq 等, 他们牺牲了诸如覆盖度, 分辨率等 一些特性, 来换取成本的降低。Emily 等人用自行设计的微阵列, 随机抓取了 324 个 CpG 岛 的 DNA 片段, 用 BS-seq 分析其甲基化水平, 这种方法即是 Capture-BS-seq。当研究者只关 心基因组上一部分区域, 如启动子区, 重复区或是 CpG 岛的甲基化位点时, 没有必要对整个 基因组进行深度测序, 用此法既能获
23、取到单碱基分辨率的甲基化位点, 又大大节省了成本 说 明 书 CN 102776270 A 5 4/21 页 6 29。MeDIP-seq 是用 5- 甲基胞嘧啶对 DNA 富集, 再结合高通量测序的方法, 他所产生的 全基因组甲基化谱分辨率较低, 通常用若干可能包含甲基化位点的区域来表示, 无法得到 具体的 5- 甲基胞嘧啶的坐标, 因此如果研究人员只关心 DNA 甲基化水平存在差异的区域, MeDIP-seq 将是比较合适的选择。MBD-seq 与 MeDIP-seq 非常类似, 差别在于用甲基化结合 蛋白 MBD 代替 5- 甲基胞嘧啶抗体对 DNA 片段进行富集。 0029 四 . 甲
24、基化结合蛋白家族 (Methyl-CpG-Binding Domain, MBD) 0030 20 世纪 90 年代初, 人们发现了两种对甲基化 DNA 有亲和性的蛋白质, 称为 MeCP1 和 MeCP230。MeCP1 是由许多复杂亚结构组成的复合蛋白, 他的具体结构至今仍存在争议 31。MeCP2 的质量约为 55kDa, 它能特异性的结合于甲基化修饰的 CpG 位点 32。通过对 MeCP2 结构的仔细研究, 发现在其 N 端存在一个大约 70 个残基构成的功能域, MeCP2 与 DNA 的结合主要依赖于该结构, 于是将它称作甲基化结合蛋白 (MBD)33。 0031 研究人员用MB
25、D的氨基酸序列在蛋白数据库中搜索, 发现了一种蛋白, 其N端具有 一个与 MBD 非常相似的结构, 开始人们称其为 PCM1( 含 MBD 的蛋白质 ), 后来简称为 MBD1, 体外实验表明, 该蛋白能够与甲基化DNA结合, 并抑制其转录33。 通过进一步对EST数据 库的搜索, 人们发现了另外三种基因, 他们编码出的蛋白也具有类似 MBD 的结构, 分别被称 作 Mbd2、 Mbd3 和 Mbd434。序列的对位排列结果 ( 图 2) 显示 Mbd4 和 MeCP2 的 MBD 结构 接近, 而 Mbd1, Mbd2, Mbd3 的 MBD 更为接近 34。 0032 Hendrich 等
26、人用凝胶滞后分析 (gel retardation assay) 方法, 研究五种蛋白对 甲基化DNA的亲和能力, 发现在体外, 只有Mbd3无法与甲基化DNA形成聚合物34, 这个结 果非常出乎人们的意料, 因为 Mbd3 与另一种有甲基化 DNA 亲和能力的 MBD2b 蛋白有极高的 相似度, 尤其是他们的MBD功能域, 其原因目前尚未研究清楚, 不过有一些假说认为Mbd3可 能是专门识别一些特征序列。 0033 五 .DNA 甲基化富集测序分析方法 0034 DNA 甲基化富集测序根据所使用的蛋白不同可分为, MeDIP-seq 及 MBD-seq, 前者 使用的是 5- 甲基胞嘧啶抗体
27、, 后者使用的是甲基化结合蛋白 (MBD)。由于其实验步骤与免 疫共沉淀测序 (ChIP-seq) 大致相同, 数据分析也大多采用 ChIP-seq 的方法。 0035 1.DNA 甲基化富集测序分析基本步骤 0036 Shirley Pepke 等在其 2009 年发表在 Nature 上的一篇综述中, 将 ChIP-seq 数据 分析算法总结为五个基本步骤 35 : 0037 1.1 平滑信号谱 0038 测序所得短序列与参考序列比对后, 得到每条序列的基因组坐标, 扫描整个基因 组可获取每个碱基的覆盖度, 该值与 ChIP-chip 中的探针信号值相类似, 于是通常我们也 习惯地将覆盖度
28、称为信号。 但是, 覆盖度由整数表示, 是离散的, 为了将其连续化, 我们会采 用一些平滑算法, 比较常用的是移动平均值法, 即计算每个位点周围一个固定长度窗口内 的信号平均值, 作为平滑后的信号。 0039 1.2 估计背景值 0040 背景值是由于富集不完全造成, 并且也是无法避免的。如果实验设计中有对照样 本, 则可以直接把对照的信号作为背景, 否则, 需要对信号的分布建立模型, 估计出每个位 点的噪声范围。 说 明 书 CN 102776270 A 6 5/21 页 7 0041 1.3 设定阈值, 进行初步筛选 0042 得到背景之后, 将信号值减去背景, 高于预先设定的阈值, 那么
29、将此位点作为候选 进入下一步分析 0043 1.4 依据一定原则过滤初筛结果 0044 双链对称性是比较常用的原则, 它的依据是富集片段属于正义链和负义链的概率 相等, 于是比对结果中两条链上序列数目应该接近。一些双链数目明显不等的区域很可能 是由于比对错误, 或扩增时引入的序列偏性导致的, 可以从候选位点中剔除。 0045 1.5 计算每个位点的可信度 (P-value) 0046 可信度的评估是为了进一步筛选富集位点, 通常根据信号的分布, 信号与背景的 差异程度来计算得出。设定合适的可信度阈值, 可以减少最后结果中的假阳性率。 0047 多数 ChIP-seq 分析工具及算法都遵循这五个
30、基本步骤, 只是在每一步中采用了 不同的算法, 以期获得更高的检出率, 同时降低假发现率。 MACS(Model-based Analysis of ChIP-seq) 是使用较为广泛的一个算法 36。它首先根据序列的分布计算出位点的中心, 然后将序列平移至该中心附近, 这一做法符合 ChIP-seq 的数据特点, 因为通常测序长度小 于富集片段的长度, 因此需要将正义链序列向 3 平移, 负义链序列向 5 端平移。平移之后, 计算每个位点的信号值, 用泊松分布对信号建模, 计算每个位点属于富集区域的可信度。 0048 除 MACS 外还有诸如 Cisgenome, ERANGE, GLITR
31、, PeakSeq, QuEST, SiSSRs, spp, USeq 等其他算法, 各自具有不同特点 37、 38。 0049 ChIP-seq 分析方法统计整个基因组被序列覆盖的情况, 按照一定的算法找出覆盖 度特别高的区域, 称为峰 (Peak), 而这些区域就被认为是可能的甲基化位点。在 DNA 富集 程度较高, 测序质量较好的情况下, 所找到的位点确实有比较高的准确度。然而, 实际应用 过程中, 这种方法存在以下不足 : 第一 . 没有考虑序列构成。DNA 甲基化发生在胞嘧啶, 对 于哺乳动物, 则只发生在 CG 双核苷酸的胞嘧啶上。但是即使某一区域不含 CG, 用 ChIP-seq
32、 方法也有可能被认定为甲基化位点 ; 第二.在覆盖度不高的区域, 检出率相对较低。 多数算 法采用的是通过比较局部与总体覆盖度的差异, 来判断是否是富集区域, 当这种差异不是 非常显著时, 通常算法拒绝认为这是一个甲基化位点 ; 第三 . 当需要比较两组样品的甲基 化情况时, 由于找到的位点位置并不对应, 会带来一定的困难。总结以上三点不足, 我们认 为最主要的原因在于, ChIP-seq 的分析方法是一种相对通用的方法, 对于甲基化数据的研 究固然适用, 但是这样就没有利用好甲基化数据本身的特征。 0050 2. 其他算法 0051 并非所有的 DNA 甲基化富集测序数据分析都采用与 ChI
33、P-seq 相同的方法。 Yoshinao 等用 MeDIP-seq 研究人类乳腺癌细胞的 DNA 甲基化水平变化情况 39, 他们测得 了将近1亿条序列, 测序深度达到12倍。 序列比对之后, 他们将基因组划分成若干个100kb 的区域, 统计每个区域内的序列数目, 通过与对照组对比, 并设定 2 倍作为阈值, 得到片段 富集区域。 这种方法有利于多个样本之间的比较, 但只适用于数据量充足, 基因组覆盖较完 全的情况下使用。 0052 Tomas A Down 等人通过观察 MeDIP-seq 数据和 BSP 验证得到的结果, 发现 MeDIP-chip和MeDIP-seq数据的信号值在一定
34、程度上与CG的密度相关, 他们用分别用线性 模型和二次模型对 CG 密度因子和信号值进行拟合, 发现在多数区域都能得到较好的拟合 说 明 书 CN 102776270 A 7 6/21 页 8 结果。于是他们用贝叶斯概率模型计算在试验观察到的数据下, 各位点的甲基化程度 ( 用 后验概率表示), 通过与BSP数据对比, 发现结果吻合, 他们的算法被称作BATMAN(Bayesian tool for methylation analysis)40。 0053 综上所述, 本领域迫切需要一种能够快速、 高通量且可靠地检测并分析全基因 DNA 甲基化位点的方法。 发明内容 0054 本发明的一个目
35、的是提供一种检测全基因组 DNA 甲基化位点的方法。 0055 本发明的另一目的是提供一种检测肝癌细胞或组织的全基因组 DNA 甲基化位点 的方法。 0056 本发明还有另一目的是提供一种用于检测全基因组 DNA 甲基化位点的装置。 0057 本发明还有另一目的是提供一种用于检测肝癌细胞或组织的全基因组 DNA 甲基 化位点的装置。 0058 因此, 在一方面, 本发明提供一种检测全基因组 DNA 甲基化位点的方法, 该方法包 括 : 0059 1) 获得细胞或组织的甲基化 DNA 片段的富集样本以及获得片段信息的步骤 ; 和 0060 2) 筛选可信的甲基化位点的步骤 ; 0061 其中步骤
36、 2) 包括 : 获得甲基化 DNA 片段在基因组上的坐标, 即, 染色体编号, 起始 位点, 终止位点和方向 ( 正义或反义链 ) ; 再进行位点识别与可信度打分, 根据预先设定好 的阈值, 筛选出可信的甲基化位点 ; 0062 其中位点识别与可信度打分包括 : 0063 a-1. 划分 CpG 簇 0064 将基因组上 CpG 位点划分为 N 个子集 (Pi, i 1.N), 要求每个子集内部的位点 在染色体上连续排列, 且相邻两个位点之间距离小于等于 L, 而任意两个子集中的位点之间 的距离大于 L, 按照上述方法划分出的一个子集定义为 CpG 簇, CpG 簇中相距最远的两个位 点在染
37、色体上所跨越的范围定义为 CpG 簇区域 ; 0065 a-2. 获得各 CpG 簇区域的覆盖度 0066 对于一个 CpG 簇, 其 CpG 簇区域在染色体上的起点为 Si, 终点为 Ei, 获取所测序列 中比对起点位点落于 Si-21, Ei+21 范围内的序列子集 R, 1 为超声破碎后片段的片段长度 的期望值, 获得 CpG 簇区域的覆盖度 ; 0067 a-3 划分子区域 0068 将基因组划分为 N 个区域 (Qj, j 1.N ), 每个区域内, 相邻两个 CpG 位点间 距离小于等于 L , 而任意两区域内的 CpG 位点间距离大于 L , 并且满足 L L ; 0069 a-
38、4 获得各子区域的覆盖度 0070 具体步骤同 a-2 ; 0071 a-5 获得各 CpG 簇包含甲基化位点的概率 0072 对于一个子区域Qj, 其覆盖度为C, 它包含了k个CpG簇区域Pi(i1.k), 各CpG 簇区域覆盖度为 ci, 获得 Pi包含甲基化位点的概率。 0073 在优选的实施方式中, 所述方法用于检测肝癌细胞或组织的全基因 DNA 甲基化位 说 明 书 CN 102776270 A 8 7/21 页 9 点。 0074 在优选的实施方式中, 所述方法的步骤 1) 包括 : 0075 1-1. 提取和纯化待测动物细胞及组织的 DNA ; 0076 1-2.DNA 的片段化
39、 ; 0077 1-3. 亲和层析柱的准备 ; 0078 1-4. 甲基化 DNA 的富集 ; 和 0079 1-5. 富集样本的测序。 0080 在另一优选的实施方式中, 步骤 1-3 包括利用 MBD2b 蛋白。 0081 在另一方面, 本发明提供一种用于检测全基因 DNA 甲基化位点的装置, 所述装置 包括 1) 用于执行获得细胞或组织的甲基化 DNA 富集样本的测序数据的步骤的组件 ; 和 2) 用于执行筛选可信甲基化位点的步骤的功能模块。 0082 在一优选实施方式中, 所述装置用于检测肝癌细胞或组织的全基因 DNA 甲基化位 点。 0083 在另一优选实施方式中, 所述装置中用于执
40、行所述细胞或组织的甲基化 DNA 富集 样本的测序数据的步骤的组件包含 MBD2b 蛋白。 0084 本发明的其它方面由于本文的公开内容, 对本领域的技术人员而言是显而易见 的。 附图说明 0085 图 1 显示胞嘧啶在 DNA 转甲基酶的催化作用下, 被转移上一个甲基, 成为 5- 甲基 胞嘧啶。 0086 图 2 显示五种甲基化 DNA 结合蛋白 (MeCP2、 MBD1、 MBD2、 MBD3 和 MBD4) 的 MBD 区 域的序列对位排列。 0087 图 3 显示覆盖度 5X 的情况。 0088 图 4 是 CpG 簇一致性系数的经验累积分布图, 曲线从上到下分别是 L 300、 2
41、75、 250、 225、 200、 175、 150、 125、 100、 75、 50 和 25 的情况。 0089 图 5 是在不同 L 值的条件下高一致性的 CpG 簇所占比例。 0090 图 6 是韦恩图。 0091 图 7 显示序列比对情况随错配数的累积变化。 0092 图 8 是各染色体上的覆盖比例柱状图, 黑色为肿瘤组织, 灰色为癌旁组织 ( 图中 “chr” 染色体 )。 0093 图 9 是在不同 P 值的阈值条件下, 所预测出的甲基化 CpG 位点所占比例。 0094 图 10 显示差异位点在各区域的比例。 0095 图11是过甲基化修饰的外显子根据编号分类的分布直方图,
42、 编号为1的柱形对应 于第一外显子的数目, 之后的柱形以此类推。 0096 图12是低甲基化修饰的外显子根据编号分类的分布直方图, 编号为1的柱形对应 于第一外显子的数目, 之后的柱形以此类推。 具体实施方式 说 明 书 CN 102776270 A 9 8/21 页 10 0097 发明人发现利用易于获取且价格低廉的 MBD2b 蛋白, 结合二代测序, 能够高通量, 准确地将富集结果与基因组位置对应, 再利用我们开发的 TAMD 方法, 所得的甲基化位点的 假阳性率可以降低到 0.1。在此基础上, 完成了本发明。 0098 除非另行定义, 文中所使用的所有专业与科学用语与本领域熟练人员所熟悉
43、的意 义相同。此外, 任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所 述的较佳实施方法与材料仅作示范之用。 0099 一 . 定义 0100 本文所用的术语 “TAMD 方法” 表示 MEDIP-seq 和 MBD-seq 数据分析工具 (Tools for Analyzing MeDIP-seq and MBD-seq Data)。 0101 本文所用的术语 “二代测序” 又称高通量测序, 其主要特点是, 能够同时对输入的 序列进行大规模并行测序, 并且所得结果为大量的(一般为2千万左右)长度不超过200bp 的短序列 (454 测序仪例外, 他的读长大于 1kbp, 但序
44、列较少, 在 200 万左右 )。 0102 本文所用的术语 “覆盖度” 指将二代测序所得序列与基因组序列进行比对, 得到每 条短序列的基因组坐标。 于是, 我们可以统计每个基因组位点有多少条序列比对上, 该数目 便称为覆盖度, 例如图 3 所示的是覆盖度 5X 的情况。 0103 本文所用的术语 “CpG 簇” 指基因组上连续分布且两两之间的距离不超过 L 的一 群 CpG 位点。参数 L 控制 CpG 簇内位点的数目, 其取值范围从 1 到无限大, L 等于 1 时, 一 个 CpG 位点即为一个 CpG 簇, 随着 L 增大, 一些分布较密的位点逐渐合并。根据文献报道, 一定区域内的 C
45、pG 甲基化状态高度相关 41, 因此, 当 L 取合适的值时, CpG 簇内的绝大多 数位点的甲基化状态一致, 在理想情况下, 我们便可用整个 CpG 簇包含甲基化位点的概率 来代替其中某个 CpG 被甲基化修饰的概率。 0104 经过 MBD 富集后, 有一些并不含有甲基化位点的片段会残留在结果中, 这些片段 我们在文中称作噪声片段。而本文所用的术语 “富集度” 指的是除去噪声片段后, 余下的片 段数与总的片段数之比。 一般来说, 在相同的实验条件下, 用同一批次蛋白得到的富集度比 较稳定, 它的数值可以通过实验测得, 我们的实验中富集度是 90。 0105 二 .TAMD 方法介绍 01
46、06 1. 贝叶斯概率模型 : 0107 对于某个 CpG 簇, 我们想知道, 如果观察到 n 条片段 ( 即, 下文所述超声破碎断裂 后得到的片段 ) 落入该簇, 那么有多大的概率可以认为该 CpG 簇被甲基化修饰。我们将这 个概率记做 P(M|n), M 表示甲基化, 根据贝叶斯公式 0108 0109 其中表示非甲基化位点。 全局的甲基化概率P(M), 作为本模型的一个输入参数, 可以从已报道的文献, 或同源生物的情况推知。 0110 对于非甲基化片段, 我们假设其在整个基因组上是随机均匀分布的, 因而对于一 条片段来说, 它落入某一区域的概率等于d 为区域的长度, D 表示整个基因组的
47、长度, 因 此, 某一区域内落入的非甲基化片段数目符合二项分布, 即 0111 对于甲基化片段, 我们假设其落在每个 CpG 簇内的概率与位点内甲基化胞嘧啶数 说 明 书 CN 102776270 A 10 9/21 页 11 目有关, 根据我们对 H1 细胞的 BS-seq 和 MeDIP-seq 的观察, 这一假设也确实成立。因此, 某区域内甲基化片段数目也同样符合二项分布, 即其中, nc 为位点内甲基化 胞嘧啶数目, NC 为甲基化胞嘧啶总数。 0112 在此, nc 与 NC 都是未知的, 我们观察到, 距离较近的两个胞嘧啶甲基化状态是高 度相关的, 这与之前文献报道的结果也相符,
48、因而对于一个甲基化位点来说, 如果其中的胞 嘧啶或 CG 的间隔较小, 也就是 L 值较低的情况下, 我们可以认为这个位点的甲基化胞嘧啶 数目就是胞嘧啶总数, 这样便大大简化了模型。接下来, 对于 NC, 应该等于基因组内的甲基 化位点数目, 这在事先我们并无法获知, 为此, 我们采用类似于遗传算法中的淘汰机制, 先 假定所有位点都属于甲基化位点, 计算所有位点的概率, 根据预先设定的阈值, 去除那些属 于甲基化位点可能性较低的, 剩下的数目作为新的 NC, 参与计算, 如此循环, 直到没有更多 的位点被淘汰为止。 0113 2.TAMD 方法 0114 TAMD 方法的基本思想是, 对全基因
49、组上所有的候选甲基化位点一一排查, 用贝叶 斯推断的方法计算每个位点甲基化的可能性。 这里所指的候选位点是指可以被甲基化修饰 的胞嘧啶位置。例如, 在哺乳动物中, 指的即是所有的 CG 位点。用这种方法来分析甲基化 富集测序数据就可以弥补之前提到的 ChIP-seq 分析方法的不足 : 首先, 由于我们只专注于 胞嘧啶位置, 就完全避免了将不可能发生甲基化的位置认为是甲基化位点的错误 ; 第二, 通 过调节模型参数, 可以让方法识别出覆盖度较低区域的甲基化位点, 同时也能将假阳性率 控制在合理的范围。第三, 对于同一个基因组, 我们找出的位点属于一个固定的集合, 从不 同样本找出的位点之间有明确的对应关系, 可以十分方便地找出差异位点。 0115 本发明的 TAMD 方法包括以下步骤 : 0116 1) 划分 CpG 簇 0117 将基因组上 CpG 位点划分为 N 个子集 (Pi, i 1.N), 要求每个子集内部的位点 在染色体上连续排列, 且相邻两个位点之间距离小于等于 L, 而任意两个子集中的位点之间 的距离大于 L。按照上述方法划分出的一个子集定义为 CpG 簇, CpG 簇中相距最远的两个位 点在染色体上所跨越的范围定义为 CpG 簇区域。 0118 2) 计算各 CpG 簇区域的覆盖度 0119 对
copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1