检测DNA甲基化的方法和装置.pdf

上传人:利贞 文档编号:8889207 上传时间:2021-01-10 格式:PDF 页数:29 大小:802.52KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110123176.2

申请日:

20110512

公开号:

CN102776270A

公开日:

20121114

当前法律状态:

有效性:

失效

法律详情:

IPC分类号:

C12Q1/68,C12M1/34,G06F19/18

主分类号:

C12Q1/68,C12M1/34,G06F19/18

申请人:

中国科学院上海生命科学研究院,上海生物芯片有限公司

发明人:

刘世旭,肖华胜,李明辉,邵祥强,林剑

地址:

200031 上海市徐汇区岳阳路320号

优先权:

CN201110123176A

专利代理机构:

上海专利商标事务所有限公司

代理人:

崔佳佳

PDF下载: PDF下载
内容摘要

本发明公开了检测DNA甲基化的方法,用于检测DNA甲基化的装置。所述方法包括获得细胞和组织的甲基化DNA富集样本的测序数据的步骤和筛选可信甲基化位点的步骤;所述装置包括用于执行获得细胞和组织的甲基化DNA富集样本的测序数据的步骤的组件;和用于执行筛选可信甲基化位点的步骤的功能模块。

权利要求书

1.一种检测全基因组DNA甲基化位点的方法,该方法包括:1)获得细胞或组织的甲基化DNA片段的富集样本以及获得片段信息的步骤;和2)筛选可信甲基化位点的步骤;其中步骤2)包括:获得甲基化DNA片段在基因组上的坐标,即,染色体编号,起始位点,终止位点和方向(正义或反义链);再进行位点识别与可信度打分,根据预先设定好的阈值,筛选出可信的甲基化位点;其中位点识别与可信度打分包括:a-1.划分CpG簇将基因组上CpG位点划分为N个子集(P,i=1...N),要求每个子集内部的位点在染色体上连续排列,且相邻两个位点之间距离小于等于L,而任意两个子集中的位点之间的距离大于L,按照上述方法划分出的一个子集定义为CpG簇,CpG簇中相距最远的两个位点在染色体上所跨越的范围定义为CpG簇区域;a-2.获得各CpG簇区域的覆盖度对于一个CpG簇,其CpG簇区域在染色体上的起点为S,终点为E,获取所测序列中比对起点位点落于[S-21,E+21]范围内的序列子集R,1为超声破碎后片段的片段长度的期望值,获得CpG簇区域的覆盖度;a-3划分子区域将基因组划分为N’个区域(Q,j=1...N’),每个区域内,相邻两个CpG位点间距离小于等于L’,而任意两区域内的CpG位点间距离大于L’,并且满足L’>L;a-4获得各子区域的覆盖度具体步骤同a-2;a-5获得各CpG簇包含甲基化位点的概率对于一个子区域Q,其覆盖度为C,它包含了k个CpG簇区域P(i=1...k),各CpG簇区域覆盖度为c,获得P包含甲基化位点的概率。 2.如权利要求1所述的方法,其特征在于,所述细胞或组织是肝癌细胞或组织。 3.如权利要求1或2所述方法,其特征在于,步骤1)包括:1-1.提取和纯化待测动物细胞或组织的DNA;1-2.DNA的片段化;1-3.亲和层析柱的准备;1-4.甲基化DNA的富集;和1-5.富集样本的测序。 4.如权利要求3所述的方法,其特征在于,所述步骤1-3包括利用MBD2b蛋白。 5.一种用于检测全基因组DNA甲基化位点的装置,所述装置包括:1)用于执行获得细胞或组织的甲基化DNA富集样本的测序数据的步骤的组件;和2)用于执行筛选可信甲基化位点的步骤的功能模块。 6.如权利要求5所述的装置,其特征在于,所述细胞或组织是肝癌细胞或组织。 7.如权利要求5或6所述的装置,其特征在于,所述组件1)包含MBD2b蛋白。

说明书

技术领域

本发明涉及DNA检测领域,更具体地说,本发明涉及检测DNA甲基化 的方法和装置。

背景技术

一.DNA甲基化与癌症

5-甲基胞嘧啶是在DNA转甲基酶的催化作用下,某些胞嘧啶被转移上一 个甲基所得的产物(图1),许多人称为“第五种碱基”[1],它的形成过程被称 为“DNA甲基化”。研究证实,在哺乳动物和植物基因组中,包含约1%-6% 的5-甲基胞嘧啶[2],它通过参与基因表达的调控而影响生物体的发育、遗传、 细胞的新陈代谢等过程[3],它的重要作用在近年来已经逐渐被人们重视,成为 新的研究热点。

根据目前的研究结果,5-甲基胞嘧啶在转录水平抑制基因表达的机制主要 有:1.阻碍转录复合物(CF、CA等)与转录因子(E2F等)结合[4];2.与甲基 化结合蛋白相结合,激发去乙酰化酶作用,改变染色质的结构,阻止转录进行 [5];3.在其他条件的诱导下,甲基化区域发生去乙酰化作用,组蛋白空间上 变得紧密,使染色质结构改变从而抑制转录[6]。

DNA甲基化与癌症发生有密切的关系,早在上世纪80年代,研究人员利 用高效液相色谱方法(High performance liquid chromatography,HPLC),比较研 究肿瘤细胞和正常细胞的5-甲基胞嘧啶的含量,发现肿瘤细胞,尤其是开始发 生癌转移的恶性肿瘤细胞基因组中,DNA甲基化水平显著低于正常细胞[7]。L  Dubeau,Efiala等人检测了19组卵巢癌与正常卵巢表皮细胞的甲基化水平,有 17组癌细胞的全局DNA甲基化水平低于正常细胞[8],同样,Cheng等发现卵 巢癌细胞中的5-甲基胞嘧啶含量与正常细胞相比,平均少了25%[9]。

基因组的全局低甲基化现象在许多不同种类的癌症中都有报道,包括前列 腺癌[10],白血病[11],肝癌[12],宫颈癌[13]等等,但同时局部的高甲基化也 与疾病相关。

在哺乳动物中,DNA甲基化只发生在CG二核苷酸的胞嘧啶上[14],在他 们的基因组中,存在一些CG特别密集的区域,被称作CpG岛(CpG island), 国际上,对于CpG岛有一个统一的定义[15]:1.长度大于500bp;2.CG含量 超过55%;3.CG出现数目的观察值与期望值的比大于0.65。

据统计,人类基因组中含有约3万个CpG岛。在正常组织中,位于基因 启动子区域的CpG岛通常是非甲基化的,然而在肿瘤细胞中,经常会观察到 这些区域的过甲基化现象[14]。Costello等对98对原发性肿瘤细胞(包括乳腺癌, 结肠癌,睾丸癌,肝癌,肺癌等)与正常组织细胞中1200个随机选取的CpG岛 做研究[16],发现了不同程度的高甲基化现象,在同类型的肿瘤细胞中,甲基 化水平也存在极大差异,甲基化程度最高的是结肠癌,而睾丸癌相对较低,只 有12个CpG岛过量甲基化。发生高甲基化的CpG岛通常都位于基因的5’端 附近,或是转录起始位点,并且,不局限于那些已知的癌症相关基因,一些与 肿瘤似乎并不相关的基因也有过甲基化,如MYOD等[17],另外,乳腺癌细胞 中,核糖体基因5’端CpG岛也被报道存在高水平甲基化[16、18]。

二.DNA甲基化与非侵入性产前诊断

非侵入性产前检验对于包括妊娠期间并发症和胎儿遗传缺陷在内的妊娠 相关状况的早期检测至关重要,因为这样能对母亲和胎儿进行早期医学干预。 然而,常规检测方法是侵入性的,对母亲和胎儿均有风险。国家卫生局(The  National Health Service)最近指出在侵入性羊膜穿刺和绒膜绒毛取样(CVS)检验 后有1-2%的流产率。Lo等[19]和美国专利6,258,540指出可在母体血浆和血清 中检测循环无细胞胎儿核酸,已经开发了这些侵入性方法的备选方法进行产前 筛选,例如检测胎儿异常。PCT专利申请国际公布号WO2010/033639描述了 胎儿和母亲之间显示不同CpG甲基化模式的基因组DNA,因此,可根据母体 样品中核酸的甲基化状态检测和定量测定所述样品中的胎儿核酸。

三.DNA甲基化的研究方法

在过去几年,人们已经发明出一系列方法用于DNA甲基化的研究,这些 方法可以大致概括为两步,第一步是对基因组DNA进行处理,甲基化位点和 非甲基化位点处理后的结果会有区别,而第二步是用实验手段让这种区别体现 出来。

1.基因组DNA处理方法:

目前的基因组DNA处理方法大致有以下三种:1)甲基化特异性酶切法。 其依据是,一些限制性内切酶的敏感位点包含CG位点,当胞嘧啶被甲基化修 饰后,会影响酶对位点的识别,因此,只有非甲基化区域会发生酶切作用,甲 基化位点完全不受影响。此方法所使用的两个经典酶对是Hpa II-MspI(CCGG) 和Sma I-Xma I(CCCGGG)[20],由于第二对限制酶识别序列非常罕见,所以一 般使用Hpa II-MspI(CCGG)。这种方法简便易行,但受到酶切位点序列的限制, 如对于Hpa II-MspI来说,只能检测CCGG形式的序列区域,应用范围比较狭 窄。2)亚硫酸盐转换法。亚硫酸盐能够将未甲基化的胞嘧啶转为尿嘧啶[1], 经过PCR扩增反应后,尿嘧啶即转为胸腺嘧啶,而对于甲基化修饰过的胞嘧 啶则不会发生改变,因此从序列的差异上就能判断出哪些CG中的胞嘧啶为5- 甲基胞嘧啶。此法可靠性与精确性极高,亚硫酸盐测序方法称为目前DNA甲 基化研究的金标准。然而如果要检测全基因组的位点,则需耗费大量的试剂, 时间与人力,成本问题是该方法的瓶颈。3)DNA甲基化结合蛋白富集法。此 法类似于染色体免疫共沉淀(Chromatin ImmunoPrecipitation,ChIP)方法,先将 DNA打断,用能够识别甲基化位点的DNA结合蛋白[21](如5-甲基胞嘧啶抗体, 或MBD蛋白等)对DNA片段进行富集。富集区域所在染色体坐标通常就是甲 基化位点。这种方法常用于全基因组甲基化谱的绘制,本发明对基因组DNA 处理采用的是此方法。该方法弥补了Bisulfite-seq的缺陷,能够高通量检测全 基因组的位点,然而位点识别的准确度却大大降低了。主要原因是富集度达不 到预期要求,芯片质量参差不齐,同时缺少有效地芯片数据分析方法,因而只 有当存在足够量的生物学重复的前提下,该方法的结果才能令人满意。

2.检测位点的方法

检测位点大致可分为低通量和高通量两种方法:

2.1低通量方法

此法包括:电泳、一代测序和PCR等,较为常用的亚硫酸盐测序(BSP) 及甲基化特异性PCR(MSP)[22]即属于这类方法。

BSP方法指在DNA经过亚硫酸盐转换后,用一代测序检测序列与参考序 列的差异:如果参考序列为胞嘧啶(C),测序结果为胸腺嘧啶(T),表示该处为 非甲基化位点,若测序结果仍为胞嘧啶(C),此处可以认定为甲基化位点[1]。

MSP方法也是由亚硫酸盐处理,然后设计两种不同的引物,分别针对甲 基化和非甲基化两种情况下的序列,对DNA进行扩增,根据两种引物条件下 的扩增情况即可判断是否被甲基化修饰[22]。

此类方法规模较小,但是准确性高,通常用于个别基因或CpG岛区域的 甲基化水平检测。

2.2高通量方法

包括芯片检测和高通量测序两类。各大基因芯片制造商如Nimblegen、 Agilent、Affymetrix等都有成熟的商业化芯片可以检测甲基化富集位点。他们 主要采用的是TileArray技术,即对预先设计好的基因组区域,用平铺法设计 探针[23]。杂交后,富集区域的探针信号会显著高于其余探针,用合适的统计 学方法对数据进行分析,即可得到甲基化位点所在坐标。

Xiaoyu Zhang等2006年用5-甲基胞嘧啶抗体结合TileArray芯片的方法(称 为MeDIP-chip)绘制了第一副拟南芥全基因组甲基化图谱[24],此后,人们将该 技术及其改进方法用于各物种全基因组DNA甲基化的研究,得到了许多重要 成果。

然而,芯片检测法受到设计区域的限制,对于大型哺乳动物,目前制作工 艺还不能使芯片覆盖到整个基因组,因而通常选取CpG岛和基因启动子区域 进行设计。近年来高通量测序技术逐步成熟,在许多方面的研究都有取代芯片 的趋势。对于DNA甲基化来说,高通量测序没有检测区域的限制,并且比芯 片检测结果更为准确[25]。

目前高通量测序技术较为成熟的有Roche公司的454,Illumina公司的产 品GenomeAnalyzer,和Applied Biosystem公司的SOLiD,后两种产品一次测 序数据都可以达到30G以上,相当于覆盖了基因组10倍,同时错误率也可以 控制在0.01%以内,这已经完全满足了我们检测需求。

Cokus等用亚硫酸盐处理后结合高通量测序方法(称为BS-seq或 MethylC-seq)绘制了拟南芥的单碱基分辨率级别的甲基化图谱[26],Meissner 等人用同样的方法绘制了小鼠基因组部分区域的甲基化谱[27],这些研究人员 的尝试让人们看到全基因组高分辨率甲基化谱绘制的可能性。Ryan Lister等首 次使用该方法绘制了人类H1干细胞和IMR90胎儿肺纤维原细胞的甲基化谱, 他们对每个细胞系产生了将近90G数据,包含12亿条短序列(Short Reads),覆 盖了86%的基因组范围[28]。

BS-seq作为目前通量最高,准确性最好,分辨率最大的技术,其成本问 题是它主要的瓶颈,对于大型哺乳动物,需要进行多轮测序才能获取一组样本 的甲基化谱,如果有大量样本需要检测,该方法所耗的人力及财力是无法令人 接受的。此时人们想到了一些较为折中的方法,如Capture-BS-seq,MeDIP-seq, MBD-seq等,他们牺牲了诸如覆盖度,分辨率等一些特性,来换取成本的降低。 Emily等人用自行设计的微阵列,随机抓取了324个CpG岛的DNA片段,用 BS-seq分析其甲基化水平,这种方法即是Capture-BS-seq。当研究者只关心基 因组上一部分区域,如启动子区,重复区或是CpG岛的甲基化位点时,没有 必要对整个基因组进行深度测序,用此法既能获取到单碱基分辨率的甲基化位 点,又大大节省了成本[29]。MeDIP-seq是用5-甲基胞嘧啶对DNA富集,再结 合高通量测序的方法,他所产生的全基因组甲基化谱分辨率较低,通常用若干 可能包含甲基化位点的区域来表示,无法得到具体的5-甲基胞嘧啶的坐标,因 此如果研究人员只关心DNA甲基化水平存在差异的区域,MeDIP-seq将是比 较合适的选择。MBD-seq与MeDIP-seq非常类似,差别在于用甲基化结合蛋 白MBD代替5-甲基胞嘧啶抗体对DNA片段进行富集。

四.甲基化结合蛋白家族(Methyl-CpG-Binding Domain,MBD)

20世纪90年代初,人们发现了两种对甲基化DNA有亲和性的蛋白质, 称为MeCP1和MeCP2[30]。MeCP1是由许多复杂亚结构组成的复合蛋白,他 的具体结构至今仍存在争议[31]。MeCP2的质量约为55kDa,它能特异性的 结合于甲基化修饰的CpG位点[32]。通过对MeCP2结构的仔细研究,发现在 其N端存在一个大约70个残基构成的功能域,MeCP2与DNA的结合主要依 赖于该结构,于是将它称作甲基化结合蛋白(MBD)[33]。

研究人员用MBD的氨基酸序列在蛋白数据库中搜索,发现了一种蛋白, 其N端具有一个与MBD非常相似的结构,开始人们称其为PCM1(含MBD的 蛋白质),后来简称为MBD1,体外实验表明,该蛋白能够与甲基化DNA结合, 并抑制其转录[33]。通过进一步对EST数据库的搜索,人们发现了另外三种基 因,他们编码出的蛋白也具有类似MBD的结构,分别被称作Mbd2、Mbd3和 Mbd4[34]。序列的对位排列结果(图2)显示Mbd4和MeCP2的MBD结构接近, 而Mbd1,Mbd2,Mbd3的MBD更为接近[34]。

Hendrich等人用凝胶滞后分析(gel retardation assay)方法,研究五种蛋白对 甲基化DNA的亲和能力,发现在体外,只有Mbd3无法与甲基化DNA形成聚 合物[34],这个结果非常出乎人们的意料,因为Mbd3与另一种有甲基化DNA 亲和能力的MBD2b蛋白有极高的相似度,尤其是他们的MBD功能域,其原 因目前尚未研究清楚,不过有一些假说认为Mbd3可能是专门识别一些特征序 列。

五.DNA甲基化富集测序分析方法

DNA甲基化富集测序根据所使用的蛋白不同可分为,MeDIP-seq及 MBD-seq,前者使用的是5-甲基胞嘧啶抗体,后者使用的是甲基化结合蛋白 (MBD)。由于其实验步骤与免疫共沉淀测序(ChIP-seq)大致相同,数据分析也 大多采用ChIP-seq的方法。

1.DNA甲基化富集测序分析基本步骤

Shirley Pepke等在其2009年发表在Nature上的一篇综述中,将ChIP-seq 数据分析算法总结为五个基本步骤[35]:

1.1平滑信号谱

测序所得短序列与参考序列比对后,得到每条序列的基因组坐标,扫描整 个基因组可获取每个碱基的覆盖度,该值与ChIP-chip中的探针信号值相类似, 于是通常我们也习惯地将覆盖度称为信号。但是,覆盖度由整数表示,是离散 的,为了将其连续化,我们会采用一些平滑算法,比较常用的是移动平均值法, 即计算每个位点周围一个固定长度窗口内的信号平均值,作为平滑后的信号。

1.2估计背景值

背景值是由于富集不完全造成,并且也是无法避免的。如果实验设计中有 对照样本,则可以直接把对照的信号作为背景,否则,需要对信号的分布建立 模型,估计出每个位点的噪声范围。

1.3设定阈值,进行初步筛选

得到背景之后,将信号值减去背景,高于预先设定的阈值,那么将此位点 作为候选进入下一步分析

1.4依据一定原则过滤初筛结果

双链对称性是比较常用的原则,它的依据是富集片段属于正义链和负义链 的概率相等,于是比对结果中两条链上序列数目应该接近。一些双链数目明显 不等的区域很可能是由于比对错误,或扩增时引入的序列偏性导致的,可以从 候选位点中剔除。

1.5计算每个位点的可信度(P-value)

可信度的评估是为了进一步筛选富集位点,通常根据信号的分布,信号与 背景的差异程度来计算得出。设定合适的可信度阈值,可以减少最后结果中的 假阳性率。

多数ChIP-seq分析工具及算法都遵循这五个基本步骤,只是在每一步中 采用了不同的算法,以期获得更高的检出率,同时降低假发现率。MACS (Model-based Analysis of ChIP-seq)是使用较为广泛的一个算法[36]。它首先根 据序列的分布计算出位点的中心,然后将序列平移至该中心附近,这一做法符 合ChIP-seq的数据特点,因为通常测序长度小于富集片段的长度,因此需要将 正义链序列向3’平移,负义链序列向5’端平移。平移之后,计算每个位点的信 号值,用泊松分布对信号建模,计算每个位点属于富集区域的可信度。

除MACS外还有诸如Cisgenome,ERANGE,GLITR,PeakSeq,QuEST, SiSSRs,spp,USeq等其他算法,各自具有不同特点[37、38]。

ChIP-seq分析方法统计整个基因组被序列覆盖的情况,按照一定的算法找 出覆盖度特别高的区域,称为峰(Peak),而这些区域就被认为是可能的甲基化 位点。在DNA富集程度较高,测序质量较好的情况下,所找到的位点确实有 比较高的准确度。然而,实际应用过程中,这种方法存在以下不足:第一.没 有考虑序列构成。DNA甲基化发生在胞嘧啶,对于哺乳动物,则只发生在CG 双核苷酸的胞嘧啶上。但是即使某一区域不含CG,用ChIP-seq方法也有可能 被认定为甲基化位点;第二.在覆盖度不高的区域,检出率相对较低。多数算 法采用的是通过比较局部与总体覆盖度的差异,来判断是否是富集区域,当这 种差异不是非常显著时,通常算法拒绝认为这是一个甲基化位点;第三.当需 要比较两组样品的甲基化情况时,由于找到的位点位置并不对应,会带来一定 的困难。总结以上三点不足,我们认为最主要的原因在于,ChIP-seq的分析方 法是一种相对通用的方法,对于甲基化数据的研究固然适用,但是这样就没有 利用好甲基化数据本身的特征。

2.其他算法

并非所有的DNA甲基化富集测序数据分析都采用与ChIP-seq相同的方 法。Yoshinao等用MeDIP-seq研究人类乳腺癌细胞的DNA甲基化水平变化情 况[39],他们测得了将近1亿条序列,测序深度达到12倍。序列比对之后,他 们将基因组划分成若干个100kb的区域,统计每个区域内的序列数目,通过与 对照组对比,并设定2倍作为阈值,得到片段富集区域。这种方法有利于多个 样本之间的比较,但只适用于数据量充足,基因组覆盖较完全的情况下使用。

Tomas A Down等人通过观察MeDIP-seq数据和BSP验证得到的结果, 发现MeDIP-chip和MeDIP-seq数据的信号值在一定程度上与CG的密度相关, 他们用分别用线性模型和二次模型对CG密度因子和信号值进行拟合,发现在 多数区域都能得到较好的拟合结果。于是他们用贝叶斯概率模型计算在试验观 察到的数据下,各位点的甲基化程度(用后验概率表示),通过与BSP数据对比, 发现结果吻合,他们的算法被称作BATMAN(Bayesian tool for methylation  analysis)[40]。

综上所述,本领域迫切需要一种能够快速、高通量且可靠地检测并分析全 基因DNA甲基化位点的方法。

发明内容

本发明的一个目的是提供一种检测全基因组DNA甲基化位点的方法。

本发明的另一目的是提供一种检测肝癌细胞或组织的全基因组DNA甲基 化位点的方法。

本发明还有另一目的是提供一种用于检测全基因组DNA甲基化位点的装 置。

本发明还有另一目的是提供一种用于检测肝癌细胞或组织的全基因组 DNA甲基化位点的装置。

因此,在一方面,本发明提供一种检测全基因组DNA甲基化位点的方法, 该方法包括:

1)获得细胞或组织的甲基化DNA片段的富集样本以及获得片段信息的 步骤;和

2)筛选可信的甲基化位点的步骤;

其中步骤2)包括:获得甲基化DNA片段在基因组上的坐标,即,染色体 编号,起始位点,终止位点和方向(正义或反义链);再进行位点识别与可信度 打分,根据预先设定好的阈值,筛选出可信的甲基化位点;

其中位点识别与可信度打分包括:

a-1.划分CpG簇

将基因组上CpG位点划分为N个子集(Pi,i=1...N),要求每个子集内部 的位点在染色体上连续排列,且相邻两个位点之间距离小于等于L,而任意两 个子集中的位点之间的距离大于L,按照上述方法划分出的一个子集定义为 CpG簇,CpG簇中相距最远的两个位点在染色体上所跨越的范围定义为CpG 簇区域;

a-2.获得各CpG簇区域的覆盖度

对于一个CpG簇,其CpG簇区域在染色体上的起点为Si,终点为Ei,获 取所测序列中比对起点位点落于[Si-21,Ei+21]范围内的序列子集R,1为超声破 碎后片段的片段长度的期望值,获得CpG簇区域的覆盖度;

a-3划分子区域

将基因组划分为N’个区域(Qj,j=1...N’),每个区域内,相邻两个CpG位 点间距离小于等于L’,而任意两区域内的CpG位点间距离大于L’,并且满足 L’>L;

a-4获得各子区域的覆盖度

具体步骤同a-2;

a-5获得各CpG簇包含甲基化位点的概率

对于一个子区域Qj,其覆盖度为C,它包含了k个CpG簇区域Pi(i=1...k), 各CpG簇区域覆盖度为ci,获得Pi包含甲基化位点的概率。

在优选的实施方式中,所述方法用于检测肝癌细胞或组织的全基因DNA 甲基化位点。

在优选的实施方式中,所述方法的步骤1)包括:

1-1.提取和纯化待测动物细胞及组织的DNA;

1-2.DNA的片段化;

1-3.亲和层析柱的准备;

1-4.甲基化DNA的富集;和

1-5.富集样本的测序。

在另一优选的实施方式中,步骤1-3包括利用MBD2b蛋白。

在另一方面,本发明提供一种用于检测全基因DNA甲基化位点的装置, 所述装置包括1)用于执行获得细胞或组织的甲基化DNA富集样本的测序数 据的步骤的组件;和2)用于执行筛选可信甲基化位点的步骤的功能模块。

在一优选实施方式中,所述装置用于检测肝癌细胞或组织的全基因DNA 甲基化位点。

在另一优选实施方式中,所述装置中用于执行所述细胞或组织的甲基化 DNA富集样本的测序数据的步骤的组件包含MBD2b蛋白。

本发明的其它方面由于本文的公开内容,对本领域的技术人员而言是显而 易见的。

附图说明

图1显示胞嘧啶在DNA转甲基酶的催化作用下,被转移上一个甲基,成 为5-甲基胞嘧啶。

图2显示五种甲基化DNA结合蛋白(MeCP2、MBD1、MBD2、MBD3和 MBD4)的MBD区域的序列对位排列。

图3显示覆盖度5X的情况。

图4是CpG簇一致性系数的经验累积分布图,曲线从上到下分别是L= 300、275、250、225、200、175、150、125、100、75、50和25的情况。

图5是在不同L值的条件下高一致性的CpG簇所占比例。

图6是韦恩图。

图7显示序列比对情况随错配数的累积变化。

图8是各染色体上的覆盖比例柱状图,黑色为肿瘤组织,灰色为癌旁组织 (图中“chr”=染色体)。

图9是在不同P值的阈值条件下,所预测出的甲基化CpG位点所占比例。

图10显示差异位点在各区域的比例。

图11是过甲基化修饰的外显子根据编号分类的分布直方图,编号为1的 柱形对应于第一外显子的数目,之后的柱形以此类推。

图12是低甲基化修饰的外显子根据编号分类的分布直方图,编号为1的 柱形对应于第一外显子的数目,之后的柱形以此类推。

具体实施方式

发明人发现利用易于获取且价格低廉的MBD2b蛋白,结合二代测序,能 够高通量,准确地将富集结果与基因组位置对应,再利用我们开发的TAMD 方法,所得的甲基化位点的假阳性率可以降低到0.1%。在此基础上,完成了 本发明。

除非另行定义,文中所使用的所有专业与科学用语与本领域熟练人员所熟 悉的意义相同。此外,任何与所记载内容相似或均等的方法及材料皆可应用于 本发明中。文中所述的较佳实施方法与材料仅作示范之用。

一.定义

本文所用的术语“TAMD方法”表示MEDIP-seq和MBD-seq数据分析工 具(Tools for Analyzing MeDIP-seq and MBD-seq Data)。

本文所用的术语“二代测序”又称高通量测序,其主要特点是,能够同时 对输入的序列进行大规模并行测序,并且所得结果为大量的(一般为2千万左 右)长度不超过200bp的短序列(454测序仪例外,他的读长大于1kbp,但序列 较少,在200万左右)。

本文所用的术语“覆盖度”指将二代测序所得序列与基因组序列进行比对, 得到每条短序列的基因组坐标。于是,我们可以统计每个基因组位点有多少条 序列比对上,该数目便称为覆盖度,例如图3所示的是覆盖度5X的情况。

本文所用的术语“CpG簇”指基因组上连续分布且两两之间的距离不超 过L的一群CpG位点。参数L控制CpG簇内位点的数目,其取值范围从1到 无限大,L等于1时,一个CpG位点即为一个CpG簇,随着L增大,一些分 布较密的位点逐渐合并。根据文献报道,一定区域内的CpG甲基化状态高度 相关[41],因此,当L取合适的值时,CpG簇内的绝大多数位点的甲基化状态 一致,在理想情况下,我们便可用整个CpG簇包含甲基化位点的概率来代替 其中某个CpG被甲基化修饰的概率。

经过MBD富集后,有一些并不含有甲基化位点的片段会残留在结果中, 这些片段我们在文中称作噪声片段。而本文所用的术语“富集度”指的是除去 噪声片段后,余下的片段数与总的片段数之比。一般来说,在相同的实验条件 下,用同一批次蛋白得到的富集度比较稳定,它的数值可以通过实验测得,我 们的实验中富集度是90%。

二.TAMD方法介绍

1.贝叶斯概率模型:

对于某个CpG簇,我们想知道,如果观察到n条片段(即,下文所述超声 破碎断裂后得到的片段)落入该簇,那么有多大的概率可以认为该CpG簇被甲 基化修饰。我们将这个概率记做P(M|n),M表示甲基化,根据贝叶斯公式

P ( M | n ) = P ( n | M ) P ( M ) P ( n | M ‾ ) ( 1 - P ( M ) ) + P ( n | M ) P ( M ) ]]>

其中表示非甲基化位点。全局的甲基化概率P(M),作为本模型的一个输 入参数,可以从已报道的文献,或同源生物的情况推知。

对于非甲基化片段,我们假设其在整个基因组上是随机均匀分布的,因而 对于一条片段来说,它落入某一区域的概率等于d为区域的长度,D表示整 个基因组的长度,因此,某一区域内落入的非甲基化片段数目符合二项分布, 即

对于甲基化片段,我们假设其落在每个CpG簇内的概率与位点内甲基化胞 嘧啶数目有关,根据我们对H1细胞的BS-seq和MeDIP-seq的观察,这一假设 也确实成立。因此,某区域内甲基化片段数目也同样符合二项分布,即 其中,nc为位点内甲基化胞嘧啶数目,NC为甲基化胞嘧啶总数。

在此,nc与NC都是未知的,我们观察到,距离较近的两个胞嘧啶甲基化 状态是高度相关的,这与之前文献报道的结果也相符,因而对于一个甲基化位 点来说,如果其中的胞嘧啶或CG的间隔较小,也就是L值较低的情况下,我 们可以认为这个位点的甲基化胞嘧啶数目就是胞嘧啶总数,这样便大大简化了 模型。接下来,对于NC,应该等于基因组内的甲基化位点数目,这在事先我们 并无法获知,为此,我们采用类似于遗传算法中的淘汰机制,先假定所有位点 都属于甲基化位点,计算所有位点的概率,根据预先设定的阈值,去除那些属 于甲基化位点可能性较低的,剩下的数目作为新的NC,参与计算,如此循环, 直到没有更多的位点被淘汰为止。

2.TAMD方法

TAMD方法的基本思想是,对全基因组上所有的候选甲基化位点一一排 查,用贝叶斯推断的方法计算每个位点甲基化的可能性。这里所指的候选位点 是指可以被甲基化修饰的胞嘧啶位置。例如,在哺乳动物中,指的即是所有的 CG位点。用这种方法来分析甲基化富集测序数据就可以弥补之前提到的 ChIP-seq分析方法的不足:首先,由于我们只专注于胞嘧啶位置,就完全避免 了将不可能发生甲基化的位置认为是甲基化位点的错误;第二,通过调节模型 参数,可以让方法识别出覆盖度较低区域的甲基化位点,同时也能将假阳性率 控制在合理的范围。第三,对于同一个基因组,我们找出的位点属于一个固定 的集合,从不同样本找出的位点之间有明确的对应关系,可以十分方便地找出 差异位点。

本发明的TAMD方法包括以下步骤:

1)划分CpG簇

将基因组上CpG位点划分为N个子集(Pi,i=1...N),要求每个子集内部 的位点在染色体上连续排列,且相邻两个位点之间距离小于等于L,而任意两 个子集中的位点之间的距离大于L。按照上述方法划分出的一个子集定义为 CpG簇,CpG簇中相距最远的两个位点在染色体上所跨越的范围定义为CpG 簇区域。

2)计算各CpG簇区域的覆盖度

对于一个CpG簇Pi,其CpG簇区域起点在染色体上的位置为Si,终点为 Ei,获取所测序列中比对起点位点落于[Si-21,Ei+21]范围内的序列子集R,1为 超声破碎后片段的片段长度的期望值

CpG簇区域的覆盖度Ci按如下公式计算

Ci=Floor(∑r∈R Γ),其中

s等于序列起始位点到CpG簇区域边缘的距离,z为超声破碎后片段长度 的标准偏差,Ф为标准正态分布的分布函数,Floor(x)函数表示取小于x的最 大整数

3)划分子区域

将基因组划分为N’个区域(Qj,j=1...N’),每个区域内,相邻两个CpG位 点间距离小于等于L’,而任意两区域内的CpG位点间距离大于L’,并且满足 L’>L。

根据定义,可推知,每个CpG簇区域必定包含于唯一的一个子区域

4)计算各子区域的覆盖度

计算方法同步骤二

5)计算各CpG簇包含甲基化位点的概率

对于一个子区域Qj,其覆盖度为C,它包含了k个CpG簇区域Pi(i=1...k), 各CpG簇区域覆盖度为ci,则Pi包含甲基化位点概率计算如下:

P i ( M | Obs . ) = B ( c i , C , n i T ) P ( M ) ( 1 - B ( c i , ( 1 - α ) S , d i D ) ) ( 1 - P ( M ) ) + B ( c i , C , n i T ) P ( M ) ]]>

T = Σ i - 1 k t i ]]> t i = n i B ( c i , ( 1 - α ) S , d i D ) < ϵ 0 B ( c i , ( 1 - α ) S , d i D ) ≥ ϵ ]]>

P(M)为基因组全局甲基化概率,ni为CpG簇Pi内的位点数,m为Qj的内 包含的位点数,S为所测序列总数,α为富集度,ε为非甲基化情况下后验概率 的阈值;

B(x,n,p)为二项分布的分布函数;

B ( x , n , p ) = Σ i = 1 i ≤ x c n i p i ( 1 - p ) n - i . ]]>

下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说 明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方 法,通常按照生物化学或分子生物学常规实验的常规条件(例如参考本领域可 用的教科书,比如《最新分子生物学方法》、《分子克隆实验室手册》等等), 或按照制造厂商所建议的条件,利用生物化学或分子生物学常规实验的常规试 剂。除非另外说明,否则百分比和份数按重量计算。

实施例

实施例1.评估基因组上连续分布的一群CpG位点两两之间的距离L对 CpG簇的甲基化状态一致性系数的影响

我们使用人类表观遗传学计划(Human Epigenome Project,HEP)所测得的 人类第6,20和22号染色体的DNA甲基化谱数据,评估随L变化所产生的影 响。

HEP检测了43个不同细胞样本(12种不同组织)中190万个CpG位点的甲 基化状态,我们从中选取一组肝脏细胞中的数据,包含226548个CpG位点, 以50作为位点甲基化状态的分数阈值(该数据中分数取值从0至100),即超过 50则认为该CpG位点被甲基化修饰。根据前述的CpG簇定义,我们分别用25, 50,75,100,125,150,175,200,225,250,275,300这12个数作为L 的值,将所有CpG位点划分为若干CpG簇,即,从DNA的3’端向5’端逐个 计算每个CpG与相邻的前一个CpG之间的距离,如果小于L,则划分为同一 个CpG簇,如果大于L,则认为是一个新的CpG簇。计算每个簇的甲基化状 态一致性系数。该系数定义为,从簇内任意挑选的两个CpG位点的甲基化状 态相同的概率:

P = m ( m - 1 ) + ( N - m ) ( N - m - 1 ) N ( N - 1 ) ]]>

N为CpG簇内位点总数,m为被甲基化的CpG数目。

从一致性系数的经验累积分布图(图4)来看,在L小于等于200的情况下, 超过一半的CpG簇内的甲基化状态完全一致(一致性系数等于1),并且一致 性较低(一致性系数小于0.5)的CpG簇数目所占比例并不高,小于10%,即, 图4中虚线与曲线交点所对应的纵坐标值。

假如以一致性系数大于0.8为标准,随L值的增加,一致性较高的CpG 簇的比例由80%降为70%,并且趋势逐渐变缓(图5),如果提高一致性的标准, 虽然符合要求的CpG簇比例会随之减少,但变化趋势都非常相似,L大于100 之后,这一比例基本不变。

本实施例证明L取100是可行的。

实施例2.利用TAMD方法分析H1细胞的MeDIP-seq结果

我们采用TAMD方法对一组公共数据库中的H1细胞的MeDIP-seq结果 进行分析,并与相应的MethylC-seq结果进行比较,评估该方法的灵敏性(用检 出率表示)和准确性(用假阳性率表示)。

数据来源:http://www.ncbi.nlm.nih.gov/geo/roadmap/epigenomics/

MeDIP-seq:GSM456941

MethylC-seq:GSM429321

具体结果:

根据MethylC-seq的结果,有4,116,051个CpG簇被甲基化。我们用TAMD 方法(具体步骤如下所述)从MeDIP-seq中筛选出甲基化状态的CpG簇2,391,192 个:

步骤一:划分CpG簇

取L等于100,将人类Hg19基因组序列划分为8,220,526个CpG簇

步骤二:计算各CpG簇区域的覆盖度

根据DNA片段化,例如超声破碎设定的参数,设置片段平均长度1为200, 标准偏差z为50,按如下公式计算CpG簇区域的覆盖度Ci:

Ci=Floor(∑r∈R Γ),其中

步骤三:划分子区域

取L’为1000,将基因组划分为882,227个子区域

步骤四:计算各子区域的覆盖度

计算方法同步骤二

步骤五:计算各CpG簇包含甲基化位点的概率

设定全局甲基化覆盖度P(M)为0.1,富集度α为90%,阈值ε为0.1,按 以下公式计算包含甲基化位点概率:

P i ( M | Obs . ) = B ( c i , C , n i T ) P ( M ) ( 1 - B ( c i , ( 1 - α ) S , d i D ) ) ( 1 - P ( M ) ) + B ( c i , C , n i T ) P ( M ) ]]>

T = Σ i = 1 k t i ]]> t i = n i B ( c i , ( 1 - α ) S , d i D ) < ϵ 0 B ( c i , ( 1 - α ) S , d i D ) ≥ ϵ ]]>

B(x,n,p)为二项分布的分布函数;

B ( x , n , p ) = Σ i = 1 i ≤ x c n i p i ( 1 - p ) n - i , ]]>

其中有2,076,533个与MethylC-seq的结果一致,因此可以认为TAMD在 对这组数据的应用中,检出率为49.55%,假阳性率为13.16%。考虑到低覆盖 度区域的检测的误差较大,我们观察了随着覆盖度的增大,方法性能的变化情 况。发现MeDIP-seq所测序列对应到MethylC-seq检出的4,116,051个甲基化 CpG簇区域中,覆盖度超过5X的有1,465,673(N)个CpG簇区域;而MeDIP-seq 检出2,391,192个甲基化CpG簇中,覆盖度超过5X的有1,393,170(M)个。根 据检出率=(M∩N)/N和假阳性率=(M-M∩N)/M(如韦恩图(图6)所示),可以 看出,随着覆盖度超过5X,检出率提高到95%,假阳性率也降低到0.1%。

本实施例证明本发明方法具有优秀的灵敏性和准确性。

实施例3.利用TAMD方法获得人类肝癌组织全基因组甲基化谱

一.待测样本信息:

肿瘤组织和癌旁组织由上海生物芯片有限公司提供,取自同一肝癌患者, 病理信息如下:

表1肝癌患者病理信息

二.实验过程

1.提取和纯化待测动物细胞及组织的DNA

A.对于细胞:取约5×106-7细胞(已用TBS洗过),转移到一个1.5mL 离心管中,加入约700μl的裂解缓冲液;

对于组织:取约50mg组织,放入5mL离心管中,加入700μl 裂解缓冲液,匀浆

B.加入蛋白酶-K至终浓度100μg/ml,50℃下,在约3-5小时期间, 不时搅拌,直至溶液清亮为止;

C.加入RNA酶至终浓度20μg/ml,37℃温育30分钟;

D.加入700μl Tris饱和酚(pH 8.0),轻缓倒转摇匀10分钟。室温下, 以13000rpm离心15分钟;

E.吸上清层入另一1.5ml离心管;

F.重复D-E步骤一次(任选的);

G.上清液加650μl酚∶氯仿∶异戊醇(25∶24∶1),轻缓倒转混匀10分 钟。室温下,以13000rpm离心10分钟,吸上层入另一1.5ml离心管;

H.上清液加650μl氯仿∶异戊醇(24∶1),轻缓倒转混匀10分钟,以 13000rpm离心10分钟,取上清入另一管;

I.加1/10体积3M醋酸钠(注:样品量充足的情况下可不加3M NaAC,以得到更纯的样品),混匀后再加1.1倍体积的异丙醇,轻柔振摇;出 现白色絮状物(DNA);于-20℃放置20~30分钟,12000rpm低温(4℃)离心10 分钟,沉淀DNA,弃去上清;

J.加1ml 70%乙醇洗涤,12000rpm下低温(4℃)离心10分钟,弃去 上清,重复1次;

K.自然干燥后,用pH 8.01/10TE溶解,保存在-20℃备用。

2.DNA的片段化;

取约200ng DNA用0.8%Agrose电流检测,电流Marker为“1kb”。基 因组DNA片段大小应大于15K。将DNA定量到200ng/μl,取200μl,超声 破碎到300-1000bp片段大小。

3.亲和层析柱的制备

A.用剪口枪头吸取“MBD2b蛋白-琼脂糖凝胶-4B”50μl到200μl PCR管中;

B.吸取制备缓冲液A(preperation buffer A)200μl到管中,轻微振动 以悬浮MBD2b蛋白-琼脂糖凝胶-4B;

C.放入亲和层析仪,4℃下旋转2分钟;

D.500g离心30秒,吸去上清;

E.吸取制备缓冲液B(preperation buffer B)200μl到管中,轻微振动 以悬浮MBD2b蛋白-琼脂糖凝胶-4B;

F.重复C-D步骤操作;

G.重复B-E步骤操作;

H.吸取结合缓冲液(binding buffer A)200μl到管中,轻微振动以悬 浮MBD2b蛋白-琼脂糖凝胶-4B;

I.重复C-D步骤操作;

J.吸取结合缓冲液(binding buffer A)180μl到管中,轻微振动以悬浮 MBD2b蛋白-琼脂糖凝胶-4B。

4.甲基化DNA的富集

A.将超声好的DNA样品取500ng约20μl加入干净离心管中,再加 入内参DNA-M及U各2μl;

B.混匀后取后2μl备用;

C.其余样本加入放有蛋白的PCR管中;

D.轻微振动以悬浮MBD2b蛋白-琼脂糖凝胶-4B;

E.4℃下在亲和层析仪上结合2小时;

F.500g离心1分钟,将上清缓冲液转移到一新的1.5ml离心管中(备 用);

G.吸取洗涤缓冲液(wash buffer)200μl到管中,轻微振动以悬浮 MBD2b蛋白-琼脂糖凝胶-4B;

H.500g离心30秒,吸去上清;

I.重复F-G步骤一次。

J.吸取洗脱缓冲液(elution buffer)200μl到管中,轻微振动以悬浮 MBD2b蛋白-琼脂糖凝胶-4B;

K.500g离心30秒;

L.收集离心后的洗脱缓冲液,为富集得到的甲基化DNA;

M.得到的洗脱缓冲液用QIAquick PCR purification kit回收(具体步 骤参见QIAquick PCR purification kit protocol),60μl水洗脱。

5.富集样本的测序

遵照SOLiD3的标准流程对富集样本测序,其中用ABI的SOLiD3测序仪 代替Illumina的GAII。

6.筛选可信的甲基化位点的步骤

A.测序数据的初级分析

用Illumina的OLB、CASAVA软件(http://www.illumina.com/software/) 对所得数据进行图像分析、碱基识别与序列比对,最终获得片段在基因组上的 坐标,包括染色体编号,起始位点,终止位点和方向(正义或反义链)。

B.位点识别与可信度打分

采用我们的TAMD方法,对整个染色体上的候选甲基化位点进行扫 描,并给出甲基化水平的打分,根据预先设定好的阈值,筛选出可信的甲基化 位点。

三.实验结果

(一)测序与比对结果

1.基本数据信息

我们从肝癌组织中共测得序列49,536,458条,与人类基因组hg18比对, 有36,824,482(74.34%)条至少找到一个比对结果,同时,从癌旁组织中,测得 序列52,153,693条,有36,921,304(70.79%)条能够比对上hg 18。

表2.测序数据基本统计信息

比对采用BioScope默认参数,允许的最大错配数为测序长度的20%,即 10个位点,图7展示了随错配数增长,比对结果的累积变化,在两个样本中, 错配数小于3的序列都超过超过了80%,可见测序质量正常。

为提高甲基化位点识别的准确度,我们对序列做初步筛选,保留比对位置 唯一,错配数小于3的序列,同时过滤掉PCR扩增产生的重复片段。如此, 我们最终得到可用的肿瘤组织序列18,061,423条,癌旁组织18,702,032条。

2.覆盖度统计

人类基因组hg18总长为3,080,436,051bp,在肿瘤组织测序结果中,有 580,788,017bp(18.85%)的区域至少被一条序列覆盖,而在癌旁组织中,这一数 字为651,473,523bp(21.15%)。

为检验测序是否存在偏性,我们计算了每条染色体上两组数据的覆盖比例 (图8),结果发现,除第Y号染色体和线粒体染色体(ChrM)外,其余23条染色 体大致相似,两种组织之间也并无明显的差别。

从而证明这些序列的质量正常,且在基因组上无偏性。

(二)甲基化位点检测

1.用TAMD方法识别甲基化位点

对前文所述最终得到的可用的肿瘤组织序列18,061,423条,癌旁组织 18,702,032条进行以下操作:

1)划分CpG簇

取L等于100,将人类Hg18基因组序列划分为8,211,882个CpG簇

2)计算各CpG簇区域的覆盖度

根据DNA片段化,例如超声破碎设定的参数,设置片段平均长度1为200, 标准偏差z为50,按如下公式计算CpG簇区域的覆盖度Ci:

Ci=Floor(∑r∈R Γ),其中

3)划分子区域

取L’为1000,将基因组划分为877,158个子区域

4)计算各子区域的覆盖度

方法同步骤二

5)计算各CpG簇包含甲基化位点的概率

设定全局甲基化覆盖度P(M)为0.1,富集度α为90%,阈值ε为0.1,按 以下公式计算包含甲基化位点概率:

P i ( M | Obs . ) = B ( c i , C , n i T ) P ( M ) ( 1 - B ( c i , ( 1 - α ) S , d i D ) ) ( 1 - P ( M ) ) + B ( c i , C , n i T ) P ( M ) ]]>

T = Σ i = 1 k t i ]]> t i = n i B ( c i , ( 1 - α ) S , d i D ) < ϵ 0 B ( c i , ( 1 - α ) S , d i D ) ≥ ϵ ]]>

B(x,n,p)为二项分布的分布函数;

B ( x , n , p ) = Σ i = 1 i ≤ x c n i p i ( 1 - p ) n - i . ]]>

计算出各位点的甲基化概率P后,我们统计了不同概率阈值的条件下,预 测出的甲基化位点所占比例(图9),可以发现,P值呈两极分布,接近三分之一 的位点的P值等于0(肿瘤组织中为38.6%,癌旁组织中为34.99%),同时也有 近三分之一位点P值大于0.95(肿瘤组织中34.86%,癌旁组织中37.08%),余 下的P值在(0,0.95)的区间内呈均匀分布。在之后的分析中,我们设定P值大于 0.95的CpG位点为可信的甲基化位点,于是我们得到肿瘤组织中甲基化CpG 9,816,730个,属于1,499,129个CpG簇区域,癌旁组织中甲基化CpG 10,443,541 个,属于1,803,417个CpG簇区域。可见,肿瘤组织的总体甲基化水平低于癌 旁组织,这与过去文献的报道相符。

(三)肿瘤细胞中的DNA甲基化异常

我们已经从两种组织细胞的DNA甲基化位点分布情况观察到了一些肿瘤 组织的甲基化修饰异常现象,为进一步挖掘其中的特征和规律,我们根据 TAMD算出的可信度和覆盖度,定义了差异甲基化位点,并分析他们在基因组 上的覆盖规律。

1.差异甲基化位点

我们定义肿瘤细胞中甲基化可信度大于0.95,覆盖度大于3,癌旁细胞中 可信度小于0.1,覆盖度小于0.5的CpG为过甲基化位点(Hypermethylation), 相应的,癌旁细胞可信度大于0.95,覆盖度大于3,肿瘤细胞中可信度小于0.1, 覆盖度小于0.5的CpG为低甲基化位点(Hypomethylation)。

根据上述定义,我们共得到了107,374个过甲基化位点,属于19,624个 CpG簇,77,745个低甲基化位点,属于22,840个CpG簇。从簇内位点数分布 可以看出,在CpG密集区域,过甲基化现象发生的比例高于低甲基化。

2.差异位点的分布

根据差异位点的坐标,我们分别对外显子,内含子,启动子,基因间, CpG岛,及各类重复片段区域的过甲基化和低甲基化位点数目进行统计,并计 算在两者位点总数内所占比例(图10),可以看到分布最多的仍然是内含子和基 因间区域,并且,除了基因间和部分种类的重复序列区,其他注释区域的过甲 基化的比例都大于低甲基化比例。

在UCSC Hg18注释数据库所定义的35280个基因的编码区中,有 2388(6.77%)个基因含有过甲基化修饰位点,2005(5.68%)个含有低甲基化位点。 我们将包含差异位点的外显子根据其编号进行分类,统计频数并绘制直方图 (图11与和图12),可以发现,第一外显子被过甲基化和低甲基化修饰的频率 都远远超过其他外显子,这可能与基因表达的调控相关。

在CpG岛区域,过甲基化的位点数目为15490,低甲基化数目为1913, 两者相差近8倍,与之前由簇内位点数分布情况所得结论相符。许多文献报道 过,癌症相关的过甲基化现象多发生在启动子区域的CpG岛,在我们的数据 中,这部分位点数为4,433,占所有CpG岛区域过甲基化位点的28.62%,有 37个基因在启动子区域存在CpG岛且含有过甲基化位点(表4),其中BHLHB9, EPCAM,GNAS,GRIK2,KCNK2,KRT7,PDX1,PPARG,RASSF5,TF, TP73在现有文献中已被报道与肿瘤相关,且发现存在有启动子区的CpG岛过 甲基化现象[42-51]。

  ACP1   EPCAM   HOXD9   LOC100130148   MIR196B   PEAR1   RHBG   ADAMTSL3   GMIP   HPDL   LOC144571   MPHOSPH10   PPARG   TEX264   ADCY2   GNAS   HSPA1B   MAP1LC3B   MYO15B   PRRC1   TF   BHLHB9   GRIK2   KCNK2   MAPK4   NEUROD6   RAB36   TP73   ENTPD3   HIST2H2BA   KRT7   MAPT   PDX1   RASSF5   VSX1   ZMYM2   ZNF326

表4.启动子区存在CpG岛过甲基化的基因,其中深色标注的基因已经在 文献中被报道与肿瘤发生相关

综上所述,从这幅图谱中,许多之前已经发现的规律得到了验证:如肝癌 组织的整体甲基化水平低于正常组织,但在CpG岛区域,则有明显的过甲基 化现象;CpG位点稀疏区域的甲基化水平高于密集区域;一些与癌症相关基因 的启动子区CpG岛存在过甲基化现象等等,从而证明本发明方法所得图谱的 准确性。

本发明优点:

第一.本发明所采用的方法解决了检测准确度和检测成本的矛盾,具有通 量高,准确性好,成本低廉的特点。

第二.本发明采用的MBD2b蛋白易于获取,价格低于甲基化抗体,结合 二代测序,能够高通量,准确地将富集结果与基因组位置对应,再利用我们开 发的TAMD方法,所得的甲基化位点的假阳性率可以降低到0.1%。

第三.由于本发明能够用较低的成本,在较短时间内获取一个样品完整的 DNA甲基化谱。对于大量样品的甲基化研究已经不再是难题,如果能够对获 得的数据进行比较分析,得到某些疾病的特征谱,那么此方法将来可以作为一 种疾病诊断的辅助手段。

以上所述仅为本发明的较佳实施例而已,并非用以限定本发明的实质技术 内容范围,本发明的实质技术内容是广义地定义于申请的权利要求范围中,任 何他人完成的技术实体或方法,若是与申请的权利要求范围所定义的完全相 同,也或是一种等效的变更,均将被视为涵盖于该权利要求范围之中。

参考文献

1.Lister,R.和J.R.Ecker (2009).″Finding the fifth base:genome-wide sequencing of cytosine methylation.″Genome Res 19(6):959-66.

2.Montero,L.M.,J.Filipski等,(1992).″The distribution of 5-methylcytosine in the nuclear genome ofplants.″Nucleic Acids Res 20(12):3207-10.

3.Bestor,T.H.(2000).″The DNA methyltransferases of mammals.″Hum Mol Genet 9(16):2395-402.

4.Tate,P.H.和A.P.Bird(1993).″Effects of DNA methylation on DNA-binding proteins and gene expression.″Curr Opin Genet Dev 3(2):226-31.

5.Keshet,I.,J.Lieman-Hurwitz等,(1986).″DNA methylation affects the formation of active chromatin.″Cell 44(4):535-43.

6.Newell-Price,J.,A.J.Clark等,(2000).″DNA methylation and silencing of gene expression.″Trends Endocrinol Metab 11(4):142-8.

7.Gama-Sosa,M.A.,V.A.Slagel等,(1983).″The 5-methylcytosine content of DNA from human tumors.″Nucleic Acids Res 11(19):6883-94.

8.Grunau,C.,C.Sanchez等,(2005).″Frequent DNA hypomethylation of human juxtacentromeric BAGE loci in cancer.″Genes Chromosomes Cancer 43(1):11-24.

9.Cheng,P.,C.Schmutte等,(1997).″Alterations in DNA methylation are early,but not initial,events in ovarian tumorigenesis.″Br J Cancer 75(3):396-402.

10.Bedford,M.T.和P.D.van Helden(1987).″Hypomethyl ation of DNA in pathological conditions of the human prostate.″Cancer Res 47(20):5274-6.

11.Wahlfors,J.,H.Hiltunen等,(1992).″Genomic hypomethylation in human chronic lymphocytic leukemia.″Blood 80(8):2074-80.

12.Lin,C.H.,S.Y.Hsieh等,(2001).″Genome-wide hypomethylation in hepatocellular carcinogenesis.″Cancer Res 61(10):4238-43.

13.Kim,Y.I.,A.Giuliano等,(1994).″Global DNA hypomethylation increases progressively in cervical dysplasia and carcinoma.″Cancer 74(3):893-9.

14.Lethe,B.,S.Lucas等,(1998).″LAGE-1,a new gene with tumor specificity.″Int J Cancer 76(6):903-8.

15.Takai,D.和P.A.Jones (2002).″Comprehensive analysis of CpG islands in human chromosomes 21 and 22.″Proc Natl Acad Sci U S A 99(6):3740-5.

16.Costello,J.F.,M.C.Fruhwald等,(2000).″Aberrant CpG-island methylation has non-random and tumour-type-specific pattems.″Nat Genet 24(2):132-8.

17.Samuelsson,J.K.,S.Alonso等,″DNA fingerprinting techniques for the analysis of genetic and epigenetic alterations in colorectal cancer.″Mutat Res 693(1-2):61-76.

18.Esteller,M.,P.G.Corn等,(2001).″A gene hypermethylation profile of human cancer.″Cancer Res 61(8):3225-9.

19.Lo等,Lancet 350:485-487,1997

20.武立鹏,朱.(2004).″DNA甲基化的生物学应用及检测方法进展.″中国检验 医学杂志27:7.

21.Weber,M.,J.J.Davies等,(2005).″Chromosome-wide and promoter-specific analyses identify sites of differential DNA methylation in normal and transformed human cells.″Nat Genet 37(8):853-62.

22.Herman,J.G.,J.R.Graff等,(1996).″Methylation-specific PCR:a novel PCR assay for methylation status of CpG islands.″Proc Natl Acad Sci U S A 93(18):9821-6.

23.Heisler,L.E.,D.Torti等,(2005).″CpG Island microarray probe sequences derived from a physical library are representative of CpG Islands annotated on the human genome.″Nucleic Acids Res 33(9):2952-61.

24.Zhang,X.,J.Yazaki等,(2006).″Genome-wide high-resolution mapping and functional analysis ofDNA methyl ation in arabidopsis.″Cell 126(6):1189-201.

25.Shendure,J.和H.Ji(2008).″Next-generation DNA sequencing.″Nat Biotechnol 26(10):1135-45.

26.Cokus,S.J.,S.Feng等,(2008).″Shotgun bisulphite sequencing of the Arabidopsis genome reveals DNA methylation patterning.″Nature 452(7184):215-9.

27.Meissner,A.,A.Gnirke等,(2005).″Reduced representation bisulfite sequencing for comparative high-resolution DNA methylation analysis.″Nucleic Acids Res 33(18): 5868-77.

28.Lister,R.,M.Pelizzola等,(2009).″Human DNA methylomes at base resolution show widespread epigenomic differences.″Nature 462(7271):315-22.

29.Hodges,E,A.D.Smith等,(2009).″High definition profiling of mammalian DNA methylation by array capture and single molecule bisulfite sequencing.″Genome Res 19(9):1593-605.

30.Ballestar,E.和A.P.Wolffe(2001).″Methyl-CpG-binding proteins.Targeting specific gene repression.″Eur J Biochem 268(1):1-6.

31.Meehan,R.R.,J.D.Lewis等,(1989).″Identification of a mammalian protein that binds specifically to DNA containing methylated CpGs.″Cell 58(3):499-507.

32.Nan,X.,R.R.Meehan等,(1993).″Dissection of the methyl-CpG binding domain from the chromosomal protein MeCP2.″Nucleic Acids Res 21(21):4886-92.

33.Cross,S.H.,R.R.Meehan等,(1997).″A component of the transcriptional repressor MeCP 1shares a motif with DNA methyltransferase and HRX proteins.″Nat Genet 16(3):256-9.

34.Hendrich,B.和A.Bird (1998).″Identification and characterization of a family of mammalian methyl-CpG binding proteins.″Mol Cell Biol 18(11):6538-47.

35.Pepke,S.,B.Wold等,(2009).″Computation for ChIP-seq and RNA-seq studies.″Nat Methods 6(11 Suppl):S22-32.

36.Zhang,Y.,T.Liu等,(2008).″Model-based analysis of ChIP-Seq(MACS).″ Genome Biol 9(9):R137.

37.Jiang,H.,F.Wang等,″CisGenome Browser:a flexible tool for genomic data visualization.″Bioinformatics 26(14):1781-2.

38.Rozowsky,J.,G.Euskirchen等,(2009).″PeakSeq enables systematic scoring of ChIP-seq experiments relative to controls.″Nat Biotechnol 27(1):66-75.

39.Ruike,Y.,Y.Imanaka等,″Genome-wide analysis of aberrant methylation in human breast cancer cells using methyl-DNA immunoprecipitation combined with high-throughput sequencing.″BMC Genomics 11:137.

40.Down,T.A.,V.K.Rakyan等,(2008).″A Bayesian deconvolution strategy for immunoprecipitation-based DNA methylome analysis.″Nat Biotechnol 26(7):779-85.

41.Eckhardt,F.,J.Lewin等,(2006).″DNA methylation profiling of human chromosomes 6,20and 22.″Nat Genet 38(12):1378-85.

42.Gebhard,C.,C.Benner等,″General transcription factor binding at CpG islands in normal cells correlates with resistance to de novo DNA methylation in cancer cells.″ Cancer Res 70(4):1398-407.

43.Huang,K.T.,A.Dobrovic等,″DNA methylation profiling of phyllodes and fibroadenoma tumours ofthe breast.″Breast Cancer Res Treat 124(2):555-65.

44.Ibragimova,I.,I.Ibanez de Caceres等,″Global reactivation of epigenetically silenced genes in prostate cancer.″Cancer Prev Res(Phila)3(9):1084-92.

45.Mantovani,G.,A.G.Lania等,″GNAS imprinting and pituitary tumors.″Mol Cell Endocrinol 326(1-2):15-8.

46.Pancione,M.,L.Sabatino等,″Epigenetic silencing of peroxisome proliferator-activated receptor gamma is a biomarker for colorectal cancer progression and adverse patients″outcome.″PLoS One 5(12):e14229.

47.Sproul,D.,C.Nestor等,″Transcriptionally repressed genes become aberrantly methylated and distinguish tumors of different lineages in breast cancer.″Proc Natl Acad Sci U S A 108(11):4364-9.

48.Wu,C.S.,Y.J.Lu等,″Glutamate receptor,ionotropic,kainate 2silencing by DNA hypermethyl ation possesses tumor suppressor function in gastric cancer.″Int J Cancer 126(11):2542-52.

49.Jacinto,F.V.,E.Ballestar等,(2007).″Discovery of epigenetically silenced genes by methylated DNA immunoprecipitation in colon cancer cells.″Cancer Res 67(24): 11481-6.

50.Taylor,K.H.,K.E.Pena-Hernandez等,(2007).″Large-scale CpG methylation analysis identifies novel candidate genes and reveals methylation hotspots in acute lymphoblastic leukemia.″Cancer Res 67(6):2617-25.

51.Steinmann,K.,A.Sandner等,(2009).″Frequent promoter hypermethylation of tumor-related genes in head and neck squamous cell carcinoma.″Oncol Rep 22(6): 1519-26.

检测DNA甲基化的方法和装置.pdf_第1页
第1页 / 共29页
检测DNA甲基化的方法和装置.pdf_第2页
第2页 / 共29页
检测DNA甲基化的方法和装置.pdf_第3页
第3页 / 共29页
点击查看更多>>
资源描述

《检测DNA甲基化的方法和装置.pdf》由会员分享,可在线阅读,更多相关《检测DNA甲基化的方法和装置.pdf(29页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102776270 A (43)申请公布日 2012.11.14 CN 102776270 A *CN102776270A* (21)申请号 201110123176.2 (22)申请日 2011.05.12 C12Q 1/68(2006.01) C12M 1/34(2006.01) G06F 19/18(2011.01) (71)申请人 中国科学院上海生命科学研究院 地址 200031 上海市徐汇区岳阳路 320 号 申请人 上海生物芯片有限公司 (72)发明人 刘世旭 肖华胜 李明辉 邵祥强 林剑 (74)专利代理机构 上海专利商标事务所有限公 司 31100 代。

2、理人 崔佳佳 (54) 发明名称 检测 DNA 甲基化的方法和装置 (57) 摘要 本发明公开了检测 DNA 甲基化的方法, 用于 检测 DNA 甲基化的装置。所述方法包括获得细胞 和组织的甲基化 DNA 富集样本的测序数据的步骤 和筛选可信甲基化位点的步骤 ; 所述装置包括用 于执行获得细胞和组织的甲基化 DNA 富集样本的 测序数据的步骤的组件 ; 和用于执行筛选可信甲 基化位点的步骤的功能模块。 (51)Int.Cl. 权利要求书 1 页 说明书 21 页 附图 6 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 21 页 附图 6 页 1/1。

3、 页 2 1. 一种检测全基因组 DNA 甲基化位点的方法, 该方法包括 : 1) 获得细胞或组织的甲基化 DNA 片段的富集样本以及获得片段信息的步骤 ; 和 2) 筛选可信甲基化位点的步骤 ; 其中步骤2)包括 : 获得甲基化DNA片段在基因组上的坐标, 即, 染色体编号, 起始位点, 终止位点和方向 ( 正义或反义链 ) ; 再进行位点识别与可信度打分, 根据预先设定好的阈 值, 筛选出可信的甲基化位点 ; 其中位点识别与可信度打分包括 : a-1. 划分 CpG 簇 将基因组上 CpG 位点划分为 N 个子集 (Pi, i 1.N), 要求每个子集内部的位点在染 色体上连续排列, 且相。

4、邻两个位点之间距离小于等于 L, 而任意两个子集中的位点之间的距 离大于 L, 按照上述方法划分出的一个子集定义为 CpG 簇, CpG 簇中相距最远的两个位点在 染色体上所跨越的范围定义为 CpG 簇区域 ; a-2. 获得各 CpG 簇区域的覆盖度 对于一个 CpG 簇, 其 CpG 簇区域在染色体上的起点为 Si, 终点为 Ei, 获取所测序列中比 对起点位点落于 Si-21, Ei+21 范围内的序列子集 R, 1 为超声破碎后片段的片段长度的期 望值, 获得 CpG 簇区域的覆盖度 ; a-3 划分子区域 将基因组划分为 N 个区域 (Qj, j 1.N ), 每个区域内, 相邻两个。

5、 CpG 位点间距离 小于等于 L , 而任意两区域内的 CpG 位点间距离大于 L , 并且满足 L L ; a-4 获得各子区域的覆盖度 具体步骤同 a-2 ; a-5 获得各 CpG 簇包含甲基化位点的概率 对于一个子区域 Qj, 其覆盖度为 C, 它包含了 k 个 CpG 簇区域 Pi(i 1.k), 各 CpG 簇 区域覆盖度为 ci, 获得 Pi包含甲基化位点的概率。 2. 如权利要求 1 所述的方法, 其特征在于, 所述细胞或组织是肝癌细胞或组织。 3. 如权利要求 1 或 2 所述方法, 其特征在于, 步骤 1) 包括 : 1-1. 提取和纯化待测动物细胞或组织的 DNA ; 。

6、1-2.DNA 的片段化 ; 1-3. 亲和层析柱的准备 ; 1-4. 甲基化 DNA 的富集 ; 和 1-5. 富集样本的测序。 4. 如权利要求 3 所述的方法, 其特征在于, 所述步骤 1-3 包括利用 MBD2b 蛋白。 5. 一种用于检测全基因组 DNA 甲基化位点的装置, 所述装置包括 : 1) 用于执行获得细胞或组织的甲基化 DNA 富集样本的测序数据的步骤的组件 ; 和 2) 用于执行筛选可信甲基化位点的步骤的功能模块。 6. 如权利要求 5 所述的装置, 其特征在于, 所述细胞或组织是肝癌细胞或组织。 7. 如权利要求 5 或 6 所述的装置, 其特征在于, 所述组件 1) 。

7、包含 MBD2b 蛋白。 权 利 要 求 书 CN 102776270 A 2 1/21 页 3 检测 DNA 甲基化的方法和装置 技术领域 0001 本发明涉及 DNA 检测领域, 更具体地说, 本发明涉及检测 DNA 甲基化的方法和装 置。 背景技术 0002 一 .DNA 甲基化与癌症 0003 5- 甲基胞嘧啶是在 DNA 转甲基酶的催化作用下, 某些胞嘧啶被转移上一个甲基所 得的产物 ( 图 1), 许多人称为 “第五种碱基” 1, 它的形成过程被称为 “DNA 甲基化” 。研究 证实, 在哺乳动物和植物基因组中, 包含约 1 -6的 5- 甲基胞嘧啶 2, 它通过参与基因 表达的调。

8、控而影响生物体的发育、 遗传、 细胞的新陈代谢等过程 3, 它的重要作用在近年 来已经逐渐被人们重视, 成为新的研究热点。 0004 根据目前的研究结果, 5- 甲基胞嘧啶在转录水平抑制基因表达的机制主要有 : 1. 阻碍转录复合物 (CF、 CA 等 ) 与转录因子 (E2F 等 ) 结合 4 ; 2. 与甲基化结合蛋白相结 合, 激发去乙酰化酶作用, 改变染色质的结构, 阻止转录进行 5 ; 3. 在其他条件的诱导下, 甲基化区域发生去乙酰化作用, 组蛋白空间上变得紧密, 使染色质结构改变从而抑制转录 6。 0005 DNA 甲基化与癌症发生有密切的关系, 早在上世纪 80 年代, 研究人。

9、员利用高效液 相色谱方法 (High performance liquid chromatography, HPLC), 比较研究肿瘤细胞和正 常细胞的 5- 甲基胞嘧啶的含量, 发现肿瘤细胞, 尤其是开始发生癌转移的恶性肿瘤细胞基 因组中, DNA 甲基化水平显著低于正常细胞 7。L Dubeau, Efiala 等人检测了 19 组卵巢 癌与正常卵巢表皮细胞的甲基化水平, 有 17 组癌细胞的全局 DNA 甲基化水平低于正常细 胞 8, 同样, Cheng 等发现卵巢癌细胞中的 5- 甲基胞嘧啶含量与正常细胞相比, 平均少了 25 9。 0006 基因组的全局低甲基化现象在许多不同种类的癌。

10、症中都有报道, 包括前列腺癌 10, 白血病 11, 肝癌 12, 宫颈癌 13 等等, 但同时局部的高甲基化也与疾病相关。 0007 在哺乳动物中, DNA 甲基化只发生在 CG 二核苷酸的胞嘧啶上 14, 在他们的基因 组中, 存在一些 CG 特别密集的区域, 被称作 CpG 岛 (CpG island), 国际上, 对于 CpG 岛有一 个统一的定义 15 : 1. 长度大于 500bp ; 2.CG 含量超过 55; 3.CG 出现数目的观察值与期 望值的比大于 0.65。 0008 据统计, 人类基因组中含有约 3 万个 CpG 岛。在正常组织中, 位于基因启动子区域 的 CpG 岛。

11、通常是非甲基化的, 然而在肿瘤细胞中, 经常会观察到这些区域的过甲基化现象 14。Costello 等对 98 对原发性肿瘤细胞 ( 包括乳腺癌, 结肠癌, 睾丸癌, 肝癌, 肺癌等 ) 与正常组织细胞中 1200 个随机选取的 CpG 岛做研究 16, 发现了不同程度的高甲基化现 象, 在同类型的肿瘤细胞中, 甲基化水平也存在极大差异, 甲基化程度最高的是结肠癌, 而 睾丸癌相对较低, 只有 12 个 CpG 岛过量甲基化。发生高甲基化的 CpG 岛通常都位于基因的 5 端附近, 或是转录起始位点, 并且, 不局限于那些已知的癌症相关基因, 一些与肿瘤似乎 说 明 书 CN 10277627。

12、0 A 3 2/21 页 4 并不相关的基因也有过甲基化, 如 MYOD 等 17, 另外, 乳腺癌细胞中, 核糖体基因 5 端 CpG 岛也被报道存在高水平甲基化 16、 18。 0009 二 .DNA 甲基化与非侵入性产前诊断 0010 非侵入性产前检验对于包括妊娠期间并发症和胎儿遗传缺陷在内的妊娠相关状 况的早期检测至关重要, 因为这样能对母亲和胎儿进行早期医学干预。然而, 常规检测方 法是侵入性的, 对母亲和胎儿均有风险。国家卫生局 (The National Health Service) 最 近指出在侵入性羊膜穿刺和绒膜绒毛取样 (CVS) 检验后有 1-2的流产率。Lo 等 19。

13、 和 美国专利 6,258,540 指出可在母体血浆和血清中检测循环无细胞胎儿核酸, 已经开发了 这些侵入性方法的备选方法进行产前筛选, 例如检测胎儿异常。PCT 专利申请国际公布号 WO2010/033639 描述了胎儿和母亲之间显示不同 CpG 甲基化模式的基因组 DNA, 因此, 可根 据母体样品中核酸的甲基化状态检测和定量测定所述样品中的胎儿核酸。 0011 三 .DNA 甲基化的研究方法 0012 在过去几年, 人们已经发明出一系列方法用于 DNA 甲基化的研究, 这些方法可以 大致概括为两步, 第一步是对基因组 DNA 进行处理, 甲基化位点和非甲基化位点处理后的 结果会有区别, 。

14、而第二步是用实验手段让这种区别体现出来。 0013 1. 基因组 DNA 处理方法 : 0014 目前的基因组DNA处理方法大致有以下三种 : 1)甲基化特异性酶切法。 其依据是, 一些限制性内切酶的敏感位点包含 CG 位点, 当胞嘧啶被甲基化修饰后, 会影响酶对位点的 识别, 因此, 只有非甲基化区域会发生酶切作用, 甲基化位点完全不受影响。此方法所使用 的两个经典酶对是 Hpa II-MspI(CCGG) 和 Sma I-Xma I(CCCGGG)20, 由于第二对限制酶 识别序列非常罕见, 所以一般使用 Hpa II-MspI(CCGG)。这种方法简便易行, 但受到酶切位 点序列的限制,。

15、 如对于Hpa II-MspI来说, 只能检测CCGG形式的序列区域, 应用范围比较狭 窄。 2)亚硫酸盐转换法。 亚硫酸盐能够将未甲基化的胞嘧啶转为尿嘧啶1, 经过PCR扩增 反应后, 尿嘧啶即转为胸腺嘧啶, 而对于甲基化修饰过的胞嘧啶则不会发生改变, 因此从序 列的差异上就能判断出哪些 CG 中的胞嘧啶为 5- 甲基胞嘧啶。此法可靠性与精确性极高, 亚硫酸盐测序方法称为目前 DNA 甲基化研究的金标准。然而如果要检测全基因组的位点, 则需耗费大量的试剂, 时间与人力, 成本问题是该方法的瓶颈。3)DNA 甲基化结合蛋白富集 法。此法类似于染色体免疫共沉淀 (Chromatin Immuno。

16、Precipitation, ChIP) 方法, 先将 DNA 打断, 用能够识别甲基化位点的 DNA 结合蛋白 21( 如 5- 甲基胞嘧啶抗体, 或 MBD 蛋 白等 ) 对 DNA 片段进行富集。富集区域所在染色体坐标通常就是甲基化位点。这种方法常 用于全基因组甲基化谱的绘制, 本发明对基因组 DNA 处理采用的是此方法。该方法弥补了 Bisulfite-seq 的缺陷, 能够高通量检测全基因组的位点, 然而位点识别的准确度却大大降 低了。 主要原因是富集度达不到预期要求, 芯片质量参差不齐, 同时缺少有效地芯片数据分 析方法, 因而只有当存在足够量的生物学重复的前提下, 该方法的结果才。

17、能令人满意。 0015 2. 检测位点的方法 0016 检测位点大致可分为低通量和高通量两种方法 : 0017 2.1 低通量方法 0018 此法包括 : 电泳、 一代测序和 PCR 等, 较为常用的亚硫酸盐测序 (BSP) 及甲基化特 异性 PCR(MSP)22 即属于这类方法。 说 明 书 CN 102776270 A 4 3/21 页 5 0019 BSP 方法指在 DNA 经过亚硫酸盐转换后, 用一代测序检测序列与参考序列的差异 : 如果参考序列为胞嘧啶 (C), 测序结果为胸腺嘧啶 (T), 表示该处为非甲基化位点, 若测序 结果仍为胞嘧啶 (C), 此处可以认定为甲基化位点 1。 。

18、0020 MSP 方法也是由亚硫酸盐处理, 然后设计两种不同的引物, 分别针对甲基化和非甲 基化两种情况下的序列, 对 DNA 进行扩增, 根据两种引物条件下的扩增情况即可判断是否 被甲基化修饰 22。 0021 此类方法规模较小, 但是准确性高, 通常用于个别基因或 CpG 岛区域的甲基化水 平检测。 0022 2.2 高通量方法 0023 包括芯片检测和高通量测序两类。各大基因芯片制造商如 Nimblegen、 Agilent、 Affymetrix 等都有成熟的商业化芯片可以检测甲基化富集位点。他们主要采用的是 TileArray 技术, 即对预先设计好的基因组区域, 用平铺法设计探针 。

19、23。杂交后, 富集区 域的探针信号会显著高于其余探针, 用合适的统计学方法对数据进行分析, 即可得到甲基 化位点所在坐标。 0024 Xiaoyu Zhang 等 2006 年用 5- 甲基胞嘧啶抗体结合 TileArray 芯片的方法 ( 称 为 MeDIP-chip) 绘制了第一副拟南芥全基因组甲基化图谱 24, 此后, 人们将该技术及其 改进方法用于各物种全基因组 DNA 甲基化的研究, 得到了许多重要成果。 0025 然而, 芯片检测法受到设计区域的限制, 对于大型哺乳动物, 目前制作工艺还不能 使芯片覆盖到整个基因组, 因而通常选取 CpG 岛和基因启动子区域进行设计。近年来高通 。

20、量测序技术逐步成熟, 在许多方面的研究都有取代芯片的趋势。对于 DNA 甲基化来说, 高通 量测序没有检测区域的限制, 并且比芯片检测结果更为准确 25。 0026 目前高通量测序技术较为成熟的有 Roche 公司的 454, Illumina 公司的产品 GenomeAnalyzer, 和 Applied Biosystem 公司的 SOLiD, 后两种产品一次测序数据都可以达 到30G以上, 相当于覆盖了基因组10倍, 同时错误率也可以控制在0.01以内, 这已经完全 满足了我们检测需求。 0027 Cokus 等用亚硫酸盐处理后结合高通量测序方法 ( 称为 BS-seq 或 Methyl。

21、C-seq) 绘制了拟南芥的单碱基分辨率级别的甲基化图谱 26, Meissner 等人用同样的方法绘制 了小鼠基因组部分区域的甲基化谱 27, 这些研究人员的尝试让人们看到全基因组高分辨 率甲基化谱绘制的可能性。Ryan Lister 等首次使用该方法绘制了人类 H1 干细胞和 IMR90 胎儿肺纤维原细胞的甲基化谱, 他们对每个细胞系产生了将近 90G 数据, 包含 12 亿条短序 列 (Short Reads), 覆盖了 86的基因组范围 28。 0028 BS-seq 作为目前通量最高, 准确性最好, 分辨率最大的技术, 其成本问题是它主要 的瓶颈, 对于大型哺乳动物, 需要进行多轮测。

22、序才能获取一组样本的甲基化谱, 如果有大量 样本需要检测, 该方法所耗的人力及财力是无法令人接受的。此时人们想到了一些较为折 中的方法, 如 Capture-BS-seq, MeDIP-seq, MBD-seq 等, 他们牺牲了诸如覆盖度, 分辨率等 一些特性, 来换取成本的降低。Emily 等人用自行设计的微阵列, 随机抓取了 324 个 CpG 岛 的 DNA 片段, 用 BS-seq 分析其甲基化水平, 这种方法即是 Capture-BS-seq。当研究者只关 心基因组上一部分区域, 如启动子区, 重复区或是 CpG 岛的甲基化位点时, 没有必要对整个 基因组进行深度测序, 用此法既能获。

23、取到单碱基分辨率的甲基化位点, 又大大节省了成本 说 明 书 CN 102776270 A 5 4/21 页 6 29。MeDIP-seq 是用 5- 甲基胞嘧啶对 DNA 富集, 再结合高通量测序的方法, 他所产生的 全基因组甲基化谱分辨率较低, 通常用若干可能包含甲基化位点的区域来表示, 无法得到 具体的 5- 甲基胞嘧啶的坐标, 因此如果研究人员只关心 DNA 甲基化水平存在差异的区域, MeDIP-seq 将是比较合适的选择。MBD-seq 与 MeDIP-seq 非常类似, 差别在于用甲基化结合 蛋白 MBD 代替 5- 甲基胞嘧啶抗体对 DNA 片段进行富集。 0029 四 . 甲。

24、基化结合蛋白家族 (Methyl-CpG-Binding Domain, MBD) 0030 20 世纪 90 年代初, 人们发现了两种对甲基化 DNA 有亲和性的蛋白质, 称为 MeCP1 和 MeCP230。MeCP1 是由许多复杂亚结构组成的复合蛋白, 他的具体结构至今仍存在争议 31。MeCP2 的质量约为 55kDa, 它能特异性的结合于甲基化修饰的 CpG 位点 32。通过对 MeCP2 结构的仔细研究, 发现在其 N 端存在一个大约 70 个残基构成的功能域, MeCP2 与 DNA 的结合主要依赖于该结构, 于是将它称作甲基化结合蛋白 (MBD)33。 0031 研究人员用MB。

25、D的氨基酸序列在蛋白数据库中搜索, 发现了一种蛋白, 其N端具有 一个与 MBD 非常相似的结构, 开始人们称其为 PCM1( 含 MBD 的蛋白质 ), 后来简称为 MBD1, 体外实验表明, 该蛋白能够与甲基化DNA结合, 并抑制其转录33。 通过进一步对EST数据 库的搜索, 人们发现了另外三种基因, 他们编码出的蛋白也具有类似 MBD 的结构, 分别被称 作 Mbd2、 Mbd3 和 Mbd434。序列的对位排列结果 ( 图 2) 显示 Mbd4 和 MeCP2 的 MBD 结构 接近, 而 Mbd1, Mbd2, Mbd3 的 MBD 更为接近 34。 0032 Hendrich 等。

26、人用凝胶滞后分析 (gel retardation assay) 方法, 研究五种蛋白对 甲基化DNA的亲和能力, 发现在体外, 只有Mbd3无法与甲基化DNA形成聚合物34, 这个结 果非常出乎人们的意料, 因为 Mbd3 与另一种有甲基化 DNA 亲和能力的 MBD2b 蛋白有极高的 相似度, 尤其是他们的MBD功能域, 其原因目前尚未研究清楚, 不过有一些假说认为Mbd3可 能是专门识别一些特征序列。 0033 五 .DNA 甲基化富集测序分析方法 0034 DNA 甲基化富集测序根据所使用的蛋白不同可分为, MeDIP-seq 及 MBD-seq, 前者 使用的是 5- 甲基胞嘧啶抗体。

27、, 后者使用的是甲基化结合蛋白 (MBD)。由于其实验步骤与免 疫共沉淀测序 (ChIP-seq) 大致相同, 数据分析也大多采用 ChIP-seq 的方法。 0035 1.DNA 甲基化富集测序分析基本步骤 0036 Shirley Pepke 等在其 2009 年发表在 Nature 上的一篇综述中, 将 ChIP-seq 数据 分析算法总结为五个基本步骤 35 : 0037 1.1 平滑信号谱 0038 测序所得短序列与参考序列比对后, 得到每条序列的基因组坐标, 扫描整个基因 组可获取每个碱基的覆盖度, 该值与 ChIP-chip 中的探针信号值相类似, 于是通常我们也 习惯地将覆盖度。

28、称为信号。 但是, 覆盖度由整数表示, 是离散的, 为了将其连续化, 我们会采 用一些平滑算法, 比较常用的是移动平均值法, 即计算每个位点周围一个固定长度窗口内 的信号平均值, 作为平滑后的信号。 0039 1.2 估计背景值 0040 背景值是由于富集不完全造成, 并且也是无法避免的。如果实验设计中有对照样 本, 则可以直接把对照的信号作为背景, 否则, 需要对信号的分布建立模型, 估计出每个位 点的噪声范围。 说 明 书 CN 102776270 A 6 5/21 页 7 0041 1.3 设定阈值, 进行初步筛选 0042 得到背景之后, 将信号值减去背景, 高于预先设定的阈值, 那么。

29、将此位点作为候选 进入下一步分析 0043 1.4 依据一定原则过滤初筛结果 0044 双链对称性是比较常用的原则, 它的依据是富集片段属于正义链和负义链的概率 相等, 于是比对结果中两条链上序列数目应该接近。一些双链数目明显不等的区域很可能 是由于比对错误, 或扩增时引入的序列偏性导致的, 可以从候选位点中剔除。 0045 1.5 计算每个位点的可信度 (P-value) 0046 可信度的评估是为了进一步筛选富集位点, 通常根据信号的分布, 信号与背景的 差异程度来计算得出。设定合适的可信度阈值, 可以减少最后结果中的假阳性率。 0047 多数 ChIP-seq 分析工具及算法都遵循这五个。

30、基本步骤, 只是在每一步中采用了 不同的算法, 以期获得更高的检出率, 同时降低假发现率。 MACS(Model-based Analysis of ChIP-seq) 是使用较为广泛的一个算法 36。它首先根据序列的分布计算出位点的中心, 然后将序列平移至该中心附近, 这一做法符合 ChIP-seq 的数据特点, 因为通常测序长度小 于富集片段的长度, 因此需要将正义链序列向 3 平移, 负义链序列向 5 端平移。平移之后, 计算每个位点的信号值, 用泊松分布对信号建模, 计算每个位点属于富集区域的可信度。 0048 除 MACS 外还有诸如 Cisgenome, ERANGE, GLITR。

31、, PeakSeq, QuEST, SiSSRs, spp, USeq 等其他算法, 各自具有不同特点 37、 38。 0049 ChIP-seq 分析方法统计整个基因组被序列覆盖的情况, 按照一定的算法找出覆盖 度特别高的区域, 称为峰 (Peak), 而这些区域就被认为是可能的甲基化位点。在 DNA 富集 程度较高, 测序质量较好的情况下, 所找到的位点确实有比较高的准确度。然而, 实际应用 过程中, 这种方法存在以下不足 : 第一 . 没有考虑序列构成。DNA 甲基化发生在胞嘧啶, 对 于哺乳动物, 则只发生在 CG 双核苷酸的胞嘧啶上。但是即使某一区域不含 CG, 用 ChIP-seq。

32、 方法也有可能被认定为甲基化位点 ; 第二.在覆盖度不高的区域, 检出率相对较低。 多数算 法采用的是通过比较局部与总体覆盖度的差异, 来判断是否是富集区域, 当这种差异不是 非常显著时, 通常算法拒绝认为这是一个甲基化位点 ; 第三 . 当需要比较两组样品的甲基 化情况时, 由于找到的位点位置并不对应, 会带来一定的困难。总结以上三点不足, 我们认 为最主要的原因在于, ChIP-seq 的分析方法是一种相对通用的方法, 对于甲基化数据的研 究固然适用, 但是这样就没有利用好甲基化数据本身的特征。 0050 2. 其他算法 0051 并非所有的 DNA 甲基化富集测序数据分析都采用与 ChI。

33、P-seq 相同的方法。 Yoshinao 等用 MeDIP-seq 研究人类乳腺癌细胞的 DNA 甲基化水平变化情况 39, 他们测得 了将近1亿条序列, 测序深度达到12倍。 序列比对之后, 他们将基因组划分成若干个100kb 的区域, 统计每个区域内的序列数目, 通过与对照组对比, 并设定 2 倍作为阈值, 得到片段 富集区域。 这种方法有利于多个样本之间的比较, 但只适用于数据量充足, 基因组覆盖较完 全的情况下使用。 0052 Tomas A Down 等人通过观察 MeDIP-seq 数据和 BSP 验证得到的结果, 发现 MeDIP-chip和MeDIP-seq数据的信号值在一定。

34、程度上与CG的密度相关, 他们用分别用线性 模型和二次模型对 CG 密度因子和信号值进行拟合, 发现在多数区域都能得到较好的拟合 说 明 书 CN 102776270 A 7 6/21 页 8 结果。于是他们用贝叶斯概率模型计算在试验观察到的数据下, 各位点的甲基化程度 ( 用 后验概率表示), 通过与BSP数据对比, 发现结果吻合, 他们的算法被称作BATMAN(Bayesian tool for methylation analysis)40。 0053 综上所述, 本领域迫切需要一种能够快速、 高通量且可靠地检测并分析全基因 DNA 甲基化位点的方法。 发明内容 0054 本发明的一个目。

35、的是提供一种检测全基因组 DNA 甲基化位点的方法。 0055 本发明的另一目的是提供一种检测肝癌细胞或组织的全基因组 DNA 甲基化位点 的方法。 0056 本发明还有另一目的是提供一种用于检测全基因组 DNA 甲基化位点的装置。 0057 本发明还有另一目的是提供一种用于检测肝癌细胞或组织的全基因组 DNA 甲基 化位点的装置。 0058 因此, 在一方面, 本发明提供一种检测全基因组 DNA 甲基化位点的方法, 该方法包 括 : 0059 1) 获得细胞或组织的甲基化 DNA 片段的富集样本以及获得片段信息的步骤 ; 和 0060 2) 筛选可信的甲基化位点的步骤 ; 0061 其中步骤。

36、 2) 包括 : 获得甲基化 DNA 片段在基因组上的坐标, 即, 染色体编号, 起始 位点, 终止位点和方向 ( 正义或反义链 ) ; 再进行位点识别与可信度打分, 根据预先设定好 的阈值, 筛选出可信的甲基化位点 ; 0062 其中位点识别与可信度打分包括 : 0063 a-1. 划分 CpG 簇 0064 将基因组上 CpG 位点划分为 N 个子集 (Pi, i 1.N), 要求每个子集内部的位点 在染色体上连续排列, 且相邻两个位点之间距离小于等于 L, 而任意两个子集中的位点之间 的距离大于 L, 按照上述方法划分出的一个子集定义为 CpG 簇, CpG 簇中相距最远的两个位 点在染。

37、色体上所跨越的范围定义为 CpG 簇区域 ; 0065 a-2. 获得各 CpG 簇区域的覆盖度 0066 对于一个 CpG 簇, 其 CpG 簇区域在染色体上的起点为 Si, 终点为 Ei, 获取所测序列 中比对起点位点落于 Si-21, Ei+21 范围内的序列子集 R, 1 为超声破碎后片段的片段长度 的期望值, 获得 CpG 簇区域的覆盖度 ; 0067 a-3 划分子区域 0068 将基因组划分为 N 个区域 (Qj, j 1.N ), 每个区域内, 相邻两个 CpG 位点间 距离小于等于 L , 而任意两区域内的 CpG 位点间距离大于 L , 并且满足 L L ; 0069 a-。

38、4 获得各子区域的覆盖度 0070 具体步骤同 a-2 ; 0071 a-5 获得各 CpG 簇包含甲基化位点的概率 0072 对于一个子区域Qj, 其覆盖度为C, 它包含了k个CpG簇区域Pi(i1.k), 各CpG 簇区域覆盖度为 ci, 获得 Pi包含甲基化位点的概率。 0073 在优选的实施方式中, 所述方法用于检测肝癌细胞或组织的全基因 DNA 甲基化位 说 明 书 CN 102776270 A 8 7/21 页 9 点。 0074 在优选的实施方式中, 所述方法的步骤 1) 包括 : 0075 1-1. 提取和纯化待测动物细胞及组织的 DNA ; 0076 1-2.DNA 的片段化。

39、 ; 0077 1-3. 亲和层析柱的准备 ; 0078 1-4. 甲基化 DNA 的富集 ; 和 0079 1-5. 富集样本的测序。 0080 在另一优选的实施方式中, 步骤 1-3 包括利用 MBD2b 蛋白。 0081 在另一方面, 本发明提供一种用于检测全基因 DNA 甲基化位点的装置, 所述装置 包括 1) 用于执行获得细胞或组织的甲基化 DNA 富集样本的测序数据的步骤的组件 ; 和 2) 用于执行筛选可信甲基化位点的步骤的功能模块。 0082 在一优选实施方式中, 所述装置用于检测肝癌细胞或组织的全基因 DNA 甲基化位 点。 0083 在另一优选实施方式中, 所述装置中用于执。

40、行所述细胞或组织的甲基化 DNA 富集 样本的测序数据的步骤的组件包含 MBD2b 蛋白。 0084 本发明的其它方面由于本文的公开内容, 对本领域的技术人员而言是显而易见 的。 附图说明 0085 图 1 显示胞嘧啶在 DNA 转甲基酶的催化作用下, 被转移上一个甲基, 成为 5- 甲基 胞嘧啶。 0086 图 2 显示五种甲基化 DNA 结合蛋白 (MeCP2、 MBD1、 MBD2、 MBD3 和 MBD4) 的 MBD 区 域的序列对位排列。 0087 图 3 显示覆盖度 5X 的情况。 0088 图 4 是 CpG 簇一致性系数的经验累积分布图, 曲线从上到下分别是 L 300、 2。

41、75、 250、 225、 200、 175、 150、 125、 100、 75、 50 和 25 的情况。 0089 图 5 是在不同 L 值的条件下高一致性的 CpG 簇所占比例。 0090 图 6 是韦恩图。 0091 图 7 显示序列比对情况随错配数的累积变化。 0092 图 8 是各染色体上的覆盖比例柱状图, 黑色为肿瘤组织, 灰色为癌旁组织 ( 图中 “chr” 染色体 )。 0093 图 9 是在不同 P 值的阈值条件下, 所预测出的甲基化 CpG 位点所占比例。 0094 图 10 显示差异位点在各区域的比例。 0095 图11是过甲基化修饰的外显子根据编号分类的分布直方图,。

42、 编号为1的柱形对应 于第一外显子的数目, 之后的柱形以此类推。 0096 图12是低甲基化修饰的外显子根据编号分类的分布直方图, 编号为1的柱形对应 于第一外显子的数目, 之后的柱形以此类推。 具体实施方式 说 明 书 CN 102776270 A 9 8/21 页 10 0097 发明人发现利用易于获取且价格低廉的 MBD2b 蛋白, 结合二代测序, 能够高通量, 准确地将富集结果与基因组位置对应, 再利用我们开发的 TAMD 方法, 所得的甲基化位点的 假阳性率可以降低到 0.1。在此基础上, 完成了本发明。 0098 除非另行定义, 文中所使用的所有专业与科学用语与本领域熟练人员所熟悉。

43、的意 义相同。此外, 任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所 述的较佳实施方法与材料仅作示范之用。 0099 一 . 定义 0100 本文所用的术语 “TAMD 方法” 表示 MEDIP-seq 和 MBD-seq 数据分析工具 (Tools for Analyzing MeDIP-seq and MBD-seq Data)。 0101 本文所用的术语 “二代测序” 又称高通量测序, 其主要特点是, 能够同时对输入的 序列进行大规模并行测序, 并且所得结果为大量的(一般为2千万左右)长度不超过200bp 的短序列 (454 测序仪例外, 他的读长大于 1kbp, 但序。

44、列较少, 在 200 万左右 )。 0102 本文所用的术语 “覆盖度” 指将二代测序所得序列与基因组序列进行比对, 得到每 条短序列的基因组坐标。 于是, 我们可以统计每个基因组位点有多少条序列比对上, 该数目 便称为覆盖度, 例如图 3 所示的是覆盖度 5X 的情况。 0103 本文所用的术语 “CpG 簇” 指基因组上连续分布且两两之间的距离不超过 L 的一 群 CpG 位点。参数 L 控制 CpG 簇内位点的数目, 其取值范围从 1 到无限大, L 等于 1 时, 一 个 CpG 位点即为一个 CpG 簇, 随着 L 增大, 一些分布较密的位点逐渐合并。根据文献报道, 一定区域内的 C。

45、pG 甲基化状态高度相关 41, 因此, 当 L 取合适的值时, CpG 簇内的绝大多 数位点的甲基化状态一致, 在理想情况下, 我们便可用整个 CpG 簇包含甲基化位点的概率 来代替其中某个 CpG 被甲基化修饰的概率。 0104 经过 MBD 富集后, 有一些并不含有甲基化位点的片段会残留在结果中, 这些片段 我们在文中称作噪声片段。而本文所用的术语 “富集度” 指的是除去噪声片段后, 余下的片 段数与总的片段数之比。 一般来说, 在相同的实验条件下, 用同一批次蛋白得到的富集度比 较稳定, 它的数值可以通过实验测得, 我们的实验中富集度是 90。 0105 二 .TAMD 方法介绍 01。

46、06 1. 贝叶斯概率模型 : 0107 对于某个 CpG 簇, 我们想知道, 如果观察到 n 条片段 ( 即, 下文所述超声破碎断裂 后得到的片段 ) 落入该簇, 那么有多大的概率可以认为该 CpG 簇被甲基化修饰。我们将这 个概率记做 P(M|n), M 表示甲基化, 根据贝叶斯公式 0108 0109 其中表示非甲基化位点。 全局的甲基化概率P(M), 作为本模型的一个输入参数, 可以从已报道的文献, 或同源生物的情况推知。 0110 对于非甲基化片段, 我们假设其在整个基因组上是随机均匀分布的, 因而对于一 条片段来说, 它落入某一区域的概率等于d 为区域的长度, D 表示整个基因组的。

47、长度, 因 此, 某一区域内落入的非甲基化片段数目符合二项分布, 即 0111 对于甲基化片段, 我们假设其落在每个 CpG 簇内的概率与位点内甲基化胞嘧啶数 说 明 书 CN 102776270 A 10 9/21 页 11 目有关, 根据我们对 H1 细胞的 BS-seq 和 MeDIP-seq 的观察, 这一假设也确实成立。因此, 某区域内甲基化片段数目也同样符合二项分布, 即其中, nc 为位点内甲基化 胞嘧啶数目, NC 为甲基化胞嘧啶总数。 0112 在此, nc 与 NC 都是未知的, 我们观察到, 距离较近的两个胞嘧啶甲基化状态是高 度相关的, 这与之前文献报道的结果也相符, 。

48、因而对于一个甲基化位点来说, 如果其中的胞 嘧啶或 CG 的间隔较小, 也就是 L 值较低的情况下, 我们可以认为这个位点的甲基化胞嘧啶 数目就是胞嘧啶总数, 这样便大大简化了模型。接下来, 对于 NC, 应该等于基因组内的甲基 化位点数目, 这在事先我们并无法获知, 为此, 我们采用类似于遗传算法中的淘汰机制, 先 假定所有位点都属于甲基化位点, 计算所有位点的概率, 根据预先设定的阈值, 去除那些属 于甲基化位点可能性较低的, 剩下的数目作为新的 NC, 参与计算, 如此循环, 直到没有更多 的位点被淘汰为止。 0113 2.TAMD 方法 0114 TAMD 方法的基本思想是, 对全基因。

49、组上所有的候选甲基化位点一一排查, 用贝叶 斯推断的方法计算每个位点甲基化的可能性。 这里所指的候选位点是指可以被甲基化修饰 的胞嘧啶位置。例如, 在哺乳动物中, 指的即是所有的 CG 位点。用这种方法来分析甲基化 富集测序数据就可以弥补之前提到的 ChIP-seq 分析方法的不足 : 首先, 由于我们只专注于 胞嘧啶位置, 就完全避免了将不可能发生甲基化的位置认为是甲基化位点的错误 ; 第二, 通 过调节模型参数, 可以让方法识别出覆盖度较低区域的甲基化位点, 同时也能将假阳性率 控制在合理的范围。第三, 对于同一个基因组, 我们找出的位点属于一个固定的集合, 从不 同样本找出的位点之间有明确的对应关系, 可以十分方便地找出差异位点。 0115 本发明的 TAMD 方法包括以下步骤 : 0116 1) 划分 CpG 簇 0117 将基因组上 CpG 位点划分为 N 个子集 (Pi, i 1.N), 要求每个子集内部的位点 在染色体上连续排列, 且相邻两个位点之间距离小于等于 L, 而任意两个子集中的位点之间 的距离大于 L。按照上述方法划分出的一个子集定义为 CpG 簇, CpG 簇中相距最远的两个位 点在染色体上所跨越的范围定义为 CpG 簇区域。 0118 2) 计算各 CpG 簇区域的覆盖度 0119 对。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 >


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1