病毒整合位点捕获测序分析方法.pdf

上传人:bo****18 文档编号:5171104 上传时间:2018-12-22 格式:PDF 页数:19 大小:3.13MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410109470.1

申请日:

2014.03.21

公开号:

CN103993069A

公开日:

2014.08.20

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):C12Q 1/68申请日:20140321|||公开

IPC分类号:

C12Q1/68

主分类号:

C12Q1/68

申请人:

深圳华大基因科技服务有限公司

发明人:

丘坤龙; 何铭辉

地址:

518083 广东省深圳市盐田区北山工业区11栋

优先权:

专利代理机构:

深圳市兴科达知识产权代理有限公司 44260

代理人:

王翀

PDF下载: PDF下载
内容摘要

一种病毒整合位点捕获测序分析方法,该方法包括:将人的参考序列和病毒的参考序列合并在一起,构建一个混合参考序列;读取测序数据,过滤其中不合格的部分,得到过滤后的测序数据;利用比对软件将处理后的测序数据比对到混合参考序列上,获取一个比对结果,然后对该比对结果进行处理,得到一个用于检测病毒整合的比对结果;根据该用于检测病毒整合的比对结果,执行相应的操作,获取病毒整合的相关序列;综合上述相关序列的比对信息,获取病毒整合位点在参考序列上的坐标;综合整合位点的坐标信息,得到并输出病毒整合结果。利用本发明可以获得具有高精确度的病毒整合位点信息。

权利要求书

权利要求书
1.  一种病毒整合位点捕获测序分析方法,其特征在于,该方法包括:
参考序列构建步骤,将人的参考序列和病毒的参考序列合并在一起,构建一个混合参考序列;
数据过滤步骤,读取测序数据,过滤该测序数据中不合格的部分,得到过滤后的测序数据;
数据比对步骤,利用比对软件将处理后的测序数据比对到混合参考序列上,获取一个比对结果,然后对该比对结果进行处理,得到一个用于检测病毒整合的比对结果;
序列获取步骤,根据该用于检测病毒整合的比对结果,执行相应的操作,获取病毒整合的相关序列;
整合位点获取步骤,综合上述相关序列的比对信息,获取病毒整合位点在混合参考序列上的坐标;及
分析结果输出步骤,综合整合位点的坐标信息,得到并输出病毒整合结果。

2.  如权利要求1所述的病毒整合位点捕获测序分析方法,其特征在于,在整合位点获取步骤之后、分析结果输出步骤之前,还包括:
整合位点进阶分析步骤,根据病毒整合位点的坐标,寻找比对结果中支持整合的异常双末端测序序列对的数目,并统计整合位点处的深度、整合位点上下游预设范围的平均深度;及
所述分析结果输出步骤还包括,综合整合位点的坐标信息、异常双末端测序序列对的数目和深度信息对整合位点进行过滤,得到并输出乙肝病毒整合结果。

3.  如权利要求2所述的病毒整合位点捕获测序分析方法,其特征在于,所述异常双末端测序序列的寻找方法包括:
根据比对结果计算出平均插入片断长度和标偏差,则异常双末端测序序列满足以下条件一与条件二:
条件一,比对结果中记录的双末端测序序列的插入片断长度小于平均插入片断长度减去4倍标准差或者大于平均插入片断长度加上4倍标准差;
条件二,在上游染色体和下游染色体不同的条件下,整个片断的实际长度大于或等于平均插入片断长度减去4倍标准差并且小于或等于平均插入片断长度加上4倍标准差。

4.  如权利要求1或2所述的病毒整合位点捕获测序分析方法,其特征在于,所述数据过滤步骤包括:
去除含接头的测序序列、不明确碱基型的碱基N的比例大于预设值的测序序列、及质量低于预设要求的测序序列,所述预设要求为:质量值Q≤5的碱基数占整个测序序列的50%以上;
所述序列获取步骤包括:
序列获取步骤一,从比对结果中挑出截短比对上的测序序列,根据比对位置将相似度大于预设值的序列合并,然后利用比对软件,将被截掉的部分重新比对到混合参考序列上;及
序列获取步骤二,从比对结果中挑出两端都比对不上的双末端测序序列,将测通的双末端测序序列连成一条长序列,然后利用比对软件,将连接好的长序列比对回混合参考序列上。

5.  如权利要求4所述的病毒整合位点捕获测序分析方法,其特征在于,所述序列获取步骤一包括:
根据比对结果中的软截短reads比对上的部分的比对位置和reads被截短的方向,将软截短reads分成若干组,同一组内的软截短reads将截短的部分进行合并;
如果两条序列的一致率达到预设值,则判定该两条序列来自同一个断点,将这两条序列合并成一条最长序列,重复该步骤,将来自于同一断点的同一方向的截短序列合并成一条最长序列。

6.  如权利要求5所述的病毒整合位点捕获测序分析方法,其特征在于,所述序列获取步骤还包括:
对比对不准确的软截短reads进行校正,然后再与已经合并好的截短序列进行合并,合并后的最长序列包括:左端截短的若干软截短reads合并成的左端截短一致性序列,右端截短的若干软截短reads合并成的右端截短一致性序列;
所述对比对不准确的软截短reads进行校正的步骤包括:
根据两个比对位置的差异,将过早截短reads的截短部分的序列补充指定部分到比对上的那部分序列中,再与合并后的比对上的序列进行比较,如果两者一致率达到预设值,则合并成一个序列,同时reads支持数加上1。

7.  如权利要求6所述的病毒整合位点捕获测序分析方法,其特征在于,所述整合位点获取步骤包括:
根据左端截短一致性序列和右端截短一致性序列的匹配结果和比对上部分的比对位置,确定整合位点在混合参考序列上的坐标。

8.  如权利要求7所述的病毒整合位点捕获测序分析方法,其特征在于,所述整合位点获取步骤包括:
如果采用右端截短一致性序列,针对一致性序列比对上的部分,首先第一次生成长度为K的一段碱基序列K-mer,如果一致率序列比对上的部分长度为L,则第一次生成的K-mer的数量为L-K+1;
遍历一端左端截短的一致性序列,将左端的截短部分第二次生成长度为K的K-mer,如果左端截短序列长度为M,则第二次生成的K-mer数量为M-K+1个;
将第二次生成的K-mer与第一次生成的K-mer进行匹配,如果有两个K-mer完全匹配,则将左边截短的软截短序列初步定位到右边截短的软截短序列上;及
根据两者的相对位置,进行全长一致性匹配,如果两者的一致率达到预设值,则判定该两条软截短一致性序列来自同一断点,两者比对上的位置,即是断点的两个断开位置。

9.  如权利要求6所述的病毒整合位点捕获测序分析方法,其特征在于,所述整合位点获取步骤还包括:
如果一部分断点只有左截短软截短序列支持或者只有右截短软截短序列支持,则将软截短序列的截短部分比对回混合参考序列,如果截短序列唯一比对到混合参考序列上,则根据其比对位置和先前软截短序列比对上的部分的比对位置确定一个断点。

10.  如权利要求6所述的病毒整合位点捕获测序分析方法,其特征在于,所述分析结果输出步骤包括:
如果软截短序列的比对上的部分和被截掉的部分都是正向比对回混合参考序列,则分析结果判定该病毒正向整合到人的基因组;及
若软截短序列的比对上的部分和被截掉的部分一个正向比对到混合参考序列,另外一个负向比对到混合参考序列,则分析结果判定该病毒反向整合到人的基因组。

说明书

说明书病毒整合位点捕获测序分析方法
技术领域
本发明属于基因工程技术、生物信息技术领域,尤其涉及一种病毒(HBV)整合位点捕获测序分析的方法。
背景技术
肿瘤病毒主要分为DNA病毒和RNA病毒。DNA病毒引起癌变的作用机理在于,病毒感染细胞后通过早期基因编码的转化蛋白结合或者作用于细胞的抑癌蛋白P53或者Rb上,从而引起P53或者Rb失活,导致细胞无限增殖和生长失控,最终诱发细胞转化和肿瘤形成。而RNA病毒基因组携带有病毒癌基因,其通过病毒癌基因转录翻译产生的蛋白引起宿主细胞转化和致癌作用。某些既不含有病毒癌基因,也不优先插入和整合在细胞癌基因附近的RNA病毒,则通过自身基因组P40tax调节蛋白以反式激活细胞增殖的相关基因表达,从而引起细胞无限增殖和诱发癌症的发生。此外对于HBV、HPV等整合性的病毒,则通过病毒的部分序列整合到宿主基因组中,引起相关基因表达的上调或者下调以及染色体的不稳定性,从而使正常的细胞向无限增殖的肿瘤细胞转化,所以研究病毒与宿主之间的整合关系对于阐明与病毒相关的肿瘤的发生发展机制具有重要的科学意义。
传统的研究方法主要有染色体步行PCR、qPCR、FISH等,但是这些方法存在工作繁琐、通量低、无法精确定位和确定整合拷贝数等缺陷,大大限制了该研究领域的发展。随着二代高通量测序的发展,产生了通过全基因组测序的方法(如全基因组鸟枪法WGS,whole-genome shotgun)研究病毒整合情况。虽然WGS测序分辨率达到单碱基水平并且一次性把所有整合事件进行检测,但是现阶段高昂的价格依然限制了其应用。
因而,本领域仍需对病毒整合位点捕获方法进行改进,以进一步优化测序结果,获得具有高精确度的整合位点信息。
发明内容
鉴于传统的方法(染色体步行PCR、qPCR、FISH等)存在无法精确定位和确定整合拷贝数等缺陷,对后续信息分析造成困难事实,本发明提供一种新的序列捕获及其分析方法(即病毒整合位点捕获分析方法)。本发明根据病毒的序列来设计捕获芯片(或称为病毒芯片)的捕获探针,把宿主基因组片段化之后再与捕获芯片杂交,在捕获到病毒序列同时也把整合位点附近的宿主DNA序列捕获下来,后续对捕获下来的序列进行测序以及生物信息分析,以达到全基因组水平检测病毒的整合位点和热点、病毒分型的目的。
一种病毒整合位点捕获测序分析方法,该方法包括:参考序列构建步骤,将人的参考序列和病毒的参考序列合并在一起,构建一个混合参考序列;数据过滤步骤,读取测序数据,过滤该测序数据中不合格的部分,得到过滤后的测序数据;数据比对步骤,利用比对软件将处理后的测序数据比对到混合参考序列上,获取一个比对结果,然后对该比对结果进行处理,得到一个用于检测病毒整合的比对结果;序列获取步骤,根据该用于检测病毒整合的比对结果,执行相应的操作,获取病毒整合的相关序列;整合位点获取步骤,综合上述相关序列的比对信息,获取病毒整合位点在混合参考序列上的坐标;分析结果输出步骤,综合整合位点的坐标信息,得到并输出病毒整合结果。
进一步地,在整合位点获取步骤之后、分析结果输出步骤之前,所述病毒整合位点捕获测序分析方法还包括:整合位点进阶分析步骤,根据病毒整合位点的坐标,寻找比对结果中支持整合的异常双末端测序序列对的数目,并统计整合位点处的深度、整合位点上下游预设范围的平均深度;所述分析结果输出步骤还包括,综合整合位点的坐标信息、异常双末端测序序列对的数目和深度信息对整合位点进行过滤,得到并输出乙肝病毒整合结果。
进一步地,所述序列获取步骤包括:序列获取步骤一,从比对结果中挑出截短比对上的测序序列,根据比对位置将相似度大于预设值的序列合并,然后利用比对软件,将被截掉的部分重新比对到混合参考序列上;序列获取步骤二,从比对结果中挑出两端都比对不上的双末端测序序列,将测通的双末端测序序列连成一条长序列,然后利用比对软件,将连接好的长序列比对回混合参考序列上。
本发明提供的是一种准确有效的病毒(HBV)序列捕获方法,能够更全面获得病毒(HBV)在样本中整合相关序列。通过与WGS(whole-genome shotgun,全基因组鸟枪法)数据比较,发现病毒(HBV)整合位点捕获测序与WGS数据一致性很高,并且能找到很多WGS找不到的低频整合位点,从而可以看出病毒(HBV)整合位点捕获测序具有更高的灵敏度。病毒(HBV)整合位点捕获测序与传统的方法,以及WGS方法相比,具有如下优势:
1)与人全基因组重测序相比,相同的数据量可得到更高深度,更可靠的整合位点信息。
2)可在全基因组范围内查找病毒整合位点,获得全面的断点信息。
3)可以通过对临床活体内病毒性癌基因组直接测序,更准确,省时省力。
本发明的方法特别可以应用于病毒分子分型、检测病毒整合位点和热点及寻找疾病标志物,以下通过乙肝病毒(HBV)整合位点捕获测分析方法对本发明进行详细说明。当然,本发明中所采用的方法也可以运用于其它病毒的检测。利用本发明可以获得具有高精确度的病毒整合位点信息。
附图说明
图1是乙肝病毒(HBV)整合位点捕获测序产品策略图;
图2是乙肝病毒(HBV)捕获技术流程图;
图3是乙肝病毒(HBV)整合位点捕获测序信息分析流程图;
图4是本发明所使用的软截短reads的示意图;
图5是软截短reads中比对上的部分和被截短的部分的示意图;
图6是合并后的截短序列示意图;
图7是过早截短的软截短reads的示意图;
图8是确定病毒整合位点的示意图;
图9是产生K-mer的示意图;
图10是截短序列重比对的示意图;
图11是乙肝病毒正向整合的示意图;
图12是乙肝病毒反向整合的示意图;
图13是寻找异常paired end reads的示意图;
图14是断点附近的微同源序列鉴别示意图;
图15是检测病毒整合断点处的小片段插入的示意图;
图16是整合的病毒片段的示意图。
具体实施方式
为了使本发明的描述更易于理解,以下先对具体实施方式部分用到的专业术语进行解释说明。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明应用于带有显示屏幕和输入设备的电子装置(如各种医疗检测设备)中。所述显示屏幕可以是触摸屏等显示装置,所述输入设备可以是键盘等输入装置。所 述电子装置还包括通过数据线或信号线相连的存储器和处理器,及其它必要的电子元器件和系统软件,在此不再一一赘述。
所述电子装置中运行有病毒整合位点捕获测序信息分析系统(以下也简称为“系统”),该系统存储于电子装置的存储器中,用于根据病毒的序列来设计捕获芯片(或称为病毒芯片)的捕获探针,把宿主基因组片段化之后再与捕获芯片杂交,在捕获到病毒序列同时也把整合位点附近的宿主DNA序列捕获下来,后续对捕获下来的序列进行测序以及生物信息分析,以达到全基因组水平检测病毒的整合位点和热点、病毒分型的目的,具体方法流程参阅图1至图16的描述。
在本实施例中,所述病毒整合位点捕获测序信息分析系统可以提供一个或多个模块,所述一个或多个模块被存储在所述电子装置的存储器中并被配置成由一个或多个处理器执行,以完成本发明。本发明所称的模块是完成一特定功能的计算机程序段,比程序更适合于描述软件在计算机中的执行过程,以下各流程图中的步骤皆由相应的软件模块完成。
如图1和图2所示所示,本发明采取的文库构建策略中,病毒(HBV)整合位点捕获测序文库一般选择插入片段为170bp的文库,采用新的MyGenostics新平台进行序列捕获。
如图1和图2所示,本发明采取的测序策略中,测序平台为Hiseq2000,病毒(HBV)整合位点捕获测序文库测序一般为PE101。
本发明的测序流程包括:
1)文库构建策略:病毒(HBV)整合位点捕获测序文库一般选择插入片段为170bp(1bp=1碱基对)的文库,采用新的MyGenostics新平台进行序列捕获;
2)测序策略:测序平台为Hiseq2000,病毒(HBV)整合位点捕获测序文库测序一般为PE101;
3)实验流程:文库构建随机首先将至少3ug的基因组DNA打断成主带集中于170bp长的DNA片段,随后进行DNA片段末端修复,在片段的3’段加上“A”,然后连接文库接头,进行PCR,构建出初始杂交文库。将构建的初始杂交文库与病毒芯片进行杂交,富集目的片段,洗脱后进行PCR扩增,得到最终的杂交文库。最后,采取PE101的测序策略上机测序,得到每个样品的过滤后的下机数据(clean data)至少1Gb。
本发明的信息分析内容包括:
1)去除接头污染和低质量数据;
2)比对,产出数据的统计;
3)病毒分型,SNP、InDel检测、注释及统计;
4)检测全基因组水平的病毒整合位点和热点;
5)病毒整合支持reads和整合频率统计;
6)对人基因组上整合基因和整合位点附近基因进行Pathway,GO富集分析;
7)定制化信息分析。
在本发明中,将人的DNA参考序列和乙肝病毒的DNA参考序列合并在一起,构建一个人和乙肝病毒的混合参考序列。
本发明中,建库初始的DNA总量≥6ug(样品总量为满足2次及2次以上建库的样品标准,1次用量为3ug);>1ug起始的建库也可以尝试,但是成功率约在70-80%,且有效数据比例会降低。
本发明中,样品纯度在OD260/280=1.8~2.0为佳。
本发明中,样品的浓度越高越好,最低>50ng/ul。
本发明中,DNA样品判定标准:Level A为满足两次及两次以上建库的样品标准,Level B为满足一次建库的样品标准。
表1病毒(HBV)整合位点捕获测序样品判定标准

在本发明中,所述打断DNA片段为170bp,该片段大小是指打断后进行电泳主带的位置。
在本发明中,在进行DNA片段末端修复时,在片段的3’段加上“A”,然 后连接文库接头,进行PCR,构建出初始杂交文库。
在本发明中,捕获芯片的捕获探针根据病毒的序列进行设计,再将构建的初始杂交文库与病毒芯片(即捕获芯片)进行杂交。将目的片段经过富集、洗脱、扩增后得到最终的杂交文库。
在本发明中,测序可以在高通量测序平台上进行,如Illumina Solexa或Roche454等。采取PE101的测序策略上机测序,得到每个样品的clean data至少1Gb。
如图3所示,是本发明乙肝病毒(HBV)整合位点捕获测序信息分析流程图。
步骤S10,构建混合参考序列。
本发明中,将人的DNA参考序列和乙肝病毒的DNA参考序列合并在一起,构建一个人和乙肝病毒的混合参考序列(以下简称“混合参考序列”或“参考序列”)。
本发明中,如下所示,测序数据以fq格式保存:

步骤S11,读取测序数据,过滤该测序数据中不合格的部分。在本发明中,在对测序数据质控(接头污染,读N问题等)中,测序数据过滤策略为去除含adapter(接头)的reads(读序)、去除含N比例大于10%的reads及去除低质量reads(质量值Q≤5的碱基数占整条read的50%以上)。
步骤S12,获取过滤后的测序数据,最后得到高质量的测序数据。
步骤S13,判断处理后的测序数据的质量是否合格。本发明中,对测序数据的质量要求Q20>83%(Q20表示碱基质量值大于等于20的碱基所占的百分比)。
在本发明中,为了评估本发明的方法的优势,本发明拿病毒(HBV)整合位点捕获测序检测到的HBV整合的结果与全基因组测序检测出的HBV整合的结果进行比较,得到的结果如下表所示:
表2与全基因组测序数据病毒整合结果的一致性

与全基因组测序数据比较,发现本发明使用的病毒捕获测序与全基因组测序数据得到的结果一致性很高,并且能找到很多全基因组测序数据找不到的低频整合位点,从而可以看出病毒捕获测序具有更高的灵敏度。
步骤S14,利用比对软件将处理后的测序数据比对到混合参考序列上,获取一个SAM格式(http://samtools.sourceforge.net/SAMv1.pdf)的比对结果。本发明中,可采用BWA(Burrows-Wheeler Aligner)比对软件将测序序列与混合参考序列做比对分析。
步骤S15,对所述比对结果做排序、标记建库时扩增导致的重复等一系列处理,得到一个用于检测病毒整合的比对结果。
步骤S16,根据该用于检测病毒整合的比对结果,执行相应的操作,获取病毒整合的相关序列。包括:从比对结果中挑出两端都比对不上的双末端测序序列(paired-end reads),将测通的双末端测序序列连成一条长序列,然后用BWA的bwasw命令,将连接好的长序列比对回混合参考序列上(步骤S161至步骤S163);从比对结果中挑出那些截短比对上的测序序列(即“测序数据”中的序列,测序仪生成的序列),根据比对位置将高度相似的序列合并,例如,将相似度大于85%(默认值,可以调整)的序列合并,然后用BWA比对软件,将被截掉的部分重新比对到混合参考序列上(步骤S165至步骤S167)。
具体而言,本发明根据SAM格式比对结果的软截短reads(soft-clipped reads,如图4所示),初步筛选出与病毒整合或DNA结构变异相关的reads。软截短reads分为两种,第一种是因为reads末端测序质量值很低而截短的,第二种是reads跨过了DNA结构变异或病毒整合的断点,BWA采用动态规划算法进行的截短。第二种reads才是本发明所需要的soft-clipping reads。这种reads所对应的配偶reads(mate reads)一般是能够全长(可能会有错配和小的插入缺失)比对到特定的位置。如果一个read因为末端测序质量值而截短,BWA比对结果中,有一个XC标志位。本发明根据XC标志位,初步筛选出符合本发明要求的软截短reads。
软截短reads可以分为比对上的和被截短的两部分,一般情况下,比对上的部分都是靠近其mate reads,如图5所示。
本发明根据软截短reads比对上部分的比对位置和reads被截短的方向,将软截短reads分成若干组,同一组内的软截短reads将截短的部分进行合并,如果两条序列的一致率达到85%(默认值,可以调整),则认为这两条序列来自同一个断点,将这两条序列合并成一条最长序列。如此循环,来自于同一断点的同一方向的截短序列将会被合并成一条最长序列。合并后的最长序列分为两种,一种是左端截短序列,另一种是右端截短序列,如图6所示。
本发明会对比对不准确的软截短reads进行校正,然后再与前面合并好的截短序列进行合并。比对结果中,由于质量值或其它原因,会出现一些异常比对的软截短reads,这些reads本来正确的情况下,应该在X处截短,结果却在X-n或者X+m处就截短了。如图7所示,圈中的reads便是过早截短的软截短reads。在这种情况下,本发明会根据两个比对位置的差异,将过早截短reads的截短部分的序列补充一部分,到比对上的那部分序列中(如图7所示,圈圈中R3左端的R2部分,即R1与R3交界处到中间垂直虚线处的序列,便会被补充到左边的R1序列中),再与合并后的比对上的序列进行比较,如果两者一致率达到85%,则合并成一个序列,同时reads支持数加上1。
在信息完整的情况下,每一个大的DNA结构变异或者病毒整合造成的断点上的reads,都会既有左端截短的软截短reads又有右端截短的软截短reads,左端截短的若干软截短reads可以合并成一个长的左端截短的一致性序列,右端截短的若干软截短reads可以合成一个长的右端截短的一致性序列。这两种一致性序列都会有一个比对位置,如图8所示的pos1和pos2,本发明根据这两种一致性序列的比对位置,可以确定一部分病毒整合位点。
步骤S17,综合以上序列的比对信息,获取病毒整合位点在参考序列上的坐标(或称之为“病毒整合位置”)。本发明采用根据左端截短的软截短的一致性序列和右端截短的软截短一致性序列的匹配情况和比对上部分的比对位置,去确定断点(连接点)。以右端截短的软截短为例,一致性序列比对上的部分,首先第一次生成长度为K的一段碱基序列K-mer,如果一致率序列比对上的部分长度为L,则第一次生成的K-mer的数量为L-K+1(如图9所示)。然后遍历一端左端截短的一致性序列,把左端的截短部分第二次生成长度为K的K-mer,如果左端截短序列长度为M,则 第二次生成的K-mer数量为M-K+1个。拿第二次生成的K-mer与第一次生成的K-mer进行匹配,如果有两个K-mer完全匹配,则左边截短的软截短序列可以初步定位到右边截短的软截短序列上。之后根据两者的相对位置,进行全长一致性匹配,如果两者的一致率达到0.85,则认为这两条软截短一致性序列来自同一断点,两者比对上的位置,便是断点的两个断开位置。左端截短的软截短与右端截短的软截短方法类似,在此不再赘述。
图9中所用的方法是针对比较理想的既有左截短软截短序列支持又有右截短软截短序列支持的断点,还有一部分断点只有左截短软截短序列支持或者只有右截短软截短序列支持,这种情况采用的方法是将软截短序列的截短部分比对回参考序列,如果截短序列唯一比对到参考序列上,则根据其比对位置和先前软截短序列比对上的部分的比对位置确定一个断点。如图10所示,中间的一段细线(R4+R5)便是软截短序列,其中R4部分是比对上的部分,其比对位置为pos1,R5部分是被截短的部分,最下方的长条(R6)代表参考序列(reference)。把软截短序列的截短部分比对回参考序列(即混合参考序列),可以唯一比对到pos2,这时,可以根据pos1和pos2确定一个断点。
本发明会对乙肝病毒整合序列的整合方向进行严格检测和区分,在软截短序列中,如果软截短序列的比对上的部分和被截掉的部分都是正向比对回参考序列,那么此乙肝病毒直接正向整合到人的基因组,若软截短序列的比对上的部分和被截掉的部分一个正向比对到参考序列,一个负向比对到参考序列,那么此病毒整合的整合方式是:乙肝病毒序列先发生了一个倒置(inversion),然后再整合到人的基因组中。图11和图12中,中间部分代表病毒序列,左右两侧部分代表人的序列。图11表示正向整合,图12表示反向(倒置)整合。
步骤S18,根据病毒整合位点的坐标信息,寻找比对结果中支持整合的异常双末端测序序列对的数目,并统计整合位点处的深度、整合位点上下游200bp范围(默认值,可以调整)的平均深度。本发明基于软截短reads找到DNA结构变异和病毒整合的断点后,还会根据特定算法寻找异常paired end reads的支持,那些既有软截短reads支持,又有异常paired end reads支持的病毒整合是可靠性比较高的整合。图13中,跨过中间虚线的那对reads便是异常paired end reads。为了确定异常paired end reads,首先要基于比对结果计算出平均插入片断长度L和标偏差sd,比对结果中记录的某paired end reads的插入片断长度记为RL。则异常paired end reads必须满足以下 两个条件:
1.RL<L–4*sd或者RL>L+4*sd;
2.在up_chr(上游染色体)与down_chr(下游染色体)不相同的条件下,L–4*sd<=|pos2‐pos1+1|+|pos4‐pos3+1|<=L+4*sd。其中,pos1、post2、post3、post4分别是相应read的相应位置在参考序列上的坐标。
其中,条件一表示只要比对结果中记录的paired end reads的插入片断长度小于平均插入片断长度L减去4倍标准差或者大于平均插入片断长度L加上4倍标准差,本发明就判定这些paired end reads是异常的paired end reads,用作支持病毒整合的候选。
条件二表示在上游染色体和下游染色体不同的条件下,比对结果显示的插入片断长度是0,这个0意味着插入片断长度异常,|pos2‐pos1+1|表示上游片断的长度,|pos4‐pos3+1|表示下游片断的长度,两者相加,便是整个片断的实际长度,只要这个长度大于或等于平均插入片断长度L减去4倍标准差并且小于或等于平均插入片断长度L加上4倍标准差,本发明就判定这个paired end reads是支持病毒整合的异常paired end reads。
步骤S19,综合整合位点的坐标信息、异常双末端测序序列对的数目和深度信息对整合位点进行过滤,输出最终的乙肝病毒整合结果。
当人DNA断点和病毒DNA/RNA断点附近有微同源序列时,本发明可以鉴别出微同源的序列及其长度。如图14所示,病毒整合后的连接序列为中间的CCCCC属于病毒和人的微同源(micro-homology)序列,其断开位置可以在A点,也可以在中间5个C中的任何一个C后面。本发明的方法会记录其最左端的位置(如A点)、微同源长度和微同源序列。
本发明还可以检测病毒整合断点处的小片断插入。如图15所示,正常情况下,是A和B点发生连接,而中间多了一段ACGTC,这种情况本发明也可以检测出来。具体方法是被截短的序列比对回参考序列时,这段新序列ACGTC比对不回参考序列,本发明会对这段序列进行标记,以检测出该段新序列ACGTC。
最理想的病毒整合情况是,人的DNA序列在某处发个断开,断开后会产生两个断点,这两个断点分别接上病毒序列。这时,会产生两个连接处(junction position),如图16所示。但是,因为病毒整合后,会导致DNA结构不稳定,很可能两个连接点只能检测到一个。如果两个连接点都存在,本发明可以把两个连接点都检测出来,并给出整合的病毒片断的坐标。也有一种情况是人的DNA序列先发生了一个缺失, 再在缺失处整合进一段病毒序列,这种情况本发明也可以检测出来。
从上述内容可知,本发明能够更全面获得病毒(HBV)在样本中整合相关序列。通过与WGS(whole-genome shotgun,全基因组鸟枪法)数据比较,发现病毒(HBV)整合位点捕获测序与WGS数据一致性很高,并且能找到很多WGS找不到的低频整合位点,从而可以看出本发明病毒(HBV)整合位点捕获测序具有更高的灵敏度。
与人全基因组重测序相比,相同的数据量本发明可得到更高深度,更可靠的整合位点信息,可在全基因组范围内查找病毒整合位点,获得全面的断点信息,且可以通过对临床活体内病毒性癌基因组直接测序,更准确,省时省力。

病毒整合位点捕获测序分析方法.pdf_第1页
第1页 / 共19页
病毒整合位点捕获测序分析方法.pdf_第2页
第2页 / 共19页
病毒整合位点捕获测序分析方法.pdf_第3页
第3页 / 共19页
点击查看更多>>
资源描述

《病毒整合位点捕获测序分析方法.pdf》由会员分享,可在线阅读,更多相关《病毒整合位点捕获测序分析方法.pdf(19页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103993069 A (43)申请公布日 2014.08.20 CN 103993069 A (21)申请号 201410109470.1 (22)申请日 2014.03.21 C12Q 1/68(2006.01) (71)申请人 深圳华大基因科技服务有限公司 地址 518083 广东省深圳市盐田区北山工业 区 11 栋 (72)发明人 丘坤龙 何铭辉 (74)专利代理机构 深圳市兴科达知识产权代理 有限公司 44260 代理人 王翀 (54) 发明名称 病毒整合位点捕获测序分析方法 (57) 摘要 一种病毒整合位点捕获测序分析方法, 该方 法包括 : 将人的参考序。

2、列和病毒的参考序列合并 在一起, 构建一个混合参考序列 ; 读取测序数据, 过滤其中不合格的部分, 得到过滤后的测序数据 ; 利用比对软件将处理后的测序数据比对到混合参 考序列上, 获取一个比对结果, 然后对该比对结果 进行处理, 得到一个用于检测病毒整合的比对结 果 ; 根据该用于检测病毒整合的比对结果, 执行 相应的操作, 获取病毒整合的相关序列 ; 综合上 述相关序列的比对信息, 获取病毒整合位点在参 考序列上的坐标 ; 综合整合位点的坐标信息, 得 到并输出病毒整合结果。利用本发明可以获得具 有高精确度的病毒整合位点信息。 (51)Int.Cl. 权利要求书 3 页 说明书 9 页 附。

3、图 6 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书9页 附图6页 (10)申请公布号 CN 103993069 A CN 103993069 A 1/3 页 2 1. 一种病毒整合位点捕获测序分析方法, 其特征在于, 该方法包括 : 参考序列构建步骤, 将人的参考序列和病毒的参考序列合并在一起, 构建一个混合参 考序列 ; 数据过滤步骤, 读取测序数据, 过滤该测序数据中不合格的部分, 得到过滤后的测序数 据 ; 数据比对步骤, 利用比对软件将处理后的测序数据比对到混合参考序列上, 获取一个 比对结果, 然后对该比对结果进行处理, 得到一个用于检测病。

4、毒整合的比对结果 ; 序列获取步骤, 根据该用于检测病毒整合的比对结果, 执行相应的操作, 获取病毒整合 的相关序列 ; 整合位点获取步骤, 综合上述相关序列的比对信息, 获取病毒整合位点在混合参考序 列上的坐标 ; 及 分析结果输出步骤, 综合整合位点的坐标信息, 得到并输出病毒整合结果。 2. 如权利要求 1 所述的病毒整合位点捕获测序分析方法, 其特征在于, 在整合位点获 取步骤之后、 分析结果输出步骤之前, 还包括 : 整合位点进阶分析步骤, 根据病毒整合位点的坐标, 寻找比对结果中支持整合的异常 双末端测序序列对的数目, 并统计整合位点处的深度、 整合位点上下游预设范围的平均深 度 。

5、; 及 所述分析结果输出步骤还包括, 综合整合位点的坐标信息、 异常双末端测序序列对的 数目和深度信息对整合位点进行过滤, 得到并输出乙肝病毒整合结果。 3. 如权利要求 2 所述的病毒整合位点捕获测序分析方法, 其特征在于, 所述异常双末 端测序序列的寻找方法包括 : 根据比对结果计算出平均插入片断长度和标偏差, 则异常双末端测序序列满足以下条 件一与条件二 : 条件一, 比对结果中记录的双末端测序序列的插入片断长度小于平均插入片断长度减 去 4 倍标准差或者大于平均插入片断长度加上 4 倍标准差 ; 条件二, 在上游染色体和下游染色体不同的条件下, 整个片断的实际长度大于或等于 平均插入片。

6、断长度减去 4 倍标准差并且小于或等于平均插入片断长度加上 4 倍标准差。 4.如权利要求1或2所述的病毒整合位点捕获测序分析方法, 其特征在于, 所述数据过 滤步骤包括 : 去除含接头的测序序列、 不明确碱基型的碱基 N 的比例大于预设值的测序序列、 及质 量低于预设要求的测序序列, 所述预设要求为 : 质量值 Q 5 的碱基数占整个测序序列的 50% 以上 ; 所述序列获取步骤包括 : 序列获取步骤一, 从比对结果中挑出截短比对上的测序序列, 根据比对位置将相似度 大于预设值的序列合并, 然后利用比对软件, 将被截掉的部分重新比对到混合参考序列上 ; 及 序列获取步骤二, 从比对结果中挑出。

7、两端都比对不上的双末端测序序列, 将测通的双 末端测序序列连成一条长序列, 然后利用比对软件, 将连接好的长序列比对回混合参考序 列上。 权 利 要 求 书 CN 103993069 A 2 2/3 页 3 5. 如权利要求 4 所述的病毒整合位点捕获测序分析方法, 其特征在于, 所述序列获取 步骤一包括 : 根据比对结果中的软截短 reads 比对上的部分的比对位置和 reads 被截短的方向, 将 软截短 reads 分成若干组, 同一组内的软截短 reads 将截短的部分进行合并 ; 如果两条序列的一致率达到预设值, 则判定该两条序列来自同一个断点, 将这两条序 列合并成一条最长序列, 。

8、重复该步骤, 将来自于同一断点的同一方向的截短序列合并成一 条最长序列。 6. 如权利要求 5 所述的病毒整合位点捕获测序分析方法, 其特征在于, 所述序列获取 步骤还包括 : 对比对不准确的软截短 reads 进行校正, 然后再与已经合并好的截短序列进行合并, 合并后的最长序列包括 : 左端截短的若干软截短 reads 合并成的左端截短一致性序列, 右 端截短的若干软截短 reads 合并成的右端截短一致性序列 ; 所述对比对不准确的软截短 reads 进行校正的步骤包括 : 根据两个比对位置的差异, 将过早截短 reads 的截短部分的序列补充指定部分到比对 上的那部分序列中, 再与合并后。

9、的比对上的序列进行比较, 如果两者一致率达到预设值, 则 合并成一个序列, 同时 reads 支持数加上 1。 7. 如权利要求 6 所述的病毒整合位点捕获测序分析方法, 其特征在于, 所述整合位点 获取步骤包括 : 根据左端截短一致性序列和右端截短一致性序列的匹配结果和比对上部分的比对位 置, 确定整合位点在混合参考序列上的坐标。 8. 如权利要求 7 所述的病毒整合位点捕获测序分析方法, 其特征在于, 所述整合位点 获取步骤包括 : 如果采用右端截短一致性序列, 针对一致性序列比对上的部分, 首先第一次生成长度 为K的一段碱基序列K-mer, 如果一致率序列比对上的部分长度为L, 则第一次。

10、生成的K-mer 的数量为 L-K+1 ; 遍历一端左端截短的一致性序列, 将左端的截短部分第二次生成长度为 K 的 K-mer, 如 果左端截短序列长度为 M, 则第二次生成的 K-mer 数量为 M-K+1 个 ; 将第二次生成的 K-mer 与第一次生成的 K-mer 进行匹配, 如果有两个 K-mer 完全匹配, 则将左边截短的软截短序列初步定位到右边截短的软截短序列上 ; 及 根据两者的相对位置, 进行全长一致性匹配, 如果两者的一致率达到预设值, 则判定该 两条软截短一致性序列来自同一断点, 两者比对上的位置, 即是断点的两个断开位置。 9. 如权利要求 6 所述的病毒整合位点捕获。

11、测序分析方法, 其特征在于, 所述整合位点 获取步骤还包括 : 如果一部分断点只有左截短软截短序列支持或者只有右截短软截短序列支持, 则将软 截短序列的截短部分比对回混合参考序列, 如果截短序列唯一比对到混合参考序列上, 则 根据其比对位置和先前软截短序列比对上的部分的比对位置确定一个断点。 10. 如权利要求 6 所述的病毒整合位点捕获测序分析方法, 其特征在于, 所述分析结果 输出步骤包括 : 如果软截短序列的比对上的部分和被截掉的部分都是正向比对回混合参考序列, 则分 权 利 要 求 书 CN 103993069 A 3 3/3 页 4 析结果判定该病毒正向整合到人的基因组 ; 及 若软。

12、截短序列的比对上的部分和被截掉的部分一个正向比对到混合参考序列, 另外一 个负向比对到混合参考序列, 则分析结果判定该病毒反向整合到人的基因组。 权 利 要 求 书 CN 103993069 A 4 1/9 页 5 病毒整合位点捕获测序分析方法 技术领域 0001 本发明属于基因工程技术、 生物信息技术领域, 尤其涉及一种病毒 (HBV) 整合位点 捕获测序分析的方法。 背景技术 0002 肿瘤病毒主要分为 DNA 病毒和 RNA 病毒。DNA 病毒引起癌变的作用机理在于, 病 毒感染细胞后通过早期基因编码的转化蛋白结合或者作用于细胞的抑癌蛋白 P53 或者 Rb 上, 从而引起P53或者Rb。

13、失活, 导致细胞无限增殖和生长失控, 最终诱发细胞转化和肿瘤形 成。而 RNA 病毒基因组携带有病毒癌基因, 其通过病毒癌基因转录翻译产生的蛋白引起宿 主细胞转化和致癌作用。某些既不含有病毒癌基因, 也不优先插入和整合在细胞癌基因附 近的 RNA 病毒, 则通过自身基因组 P40tax 调节蛋白以反式激活细胞增殖的相关基因表达, 从而引起细胞无限增殖和诱发癌症的发生。此外对于 HBV、 HPV 等整合性的病毒, 则通过病 毒的部分序列整合到宿主基因组中, 引起相关基因表达的上调或者下调以及染色体的不稳 定性, 从而使正常的细胞向无限增殖的肿瘤细胞转化, 所以研究病毒与宿主之间的整合关 系对于阐。

14、明与病毒相关的肿瘤的发生发展机制具有重要的科学意义。 0003 传统的研究方法主要有染色体步行 PCR、 qPCR、 FISH 等, 但是这些方法存在工作 繁琐、 通量低、 无法精确定位和确定整合拷贝数等缺陷, 大大限制了该研究领域的发展。 随着二代高通量测序的发展, 产生了通过全基因组测序的方法 (如全基因组鸟枪法 WGS, whole-genome shotgun) 研究病毒整合情况。虽然 WGS 测序分辨率达到单碱基水平并且一 次性把所有整合事件进行检测, 但是现阶段高昂的价格依然限制了其应用。 0004 因而, 本领域仍需对病毒整合位点捕获方法进行改进, 以进一步优化测序结果, 获 得。

15、具有高精确度的整合位点信息。 发明内容 0005 鉴于传统的方法 (染色体步行 PCR、 qPCR、 FISH 等) 存在无法精确定位和确定整合 拷贝数等缺陷, 对后续信息分析造成困难事实, 本发明提供一种新的序列捕获及其分析方 法 (即病毒整合位点捕获分析方法) 。本发明根据病毒的序列来设计捕获芯片 (或称为病毒 芯片) 的捕获探针, 把宿主基因组片段化之后再与捕获芯片杂交, 在捕获到病毒序列同时也 把整合位点附近的宿主 DNA 序列捕获下来, 后续对捕获下来的序列进行测序以及生物信息 分析, 以达到全基因组水平检测病毒的整合位点和热点、 病毒分型的目的。 0006 一种病毒整合位点捕获测序。

16、分析方法, 该方法包括 : 参考序列构建步骤, 将人的参 考序列和病毒的参考序列合并在一起, 构建一个混合参考序列 ; 数据过滤步骤, 读取测序数 据, 过滤该测序数据中不合格的部分, 得到过滤后的测序数据 ; 数据比对步骤, 利用比对软 件将处理后的测序数据比对到混合参考序列上, 获取一个比对结果, 然后对该比对结果进 行处理, 得到一个用于检测病毒整合的比对结果 ; 序列获取步骤, 根据该用于检测病毒整合 的比对结果, 执行相应的操作, 获取病毒整合的相关序列 ; 整合位点获取步骤, 综合上述相 说 明 书 CN 103993069 A 5 2/9 页 6 关序列的比对信息, 获取病毒整合。

17、位点在混合参考序列上的坐标 ; 分析结果输出步骤, 综合 整合位点的坐标信息, 得到并输出病毒整合结果。 0007 进一步地, 在整合位点获取步骤之后、 分析结果输出步骤之前, 所述病毒整合位点 捕获测序分析方法还包括 : 整合位点进阶分析步骤, 根据病毒整合位点的坐标, 寻找比对结 果中支持整合的异常双末端测序序列对的数目, 并统计整合位点处的深度、 整合位点上下 游预设范围的平均深度 ; 所述分析结果输出步骤还包括, 综合整合位点的坐标信息、 异常双 末端测序序列对的数目和深度信息对整合位点进行过滤, 得到并输出乙肝病毒整合结果。 0008 进一步地, 所述序列获取步骤包括 : 序列获取步。

18、骤一, 从比对结果中挑出截短比对 上的测序序列, 根据比对位置将相似度大于预设值的序列合并, 然后利用比对软件, 将被截 掉的部分重新比对到混合参考序列上 ; 序列获取步骤二, 从比对结果中挑出两端都比对不 上的双末端测序序列, 将测通的双末端测序序列连成一条长序列, 然后利用比对软件, 将连 接好的长序列比对回混合参考序列上。 0009 本发明提供的是一种准确有效的病毒 (HBV) 序列捕获方法, 能够更全面获得病毒 (HBV) 在样本中整合相关序列。通过与 WGS(whole-genome shotgun, 全基因组鸟枪法) 数 据比较, 发现病毒 (HBV) 整合位点捕获测序与 WGS 。

19、数据一致性很高, 并且能找到很多 WGS 找 不到的低频整合位点, 从而可以看出病毒 (HBV) 整合位点捕获测序具有更高的灵敏度。病 毒 (HBV) 整合位点捕获测序与传统的方法, 以及 WGS 方法相比, 具有如下优势 : 0010 1) 与人全基因组重测序相比, 相同的数据量可得到更高深度, 更可靠的整合位点 信息。 0011 2) 可在全基因组范围内查找病毒整合位点, 获得全面的断点信息。 0012 3) 可以通过对临床活体内病毒性癌基因组直接测序, 更准确, 省时省力。 0013 本发明的方法特别可以应用于病毒分子分型、 检测病毒整合位点和热点及寻找疾 病标志物, 以下通过乙肝病毒 。

20、(HBV) 整合位点捕获测分析方法对本发明进行详细说明。当 然, 本发明中所采用的方法也可以运用于其它病毒的检测。利用本发明可以获得具有高精 确度的病毒整合位点信息。 附图说明 0014 图 1 是乙肝病毒 (HBV) 整合位点捕获测序产品策略图 ; 0015 图 2 是乙肝病毒 (HBV) 捕获技术流程图 ; 0016 图 3 是乙肝病毒 (HBV) 整合位点捕获测序信息分析流程图 ; 0017 图 4 是本发明所使用的软截短 reads 的示意图 ; 0018 图 5 是软截短 reads 中比对上的部分和被截短的部分的示意图 ; 0019 图 6 是合并后的截短序列示意图 ; 0020 。

21、图 7 是过早截短的软截短 reads 的示意图 ; 0021 图 8 是确定病毒整合位点的示意图 ; 0022 图 9 是产生 K-mer 的示意图 ; 0023 图 10 是截短序列重比对的示意图 ; 0024 图 11 是乙肝病毒正向整合的示意图 ; 0025 图 12 是乙肝病毒反向整合的示意图 ; 说 明 书 CN 103993069 A 6 3/9 页 7 0026 图 13 是寻找异常 paired end reads 的示意图 ; 0027 图 14 是断点附近的微同源序列鉴别示意图 ; 0028 图 15 是检测病毒整合断点处的小片段插入的示意图 ; 0029 图 16 是整。

22、合的病毒片段的示意图。 具体实施方式 0030 为了使本发明的描述更易于理解, 以下先对具体实施方式部分用到的专业术语进 行解释说明。 0031 0032 为了使本发明的目的、 技术方案及优点更加清楚明白, 以下结合附图及实施例, 对 本发明进行进一步详细说明。 应当理解, 此处所描述的具体实施例仅用以解释本发明, 并不 用于限定本发明。 0033 本发明应用于带有显示屏幕和输入设备的电子装置 (如各种医疗检测设备) 中。所 述显示屏幕可以是触摸屏等显示装置, 所述输入设备可以是键盘等输入装置。所述电子装 置还包括通过数据线或信号线相连的存储器和处理器, 及其它必要的电子元器件和系统软 件, 。

23、在此不再一一赘述。 0034 所述电子装置中运行有病毒整合位点捕获测序信息分析系统 (以下也简称为 “系 统” ) , 该系统存储于电子装置的存储器中, 用于根据病毒的序列来设计捕获芯片 (或称为病 说 明 书 CN 103993069 A 7 4/9 页 8 毒芯片) 的捕获探针, 把宿主基因组片段化之后再与捕获芯片杂交, 在捕获到病毒序列同时 也把整合位点附近的宿主 DNA 序列捕获下来, 后续对捕获下来的序列进行测序以及生物信 息分析, 以达到全基因组水平检测病毒的整合位点和热点、 病毒分型的目的, 具体方法流程 参阅图 1 至图 16 的描述。 0035 在本实施例中, 所述病毒整合位。

24、点捕获测序信息分析系统可以提供一个或多个模 块, 所述一个或多个模块被存储在所述电子装置的存储器中并被配置成由一个或多个处理 器执行, 以完成本发明。 本发明所称的模块是完成一特定功能的计算机程序段, 比程序更适 合于描述软件在计算机中的执行过程, 以下各流程图中的步骤皆由相应的软件模块完成。 0036 如图 1 和图 2 所示所示, 本发明采取的文库构建策略中, 病毒 (HBV) 整合位点捕获 测序文库一般选择插入片段为170bp的文库, 采用新的MyGenostics新平台进行序列捕获。 0037 如图 1 和图 2 所示, 本发明采取的测序策略中, 测序平台为 Hiseq2000, 病毒。

25、 (HBV) 整合位点捕获测序文库测序一般为 PE101。 0038 本发明的测序流程包括 : 0039 1) 文库构建策略 : 病毒 (HBV) 整合位点捕获测序文库一般选择插入片段为 170bp (1bp=1 碱基对) 的文库, 采用新的 MyGenostics 新平台进行序列捕获 ; 0040 2) 测序策略 : 测序平台为 Hiseq2000, 病毒 (HBV) 整合位点捕获测序文库测序一般 为 PE101 ; 0041 3)实验流程 : 文库构建随机首先将至少 3ug 的基因组 DNA 打断成主带集中于 170bp 长的 DNA 片段, 随后进行 DNA 片段末端修复, 在片段的 3。

26、 段加上 “A” , 然后连接文库 接头, 进行PCR, 构建出初始杂交文库。 将构建的初始杂交文库与病毒芯片进行杂交, 富集目 的片段, 洗脱后进行 PCR 扩增, 得到最终的杂交文库。最后, 采取 PE101 的测序策略上机测 序, 得到每个样品的过滤后的下机数据 (clean data) 至少 1Gb。 0042 本发明的信息分析内容包括 : 0043 1) 去除接头污染和低质量数据 ; 0044 2) 比对, 产出数据的统计 ; 0045 3) 病毒分型, SNP、 InDel 检测、 注释及统计 ; 0046 4) 检测全基因组水平的病毒整合位点和热点 ; 0047 5) 病毒整合支。

27、持 reads 和整合频率统计 ; 0048 6) 对人基因组上整合基因和整合位点附近基因进行 Pathway, GO 富集分析 ; 0049 7) 定制化信息分析。 0050 在本发明中, 将人的DNA参考序列和乙肝病毒的DNA参考序列合并在一起, 构建一 个人和乙肝病毒的混合参考序列。 0051 本发明中, 建库初始的 DNA 总量 6ug( 样品总量为满足 2 次及 2 次以上建库的样 品标准, 1 次用量为 3ug) ; 1ug 起始的建库也可以尝试, 但是成功率约在 70-80%, 且有效数 据比例会降低。 0052 本发明中, 样品纯度在 OD260/280=1.8 2.0 为佳。。

28、 0053 本发明中, 样品的浓度越高越好, 最低 50ng/ul。 0054 本发明中, DNA 样品判定标准 : Level A 为满足两次及两次以上建库的样品标准, Level B 为满足一次建库的样品标准。 说 明 书 CN 103993069 A 8 5/9 页 9 0055 表 1 病毒 (HBV) 整合位点捕获测序样品判定标准 0056 0057 在本发明中, 所述打断 DNA 片段为 170bp, 该片段大小是指打断后进行电泳主带的 位置。 0058 在本发明中, 在进行 DNA 片段末端修复时, 在片段的 3 段加上 “A” , 然后连接文库 接头, 进行 PCR, 构建出初。

29、始杂交文库。 0059 在本发明中, 捕获芯片的捕获探针根据病毒的序列进行设计, 再将构建的初始杂 交文库与病毒芯片 (即捕获芯片) 进行杂交。将目的片段经过富集、 洗脱、 扩增后得到最终的 杂交文库。 0060 在本发明中, 测序可以在高通量测序平台上进行, 如Illumina Solexa或Roche454 等。采取 PE101 的测序策略上机测序, 得到每个样品的 clean data 至少 1Gb。 0061 如图 3 所示, 是本发明乙肝病毒 (HBV) 整合位点捕获测序信息分析流程图。 0062 步骤 S10, 构建混合参考序列。 0063 本发明中, 将人的DNA参考序列和乙肝病。

30、毒的DNA参考序列合并在一起, 构建一个 人和乙肝病毒的混合参考序列 (以下简称 “混合参考序列” 或 “参考序列” ) 。 0064 本发明中, 如下所示, 测序数据以 fq 格式保存 : 0065 0066 步骤S11, 读取测序数据, 过滤该测序数据中不合格的部分。 在本发明中, 在对测序 数据质控 (接头污染, 读N问题等) 中, 测序数据过滤策略为去除含adapter(接头)的reads (读序) 、 去除含 N 比例大于 10% 的 reads 及去除低质量 reads( 质量值 Q 5 的碱基数占整 条 read 的 50以上 )。 0067 步骤 S12, 获取过滤后的测序数据。

31、, 最后得到高质量的测序数据。 0068 步骤 S13, 判断处理后的测序数据的质量是否合格。本发明中, 对测序数据的质量 要求 Q2083%(Q20 表示碱基质量值大于等于 20 的碱基所占的百分比) 。 0069 在本发明中, 为了评估本发明的方法的优势, 本发明拿病毒 (HBV) 整合位点捕获测 序检测到的 HBV 整合的结果与全基因组测序检测出的 HBV 整合的结果进行比较, 得到的结 说 明 书 CN 103993069 A 9 6/9 页 10 果如下表所示 : 0070 表 2 与全基因组测序数据病毒整合结果的一致性 0071 0072 与全基因组测序数据比较, 发现本发明使用的。

32、病毒捕获测序与全基因组测序数据 得到的结果一致性很高, 并且能找到很多全基因组测序数据找不到的低频整合位点, 从而 可以看出病毒捕获测序具有更高的灵敏度。 0073 步骤 S14, 利用比对软件将处理后的测序数据比对到混合参考序列上, 获取一个 SAM格式(http:/ 本发明中, 可采用 BWA(Burrows-Wheeler Aligner) 比对软件将测序序列与混合参考序列做比对分析。 0074 步骤 S15, 对所述比对结果做排序、 标记建库时扩增导致的重复等一系列处理, 得 到一个用于检测病毒整合的比对结果。 0075 步骤 S16, 根据该用于检测病毒整合的比对结果, 执行相应的操。

33、作, 获取病毒整合 的相关序列。包括 : 从比对结果中挑出两端都比对不上的双末端测序序列 (paired-end reads) , 将测通的双末端测序序列连成一条长序列, 然后用 BWA 的 bwasw 命令, 将连接好的 长序列比对回混合参考序列上 (步骤 S161 至步骤 S163) ; 从比对结果中挑出那些截短比对 上的测序序列 (即 “测序数据” 中的序列, 测序仪生成的序列) , 根据比对位置将高度相似的 序列合并, 例如, 将相似度大于 85 (默认值, 可以调整) 的序列合并, 然后用 BWA 比对软件, 将被截掉的部分重新比对到混合参考序列上 (步骤 S165 至步骤 S167。

34、) 。 0076 具体而言, 本发明根据SAM格式比对结果的软截短reads(soft-clipped reads, 如 图4所示), 初步筛选出与病毒整合或DNA结构变异相关的reads。 软截短reads分为两种, 第一种是因为 reads 末端测序质量值很低而截短的, 第二种是 reads 跨过了 DNA 结构变异 或病毒整合的断点, BWA 采用动态规划算法进行的截短。第二种 reads 才是本发明所需要 的 soft-clipping reads。这种 reads 所对应的配偶 reads(mate reads) 一般是能够全长 (可能会有错配和小的插入缺失) 比对到特定的位置。如果。

35、一个 read 因为末端测序质量值 而截短, BWA 比对结果中, 有一个 XC 标志位。本发明根据 XC 标志位, 初步筛选出符合本发 明要求的软截短 reads。 0077 软截短 reads 可以分为比对上的和被截短的两部分, 一般情况下, 比对上的部分 都是靠近其 mate reads, 如图 5 所示。 0078 本发明根据软截短 reads 比对上部分的比对位置和 reads 被截短的方向, 将软截 短reads分成若干组, 同一组内的软截短reads将截短的部分进行合并, 如果两条序列的一 致率达到 85%(默认值, 可以调整) , 则认为这两条序列来自同一个断点, 将这两条序列。

36、合并 成一条最长序列。如此循环, 来自于同一断点的同一方向的截短序列将会被合并成一条最 说 明 书 CN 103993069 A 10 7/9 页 11 长序列。合并后的最长序列分为两种, 一种是左端截短序列, 另一种是右端截短序列, 如图 6 所示。 0079 本发明会对比对不准确的软截短 reads 进行校正, 然后再与前面合并好的截短序 列进行合并。比对结果中, 由于质量值或其它原因, 会出现一些异常比对的软截短 reads, 这些 reads 本来正确的情况下, 应该在 X 处截短, 结果却在 X-n 或者 X+m 处就截短了。如图 7 所示, 圈中的 reads 便是过早截短的软截短。

37、 reads。在这种情况下, 本发明会根据两个比 对位置的差异, 将过早截短 reads 的截短部分的序列补充一部分, 到比对上的那部分序列 中 (如图 7 所示, 圈圈中 R3 左端的 R2 部分, 即 R1 与 R3 交界处到中间垂直虚线处的序列, 便 会被补充到左边的R1序列中) , 再与合并后的比对上的序列进行比较, 如果两者一致率达到 85%, 则合并成一个序列, 同时 reads 支持数加上 1。 0080 在信息完整的情况下, 每一个大的 DNA 结构变异或者病毒整合造成的断点上的 reads, 都会既有左端截短的软截短 reads 又有右端截短的软截短 reads, 左端截短的。

38、若干 软截短 reads 可以合并成一个长的左端截短的一致性序列, 右端截短的若干软截短 reads 可以合成一个长的右端截短的一致性序列。这两种一致性序列都会有一个比对位置, 如图 8 所示的 pos1 和 pos2, 本发明根据这两种一致性序列的比对位置, 可以确定一部分病毒整 合位点。 0081 步骤 S17, 综合以上序列的比对信息, 获取病毒整合位点在参考序列上的坐标 (或 称之为 “病毒整合位置” ) 。本发明采用根据左端截短的软截短的一致性序列和右端截短 的软截短一致性序列的匹配情况和比对上部分的比对位置, 去确定断点 (连接点) 。以右端 截短的软截短为例, 一致性序列比对上的。

39、部分 , 首先第一次生成长度为 K 的一段碱基序列 K-mer, 如果一致率序列比对上的部分长度为 L, 则第一次生成的 K-mer 的数量为 L-K+1(如 图 9 所示) 。然后遍历一端左端截短的一致性序列, 把左端的截短部分第二次生成长度为 K 的 K-mer, 如果左端截短序列长度为 M, 则第二次生成的 K-mer 数量为 M-K+1 个。拿第二次 生成的 K-mer 与第一次生成的 K-mer 进行匹配, 如果有两个 K-mer 完全匹配, 则左边截短的 软截短序列可以初步定位到右边截短的软截短序列上。之后根据两者的相对位置, 进行全 长一致性匹配, 如果两者的一致率达到 0.85。

40、, 则认为这两条软截短一致性序列来自同一断 点, 两者比对上的位置, 便是断点的两个断开位置。 左端截短的软截短与右端截短的软截短 方法类似, 在此不再赘述。 0082 图 9 中所用的方法是针对比较理想的既有左截短软截短序列支持又有右截短软 截短序列支持的断点, 还有一部分断点只有左截短软截短序列支持或者只有右截短软截短 序列支持, 这种情况采用的方法是将软截短序列的截短部分比对回参考序列, 如果截短序 列唯一比对到参考序列上, 则根据其比对位置和先前软截短序列比对上的部分的比对位置 确定一个断点。如图 10 所示, 中间的一段细线 (R4+R5) 便是软截短序列, 其中 R4 部分是比 对。

41、上的部分, 其比对位置为 pos1, R5 部分是被截短的部分, 最下方的长条 (R6) 代表参考序 列(reference)。 把软截短序列的截短部分比对回参考序列 (即混合参考序列) , 可以唯一比 对到 pos2, 这时, 可以根据 pos1 和 pos2 确定一个断点。 0083 本发明会对乙肝病毒整合序列的整合方向进行严格检测和区分, 在软截短序列 中, 如果软截短序列的比对上的部分和被截掉的部分都是正向比对回参考序列, 那么此乙 肝病毒直接正向整合到人的基因组, 若软截短序列的比对上的部分和被截掉的部分一个正 说 明 书 CN 103993069 A 11 8/9 页 12 向比对。

42、到参考序列, 一个负向比对到参考序列, 那么此病毒整合的整合方式是 : 乙肝病毒序 列先发生了一个倒置 (inversion) , 然后再整合到人的基因组中。图 11 和图 12 中, 中间部 分代表病毒序列, 左右两侧部分代表人的序列。图 11 表示正向整合, 图 12 表示反向 (倒置) 整合。 0084 步骤 S18, 根据病毒整合位点的坐标信息, 寻找比对结果中支持整合的异常双末端 测序序列对的数目, 并统计整合位点处的深度、 整合位点上下游 200bp 范围 (默认值, 可以 调整) 的平均深度。本发明基于软截短 reads 找到 DNA 结构变异和病毒整合的断点后, 还 会根据特定。

43、算法寻找异常paired end reads的支持, 那些既有软截短reads支持, 又有异常 paired end reads 支持的病毒整合是可靠性比较高的整合。图 13 中, 跨过中间虚线的那对 reads 便是异常 paired end reads。为了确定异常 paired end reads, 首先要基于比对结果 计算出平均插入片断长度 L 和标偏差 sd, 比对结果中记录的某 paired end reads 的插入片 断长度记为 RL。则异常 paired end reads 必须满足以下两个条件 : 0085 1.RLL+4*sd ; 0086 2. 在 up_chr(上游染。

44、色体) 与 down_chr(下游染色体) 不相同的条件下, L4*s d=|pos2 pos1+1|+|pos4 pos3+1|=L+4*sd。 其中, pos1、 post2、 post3、 post4分别是相应 read 的相应位置在参考序列上的坐标。 0087 其中, 条件一表示只要比对结果中记录的 paired end reads 的插入片断长度小于 平均插入片断长度 L 减去 4 倍标准差或者大于平均插入片断长度 L 加上 4 倍标准差, 本发 明就判定这些 paired end reads 是异常的 paired end reads, 用作支持病毒整合的候选。 0088 条件二表。

45、示在上游染色体和下游染色体不同的条件下, 比对结果显示的插入片 断长度是 0, 这个 0 意味着插入片断长度异常, |pos2pos1+1| 表示上游片断的长度, |pos4pos3+1| 表示下游片断的长度, 两者相加, 便是整个片断的实际长度, 只要这个长度 大于或等于平均插入片断长度 L 减去 4 倍标准差并且小于或等于平均插入片断长度 L 加 上 4 倍标准差, 本发明就判定这个 paired end reads 是支持病毒整合的异常 paired end reads。 0089 步骤 S19, 综合整合位点的坐标信息、 异常双末端测序序列对的数目和深度信息对 整合位点进行过滤, 输出。

46、最终的乙肝病毒整合结果。 0090 当人 DNA 断点和病毒 DNA/RNA 断点附近有微同源序列时, 本发明可以鉴别出微同 源的序列及其长度。如图 14 所示, 病毒整合后的连接序列为中间的 CCCCC 属 于病毒和人的微同源 (micro-homology) 序列, 其断开位置可以在 A 点, 也可以在中间 5 个 C 中的任何一个 C 后面。本发明的方法会记录其最左端的位置 (如 A 点) 、 微同源长度和微同 源序列。 0091 本发明还可以检测病毒整合断点处的小片断插入。如图 15 所示, 正常情况下, 是 A 和 B 点发生连接, 而中间多了一段 ACGTC, 这种情况本发明也可以。

47、检测出来。具体方法是 被截短的序列比对回参考序列时, 这段新序列 ACGTC 比对不回参考序列, 本发明会对这段 序列进行标记, 以检测出该段新序列 ACGTC。 0092 最理想的病毒整合情况是, 人的 DNA 序列在某处发个断开, 断开后会产生两个断 点, 这两个断点分别接上病毒序列。 这时, 会产生两个连接处 (junction position) , 如图16 所示。但是, 因为病毒整合后, 会导致 DNA 结构不稳定, 很可能两个连接点只能检测到一个。 说 明 书 CN 103993069 A 12 9/9 页 13 如果两个连接点都存在, 本发明可以把两个连接点都检测出来, 并给出。

48、整合的病毒片断的 坐标。也有一种情况是人的 DNA 序列先发生了一个缺失, 再在缺失处整合进一段病毒序列, 这种情况本发明也可以检测出来。 0093 从上述内容可知, 本发明能够更全面获得病毒 (HBV) 在样本中整合相关序列。通 过与 WGS(whole-genome shotgun, 全基因组鸟枪法) 数据比较, 发现病毒 (HBV) 整合位点捕 获测序与WGS数据一致性很高, 并且能找到很多WGS找不到的低频整合位点, 从而可以看出 本发明病毒 (HBV) 整合位点捕获测序具有更高的灵敏度。 0094 与人全基因组重测序相比, 相同的数据量本发明可得到更高深度, 更可靠的整合 位点信息,。

49、 可在全基因组范围内查找病毒整合位点, 获得全面的断点信息, 且可以通过对临 床活体内病毒性癌基因组直接测序, 更准确, 省时省力。 说 明 书 CN 103993069 A 13 1/6 页 14 图 1 图 2 说 明 书 附 图 CN 103993069 A 14 2/6 页 15 图 3 图 4 说 明 书 附 图 CN 103993069 A 15 3/6 页 16 图 5 图 6 图 7 图 8 说 明 书 附 图 CN 103993069 A 16 4/6 页 17 图 9 图 10 图 11 图 12 说 明 书 附 图 CN 103993069 A 17 5/6 页 18 图 13 图 14 图 15 说 明 书 附 图 CN 103993069 A 18 6/6 页 19 图 1。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 化学;冶金 > 生物化学;啤酒;烈性酒;果汁酒;醋;微生物学;酶学;突变或遗传工程


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1