试剂盒、建库方法以及检测目标区域变异的方法及系统.pdf

摘要
申请专利号：	CN201610196120.2	申请日：	20160330
公开号：	CN105950709A	公开日：	20160921
当前法律状态：		有效性：	审查中
法律详情：
IPC分类号：	C12Q1/68,C12N15/10,C40B50/06,C12M1/34,G06F19/22	主分类号：	C12Q1/68,C12N15/10,C40B50/06,C12M1/34,G06F19/22
申请人：	广州精科生物技术有限公司
发明人：	韩颖鑫,张印新,王佳伟,高晓峘,张春生,李胜
地址：	510663 广东省广州市国际生物岛螺旋四路7号第6层602单元
优先权：	CN201610196120A
专利代理机构：	深圳市赛恩倍吉知识产权代理有限公司	代理人：	彭辉剑
PDF下载：	PDF下载

内容摘要

本发明提供一种试剂盒，其包含探针，所述探针固定在固相基质上或者所述探针游离于溶液中，所述探针能够特异性识别目标区域，其中，所述目标区域包括下列之一：表1所示39个基因中的至少之一；或表1中所述基因的CDS区域；或表1中所述基因的CDS区域的上下游至少10‑200bp的区域。发明还提供试剂盒的用途、一种构建目标区域测序文库的方法、一种测序方法、一种检测目标区域变异的方法及系统。利用本发明的试剂盒和/或本发明的方法及系统，能够一次性、简单方便且高特异性的获取结直肠癌的相关基因序列，能够准确检测分析这些相关基因序列，使检测分析结果可以辅助用于结直肠癌的研究。

权利要求书

1.一种试剂盒，其包含探针，所述探针固定在固相基质上或者所述探针游离于溶液中，所述探针特异性识别目标区域，其中，所述目标区域包括：表1所示39个基因中的至少之一；或表1中所述至少一种基因的CDS区域；或表1中所述至少一种基因的CDS区域的上下游至少10-200bp的区域。 2.如权利要求1所述的试剂盒，其特征在于，所述探针为全人工合成或体外克隆合成，所述探针的长度为20-120mer。 3.权利要求1的试剂盒，其特征在于，所述探针的制备包括如下步骤：确定所述目标区域的参考序列；从所述参考序列的一端开始，在所述参考序列上依次获取DNA片段直至所述参考序列的另一端；将所述DNA片段与所述参考序列比对，获得每一条DNA片段在参考序列上的比对次数，过滤掉比对次数超过1的DNA片段；去除掉GC含量不在30-80％的DNA片段。 4.权利要求1-3任一项所述的试剂盒在获取结直肠癌相关基因序列中的用途。 5.一种构建目标区域测序文库的方法，其特征在于，包括：(1)获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端；(2)加碱基“A”至所述DNA片段的3’端，获得具有粘性末端A的DNA片段；(3)连接接头于所述粘性末端片段的两端，获得接头连接片段；(4)利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；(5)利用权利要求1-3任一项所述的试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，(6)利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物构成所述目标区域测序文库。 6.根据权利要求5所述的方法，其特征在于，所述第一引物序列如SEQIDNO:1和SEQIDNO:2所示；所述第二引物序列如SEQIDNO:3和SEQIDNO:4所示。 7.根据权利要求5所述的方法，其特征在于，所述样本来源于人或动物；所述目标区域为结直肠相关基因区域。 8.一种测序方法，其特征在于，包括：根据权利要求5的方法构建目标区域测序文库；对所述目标区域测序文库进行测序，获得测序数据，所述测序数据由多个读段组成；其中，在NextSeqCN500上进行所述测序。 9.一种检测目标区域变异的方法，其特征在于，包括，(1)利用权利要求8的方法，获得测序数据，对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段；(2)将所述测序数据与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对，其中所述参考序列为HG19；将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；对所述比对结果进行再过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、InDel、SV和CNV变异中的至少之一；其中，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。 10.一种检测目标区域变异的系统，其特征在于，包括，核酸获取装置，用于获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端；加碱基A装置，用于加碱基“A”至所述DNA片段的3’端，获得具有粘性末端A的DNA片段；接头连接装置，用于连接接头于所述粘性末端片段的两端，获得接头连接片段；第一扩增装置，用于利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；捕获装置，用于利用权利要求1-3任一项所述的试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，第二扩增装置，用于利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物；测序装置，用于将所述扩增产物进行测序，获得所述目标区域变异位点信息，变异包括SNP、InDel、SV和CNV变异中的至少一种。

说明书

技术领域

本发明涉及生物医学领域，具体的，涉及试剂盒及其用途，更具体的，本发明涉及一种试剂盒、试剂盒的用途、一种构建目标区域测序文库的方法、一种测序方法以及一种检测目标区域变异的方法及系统。

背景技术

结直肠癌是最常见的消化道恶性肿瘤，发病率和死亡率分别占我国恶性肿瘤的第三位和第四位。根据WHO最新数据，我国结直肠癌的发病率为14.2/10万人，死亡率6.9/10万人。2008年我国新发结直肠癌病例22万例，死亡10.9万例。结直肠癌作为一类高发恶性肿瘤，并且癌症的发生是一个渐进缓慢的过程，如能够对其做到早期发现，临床有效治疗，到预后复发监测进行全面控制，可有效的降低其发生率和死亡率，将有着巨大的经济效益和社会效益[Jemal A,Siegel R,Ward E,et al.Cancer statistics,2009.CA Cancer J Clin.2009；59:225-229.]。

目前对于结直肠癌早期研究的方法有很多，我国常见方案是先行FOBT(分为五类：放射分析法、物理法、化学法、免疫化学法和血红素-卟啉试验)，再对阳性者进行结肠镜检查。但大部分方法在特异性和准确性方面尚不足以满足早期检测的要求。

循环DNA是存在于血液、滑膜液等体液中的细胞外游离DNA，研究发现许多肿瘤患者循环DNA与正常人相比有很大差异，由于肿瘤细胞凋亡，癌症患者循环DNA中含有一定的肿瘤标志物。近年来肿瘤患者血液中循环游离DNA的基因检测诊断已成为研究热点，研究显示血液中循环肿瘤DNA有可能成为一种新的肿瘤早期诊断及预后判断的标志物。检测血液中循环游离DNA中的肿瘤标志物检测具有区别于传统组织肿瘤标志物检测方式，具有无创、随时监控和早期筛查等优势，并且对循环游离DNA的取样检测避免了当前分子诊断需要采集癌组织作为标本来源的困难，是一种很有潜力的肿瘤标志物。

如今高通量测序技术已经在医学研究中得到广泛应用，但由于结直肠癌发病早期的血浆游离DNA含量较低，而且测序技术本身存在一定的错误率等，因此传统的测序方法无法分辨测序错误和肿瘤标本中低频率突变，因此开发易操作、低损伤、高准确的技术是结直肠癌早期检测研究领域攻克的难点。

发明内容

依据本发明的一方面，本发明提供一种试剂盒，其包含探针，所述探针固定在固相基质上或者游离于溶液中，所述探针能够特异性识别目标区域，其中，所述目标区域包括下列之一：

表1所示39个基因中的至少之一；或表1中所述至少一种基因的CDS区域；或表1中所述至少一种基因的CDS区域的上下游至少10-200bp的区域。

本发明另一方面提供一种构建目标区域测序文库的方法，所述方法包括：

(1)获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述短序列DNA片段具有平末端；

(2)加碱基“A”至所述DNA片段的3’端，获得具有粘性末端A的DNA片段；

(3)连接接头于所述粘性末端片段的两端，获得接头连接片段；

(4)利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；

(5)利用上述试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，

(6)利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物构成所述目标区域测序文库。

本发明另一方面提供一种测序方法，所述方法包括：根据上述构建目标区域测序文库的方法构建目标区域测序文库；

对所述目标区域测序文库进行测序，获得测序数据，所述测序数据由多个读段组成；其中，在NextSeq CN500上进行所述测序。

本发明另一方面提供提供一种检测目标区域变异的方法，所述方法包括：(1)利用上述测序方法，获得测序数据，对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段；

(2)将所述测序数据与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对；将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；对所述比对结果进行再过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、InDel、SV和CNV变异中的至少之一；其中所述参考序列为HG19，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。

本发明另一方面提供一种检测目标区域变异的系统，包括，

核酸获取装置，用于获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端；加碱基A装置，用于加碱基“A”至所述DNA片段的3’端，获得具有粘性末端A的DNA片段；接头连接装置，用于连接接头于所述粘性末端片段的两端，获得接头连接片段；第一扩增装置，用于利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；捕获装置，用于前述含有探针的任一试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，第二扩增装置，用于利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物；测序装置，用于将所述扩增产物进行测序，获得所述目标区域变异位点信息，变异包括SNP、InDel、SV和CNV变异中的至少一种。

本发明的方法，是一种高灵敏性、高特异性、高通量的方法，能够辅助用于结直肠癌的相关基因的科学研究。通过使用新一代高通量测序技术，结合本发明一方面的试剂盒包含的能特异性捕获特定基因区域的探针，能够在很短的时间内同时进行多例样本检测，并且可以基于相同数据量进行更高深度的数据挖掘，检测结果特异性高，具较低的假阳性率、假阴性率，能够确保得到的检测结果能够准确的反应受检者的实时外周血状况。而且此芯片中的探针集不仅可以灵活的挑选检测基因，还能随着导致结直肠癌新基因的发现，加入新的基因，具有很高的性价比和针对性。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示了根据本发明的一个实施例，，构建目标区域测序文库的方法的流程图。

具体实施方式

本发明人经过广泛而深入的研究，首次建立了一种测定目标区域变异的方法。具体而言，本发明人根据现有疾病基因的信息，设计了固定有多种疾病特异性探针的核酸芯片；对待测样本中游离的、片段化的、源自基因组DNA的双链核酸分子的末端加入接头，并进行富集；用核酸芯片对含接头的DNA片段进行捕获，将捕获的片段在高通量测序平台进行测序，基于已知的基因位点信息，对测序结果进行分析，得到目标区域核酸变异的信息。

本发明中的“变异”、“核酸变异”、“基因变异”可通用，本发明中的“SNP”(SNV)、“CNV”、“插入缺失”(indel)和“结构变异”(SV)同通常定义，但本发明中对各种变异的大小不作特别限定，这样这几种变异之间有的有交叉，比如当插入/缺失的为大片段甚至整条染色体时，也属于发生拷贝数变异(CNV)或是染色体非整倍性，也属于SV。这些类型变异的大小交叉并不妨碍本领域人员通过上述描述执行实现本发明的方法和/或装置并且达到所描述的结果。

本发明中的“参考序列”为已知基因组序列或者已知基因组序列的至少一部分，本发明中所使用的“第一”、“第二”等仅为方便描述指代，不能理解为指示或暗示相对重要性，也不能理解为有先后顺序关系。本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

CDS区域即编码区域，编码区是指能够转录信使RNA的部分，它能够合成相应的蛋白质。

获得本发明一方面的试剂盒、实现本发明一方面的方法，一般包括目标区域捕获探针/芯片的设计、微量样本建库及杂交上机测序、下机数据的生物信息分析和变异数据解读。

一种试剂盒，其包含探针，所述探针固定在固相基质上或者所述探针游离于溶液中，所述探针能够特异性识别目标区域，其中，所述目标区域包括：

表1所示39个基因中的至少之一；或表1中所述至少一种基因的CDS区域；或表1中所述至少一种基因的CDS区域的上下游至少10-200bp的区域。

表1

AKAP9 GRIN2A PMS2 AKT1 KIT PTEN APC KMT2C RAF ARID1A KMT2D RET ATK11 KRAS RNF213 ATM MLH1 RNF43 AXIN2 MLH3 SMAD2 BMPR1A MSH2 SMAD4 BRAF MSH6 SPEN CREBBP MUTYH TCF7L2 EGFR NRAS TP53 EPCAM PIK3CA TRRAP FBXW7 PMS1 UBR5

在本发明的一个实施例中，目标区域包括表1所示39个基因中的至少10、20或30个基因。在本发明的一个实施例中，目标区域包括表1所示39个基因的全部基因区域。本发明的试剂盒探针能够特异性识别的目标区域，是发明人经过多次收集、多次筛选和多次试验组合获得的，这些目标区域与结直肠癌的发生发展相关。

进一步的，所述探针的长度为20-120mer。较佳地，50-100mer，更佳地，60-80mer。

在本发明的一个实施例中，所述探针的制备包括如下步骤：确定所述目标区域的参考序列；从所述参考序列的一端开始，在所述参考序列上依次获取DNA片段直至所述参考序列的另一端；将所述DNA片段与所述参考序列比对，获得每一条DNA片段在参考序列上的比对次数，过滤掉比对次数超过1的DNA片段；去除掉GC含量不在30-80％的DNA片段。

其中，一条DNA片段为一条探针，全部所述DNA片段构成探针集，所述DNA片段之间完全重叠、部分重叠或完全不重叠，所述探针集能够覆盖所述目标区域至少一次。

所说的目标区域的参考序列可以从参考基因组上获取，例如从人参考基因组HG19上获得对应目标区域的基因，所有的HG19上的对应的基因构成所说的目标区域的参考序列，HG19可以从NCBI数据库下载。

进一步的，探针的制备还包括：确定所述目标区域在参考基因组上的位置，获取所述目标区域的参考序列，从所述参考序列一端的第一个核苷酸开始拷贝所述参考序列获取第一条DNA片段，从所述参考序列一端的第二个核苷酸开始拷贝所述参考序列获取第二条DNA片段，从所述参考序列一端的第三个核苷酸开始拷贝所述参考序列获取第三条DNA片段，这样依次获取后续DNA片段直至第N条DNA片段的一端超出所述参考序列的另一端，其中，一条DNA片段为一条探针，全部所述DNA片段构成所述探针集，N为所述探针集中包含的探针的总数。

依据本发明的另一方面，本发明提供一种上述任一试剂盒在获取结直肠癌相关基因序列中的用途。利用本发明一方面的试剂盒能够一次性、简单方便且高特异性的获取结直肠癌的相关基因序列。

依据本发明的又一方面，本发明提供一种构建目标区域测序文库的方法，所述方法包括：(1)获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端；(2)加碱基“A”至所述DNA片段的3’端，获得具有粘性末端A的DNA片段；(3)连接接头于所述粘性末端片段的两端，获得接头连接片段；(4)利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；(5)利用上述试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，(6)利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物构成所述目标区域测序文库。

本发明的这一方面的测序文库构建方法，特别适用于样本含微量核酸的测序文库的构建，在本发明的一个实施例中，样本为含微量游离DNA片段的血浆样本，包含极其微量的目标游离DNA片段，第一扩增使得核酸的量能满足芯片/探针杂交捕获的需求，而因芯片杂交捕获会损耗一定量的核酸，第二扩增能使捕获下的目标片段获得再次扩增以满足上机测序和质控检测的要求。本发明的这一文库构建方法特别适用于总游离核酸不低于10ng或者常规组织基因组DNA不低于1μg的样本的测序文库构建，利用本发明的这一方面的方法构建的目标区域文库，测序后的下机数据质量高，基于高质量的下机数据利于后续的准确检测分析。

在本发明的一个实施例中，步骤(1)中所述DNA片段具有平末端是通过末端修复的方法制备。根据本发明的一个实施例，在将DNA片段进行末端修复前，可以进一步包括纯化DNA片段的步骤，由此，使得后续的末端修复易于进行。根据本发明的实施例，将DNA片段进行末端修复可以利用Klenow片段、T4DNA聚合酶和T4多核苷酸激酶进行，其中，所述Klenow片段具有5’—3’聚合酶活性和3’—5’聚合酶活性，但缺少5’—3’外切酶活性。由此，能够方便准确地对DNA片段进行末端修复。根据本发明的实施例，还可以进一步包括对经过末端修复的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。

进一步的，在经过末端修复的DNA片段的3’末端添加碱基A，以便获得具有粘性末端A的DNA片段。根据本发明的一个实施例，可以利用Klenow(3’—5’exo-)，即具有3’—5’外切酶活性的Klenow，在经过末端修复的DNA片段的3’末端添加碱基A。由此，能够方便准确地将碱基A添加到经过末端修复的DNA片段的3’末端。根据本发明的实施例，还可以进一步包括对具有粘性末端A的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。

进一步的，可以使用热启动taq DNA聚合酶对经过转换的目的片段进行PCR扩增。根据本发明的实施例，热启动taq DNA聚合酶的种类不受特别限制，根据本发明的具体示例，热启动taqDNA聚合酶可以为r-taq聚合酶，由此PCR扩增效率高、用时少。

在本发明的一个实施例中，所述第一引物序列如SEQ ID NO:1和SEQ ID NO:2所示；所述第二引物序列如SEQ ID NO:3和SEQ ID NO:4所示。

其中SEQ ID NO:2中“NNNNNNNN”表示标签序列，所述标签序列具有SEQ ID NO：5-8中至少之一所示的序列。

在本发明的一个实施例中，所述方法具有如下特征：所述样本来源于人或动物；所述目标区域为结直肠癌相关基因区域。

依据本发明的一方面，本发明提供一种测序方法，所述方法包括：根据本发明一方面的测序文库构建方法构建目标区域测序文库；对所述目标区域测序文库进行测序，获得测序数据，所述测序数据由多个读段组成；其中，在NextSeq CN500上进行所述测序。

进一步的，测序技术可采用第二代测序技术或第三代测序技术进行。本领域人员可以理解的，所述测序平台还可以采用Illumina的Hiseq2000/2500平台、Life Technologies的Ion Torrent平台、单分子测序平台等。在本发明的一个实施例中，采用贝瑞和康公司的NextSEQ CN 500测序平台。

依据本发明的一方面，本发明提供一种检测目标区域变异的方法，所述方法包括：(1)利用前述本发明的任一测序方法，获得目标样本的目标区域测序数据，对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段；(2)将所述测序数据与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对，其中所述参考序列为HG19；将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；对所述比对结果进行再过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、InDel、SV和CNV变异中的至少之一；其中，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。这里，所说的第二比对为局部比对，第一比对为常规全局比对，可利用但不限于SOAP或BWA等软件依照其默认设置进行，获得第一比对结果，第一比对结果包括读段在参考序列上的匹配位置及匹配情况信息，在本发明的一个实施例中，进行第二比对即基于第一比对结果，对与所捕获的基因区域对应的参考序列中的所有已知INDEL附近的所有序列信息(reads)进行局部重新比对，能够消除第一比对中的错误，提高后续变异检测的准确性，第二比对可利用GATK重比对软件(https://www.broadinstitute.org/gatk/)进行。在本发明的一个实施例中，通过GATK UnifiedGenotyper软件同时检测所说的SNP和INDEL变异。利用本发明的这一方面的变异检测方法，能够准确检测出突变频率为1％的低频突变。

在本发明的一个实施例中，所述方法还包括，当所检测出的变异位点中的至少之一满足以下，则判定所测样本为阳性样本：测序深度不小于10X，至少有3个读段的支持，在阴性对照样本中的读段支持数少于2，在阳性对照样本中的突变率大于1％，以及变异位点的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异。所说的阳性样本指结直肠癌样本。上述判定条件是发明人结合目前相关数据库信息和大量文献报道信息、检测统计大量阳性样本和大量阴性样本确定下来的，具有统计意义。

特别的是，所述的变异位点在待测样本中的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异。其中的读段支持量，可以为支持该变异的读段的数目，也可以是支持该变异的读段在比对上该位点读段中的比例。

在本发明的一个实施例中，采用后者来比较，所说的具有显著差异指具有实质差异，例如对于待测样本中的变异位点A，在阳性样本中的reads支持比例为26/500(变异26条reads，总500条reads)，即阳性样本中的变异频率5.2％，而在阴性样本中的reads支持比例为1/200(变异1条reads，总200条reads)，即阴性样本中的变异频率为0.5％，则达到所说的显著性差异或者所说的实质性差异，这里指具有统计学上的显著性差异，例如可以利用fisher检验，差异具有显著性(p≤0.05)，即认为达到所说的具有显著差异。

在本发明的一个实施例中，还采用另外一种确定显著性差异的算法，例如对于待测样本中的变异位点A，在阳性样本中的reads支持比例为7/500，而在大量阴性样本中的支持比例符合特定的分布，均小于1/200，比较待测样本中变异位点A的读段支持比例(变异频率)与大量阴性样本数据集中该位点变异频率的差异，可以利用z检验或者t检验，差异具有显著性(p≤0.05)，即达到所说的显著性差异。

本发明另一方面提供一种检测目标区域变异的系统，包括：

核酸获取装置，用于获取待测样本中的核酸，所述核酸由多个初始DNA片段组成，所述初始DNA片段来自断裂的基因组DNA和/或游离的DNA片段；加碱基A装置，用于加碱基“A”至所述短序列DNA片段的3’端，获得具有粘性末端A的DNA片段；接头连接装置，用于连接接头于所述粘性末端片段的两端，获得接头连接片段；第一扩增装置，用于利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；捕获装置，用于前述任一包含探针的试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，第二扩增装置，用于利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物；测序装置，用于将所述扩增产物进行测序，获得所述目标区域变异位点信息，变异包括SNP、InDel、SV和CNV变异中的至少一种。

在本发明的一个实施例中，所述第一引物序列如SEQ ID NO:1和SEQ ID NO:2所示；所述第二引物序列如SEQ ID NO:3和SEQ ID NO:4所示。

其中SEQ ID NO:2中“NNNNNNNN”表示标签序列，所述标签序列具有SEQ ID NO：5-8中至少之一所示的序列，

在本发明的一个实施例中，所述检测目标区域变异的系统还包括：

第一过滤装置，用于对测序装置获得的测序数据进行第一过滤，获得第一过滤结果，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段；

第一比对装置，用于将所述第一过滤结果与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对，其中所述参考序列为HG19；

第二比对装置，用于将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；

第二过滤装置，用于对所述第二比对结果进行第二过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、InDel、SV和CNV变异中的至少之一；其中，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。

前述对于本发明一方面或者任一具体实施方式中的检测目标区域变异的方法的技术特征和优点的描述，同样适用于本发明这一方面的系统，在此不再赘述。

下面示例，仅用于解释本发明，而不能理解为对本发明的限制。除另有交待，以下实施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器，都是常规市售产品或者开源的，比如购自贝瑞和康公司的NextSEQ CN 500测序平台建库相关试剂盒来进行文库构建等。

实施例一设计芯片

1、统计OMIM数据及相关文献中有关单基因导致的结直肠癌相关的驱动基因的每个外显子区变异样本数、变异样本、最热点变异所在的样本数、PI值(以评估患者回复频率在每个外显子上的水平，PI＝每外显子上携带突变的累计患者数目/外显子长度)，并根据PI值降序排列。然后以第一个外显子区变异的样本作为样本数据库，统计其他所有区间和样本数据库不同样本的个数，将不同样本个数最多的样本区间列为第二个筛选到芯片区间，此时以筛选到的两个区间的变异样本作为样本数据库，以同样的方法筛选第三个区间，直到样本数据库包括了所有的样本，以统计外显子区集，而对于没有筛选到任何区间的基因所有区间，则都加到芯片区间上。

2、基于TCGA，ICGC等数据库，以去除驱动基因区间并且包括大于等于5个样本的热点变异的区间(SNV>＝5)为候选区间，重复上一步的计算。

3、基于TCGA，ICGC等数据库，在去除已被筛选的区间中分别以：PI>＝30，SNV>＝3和：PI>＝20，SNV>＝3为候选区间，筛选使得单样本数据库样本数减少最多的区间作为第一个芯片区间，重复以上过程进行计算。

4、加入融合基因等区间。

5、设计出目标区域捕获芯片ColorectalPano。ColorectalPano芯片包括了结直肠癌相关的驱动基因(Driver Gene)、高频突变基因、遗传性基因及靶药相关基因等，共计39个基因，102Kb。基因列表详见表1。

实施例二构建目标区域测序文库，具体流程见图1。

(一)样本制备

1.抽取受检者外周血5-10mL，存于EDTA抗凝管中，在4-6小时内对外周血进行分离；

2.血浆游离DNA提取(参照QIAamp Circulating Nucleic Acid Kit提取试剂说明书，进行血浆游离DNA提取)；得到血浆游离DNA(cfDNA)，cfDNA中可能包含来自肿瘤细胞的DNA片段(ctDNA)。(二)文库构建

1.末端修复

反应后加入Agencourt AMPure XPreagent 120μL，磁珠纯化后，最后回溶42μL ddH2O，带磁珠进行下一步反应；

2.末端加A

反应后加入PEG/NaCl SPRI溶液90μL，充分混合并进行磁珠纯化，最后回溶(35-接头)μL ddH2O，带磁珠进行下一步反应；

3.接头连接

反应后，加入PEG/NaCl SPRI溶液50μL，进行第一次磁珠纯化，使用50μL Tris-HCl(1mM，pH8.0)回溶；

再加入PEG/NaCl SPRI溶液50μL，进行第二次磁珠纯化，使用25μLTris-HCl(1mM，pH8.0)回溶；

4.第一轮PCR扩增

反应后加入Agencourt AM Pure XP reagent 90μL，磁珠纯化后，回溶31μL ddH2O，取上清液后质控并进行芯片杂交。

(三)目标区域捕获芯片杂交

1.采用实施例一设计的捕获芯片ColorectalPano-102Kb，按照常规芯片使用的方法进行杂交捕获及洗脱。最后使用21μL ddH2O回溶杂交洗脱磁珠。

2.第二轮PCR扩增

反应后加入Agencourt AMPure XP reagent 108μL，磁珠纯化后，回溶31μL EB，取上清液后质控并上机测序。

实施例三上机测序

将实施例二获得的测序文库，采用Nextseq CN 500PE75程序进行上机测序，测序实验操作按照制造商提供的操作说明书(参见杭州贝瑞和康基因诊断公司官方公布cBot)进行上机测序操作。

实施例四测序数据分析

1.利用实施例三的方法获得的测序数据。

2.下机数据过滤Reads_filter：筛选符合分析要求的reads。需要满足两个条件：1)reads中N的数目<10％；2)质量值<5的碱基不超过50％。

3.序列比对：Bwa aln->sampe|samtools view|samtools sort：与人类参考基因组序列比对，得到每条reads在染色体上的位置及质量信息。比对后的文件以bam格式存在；

4.去重复MarkDuplicates.jar：将比对到参考基因组相同起点的reads标记为重复，在后续分析中只作为一条reads分析；

5.重比对：GenomeAnalysisTK.jar-T Realigner、TargetCreator、IndelRealigner：将前期比对质量差的reads针对性地利用其他比对工具进行重新比对，提高数据利用率；

6.质量值校正GenomeAnalysisTK.jar-T BaseRecalibrator、PrintReads：根据reads特点对质量值作校正，提高支持的可信度；

7.过滤Filt_bam：去除比对中错配碱基数多于3个的reads，提高准确性；

8.质控QC：统计芯片的捕获效率、有效reads数、平均深度、重复率、覆盖度及未被覆盖的区间等信息，对芯片设计、样本处理及上机测序过程进行评估和反馈，保证质量控制过程。

9.识别SNV/InDel/SV/CNV及筛选其中的高频变异位点：

用MuTect、varScan、somVar流程识别出SNP变异；

用gatk、varScan、somVar流程识别出InDel变异；

用contra.py流程识别出CNV；

用MDect流程识别出SV；

针对不同的变异类型选用不同的检测软件及参数

所使用的筛选参数为：测序深度≥10X，在阴性(正常)样本中的变异率≤2％，在阳性样本中的变异率≥1％，在该待测样本数据中支持该变异的reads数≥3，与正常对照(例如正常体细胞)的读段支持比例具有显著差异(p≤0.05)；

10.注释

对检出的变异进行注释，内容包括：功能、reads支持数、变异频率、氨基酸变异及Cosmic中的变异等，得到的信息可根据疾病可数据库进行相应调整；注释标记：根据变异情况判断疾病的来源，变异数据解读。

实施例五两例实验样本检测结果

按照实施例1-4的方法对两例样本进行检测。

1、检测结果

测序数据统计结果见下表2：

表2

目标区域覆盖度见下表3：

表3

样本名称平均深度平均覆盖度 ≥4 ≥20 16JK000003-N 176 99.9％ 99.7％ 99.7％ 16JK000003-T 588 100％ 100％ 100％

检测结果见下表4：

表4

本次基因检测检出的其他变异信息见下表5：

表5

注释：rsID：短序列突变在数据库中的编号；FR.1:dbSNP数据库中收录的关于此SNP的频率信息；Fr.2：千人计划中全部测序样本中关于此SNP在亚裔人种中的频率信息；Fr.3：ESP6500数据库中收录的关于此SNP的频率信息；Fr.4：本地数据库中关于此SNP的频率信息；Condel：Condel数据库预测结果。

2、检测结果说明

本次检测到了与结直肠癌相关的靶向用药基因KRAS中，检测到了一个G12C的突变。此突变位于2号外显子，临床用药指南指出，此位点的突变的患者对EGFR抗体药物基本无效，而野生型患者有效。

上面所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通工程技术人员对本发明技术方案所做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

序列表

<110> 广州精科生物技术有限公司

<120> 试剂盒、建库方法以及检测目标区域变异的方法及系统

<130> CN81767

<160> 7

<170> PatentIn version 3.5

<210> 1

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 1

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 2

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 2

aatgatacgg cgaccaccga gatc 24

<210> 3

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 3

caagcagaag acggcatacg a 21

<210> 4

<211> 8

<212> DNA

<213> 人工序列

<220>

<223> 接头

<400> 4

atactcca 8

资源描述

《试剂盒、建库方法以及检测目标区域变异的方法及系统.pdf》由会员分享，可在线阅读，更多相关《试剂盒、建库方法以及检测目标区域变异的方法及系统.pdf（19页珍藏版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201610196120.2 (22)申请日 2016.03.30 (71)申请人广州精科生物技术有限公司地址 510663 广东省广州市国际生物岛螺旋四路7号第6层602单元 (72)发明人韩颖鑫张印新王佳伟高晓峘张春生李胜 (74)专利代理机构深圳市赛恩倍吉知识产权代理有限公司 44334 代理人彭辉剑 (51)Int.Cl. C12Q 1/68(2006.01) C12N 15/10(2006.01) C40B 50/06(2006.01) C12M 1/3。

2、4(2006.01) G06F 19/22(2011.01) (54)发明名称试剂盒、建库方法以及检测目标区域变异的方法及系统 (57)摘要本发明提供一种试剂盒，其包含探针，所述探针固定在固相基质上或者所述探针游离于溶液中，所述探针能够特异性识别目标区域，其中，所述目标区域包括下列之一：表1所示39个基因中的至少之一；或表1中所述基因的CDS区域；或表1中所述基因的CDS区域的上下游至少10- 200bp的区域。发明还提供试剂盒的用途、一种构建目标区域测序文库的方法、一种测序方法、一种检测目标区域变异的方法及系统。利用本发明的试剂盒和/或本发明的。

3、方法及系统，能够一次性、简单方便且高特异性的获取结直肠癌的相关基因序列，能够准确检测分析这些相关基因序列，使检测分析结果可以辅助用于结直肠癌的研究。权利要求书2页说明书13页序列表2页附图1页 CN 105950709 A 2016.09.21 CN 105950709 A 1.一种试剂盒，其包含探针，所述探针固定在固相基质上或者所述探针游离于溶液中，所述探针特异性识别目标区域，其中，所述目标区域包括：表1所示39个基因中的至少之一；或表1中所述至少一种基因的CDS区域；或表1中所述至少一种基因的CDS区域的上下游至少10-200bp的区域。 2.如权。

4、利要求1所述的试剂盒，其特征在于，所述探针为全人工合成或体外克隆合成，所述探针的长度为20-120mer。 3.权利要求1的试剂盒，其特征在于，所述探针的制备包括如下步骤：确定所述目标区域的参考序列；从所述参考序列的一端开始，在所述参考序列上依次获取DNA片段直至所述参考序列的另一端；将所述DNA片段与所述参考序列比对，获得每一条DNA片段在参考序列上的比对次数，过滤掉比对次数超过1的DNA片段；去除掉GC含量不在30-80的DNA片段。 4.权利要求1-3任一项所述的试剂盒在获取结直肠癌相关基因序列中的用途。 5.一种构建目标区域测序文库的方法，其特征在于，包括。

5、： (1)获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端； (2)加碱基 “A” 至所述DNA片段的3 端，获得具有粘性末端A的DNA片段； (3)连接接头于所述粘性末端片段的两端，获得接头连接片段； (4)利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物； (5)利用权利要求1-3任一项所述的试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及， (6)利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物构成所述目标区域测序文库。 6.根据。

6、权利要求5所述的方法，其特征在于，所述第一引物序列如SEQIDNO:1和SEQ IDNO:2所示；所述第二引物序列如SEQIDNO:3和SEQIDNO:4所示。 7.根据权利要求5所述的方法，其特征在于，所述样本来源于人或动物；所述目标区域为结直肠相关基因区域。 8.一种测序方法，其特征在于，包括：根据权利要求5的方法构建目标区域测序文库；对所述目标区域测序文库进行测序，获得测序数据，所述测序数据由多个读段组成；其中，在NextSeqCN500上进行所述测序。 9.一种检测目标区域变异的方法，其特征在于，包括， (1)利用权利要求8的方法，获得测序数据，。

7、对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10的读段和/或碱基质量值不大于5的碱基数的比例不小于 50的读段； (2)将所述测序数据与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对，其中所述参考序列为HG19；将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；对所述比对结果进行权利要求书 1/2 页 2 CN 105950709 A 2 再过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、 InDel、 SV和CNV变异中的至少之一；其中，所述。

8、参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。 10.一种检测目标区域变异的系统，其特征在于，包括，核酸获取装置，用于获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端；加碱基A装置，用于加碱基 “A” 至所述DNA片段的3 端，获得具有粘性末端A的DNA片段；接头连接装置，用于连接接头于所述粘性末端片段的两端，获得接头连接片段；第一扩增装置，用于利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；捕获装置，用于利用权利要求1。

9、-3任一项所述的试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，第二扩增装置，用于利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物；测序装置，用于将所述扩增产物进行测序，获得所述目标区域变异位点信息，变异包括 SNP、 InDel、 SV和CNV变异中的至少一种。权利要求书 2/2 页 3 CN 105950709 A 3 试剂盒、建库方法以及检测目标区域变异的方法及系统技术领域 0001 本发明涉及生物医学领域，具体的，涉及试剂盒及其用途，更具体的，本发明涉及一种试剂盒、试剂盒的用途、一种构建目标区域测序文库的方法、一种测序方法以及一。

10、种检测目标区域变异的方法及系统。背景技术 0002 结直肠癌是最常见的消化道恶性肿瘤，发病率和死亡率分别占我国恶性肿瘤的第三位和第四位。根据WHO最新数据，我国结直肠癌的发病率为14.2/10万人，死亡率6.9/10万人。 2008年我国新发结直肠癌病例22万例，死亡10.9万例。结直肠癌作为一类高发恶性肿瘤，并且癌症的发生是一个渐进缓慢的过程，如能够对其做到早期发现，临床有效治疗，到预后复发监测进行全面控制，可有效的降低其发生率和死亡率，将有着巨大的经济效益和社会效益JemalA,SiegelR,WardE,etal.Cancerstatistics,2。

11、009.CACancerJ Clin.2009； 59:225-229.。 0003 目前对于结直肠癌早期研究的方法有很多，我国常见方案是先行FOBT(分为五类：放射分析法、物理法、化学法、免疫化学法和血红素-卟啉试验)，再对阳性者进行结肠镜检查。但大部分方法在特异性和准确性方面尚不足以满足早期检测的要求。 0004 循环DNA是存在于血液、滑膜液等体液中的细胞外游离DNA，研究发现许多肿瘤患者循环DNA与正常人相比有很大差异，由于肿瘤细胞凋亡，癌症患者循环DNA中含有一定的肿瘤标志物。近年来肿瘤患者血液中循环游离DNA的基因检测诊断已成为研究热点，研究显示血。

12、液中循环肿瘤DNA有可能成为一种新的肿瘤早期诊断及预后判断的标志物。检测血液中循环游离DNA中的肿瘤标志物检测具有区别于传统组织肿瘤标志物检测方式，具有无创、随时监控和早期筛查等优势，并且对循环游离DNA的取样检测避免了当前分子诊断需要采集癌组织作为标本来源的困难，是一种很有潜力的肿瘤标志物。 0005 如今高通量测序技术已经在医学研究中得到广泛应用，但由于结直肠癌发病早期的血浆游离DNA含量较低，而且测序技术本身存在一定的错误率等，因此传统的测序方法无法分辨测序错误和肿瘤标本中低频率突变，因此开发易操作、低损伤、高准确的技术是结直肠癌早期检测研究领域攻克的难点。

13、。发明内容 0006 依据本发明的一方面，本发明提供一种试剂盒，其包含探针，所述探针固定在固相基质上或者游离于溶液中，所述探针能够特异性识别目标区域，其中，所述目标区域包括下列之一： 0007 表1所示39个基因中的至少之一；或表1中所述至少一种基因的CDS区域；或表1中所述至少一种基因的CDS区域的上下游至少10-200bp的区域。 0008 本发明另一方面提供一种构建目标区域测序文库的方法，所述方法包括： 0009 (1)获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂说明书 1/13 页 4 CN 105950709 A 4 的基。

14、因组DNA和/或游离的DNA片段，所述短序列DNA片段具有平末端； 0010 (2)加碱基 “A” 至所述DNA片段的3 端，获得具有粘性末端A的DNA片段； 0011 (3)连接接头于所述粘性末端片段的两端，获得接头连接片段； 0012 (4)利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物； 0013 (5)利用上述试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及， 0014 (6)利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物构成所述目标区域测序文库。 0015 本发明另一方面提供一种测序方法，所述方法包括：根据上述构。

15、建目标区域测序文库的方法构建目标区域测序文库； 0016 对所述目标区域测序文库进行测序，获得测序数据，所述测序数据由多个读段组成；其中，在NextSeqCN500上进行所述测序。 0017 本发明另一方面提供提供一种检测目标区域变异的方法，所述方法包括： (1)利用上述测序方法，获得测序数据，对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10的读段和/或碱基质量值不大于5的碱基数的比例不小于50的读段； 0018 (2)将所述测序数据与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对；将所述第一比对。

16、结果与所述参考序列的一部分进行第二比对，获得第二比对结果；对所述比对结果进行再过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、 InDel、 SV和CNV变异中的至少之一；其中所述参考序列为HG19，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。 0019 本发明另一方面提供一种检测目标区域变异的系统，包括， 0020 核酸获取装置，用于获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述 DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端；加碱基A装置，。

17、用于加碱基 “A” 至所述DNA片段的3 端，获得具有粘性末端A的DNA片段；接头连接装置，用于连接接头于所述粘性末端片段的两端，获得接头连接片段；第一扩增装置，用于利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物；捕获装置，用于前述含有探针的任一试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，第二扩增装置，用于利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物；测序装置，用于将所述扩增产物进行测序，获得所述目标区域变异位点信息，变异包括SNP、 InDel、 SV和CNV变异中的至少一种。 0021 本发明的方法，是一。

18、种高灵敏性、高特异性、高通量的方法，能够辅助用于结直肠癌的相关基因的科学研究。通过使用新一代高通量测序技术，结合本发明一方面的试剂盒包含的能特异性捕获特定基因区域的探针，能够在很短的时间内同时进行多例样本检测，并且可以基于相同数据量进行更高深度的数据挖掘，检测结果特异性高，具较低的假阳性率、假阴性率，能够确保得到的检测结果能够准确的反应受检者的实时外周血状况。而且此芯片中的探针集不仅可以灵活的挑选检测基因，还能随着导致结直肠癌新基因的发现，加入新的基因，具有很高的性价比和针对性。附图说明说明书 2/13 页 5 CN 105950709 A 5 00。

19、22 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中： 0023 图1显示了根据本发明的一个实施例，，构建目标区域测序文库的方法的流程图。具体实施方式 0024 本发明人经过广泛而深入的研究，首次建立了一种测定目标区域变异的方法。具体而言，本发明人根据现有疾病基因的信息，设计了固定有多种疾病特异性探针的核酸芯片；对待测样本中游离的、片段化的、源自基因组DNA的双链核酸分子的末端加入接头，并进行富集；用核酸芯片对含接头的DNA片段进行捕获，将捕获的片段在高通量测序平台进行测序，基于已知的基因位点信息，对测序结果。

20、进行分析，得到目标区域核酸变异的信息。 0025 本发明中的 “变异” 、“核酸变异” 、“基因变异” 可通用，本发明中的 “SNP” (SNV)、 “CNV” 、“插入缺失” (indel)和 “结构变异” (SV)同通常定义，但本发明中对各种变异的大小不作特别限定，这样这几种变异之间有的有交叉，比如当插入/缺失的为大片段甚至整条染色体时，也属于发生拷贝数变异(CNV)或是染色体非整倍性，也属于SV。这些类型变异的大小交叉并不妨碍本领域人员通过上述描述执行实现本发明的方法和/或装置并且达到所描述的结果。 0026 本发明中的 “参考序列” 为已知基因组序列或者已知基因。

21、组序列的至少一部分，本发明中所使用的 “第一” 、“第二” 等仅为方便描述指代，不能理解为指示或暗示相对重要性，也不能理解为有先后顺序关系。本发明的描述中，除非另有说明，“多个” 的含义是两个或两个以上。 0027 CDS区域即编码区域，编码区是指能够转录信使RNA的部分，它能够合成相应的蛋白质。 0028 获得本发明一方面的试剂盒、实现本发明一方面的方法，一般包括目标区域捕获探针/芯片的设计、微量样本建库及杂交上机测序、下机数据的生物信息分析和变异数据解读。 0029 一种试剂盒，其包含探针，所述探针固定在固相基质上或者所述探针游离于溶液中，所述探针能。

22、够特异性识别目标区域，其中，所述目标区域包括： 0030 表1所示39个基因中的至少之一；或表1中所述至少一种基因的CDS区域；或表1中所述至少一种基因的CDS区域的上下游至少10-200bp的区域。 0031 表1 0032 AKAP9GRIN2APMS2 AKT1KITPTEN APCKMT2CRAF ARID1AKMT2DRET ATK11KRASRNF213 ATMMLH1RNF43 AXIN2MLH3SMAD2 BMPR1AMSH2SMAD4 说明书 3/13 页 6 CN 105950709 A 6 BRAFMSH6SPEN CREBBPMUTYHTCF7L2 EGFRN。

23、RASTP53 EPCAMPIK3CATRRAP FBXW7PMS1UBR5 0033 在本发明的一个实施例中，目标区域包括表1所示39个基因中的至少10、 20或30个基因。在本发明的一个实施例中，目标区域包括表1所示39个基因的全部基因区域。本发明的试剂盒探针能够特异性识别的目标区域，是发明人经过多次收集、多次筛选和多次试验组合获得的，这些目标区域与结直肠癌的发生发展相关。 0034 进一步的，所述探针的长度为20-120mer。较佳地， 50-100mer，更佳地， 60-80mer。 0035 在本发明的一个实施例中，所述探针的制备包括如下步骤：确定所述目。

24、标区域的参考序列；从所述参考序列的一端开始，在所述参考序列上依次获取DNA片段直至所述参考序列的另一端；将所述DNA片段与所述参考序列比对，获得每一条DNA片段在参考序列上的比对次数，过滤掉比对次数超过1的DNA片段；去除掉GC含量不在30-80的DNA片段。 0036 其中，一条DNA片段为一条探针，全部所述DNA片段构成探针集，所述DNA片段之间完全重叠、部分重叠或完全不重叠，所述探针集能够覆盖所述目标区域至少一次。 0037 所说的目标区域的参考序列可以从参考基因组上获取，例如从人参考基因组HG19 上获得对应目标区域的基因，所有的HG19上的对应的基因。

25、构成所说的目标区域的参考序列， HG19可以从NCBI数据库下载。 0038 进一步的，探针的制备还包括：确定所述目标区域在参考基因组上的位置，获取所述目标区域的参考序列，从所述参考序列一端的第一个核苷酸开始拷贝所述参考序列获取第一条DNA片段，从所述参考序列一端的第二个核苷酸开始拷贝所述参考序列获取第二条 DNA片段，从所述参考序列一端的第三个核苷酸开始拷贝所述参考序列获取第三条DNA片段，这样依次获取后续DNA片段直至第N条DNA片段的一端超出所述参考序列的另一端，其中，一条DNA片段为一条探针，全部所述DNA片段构成所述探针集， N为所述探针集中包含的探针。

26、的总数。 0039 依据本发明的另一方面，本发明提供一种上述任一试剂盒在获取结直肠癌相关基因序列中的用途。利用本发明一方面的试剂盒能够一次性、简单方便且高特异性的获取结直肠癌的相关基因序列。 0040 依据本发明的又一方面，本发明提供一种构建目标区域测序文库的方法，所述方法包括： (1)获取待测样本中的核酸，所述核酸由多个DNA片段组成，所述DNA片段来自断裂的基因组DNA和/或游离的DNA片段，所述DNA片段具有平末端； (2)加碱基 “A” 至所述DNA片段的3 端，获得具有粘性末端A的DNA片段； (3)连接接头于所述粘性末端片段的两端，获得接头连接片段；。

27、 (4)利用第一引物对所述接头连接片段进行第一扩增，获得第一扩增产物； (5) 利用上述试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及， (6)利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物构成所述目标区域测序文库。 0041 本发明的这一方面的测序文库构建方法，特别适用于样本含微量核酸的测序文库的构建，在本发明的一个实施例中，样本为含微量游离DNA片段的血浆样本，包含极其微量说明书 4/13 页 7 CN 105950709 A 7 的目标游离DNA片段，第一扩增使得核酸的量能满足芯片/探针杂交捕获的需求，而因芯片杂交捕获。

28、会损耗一定量的核酸，第二扩增能使捕获下的目标片段获得再次扩增以满足上机测序和质控检测的要求。本发明的这一文库构建方法特别适用于总游离核酸不低于10ng或者常规组织基因组DNA不低于1 g的样本的测序文库构建，利用本发明的这一方面的方法构建的目标区域文库，测序后的下机数据质量高，基于高质量的下机数据利于后续的准确检测分析。 0042 在本发明的一个实施例中，步骤(1)中所述DNA片段具有平末端是通过末端修复的方法制备。根据本发明的一个实施例，在将DNA片段进行末端修复前，可以进一步包括纯化 DNA片段的步骤，由此，使得后续的末端修复易于进行。根据本发明的实施例，。

29、将DNA片段进行末端修复可以利用Klenow片段、 T4DNA聚合酶和T4多核苷酸激酶进行，其中，所述Klenow 片段具有5 3 聚合酶活性和3 5 聚合酶活性，但缺少5 3 外切酶活性。由此，能够方便准确地对DNA片段进行末端修复。根据本发明的实施例，还可以进一步包括对经过末端修复的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。 0043 进一步的，在经过末端修复的DNA片段的3 末端添加碱基A，以便获得具有粘性末端A的DNA片段。根据本发明的一个实施例，可以利用Klenow(3 5 exo-)，即具有3 5 外切酶活性的Klenow，在经过。

30、末端修复的DNA片段的3 末端添加碱基A。由此，能够方便准确地将碱基A添加到经过末端修复的DNA片段的3 末端。根据本发明的实施例，还可以进一步包括对具有粘性末端A的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。 0044 进一步的，可以使用热启动taqDNA聚合酶对经过转换的目的片段进行PCR扩增。根据本发明的实施例，热启动taqDNA聚合酶的种类不受特别限制，根据本发明的具体示例，热启动taqDNA聚合酶可以为r-taq聚合酶，由此PCR扩增效率高、用时少。 0045 在本发明的一个实施例中，所述第一引物序列如SEQIDNO:1和SEQIDNO:2所。

31、示；所述第二引物序列如SEQIDNO:3和SEQIDNO:4所示。 0046 0047 其中SEQIDNO:2中 “NNNNNNNN” 表示标签序列，所述标签序列具有SEQIDNO： 5-8 说明书 5/13 页 8 CN 105950709 A 8 中至少之一所示的序列。 0048 在本发明的一个实施例中，所述方法具有如下特征：所述样本来源于人或动物；所述目标区域为结直肠癌相关基因区域。 0049 依据本发明的一方面，本发明提供一种测序方法，所述方法包括：根据本发明一方面的测序文库构建方法构建目标区域测序文库；对所述目标区域测序文库进行测序，获得测序数据，所述测。

32、序数据由多个读段组成；其中，在NextSeqCN500上进行所述测序。 0050 进一步的，测序技术可采用第二代测序技术或第三代测序技术进行。本领域人员可以理解的，所述测序平台还可以采用Illumina的Hiseq2000/2500平台、 Life Technologies的IonTorrent平台、单分子测序平台等。在本发明的一个实施例中，采用贝瑞和康公司的NextSEQCN500测序平台。 0051 依据本发明的一方面，本发明提供一种检测目标区域变异的方法，所述方法包括： (1)利用前述本发明的任一测序方法，获得目标样本的目标区域测序数据，对所述测序数据进行。

33、过滤，所述过滤包括去除掉不确定碱基比例超过10的读段和/或碱基质量值不大于5 的碱基数的比例不小于50的读段； (2)将所述测序数据与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对，其中所述参考序列为HG19；将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；对所述比对结果进行再过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、 InDel、 SV和CNV变异中的至少之一；其中，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。。

34、这里，所说的第二比对为局部比对，第一比对为常规全局比对，可利用但不限于SOAP或BWA等软件依照其默认设置进行，获得第一比对结果，第一比对结果包括读段在参考序列上的匹配位置及匹配情况信息，在本发明的一个实施例中，进行第二比对即基于第一比对结果，对与所捕获的基因区域对应的参考序列中的所有已知INDEL附近的所有序列信息(reads)进行局部重新比对，能够消除第一比对中的错误，提高后续变异检测的准确性，第二比对可利用GATK重比对软件(https:/www.broadinstitute.org/gatk/)进行。在本发明的一个实施例中，通过GATK Unifi。

35、edGenotyper软件同时检测所说的SNP和INDEL变异。利用本发明的这一方面的变异检测方法，能够准确检测出突变频率为1的低频突变。 0052 在本发明的一个实施例中，所述方法还包括，当所检测出的变异位点中的至少之一满足以下，则判定所测样本为阳性样本：测序深度不小于10X，至少有3个读段的支持，在阴性对照样本中的读段支持数少于2，在阳性对照样本中的突变率大于1，以及变异位点的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异。所说的阳性样本指结直肠癌样本。上述判定条件是发明人结合目前相关数据库信息和大量文献报道信息、检测统计大量。

36、阳性样本和大量阴性样本确定下来的，具有统计意义。 0053 特别的是，所述的变异位点在待测样本中的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异。其中的读段支持量，可以为支持该变异的读段的数目，也可以是支持该变异的读段在比对上该位点读段中的比例。 0054 在本发明的一个实施例中，采用后者来比较，所说的具有显著差异指具有实质差异，例如对于待测样本中的变异位点A，在阳性样本中的reads支持比例为26/500(变异26条 reads，总500条reads)，即阳性样本中的变异频率5.2，而在阴性样本中的reads支持比例说明书 6/13 。

37、页 9 CN 105950709 A 9 为1/200(变异1条reads，总200条reads)，即阴性样本中的变异频率为0.5，则达到所说的显著性差异或者所说的实质性差异，这里指具有统计学上的显著性差异，例如可以利用 fisher检验，差异具有显著性(p0.05)，即认为达到所说的具有显著差异。 0055 在本发明的一个实施例中，还采用另外一种确定显著性差异的算法，例如对于待测样本中的变异位点A，在阳性样本中的reads支持比例为7/500，而在大量阴性样本中的支持比例符合特定的分布，均小于1/200，比较待测样本中变异位点A的读段支持比例(变异频率)与大。

38、量阴性样本数据集中该位点变异频率的差异，可以利用z检验或者t检验，差异具有显著性(p0.05)，即达到所说的显著性差异。 0056 本发明另一方面提供一种检测目标区域变异的系统，包括： 0057 核酸获取装置，用于获取待测样本中的核酸，所述核酸由多个初始DNA片段组成，所述初始DNA片段来自断裂的基因组DNA和/或游离的DNA片段；加碱基A装置，用于加碱基 “A” 至所述短序列DNA片段的3 端，获得具有粘性末端A的DNA片段；接头连接装置，用于连接接头于所述粘性末端片段的两端，获得接头连接片段；第一扩增装置，用于利用第一引物对所述接头连接片段进行第一扩增，。

39、获得第一扩增产物；捕获装置，用于前述任一包含探针的试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，第二扩增装置，用于利用第二引物对所述目标区域进行第二扩增，获得第二扩增产物；测序装置，用于将所述扩增产物进行测序，获得所述目标区域变异位点信息，变异包括SNP、 InDel、 SV和CNV变异中的至少一种。 0058 在本发明的一个实施例中，所述第一引物序列如SEQIDNO:1和SEQIDNO:2所示；所述第二引物序列如SEQIDNO:3和SEQIDNO:4所示。 0059 0060 其中SEQIDNO:2中 “NNNNNNNN” 表示标签序列，所。

40、述标签序列具有SEQIDNO： 5-8 中至少之一所示的序列， 0061 在本发明的一个实施例中，所述检测目标区域变异的系统还包括： 0062 第一过滤装置，用于对测序装置获得的测序数据进行第一过滤，获得第一过滤结说明书 7/13 页 10 CN 105950709 A 10 果，所述过滤包括去除掉不确定碱基比例超过10的读段和/或碱基质量值不大于5的碱基数的比例不小于50的读段； 0063 第一比对装置，用于将所述第一过滤结果与参考序列进行第一比对，获得第一比对结果，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对，其中所述参考序列为HG19； 0064 第二。

41、比对装置，用于将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果； 0065 第二过滤装置，用于对所述第二比对结果进行第二过滤，所述过滤包括去除掉比对中错配碱基数多于3个读段，获得所述目标区域中的SNP、 InDel、 SV和CNV变异中的至少之一；其中，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。 0066 前述对于本发明一方面或者任一具体实施方式中的检测目标区域变异的方法的技术特征和优点的描述，同样适用于本发明这一方面的系统，在此不再赘述。 0067 下面示例，仅用于解释本发明，而不能理解为对本发明的。

42、限制。除另有交待，以下实施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器，都是常规市售产品或者开源的，比如购自贝瑞和康公司的NextSEQCN500测序平台建库相关试剂盒来进行文库构建等。 0068 实施例一设计芯片 0069 1、统计OMIM数据及相关文献中有关单基因导致的结直肠癌相关的驱动基因的每个外显子区变异样本数、变异样本、最热点变异所在的样本数、 PI值(以评估患者回复频率在每个外显子上的水平， PI每外显子上携带突变的累计患者数目/外显子长度)，并根据 PI值降序排列。然后以第一个外显子区变异的样本作为样本数据库，统计其他所有区。

43、间和样本数据库不同样本的个数，将不同样本个数最多的样本区间列为第二个筛选到芯片区间，此时以筛选到的两个区间的变异样本作为样本数据库，以同样的方法筛选第三个区间，直到样本数据库包括了所有的样本，以统计外显子区集，而对于没有筛选到任何区间的基因所有区间，则都加到芯片区间上。 0070 2、基于TCGA， ICGC等数据库，以去除驱动基因区间并且包括大于等于5个样本的热点变异的区间(SNV5)为候选区间，重复上一步的计算。 0071 3、基于TCGA， ICGC等数据库，在去除已被筛选的区间中分别以： PI30， SNV3 和： PI20， SNV3为候选区间，筛选。

44、使得单样本数据库样本数减少最多的区间作为第一个芯片区间，重复以上过程进行计算。 0072 4、加入融合基因等区间。 0073 5、设计出目标区域捕获芯片ColorectalPano。 ColorectalPano芯片包括了结直肠癌相关的驱动基因(DriverGene)、高频突变基因、遗传性基因及靶药相关基因等，共计39 个基因， 102Kb。基因列表详见表1。 0074 实施例二构建目标区域测序文库，具体流程见图1。 0075 (一)样本制备 0076 1.抽取受检者外周血5-10mL，存于EDTA抗凝管中，在4-6小时内对外周血进行分离；说明书 8/13 页 11。

45、 CN 105950709 A 11 0077 2.血浆游离DNA提取(参照QIAampCirculatingNucleicAcidKit提取试剂说明书，进行血浆游离DNA提取)；得到血浆游离DNA(cfDNA)， cfDNA中可能包含来自肿瘤细胞的 DNA片段(ctDNA)。 (二)文库构建 0078 1.末端修复 0079 0080 反应后加入AgencourtAMPureXPreagent120 L，磁珠纯化后，最后回溶42 L ddH2O，带磁珠进行下一步反应； 0081 2.末端加A 0082 0083 反应后加入PEG/NaClSPRI溶液90 L，充分混合并进行磁珠。

46、纯化，最后回溶(35-接头) LddH2O，带磁珠进行下一步反应； 0084 3.接头连接 0085 0086 反应后，加入PEG/NaClSPRI溶液50 L，进行第一次磁珠纯化，使用50 LTris-HCl (1mM， pH8.0)回溶； 0087 再加入PEG/NaClSPRI溶液50 L，进行第二次磁珠纯化，使用25 LTris-HCl(1mM， pH8.0)回溶； 0088 4.第一轮PCR扩增说明书 9/13 页 12 CN 105950709 A 12 0089 0090 反应后加入AgencourtAMPureXPreagent90 L，磁珠纯化后，回溶3。

47、1L ddH2O，取上清液后质控并进行芯片杂交。 0091 (三)目标区域捕获芯片杂交 0092 1.采用实施例一设计的捕获芯片ColorectalPano-102Kb，按照常规芯片使用的方法进行杂交捕获及洗脱。最后使用21 LddH2O回溶杂交洗脱磁珠。 0093 2.第二轮PCR扩增 0094 说明书 10/13 页 13 CN 105950709 A 13 0095 反应后加入AgencourtAMPureXPreagent108 L，磁珠纯化后，回溶31 LEB，取上清液后质控并上机测序。 0096 实施例三上机测序 0097 将实施例二获得的测序文库，采用Nexts。

48、eqCN500PE75程序进行上机测序，测序实验操作按照制造商提供的操作说明书(参见杭州贝瑞和康基因诊断公司官方公布cBot) 进行上机测序操作。 0098 实施例四测序数据分析 0099 1.利用实施例三的方法获得的测序数据。 0100 2.下机数据过滤Reads_filter：筛选符合分析要求的reads。需要满足两个条件： 1)reads中N的数目10； 2)质量值sampe|samtoolsview|samtoolssort：与人类参考基因组序列比对，得到每条reads在染色体上的位置及质量信息。比对后的文件以bam格式存在； 0102 4.去重复MarkDuplica。

49、tes.jar：将比对到参考基因组相同起点的reads标记为重复，在后续分析中只作为一条reads分析； 0103 5 .重比对： GenomeAnalysisTK .jar-TRealigner、 TargetCreator、 IndelRealigner：将前期比对质量差的reads针对性地利用其他比对工具进行重新比对，提高数据利用率； 0104 6.质量值校正GenomeAnalysisTK.jar-TBaseRecalibrator、 PrintReads：根据 reads特点对质量值作校正，提高支持的可信度； 0105 7.过滤Filt_bam：去除比对中错配碱基数多于3个的reads，提高准确性； 0106 8.质控QC：统计芯片的捕获效率、有效reads数、平均深度、重复率、覆盖度及未被覆盖的区间等信息，对芯片设计、样本处理及上机测序过程进行评估和反馈，保证质量控制过程。 0107 9.识别SNV/InDel/SV/CNV及筛选其中的高频变异位点： 0108 用MuTect、 varScan、 somVar流程识别出SNP变异； 0109 用gatk、 varScan、 somVar流程识别出InDel变异； 0110 用contra.py流程识别出CNV； 0111 用。

展开阅读全文