《检测体细胞单核苷酸突变的方法和装置.pdf》由会员分享,可在线阅读,更多相关《检测体细胞单核苷酸突变的方法和装置.pdf(17页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410708748.7(22)申请日 2014.11.28G06F 19/22(2011.01)C12Q 1/68(2006.01)C12M 1/34(2006.01)(71)申请人 天津诺禾致源生物信息科技有限公司地址 301700 天津市武清区武清开发区创业总部基地 B07(72)发明人 张兰英 于海燕 张广鑫 庞行云孟雪红 曹银川 吴晓朦 李林宋欠欠 张燕艳(74)专利代理机构 北京康信知识产权代理有限责任公司 11240代理人 吴贵明 张永明(54) 发明名称检测体细胞单核苷酸突变的方法和装置(57) 摘要本发明公开了一种检。
2、测体细胞单核苷酸突变的方法和装置。该方法包括以下步骤 :S1,对来源于体细胞的 DNA 测序数据与参考基因组数据进行比对,得到所有 SNP 位点的数据 ;S2,筛选出发生在剪接位点上和外显子上且导致氨基酸发生非同义突变的 SNP 位点,得到第一 SNP 位点集 ;S3,去除第一SNP位点集中千人突变频率高于5的SNP位点,得到第二 SNP 位点集 ;S4,从第二 SNP 位点集中筛选出体细胞突变来源的 SNP 位点,得到第三SNP位点集 ;以及S5,从第三SNP位点集中筛选出支持序列的频率低于 75的 SNP 位点,得到包含体细胞单核苷酸突变的 SNP 位点。该方法实现了利用单一样品对体细胞突。
3、变的检测,降低了成本。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书13页 附图1页(10)申请公布号 CN 104462869 A(43)申请公布日 2015.03.25CN 104462869 A1/2 页21.一种检测体细胞单核苷酸突变的方法,其特征在于,所述方法包括以下步骤 :S1,对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得到所有SNP位点的数据 ;其中,所述SNP位点的数据包括所述SNP位点位于基因上的位置信息和所述SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息 ;S2,从所有 SNP 位点的数据中筛选。
4、出发生在剪接位点上的 SNP 位点和发生在外显子上且导致氨基酸发生非同义突变的 SNP 位点,得到第一 SNP 位点集 ;S3,去除所述第一 SNP 位点集中千人突变频率高于 5的 SNP 位点,得到第二 SNP 位点集;S4,从所述第二 SNP 位点集中筛选出体细胞突变来源的 SNP 位点,得到第三 SNP 位点集 ;以 及S5,从所述第三 SNP 位点集中筛选出所述测序数据中包含所述 SNP 位点的序列的频率低于 75的 SNP 位点,得到包含所述体细胞单核苷酸突变的 SNP 位点。2.根据权利要求 1 所述的方法,其特征在于,在所述步骤 S1 中,所述来源于体细胞的DNA 测序数据包括全。
5、基因组 DNA 测序数据或目标区域的 DNA 测序数据。3.根据权利要求2所述的方法,其特征在于,当所述来源于体细胞的DNA测序数据为目标区域的 DNA 测序数据时,所述来源于体细胞的 DNA 测序数据的制备步骤包括 :对来源于体细胞的 DNA 通过液相杂交捕获的方法制备成目标区域的 DNA 测序文库 ;对所述目标区域的 DNA 测序文库进行测序,得到所述来源于体细胞的 DNA 测序数据。4.根据权利要求 1 所述的方法,其特征在于,所述步骤 S3 包括 :将所述第一 SNP 位点集与千人基因组数据库进行比对,得到比对数据 ;从所述比对数据中去除千人突变频率高于 5的 SNP 位点,得到所述第。
6、二 SNP 位点集。5.根据权利要求 1 所述的方法,其特征在于,所述步骤 S4 包括 :将所述第二 SNP 位点集与单核苷酸多态性数据库进行比对,筛选出所述第二 SNP 位点集中来源于体细胞突变的 SNP 位点,得到过滤 SNP 位点 ;对所述过滤 SNP 位点与 Clinvar 数据库进行比对,筛选出所述过滤 SNP 位点中来源于体细胞突变的 SNP 位点,得到所述第三 SNP 位点集。6.根据权利要求 1 或 5 所述的方法,其特征在于,所述步骤 S4 中 :所述单核苷酸多态性数据库和所述 Clinvar 数据库中来源于体细胞突变的 SNP 位点的 SAO 值为 2 或 3。7.根据权利。
7、要求 1 所述的方法,其特征在于,所述步骤 S5 包括 :对所述测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有 SNP 位点的序列的第二总序列数 ;计算所述第二总序列数占所述第一总序列数和所述第二总序列数之和的比值,得到所述同一位置的测序序列的突变频率 ;从所述第三 SNP 位点集中筛选出所述突变频率低于 75的 SNP 位点,得到包含所述体细胞单核苷酸突变的 SNP 位点。8.一种检测体细胞单核苷酸突变的装置,其特征在于,所述装置包括以下模块 :序列比对模块,用于对来源于体细胞的 DNA 测序数据与参考基因组数据进行比对,得到所。
8、有SNP位点的数据 ;其中,所述SNP位点的数据包括所述SNP位点位于基因上的位置信息和所述 SNP 位点导致氨基酸发生同义突变或非同义突变的变异类型信息 ;权 利 要 求 书CN 104462869 A2/2 页3第一筛选模块,用于从所有 SNP 位点的数据中筛选出发生在剪接位点上的 SNP 位点或/ 和发生在外显子上且导致氨基酸发生非同义突变的 SNP 位点,得到第一 SNP 位点集 ;第二筛选模块,用于从所述第一 SNP 位点集中去除千人突变频率高于 5的 SNP 位点,得到第二 SNP 位点集 ;第三筛选模块,用于从所述第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三 SN。
9、P 位点集 ;以及第四筛选模块,用于从所述第三 SNP 位点集中筛选出所述测序数据中包含所述 SNP 位点的序列的频率低于 75的 SNP 位点,得到包含所述体细胞单核苷酸突变的 SNP 位点。9.根据权利要求 8 所述的装置,其特征在于,所述装置还包括测序模块,所述测序模块包括 :全基因组DNA测序子模块,用于对来源于体细胞的全基因组DNA测序文库进行测序,得到所述来源于体细胞的 DNA 测序数据 ;或者目标区域DNA测序子模块,用于对来源于体细胞的目标区域的DNA测序文库进行测序,得到所述来源于体细胞的 DNA 测序数据。10.根据权利要求 9 所述的装置,其特征在于,所述目标区域 DNA。
10、 测序子模块中还包括:液相杂交捕获单元,用于对来源于体细胞的 DNA 进行杂交捕获,得到所述目标区域的DNA 测序文库。11.根据权利要求 8 所述的装置,其特征在于,所述第二筛选模块还包括 :第一比对子模块,用于将所述第一 SNP 位点集与千人基因组数据库进行比对,得到比对数据 ;以及第一筛选子模块,用于从所述比对数据中去除千人突变频率高于 5的 SNP 位点,得到所述第二 SNP 位点集。12.根据权利要求 8 所述的装置,其特征在于,所述第三筛选模块还包括 :第二比对子模块,用于将所述第二 SNP 位点集与单核苷酸多态性数据库进行比对,筛选出所述第二 SNP 位点集中来源于体细胞突变的 。
11、SNP 位点,得到过滤 SNP 位点 ;以及第三比对子模块,用于对所述过滤SNP位点与Clinvar数据库进行比对,筛选出所述过滤 SNP 位点中来源于体细胞突变的 SNP 位点,得到所述第三 SNP 位点集。13.根据权利要求 8 所述的装置,其特征在于,所述第四筛选模块还包括 :统计子模块,对所述测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有 SNP 位点的序列的第二总序列数 ;计算子模块,计算所述第二总序列数占所述第一总序列数和所述第二总序列数之和的比值,得到所述同一位置的测序序列的突变频率 ;以及第三筛选子模块,用于从所述。
12、第三SNP位点集中筛选出所述频率低于75的SNP位点,得到包含所述体细胞单核苷酸突变的 SNP 位点。权 利 要 求 书CN 104462869 A1/13 页4检测体细胞单核苷酸突变的方法和装置技术领域0001 本发明涉及高通量测序领域,具体而言,涉及一种检测体细胞单核苷酸突变的方法和装置。背景技术0002 个体的每个细胞中都可能会携带有两种类型的突变 :种系突变和体细胞突变,种系突变是指在生殖细胞中发生的可遗传突变,也称为生殖细胞突变。假如种系突变发生,则个体中的所有细胞都会携带该种系突变。种系突变之外的突变为体细胞突变,这些突变并不是从亲代遗传得到,而是受环境和其他因素影响而发生了改变。。
13、0003 使用高通量测序的方式可以测到覆盖样本中所有基因的序列,结合相关变异检测软件可检测到样本中目标基因上存在的所有变异信息。目前能够用来检测体细胞突变的方法是使用 mutect 软件,它在检测体细胞突变时,需要一组成对的样品,即可能带有体细胞突变的待检样品和可以提供种系突变的对照样品。将两个样品进行比对,当突变在待检样品中出现,而未在对照样品中出现,则认为该突变为待检样品中的一个体细胞突变。使用该方法检测体细胞突变时需要对两个样品分别进行两次高通量测序,增加了成本。0004 目前使用单个样本做变异检测的软件,对于检测结果往往不区分种系突变和体细胞突变。而提供体细胞突变信息的软件,如 mut。
14、ect 又需要一组成对的样品。因而,现有技术中还未开发出既能采用单个样本进行检测从而降低检测成本又能检测到体细胞突变的检测方法,仍需要对现有技术进行改进,以满足行业内对上述体细胞突变的检测要求。发明内容0005 本发明的主要目的在于提供一种检测体细胞单核苷酸突变的方法和装置,不仅能够利用单个样品实现体细胞突变的检测,而且降低检测成本。0006 为了实现上述目的,根据本发明的一个方面,提供了一种检测体细胞单核苷酸突变的方法,该方法包括以下步骤 :S1,对来源于体细胞的 DNA 测序数据与参考基因组数据进行比对,得到所有 SNP 位点的数据 ;其中,SNP 位点的数据包括 SNP 位点位于基因上的。
15、位置信息和SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息 ;S2,从所有SNP位点的数据中筛选出发生在剪接位点上的 SNP 位点和发生在外显子上且导致氨基酸发生非同义突变的 SNP 位点,得到第一 SNP 位点集 ;S3,去除第一 SNP 位点集中千人突变频率高于5的 SNP 位点,得到第二 SNP 位点集 ;S4,从第二 SNP 位点集中筛选出体细胞突变来源的SNP 位点,得到第三 SNP 位点集 ;以及 S5,从第三 SNP 位点集中筛选出测序数据中包含 SNP位点的序列的频率低于 75的 SNP 位点,得到包含体细胞单核苷酸突变的 SNP 位点。0007 进一步地,在步骤 S。
16、1 中,来源于体细胞的 DNA 测序数据包括全基因组 DNA 测序数据或目标区域的 DNA 测序数据。0008 进一步地,当来源于体细胞的DNA测序数据为目标区域的DNA测序数据时,来源于体细胞的 DNA 测序数据的制备步骤包括 :对来源于体细胞的 DNA 通过液相杂交捕获的方法说 明 书CN 104462869 A2/13 页5制备成目标区域的DNA测序文库 ;对目标区域的DNA测序文库进行测序,得到来源于体细胞的 DNA 测序数据。0009 进一步地,步骤S3包括 :将第一SNP位点集与千人基因组数据库进行比对,得到比对数据 ;从比对数据中去除千人突变频率高于 5的 SNP 位点,得到第二。
17、 SNP 位点集。0010 进一步地,步骤S4包括 :将第二SNP位点集与单核苷酸多态性数据库进行比对,筛选出第二 SNP 位点集中来源于体细胞突变的 SNP 位点,得到过滤 SNP 位点 ;对过滤 SNP 位点与 Clinvar 数据库进行比对,筛选出过滤 SNP 位点中来源于体细胞突变的 SNP 位点,得到第三 SNP 位点集。0011 进一步地,步骤 S4 中 :单核苷酸多态性数据库和 Clinvar 数据库中来源于体细胞突变的 SNP 位点的 SAO 值为 2 或 3。0012 进一步地,步骤 S5 包括 :对测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考。
18、基因组序列的第一总序列数和匹配含有 SNP 位点的序列的第二总序列数 ;计算第二总序列数占第一总序列数和第二总序列数之和的比值,得到同一位置的测序序列的突变频率 ;从第三 SNP 位点集中筛选出突变频率低于 75的 SNP 位点,得到包含体细胞单核苷酸突变的 SNP 位点。0013 根据本发明的另一方面,提供了一种检测体细胞单核苷酸突变的装置,该装置包括以下模块 :序列比对模块,用于对来源于体细胞的 DNA 测序数据与参考基因组数据进行比对,得到所有 SNP 位点的数据 ;其中,SNP 位点的数据包括 SNP 位点位于基因上的位置信息和 SNP 位点导致氨基酸发生同义突变或非同义突变的变异类型。
19、信息 ;第一筛选模块 :用于从所有 SNP 位点的数据中筛选出发生在剪接位点上的 SNP 位点或 / 和发生在外显子上且导致氨基酸发生非同义突变的 SNP 位点,得到第一 SNP 位点集 ;第二筛选模块 ;用于从第一SNP位点集中去除千人突变频率高于5的SNP位点,得到第二SNP位点集 ;第三筛选模块 :用于从第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三SNP位点集 ;第四筛选模块 :用于从第三 SNP 位点集中筛选出测序数据中包含 SNP 位点的序列的频率低于 75的 SNP 位点,得到包含体细胞单核苷酸突变的 SNP 位点。0014 进一步地,装置还包括测序模块,测序模块包。
20、括 :全基因组 DNA 测序子模块 :用于对来源于体细胞的全基因组DNA测序文库进行测序,得到来源于体细胞的DNA测序数据 ;或者目标区域DNA测序子模块 :用于对来源于体细胞的目标区域的DNA测序文库进行测序,得到来源于体细胞的 DNA 测序数据。0015 进一步地,目标区域 DNA 测序子模块中还包括 :液相杂交捕获单元 :用于对来源于体细胞的 DNA 进行杂交捕获,得到目标区域的 DNA 测序文库。0016 进一步地,第二筛选模块还包括 :第一比对子模块 :用于将第一 SNP 位点集与人类千人基因组数据库进行比对,得到比对数据 ;第一筛选子模块 :用于从比对数据中去除千人突变频率高于 5。
21、的 SNP 位点,得到第二 SNP 位点集。0017 进一步地,第三筛选模块还包括 :第二比对子模块 :用于将第二 SNP 位点集与单核苷酸多态性数据库进行比对,筛选出第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤 SNP 位点 ;第三比对子模块 :用于对过滤 SNP 位点与 Clinvar 数据库进行比对,筛选出过滤 SNP 位点中来源于体细胞突变的 SNP 位点,得到第三 SNP 位点集。0018 进一步地,第四筛选模块还包括 :统计子模块 :对测序数据中比对到基因组同一说 明 书CN 104462869 A3/13 页6位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序。
22、列的第一总序列数和匹配含有 SNP 位点的序列的第二总序列数 ;计算子模块 :计算第二总序列数占第一总序列数和第二总序列数之和的比值,得到同一位置的测序序列的突变频率 ;第三筛选子模块 :用于从第三 SNP 位点集中筛选出频率低于 75的 SNP 位点,得到包含体细胞单核苷酸突变的SNP 位点。0019 应用本发明的技术方案,通过仅利用来源体细胞的测序数据与参考基因组进行比对,并将筛选出所有来源于体细胞的SNP位点,接着将发生在外显子和剪接位点上的SNP位点筛选出来,然后对这些 SNP 位点按照已知的种系细胞和体细胞的特征进行筛选,便可得到体细胞单核苷酸突变的 SNP 位点。该方法简单且实现了。
23、单一样品对体细胞突变的检测,而且降低了检测成本。附图说明0020 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中 :0021 图 1 示出了根据本发明的一种典型的实施例中检测体细胞单核苷酸突变的方法流程示意图 ;以及0022 图 2 示出了了根据本发明的一种典型的实施例中检测体细胞单核苷酸突变的装置结构示意图。具体实施方式0023 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。0024 正如背景技术部分所提到的,现有技术中检测。
24、体细胞突变的方法需要至少对两个样品进行测序,检测成本较高,而采用单个样品测序时,又无法检测出体细胞突变。针对上述缺陷,在本发明一种典型的实施方式中,提供了一种检测体细胞单核苷酸突变的方法,如图 1 所示,该方法包括以下步骤 :S1,对来源于体细胞的 DNA 测序数据与参考基因组数据进行比对,得到所有 SNP 位点的数据 ;其中,SNP 位点的数据包括 SNP 位点位于基因上的位置信息和SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息 ;S2,从所有SNP位点的数据中筛选出发生在剪接位点上的 SNP 位点和发生在外显子上且导致氨基酸发生非同义突变的 SNP 位点,得到第一 SNP 位点。
25、集 ;S3,去除第一 SNP 位点集中千人突变频率高于5的 SNP 位点,得到第二 SNP 位点集 ;S4,从第二 SNP 位点集中筛选出体细胞突变来源的SNP 位点,得到第三 SNP 位点集 ;以及 S5,从第三 SNP 位点集中筛选出测序数据中包含 SNP位点的序列的频率低于 75的 SNP 位点,得到包含体细胞单核苷酸突变的 SNP 位点。0025 本发明的上述方法,通过仅利用来源体细胞的测序数据与参考基因组进行比对,并将筛选出所有来源于体细胞的 SNP 位点,接着将发生在外显子和剪接位点上的 SNP 位点筛选出来,然后对这些 SNP 位点按照已知的种系细胞和体细胞的特征进行筛选,便可得。
26、到体细胞单核苷酸突变的 SNP 位点。该方法简单且实现了单一样品对体细胞突变的检测,而且降低了检测成本。0026 本发明的上述方法中,步骤S2可以根据各SNP位点所在的染色体的功能区域进行说 明 书CN 104462869 A4/13 页7筛选,发生在染色体的外显子区域的属于非同义突变的 SNP 位点,会导致其编码的氨基酸发生改变,其结果是导致蛋白质发生突变,可能会影响蛋白质的功能,因此筛选具有上述特点的位点 ;发生在剪接位点处的 SNP 位点可能会影响氨基酸的编码,因此这样的位点也需要保留。在本发明一种优选的实施例中,可以利用 Knowngene 数据库注释出的功能 (func)信息即可筛选。
27、得到符合上述要求的 SNP 位点。0027 本发明的上述方法中,上述步骤 S1 中,来源于体细胞的 DNA 测序数据包括全基因组 DNA 测序数据或目标区域的 DNA 测序数据。在本发明一种优选的实施例中,当来源于体细胞的 DNA 测序数据为目标区域的 DNA 测序数据时,来源于体细胞的 DNA 测序数据的制备步骤包括 :对来源于体细胞的 DNA 通过液相杂交捕获的方法制备成目标区域的 DNA 测序文库 ;对目标区域的 DNA 测序文库进行测序,得到来源于体细胞的 DNA 测序数据。当需要对全基因组的体细胞突变进行分析时,则不需要进行液相杂交捕获的步骤,直接将全基因组制备成测序文库进行测序即可。
28、。0028 在本发明一种具体的实施例中,上述待检的样品可以是肿瘤组织,也可以是外周血中的游离 DNA。上述样品制备成测序文库的步骤中,根据样本的不同,使用不同的手段进行 DNA 的提取。使用自动聚焦声波样本处理仪 (covaris) 将 DNA 随机打断成双链 DNA,双链DNA 的主峰在 150-200bp。在随机打断的 DNA 的 3段添加上一个“A”碱基,生成一个单碱基的粘性末端,对 3 端加“A”的 DNA 进行 adapter 的连接。将连接有接头的 DNA 片段使用PCR 技术进行 DNA 富集。取富集后的 DNA 样品 750ng 进行杂交捕获,在此过程中按照美国安捷伦公司的 S。
29、ureSelect 人类基因组外显子捕获试剂盒提供的说明书进行操作。在本发明中,采用高通量测序对制备的测序文库进行测序,具体测序平台可以选择 Illumina 公司的 Hiseq2000、Hiseq2500、Nextseq500、Miseq,Life Technology 公司的 Ion torrent、Ion Proton 等。各个测序平台采用的测序方式虽不尽相同,最终都能够得到来源于待测样品的体细胞的 DNA 测序数据。0029 在本发明的上述方法中,上述步骤 S3 可以根据所得到的第一 SNP 位点集中各 SNP位点的信息的不同,通过选择并比对合适的数据库即可将符合体细胞突变特点的 SN。
30、P 位点进行去除。在本发明一种优选的实施例中,上述步骤 S3 包括 :将第一 SNP 位点集与人类千人基因组数据库进行比对,得到比对数据 ;从比对数据中去除千人突变频率高于 5的 SNP位点,得到第二SNP位点集。体细胞突变在人类千人基因组数据库(即1000g数据库)中多为低频突变,因而,如果第一 SNP 位点集中某一 SNP 位点的突变频率小于 5或在上述数据库中没有注释出突变频率信息,即该 SNP 位点的突变为低频突变,属于体细胞突变的特征,因而需要保留。另外,若在 1000g 数据库中没有给出相应的信息,有可能该突变位点属于新的突变位点,因而也需要保留此类 SNP 位点。0030 在本发。
31、明的上述方法中,上述步骤 S4 同样可以通过选择合适的数据库进行比对,只要能够将明显不符合体细胞突变特征的 SNP 位点去除掉即可得到上述第三 SNP 位点集。在本发明一种优选的实施例中,上述步骤 S4 包括 :将第二 SNP 位点集与单核苷酸多态性数据库进行比对,筛选出第二 SNP 位点集中来源于体细胞突变的 SNP 位点,得到过滤 SNP 位点 ;对过滤SNP位点与Clinvar数据库进行比对,筛选出过滤SNP位点中来源于体细胞突变的 SNP 位点,得到第三 SNP 位点集。0031 dbSNP 数据库 (http:/www.ncbi.nlm.nih.gov/projects/SNP/) 。
32、是单核苷酸多说 明 书CN 104462869 A5/13 页8态性数据库的简称,该数据库不仅包含单核苷酸多态性信息,也包含其他类型的突变信息,如小片段的插入和缺失多态性、串联重复序列、多核苷酸多态性,这些突变在这个数据库中会给出特定的参考 SNP 编号 (reference SNP ID) 用以识别每一个突变,该数据库给出的位点不一定与疾病发生相关。dbSNP 数据库同时会给出突变的来源,表现形式是给出SAO(Variant Allele Origin,突变来源 ) 的值。0032 Clinvar 数据库 (http:/www.ncbi.nlm.nih.gov/clinvar/) 能够提供与。
33、致病性相关的突变。Clinvar 数据库能够给出人类突变信息,同时解释这些突变与人类健康的关系,如果该突变与人类疾病发生相关,数据库会给出相关疾病的名称,并给出相应的支持证据。通过 Clinvar 数据库注释出的信息,我们能够判断突变是否有致病性。Clinvar 同时会注释出突变的来源,表现形式是给出 SAO 的值,SAO 为 0 时表示该突变来源未知,SAO 为 1时表示该突变为种系细胞突变,SAO 为 2 时表示该突变为体细胞突变,SAO 为 3 时表示该突变既是种系突变也是体细胞突变。0033 本发明的上述实施例,通过利用上述两个数据库中的信息即可筛选出具有体细胞特征的 SNP 位点,从。
34、而去除掉明显不属于体细胞突变的 SNP 位点。优选上述步骤 S4 中单核苷酸多态性数据库和 Clinvar 数据库中来源于体细胞突变的 SNP 位点的 SAO(Variant Allele Origin) 值为 2 或 3,将 SAO 为 2 或 3 的 SNP 位点保留下来,即保留了具有体细胞特征的 SNP 位点,为筛选得到真正的 SNP 位点提供了较大可能性。0034 在本发明的一种优选的实施例中,上述步骤 S5 包括 :对测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有 SNP 位点的序列的第二总序列数 ;计算第二总序列数占第。
35、一总序列数和第二总序列数之和的比值,得到所述同一位置的测序序列的突变频率 ;从第三 SNP 位点集中筛选出突变频率低于 75的 SNP 位点,得到包含体细胞单核苷酸突变的 SNP 位点。0035 在上述测序数据中,测序信息包含以下四个数值,支持匹配参考基因型正链序列数目、支持匹配参考基因型负链序列数目、支持匹配突变基因型正链序列数目和支持匹配突变基因型负链的序列数目,如果 ( 匹配参考基因型正链序列数目 + 匹配参考基因型负链序列数目 )/( 匹配参考基因型正链 reads+ 匹配参考基因型负链 reads+ 匹配突变基因型正链 reads+ 匹配突变基因型负链 reads) 的比值小于 0.。
36、75,即某 SNP 位点的突变频率小于0.75,则这样筛选得到的 SNP 位点即为包含体细胞单核苷酸突变的 SNP 位点。0036 本发明的上述方法已经能够相对准确地检测到来源于单个样本的体细胞单核苷酸突变,为了进一步提高检测的准确性,在本发明一种更优选的实施例中上述方法还包括将在上述各筛选步骤中不符合条件的 SNP 位点进行再次筛选,利用靶向数据库 ( 来自MyCancerGenome) 中的包括 SNP 和 indel 突变类型信息对上述不符合条件的 SNP 位点进行过滤。根据染色体、位置、参考基因型和突变基因型的信息进行比对筛选,如果某 SNP 位点的存在于靶向数据库,则将该 SNP 位。
37、点加入到包含体细胞单核苷酸突变的 SNP 位点中。另外,若上述不符合条件的 SNP 位点出现在高频突变数据库 (CLINSIG.pathogenic) 中,则表明该 SNP 位点属于人群频率大于 5且为致病基因的位点,则该位点也加入到上述包含体细胞单核苷酸突变的 SNP 位点中。0037 在本发明另一种典型的实施方式中,提供了一种检测体细胞单核苷酸突变的装置,如图 2 所示,该装置包括以下模块 :序列比对模块用于对来源于体细胞的 DNA 测序数说 明 书CN 104462869 A6/13 页9据与参考基因组数据进行比对,得到所有 SNP 位点的数据 ;其中,SNP 位点的数据包括 SNP位点。
38、位于基因上的位置信息和 SNP 位点导致氨基酸发生同义突变或非同义突变的变异类型信息 ;第一筛选模块 :用于从所有 SNP 位点的数据中筛选出发生在剪接位点上的 SNP 位点或 / 和发生在外显子上且导致氨基酸发生非同义突变的 SNP 位点,得到第一 SNP 位点集 ;第二筛选模块 ;用于从第一 SNP 位点集中去除千人突变频率高于 5的 SNP 位点,得到第二SNP 位点集 ;第三筛选模块 :用于从第二 SNP 位点集中筛选出体细胞突变来源的 SNP 位点,得到第三SNP位点集 ;第四筛选模块 :用于从第三SNP位点集中筛选出测序数据中包含SNP位点的序列的频率低于 75的 SNP 位点,得。
39、到包含体细胞单核苷酸突变的 SNP 位点。0038 本发明的上述装置,通过序列比对模块仅利用来源体细胞的测序数据与参考基因组进行比对,筛选出所有来源于体细胞的 SNP 位点,接着利用第一筛选模块将发生在外显子和剪接位点上的 SNP 位点筛选出来,然后利用第二筛选模块和第三筛选模块对这些 SNP位点按照已知的种系细胞突变和体细胞突变的特征进行筛选,最后通过第四筛选模块,测序数据中包含 SNP 位点的序列的频率低于 75的 SNP 位点,得到包含体细胞单核苷酸突变的 SNP 位点。该装置不仅实现了利用单一样品对体细胞突变的检测,而且降低了检测成本。0039 在本发明的上述装置中,第一筛选模块可以根。
40、据现有的筛选模块进行合理改进,只要能够实现将发生在外显子和剪接位点上的 SNP 位点筛选出来的功能即可适用于本发明。在本发明一种优选的实施例中,上述装置还包括测序模块,该测序模块包括 :全基因组DNA 测序子模块 :用于对来源于体细胞的全基因组 DNA 测序文库进行测序,得到来源于体细胞的DNA测序数据 ;目标区域DNA测序子模块 :用于对来源于体细胞的目标区域的DNA测序文库进行测序,得到来源于体细胞的 DNA 测序数据。0040 在本发明另一种优选的实施例中,上述目标区域 DNA 测序子模块中还包括 :液相杂交捕获单元 :用于对来源于体细胞的 DNA 进行杂交捕获,得到目标区域的 DNA 。
41、测序文库。通过液相杂交捕获单元根据想要捕获的目标区域的 DNA 序列而预先设计好的探针与修复好的带有接头序列的 DNA 片段进行杂交,即可将所感兴趣的目标区域 DNA 片段从全基因组DNA 片段中捕获出来,然后连上测序引物序列就形成了目标区域 DNA 测序文库,这样的文库能够从全基因组中把感兴趣的目的区域富集出来,从而提高了目标区域突变位点的检出效率。采用液相杂交捕获单元能够提高目标区域 DNA 的捕获效率。0041 在本发明的上述装置中,第二筛选模块还包括 :第一比对子模块 :用于将第一 SNP位点集与人类千人基因组数据库进行比对,得到比对数据 ;第一筛选子模块 :用于从比对数据中去除千人突。
42、变频率高于5的SNP位点,得到第二SNP位点集。该实施例中第二筛选模块通过第一比对子模块将第一 SNP 位点集与人类千人基因组数据库进行比对,得到比对数据,然后利用第一筛选子模块从比对数据中去除千人突变频率高于 5的 SNP 位点,得到第二 SNP 位点集。人类千人基因组数据库中包括了 1000 个人类全基因组测序数据中出现的低频突变或高频突变的 SNP 位点,对于突变频率高于 5的 SNP 位点,由于其在人类群体中出现频率较高,通常认为是类似于种系细胞突变所引起的突变或者是遗传引起的突变,而非因环境或其他因素引起的种系细胞分化之后的体细胞突变,因而通过与上述数据库进行比对,可以把某个体细胞来。
43、源的第一 SNP 位点集中不属于高频突变位点的 SNP 位点保留下来,从而得到可能真正引起功能突变的第二 SNP 位点集。0042 在本发明的上述装置中,上述第三筛选模块通过选择合适的筛选模块进行比对,说 明 书CN 104462869 A7/13 页10只要能够将明显不符合体细胞突变特征的 SNP 位点去除掉即可。在本发明一种优选的实施例中,上述第三筛选模块包括 :第二比对子模块 :用于将第二 SNP 位点集与单核苷酸多态性数据库进行比对,筛选出第二 SNP 位点集中来源于体细胞突变的 SNP 位点,得到过滤 SNP 位点 ;第三比对子模块 :用于对过滤 SNP 位点与 Clinvar 数据。
44、库进行比对,筛选出过滤 SNP 位点中来源于体细胞突变的 SNP 位点,得到第三 SNP 位点集。0043 上述第二比对子模块和第三比对子模块通过将第二 SNP 位点集与 dbSNP 数据库(http:/www.ncbi.nlm.nih.gov/projects/SNP/)和Clinvar数据库进行比对,dbSNP数据库不仅包含单核苷酸多态性信息,也包含其他类型的突变信息,如小片段的插入和缺失多态性、串联重复序列、多核苷酸多态性,这些突变在这个数据库中会给出特定的参考 SNP 编号(reference SNP ID,简称RS号)用以识别每一个突变,该数据库给出的位点不一定与疾病发生相关。dbS。
45、NP 数据库同时会给出突变的来源,表现形式是给出 SAO(Variant Allele Origin,突变来源 ) 的值 ;同样,Clinvar 数据库能够给出人类突变信息,同时解释这些突变与人类健康的关系,如果该突变与人类疾病发生相关,数据库会给出相关疾病的名称,并给出相应的支持证据。通过 Clinvar 数据库注释出的信息,我们能够判断突变是否有致病性。Clinvar 同时会注释出突变的来源,表现形式是给出 SAO 的值,SAO 为 0 时表示该突变来源未知,SAO 为 1 时表示该突变为种系细胞突变,SAO 为 2 时表示该突变为体细胞突变,SAO 为3 时表示该突变既是种系突变也是体细。
46、胞突变。因而与上述两个数据库进行比对即可将符合于体细胞突变特征的 SNP 位点进行筛除,保留上述数据库中未出现的 SNP 位点和上述数据库中表明符合体细胞特征的 SNP 位点。0044 在本发明的上述装置中,第四筛选模块可以根据测序数据的不同,对常用的统计和计算模块进行改进即可得到。在本发明中,上述第四筛选模块还包括 :统计子模块 :对测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有 SNP 位点的序列的第二总序列数 ;计算子模块 :计算第二总序列数占第一总序列数和第二总序列数之和的比值,得到同一位置的测序序列的突变频率 ;第三筛选。
47、子模块 :用于从第三SNP位点集中筛选出所述频率低于75的SNP位点,得到包含体细胞单核苷酸突变的 SNP 位点。0045 上述实施例中,第四筛选模块首先通过利用统计子模块对测序数据中比对到基因组同一位置上的测序序列数进行统计,得到基因组同一位置上的总比对序列数目 ;然后利用计算子模块计算包含各 SNP 位点的测序序列的数目占总比对序列数目的频率,最后第三筛选子模块从第三 SNP 位点集中筛选出频率低于 75的 SNP 位点,得到包含体细胞单核苷酸突变的SNP位点。其中,统计子模块利用测序数据中所包含的以下四个数值 :支持匹配参考基因型正链序列数目、支持匹配参考基因型负链序列数目、支持匹配突变。
48、基因型正链序列数目和支持匹配突变基因型负链的序列数目,即可统计出基因组同一位置上的总比对序列数目。然后计算模块通过计算 ( 匹配参考基因型正链序列数目 + 匹配参考基因型负链序列数目 )/( 匹配参考基因型正链 reads+ 匹配参考基因型负链 reads+ 匹配突变基因型正链reads+匹配突变基因型负链reads)的比值,当该比值小于0.75时,即某SNP位点的突变频率小于 0.75,则这样筛选得到的 SNP 位点即为包含体细胞单核苷酸突变的 SNP 位点。0046 需要说明的是,本发明主要用于检测基因外显子或剪接位点处的体细胞单核苷酸突变。高通量测序后会得到非常多的单核苷酸突变,本方法和装置可以从众多的单核苷酸说 明 书CN 104462869 A。