一种基因组测序设备及其片段连接支架的构建方法和系统.pdf

上传人:g**** 文档编号:866044 上传时间:2018-03-16 格式:PDF 页数:17 大小:806.83KB
返回 下载 相关 举报
摘要
申请专利号:

CN200810218342.5

申请日:

2008.12.12

公开号:

CN101504697A

公开日:

2009.08.12

当前法律状态:

授权

有效性:

有权

法律详情:

专利权的转移IPC(主分类):G06F 19/00变更事项:专利权人变更前权利人:深圳华大基因研究院变更后权利人:深圳华大基因科技服务有限公司变更事项:地址变更前权利人:518083 广东省深圳市盐田区北山工业区综合楼变更后权利人:518000 广东省深圳市盐田区北山工业区综合楼科技创业园201登记生效日:20130826|||授权|||实质审查的生效|||公开

IPC分类号:

G06F19/00; C12Q1/68

主分类号:

G06F19/00

申请人:

深圳华大基因研究院

发明人:

朱红梅; 单 杲; 倪培相; 阮 珏; 王明伟; 李瑞强; 方晓东; 王 俊; 杨焕明; 汪 建

地址:

518083广东省深圳市盐田区北山工业区综合楼

优先权:

专利代理机构:

深圳中一专利商标事务所

代理人:

张全文

PDF下载: PDF下载
内容摘要

本发明适用于基因工程领域,提供了一种基因组测序设备及其片段连接支架的构建方法和系统,所述方法包括下述步骤:将测序得到的正反向信息映射到片段连接群上;根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小;根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建scaffold,得到完整的scaffold图。本发明实施例由于根据多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小,从而大大提高了scaffold构建中片段连接群之间的空位大小的估计精度,可适用于测序读长较短的基因组测序技术以完成测序片段的拼接任务。

权利要求书

1、  一种片段连接支架构建方法,其特征在于,所述方法包括下述步骤:
将测序得到的正反向信息映射到片段连接群上;
根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的空位大小平均长度,作为各片段连接群之间的空位大小;
根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建片段连接支架,得到完整的片段连接支架图。

2、
  如权利要求1所述的方法,其特征在于,所述方法还包括下述步骤:
检测所述片段连接支架图中的重复片段连接群,并屏蔽检测到的重复片段连接群。

3、
  如权利要求2所述的方法,其特征在于,所述重复片段连接群为在同一方向上连接到多个有交叠的片段连接群的片段连接群。

4、
  如权利要求1所述的方法,其特征在于,所述方法还包括下述步骤:
根据所述片段连接支架图中各片段连接群之间的空位大小以及各片段连接群之间的正反向关系线性化所述片段连接支架图。

5、
  如权利要求4所述的方法,其特征在于,所述方法还包括下述步骤:
重新计算线性化后片段连接支架图中各片段连接群之间的空位大小。

6、
  如权利要求2-5任一权利要求所述的方法,其特征在于,所述方法还包括下述步骤:
当被屏蔽的重复片段连接群位于两个唯一重复片段连接群之间时,恢复被屏蔽的重复片段连接群。

7、
  一种片段连接支架构建系统,其特征在于,所述系统包括:
正反向映射单元,用于将测序得到的正反向信息映射到片段连接群上;
空位大小计算单元,用于根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小;
Scaffold构建单元,用于根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建片段连接支架,得到完整的片段连接支架图。

8、
  如权利要求7所述的系统,其特征在于,所述系统还包括:
重复片段屏蔽单元,用于检测所述片段连接支架图中的重复片段连接群,并屏蔽检测到的重复片段连接群。

9、
  如权利要求8所述的系统,其特征在于,所述系统还包括:
线性化单元,用于根据所述片段连接支架图中各片段连接群之间的空位大小以及各片段连接群之间的正反向关系线性化所述片段连接支架图。

10、
  如权利要求9所述的系统,其特征在于,所述空位大小计算单元还用于重新计算线性化后的片段连接支架图中各片段连接群之间的空位大小。

11、
  如权利要求8所述的系统,其特征在于,所述系统还包括:
重复片段恢复单元,用于在被屏蔽的重复片段连接群位于两个唯一重复片段连接群之间时,恢复被屏蔽的重复片段连接群。

12、
  一种包括权利要求7至11任一权利要求所述的片段连接支架构建系统的基因组测序设备。

说明书

一种基因组测序设备及其片段连接支架的构建方法和系统
技术领域
本发明属于基因工程领域,尤其涉及一种基因组测序设备及其片段连接支架的构建方法和系统。
背景技术
基因组学研究是对生物全套遗产信息进行比较分析,以在总体上把握生物全套遗产信息的机制和功能。基因组学研究最基础的一个环节是如何获得生物的全套基因组序列。现有技术提供了以全基因组鸟枪法测序技术(Sanger测序技术)为代表的第一代测序技术和以Solexa、Solid以及454为代表的第二代测序技术来获取生物的全套基因组序列。
其中Sanger测序技术的过程简述如下:先将整个基因组打断成不同大小的DNA片段构建Shotgun文库,对Shotgun文库进行随机测序,最后运用生物信息学方法将测序片段拼接成全基因组序列,其特点是测序读长较长。
Solexa测序技术的过程简述如下:先将整个基因组打断到约100-200bp大小的DNA片段,再将接头连接到DNA片段上,经聚合酶链反应(PolymeraseChain Reaction,PCR)扩增后制成Library,随后在含有接头的芯片(flow cell)上将已加入接头的DNA片段绑定在flow cell上,经反应,将不同DNA片段扩增。在下一步反应中,四种荧光标记的染料应用边合成边测序(SequencingBy Synthesis)。Solexa测序技术的特点是通量高、成本低、测序错误率低,测序读长短。
片段连接支架(scaffold)的构建方法一直是de novo拼接流程中的重要环节,它主要是用于确定片段连接群(contig)之间的位置关系,为基因组组装搭建基本骨架,该方法的优劣直接影响到全基因组序列的最终结果。现有的scaffold构建方法是通过将测序得到的有重叠(overlap)的测序片段连接起来,以完成拼接任务。而当测序读长较短时,则测序片段之间的overlap相对来说也较短,从而导致现有的scaffold构建方法的准确率低。由于以Solexa、Solid以及454为代表的第二代测序技术的测序读长明显较第一代测序技术短,导致现有的scaffold构建方法难以适用于第二代测序技术来完成基因组测序片段的拼接任务。
发明内容
本发明的目的在于提供一种片段连接支架构建方法,旨在解决现有的片段连接支架构建方法难以适用于第二代测序技术来完成基因组测序片段的拼接任务的问题。
本发明是这样实现的,一种片段连接支架构建方法,所述方法包括下述步骤:
将测序得到的正反向信息映射到片段连接群上;
根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小;
根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建片段连接支架,得到完整的片段连接支架图。
本发明的另一目的在于提供一种片段连接支架构建系统,所述系统包括:
正反向映射单元,用于将测序得到的正反向信息映射到片段连接群上;
空位大小计算单元,用于根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小;
Scaffold构建单元,用于根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建片段连接支架,得到完整的片段连接支架图。
本发明的另一目的在于提供一种包括所述片段连接支架构建系统的基因组测序设备。
在本发明实施例中,通过将测序得到的正反向信息映射到片段连接群上,再根据各片段连接群之间的多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小,从而大大提高了片段连接支架构建中片段连接群之间的空位大小的估计精度,最后再根据计算得到的片段连接群之间的空位大小和正反向关系即可将各片段连接群构建成完整的片段连接支架图,从而当采用的基因组测序技术的测序读长较短时,也可以通过上述片段连接支架构建方法完成测序片段的拼接任务,且降低了测序片段拼接的出错率。
附图说明
图1是本发明实施例提供的scaffold构建方法的实现流程图;
图2是本发明实施例提供的利用映射到contig片段上的正反向信息构建scaffold图的示意图;
图3是本发明实施例提供的重复片段的屏蔽示意图;
图4a和图4b是本发明实施例提供的线性化scaffold图的示意图;
图5是本发明实施例提供的重复contig片段的恢复示意图;
图6是本发明实施例提供的scaffold构建系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,通过将测序得到的正反向信息映射到片段连接群上,根据多对正反向信息计算片段连接群之间的平均长度,再根据计算得到的片段连接群之间的平均长度和正负关系即可将各片段连接群构建成完整的scaffold图。
图1示出了本发明实施例提供的片段连接支架(scaffold)构建方法的实现流程,详述如下:
在步骤S101中,将测序得到的正反向信息(也称为正反向reads)映射到片段连接群(contig片段)上。
在本发明实施例中,可以采用任意的测序技术对待测基因组进行测序。但为了降低scaffold构建方法的复杂度,本发明实施例采用具有通量高、测序读长短等特点的第二代测序技术对待测基因组进行测序,得到多个具有正反向关系的短序列(称为正反向信息)。
在将测序得到的正反向信息映射到contig片段上时,可以采用任意一种映射方法进行映射,如soap、eland、maq或者BLAT等映射程序都可以完成该映射。将测序得到的正反向信息映射到contig片段上后,即可得到正反向信息在contig片段上的位置和方向。
假设采用第二代测序技术得到的正反向信息为reads1和reads1’,reads2和reads2’以及reads3和reads3’,则将上述正反向信息映射到contig片段上后的效果如图2所示。
在步骤S102中,根据映射到各contig片段之间的多对正反向信息计算各contig片段之间空位的平均长度,作为contig片段之间的空位大小。
在本发明实施例中,记录跨过两contig片段的正反向信息的数目,标记作为权重,根据实际情况选择特定阏值,并设置权重大于特定阈值的连接为有效连接,以提高连接关系准确度。
在本发明实施例中,根据contig片段之间的多对正反向信息计算contig片段之间空位的平均值,作为contig片段之间的空位大小。请参阅图2,当映射后contig1片段和contig2片段之间有3对正反向信息时,则根据contig1片段和contig2片段之间的3对正反向信息计算contig1片段和contig2片段之间空位的平均长度,并将计算得到的平均长度作为contig1片段和contig2片段之间的空位大小。在计算contig片段之间空位的平均长度时,计算所有有正反向连接关系的contig片段之间空位的平均长度,作为各contig片段之间的空位大小。同时记录contig1片段和contig2片段之间的正反向信息的数目3,将其标记为权重,且当该权重大于预设的特定阀值时,才认为contig1片段和contig2片段之间的连接为有效连接,以提高连接关系准确度
如果根据一对正反向信息计算得到的contig片段之间的空位大小为Xi,其服从期望μ,方差为σ^2的正态分布为N(μ,σ^2),则当根据contig片段之间的N对正反向信息计算得到的contig片段之间的空位大小的平均值服从N(μ,σ^2/N)分布。这样当contig片段上的正反向信息的覆盖度较高时,可以大大的提高scaffold构建中contig之间空位的估计精确度。
在步骤S103中,根据计算得到的contig片段之间的空位大小和contig片段之间的正反向关系,构建各contig片段之间的scaffold,将各contig片段构建成完整的scaffold图。其中各contig片段之间的正反向关系可以根据实验原始数据给出的正反向关系的前后位置关系直接确定
请参阅图2,当根据图2所示的contig1片段与contig2片段之间的3对正反向信息计算得到contig1片段与contig2片段之间的空位大小后,即可根据contig1片段和contig2片段之间的空位大小以及contig1片段和contig2片段之间的正反向关系,构建图2所示的contig1片段与contig2片段之间的scaffold。依次类推,通过根据所有有正反向连接关系的contig片段之间的空位大小以及所有有正反向连接关系的contig片段之间的正反向关系,即可构建所有有正反向连接关系的contig片段之间的scaffold,从而将所有有正反向连接关系的contig片段构建成完整的scaffold图,其效果如图3所示。
按照上述scaffold构建方法构建的scaffold图中可能包括多个重复片段,从而降低基因组测序的准确率,为了提高基因组测序的准确率,在本发明另一实施例中,该scaffold构建方法还包括下述步骤:
在步骤S104中,检测构建的scaffold图中的重复contig片段,并屏蔽检测到的重复contig片段。
在本发明实施例中,如果一个contig片段在同一方向上连接到多个有交叠的contig片段,则认为该contig片段为一个重复contig片段。在检测到重复contig片段时,将检测到的重复contig片段屏蔽。
如果构建的scaffold图如图3所示,则由于contig片段R在反方向上分别连接到contig片段A和B,且contig片段A和B之间有交叠,同时contig片段R在正方向上分别连接到contig片段D、E、F,且contig片段E和F之间有交叠,因此contig片段R为重复的contig片段,将此重复的contig片段R屏蔽。
为了在可控的误差范围内获得充分长度的scaffold,使尽可能多的contig片段确定其相互之间的正确位置关系,在本发明另一实施例中,该scaffold构建方法还包括下述步骤:
在步骤S105中,根据scaffold图中各contig片段之间的空位大小以及各contig片段的正反向关系对scaffold图进行线性化。
在本发明实施例中,当经步骤S103构建的scaffold图中包括重复片段,则先通过步骤S104屏蔽重复片段,再对屏蔽了重复片段的scaffold图进行线性化,而当经步骤S103构建的scaffold图中未包括重复片段时,则直接对构建的scaffold图进行线性化。其中线性化的步骤具体如下:
根据scaffold图中各contig片段之间的空位大小以及各contig片段之间的正反向关系将各contig片段放入子图的合适位置,如果任意两个contig片段之间没有显著的交叠,则根据这两个contig片段之间的位置关系转化为线性结构。
如果scaffold图如图4a所示,其中已知contig片段A和B之间的空位大小和正反向关系、contig片段E和D之间的空位大小和正反向关系、contig片段A和E之间的空位大小和正反向关系、以及contig片段E和C之间的空位大小和正反向关系,则根据上述片段之间的空位大小以及正反向关系,可以直接得到线性结构关系为AEBCD,即可以直接将图4a所示的scaffold图线性化为图4b所示的scaffold图。
由于对scaffold图进行了线性化,scaffold图中各contig片段之间的空位大小可能反生了变化,此时,为了准确的反映线性化后的scaffold图中各contig片段之间的空位大小,在本发明另一实施例中,该scaffold构建方法还包括下述步骤:
重新计算线性化后scaffold图中各contig片段之间的空位大小。
其中重新计算线性化后scaffold图中各contig片段之间的空位大小的步骤具体为:按线性化以后的scaffold图上contig片段的位置前后关系,直接计算位置相邻的两两contig片段之间的空位大小,并重新连接位置相邻的contig片段,将原先的scaffold图转化为一个真正的线性结构。请参阅图4a和图4b,由图4a中的AB、AC、EC、ED的连接关系转化为图4b中的AE、EB、BC、CD的连接关系后,各contig片段之间的空位大小由原先的已算得空位大小直接加减获得。如AE之间的空位大小可以简单表示为AE=AC-EC。
在对scaffold图进行了重复片段的屏蔽以及子图的线性化后,由于scaffold图中各contig片段之间的空位大小发生了变化,此时,可能之前被屏蔽的contig片段恰好位于两个唯一contig片段之间,此时,为了减少scaffold的内部空位大小,使scaffold能尽可能地被填充,该scaffold构建方法还包括下述步骤:
在步骤S106中,当被屏蔽的重复contig片段位于两个唯一contig片段之间时,恢复被屏蔽的重复contig片段。
请参阅图5,为经步骤S104和步骤S105后得到的scaffold图,如果之前被屏蔽的contig片段R位于该scaffold图中的contig片段A和D两个唯一contig片段之间,则直接恢复之前被屏蔽的重复contig片段R。
图6示出了本发明实施例提供的scaffold构建系统结构,为了便于说明,仅示出了与本发明实施例相关的部分。该scaffold构建系统可以是内置于基因组测序设备中的软件单元、硬件单元或者软硬件相结合的单元,或者作为独立的挂件集成到基因组测序设备或者基因组测序设备的应用系统中。其中:
正反向映射单元61将测序得到的正反向信息映射到contig片段上。
在本发明实施例中,可以采用任意的测序技术对待测基因组进行测序。但为了降低scaffold构建方法的复杂度,本发明实施例采用具有通量高、测序读长短等特点的第二代测序技术对待测基因组进行测序,得到多个具有正反向关系的短序列(称为正反向信息)。
在将测序得到的正反向信息映射到contig片段上时,可以采用任意一种映射方法进行映射,如soap、eland、maq或者BLA等映射程序都可以完成该映射。将测序得到的正反向信息映射到contig片段上后,即可得到正反向信息的位置和方向。将测序得到的正反向信息映射到contig片段上后的效果如图2所示。
空位大小计算单元62根据映射到各contig片段之间的多对正反向信息计算各contig片段之间空位的平均长度,作为contig片段之间的空位大小,并记录跨过两contig片段的正反向信息的数目,标记作为权重。
在本发明实施例中,如果根据一对正反向信息计算得到的contig片段之间的空位大小为Xi,其服从期望μ,方差为σ^2的正态分布为N(μ,σ^2),则当根据contig片段之间的N对正反向信息计算得到的contig片段之间的空位大小的平均值服从N(μ,σ^2/N)分布。这样当contig片段上的正反向信息的覆盖度较高时,可以大大的提高scaffold构建中contig之间空位的估计精确度。
Scaffold构建单元63根据计算得到的contig片段之间的空位大小和contig片段之间的正反向关系,构建各contig片段之间的scaffold,将各contig片段构建成完整的scaffold图。其中各contig片段之间的正反向关系可以根据实验原始数据给出的正反向关系的前后位置关系直接确定。
请参阅图2,当根据图2所示的contig1片段与contig2片段之间的3对正反向信息计算得到contig1片段与contig2片段之间的空位大小后,即可根据contig1片段和contig2片段之间的空位大小以及contig1片段和contig2片段之间的正反向关系,构建图2所示的contig1片段与contig2片段之间的scaffold。依次类推,通过根据所有有正反向连接关系的contig片段之间的空位大小以及所有有正反向连接关系的contig片段之间的正反向关系,即可构建所有有正反向连接关系的contig片段之间的scaffold,从而将所有有正反向连接关系的contig片段构建成完整的scaffold图,其效果如图3所示。
按照上述scaffold构建方法构建的scaffold图中可能包括多个重复片段,从而降低基因组测序的准确率,为了提高基因组测序的准确率,在本发明另一实施例中,该按照上述scaffold构建方法构建的scaffold图中可能包括多个重复片段,从而降低基因组测序的准确率,为了提高基因组测序的准确率,在本发明另一实施例中,该scaffold构建系统还包括重复片段屏蔽单元64。该重复片段屏蔽单元64检测构建的scaffold图中的重复片段,并屏蔽检测到的重复片段。在本发明实施例中,如果一个contig片段在同一方向上连接到多个有交叠的contig片段,则认为该contig片段为一个重复contig片段。
为了在可控的误差范围内获得充分长度的scaffold,使尽可能多的contig片段确定其相互之间的正确位置关系,在本发明另一实施例中,该scaffold构建系统还包括线性化单元65。该线性化单元65根据scaffold图中各contig片段之间的空位大小以及各contig片段的正反向关系对scaffold图进行线性化。其具体过程如下:根据scaffold图中各contig片段之间的空位大小以及各contig片段之间的正反向关系将各contig片段放入子图的合适位置,如果任意两个contig片段之间没有显著的交叠,则根据这两个contig片段之间的位置关系转化为线性结构。
由于对scaffold图进行了线性化,scaffold图中各contig片段之间的空位大小可能反生了变化,此时,为了准确的反映线性化后的scaffold图中各contig片段之间的空位大小,在本发明另一实施例中,空位大小计算单元62重新计算线性化后scaffold图中各contig片段之间的空位大小。
其中重新计算线性化后scaffold图中各contig片段之间的空位大小的步骤具体为:按线性化以后的scaffold图上contig的位置前后关系,直接计算位置相邻的两两contig片段之间的空位大小,并重新连接位置相邻的contig片段,从而将原先的scaffold图转化为一个真正的线性结构。请参阅图4a和图4b,由图4a中的AB、AE、AC、ED的连接关系转化为图4b中的AE、EB、BC、CD的连接关系。而线性化之后各contig片段之间的空位大小由原先的已算得的空位大小直接加减获得。如AE之间的空位大小表示为AE=AC-EC。
在对scaffold图进行了重复片段的屏蔽以及子图的线性化后,由于scaffold图中各contig片段之间的空位大小发生了变化,此时,可能之前被屏蔽的contig片段恰好位于两个唯一contig片段之间,此时,为了减少scaffold的内部空位大小,使scaffold能尽可能地被填充,该scaffold构建系统还包括重复片段恢复单元66。该重复片段恢复单元66在被屏蔽的重复contig片段位于两个唯一contig片段之间时,恢复被屏蔽的重复contig片段。
请参阅图5,为经步骤S104和步骤S105后得到的scaffold图,如果之前被屏蔽的contig片段R位于该scaffold图中的contig片段A和D两个唯一contig片段之间,则直接恢复之前被屏蔽的重复contig片段R。
在本发明实施例中,通过将测序得到的正反向信息映射到contig片段上,再根据各contig片段之间的多对正反向信息计算各contig片段之间的平均长度,作为各contig片段之间的空位大小,从而大大提高了scaffold构建中contig片段之间的空位大小的估计精度,最后再根据计算得到的contig片段之间的空位大小和正反向关系即可将各contig片段构建成完整的scaffold图,从而当采用的基因组测序技术的测序读长较短时,也可以通过上述scaffold构建方法完成测序片段的拼接任务,且降低了测序片段拼接的出错率。同时本发明实施例通过对构建的scaffold图进行重复片段屏蔽处理,从而避免了由于重复片段的影响而导致的scaffold错拼的问题,大大提高了构建scaffold的准确度;通过对构建的scaffold图进行线性化处理,从而确定了contig片段之间的位置关系,提高scaffold的覆盖长度;通过恢复被屏蔽的重复片段,从而充分利用重复片段的信息,尽可能使scaffold的内部空位被填充。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

一种基因组测序设备及其片段连接支架的构建方法和系统.pdf_第1页
第1页 / 共17页
一种基因组测序设备及其片段连接支架的构建方法和系统.pdf_第2页
第2页 / 共17页
一种基因组测序设备及其片段连接支架的构建方法和系统.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《一种基因组测序设备及其片段连接支架的构建方法和系统.pdf》由会员分享,可在线阅读,更多相关《一种基因组测序设备及其片段连接支架的构建方法和系统.pdf(17页珍藏版)》请在专利查询网上搜索。

本发明适用于基因工程领域,提供了一种基因组测序设备及其片段连接支架的构建方法和系统,所述方法包括下述步骤:将测序得到的正反向信息映射到片段连接群上;根据映射到片段连接群上的多对正反向信息计算各片段连接群之间的平均长度,作为各片段连接群之间的空位大小;根据计算得到的片段连接群之间的空位大小和片段连接群之间的正反向关系构建scaffold,得到完整的scaffold图。本发明实施例由于根据多对正反向信。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1