技术领域
本发明属于生物技术领域,是一种基于三色荧光标记探针或核苷酸实现核酸 序列高通量连接测序方法。
背景技术
DNA测序技术是分子生物学研究中最常用的技术,它的出现极大地推动了 生物学的发展。最近几年发展起来的第二代DNA测序技术则使得DNA测序进 入了高通量、低成本的时代。高通量测序技术是对传统测序技术的一次革命性提 高,一次能同时对几百万甚至几千万条DNA序列进行测序。目前主流的高通量 测序技术主要有三个代表:Roche公司的454测序技术、Illumina公司的Solexa 测序技术以及ABI公司的SOLiD测序技术。在现有的测序技术中,通过采用 标记探针的连接测序方法或者标记核苷酸的合成测序方法均采用四色标记的原 料实施测序反应。具体而言,合成测序技术采用边合成边测序的方法,在合成反 应中,加入改造过的DNA聚合酶和带有4种荧光标记的dNTP,采集4色荧光 之后,将3’端阻遏基团切除,还原为羟基,随后进行第二次循环,重复第一个 循环的步骤,直到模板序列全部被合成双链DNA;而连接技术采用DNA连接酶 和带有4种荧光标记的寡核苷酸探针序列,采集4色荧光之后,将标记基团切除、 并衍生出随后进行第二次循环需要的基团,重复第一个循环的步骤,直到模板序 列全部被合成双链DNA。很明显,这种让每个核苷酸(或者探针)携带一个荧 光标记,每一种标记的荧光颜色均不同于其它的核苷酸(或者探针)类型,其好 处是可以通过比较四色荧光的扫描强度,直接读取四色荧光强度中最大者为测序 信息。然而,这种四色荧光标记测序的方法存在下列不足:1)需要四色不同的 染料用于标记,且这四种不同染料的发射波长尽可能不重迭,否则会相互之间发 生干扰,这在现实的测序方法中的确存在;且每增加一种标记染料,标记费用也 同时增加。2)每种染料需要单独的采集,每增加一种染料需要增加相应的光学 器件,即增加测序仪器的制造成本;同时,每增加一种染料就需要花费采集该染 料的扫描时间,因而,增加测序时间;而荧光强度的采集占用了测序总时间的二 分之一,且四种不同染料所花费的时间也不相同。在连接法测序中,采集异硫氰 酸荧光素(FITC)的时间大约为采集德克萨斯红(TexasRed)、花青素5(Cy5)、花青 素3(Cy3)三种染料的时间总和。因此,如果采用三色荧光、而不是现有的四色荧 光标记方法实施高通量DNA测序,不仅测序仪器的复杂程度可以降低;同时, 测序费用和操作时间也会大大降低,其效率将提高20%以上。然而,一个很明显 的问题是,如何获取没进行标记探针的测序信息?根据现有测序方法,在进行序 列测定前,首先会采用杂交标记序列的方法将所有芯片上的DNA模板进行位置 确定。因此,每个DNA模板将有一个杂交的初始荧光强度数值。而当采用三色 荧光标记进行测序反应时,每个不同位置上的DNA模板均可以获得三个不同的 荧光强度数值。这三个数值包括两种情况:一种情况是包含“正确”的测序荧光, 那么在这种情况下,“正确”的测序荧光强度数值就要明显大于另外两个“错误” 的数值;第二种情况是不包含“正确”的测序荧光,那么这三种“错误”的荧光 强度数值,相对于该DNA模板杂交的初始荧光强度就会少很多。从上述分析可 以看出,三色荧光标记的测序方法同样可以获取准确的测序信息。
发明内容
发明目的:针对现有四色荧光标记测序技术存在的问题,本发明提出了一种 基于三色荧光标记的核酸测序方法。
技术方案:为实现上述技术目的,本发明提出一种基于三色荧光标记的核酸 测序方法,使用四类核苷酸或探针进行测序,其中,三类核苷酸或探针是用不同 荧光染料标记、而另一类是未做标记的,每个DNA模板每次的测序信息通过比 较三类标记染料的荧光强度、以及DNA模板定位的杂交荧光强度而获得。
具体地,当使用核苷酸测序时,所述核苷酸为修饰的四种dNTPs,用于合成 测序方法;当使用探针测序时,所述探针为修饰或者未修饰的寡核苷酸序列,用 于连接测序方法;所述探针按照单碱基标记模式包括四种探针,其中,每种探针 对应一个明确的碱基,两碱基标记模式包含四类共十六种探针,每种探针对应两 个明确的碱基。
其中,所述DNA模板定位是指用荧光标记的寡核苷酸序列与高通量DNA 测序反应池芯片上所有扩增DNA模板进行杂交、扫描,而当扫描获得的荧光强 度明显高于背景数值时,确定该DNA模板为有效测序模板,并记录该DNA的 荧光强度以及位置坐标信息。
所述测序信息通过比较单个测序反应的三类标记染料荧光强度、以及DNA 模板定位的杂交荧光强度而获得,具体方式为:
(1)当三类荧光强度的数值有明显不同,即其中一类荧光强度数值分别高 于另外两类荧光强度数值的3倍以上时,这个高的荧光强度值即为测序信息;
(2)当三类荧光强度数值相差不大、且其强度低于DNA模板定位的杂交 荧光强度值的1/3时,未标记的探针或核苷酸即为测序信息。
有益效果:本发明与现有技术相比,具有如下优点:
(1)本发明大大降低测序试剂费用和操作时间,由于只标记三种、而不是 四种探针原料,其探针原料费用将降低20%;由于扫描只针对三种染料而不是四 种进行成像,扫描操作时间至少减少25%;
(2)本发明与现有使用荧光染料标记原料的连接测序、合成测序平台兼容、 且可以根据使用的染料对仪器进行简化,降低测序仪的成本。
具体实施方式
下面通过具体的实施例详细说明本发明。
实施例1:三色标记荧光探针连接测序法测定人全基因组。
本实施例给出了利用一种三色标记荧光探针连接测序法测定人全基因组的 方法。具体如下:
1、按照文献(PuD,etal.JournalofBiomedicalNanotechnology, 2014,10(5),751-759)合成含有3’硫代-次黄嘌呤脱氧核苷的寡核苷酸测序探针三 色荧光标记(见表1,序列中X即为3’硫代-次黄嘌呤脱氧核苷,I为次黄嘌呤 脱氧核苷(X和I均为通用碱基,与A、G、C、T均能形成互补),N为混合核 苷(即碱基A、G、C、T各含有25%的含量),德克萨斯红(TexasRed)、花青 素5(Cy5)、花青素3(Cy3)为三种不同染料,分别标识探针距离3端第5个碱基 位置的碱基G、C、T)。下述四类探针均是混合物,目的是满足高通量DNA测 序所有可能的DNA模板,此时,每类探针包含44个具体的探针,即每个NNNN 均有44种类型。
表1循环连接测序探针
2、按照文献(ShendureJ,etal.Science,2005,309(5741):1728-1732)制备人的 全基因组测序模板。将人基因组用酶切割(或者超声破碎)成大小为50~1000 碱基的片段,并在连接酶的作用下将这些片段化核酸序列用一对通用连接子进行 连接(假定均为20个碱基),其中的一个通用连接子的寡核酸序列与扩增引物 的序列完全互补,而另一个连接子的寡核酸序列包含了所有测序引物的序列信 息。将这些连接臂连接的片段化核酸序列与固定连接子互补序列到微珠进行乳液 并行PCR反应,扩增片段化的人全基因组。并将这些微珠固定到平板基片上, 通过酶切或者变性得到人全基因组测序模板。
3、将测序定位引物与人全基因组测序模板杂交,并在清除未杂交引物后, 进行扫描分析,确定每个DNA模板在平板基片上的位置坐标及荧光强度。
4、变性清除测序定位引物,重新杂交测序引物,然后将三色标记的4种寡 核苷酸测序探针进行连接反应,测定人全基因组测序模板一个碱基序列的信息 (PuD,etal.JournalofBiomedicalNanotechnology,2014,10(5),751-759):当连接反 应完成后,清除未连接的标记核苷测序探针后,进行扫描分析,确定哪些位置的 模板进行了哪些碱基的连接反应。即:当三种荧光强度的数值有明显不同,即其 中一种荧光强度数值分别高于另外两种荧光强度数值的3倍以上时,这个高的荧 光即为测序信息;当三种的荧光强度数值相差不大、且其强度低于DNA模板定 位的杂交荧光强度的1/3时,未标记的探针即为测序信息;从而确定基因组序列 上第5个位置上碱基的序列。用0.2M碘溶液将连接引物中含有3’硫代-脱氧次 黄嘌呤核苷碱基连同荧光分子一同切除。
5、重复过程4,每重复一次便增加一个碱基的序列测定,直到因每个碱基 的延伸效率导致不能准确碱基序列为止,这样便可以知道位置5、10、15、20、…、 等位置的碱基信息。
6、停止上个引物的测序,将延伸上述测定若干个碱基序列的测序引物变性 掉,并重新杂交3端比原来少一个碱基的测序定位引物,按照步骤3、4同样的 操作可以测定4、9、14、19、…、等位置的碱基。
7、重复步骤4、5、6,便可以将未知DNA模板测序序列的碱基确定。
实施例2:三色标记双碱基编码荧光探针连接测序法测定人全基因组
本实施提供了一种三色标记双碱基编码荧光探针连接测序法测定人全基因 组的方法,具体步骤如下:
1、按照文献(PuD,etal.JournalofBiomedicalNanotechnology, 2014,10(5),751-759)合成含有3’硫代-次黄嘌呤脱氧核苷的寡核苷酸测序探针三 色双碱基编码荧光标记(见表2,序列中X即为3’硫代-次黄嘌呤脱氧核苷,I 为次黄嘌呤脱氧核苷(X和I均为通用碱基,与A、G、C、T均能形成互补), N为混合核苷(即碱基A、G、C、T各含有25%的含量),德克萨斯红(TexasRed) 、花青素5(Cy5)、花青素3(Cy3)为三种不同染料,分别标识探针距离3端第4、 5两个碱基)。
表2循环连接测序探针
2、按照文献(ShendureJ,etal.Science,2005,309(5741):1728-1732)制备人的 全基因组测序模板。将人基因组用酶切割(或者超声破碎)成大小为50~1000 碱基的片段,并在连接酶的作用下将这些片段化核酸序列用一对通用连接子进行 连接(假定均为20个碱基),其中的一个通用连接子的寡核酸序列与扩增引物 的序列完全互补,而另一个连接子的寡核酸序列包含了所有测序引物的序列信 息。将这些连接臂连接的片段化核酸序列与固定连接子互补序列到微珠进行乳液 并行PCR反应,扩增片段化的人全基因组。并将这些微珠固定到平板基片上, 通过酶切或者变性得到人全基因组测序模板。
3、将测序定位引物与人全基因组测序模板杂交,并在清除未杂交引物后, 进行扫描分析,确定每个DNA模板在平板基片上的位置坐标及荧光强度。
4、变性清除测序定位引物,重新杂交测序引物,然后将三色标记的16种寡 核苷酸测序探针进行连接反应,测定人全基因组测序模板一个双碱基编码序列的 信息(PuD,etal.TheJournalofBiochemistry,2015,157(5),357-364):当连接反应完 成后,清除未连接的标记核苷测序探针后,进行扫描分析,确定哪些位置的模板 进行了哪些碱基的连接反应。即:当三种荧光强度的数值有明显不同,即其中一 种荧光强度数值分别高于另外两种荧光强度数值的3倍以上时,这个高的荧光即 为测序信息;当三种的荧光强度数值相差不大、且其强度低于DNA模板定位的 杂交荧光强度的1/3时,未标记的探针即为测序信息;从而确定基因组序列上第 5个位置上碱基的序列。用0.2M碘溶液将连接引物中含有3’硫代-脱氧次黄嘌 呤核苷碱基连同荧光分子一同切除。
5、重复过程4,每重复一次便增加一个碱基的序列测定,直到因每个碱基 的延伸效率导致不能准确碱基序列为止,这样便可以知道位置4、5,9、10,14、 15,…、等位置的双碱基编码信息。
6、停止上个引物的测序,将延伸上述测定若干个碱基序列的测序引物变性 掉,并重新杂交3端比原来少一个碱基的测序定位引物,按照步骤3、4同样的 操作可以测定3、4,8、9,13、14,…、等位置的双碱基编码信息。
7、重复步骤4、5、6,便可以确定未知DNA模板的测定序列中的双碱基编 码信息,通过解码便可以确定所有测序序列的碱基信息(http://solid. Appliedbiosystems.com)。
实施例3:三色标记核苷酸合成测序法测定人全基因组。
本实施例给出了一种利用三色标记核苷酸合成测序法测定人全基因组的方 法。具体步骤如下:
1、按照文献(Bentleyetal.Nature,2008,456,53-59)合成三色荧光标记的3′-O- 叠氮甲基-2′脱氧核苷三磷酸核苷酸(其中dATP不标记,dCTP用染料德克萨斯 红(TexasRed)标记、dGTP用染料花青素5(Cy5)标记、dTTP用染料花青素3(Cy3) 标记)。
2、按照文献(ShendureJ,etal.Science,2005,309(5741):1728-1732)制备人的 全基因组测序模板。将人基因组用酶切割(或者超声破碎)成大小为50~1000 碱基的片段,并在连接酶的作用下将这些片段化核酸序列用一对通用连接子进行 连接(假定均为20个碱基),其中的一个通用连接子的寡核酸序列与扩增引物 的序列完全互补,而另一个连接子的寡核酸序列包含了所有测序引物的序列信 息。将这些连接臂连接的片段化核酸序列与固定连接子互补序列到微珠进行乳液 并行PCR反应,扩增片段化的人全基因组。并将这些微珠固定到平板基片上, 通过酶切或者变性得到人全基因组测序模板。
3、将测序定位引物与人全基因组测序模板杂交,并在清除未杂交引物后, 进行扫描分析,确定每个DNA模板在平板基片上的位置坐标及荧光强度。
4、变性清除测序定位引物,重新杂交测序引物,然后将三色标记的4种三 色荧光标记的3′-O-叠氮甲基-2′脱氧核苷三磷酸核苷酸在9°NDNA聚合酶的作 用下完成一个核苷酸的合成,清除未参与合成的核苷酸,扫描确定每个DNA模 板的荧光强度,并比较三种标记染料的荧光强度、以及DNA模板定位的杂交荧 光强度,确定人全基因组测序DNA模板第一个碱基信息的测定((Bentleyetal. Nature,2008,456,53-59)。
5、用三(2-羰基乙基)膦移除荧光基团,同时活化出3’端的羟基基团。
6、重复步骤4、5,依次测定DNA模板上的碱基信息,直到测序信号强度 不能有效确定明确测序信息为止。