单核苷酸距离多态性比较核酸序列进行物种分类的方法技术领域
本发明属于物种分类技术领域,特别涉及一种单核苷酸距离多态性比较核酸序列进行物种分类的方法。
背景技术
目前,根据进化论原理,两段DNA或RNA若来自同一祖先,会有一定的同源性,亲缘关系越近的物种同源性就越高,所以可根据DNA或RNA序列的核苷酸排列顺序进行分类,建立分子进化的系统发育树(phylogenetictree)。目前广泛使用的是由Higgins和Sharp于1988年提出的Clustal算法,先将多个序列两两比对构建距离矩阵,反映序列之间两两关系,然后根据距离矩阵计算产生系统进化树。两条序列比对时,最简单的情况就是不考虑空位,只选择比对起始点,但这种方法误差较大,难以反映真实情况。目前最常用的方法是对位比对,即通过插入间隔的方法使长度不同的序列对齐。由于有多种插入间隔的方式,从而导致了比对的复杂性,使计算量大大增加。
因此,本着求好的精神及理念,并由专业的知识、经验的辅助,以及在多方巧思、试验后,方创设出本发明,特再提供一种单核苷酸距离多态性比较核酸序列进行物种分类的方法,能够将序列上核苷酸的差异转变为核苷酸间距离的差异,既兼顾了空位,又无需插入间隔,大大简化了比对的复杂性。
发明内容
本发明提出一种单核苷酸距离多态性比较核酸序列进行物种分类的方法,将序列上核苷酸的差异转变为核苷酸间距离的差异,既兼顾了空位,又无需插入间隔,计算方法简单。
本发明的技术方案是这样实现的:一种单核苷酸距离多态性比较核酸序列进行物种分类的方法,包括如下步骤:
S10;对DNA序列或者RNA序列上的每个核苷酸进行编号;
S20:计算DNA序列或者RNA序列上相邻同种核苷酸的距离;
S30:统计每种核苷酸的不同距离在每条DNA序列或者RNA序列中出现的次数;
S40:根据统计每种核苷酸的不同距离在每条DNA序列或者RNA序列中出现的次数,构建距离矩阵,根据距离矩阵计算产生系统发育树,进行物种分类。
作为一种优选的实施方式,所述核苷酸的种类包括核苷酸A、核苷酸T、核苷酸G、核苷酸C和核苷酸U。
作为一种优选的实施方式,所述步骤S20中计算DNA序列或者RNA序列上相邻同种核苷酸的距离采用将序列中核苷酸A对应的编号提取出来,计算相邻核苷酸A之间的距离,然后依次计算相邻核苷酸C之间、相邻核苷酸G之间、相邻核苷酸T、相邻核苷酸U之间的距离。
作为一种优选的实施方式,所述步骤S40中根据统计每种核苷酸的不同距离在每条DNA序列或者RNA序列中出现的次数,分析单核苷酸距离的多态性,通过构建距离矩阵,计算产生系统发育树。
作为一种优选的实施方式,所述步骤S40中分析单核苷酸同种核苷酸距离的多态性,满足公式:F=2nxy/(nx+ny),P=-lnF,其中nx为两段DNA序列或者RNA序列中第一段序列中相邻同种核苷酸出现的某一距离的数目,ny是两段DNA序列或者RNA序列中第二段序列中相邻同种核苷酸出现的某一距离的数目,nxy为两段DNA序列或者RNA序列相邻同种核苷酸之间某一距离出现次数相同的数目,即nx和ny中的较小值,P为两段DNA序列或者RNA序列相邻同种核苷酸距离的多样性值。
作为一种优选的实施方式,所述步骤S40中分析单核苷酸同种核苷酸距离的多态性,在计算两段DNA序列或者RNA序列的多样性值后,对四种核苷酸全部距离的多样性值求取平均值,将所有DNA序列或者RNA序列两两比较计算后得到的平均值构建距离矩阵,根据距离矩阵制作进化关系树。
采用了上述技术方案后,本发明的有益效果是:根据DNA或RNA序列上相邻的两个同种核苷酸距离的差异进行比对,构建距离矩阵,再根据距离矩阵计算产生系统进化树,本方法将序列上核苷酸的差异转变为核苷酸间距离的差异,既兼顾了空位,又无需插入间隔,计算方法简单,能够满足基本要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图;
图2为本发明构建的系统发育树;
图3为利用Mega6.0软件对位比对序列构建的系统发育树。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明单核苷酸距离多态性比较核酸序列进行物种分类的方法,包括如下步骤:
S10;对DNA序列或者RNA序列上的每个核苷酸进行编号;
S20:计算DNA序列或者RNA序列上相邻同种核苷酸的距离;
S30:统计每种核苷酸的不同距离在每条DNA序列或者RNA序列中出现的次数;
S40:根据统计每种核苷酸的不同距离在每条DNA序列或者RNA序列中出现的次数,构建距离矩阵,根据距离矩阵计算产生系统发育树,进行物种分类。
所述核苷酸的种类包括核苷酸A、核苷酸T、核苷酸G、核苷酸C和核苷酸U。
所述步骤S20中计算DNA序列或者RNA序列上相邻同种核苷酸的距离采用将序列中核苷酸A对应的编号提取出来,计算相邻核苷酸A之间的距离,然后依次计算相邻核苷酸C之间、相邻核苷酸G之间、相邻核苷酸T、相邻核苷酸U之间的距离。
所述步骤S40中根据统计每种核苷酸的不同距离在每条DNA序列或者RNA序列中出现的次数,分析单核苷酸距离的多态性,通过构建距离矩阵,计算产生系统发育树。
所述步骤S40中分析同种单核苷酸距离的多态性,满足公式:F=2nxy/(nx+ny),P=-lnF,其中nx为两段DNA序列或者RNA序列中第一段序列中相邻同种核苷酸出现的某一距离的数目,ny是两段DNA序列或者RNA序列中第二段序列中相邻同种核苷酸出现的某一距离的数目,nxy为两段DNA序列或者RNA序列相邻同种核苷酸之间某一距离出现次数相同的数目,即nx和ny中的较小值,P为两段DNA序列或者RNA序列相邻同种核苷酸距离的多样性值。
所述步骤S40中分析单核苷酸同种核苷酸距离的多态性,在计算两段DNA序列或者RNA序列的多样性值后,对四种核苷酸全部距离的多样性值求取平均值,将所有DNA序列或者RNA序列两两比较计算后得到的平均值构建距离矩阵,根据距离矩阵制作进化关系树。
所述步骤S40中还包括:根据统计每种碱基的不同距离在每条DNA序列或者RNA序列中出现的次数,确定物种的同源性差异。
以一段DNA序列为例(同样适用于RNA序列),给每个核苷酸编号,则相邻两个核苷酸A之间的距离如下所示:
由上可知,相邻两个核苷酸A之间的距离为7,4,3,2,2,9。同样可得到相邻两个核苷酸C之间的距离为1,4,1,8,4。相邻两个核苷酸G之间的距离为3,9,2,1,2,5,3,1。相邻两个核苷酸T之间的距离为3,3,1,13,3,3,1。
如果发生了单核苷酸突变(见下序列所示),如17位的A变成C,则相邻两个核苷酸A之间的距离变为7,4,5,2,9。和上序列相比,有7,4,2,9四个数相同,即突变处相邻的两个A间的距离受到影响,其余数字不变。相邻两个核苷酸C之间的距离变为1,4,1,5,3,4,和上述序列相比,有1,4,1,4四个数相同,即突变处相邻的两个C间的距离受到影响,其余数字不变。而相邻的两个G、T之间的距离不受影响,和上述DNA序列完全一致。
如果第一条序列发生了缺失,如17位的A缺失(见下序列所示),则相邻两个核苷酸A之间的距离变为7,4,4,2,9。和上面第一条序列相比,有7,4,2,9四个数相同,即缺失处相邻的两个A间的距离受到影响,其余数字不变。相邻两个C之间的距离变为1,4,1,7,4,和第一条序列相比,有1,4,1,4四个数相同,即缺失处相邻的两个C间的距离受到影响,其余数字不变。相邻两个G、T之间距离受到的影响和C类似,也是缺失处相邻的两个核苷酸距离受到影响,其余数字不变。
以上三种情况造成相邻的同种核苷酸间距离的变化见下表一:
下面再以19个物种的18srRNA序列为例,序列信息见下表二:
序号 中文名称 序列号 长度
1 刷尾负鼠 FJ809787.1 1850
2 鸭嘴兽 AJ311679.1 1850
3 袋熊 AJ311678.1 1845
4 短吻鲟 AF188380.1 1785
5 匙吻鲟 X98838.1 1771
6 鮶鮋 M91182.1 1789
7 绿蜥蜴 AY859624.1 1774
8 豹纹蜥 AY217892.1 1764
9 壁虎 AY217904.1 1766
10 蝾螈 JF900490.1 1777
11 食蜂鹟 AF173616.1 1737
12 鸡 AF173612.1 1737
13 小冠雉 AF173613.1 1737
14 鹌鹑 AF173611.1 1737
15 角鲨 M91179.1 1771
16 笠鳞鲛 M91181.1 1772
17 扁鲨 AY049858.1 1775
18 锦龟 AY859627.1 1778
19 短吻鳄 AF173605.1 1733
下面对物种的分类确定过程进一步公开说明,首先对上述19条序列分别从1开始编号,然后分别提取各个序列中核苷酸A、核苷酸T、核苷酸C、核苷酸G的编号,再分别计算各相邻同种核苷酸之间的距离,统计每一个距离出现的次数。下面以19个物种的核苷酸A的统计结果为例,N为相邻两个核苷酸A之间的距离,对每个距离在序列中出现次数的统计结果如下表三所示:
相邻两个核苷酸C之间的距离出现次数统计如下表四所示:
相邻两个核苷酸G之间的距离出现次数统计如下表五所示:
相邻两个核苷酸T之间的不同距离出现次数如下表六所示:
根据如上统计结果,将19条DNA序列逐行两两代入公式:F=2nxy/(nx+ny),P=-lnF,得出多样性值后,对四种核苷酸全部距离的P值求取平均值并得出距离矩阵如下表七所示:
如图2所示为上述表七的距离矩阵用邻接法构建的系统发育树,图3为利用Mega6.0软件对位比对序列并选择邻接法构建的系统发育树,通过对图2和图3进行对比发现,采用本方案时,绿蜥蜴、豹纹蜥都是蜥蜴,归为一类,再和壁虎归类;锦龟、短吻鳄归为一类;以上爬行动物归为一大类;食蜂鹟、小冠雉、鹌鹑、鸡都是鸟类,归为一类;负鼠、袋熊、鸭嘴兽都是哺乳动物,归为一类;角鲨、扁鲨、笠鳞鲛都是软骨鱼,归为一类;短吻鲟、匙吻鲟都是硬骨鱼,归为一类;采用对位比对序列构建系统发育树时与本方案基本一致。鲪鲉属硬骨鱼,蝾螈是两栖动物,但以上两种方法都和软骨鱼归为一类,可能是由于核酸序列变异较大导致,也说明没有任何一种方法可以将所有物种准确分类。
刷尾负鼠和鸭嘴兽的序列长度都是1850,袋熊是1845,但刷尾负鼠和袋熊先聚为一类;短吻鲟序列长1785,匙吻鲟1771,相差14个核苷酸,并不影响其先聚为一类;锦龟序列长1778,短吻鳄1733,二者都是爬行类,虽然序列相差45个核苷酸,也没有影响其先聚为一类。以上结果说明我们这种方法虽然没有插入间隔进行对位比对,但也能够很好地处理序列长度不一致的情况,能够准确分类。
采用本方案单核苷酸距离多态性比较核酸序列进行物种分类的方法,根据DNA或RNA序列上相邻的两个同种核苷酸距离的差异进行比对,构建距离矩阵,再根据距离矩阵计算产生系统进化树,本方法将序列上核苷酸的差异转变为核苷酸间距离的差异,既兼顾了空位,又无需插入间隔,计算方法简单,能够满足基本的要求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。