《一种基因组序列的指纹特征曲线的构造方法.pdf》由会员分享,可在线阅读,更多相关《一种基因组序列的指纹特征曲线的构造方法.pdf(17页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103106353 A(43)申请公布日 2013.05.15CN103106353A*CN103106353A*(21)申请号 201310049589.X(22)申请日 2013.02.07G06F 19/26(2011.01)G06F 19/22(2011.01)(71)申请人艾云灿地址 510275 广东省广州市海珠区新港西路135号申请人孟繁梅赵磊艾汉南(72)发明人艾云灿 孟繁梅 赵磊 艾汉南(54) 发明名称一种基因组序列的指纹特征曲线的构造方法(57) 摘要本发明属于生物信息学技术领域,更确切的是涉及一种基因组序列的指纹特征曲线的构造方法。该构造方法包。
2、括三个步骤:建立基因组序列中的每个碱基所对应的三维空间坐标值;利用每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线;利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线。本发明的优点是:对于给定的基因组序列,可构造可重复的、唯一的、有效的指纹特征曲线。本发明在基因组序列的个性化指纹特征识别与分析方面有应用前景。(51)Int.Cl.权利要求书2页 说明书8页 附图6页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书8页 附图6页(10)申请公布号 CN 103106353 ACN 103106353 A1/2页21.一种基因组序列的指纹特。
3、征曲线的构造方法,其特征在于:包括以下三个步骤:步骤1:建立基因组序列中的每个碱基所对应的三维空间坐标值,采用本发明公布的一组公式,分别计算基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)(其中,n=1, 2, , N;N为基因组序列的长度);步骤2:利用每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线,利用由步骤1建立的三维空间坐标值(xn, yn, zn),采用绘图软件绘制三维空间曲线(xnynzn)(其中,n=1, 2, , N;N为基因组序列的长度);步骤3:利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线,利用由步骤1建立的三维空间坐。
4、标值,进行六种不同组合(xnn),(ynn),(znn),(ynxn),(znyn),(znxn)(其中,n=1, 2, , N;N为基因组序列的长度)分别选择相应的纵坐标与横坐标,从而构成6种类型的二维平面,采用绘图软件绘制一组二维平面曲线。2. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值的方法,即对两两碱基之间的相对距离RD值的计算方法,公式如下:(1)其中,n=1, 2, , N;m=1, 2, , N;N为基因组序列的总长度。3. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征。
5、在于:步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值的方法,即对两两碱基之间的权重相对距离WRD值的计算方法,公式如下:(2)其中,n=1, 2, , N;m=1, 2, , N;N为基因组序列的长度。4. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值的方法,即对基因组序列中两两碱基之间的权重相对距离WRD值再依照A,G,T,C四大类别碱基分别求和(SWRD值)的计算方法,公式如下:(3)其中,n=1, 2, , N;m=1, 2, , N;N为基因组序列的长度。5. 根据权利要求1所述的一种。
6、基因组序列的指纹特征曲线的构造方法,其特征在于:步骤1所述的建立基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)的方法,即对基因组序列中的每个碱基所对应的三维空间坐标值的计算方法,公式如下:权 利 要 求 书CN 103106353 A2/2页3(4)其中,n=1, 2, , N;N为基因组序列的长度。6.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤2所述的利用步骤1建立的每个碱基的三维空间坐标值绘制三维空间曲线,其特征在于:绘制(xnynzn)型曲线,即将基因组序列中的每个碱基都看作是在所对应的三维空间中的一个点(xn, yn, zn),将。
7、每个点逐一连接起来形成三维空间曲线,其中,n=1, 2, , N;N为基因组序列的长度。7.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(xnn)型曲线,即从每个碱基的三维空间坐标值中取出xn值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线,其中,n=1, 2, , N;N为基因组序列的长度。8.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于。
8、:绘制(ynn)型曲线,即从每个碱基的三维空间坐标值中取出yn值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线,其中,n=1, 2, , N;N为基因组序列的长度。9.根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(znn)型曲线,即从每个碱基的三维空间坐标值中取出zn值作为纵坐标与碱基数n作为横坐标绘制二维平面曲线,其中,n=1, 2, , N;N为基因组序列的长度。10. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步。
9、骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(ynxn)型曲线,即从每个碱基的三维空间坐标值中取出yn值作为纵坐标与xn值作为横坐标绘制二维平面曲线,其中,n=1, 2, , N;N为基因组序列的长度。11. 根据权利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(znyn)型曲线,即从每个碱基的三维空间坐标值中取出zn值作为纵坐标与yn值作为横坐标绘制二维平面曲线,其中,n=1, 2, , N;N为基因组序列的长度。12. 根据权。
10、利要求1所述的一种基因组序列的指纹特征曲线的构造方法,其特征在于:步骤3所述的利用步骤1建立的每个碱基的三维空间坐标值进行不同组合后绘制二维平面轨迹曲线,其特征在于:绘制(znxn)型曲线,即从每个碱基的三维空间坐标值中取出zn值作为纵坐标与xn值作为横坐标绘制二维平面曲线,其中,n=1, 2, , N;N为基因组序列的长度。权 利 要 求 书CN 103106353 A1/8页4一种基因组序列的指纹特征曲线的构造方法技术领域0001 本发明属于生物信息学技术领域,更确切的是涉及一种基因组序列的指纹特征曲线的构造方法。背景技术0002 微生物感染引起新发或突发的全球公共卫生问题和食品安全问题日。
11、益突出。高通量测序技术可在第一时间测定新发或突发微生物的全基因组序列。但是,如何进一步利用测定的全基因组序列开展大规模比较辨识、促进追踪朔源和指导应急策略,是亟待解决的技术问题。0003 目前,国际和国内开展两个全基因组序列比较分析时使用的方法是基于逐个碱基的两两比对办法(如BLASTZ软件),存在难以克服的技术缺陷,例如不能开展两个以上的全基因组序列之间大规模比较;或者因为全基因组序列太大而现有计算机和软件不能实现含有数百万个碱基的逐个碱基的两两比对;或者虽然可以完成两个基因组序列之间的逐个碱基的两两比对却不能直观展示比对结果。因此,建立一种新方法,利用微生物基因组序列快速构造直观图像显示类。
12、似于人类“指纹”的图像特征,是解决上述问题所急需的关键技术之一。0004 本发明中用作比对技术的Zplotter软件来自于Z-curve方法。简言之,Z-curve方法是采用几何学途径研究离散型的基因组序列信息,它首先通过Zplotter软件计算获得基因组序列的三维空间坐标值,然后利用坐标值进一步开展数值计算。Zplotter软件计算三维空间坐标值只是一种初始数值化技术,是为Z-curve方法的其他计算服务的,原本没有考虑到提出构造和展示基因组序列的“指纹”的概念。虽然可以利用三维空间坐标值绘制曲线,但是只能展示粗略轮廓图,而缺乏“指纹”特征的细节。另外,由于Zplotter软件的计算方法存在。
13、缺陷,它不能处理在基因组序列中可能存在的切割点错误。换言之,即使是同一个基因组序列因为首尾连接环状化之后再重新切割为线状时有可能导致切割点不同,由它计算出来的三维空间坐标值就完全不同;而事实上却完全是同一个基因组序列。因此,利用Zplotter软件计算三维空间坐标值的结果在可重复性、唯一性和有效性方面都存在问题。发明内容0005 本发明要解决的技术问题是克服现有技术的不足而提供一种提高可重复性、唯一性、有效性的关于基因组序列的指纹特征曲线的构造方法。0006 为解决上述技术问题,本发明的技术方案是:一种基因组序列的指纹特征曲线的构造方法,包括以下三个步骤:步骤1:建立基因组序列中的每个碱基所对。
14、应的三维空间坐标值(xn, yn, zn)。该步骤由以下四个环节组成:第一环节:考察给定的基因组序列中的每个碱基,建立它与其他所有碱基之间的两两说 明 书CN 103106353 A2/8页5相对距离RD值的集合。计算公式如下:(1)其中,n=1, 2, , N;m=1, 2, , N;N为基因组序列的长度。0007 第一环节是本发明方法的核心技术。具体说明如下。0008 首先,选定目标碱基(TB):假定基因组序列总长度为N个碱基,则随机选定一个碱基作为目标碱基(视为第n个碱基)(n=1, 2, , N)开始,逐一考察,经过N轮次后可以完成考察每一个碱基。这样随机开始的方法,可以保证任何碱基都。
15、有可能作为被考察的“第一个碱基”。那么,无论是环状形式存在的、还是线状形式存在的、还是由线状形式存在却被环化之后再切割为线状形式存在的序列,都不会因为“第一个碱基”的不同而不同。因为无论从何处开始,都要轮转和穷尽所有的碱基以完成对每一个碱基的考察。0009 其次,选定拟考察的碱基(FB):再逐个滑动,视为第m个碱基(m=1,2, , N)。0010 然后,计算选定的第n个碱基和第m个碱基的两个碱基之间的相对距离RD值:按照公式(1)计算。例如,当选定了从第n个碱基开始,考虑滑动到考察第m个碱基时,如果m处在第n个碱基之后的下一个位置(即m=n+1位置)上,则两者的相对距离RD值记为1;如果m处。
16、在第n个碱基之后的再下一个位置(即m=n+2位置)上,则相对距离RD值记为2。依此类推,如果m处在第n个碱基之后的倒数第一个位置(即m=n+n-1位置)上,则相对距离RD值记为N-1。注意一个特殊情况:如果m是处在第n个碱基之后的最后一个位置(即m=n+n-1位置)上(实际上是转过了一圈之后又回到第n个碱基位置上),则相对距离RD值记为N(注意此时RD值不是0,而是总长度N)。公式(1)实际上给出了RD值的集合。因为第m个碱基是m=1,2, , N个碱基中的任意一个,所以求出来的RD值共有N个。这样构成了一个集合,RD值的总个数有N个。0011 第二环节:进一步的,再将相对距离RD值转化成为权。
17、重相对距离WRD值,并且建立权重相对距离WRD值的集合。具体做法是将每个RD值除以基因组序列的总长度值N,得到权重相对距离WRD值。目的是把相对距离RD值的绝对数字缩小N倍,由此提高后续计算过程的计算效率。公式如下:(2)其中,n=1, 2, , N;m=1, 2, , N;N为基因组序列的长度。公式(2)实际上给出了WRD值的集合。因为第m个碱基是m=1,2, , N个碱基中的任意一个,所以求出来的WRD值共有N个。构成了一个新集合,WRD值的总个数还是N。0012 第三环节:再进一步的,从WRD值集合中提取关于A、T、G、C四大类别碱基的权重相对距离之和SWRD值。公式如下:(3)说 明 。
18、书CN 103106353 A3/8页6其中,n=1, 2, , N;m=1, 2, , N;N为基因组序列的长度。公式(3)实际上给出了SWRD值的集合。因为第m个碱基是m=1,2, , N个碱基中的任意一个,所以求出来的SWRD值有N个。构成了一个集合,其中SWRD值的总个数是N。0013 上述SWRD值的总集合又分解为四个亚集合,分别是:由碱基A构成的亚集合,由碱基G构成的亚集合,由碱基T构成的亚集合,由碱基C构成的亚集合。换言之,公式(3)同时决定了关于碱基A的SWRD值之和、关于碱基G的SWRD值之和、关于碱基T的SWRD值之和、关于碱基C的SWRD值之和。0014 第四环节:更进一。
19、步的,建立基因组序列中每个碱基所对应的三维空间坐标值(xn, yn, zn)。公式如下:(4)将由公式(3)决定的关于四大类别碱基A、G、T、C的SWRD值之和带入公式(4),可求出由步骤1中所选定的第n个碱基的三维空间坐标值(xn, yn, zn)。0015 执行以上所述的第一环节至第四环节,就完成了计算随机选定的“第一个碱基”的空间坐标值。以此类推,重复N轮次,可以完成逐一计算全部N个碱基的三维空间坐标值(xn, yn, zn)(其中,n=1, 2, , N;N为基因组序列的长度)。0016 步骤2:根据每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线,利用步骤1所建立的三维空间坐标值。
20、,采用绘图软件绘制三维空间曲线,将基因组序列中的每一个碱基看作是在三维空间中的一个点(xn, yn, zn)(n=1, 2, , N;N为基因组序列的长度),将每个点逐一连接起来形成三维空间曲线。是本发明中所称谓的(xnynzn)型曲线。它是体现基因组序列的唯一的三维曲线,并且具有清晰可辨的稳定的指纹特征。0017 步骤3:利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二维平面轨迹曲线,利用由步骤1建立的三维空间坐标值,进行六种不同组合(xnn),(ynn),(znn),(ynxn),(znyn),(znxn)(其中,n=1, 2, , N;N为基因组序列长度)分别选择相应的纵坐标。
21、与横坐标从而构成6种类型的二维平面,采用绘图软件绘制一组二维平面曲线。是本发明所称谓的基因组序列的一组二维平面轨迹曲线。具有稳定的清晰可辨的指纹特征。分别描述如下:(1)本发明中所称谓的(xnn)型曲线。从每个碱基的三维空间坐标值中取出xn值作为纵坐标与对应的碱基数n(n=1, 2, , N;N为基因组序列长度)作为横坐标,绘制二维平面曲线;(2)本发明中所称谓的(ynn)型曲线。从每个碱基的三维空间坐标值中取出yn值作为纵坐标与对应的碱基数n(n=1, 2, , N;N为基因组序列长度)作为横坐标,绘制二维平面曲线;(3)本发明中所称谓的(znn)型曲线。从每个碱基的三维空间坐标值中取出zn。
22、值作为纵坐标与对应的碱基数n(n=1, 2, , N;N为基因组序列长度)作为横坐标,绘制二维平面曲线;说 明 书CN 103106353 A4/8页7(4)本发明中所称谓的(ynxn)型曲线。从每个碱基的三维空间坐标值中取出yn值作为纵坐标与xn值(n=1, 2, , N;N为基因组序列长度)作为横坐标,绘制二维平面曲线;(5)本发明中所称谓的(znyn)型曲线。从每个碱基的三维空间坐标值中取出zn值作为纵坐标与yn值(n=1, 2, , N;N为基因组序列长度)作为横坐标,绘制二维平面曲线;(6)本发明中所称谓的(znxn)型曲线。从每个碱基的三维空间坐标值中取出zn值作为纵坐标与xn值(。
23、n=1, 2, , N;N为基因组序列长度)作为横坐标,绘制二维平面曲线。0018 优化的,上述方案中步骤1所述的建立基因组序列中每个碱基的三维空间坐标值,对于所给定的基因组序列而言是唯一的确定值,绝对不会因为将基因组的环状序列改写为线状序列之过程中可能发生的切割点差异而导致构造出不同的指纹特征曲线。因此,本发明方法中由步骤1建立的唯一的确定值进一步决定了步骤2和步骤3绘制的基因组序列的指纹特征曲线是可重复的、唯一的、有效的。0019 与现有技术相比,本发明相对于现有技术的有益效果是:本发明提高了基因组序列的指纹特征曲线的可重复性、唯一性、有效性。与国际上相关软件相比,采用本发明方法构造的基因。
24、组序列的指纹特征曲线的可重复性、唯一性、有效性最好。附图说明0020 下面结合附图和具体实施方式对本发明做进一步详细的说明。0021 图1是本发明基因组序列的指纹特征曲线的构造方法的具体实现框图。0022 图2图8是由本发明方法实例分析二个基因组序列所构造的指纹特征曲线。一组共七个,每一个指纹特征曲线都有稳定的、唯一的、有效的指纹特征。0023 图2 是(xnynzn)型曲线。0024 图3 是(xnn)型曲线。0025 图4 是(ynn)型曲线。0026 图5 是(znn)型曲线。0027 图6 是(ynxn)型曲线。0028 图7 是(znyn)型曲线。0029 图8 是(znxn)型曲线。
25、。0030 图9图10 是本发明方法与比对软件实例分析二个基因组序列的结果比较。0031 图9 是本发明方法实例分析二个基因组序列的结果。0032 图10是比对软件实例分析二个基因组序列的结果。具体实施方式0033 本发明的应用实例1:将结合应用实例1来详细说明本发明的具体实施过程。图1为本发明的基因组序列的指纹特征曲线的构造方法的具体实现框图。本发明公开了一种基因组序列的指纹特征曲线的构造方法,包括以下三个步骤,步骤1:建立基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)。该步骤由以下四个环节组成:第一环节:逐一考察给定的基因组序列中的每个碱基,建立它与其他所有碱基之间的。
26、说 明 书CN 103106353 A5/8页8两两相对距离RD值的集合;(1)其中,n=1, 2, , N;m=1, 2, , N;N为基因组序列的长度;第一环节是本发明方法的核心技术。先固定第n个碱基,再滑动到考察第m个碱基。按照公式(1)计算第n个碱基与第m个碱基两者之间的相对距离RD值。当选定了第n个碱基开始,考虑滑动到考察第m个碱基时,如果m处在第n个碱基之后的下一个位置(即m=n+1位置)上,则相对距离RD值记为1;如果m处在第n个碱基之后的再下一个位置(即m=n+2位置)上,则相对距离RD值记为2。依此类推,如果m处在第n个碱基之后的倒数第一个位置(即m=n+n-1位置)上,则相。
27、对距离RD值记为N-1;如果m处在第n个碱基之后的最后一个位置(即m=n+n-1位置)上(实际上是转了一圈后又回到了第n个碱基位置上),则相对距离RD值记为N(注意此时RD值不是0,而是总长度N)。公式(1)实际上给出了RD值的集合。RD值的总个数有N个;例如,作为实例1分析,我们选择基因组序列Halobacterium sp. NRC-1 NC_002607(NCBI-GENEBANK中的登记号)有2,014,239个碱基,利用上述公式(1)计算获得的RD值有2,014,239个。相对距离RD值的集合中最小值是1,然后是2,最大值是2,014,239。类似的,另一个基因组序列Halobact。
28、eriumsalinarum R1 NC_010364(NCBI-GENEBANK中的登记号)有2,000,962个碱基,计算获得的RD值有2,000,962个。相对距离RD值的集合中最小值是1,然后是2,最大值是2,000,962。0034 第二环节:进一步的,将相对距离RD值转化成为权重相对距离WRD值,并且建立权重相对距离WRD值的集合。具体做法是将每个RD值除以给定基因组序列的总长度值N,得到权重相对距离WRD值。公式如下:(2)其中,n=1, 2, , N;m=1, 2, , N;N为基因组序列的长度。公式(2)实际上给出了WRD值的集合,WRD值共有N个;例如,作为实例1分析,Ha。
29、lobacterium sp. NRC-1 NC_002607相对距离RD值的集合中共有2,014,239个,最小值是1/2,014,239,然后是2/2,014,239,最大值是1。类似的,另一个Halobacteriumsalinarum R1 NC_010364相对距离RD值的集合中共有2,000,962个,最小值是1/2,000,962,然后是2/2,000,962,最大值是1。0035 第三环节:再进一步的,从WRD值集合中分别提取出关于A、T、G、C四大类别碱基的权重相对距离值之和(SWRD值)。也就是按照碱基类别来分别归类求和:把关于A的WRD值集中求和(对A碱基的SWRD值),。
30、把关于T的WRD值集中求和(对T碱基的SWRD值),依次类推。公式如下:说 明 书CN 103106353 A6/8页9(3)其中,n=1, 2, , N;m=1, 2, , N;N为基因组序列的长度;公式(3)同时决定了关于碱基A的WRD值之和(SWRD)、关于碱基G的WRD值之和(SWRD)、关于碱基T的WRD值之和(SWRD)、关于碱基C的WRD值之和(SWRD)。分别是来自于由碱基A构成的WRD值的亚集合、由碱基G构成的WRD值的亚集合、由碱基T构成的WRD值的亚集合、由碱基C构成的WRD值的亚集合。每个类别的亚集合中的元素个数与在基因组序列中的A、T、G、C的碱基个数有对应关系,各类。
31、别之间的元素个数可能不一定相等,但是四类亚集合中的元素的总个数还是N个;例如,作为实例1分析,基因组序列NC_002607中WRD值的总个数是2,014,239个,其中A碱基类有323335个,T碱基类有322973个,G碱基类有682933个,C碱基类有684998个;基因组序列NC_010364中WRD值的总个数是2,000,962个,其中A碱基类WRD值有320206个,T碱基类WRD值有319805个,G碱基类WRD值有679401个,C碱基类WRD值有681550个。注意:对于每一个具体选定考察的“第n个碱基”而言,一旦分别将此时这些A、T、G、C碱基不同类别的WRD值求和之后所得到。
32、的SWRD值是一个具体的定值,而不再是集合了。0036 第四环节:更进一步的,建立基因组序列中每个碱基所对应的三维空间坐标值(xn, yn, zn)。公式如下:(4)将由公式(3)决定的关于四大类别碱基A、G、T、C的SWRD值分别带入公式(4),可以求出在步骤1中选定的“第n个碱基”的三维空间坐标值(xn, yn, zn)(其中,n=1, 2, , N;N为基因组序列的长度)。0037 以此类推,重复上述的第一环节至第四环节,逐一把每个碱基都依次当作“第n个碱基”来考察(其中,n=1, 2, , N;N为基因组序列的长度),就能够逐一计算出在基因组序列中的全部N个碱基的三维空间坐标值(xn,。
33、 yn, zn);例如,作为实例1分析,基因组序列NC_002607中碱基数有2,014,239个,则有2,014,239组三维空间坐标值,对应在三维空间中的2,014,239个点。类似的,基因组序列NC_010364有2,000,962组三维空间坐标值,对应在三维空间中的2,000,962个点。0038 步骤2:利用每个碱基的三维空间坐标值绘制基因组序列的三维空间曲线,利用步骤1所建立的三维空间坐标值,采用绘图软件绘制三维空间曲线,是本发明中所称谓的(xnynzn)型曲线。对所给定的基因组序列而言,是唯一的三维曲线,并且具有清晰可辨的稳定的指纹特征;例如,作为实例1分析,基因组序列NC_00。
34、2607有2,014,239个点,而NC_010364有2,000,962个点,将它们的三维坐标值同步绘制(xnynzn)型曲线(如图2所示),可见两个菌株的基因组序列的指纹特征曲线很相似。0039 步骤3:利用每个碱基的三维空间坐标值进行不同组合后绘制基因组序列的二说 明 书CN 103106353 A7/8页10维平面轨迹曲线,利用由步骤1建立的三维空间坐标值,进行六种不同组合(xnn),(ynn),(znn),(ynxn),(znyn),(znxn)(n=1, 2, , N;N为基因组序列的长度)分别选择相应的纵坐标与横坐标,从而构成6种类型的二维平面,采用绘图软件绘制一组二维平面曲线,。
35、即是所给定的基因组序列的一组二维平面轨迹曲线,具有稳定的清晰可辨的指纹特征。分别描述如下:(1)本发明中所称谓的(xnn)型曲线:以xn值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制(xnn)型曲线(如图3所示),可见两个菌株的指纹特征曲线很相似;(2)本发明中所称谓的(ynn)型曲线:以yn值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,00。
36、0,962个点,同步绘制(ynn)型曲线(如图4所示),可见两个菌株的指纹特征曲线很相似;(3)本发明中所称谓的(znn)型曲线:以zn值作为纵坐标与碱基数n作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制(znn)型曲线(如图5所示),可见两个菌株的指纹特征曲线有明显差别;(4)本发明中所称谓的(ynxn)型曲线:以yn值作为纵坐标与xn值作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,。
37、000,962个点,同步绘制(ynxn)型曲线(如图6所示),可见两个菌株的指纹特征曲线很相似;(5)本发明中所称谓的(znyn)型曲线:以zn值作为纵坐标与yn值作为横坐标绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_010364中有2,000,962个点,同步绘制(znyn)型曲线(如图7所示),可见两个菌株的指纹特征曲线有明显差别;(6)本发明中所称谓的(znxn)型曲线:以zn值作为纵坐标与xn值作为横坐标,绘制二维平面轨迹曲线。例如,作为实例1分析,基因组序列NC_002607中有2,014,239个点,而NC_01036。
38、4中有2,000,962个点,同步绘制(znxn)型曲线(如图8所示),可见两个菌株的指纹特征曲线有明显差别。0040 本发明的应用实例2:不同方法分析给定的基因组序列的结果比较。0041 选择2个基因组序列Halobacterium sp. NRC-1 的NC_002607(NCBI-GENEBANK中的登记号)及其变体NC_002607_Rc做比较分析。所谓变体NC_002607_Rc,是指对原有的NC_002607基因组序列进行先环状化连接之后再切割断开为线状改造而成的。因为再次切割时的切割点不同,所以作为线状形式存在的序列的“第一个”碱基则会因为切割点的不同而不同。但是,当把它重新首尾相连之后每个碱基的实际相对顺序并没有发生任何改变,还是原来的那个序列的顺序。简言之,NC_002607及其变体NC_002607_Rc实际上都是代表着同一个基因组序列。构造一个已知的人工改造体,便于检验本发明方法的使用效果。例如,在原序列NC_002607的大约 700 kb之处切割之后而构造“新”序列(只是作为线状形式存说 明 书CN 103106353 A10。