一种基因组序列的指纹图谱的景观分析方法及用途技术领域
本发明属于生物信息学技术领域,更确切的是涉及一种基因组序列的指纹图谱的
景观分析方法及用途。
背景技术
如何辨识基因组不同组装版本的序列的差异,如何校验基因组序列的组装质量,
如何检测基因组序列中的大尺度重复序列,是亟待解决的技术问题。
建立一种新方法,集中展示待比较的基因组序列的指纹图谱,观察比较指纹图谱
的景观差异,是解决上述技术问题的一种技术方案,有广泛应用前景。
我们之前的专利文献公告CN103106353A公开“一种基因组序列的指纹特征曲线的
构造方法”,具体包括建立基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)
(n=1, 2, …, N;N为基因组序列的长度)的方法;依据三维空间坐标值,绘制1个三维空间
曲线(xn~yn~zn)的方法;依据三维空间坐标值,分别绘制独立存在的6个(xn~n),(yn~n),(zn~
n),(yn~xn),(zn~xn),(zn~yn) 二维平面轨迹曲线的方法。
本发明采用该专利文献公告CN103106353A作为对比文件,以其公开的技术作为现
有的对比技术。本发明以此对比技术为基础,进一步建立新方法及新用途。
发明内容
本发明的内容是,公开2个新方法及3个新用途。
首先,本发明的方法是,组合构造2个基因组序列的指纹图谱,包括1个基因组序列
的指纹图谱(a map of genome fingerprints)及1组(含2个或2个以上的)基因组序列的指
纹图谱云图(a galaxy of genome fingerprints maps)。以下将采用中英文对照,以确切
体现2个新概念的内涵。
本发明所称谓的“基因组序列的指纹图谱(a map of genome fingerprints)”,是
一幅组合图;包含1个基因组序列的指纹组合。意指采用专利文献公告CN103106353A公开的
技术方法,先计算1个基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)(n=
1, 2, …, N;N为基因组序列的长度);再依据三维空间坐标值,在同一幅组合图中绘制1个
基因组序列所对应的1个三维空间曲线图(xn~yn~zn);再依据三维空间坐标值,在同一幅组
合图中同时绘制1个基因组序列所对应的6个二维平面轨迹曲线图(xn~n),(yn~n),(zn~n),
(yn~xn),(zn~xn),(zn~yn),共同构成1幅组合图,代表1个基因组序列的指纹组合。
本发明所称谓的“基因组序列的指纹图谱云图(a galaxy of genome
fingerprints maps)”,是一幅组合图;包含1组(含2个或2个以上的)基因组序列的指纹图
谱的组合。意指在同一幅组合图中同时绘制2个或2个以上的基因组序列的所有指纹图谱的
组合,共同构成1幅组合图,代表1组(含2个或2个以上的)基因组序列的指纹组合。简言之,1
组(含2个或2个以上的)基因组序列的“指纹图谱(a map of genome fingerprints)”共同
组合而成“指纹图谱云图(a galaxy of genome fingerprints maps)”。
其次,本发明的用途是,依据比较分析本发明所组合构造的指纹图谱的综合景观
差异,实现3个用途:(1)辨识同一个基因组不同组装版本的序列的差异;(2)校验基因组序
列的组装质量;(3)检测基因组序列中的大尺度重复序列。
为了解决上述的技术问题,本发明公开的技术方案包括建立2个新方法以及实现
3个新用途。具体描述如下。
首先,建立2个新方法。组合构造1个基因组序列的指纹图谱(a map of genome
fingerprints);组合构造1组(含2个或2个以上的)基因组序列的指纹图谱云图(a galaxy
of genome fingerprints maps)。目的是全局集中展示待比较的1个基因组序列之内的指
纹图谱或者是1组(含2个或2个以上的)基因组序列之间的指纹图谱云图。
方法之1:组合构造1个基因组序列的指纹图谱(a map of genome
fingerprints), 针对给定的1个基因组序列,首先采用专利文献公告CN103106353A公开的
技术方法,计算每个碱基的三维空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组序列
的长度);然后采用绘图软件,依据三维空间坐标值,在同一幅组合图中同时绘制6个二维平
面轨迹曲线图(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn);还可以在同一幅组合图中
同时绘制1个三维空间曲线图(xn~yn~zn)。这种组合图,全局展示1个基因组序列的指纹图
谱,观察和比较的视野开阔。例如,实施例1中提及的图1,注意图1中基因组序列的长度n被
表示为Genome Length。又例如,实施例6中提及的图6。
方法之2:组合构造1组(含2个或2个以上的)基因组序列的指纹图谱云图(a
galaxy of genome fingerprints maps),针对给定的1组(含2个或2个以上的)基因组序
列,首先逐一选择每个基因组序列,并采用专利文献公告CN103106353A公开的技术方法,计
算每个碱基的三维空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组序列的长度));然
后采用绘图软件,分别依据所获得的每个基因组序列的三维空间坐标值,在同一幅组合图
中同时绘制每个基因组序列所对应的6个二维平面轨迹曲线图(xn~n),(yn~n),(zn~n),(yn~
xn),(zn~xn),(zn~yn);还可以在同一幅组合图中同时绘制每个基因组序列所对应的1个三维
空间曲线图(xn~yn~zn)。这种组合图,全局展示1组(含2个或2个以上的)基因组中的所有基
因组序列的指纹图谱,观察和比较的视野更开阔。例如,实施例3中提及的图3,注意图3中基
因组序列的长度n被表示为Genome Length。
其次,实现3个新用途。观察如前述的本发明所组合构造的指纹图谱和指纹图谱云
图,比较和分析指纹图谱的综合景观的差异。目的是判定:(1)辨识同一个基因组的不同组
装版本之间的序列的差异;(2)校验基因组序列的组装质量;(3)检测基因组序列中的大尺
度重复序列。
用途之1:辨识同一个基因组的不同组装版本之间的序列差异,例如,实施实例1中
提及图1,辨识同一个基因组的2个组装版本之间的序列差异,结果发现显示完全不同的指
纹图谱云图。又例如,实施实例2中提及图2,辨识同一个基因组的3次更新的组装版本之间
的序列差异,结果显示完全相同的指纹图谱云图。
用途之2:校验基因组序列的组装质量, 例如,实施实例3中提及图3,辨识同一个
物种大猩猩中2个个体GGO3和Susie3之间的第4号染色体的基因组序列的差异,结果显示它
们的指纹图谱略有不同,但是相近似;符合个体水平的差异程度。但是,又例如,实施实例4
中提及图4,辨识2个近缘的物种的第4号染色体大猩猩GGO3.chr4与黑猩猩PTR2.chr4之间
基因组序列的差异,结果发现大猩猩GGO3.chr4在指纹图谱上存在大尺度的异常直线(注意
观察(y~x),(x~Genome Length),(z~x),(y~ Genome Length),(z~y)分图)(图4),提示可能
存在大尺度的组装错误,达到校验基因组序列的组装质量的目的。又例如,实施例6中提及
的图6。
用途之3:检测基因组序列中的大尺度重复序列,检测基因组序列中的大尺度重复
序列,推测可能导致大尺度的的组装错误;删除大尺度重复序列,可以校正组装错误;校正
后的组装版本与组装正确的近缘的物种基因组显示相似的指纹图谱。确认校验基因组序列
的组装质量。例如,实施实例5中提及图5(注意观察(y~x),(x~Genome Length),(z~x),(y~
Genome Length),(z~y)分图)(图5)。又例如,实施例6中提及的图6。
与专利文献公告CN103106353A公开的现有的对比技术相比,本发明以此为基础,
建立了新方法及新用途,取得了有益效果。本发明的方法是组合构造2个新型的指纹图谱,
即1个基因组序列的指纹图谱和1组(含2个或2个以上的)基因组序列的指纹图谱云图,由此
全局集中展示待比较的1个基因组序列之内、或者1组(含2个或2个以上的)基因组序列之间
的指纹图谱,观察比较指纹图谱的综合景观的差异,视野更开阔,结论更客观。更进一步地,
本发明的用途包括3个方面,依据指纹图谱的综合景观分析,可以判定(1)辨识同一个基因
组的不同组装版本的序列的差异;(2)校验基因组序列的组装质量;(3)检测基因组序列中
的大尺度重复序列。这些都体现了本发明的新颖性、创造性和实用性。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1是2个不同版本的人类Y染色体序列的指纹图谱云图。包括2个版本Y染色体序
列GRCh37p13.chrY和GRCh38p1.chrY的6个二维平面轨迹曲线图(xn~n),(yn~n),(zn~n),(yn
~xn),(zn~xn),(zn~yn)。辨识同1个基因组的2个不同组装版本之间的序列差异,显示完全不
同的指纹图谱云图。
图2是3个不同版本的人类Y染色体序列的指纹图谱云图。包括人类基因组Y染色体
的3次更新版本GRCh38p1.chrY、GRCh38p2.chrY和GRCh38p7.chrY。辨识同1个基因组的3个
不同组装版本(3次更新)之间的序列差异,显示完全相同的指纹图谱云图。
图3是大猩猩中2个不同个体GGO3和Susie3基因组的第4号染色体序列GGO3.chr4
和Susie3.chr4的指纹图谱云图。显示指纹图谱云图不同,但是相近似。
图4是近缘的大猩猩与黑猩猩的第4号染色体GGO3.chr4与PTR2.chr4的指纹图谱
云图。GGO3.chr4在指纹图谱云图上存在大尺度的异常直线,提示可能存在大尺度的组装错
误。提示校验基因组序列的组装质量。
图5是黑猩猩PTR2.chr4与校正后大猩猩reass.GGO3.chr4的指纹图谱云图。显示
校正后的组装版本与组装正确的近缘的物种基因组相似的指纹图谱。
图6是大猩猩GGO3的基因组(共24条染色体)序列的指纹图谱云图(是三维曲线
图)。检测到第4号染色体GGO3.chr4存在大尺度直线(上图),提示可能存在大尺度组装错误
(上图)。定位删除大尺度直线所对应的序列,可校正组装错误(下图)。校正后第4号染色体
reass.GGO3.chr4的组装版本与组装正确的其他染色体显示相匹配的指纹图谱(下图)。
具体实施方式
实施实例1:辨识同一个基因组的不同组装版本之间的序列差异,例如,人类基因
组的Y染色体有GRCh37p13.chrY版本(GENBANK NC_000024.9)和GRCh38p1.chrY版本
(GENBANK NC_000024.10)。分别选择1个Y染色体版本,采用专利文献公告CN103106353A公
开的技术方法,计算每个碱基的三维空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组
序列的长度);采用绘图软件,依据2个版本序列的三维空间坐标值,在同一幅组合图中同时
绘制2个版本的Y染色体序列GRCh37p13.chrY和GRCh38p1.chrY的6个二维平面轨迹曲线图
(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。由此构造2个不同版本的Y染色体序列的
指纹图谱云图(图1),结果显示完全不同的指纹图谱,说明同一个Y染色体的两个版本之间
的发生很大的变化,反映该Y染色体的初始组装质量不稳定。注意图1中基因组序列的长度n
被表示为Genome Length。
实施实例2:辨识同一个基因组的不同组装版本之间的序列差异,例如,人类基因
组的Y染色体有3次更新版本GRCh38p1.chrY(GENBANK NC_000024.10)、GRCh38p2.chrY
(GENBANK NC_000024.10)、GRCh38p7.chrY(GENBANK NC_000024.10)。分别选择1个更新版
本的Y染色体序列,采用专利文献公告CN103106353A公开的技术方法,计算每个碱基的三维
空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组序列的长度);采用绘图软件,依据3个
版本序列的三维空间坐标值,在同一幅组合图中同时绘制3个更新版本序列的6个二维平面
轨迹曲线图(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。由此构造3个更新版本的Y染
色体序列的指纹图谱云图(图2)。结果显示它们之间具有完全相同的指纹图谱(图2),反映
所标记的3次更新版本中实际上该Y染色体序列并没有更新变化。注意图2中基因组序列的
长度n被表示为Genome Length。
实施实例3:辨识同一个物种内的2个不同个体的基因组序列之间的差异,例如,
从大猩猩中2个不同个体GGO3和Susie3基因组序列中分别选择第4号染色体GGO3.chr4序列
(GENBANK NC_018428.1)与Susie3.chr4序列(GENBANK FR853097.2),采用专利文献公告
CN103106353A公开的技术方法,分别计算每个碱基的三维空间坐标值(xn, yn, zn)(n=1,
2, …, N;N为基因组序列的长度);采用绘图软件,依据这2个染色体序列的三维空间坐标
值,在同一幅组合图中同时绘制这2个染色体序列的6个二维平面轨迹曲线图(xn~n),(yn~
n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。由此构造2个染色体序列的指纹图谱云图(图3)。结果
显示它们具有不同的、却近似的指纹图谱(图3)。注意图3中基因组序列的长度n被表示为
Genome Length。
实施实例4:校验基因组序列的组装质量;同时辨识近缘的2个物种内的2个不同
个体的基因组序列之间的差异,例如,大猩猩GGO3与黑猩猩PTR2是近亲,它们的基因组序列
本来应该很相似。按照本发明如前所述的方法,构造其中的2个染色体序列的指纹图谱云
图,预期也应该很相似。但是,实际上,第4号染色体GGO3.chr4(GENBANK NC_018428.1)与
PTR2.chr4(GENBANK NC_006471.3)显示完全不同的指纹图谱(图4)。尤其是GGO3.chr4中存
在大尺度的直线,提示GGO3.chr4可能存在大尺度的组装错误(图4)。注意图4中基因组序列
的长度n被表示为Genome Length。
实施实例5:检测基因组序列中大尺度重复序列;同时提示校正基因组序列的错
误组装,例如,本发明实施实例4中比较近缘的大猩猩GGO3与黑猩猩PTR2中第4号染色体,
GGO3.chr4(GENBANK NC_018428.1)与PTR2.chr4(GENBANK NC_006471.3),发现它们的指纹
图谱完全不同;GGO3.chr4存在大尺度的直线(图4)。依此指引,定位删除从49632030至
59639020碱基约10292967个碱基的大尺度序列,可以校正该组装错误(图5)。校正后的组装
版本reass.GGO3.chr4恢复了与组装正确的近缘的物种的PTR2.chr4具有相似的指纹图谱
(图5)。经过进一步分析确认:被定位删除的序列实际上是大尺度重复序列;正是该大尺度
的重复序列导致GGO3.chr4(GENBANK NC_018428.1)染色体序列中存在大尺度组装错误。注
意图5中基因组序列的长度n被表示为Genome Length。
实施实例6:检测基因组序列中大尺度重复序列;提示校正基因组序列的错误组
装,例如,大猩猩GGO3 全基因组共含有24条染色体。按照本发明所述的方法绘制大猩猩
GGO3共24条染色体序列的1个三维空间曲线图(xn~yn~zn),即是全部指纹图谱云图(图6)。发
现GGO3.chr4(GENBANK NC_018428.1),GGO3.chr10(GENBANK NC_018434.1),GGO3.chr21
(NC_018445.1)等指纹图谱与众完全不同,都存在大尺度的直线(图6),提示可能存在大尺
度的组装错误。依此指引,分别定位删除10292967个,120924个,163127个碱基的大尺度序
列,可以校正这3个染色体的大尺度组装错误(图6)。校正后的组装版本reass.GGO3.chr4,
reass.GGO3.chr10,reass.GGO3.chr21恢复了与组装正确的其余21条染色体序列相匹配的
指纹图谱,包括GGO3.chr1,GGO3.chr2A,GGO3.chr2B,GGO3.chr3,GGO3.chr5,GGO3.chr6,
GGO3.chr7,GGO3.chr8,GGO3.chr9,GGO3.chr11,GGO3.chr12,GGO3.chr13,GGO3.chr14,
GGO3.chr15,GGO3.chr16,GGO3.chr17,GGO3.chr18,GGO3.chr19,GGO3.chr20,
GGO3.chr22,GGO3.chrX等(图6)。经过进一步分析确认被定位删除的3个大尺度序列实际上
都是大尺度的重复序列;正是这些大尺度的重复序列导致GGO3.chr4,GGO3.chr10,
GGO3.chr21等3个染色体的大尺度的组装错误。