重测序数据的处理方法和处理装置.pdf

上传人:32 文档编号:2238226 上传时间:2018-08-03 格式:PDF 页数:20 大小:1.49MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410613754.4

申请日:

2014.11.04

公开号:

CN104462211A

公开日:

2015.03.25

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||著录事项变更IPC(主分类):G06F 17/30变更事项:申请人变更前:北京诺禾致源生物信息科技有限公司变更后:北京诺禾致源科技股份有限公司变更事项:地址变更前:100085 北京市昌平区回龙观镇生命园路29号创新大厦B258室变更后:100085 北京市昌平区回龙观镇生命园路29号创新大厦B258室|||实质审查的生效IPC(主分类):G06F17/30申请日:20141104|||公开

IPC分类号:

G06F17/30; G06F19/00(2011.01)I

主分类号:

G06F17/30

申请人:

北京诺禾致源生物信息科技有限公司

发明人:

牛青山; 曹银川; 闫军

地址:

100085北京市昌平区回龙观镇生命园路29号创新大厦B258室

优先权:

专利代理机构:

北京康信知识产权代理有限责任公司11240

代理人:

吴贵明; 张永明

PDF下载: PDF下载
内容摘要

本发明公开了一种重测序数据的处理方法和处理装置。该处理方法包括:步骤A,确定基因组的重测序数据的文件路径;步骤B,使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;步骤C,接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;步骤D,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息;以及步骤E,显示基因组中满足查询条件的属性信息。该处理方法根据用户感兴趣的查询条件进行查询并快速显示符合查询条件的属性信息,且操作简单,方便客户自行查询,又能满足客户多样化的查询需求。

权利要求书

权利要求书
1.  一种重测序数据的处理方法,其特征在于,所述处理方法包括:
步骤A,确定基因组的重测序数据的文件路径;
步骤B,使用所述重测序数据的文件路径,从重测序数据库中读取包含所述重测序数据的重测序数据文件;
步骤C,接收用户输入的查询条件,所述查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;
步骤D,根据所述用户输入的查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息;以及
步骤E,显示所述基因组中满足所述查询条件的属性信息。

2.  根据权利要求1所述的处理方法,其特征在于,
在所述变异信息标签为SNP的情况下,所述查询条件至少还包括:与所述SNP对应的至少一个基因区域或至少一种密码子变异类型;
在所述变异信息标签为INDEL的情况下,所述查询条件至少还包括:与所述INDEL对应的至少一个基因区域或者所述INDEL是否存在漂移;
在所述变异信息标签为SV的情况下,所述查询条件至少还包括:与所述SV对应的如下至少一个参数:SV阈值、SV类型和SV大小;
在所述变异信息标签为CNV的情况下,所述查询条件至少还包括:与所述CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小。

3.  根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为SNP的情况下,所述查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用任意一个或多个基因区域对所述第一文件进行筛选,得到与所述一个或多个基因区域相对应的属性信息,所述属性信息为第一数据表;
所述第一数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:对应全基因组注释文件中的行号、SNP变异所在的基因区域、SNP变异类型、SNP变异所在的染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。

4.  根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为SNP的情况下,所述查询条件至少包括如下任意一种或多种密码子变异类型:密码子同义突变、密码子非同义突变、获得终止密码子突变、丧失终止密码子突变,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用任意一种或多种密码子变异类型对所述第一文件进行筛选,得到与所述一种或多种密码子变异类型相对应的属性信息,所述属性信息为第二数据表;
所述第二数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在的基因区域、SNP变异位置对应的基因名称、SNP变异所在的染色体的编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。

5.  根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为INDEL的情况下,所述查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用任意一个或多个基因区域对所述第一文件进行筛选,得到与所述一个或多个基因区域相对应的属性信息,所述属性信息为第三数据表;
所述第三数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异所在的基因区域、INDEL变异位置对应的基因名称、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。

6.  根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为INDEL的情况下,所述查询条件至少包括所述INDEL是否存在漂移,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用所述INDEL是否存在漂移对所述第一文件进行筛选,得到与所述INDL是否存在漂移相对应的属性信息,所述属性信息为第四数据表;
所述第四数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异对应于全基因组注释文件中的行号、INDEL所在的基因区域、INDEL变异信息、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。

7.  根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为SV的情况下,所述查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小;其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用任意一个或多个参数对所述第一文件进行筛选,得到与所述参数相对应的属性信息,所述属性信息为第五数据表;
所述第五数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、比对在第一位置上的含有SV序列的正负链的第一信息、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比对在第二位置上的含有SV序列的正负链的第二信息、SV变异类型、SV变异长度、SV变异检测的分数、支持所述SV变异的双端测序序列的数目、支持所述SV变异的双端测序序列的文件来源、SV所在基因的等位基因的估算频率和SV变异位置的基因名称。

8.  根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为CNV的情况下,所述查询条件至少还包括如下任意一种或几种参数:CNV阈值、CNV类型和CNV大小;其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:
利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;
利用任意一个或多个参数对所述第一文件进行筛选,得到与所述参数对应的属性信息,所述属性信息为第六数据表;
所述第六数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:CNV变异所在的基因区域、CNV变异位置的基因名称、CNV变异所在的染色体编号、CNV变异的起始位置、CNV变异的终止位置和CNV变异类型。

9.  根据权利要求1所述的处理方法,其特征在于,在确定基因组的重测序数据的文件路径之后,所述处理方法还包括:
判断所述基因组的重测序数据的文件路径是否有效,其中,在所述基因组的重测序 数据的文件路径有效的情况下,执行读取包含所述重测序数据的重测序数据文件的步骤,否则,重新确定有效的文件路径或者结束处理流程。

10.  根据权利要求1所述的处理方法,其特征在于,在所述查询条件包括基因名称和至少两个样本的变异信息标签,或者,所述查询条件包括染色体区间和至少两个样本的变异信息标签的情况下,在从重测序数据库中读取包含所述重测序数据的重测序数据文件之后,所述处理方法还包括:
读取接收到的用于处理所述重测序数据文件的处理指令,所述处理指令包括:查询指令和比对指令;
在所述处理指令为所述比对指令的情况下,通过每个样本执行上述步骤C和步骤D,来获取所述每个样本在所述基因组中满足所述查询条件的属性信息;
比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果。

11.  根据权利要求10所述的处理方法,其特征在于,比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果的步骤包括:
在所述变异信息标签为SNP的情况下,比对任意两个样本在所述基因组中满足与所述SNP对应的至少一个基因区域或至少一种密码子变异类型相对应的属性信息,生成SNP比对结果,所述SNP比对结果为第七数据表,所述第七数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SNP变异所在染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型和检测样本中SNP所在基因的基因型;
在所述变异信息标签为INDEL的情况下,比对任意两个样本在所述基因组中满足与所述INDEL对应的至少一个基因区域或者所述INDEL是否存在漂移相对应的属性信息,生成INDEL比对结果,所述比对结果为第八数据表,所述第八数据表包括多个数据列,每个所述数据列用于表征如下之一的数据属性中的一种:INDEL变异所在染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型和检测样本中INDEL所在基因的基因型;
在所述变异信息标签为SV的情况下,比对任意两个样本在所述基因组中满足与所述SV对应的如下至少一个参数:SV阈值、SV类型和SV大小,所述比对结果为第九数据表,所述第九数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比较样本的SV变异类型和比较样本的SV变异位置的基因名称;
在所述变异信息标签为CNV的情况下,比对任意两个样本在所述基因组中满足与所述CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小,所述比对结果为第十数据表,所述第十数据表包括多个数据列,每个所述数据列用于表征如下数据属 性中的一种:CNV变异所在染色体编号、CNV变异的起始位置、CNV变异的终止位置、比较样本的CNV变异类型和比较样本的CNV变异位置的基因名称。

12.  一种重测序数据的处理装置,其特征在于,所述处理装置包括:
路径模块,用于确定基因组的重测序数据的文件路径;
文件读取模块,用于使用所述重测序数据的文件路径,从重测序数据库中读取包含所述重测序数据的重测序数据文件;
接收模块,用于接收用户输入的查询条件,所述查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;
查询模块,用于根据所述用户输入的查询条件对所述重测序数据文件进行查询,以获取所述基因组中满足所述查询条件的属性信息;以及
显示模块,用于显示所述基因组中满足所述查询条件的属性信息。

13.  根据权利要求12所述的处理装置,其特征在于,在执行所述路径模块之后,所述处理装置还包括:
判断模块,用于判断所述基因组的重测序数据的文件路径是否有效;
第一处理模块,用于在所述基因组的重测序数据的文件路径有效的情况下,执行读取包含所述重测序数据的重测序数据文件的步骤;
第二处理模块,用于在所述基因组的重测序数据的文件路径无效的情况下,重新确定有效的文件路径或者结束处理流程。

14.  根据权利要求12所述的处理装置,其特征在于,在所述接收模块接收到的所述查询条件包括:基因名称和至少两个样本的变异信息标签,或者,所述查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行所述文件读取模块后,所述处理装置还包括:
指令读取模块:用于读取接收到的用于处理所述重测序数据文件的处理指令,所述处理指令包括:查询指令和比对指令;以及
比对模块,用于比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果。

说明书

说明书重测序数据的处理方法和处理装置
技术领域
本发明涉及高通量测序数据的处理领域,具体而言,涉及一种重测序数据的处理方法和处理装置。
背景技术
随着高通量测序技术的发展,基因测序的成本和效率分别大幅降低和提高,越来越多的科研项目通过高通量测序的方法研究基因相关的课题。基因测序领域还没专门针对重测序结果进行个性化查询的软件,是一个很大的空缺。
在得到海量测序数据后,对其进行有效筛选和显示的软件很少,且功能不全,针对性不强。例如DNAStar软件,该软件由EditSeq MegAlign、GeneQuest MapDraw PrimerSelect Protean SeqMan II七个模块组成,功能主要有:序列的格式转换,序列拼接和重叠克隆群的处理;基因寻找;蛋白质结构域的查找;多重序列的比较和两两序列比较;寡核苷酸设计(PCR引物,测序引物,探针)。这样的生物学辅助软件,无法让科研工作者进行根据自己的需要对样本以及样本间进行更多样化的查询或比较,如果想获取这些信息还需要专门的机构进行分析,费时费力,成本较高,而且受限于技术、思路、沟通等因素,不一定能得到科研人员期望的结果。
针对现有技术中在对重测序数据处理时,客户操作难度大且处理操作功能单一,从而导致客户无法按照自己的需求或兴趣对该重测序数据进行自行处理的问题,目前尚未提出有效的解决方案。
发明内容
针对现有技术中在对重测序数据处理时,客户操作难度大且处理操作功能单一,从而导致客户无法按照自己的需求或兴趣对该重测序数据进行自行处理的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种重测序数据的处理方法和装置,以满足客户对重测序数据的多样化处理需求。
为了实现上述目的,根据本发明的一个方面,提供了一种重测序数据的处理方法,该处理方法包括:步骤A,确定基因组的重测序数据的文件路径;步骤B,使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;步骤C,接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;步骤D,根据用户输入的查询条件从重测 序数据文件中进行查询,获取基因组中满足查询条件的属性信息;以及步骤E,显示基因组中满足查询条件的属性信息。
进一步地,在变异信息标签为SNP的情况下,查询条件至少还包括:与SNP对应的至少一个基因区域或至少一种密码子变异类型;在变异信息标签为INDEL的情况下,查询条件至少还包括:与INDEL对应的至少一个基因区域或者INDEL是否存在漂移;在变异信息标签为SV的情况下,查询条件至少还包括:与SV对应的如下至少一个参数:SV阈值、SV类型和SV大小;在变异信息标签为CNV的情况下,查询条件至少还包括:与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小。
进一步地,在变异信息标签为SNP的情况下,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第一数据表;第一数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:对应全基因组注释文件中的行号、SNP变异所在的基因区域、SNP变异类型、SNP变异所在的染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。
进一步地,在变异信息标签为SNP的情况下,查询条件至少包括如下任意一种或多种密码子变异类型:密码子同义突变、密码子非同义突变、获得终止密码子突变、丧失终止密码子突变,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一种或多种密码子变异类型对第一文件进行筛选,得到与一种或多种密码子变异类型相对应的属性信息,属性信息为第二数据表;第二数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在的基因区域、SNP变异位置对应的基因名称、SNP变异所在的染色体的编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。
进一步地,在变异信息标签为INDEL的情况下,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多 个基因区域相对应的属性信息,属性信息为第三数据表;第三数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异所在的基因区域、INDEL变异位置对应的基因名称、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。
进一步地,在变异信息标签为INDEL的情况下,查询条件至少包括INDEL是否存在漂移,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用INDEL是否存在漂移对第一文件进行筛选,得到与INDL是否存在漂移相对应的属性信息,属性信息为第四数据表;第四数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异对应于全基因组注释文件中的行号、INDEL所在的基因区域、INDEL变异信息、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。
进一步地,在变异信息标签为SV的情况下,查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数相对应的属性信息,属性信息为第五数据表;第五数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、比对在第一位置上的含有SV序列的正负链的第一信息、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比对在第二位置上的含有SV序列的正负链的第二信息、SV变异类型、SV变异长度、SV变异检测的分数、支持SV变异的双端测序序列的数目、支持SV变异的双端测序序列的文件来源、SV所在基因的等位基因的估算频率和SV变异位置的基因名称。
进一步地,在变异信息标签为CNV的情况下,查询条件至少还包括如下任意一种或几种参数:CNV阈值、CNV类型和CNV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数对应的属性信息,属性信息为第六数据表;第六数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在的基因区域、CNV变异位置的基因名称、CNV变异所在的染色体编号、CNV变异的起始位置、CNV变异的终止位置和CNV变异类型。
进一步地,在确定基因组的重测序数据的文件路径之后,处理方法还包括:判断基因组的重测序数据的文件路径是否有效,其中,在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤,否则,重新确定有效的文件路径或者结束处理流程。
进一步地,在查询条件包括基因名称和至少两个样本的变异信息标签,或者,查询条件包括染色体区间和至少两个样本的变异信息标签的情况下,在从重测序数据库中读取包含重测序数据的重测序数据文件之后,处理方法还包括:读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;在处理指令为比对指令的情况下,通过每个样本执行上述步骤C和步骤D,来获取每个样本在基因组中满足查询条件的属性信息;比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。
进一步地,比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果的步骤包括:在变异信息标签为SNP的情况下,比对任意两个样本在基因组中满足与SNP对应的至少一个基因区域或至少一种密码子变异类型相对应的属性信息,生成SNP比对结果,SNP比对结果为第七数据表,第七数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型和检测样本中SNP所在基因的基因型;在变异信息标签为INDEL的情况下,比对任意两个样本在基因组中满足与INDEL对应的至少一个基因区域或者INDEL是否存在漂移相对应的属性信息,生成INDEL比对结果,比对结果为第八数据表,第八数据表包括多个数据列,每个数据列用于表征如下之一的数据属性中的一种:INDEL变异所在染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型和检测样本中INDEL所在基因的基因型;在变异信息标签为SV的情况下,比对任意两个样本在基因组中满足与SV对应的如下至少一个参数:SV阈值、SV类型和SV大小,比对结果为第九数据表,第九数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比较样本的SV变异类型和比较样本的SV变异位置的基因名称;在变异信息标签为CNV的情况下,比对任意两个样本在基因组中满足与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小,比对结果为第十数据表,第十数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在染色体编号、CNV变异的起始位置、CNV变异的终止位置、比较样本的CNV变异类型和比较样本的CNV变异位置的基因名称。
根据本发明的另一方面,提供了一种重测序数据的处理装置,该处理装置包括:路径模块,用于确定基因组的重测序数据的文件路径;文件读取模块,用于使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;接收模块, 用于接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;查询模块,用于根据用户输入的查询条件从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;以及显示模块,用于显示基因组中满足查询条件的属性信息。
进一步地,在执行路径模块之后,处理装置还包括:判断模块,用于判断基因组的重测序数据的文件路径是否有效;第一处理模块,用于在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤;第二处理模块,用于在基因组的重测序数据的文件路径无效的情况下,重新确定有效的文件路径或者结束处理流程。
进一步地,在接收模块接收到的查询条件包括:基因名称和至少两个样本的变异信息标签,或者,查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行文件读取模块后,处理装置还包括:指令读取模块:用于读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;以及比对模块,用于比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。
应用本发明的技术方案,通过确定基因组的重测序数据的文件路径,然后按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,接收用户输入的查询条件,根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后将基因组中满足查询条件的属性信息显示出来。本发明的处理方法,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理方法对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的实施例的重测序数据处理装置的结构示意图;
图2示出了根据本发明的实施例的重测序数据处理方法的流程图;
图3示出了根据本发明的实施例的重测序数据处理方法的详细流程图;以及
图4示出了根据图2所示的实施例中查询条件包括SNP信息标签情况下的重测序数据处理方法的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
在本发明中,SNP(single nucleotide polymorphism)代表单核苷酸多态性;INDEL(insert and deletion)代表插入缺失;SV(structure variation)代表结构变异;CNV(copy number variation)代表拷贝数异常;PE reads(pair-end reads)双端测序的序列;上述词语均为本领域的常规术语。剪接体区域是指将真核RNA的内含子除去,将外显子连接起来形成具有连续的编码序列的mRNA分子。
图1是根据本发明实施例的重测序数据的处理装置的结构示意图。如图1所示,该处理装置包括:路径模块,用于确定基因组的重测序数据的文件路径;文件读取模块,用于使用重测序数据的文件路径;接收模块,用于接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;查询模块,用于根据用户输入的查询条件从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;显示模块,用于显示基因组中满足查询条件的属性信息。
采用本发明的重测序数据的处理装置,通过路径模块确定基因组的重测序数据的文件路径,然后文件读取模块按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,之后接收模块接收用户输入的查询条件,查询模块根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后显示模块将基因组中满足查询条件的属性信息显示出来。本发明的处理装置,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理装置对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。
具体地,基因名称可以是一个或多个,当基因名称是多个时,每行一个。染色体区间可以是某条染色体的编号,也可以是该染色体编号下对应的物理位置区间,比如:3号染色体或者3号染色体上的35687bp至61235bp。变异信息标签包括基因组上各种可能的变异情况,包括SNP(单核苷酸多态性)、INDEL(插入缺失)、SV(结构变异)以及CNV(拷贝数变异)。
根据本发明的上述实施例,在执行路径模块之后,处理装置还包括:判断模块,用于判断基因组的重测序数据的文件路径是否有效;第一处理模块,用于在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤;第二处理模块,用于在基因组的重测序数据的文件路径无效的情况下,重新确定有效的文件路径或者结束处理流程。
上述实施例中,判断模块能够判断待处理的基因组的重测序数据的文件路径是否有效,若在确定基因组的重测序数据的文件路径有效的情况下,则通过第一处理模块执行读取包含重测序数据的重测序数据文件的步骤;若在确定重测序数据的文件路径无效的情况下,则通过第二处理模块重新确定有效的文件路径或者结束处理流程。
其中,判断模块通过检测需要处理的基因组的重测序数据的文件是否存在于重测序数据库中,来确定需要处理的基因组的重测序数据的文件路径是否有效。
在本发明的上述实施例中,在接收模块接收到的查询条件包括:基因名称和至少两个样本的变异信息标签,或者,查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行接收模块后,处理装置还包括:指令读取模块:用于读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;以及比对模块,用于比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。
其中,当接受模块接收的查询条件包括基因名称和至少两个样本的变异信息标签,或者,查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行接收模块后,通过指令读取模块读取接收到用于处理重测序数据文件的处理指令,处理指令包括查询指令和比对指令;然后查询模块根据查询指令从基因组的重测序数据文件中查询并获得满足接受模块中的查询条件的属性信息;最后比对模块根据比对指令,通过比对查询模块获得的基因组中满足查询条件的属性信息,比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果通过显示模块进行显示。
图2是根据本发明实施例的重测序数据的处理方法的流程图。图3是根据本发明实施例的重测序数据的处理方法的详细流程图。如图2和图3所示,该处理方法包括如下步骤:
步骤A,确定基因组的重测序数据的文件路径;
步骤B,使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;
步骤C,接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;
具体地,基因名称可以是一个或多个,当基因名称是多个时,每行一个。染色体区间可以是某条染色体的编号,也可以是该染色体编号下对应的物理位置区间,比如:3号染色体或者3号染色体上的35687bp至61235bp。变异信息标签包括基因组上各种可能的变异情况,包括SNP(单核苷酸多态性)、INDEL(插入缺失)、SV(结构变异)以及CNV(拷贝数变异)。
步骤D,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息;
步骤E,显示基因组中满足查询条件的属性信息。
采用本发明的重测序数据的处理方法,通过确定基因组的重测序数据的文件路径,然后按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,接收用户输入的查询条件,根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后将基因组中满足查询条件的属性信息显示出来。本发明的处理方法,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理方法对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。
在上述实施例中,当接收到的查询条件仅为基因名称时,本发明的上述处理方法能够显示重测序数据文件中与该基因名称相对应的所有属性信息,比如基因ID号、所在的染色体编号、基因序列、基因的外显子区域、基因内含子区域、上下游区域、基因的SNP变异、INDEL变异、SV变异、CNV变异以及各种变异发生的具体位置等详细信息。当接收到的查询条件仅为染色体区间时,上述处理方法能够显示重测序数据文件中与该染色体区间相对应的所有属性信息。当接收到的查询条件仅为染色体而未选择区间时,查询条件默认为是整条染色体,上述处理方法能够显示重测序数据文件中与该条染色体相对应的所有属性信息。当接收到的查询条件为基因名称和染色体区间时,在基因名称在该染色体区间上或者该染色体区间属于该基因上的序列一部分的情况下,上述处理方法显示与对应基因的相应染色体区间上的所有属性信息,或者,显示与对应染色体区间内的与查询的基因名称相对应的基因的所有属性信息。当接收到的查询条件是基因名称与变异信息标签时,上述处理方法能够显示基因组中与基因名称相对应的变异信息的相关属性信息。当接收到的查询条件是染色体区间与变异信息标签时,上述处理方法能够显示基因组中与染色体区间相对应的变异信息的相关属性信息。
根据变异信息标签的不同,上述实施例中接受到的用户输入的查询条件也各不相同。在实际处理过程中,具体的查询条件可根据变异信息标签的不同进行合理调整。在本发明一种优选的实施例中,在变异信息标签为SNP的情况下,查询条件至少还包括:与SNP对应的至少一个基因区域或至少一种密码子变异类型;在变异信息标签为INDEL的情况下,查询条件至少还包括:与INDEL对应的至少一个基因区域或者INDEL是否存在漂移;在变异信息标签为SV的情况下,查询条件至少还包括:与SV对应的如下至少一个参数:SV阈值、SV类型和SV大小;在变异信息标签为CNV的情况下,查询条件至少还包括:与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小。
上述优选的实施例中,根据SNP、INDEL、SV以及CNV各种变异信息标签的不同,进一步根据用户自己感兴趣的各种变异信息所具有的详细特点或出于研究目的不同而对不同的变异信息进行查询而设置的查询条件,通过上述更详细的查询条件能够从测序 数据文件中获取并显示符合客户要求基因组中的各变异信息的属性信息,满足客户多样化需求。
在上述优选实施例中,根据变异信息标签的不同以及查询条件的不同,具体的查询步骤也不相同。在变异信息标签为SNP的情况下,如图4所示,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第一数据表;第一数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:对应全基因组注释文件中的行号、SNP变异所在的基因区域、SNP变异类型、SNP变异所在的染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。
在变异信息标签为SNP的情况下,查询条件至少包括如下任意一种或多种密码子变异类型:密码子同义突变、密码子非同义突变、获得终止密码子突变、丧失终止密码子突变,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一种或多种密码子变异类型对第一文件进行筛选,得到与一种或多种密码子变异类型相对应的属性信息,属性信息为第二数据表;第二数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在的基因区域、SNP变异位置对应的基因名称、SNP变异所在的染色体的编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。
上述实施例中,当变异信息标签为SNP的情况下,如图4所示,查询条件可以根据客户关注的基因区域的不同或密码子变异信息的不同进行分别查询或同时进行查询,可以获取到满足客户各种查询条件的属性信息。
在变异信息标签为INDEL的情况下,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第三数据表;第三数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异所在的基因区域、INDEL变异位置对应的 基因名称、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。
在变异信息标签为INDEL的情况下,查询条件至少包括INDEL是否存在漂移,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用INDEL是否存在漂移对第一文件进行筛选,得到与INDL是否存在漂移相对应的属性信息,属性信息为第四数据表;第四数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异对应于全基因组注释文件中的行号、INDEL所在的基因区域、INDEL变异信息、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。
上述实施例中,在变异信息标签为SV的情况下,查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数相对应的属性信息,属性信息为第五数据表;第五数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、比对在第一位置上的含有SV序列的正负链的第一信息、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比对在第二位置上的含有SV序列的正负链的第二信息、SV变异类型、SV变异长度、SV变异检测的分数、支持SV变异的双端测序序列的数目、支持SV变异的双端测序序列的文件来源、SV所在基因的等位基因的估算频率和SV变异位置的基因名称。
上述实施例中,在变异信息标签为SV的情况下,查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小,其中,SV阈值包括SV检测的分数以及支持该SV的PE序列数目,具体SV检测的分数以及支持该SV的PE序列数目,用户可以根据不同的研究目的进行合理设置。SV类型包括SV缺失(DEL)、SV插入(INS)、倒置(INV)、染色体内部迁移(ITX)以及染色体间迁移(CTX)。SV大小包括SV的长度。
上述实施例中,在变异信息标签为CNV的情况下,查询条件至少还包括如下任意一种或几种参数:CNV阈值、CNV类型和CNV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数对应的属性信息,属性信息为第六数据表;第六数据表 包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在的基因区域、CNV变异位置的基因名称、CNV变异所在的染色体编号、CNV变异的起始位置、CNV变异的终止位置和CNV变异类型。
上述实施例中,在变异信息标签为CNV的情况下,查询条件至少还包括如下任意一种或几种参数:CNV阈值、CNV类型和CNV大小;其中,CNV阈值用缺失或重复的比例来表示,其中“0”表示完全缺失,“0~1”表示部分缺失,“>1”表示重复值。CNV类型包括CNV重复和CNV缺失。CNV大小表示CNV变异的长度。
根据本发明的上述实施例,在执行步骤A之后,还可以执行图3所示的步骤:判断基因组的重测序数据的文件路径是否有效,其中,在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤,否则,重新确定有效的文件路径或者结束处理流程。
具体地,根据待处理的基因组的重测序数据的文件是否保存在从测序数据库中来确定重测序数据文件路径是否有效。
上述实施例中,当步骤C中接收到的查询条件包括基因名称和至少两个样本的变异信息标签,或者,查询条件包括染色体区间和至少两个样本的变异信息标签的情况下,执行步骤B之后,处理方法还包括:如图3所示,读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;在处理指令为比对指令的情况下,通过每个样本执行上述步骤C和步骤D,来获取每个样本在基因组中满足查询条件的属性信息;然后执行步骤H:比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。
其中,查询条件中包括了至少两个样本的变异信息标签的情况下,上述方法能够接收客户的比对指令,并根据查询条件中的比对样本的变异信息标签和其他查询条件执行上述步骤C和D,得到每个样本在基因组中的满足查询条件的属性信息,接着执行步骤E,对任意两个样本在基因组中满足查询条件的属性信息进行比对,生成比对结果。上述实施例的上述方法还能够实现样本间的基因注释信息、变异位置信息以及变异类型等属性信息的获取和比较。
在上述实施例中,比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果的步骤包括:在变异信息标签为SNP的情况下,比对任意两个样本在基因组中满足与SNP对应的至少一个基因区域或至少一种密码子变异类型相对应的属性信息,生成SNP比对结果,SNP比对结果为第七数据表,第七数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型和检测样本中SNP所在基因的基因型;
在上述实施例中,在变异信息标签为INDEL的情况下,比对任意两个样本在基因组中满足与INDEL对应的至少一个基因区域或者INDEL是否存在漂移相对应的属性信息,生成INDEL比对结果,比对结果为第八数据表,第八数据表包括多个数据列,每个数据列用于表征如下之一的数据属性中的一种:INDEL变异所在染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型和检测样本中INDEL所在基因的基因型;
在上述实施例中,在变异信息标签为SV的情况下,比对任意两个样本在基因组中满足与SV对应的如下至少一个参数:SV阈值、SV类型和SV大小,比对结果为第九数据表,第九数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比较样本的SV变异类型和比较样本的SV变异位置的基因名称;
在上述实施例中,在变异信息标签为CNV的情况下,比对任意两个样本在基因组中满足与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小,比对结果为第十数据表,第十数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在染色体编号、CNV变异的起始位置、CNV变异的终止位置、比较样本的CNV变异类型和比较样本的CNV变异位置的基因名称。
下面结合图3和图4,以水稻基因组重测序数据为例来详细说明本发明的处理方法。首先,执行步骤S101,从重测序数据保存文件夹中获取水稻基因组重测序数据文件的保存路径,即图4所示的项目路径中;然后执行步骤S102,判断基因组的重测序数据的文件路径是否有效,如果读取的水稻基因组重测序数据文件的路径无效,则需要结束处理流程或重新输入水稻重测序数据文件的保存路径;如果读取的水稻基因组重测序数据文件路径有效,则执行步骤103,从重测序数据库中读取水稻基因组重测序数据文件,然后执行步骤S104,读取处理指令,当处理指令为查询指令的情况下,执行步骤S105,选择要查询的任意一个样本,然后执行步骤S106,读取用户输入的要查询的该样本的查询条件,查询条件包括基因名称、染色体区间、变异信息标签以及各变异信息标签内部的筛选条件,接着,执行步骤S107,根据接收到的查询条件,从水稻基因组重测序数据文件中查询满足查询条件的水稻基因组的属性信息,以查询水稻基因组中的SNP变异信息为例,如图4所示,若用户输入的查询条件为:样本1、3号染色体从2523410bp至2528465bp、外显子区域以及非同义密码子突变,则根据上述四个查询条件,对水稻基因组重测序数据文件中进行查询处理,从而获取得到样本1中第3号染色体的2523410bp至2528465bp的染色体区域发生在基因的外显子区域的SNP变异且导致三联体密码子编码的氨基酸发生改变(即密码子非同义突变)的SNP相关的属性信息,最后执行S108,显示出符合上述查询条件的属性信息。
在上述图3中,当步骤S104,读取到的处理指令为比对指令时,步骤S105中接收用户输入的样本至少为两个,步骤S106的查询条件同样为3号染色体从2523410bp至2528465bp、外显子区域以及非同义密码子突变时,对待比对的两个样本执行上述相同的查询指令的步骤,即S107和S108的步骤,得到两个对比样本的各自符合上述条件的所有SNP相关的属性信息,然后再执行比对步骤(图3中未示出),从而得到比对结果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:采用本发明的重测序数据的处理方法和装置,通过确定基因组的重测序数据的文件路径,然后按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,之后接收用户输入的查询条件,根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后将基因组中满足查询条件的属性信息显示出来。本发明的处理方法和装置,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理装置对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

重测序数据的处理方法和处理装置.pdf_第1页
第1页 / 共20页
重测序数据的处理方法和处理装置.pdf_第2页
第2页 / 共20页
重测序数据的处理方法和处理装置.pdf_第3页
第3页 / 共20页
点击查看更多>>
资源描述

《重测序数据的处理方法和处理装置.pdf》由会员分享,可在线阅读,更多相关《重测序数据的处理方法和处理装置.pdf(20页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410613754.4(22)申请日 2014.11.04G06F 17/30(2006.01)G06F 19/00(2011.01)(71)申请人北京诺禾致源生物信息科技有限公司地址 100085 北京市昌平区回龙观镇生命园路29号创新大厦B258室(72)发明人牛青山 曹银川 闫军(74)专利代理机构北京康信知识产权代理有限责任公司 11240代理人吴贵明 张永明(54) 发明名称重测序数据的处理方法和处理装置(57) 摘要本发明公开了一种重测序数据的处理方法和处理装置。该处理方法包括:步骤A,确定基因组的重测序数据的文件路径;。

2、步骤B,使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;步骤C,接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;步骤D,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息;以及步骤E,显示基因组中满足查询条件的属性信息。该处理方法根据用户感兴趣的查询条件进行查询并快速显示符合查询条件的属性信息,且操作简单,方便客户自行查询,又能满足客户多样化的查询需求。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书4页 说明书11页 附图。

3、4页(10)申请公布号 CN 104462211 A(43)申请公布日 2015.03.25CN 104462211 A1/4页21.一种重测序数据的处理方法,其特征在于,所述处理方法包括:步骤A,确定基因组的重测序数据的文件路径;步骤B,使用所述重测序数据的文件路径,从重测序数据库中读取包含所述重测序数据的重测序数据文件;步骤C,接收用户输入的查询条件,所述查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;步骤D,根据所述用户输入的查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息;以及步骤E,显示所述基因组中满足所述。

4、查询条件的属性信息。2.根据权利要求1所述的处理方法,其特征在于,在所述变异信息标签为SNP的情况下,所述查询条件至少还包括:与所述SNP对应的至少一个基因区域或至少一种密码子变异类型;在所述变异信息标签为INDEL的情况下,所述查询条件至少还包括:与所述INDEL对应的至少一个基因区域或者所述INDEL是否存在漂移;在所述变异信息标签为SV的情况下,所述查询条件至少还包括:与所述SV对应的如下至少一个参数:SV阈值、SV类型和SV大小;在所述变异信息标签为CNV的情况下,所述查询条件至少还包括:与所述CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小。3.根据权利要求2所述的处。

5、理方法,其特征在于,在所述变异信息标签为SNP的情况下,所述查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对所述第一文件进行筛选,得到与所述一个或多个基因区域相对应的属性信息,所述属性信息为第一数据表;所述第一数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:对应全基因组注释文件中的行号、SNP变异所。

6、在的基因区域、SNP变异类型、SNP变异所在的染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。4.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为SNP的情况下,所述查询条件至少包括如下任意一种或多种密码子变异类型:密码子同义突变、密码子非同义突变、获得终止密码子突变、丧失终止密码子突变,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包。

7、括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用任意一种或多种密码子变异类型对所述第一文件进行筛选,得到与所述一种或多种密码子变异类型相对应的属性信息,所述属性信息为第二数据表;权 利 要 求 书CN 104462211 A2/4页3所述第二数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在的基因区域、SNP变异位置对应的基因名称、SNP变异所在的染色体的编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深。

8、度和SNP所在测序序列的比对质量。5.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为INDEL的情况下,所述查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对所述第一文件进行筛选,得到与所述一个或多个基因区域相对应的属性信息,所述属性信息为第三数据表;所述第三数据表包括多个数据列,每个数据列用于表征。

9、如下数据属性中的一种:INDEL变异所在的基因区域、INDEL变异位置对应的基因名称、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。6.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为INDEL的情况下,所述查询条件至少包括所述INDEL是否存在漂移,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件。

10、的属性信息的步骤包括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用所述INDEL是否存在漂移对所述第一文件进行筛选,得到与所述INDL是否存在漂移相对应的属性信息,所述属性信息为第四数据表;所述第四数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异对应于全基因组注释文件中的行号、INDEL所在的基因区域、INDEL变异信息、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量。

11、、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。7.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为SV的情况下,所述查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小;其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用任意一个或多个参数对所述第一文件进行筛选,得到与所述参数相对应的属性信息,所述属性信息为第五数据表;所述第五数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SV变异所在。

12、的第一染色体的编号、SV变异所在的第一染色体的第一位置、比对在第一位置权 利 要 求 书CN 104462211 A3/4页4上的含有SV序列的正负链的第一信息、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比对在第二位置上的含有SV序列的正负链的第二信息、SV变异类型、SV变异长度、SV变异检测的分数、支持所述SV变异的双端测序序列的数目、支持所述SV变异的双端测序序列的文件来源、SV所在基因的等位基因的估算频率和SV变异位置的基因名称。8.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为CNV的情况下,所述查询条件至少还包括如下任意一种或几种参数:CNV。

13、阈值、CNV类型和CNV大小;其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用任意一个或多个参数对所述第一文件进行筛选,得到与所述参数对应的属性信息,所述属性信息为第六数据表;所述第六数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:CNV变异所在的基因区域、CNV变异位置的基因名称、CNV变异所在的染色体编号、CNV变异的起始位置、CNV变异的终止位置和CNV变异类型。9.根据权利要求1所述的处理方法,其特征在于,在确定基因组的重。

14、测序数据的文件路径之后,所述处理方法还包括:判断所述基因组的重测序数据的文件路径是否有效,其中,在所述基因组的重测序数据的文件路径有效的情况下,执行读取包含所述重测序数据的重测序数据文件的步骤,否则,重新确定有效的文件路径或者结束处理流程。10.根据权利要求1所述的处理方法,其特征在于,在所述查询条件包括基因名称和至少两个样本的变异信息标签,或者,所述查询条件包括染色体区间和至少两个样本的变异信息标签的情况下,在从重测序数据库中读取包含所述重测序数据的重测序数据文件之后,所述处理方法还包括:读取接收到的用于处理所述重测序数据文件的处理指令,所述处理指令包括:查询指令和比对指令;在所述处理指令为。

15、所述比对指令的情况下,通过每个样本执行上述步骤C和步骤D,来获取所述每个样本在所述基因组中满足所述查询条件的属性信息;比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果。11.根据权利要求10所述的处理方法,其特征在于,比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果的步骤包括:在所述变异信息标签为SNP的情况下,比对任意两个样本在所述基因组中满足与所述SNP对应的至少一个基因区域或至少一种密码子变异类型相对应的属性信息,生成SNP比对结果,所述SNP比对结果为第七数据表,所述第七数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SNP。

16、变异所在染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型和检测样本中SNP所在基因的基因型;在所述变异信息标签为INDEL的情况下,比对任意两个样本在所述基因组中满足与所述INDEL对应的至少一个基因区域或者所述INDEL是否存在漂移相对应的属性信息,生成权 利 要 求 书CN 104462211 A4/4页5INDEL比对结果,所述比对结果为第八数据表,所述第八数据表包括多个数据列,每个所述数据列用于表征如下之一的数据属性中的一种:INDEL变异所在染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL。

17、对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型和检测样本中INDEL所在基因的基因型;在所述变异信息标签为SV的情况下,比对任意两个样本在所述基因组中满足与所述SV对应的如下至少一个参数:SV阈值、SV类型和SV大小,所述比对结果为第九数据表,所述第九数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比较样本的SV变异类型和比较样本的SV变异位置的基因名称;在所述变异信息标签为CNV的情况下,比对任意两个样本在所述基因组中满足与所。

18、述CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小,所述比对结果为第十数据表,所述第十数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:CNV变异所在染色体编号、CNV变异的起始位置、CNV变异的终止位置、比较样本的CNV变异类型和比较样本的CNV变异位置的基因名称。12.一种重测序数据的处理装置,其特征在于,所述处理装置包括:路径模块,用于确定基因组的重测序数据的文件路径;文件读取模块,用于使用所述重测序数据的文件路径,从重测序数据库中读取包含所述重测序数据的重测序数据文件;接收模块,用于接收用户输入的查询条件,所述查询条件至少包括如下任意一种或多种条件:基因。

19、名称、染色体区间以及至少一个样本的变异信息标签;查询模块,用于根据所述用户输入的查询条件对所述重测序数据文件进行查询,以获取所述基因组中满足所述查询条件的属性信息;以及显示模块,用于显示所述基因组中满足所述查询条件的属性信息。13.根据权利要求12所述的处理装置,其特征在于,在执行所述路径模块之后,所述处理装置还包括:判断模块,用于判断所述基因组的重测序数据的文件路径是否有效;第一处理模块,用于在所述基因组的重测序数据的文件路径有效的情况下,执行读取包含所述重测序数据的重测序数据文件的步骤;第二处理模块,用于在所述基因组的重测序数据的文件路径无效的情况下,重新确定有效的文件路径或者结束处理流程。

20、。14.根据权利要求12所述的处理装置,其特征在于,在所述接收模块接收到的所述查询条件包括:基因名称和至少两个样本的变异信息标签,或者,所述查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行所述文件读取模块后,所述处理装置还包括:指令读取模块:用于读取接收到的用于处理所述重测序数据文件的处理指令,所述处理指令包括:查询指令和比对指令;以及比对模块,用于比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果。权 利 要 求 书CN 104462211 A1/11页6重测序数据的处理方法和处理装置技术领域0001 本发明涉及高通量测序数据的处理领域,具体而言,涉及。

21、一种重测序数据的处理方法和处理装置。背景技术0002 随着高通量测序技术的发展,基因测序的成本和效率分别大幅降低和提高,越来越多的科研项目通过高通量测序的方法研究基因相关的课题。基因测序领域还没专门针对重测序结果进行个性化查询的软件,是一个很大的空缺。0003 在得到海量测序数据后,对其进行有效筛选和显示的软件很少,且功能不全,针对性不强。例如DNAStar软件,该软件由EditSeq MegAlign、GeneQuest MapDraw PrimerSelect Protean SeqMan II七个模块组成,功能主要有:序列的格式转换,序列拼接和重叠克隆群的处理;基因寻找;蛋白质结构域的查。

22、找;多重序列的比较和两两序列比较;寡核苷酸设计(PCR引物,测序引物,探针)。这样的生物学辅助软件,无法让科研工作者进行根据自己的需要对样本以及样本间进行更多样化的查询或比较,如果想获取这些信息还需要专门的机构进行分析,费时费力,成本较高,而且受限于技术、思路、沟通等因素,不一定能得到科研人员期望的结果。0004 针对现有技术中在对重测序数据处理时,客户操作难度大且处理操作功能单一,从而导致客户无法按照自己的需求或兴趣对该重测序数据进行自行处理的问题,目前尚未提出有效的解决方案。发明内容0005 针对现有技术中在对重测序数据处理时,客户操作难度大且处理操作功能单一,从而导致客户无法按照自己的需。

23、求或兴趣对该重测序数据进行自行处理的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种重测序数据的处理方法和装置,以满足客户对重测序数据的多样化处理需求。0006 为了实现上述目的,根据本发明的一个方面,提供了一种重测序数据的处理方法,该处理方法包括:步骤A,确定基因组的重测序数据的文件路径;步骤B,使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;步骤C,接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;步骤D,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询。

24、条件的属性信息;以及步骤E,显示基因组中满足查询条件的属性信息。0007 进一步地,在变异信息标签为SNP的情况下,查询条件至少还包括:与SNP对应的至少一个基因区域或至少一种密码子变异类型;在变异信息标签为INDEL的情况下,查询条件至少还包括:与INDEL对应的至少一个基因区域或者INDEL是否存在漂移;在变异信息标签为SV的情况下,查询条件至少还包括:与SV对应的如下至少一个参数:SV阈值、SV说 明 书CN 104462211 A2/11页7类型和SV大小;在变异信息标签为CNV的情况下,查询条件至少还包括:与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小。0008 。

25、进一步地,在变异信息标签为SNP的情况下,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第一数据表;第一数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:对应全基因组注释文件中的行号、SNP变异所在的基因区域、SNP变异类型、SNP变异所在的染色体编号、SNP变。

26、异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。0009 进一步地,在变异信息标签为SNP的情况下,查询条件至少包括如下任意一种或多种密码子变异类型:密码子同义突变、密码子非同义突变、获得终止密码子突变、丧失终止密码子突变,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一种或多种密码子变异类型对第一文件进行筛选,得到与。

27、一种或多种密码子变异类型相对应的属性信息,属性信息为第二数据表;第二数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在的基因区域、SNP变异位置对应的基因名称、SNP变异所在的染色体的编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。0010 进一步地,在变异信息标签为INDEL的情况下,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,。

28、其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第三数据表;第三数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异所在的基因区域、INDEL变异位置对应的基因名称、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、IN。

29、DEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。0011 进一步地,在变异信息标签为INDEL的情况下,查询条件至少包括INDEL是否存在漂移,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用INDEL是否存在漂移对第一文件进行筛选,得到与INDL是否存在漂移相对应的属性信息,属性信息为第四数据表;第四数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异对应于全基因组注释文件中的行号、INDEL所在的基因区域、INDEL变异。

30、信息、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的说 明 书CN 104462211 A3/11页8终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。0012 进一步地,在变异信息标签为SV的情况下,查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件。

31、筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数相对应的属性信息,属性信息为第五数据表;第五数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、比对在第一位置上的含有SV序列的正负链的第一信息、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比对在第二位置上的含有SV序列的正负链的第二信息、SV变异类型、SV变异长度、SV变异检测的分数、支持SV变异的双端测序序列的数目、支持SV变异的双端测序序列的文件来源、SV所在基因的等位基因的估算频率和SV变异位置的基因名称。0013 。

32、进一步地,在变异信息标签为CNV的情况下,查询条件至少还包括如下任意一种或几种参数:CNV阈值、CNV类型和CNV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数对应的属性信息,属性信息为第六数据表;第六数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在的基因区域、CNV变异位置的基因名称、CNV变异所在的染色体编号、CNV变异的起始位置、CNV变异的终止位置和CNV变异类型。0014 进一步地,在确。

33、定基因组的重测序数据的文件路径之后,处理方法还包括:判断基因组的重测序数据的文件路径是否有效,其中,在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤,否则,重新确定有效的文件路径或者结束处理流程。0015 进一步地,在查询条件包括基因名称和至少两个样本的变异信息标签,或者,查询条件包括染色体区间和至少两个样本的变异信息标签的情况下,在从重测序数据库中读取包含重测序数据的重测序数据文件之后,处理方法还包括:读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;在处理指令为比对指令的情况下,通过每个样本执行上述步骤C和步骤D,来获取。

34、每个样本在基因组中满足查询条件的属性信息;比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。0016 进一步地,比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果的步骤包括:在变异信息标签为SNP的情况下,比对任意两个样本在基因组中满足与SNP对应的至少一个基因区域或至少一种密码子变异类型相对应的属性信息,生成SNP比对结果,SNP比对结果为第七数据表,第七数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型和检测样本中SNP所。

35、在基因的基因型;在变异信息标签为INDEL的情况下,比对任意两个样本在基因组中满足与INDEL说 明 书CN 104462211 A4/11页9对应的至少一个基因区域或者INDEL是否存在漂移相对应的属性信息,生成INDEL比对结果,比对结果为第八数据表,第八数据表包括多个数据列,每个数据列用于表征如下之一的数据属性中的一种:INDEL变异所在染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型和检测样本中INDEL所在基因的基因型;在变异信息标签为SV的情况下,比对任意两个样本在基因组中满足与SV对应的如下至少。

36、一个参数:SV阈值、SV类型和SV大小,比对结果为第九数据表,第九数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比较样本的SV变异类型和比较样本的SV变异位置的基因名称;在变异信息标签为CNV的情况下,比对任意两个样本在基因组中满足与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小,比对结果为第十数据表,第十数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在染色体编号、CNV变异的起始位置、CNV变异的。

37、终止位置、比较样本的CNV变异类型和比较样本的CNV变异位置的基因名称。0017 根据本发明的另一方面,提供了一种重测序数据的处理装置,该处理装置包括:路径模块,用于确定基因组的重测序数据的文件路径;文件读取模块,用于使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;接收模块,用于接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;查询模块,用于根据用户输入的查询条件从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;以及显示模块,用于显示基因组中满足查询条件的属性信息。0018 进一步地。

38、,在执行路径模块之后,处理装置还包括:判断模块,用于判断基因组的重测序数据的文件路径是否有效;第一处理模块,用于在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤;第二处理模块,用于在基因组的重测序数据的文件路径无效的情况下,重新确定有效的文件路径或者结束处理流程。0019 进一步地,在接收模块接收到的查询条件包括:基因名称和至少两个样本的变异信息标签,或者,查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行文件读取模块后,处理装置还包括:指令读取模块:用于读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;以。

39、及比对模块,用于比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。0020 应用本发明的技术方案,通过确定基因组的重测序数据的文件路径,然后按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,接收用户输入的查询条件,根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后将基因组中满足查询条件的属性信息显示出来。本发明的处理方法,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理方。

40、法对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。说 明 书CN 104462211 A5/11页10附图说明0021 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:0022 图1示出了根据本发明的实施例的重测序数据处理装置的结构示意图;0023 图2示出了根据本发明的实施例的重测序数据处理方法的流程图;0024 图3示出了根据本发明的实施例的重测序数据处理方法的详细流程图;以及0025 图4示出了根据图2所示的实施例中查询条件包括SNP信息标签情况下的重测序数据处理方。

41、法的示意图。具体实施方式0026 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。0027 在本发明中,SNP(single nucleotide polymorphism)代表单核苷酸多态性;INDEL(insert and deletion)代表插入缺失;SV(structure variation)代表结构变异;CNV(copy number variation)代表拷贝数异常;PE reads(pair-end reads)双端测序的序列;上述词语均为本领域的常规术语。剪接体区域是指将真核RNA的内含子除去,将外。

42、显子连接起来形成具有连续的编码序列的mRNA分子。0028 图1是根据本发明实施例的重测序数据的处理装置的结构示意图。如图1所示,该处理装置包括:路径模块,用于确定基因组的重测序数据的文件路径;文件读取模块,用于使用重测序数据的文件路径;接收模块,用于接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;查询模块,用于根据用户输入的查询条件从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;显示模块,用于显示基因组中满足查询条件的属性信息。0029 采用本发明的重测序数据的处理装置,通过路径模块确定基因组的重测序数据的。

43、文件路径,然后文件读取模块按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,之后接收模块接收用户输入的查询条件,查询模块根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后显示模块将基因组中满足查询条件的属性信息显示出来。本发明的处理装置,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理装置对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。0030 具体地,基因名称可以是一个或多个,当基因名称是多个时,每行一个。染色体区间可以是某条染色体的编号,也可以是该染色体编号下对应的物理位置区间,比如:3号染色体或者3号染色体上的35687bp至61235bp。变异信息标签包括基因组上各种可能的变异情况,包括SNP(单核苷酸多态性)、INDEL(插入缺失)、SV(结构变异)以及CNV(拷贝数变异)。0031 根据本发明的上述实施例,在执行路径模块之后,处理装置还包括:判断模块,用说 明 书CN 104462211 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1