《重测序数据的处理方法和处理装置.pdf》由会员分享,可在线阅读,更多相关《重测序数据的处理方法和处理装置.pdf(20页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410613754.4(22)申请日 2014.11.04G06F 17/30(2006.01)G06F 19/00(2011.01)(71)申请人北京诺禾致源生物信息科技有限公司地址 100085 北京市昌平区回龙观镇生命园路29号创新大厦B258室(72)发明人牛青山 曹银川 闫军(74)专利代理机构北京康信知识产权代理有限责任公司 11240代理人吴贵明 张永明(54) 发明名称重测序数据的处理方法和处理装置(57) 摘要本发明公开了一种重测序数据的处理方法和处理装置。该处理方法包括:步骤A,确定基因组的重测序数据的文件路径;。
2、步骤B,使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;步骤C,接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;步骤D,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息;以及步骤E,显示基因组中满足查询条件的属性信息。该处理方法根据用户感兴趣的查询条件进行查询并快速显示符合查询条件的属性信息,且操作简单,方便客户自行查询,又能满足客户多样化的查询需求。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书4页 说明书11页 附图。
3、4页(10)申请公布号 CN 104462211 A(43)申请公布日 2015.03.25CN 104462211 A1/4页21.一种重测序数据的处理方法,其特征在于,所述处理方法包括:步骤A,确定基因组的重测序数据的文件路径;步骤B,使用所述重测序数据的文件路径,从重测序数据库中读取包含所述重测序数据的重测序数据文件;步骤C,接收用户输入的查询条件,所述查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;步骤D,根据所述用户输入的查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息;以及步骤E,显示所述基因组中满足所述。
4、查询条件的属性信息。2.根据权利要求1所述的处理方法,其特征在于,在所述变异信息标签为SNP的情况下,所述查询条件至少还包括:与所述SNP对应的至少一个基因区域或至少一种密码子变异类型;在所述变异信息标签为INDEL的情况下,所述查询条件至少还包括:与所述INDEL对应的至少一个基因区域或者所述INDEL是否存在漂移;在所述变异信息标签为SV的情况下,所述查询条件至少还包括:与所述SV对应的如下至少一个参数:SV阈值、SV类型和SV大小;在所述变异信息标签为CNV的情况下,所述查询条件至少还包括:与所述CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小。3.根据权利要求2所述的处。
5、理方法,其特征在于,在所述变异信息标签为SNP的情况下,所述查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对所述第一文件进行筛选,得到与所述一个或多个基因区域相对应的属性信息,所述属性信息为第一数据表;所述第一数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:对应全基因组注释文件中的行号、SNP变异所。
6、在的基因区域、SNP变异类型、SNP变异所在的染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。4.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为SNP的情况下,所述查询条件至少包括如下任意一种或多种密码子变异类型:密码子同义突变、密码子非同义突变、获得终止密码子突变、丧失终止密码子突变,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包。
7、括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用任意一种或多种密码子变异类型对所述第一文件进行筛选,得到与所述一种或多种密码子变异类型相对应的属性信息,所述属性信息为第二数据表;权 利 要 求 书CN 104462211 A2/4页3所述第二数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在的基因区域、SNP变异位置对应的基因名称、SNP变异所在的染色体的编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深。
8、度和SNP所在测序序列的比对质量。5.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为INDEL的情况下,所述查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对所述第一文件进行筛选,得到与所述一个或多个基因区域相对应的属性信息,所述属性信息为第三数据表;所述第三数据表包括多个数据列,每个数据列用于表征。
9、如下数据属性中的一种:INDEL变异所在的基因区域、INDEL变异位置对应的基因名称、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。6.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为INDEL的情况下,所述查询条件至少包括所述INDEL是否存在漂移,其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件。
10、的属性信息的步骤包括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用所述INDEL是否存在漂移对所述第一文件进行筛选,得到与所述INDL是否存在漂移相对应的属性信息,所述属性信息为第四数据表;所述第四数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异对应于全基因组注释文件中的行号、INDEL所在的基因区域、INDEL变异信息、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量。
11、、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。7.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为SV的情况下,所述查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小;其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用任意一个或多个参数对所述第一文件进行筛选,得到与所述参数相对应的属性信息,所述属性信息为第五数据表;所述第五数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SV变异所在。
12、的第一染色体的编号、SV变异所在的第一染色体的第一位置、比对在第一位置权 利 要 求 书CN 104462211 A3/4页4上的含有SV序列的正负链的第一信息、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比对在第二位置上的含有SV序列的正负链的第二信息、SV变异类型、SV变异长度、SV变异检测的分数、支持所述SV变异的双端测序序列的数目、支持所述SV变异的双端测序序列的文件来源、SV所在基因的等位基因的估算频率和SV变异位置的基因名称。8.根据权利要求2所述的处理方法,其特征在于,在所述变异信息标签为CNV的情况下,所述查询条件至少还包括如下任意一种或几种参数:CNV。
13、阈值、CNV类型和CNV大小;其中,根据所述用户输入的所述查询条件从所述重测序数据文件中进行查询,获取所述基因组中满足所述查询条件的属性信息的步骤包括:利用所述基因名称或所述染色体区间从所述重测序数据文件筛选得到第一文件;利用任意一个或多个参数对所述第一文件进行筛选,得到与所述参数对应的属性信息,所述属性信息为第六数据表;所述第六数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:CNV变异所在的基因区域、CNV变异位置的基因名称、CNV变异所在的染色体编号、CNV变异的起始位置、CNV变异的终止位置和CNV变异类型。9.根据权利要求1所述的处理方法,其特征在于,在确定基因组的重。
14、测序数据的文件路径之后,所述处理方法还包括:判断所述基因组的重测序数据的文件路径是否有效,其中,在所述基因组的重测序数据的文件路径有效的情况下,执行读取包含所述重测序数据的重测序数据文件的步骤,否则,重新确定有效的文件路径或者结束处理流程。10.根据权利要求1所述的处理方法,其特征在于,在所述查询条件包括基因名称和至少两个样本的变异信息标签,或者,所述查询条件包括染色体区间和至少两个样本的变异信息标签的情况下,在从重测序数据库中读取包含所述重测序数据的重测序数据文件之后,所述处理方法还包括:读取接收到的用于处理所述重测序数据文件的处理指令,所述处理指令包括:查询指令和比对指令;在所述处理指令为。
15、所述比对指令的情况下,通过每个样本执行上述步骤C和步骤D,来获取所述每个样本在所述基因组中满足所述查询条件的属性信息;比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果。11.根据权利要求10所述的处理方法,其特征在于,比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果的步骤包括:在所述变异信息标签为SNP的情况下,比对任意两个样本在所述基因组中满足与所述SNP对应的至少一个基因区域或至少一种密码子变异类型相对应的属性信息,生成SNP比对结果,所述SNP比对结果为第七数据表,所述第七数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SNP。
16、变异所在染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型和检测样本中SNP所在基因的基因型;在所述变异信息标签为INDEL的情况下,比对任意两个样本在所述基因组中满足与所述INDEL对应的至少一个基因区域或者所述INDEL是否存在漂移相对应的属性信息,生成权 利 要 求 书CN 104462211 A4/4页5INDEL比对结果,所述比对结果为第八数据表,所述第八数据表包括多个数据列,每个所述数据列用于表征如下之一的数据属性中的一种:INDEL变异所在染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL。
17、对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型和检测样本中INDEL所在基因的基因型;在所述变异信息标签为SV的情况下,比对任意两个样本在所述基因组中满足与所述SV对应的如下至少一个参数:SV阈值、SV类型和SV大小,所述比对结果为第九数据表,所述第九数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比较样本的SV变异类型和比较样本的SV变异位置的基因名称;在所述变异信息标签为CNV的情况下,比对任意两个样本在所述基因组中满足与所。
18、述CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小,所述比对结果为第十数据表,所述第十数据表包括多个数据列,每个所述数据列用于表征如下数据属性中的一种:CNV变异所在染色体编号、CNV变异的起始位置、CNV变异的终止位置、比较样本的CNV变异类型和比较样本的CNV变异位置的基因名称。12.一种重测序数据的处理装置,其特征在于,所述处理装置包括:路径模块,用于确定基因组的重测序数据的文件路径;文件读取模块,用于使用所述重测序数据的文件路径,从重测序数据库中读取包含所述重测序数据的重测序数据文件;接收模块,用于接收用户输入的查询条件,所述查询条件至少包括如下任意一种或多种条件:基因。
19、名称、染色体区间以及至少一个样本的变异信息标签;查询模块,用于根据所述用户输入的查询条件对所述重测序数据文件进行查询,以获取所述基因组中满足所述查询条件的属性信息;以及显示模块,用于显示所述基因组中满足所述查询条件的属性信息。13.根据权利要求12所述的处理装置,其特征在于,在执行所述路径模块之后,所述处理装置还包括:判断模块,用于判断所述基因组的重测序数据的文件路径是否有效;第一处理模块,用于在所述基因组的重测序数据的文件路径有效的情况下,执行读取包含所述重测序数据的重测序数据文件的步骤;第二处理模块,用于在所述基因组的重测序数据的文件路径无效的情况下,重新确定有效的文件路径或者结束处理流程。
20、。14.根据权利要求12所述的处理装置,其特征在于,在所述接收模块接收到的所述查询条件包括:基因名称和至少两个样本的变异信息标签,或者,所述查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行所述文件读取模块后,所述处理装置还包括:指令读取模块:用于读取接收到的用于处理所述重测序数据文件的处理指令,所述处理指令包括:查询指令和比对指令;以及比对模块,用于比对任意两个样本在所述基因组中满足所述查询条件的属性信息,生成比对结果。权 利 要 求 书CN 104462211 A1/11页6重测序数据的处理方法和处理装置技术领域0001 本发明涉及高通量测序数据的处理领域,具体而言,涉及。
21、一种重测序数据的处理方法和处理装置。背景技术0002 随着高通量测序技术的发展,基因测序的成本和效率分别大幅降低和提高,越来越多的科研项目通过高通量测序的方法研究基因相关的课题。基因测序领域还没专门针对重测序结果进行个性化查询的软件,是一个很大的空缺。0003 在得到海量测序数据后,对其进行有效筛选和显示的软件很少,且功能不全,针对性不强。例如DNAStar软件,该软件由EditSeq MegAlign、GeneQuest MapDraw PrimerSelect Protean SeqMan II七个模块组成,功能主要有:序列的格式转换,序列拼接和重叠克隆群的处理;基因寻找;蛋白质结构域的查。
22、找;多重序列的比较和两两序列比较;寡核苷酸设计(PCR引物,测序引物,探针)。这样的生物学辅助软件,无法让科研工作者进行根据自己的需要对样本以及样本间进行更多样化的查询或比较,如果想获取这些信息还需要专门的机构进行分析,费时费力,成本较高,而且受限于技术、思路、沟通等因素,不一定能得到科研人员期望的结果。0004 针对现有技术中在对重测序数据处理时,客户操作难度大且处理操作功能单一,从而导致客户无法按照自己的需求或兴趣对该重测序数据进行自行处理的问题,目前尚未提出有效的解决方案。发明内容0005 针对现有技术中在对重测序数据处理时,客户操作难度大且处理操作功能单一,从而导致客户无法按照自己的需。
23、求或兴趣对该重测序数据进行自行处理的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种重测序数据的处理方法和装置,以满足客户对重测序数据的多样化处理需求。0006 为了实现上述目的,根据本发明的一个方面,提供了一种重测序数据的处理方法,该处理方法包括:步骤A,确定基因组的重测序数据的文件路径;步骤B,使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;步骤C,接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;步骤D,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询。
24、条件的属性信息;以及步骤E,显示基因组中满足查询条件的属性信息。0007 进一步地,在变异信息标签为SNP的情况下,查询条件至少还包括:与SNP对应的至少一个基因区域或至少一种密码子变异类型;在变异信息标签为INDEL的情况下,查询条件至少还包括:与INDEL对应的至少一个基因区域或者INDEL是否存在漂移;在变异信息标签为SV的情况下,查询条件至少还包括:与SV对应的如下至少一个参数:SV阈值、SV说 明 书CN 104462211 A2/11页7类型和SV大小;在变异信息标签为CNV的情况下,查询条件至少还包括:与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小。0008 。
25、进一步地,在变异信息标签为SNP的情况下,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第一数据表;第一数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:对应全基因组注释文件中的行号、SNP变异所在的基因区域、SNP变异类型、SNP变异所在的染色体编号、SNP变。
26、异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。0009 进一步地,在变异信息标签为SNP的情况下,查询条件至少包括如下任意一种或多种密码子变异类型:密码子同义突变、密码子非同义突变、获得终止密码子突变、丧失终止密码子突变,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一种或多种密码子变异类型对第一文件进行筛选,得到与。
27、一种或多种密码子变异类型相对应的属性信息,属性信息为第二数据表;第二数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在的基因区域、SNP变异位置对应的基因名称、SNP变异所在的染色体的编号、SNP变异的起始位置、SNP变异的终止位置、SNP所对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型、检测样本中SNP所在基因的基因型、SNP变异检测质量、SNP碱基覆盖深度和SNP所在测序序列的比对质量。0010 进一步地,在变异信息标签为INDEL的情况下,查询条件至少包括如下任意一个或多个基因区域:内含子区域、外显子区域、剪接体区域、下游区域、上游区域以及基因间区域,。
28、其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个基因区域对第一文件进行筛选,得到与一个或多个基因区域相对应的属性信息,属性信息为第三数据表;第三数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异所在的基因区域、INDEL变异位置对应的基因名称、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、IN。
29、DEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。0011 进一步地,在变异信息标签为INDEL的情况下,查询条件至少包括INDEL是否存在漂移,其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用INDEL是否存在漂移对第一文件进行筛选,得到与INDL是否存在漂移相对应的属性信息,属性信息为第四数据表;第四数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:INDEL变异对应于全基因组注释文件中的行号、INDEL所在的基因区域、INDEL变异。
30、信息、INDEL变异所在的染色体编号、INDEL变异的起始位置、INDEL变异的说 明 书CN 104462211 A3/11页8终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型、检测样本中INDEL所在的基因的基因型、INDEL变异检测质量、INDEL碱基覆盖深度和含有INDEL的测序序列的比对质量。0012 进一步地,在变异信息标签为SV的情况下,查询条件至少还包括如下任意一种或几种参数:SV阈值、SV类型和SV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件。
31、筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数相对应的属性信息,属性信息为第五数据表;第五数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、比对在第一位置上的含有SV序列的正负链的第一信息、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比对在第二位置上的含有SV序列的正负链的第二信息、SV变异类型、SV变异长度、SV变异检测的分数、支持SV变异的双端测序序列的数目、支持SV变异的双端测序序列的文件来源、SV所在基因的等位基因的估算频率和SV变异位置的基因名称。0013 。
32、进一步地,在变异信息标签为CNV的情况下,查询条件至少还包括如下任意一种或几种参数:CNV阈值、CNV类型和CNV大小;其中,根据用户输入的查询条件从重测序数据文件中进行查询,获取基因组中满足查询条件的属性信息的步骤包括:利用基因名称或染色体区间从重测序数据文件筛选得到第一文件;利用任意一个或多个参数对第一文件进行筛选,得到与参数对应的属性信息,属性信息为第六数据表;第六数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在的基因区域、CNV变异位置的基因名称、CNV变异所在的染色体编号、CNV变异的起始位置、CNV变异的终止位置和CNV变异类型。0014 进一步地,在确。
33、定基因组的重测序数据的文件路径之后,处理方法还包括:判断基因组的重测序数据的文件路径是否有效,其中,在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤,否则,重新确定有效的文件路径或者结束处理流程。0015 进一步地,在查询条件包括基因名称和至少两个样本的变异信息标签,或者,查询条件包括染色体区间和至少两个样本的变异信息标签的情况下,在从重测序数据库中读取包含重测序数据的重测序数据文件之后,处理方法还包括:读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;在处理指令为比对指令的情况下,通过每个样本执行上述步骤C和步骤D,来获取。
34、每个样本在基因组中满足查询条件的属性信息;比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。0016 进一步地,比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果的步骤包括:在变异信息标签为SNP的情况下,比对任意两个样本在基因组中满足与SNP对应的至少一个基因区域或至少一种密码子变异类型相对应的属性信息,生成SNP比对结果,SNP比对结果为第七数据表,第七数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SNP变异所在染色体编号、SNP变异的起始位置、SNP变异的终止位置、SNP对应的参考序列的碱基类型、SNP所在的检测样本的碱基类型和检测样本中SNP所。
35、在基因的基因型;在变异信息标签为INDEL的情况下,比对任意两个样本在基因组中满足与INDEL说 明 书CN 104462211 A4/11页9对应的至少一个基因区域或者INDEL是否存在漂移相对应的属性信息,生成INDEL比对结果,比对结果为第八数据表,第八数据表包括多个数据列,每个数据列用于表征如下之一的数据属性中的一种:INDEL变异所在染色体编号、INDEL变异的起始位置、INDEL变异的终止位置、INDEL对应的参考序列的碱基类型、INDEL所在的检测样本的碱基类型和检测样本中INDEL所在基因的基因型;在变异信息标签为SV的情况下,比对任意两个样本在基因组中满足与SV对应的如下至少。
36、一个参数:SV阈值、SV类型和SV大小,比对结果为第九数据表,第九数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:SV变异所在的第一染色体的编号、SV变异所在的第一染色体的第一位置、SV变异所在的第二染色体的编号、SV变异所在的第二染色体的第二位置、比较样本的SV变异类型和比较样本的SV变异位置的基因名称;在变异信息标签为CNV的情况下,比对任意两个样本在基因组中满足与CNV对应的如下至少一个参数:CNV阈值、CNV类型和CNV大小,比对结果为第十数据表,第十数据表包括多个数据列,每个数据列用于表征如下数据属性中的一种:CNV变异所在染色体编号、CNV变异的起始位置、CNV变异的。
37、终止位置、比较样本的CNV变异类型和比较样本的CNV变异位置的基因名称。0017 根据本发明的另一方面,提供了一种重测序数据的处理装置,该处理装置包括:路径模块,用于确定基因组的重测序数据的文件路径;文件读取模块,用于使用重测序数据的文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件;接收模块,用于接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;查询模块,用于根据用户输入的查询条件从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;以及显示模块,用于显示基因组中满足查询条件的属性信息。0018 进一步地。
38、,在执行路径模块之后,处理装置还包括:判断模块,用于判断基因组的重测序数据的文件路径是否有效;第一处理模块,用于在基因组的重测序数据的文件路径有效的情况下,执行读取包含重测序数据的重测序数据文件的步骤;第二处理模块,用于在基因组的重测序数据的文件路径无效的情况下,重新确定有效的文件路径或者结束处理流程。0019 进一步地,在接收模块接收到的查询条件包括:基因名称和至少两个样本的变异信息标签,或者,查询条件包括:染色体区间和至少两个样本的变异信息标签的情况下,在执行文件读取模块后,处理装置还包括:指令读取模块:用于读取接收到的用于处理重测序数据文件的处理指令,处理指令包括:查询指令和比对指令;以。
39、及比对模块,用于比对任意两个样本在基因组中满足查询条件的属性信息,生成比对结果。0020 应用本发明的技术方案,通过确定基因组的重测序数据的文件路径,然后按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,接收用户输入的查询条件,根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后将基因组中满足查询条件的属性信息显示出来。本发明的处理方法,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理方。
40、法对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。说 明 书CN 104462211 A5/11页10附图说明0021 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:0022 图1示出了根据本发明的实施例的重测序数据处理装置的结构示意图;0023 图2示出了根据本发明的实施例的重测序数据处理方法的流程图;0024 图3示出了根据本发明的实施例的重测序数据处理方法的详细流程图;以及0025 图4示出了根据图2所示的实施例中查询条件包括SNP信息标签情况下的重测序数据处理方。
41、法的示意图。具体实施方式0026 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。0027 在本发明中,SNP(single nucleotide polymorphism)代表单核苷酸多态性;INDEL(insert and deletion)代表插入缺失;SV(structure variation)代表结构变异;CNV(copy number variation)代表拷贝数异常;PE reads(pair-end reads)双端测序的序列;上述词语均为本领域的常规术语。剪接体区域是指将真核RNA的内含子除去,将外。
42、显子连接起来形成具有连续的编码序列的mRNA分子。0028 图1是根据本发明实施例的重测序数据的处理装置的结构示意图。如图1所示,该处理装置包括:路径模块,用于确定基因组的重测序数据的文件路径;文件读取模块,用于使用重测序数据的文件路径;接收模块,用于接收用户输入的查询条件,查询条件至少包括如下任意一种或多种条件:基因名称、染色体区间以及至少一个样本的变异信息标签;查询模块,用于根据用户输入的查询条件从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;显示模块,用于显示基因组中满足查询条件的属性信息。0029 采用本发明的重测序数据的处理装置,通过路径模块确定基因组的重测序数据的。
43、文件路径,然后文件读取模块按照该文件路径,从重测序数据库中读取包含重测序数据的重测序数据文件,之后接收模块接收用户输入的查询条件,查询模块根据用户输入的至少包括基因名称、染色体区间以及至少一个样本的变异信息标签中的任意一种或多种查询条件,从重测序数据文件中进行查询,以获取基因组中满足查询条件的属性信息;最后显示模块将基因组中满足查询条件的属性信息显示出来。本发明的处理装置,通过根据用户输入的感兴趣的一种或多种查询条件对重测序数据进行查询,可以快速地显示基因组中符合上述查询条件的属性信息,该处理装置对重测序数据的处理操作简单,既方便客户自行查询,又能满足客户多样化的查询需求。0030 具体地,基因名称可以是一个或多个,当基因名称是多个时,每行一个。染色体区间可以是某条染色体的编号,也可以是该染色体编号下对应的物理位置区间,比如:3号染色体或者3号染色体上的35687bp至61235bp。变异信息标签包括基因组上各种可能的变异情况,包括SNP(单核苷酸多态性)、INDEL(插入缺失)、SV(结构变异)以及CNV(拷贝数变异)。0031 根据本发明的上述实施例,在执行路径模块之后,处理装置还包括:判断模块,用说 明 书CN 104462211 A10。