一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法.pdf

上传人:小** 文档编号:8665516 上传时间:2020-11-02 格式:PDF 页数:14 大小:477.82KB
返回 下载 相关 举报
摘要
申请专利号:

CN201710630307.3

申请日:

20170728

公开号:

CN107287330A

公开日:

20171024

当前法律状态:

有效性:

审查中

法律详情:

IPC分类号:

C12Q1/68,G06F19/20

主分类号:

C12Q1/68,G06F19/20

申请人:

深圳华大基因研究院,深圳市农牧实业有限公司

发明人:

郑华,苗泽圃,魏强,蒙小云,杨漫漫,陈茜,李勇,方铭,陈涛

地址:

518083 广东省深圳市盐田区北山工业区11栋

优先权:

CN201710630307A

专利代理机构:

北京纪凯知识产权代理有限公司

代理人:

关畅

PDF下载: PDF下载
内容摘要

本发明公开了一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法。本发明所提供的SNP位点组合,由猪基因组中序列表中序列1自5’末端起第501位核苷酸、序列表中序列2自5’末端起第501位核苷酸、序列表中序列3自5’末端起第501位核苷酸、序列表中序列4自5’末端起第501位核苷酸和序列表中序列5自5’末端起第501位核苷酸组成。实验证明,采用本发明筛选的5个SNP位点预测可靠性值为0.033,相比BLUP方法提高了129.7%。因此,利用5个SNP位点来预测待测大白猪的初生窝重的遗传值,可以加快遗传进展,为育种者带来经济效益,具有重要的应用价值。

权利要求书

1.与猪的初生窝重遗传性能相关的SNP位点组合,由SNP1位点、SNP2位点、SNP3位点、SNP4位点和SNP5位点组成;所述SNP1位点为猪基因组中序列表中序列1自5’末端起第501位核苷酸;所述SNP2位点为猪基因组中序列表中序列2自5’末端起第501位核苷酸;所述SNP3位点为猪基因组中序列表中序列3自5’末端起第501位核苷酸;所述SNP4位点为猪基因组中序列表中序列4自5’末端起第501位核苷酸;所述SNP5位点为猪基因组中序列表中序列5自5’末端起第501位核苷酸。 2.预测待测猪的初生窝重遗传性能的系统,包括检测待测猪的所述SNP位点组合中各个SNP位点的基因型的试剂。 3.如权利要求2所述的系统,其特征在于:所述系统还可包括将待测猪的所述SNP位点组合中各个SNP位点的基因型转换为待测猪的所述SNP位点组合的效应值的系统。 4.权利要求1所述SNP位点组合在预测待测猪的初生窝重遗传性能中的应用。 5.权利要求2或3所述系统在预测待测猪的初生窝重遗传性能中的应用。 6.如序列表中的序列1所示的分子标记甲、或、如序列表中的序列2所示的分子标记乙、如序列表中的序列3所示的分子标记丙、或、如序列表中的序列4所示的分子标记丁、或、如序列表中的序列5所示的分子标记戊。 7.权利要求6所述分子标记甲和/或所述分子标记乙和/或所述分子标记丙和/或所述分子标记丁和/或所述分子标记戊在预测待测猪的初生窝重遗传性能中的应用。 8.权利要求1所述SNP位点组合、或、权利要求2或3所述系统、或、权利要求6所述分子标记甲、或、权利要求6所述分子标记乙、或、权利要求6所述分子标记丙、或、权利要求6所述分子标记丁、或、权利要求6所述分子标记戊在猪育种中的应用。 9.一种预测待测猪的初生窝重遗传性能的方法,依次包括如下步骤:(1)检测待测猪的权利要求1所述SNP位点组合中各个SNP位点的基因型;(2)采用MBLUP模型估计待测猪SNP位点组合的效应值,SNP位点组合的效应值越大,其初生窝重的遗传性能越高;SNP位点组合的效应值越小,其初生窝重的遗传性能越低。 10.一种筛选与猪的初生窝重遗传性能相关的SNP位点的方法,依次包括如下步骤:(1)获得猪的初生窝重的估计育种值;(2)获得覆盖猪的全基因组的遗传标记;(3)获得各个SNP位点的效应值;取效应值较大的SNP位点,并计算其贝叶斯因子,贝叶斯因子值较大的SNP位点即为与猪初生窝重遗传性能相关的SNP位点。

说明书

技术领域

本发明涉及生物信息学领域及家畜育种领域,具体涉及一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法。

背景技术

在猪产业中,初生窝重是一个重要的经济指标,但初生窝重遗传力较低,表型选择、单标记选择都难以取得良好的选择效果。近年来,有研究者采用全基因组选择的方法来提高初生窝重性状的选择准确性,但全基因组选择需要覆盖整个基因组的遗传标记。目前在群体中进行大规模的全基因组遗传标记检测仍是一笔较大的开支。

标记辅助最佳线性无偏预测(marker-assisted best linear unbiased prediction,MBLUP)是对动物实施标记辅助选择(marker-assisted selection,MAS)的一种重要方法,其可以利用较少数量的遗传标记来提高传统的最佳线性无偏预测(Best Linear Unbiased Prediction,BLUP)选择的准确性,在家畜育种中更具成本优势和推广前景。MBLUP的实施首先要获得目标性状关联位点。

发明内容

本发明所要解决的技术问题是如何预测待测猪的初生窝重的遗传性能。

1、为解决上述技术问题,本发明首先提供了与猪的初生窝重的遗传性能相关的SNP位点组合。

本发明所提供的与猪的初生窝重的遗传性能相关的SNP位点组合,可由SNP1位点、SNP2位点、SNP3位点、SNP4位点和SNP5位点组成;

所述SNP1位点可为猪基因组中序列表中序列1自5’末端起第501位核苷酸;

所述SNP2位点可为猪基因组中序列表中序列2自5’末端起第501位核苷酸;

所述SNP3位点可为猪基因组中序列表中序列3自5’末端起第501位核苷酸;

所述SNP4位点可为猪基因组中序列表中序列4自5’末端起第501位核苷酸;

所述SNP5位点可为猪基因组中序列表中序列5自5’末端起第501位核苷酸。

2、为解决上述技术问题,本发明还提供了预测待测猪的初生窝重遗传性能的系统,该系统可包括检测待测猪的所述SNP位点组合中各个SNP位点的基因型的试剂。

上述预测待测猪的初生窝重遗传性能的系统中,所述系统还可包括将待测猪的所述SNP位点组合中各个SNP位点的基因型转换为待测猪的所述SNP位点组合的效应值的系统。

所述SNP位点组合在预测待测猪的初生窝重遗传性能中的应用也属于本发明的保护范围。

上述任一所述系统在预测待测猪的初生窝重遗传性能中的应用也属于本发明的保护范围。

本发明还保护如序列表中的序列1所示的分子标记甲、或、如序列表中的序列2所示的分子标记乙、如序列表中的序列3所示的分子标记丙、或、如序列表中的序列4所示的分子标记丁、或、如序列表中的序列5所示的分子标记戊。

所述分子标记甲和/或所述分子标记乙和/或所述分子标记丙和/或所述分子标记丁和/或所述分子标记戊在预测待测猪的初生窝重遗传性能中的应用也属于本发明的保护范围。

所述SNP位点组合、或、上述任一所述预测待测猪的初生窝重遗传性能的系统、或、所述分子标记甲、或、所述分子标记乙、或、所述分子标记丙、或、所述分子标记丁、或、所述分子标记戊在猪育种中的应用也属于本发明的保护范围。

3、为解决上述技术问题,本发明还提供了一种预测待测猪的初生窝重遗传性能的方法,可依次包括如下步骤:

(1)检测待测猪所述SNP位点组合中各个SNP位点的基因型;

(2)采用MBLUP模型估计待测猪SNP位点组合的效应值,SNP位点组合的效应值越大,其初生窝重的遗传性能越高;SNP位点组合的效应值越小,其初生窝重的遗传性能越低。

4、本发明还保护筛选与猪的初生窝重遗传性能相关的SNP位点的方法,可依次包括如下步骤:

(1)获得猪初生窝重的估计育种值;

(2)获得覆盖猪全基因组的遗传标记;

(3)获得各个SNP位点的效应值;取效应值较大的SNP位点,并计算其贝叶斯因子,贝叶斯因子值较大的SNP位点即为与猪初生窝重遗传性能相关的SNP位点。

所述步骤(1)中,获得猪的初生窝重的估计育种值具体可采用BLUP方法。

所述步骤(2)中,获得覆盖猪的全基因组的遗传标记具体可采用限制酶切位点相关DNA测序技术(restriction-site associated DNA sequencing,RAD-seq)。

所述步骤(3)中,可采用BayesB模型筛选与猪初生窝重遗传性能相关的SNP位点。在本发明的实施例中,筛选与猪初生窝重遗传性能相关的SNP位点时,综合考虑SNP位点效应值及贝叶斯因子,且SNP位点效应值优先级更高。

上述任一所述猪具体可为大白猪。

5、模型解释

5.1所述MBLUP模型如下:

y=Xb+Z1p+Z2u+Z3w+e

y表示初生窝重性状向量,X表示固定效应关联矩阵,b表示固定效应向量,固定效应包括场—年、胎次效应,Z1表示永久环境效应关联矩阵、p表示永久环境效应向量,Z2表示加性遗传效应关联矩阵、u表示个体加性遗传效应向量,Z3表示标记效应关联矩阵、w表示标记效应向量,e表示残差。

I表示单位矩阵,A表示基于系谱的亲缘关系矩阵,分别为永久环境效应方差、加性遗传效应方差、残差。

所述混合模型方程组可为:

M=[X Z3]

M′为M的转置矩阵,为n的估计值,X′、Z′2、Z′1分别表示X、Z2、Z1的转置矩阵,分别为b、u、p的估计值。

5.2所述bayesB模型如下:

yd表示逆回归育种值向量,μ表示初生窝重性状(逆回归育种值)的平均值向量,n表示SNP位点个数,xi表示第i个SNP位点的基因型(基因型的数字表示,比如CC、CT、TT基因型分别表示为0、1、2),gi表示第i个SNP位点的效应值,e表示残差向量,w为权重向量,gi服从混合分布,gi效应值为0的概率为1-π0,的概率为π0。

所述逆回归育种值向量和所述权重向量是根据估计育种值,采用Dorian J Garrick等的方法(Genetics Selection Evolution,2009,41(1):1-8)计算得到的。

所述估计育种值可采用BLUP模型计算,、首先采用AIREML算法对方差组分进行估计,然后求解混合模型方程组,求出u的估计值即为估计育种值。

5.3所述BLUP模型如下:

y=Xb+Z1p+Z2u+e

模型中y表示初生窝重性状向量,X表示固定效应关联矩阵,b表示固定效应向量,固定效应包括场—年、胎次效应,Z1表示永久环境效应关联矩阵、p表示永久环境效应向量,Z2表示加性遗传效应关联矩阵、u表示个体加性遗传效应向量,e表示残差,

I表示单位矩阵,A表示基于系谱的亲缘关系矩阵,分别为永久环境效应方差、加性遗传效应方差、残差。

混合模型方程组为:

X′、Z′2、Z′1分别表示X、Z2、Z1的转置矩阵,分别为b、u、p的估计值。

实验证明,采用BLUP方法预测的可靠性(rc)值为0.014,而采用本发明筛选的5个SNP位点预测的可靠性值为0.033,相比BLUP方法提高了129.7%。因此可以利用本发明提供的5个SNP位点来预测待测大白猪的初生窝重的遗传值,可以加快遗传进展,为育种者带来经济效益,具有重要的应用价值。

具体实施方式

以下的实例仅便于更好地理解本发明,但并不限定本发明。下述实例中的实验方法,如无特殊说明,均为常规方法;同样,所用的试验材料,如无特殊说明,也均为常规生化试剂。

下述实例中的618头雌性大白猪分别来自广东潼湖核心种猪场(225头)和广东紫金核心种猪场(393头)。

实例1、与大白猪群体初生窝重性状相关的5个SNP位点的获得

一、估计大白猪群体初生窝重性状的育种值

1、对618头大白猪不同胎次的初生窝重进行记录,获得原始记录。例如,编号为133和94的大白猪的原始记录见表1。

表1

编号 被查个体号 胎次 配种日期 分娩日期 初生窝重(kg) 133 YYNMZC210027402 1 2011/8/21 / / 133 YYNMZC210027402 1 2011/9/12 2012/1/8 9.6 133 YYNMZC210027402 2 2012/2/4 2012/5/31 14.7 133 YYNMZC210027402 3 2012/6/27 / / 133 YYNMZC210027402 3 2012/9/7 2013/1/4 12.4 133 YYNMZC210027402 4 2013/2/1 / / 133 YYNMZC210027402 4 2013/2/21 / / 133 YYNMZC210027402 4 2013/7/12 2013/11/7 17.2 133 YYNMZC210027402 5 2013/11/30 2014/3/29 19.9 133 YYNMZC210027402 6 2014/4/25 2014/8/21 16.2 133 YYNMZC210027402 7 2014/9/19 2015/1/18 12.9 94 YYNMZC210027704 1 2011/5/30 / / 94 YYNMZC210027704 1 2011/10/22 2012/2/15 9.7 94 YYNMZC210027704 2 2012/3/6 2012/6/30 12.8 94 YYNMZC210027704 3 2012/7/20 2012/11/14 12.2 94 YYNMZC210027704 4 2012/12/11 / / 94 YYNMZC210027704 4 2013/2/6 2013/6/1 11.2 94 YYNMZC210027704 5 2013/6/28 2013/10/23 9.6 94 YYNMZC210027704 6 2013/11/15 2014/3/14 7.9 94 YYNMZC210027704 7 2014/4/12 / /

注:“/”表示不存在,即配种不成功或记录缺失。

2、对步骤1得到的原始记录进行质量控制(如去除个体编号重复、胎次记录重复及异常值),并保留前10个胎次,剩余2566条记录。结合系谱数据(共包含1899个个体)采用如下模型(BLUP模型)估计育种值:

y=Xb+Z1p+Z2u+e

模型中y表示初生窝重性状向量,X表示固定效应关联矩阵,b表示固定效应向量,固定效应包括场—年、胎次效应,Z1表示永久环境效应关联矩阵、p表示永久环境效应向量,Z2表示加性遗传效应关联矩阵、u表示个体加性遗传效应向量,e表示残差,I表示单位矩阵,A表示基于系谱的亲缘关系矩阵,分别为永久环境效应方差、加性遗传效应方差、残差。

采用AIREML(average information restricted maximum likelihood)算法对方差组分进行估计,的值分别为1.11、1.31、13.03。再将的值代入混合模型方程组,求出u的估计值即为估计育种值。

Henderson线性方程组为:

X′、Z′2、Z′1分别表示X、Z2、Z1的转置矩阵,分别为b、u、p的估计值。

二、逆回归育种值及权重的计算

根据步骤一得到的估计育种值,采用Garrick等的方法(Genetics Selection Evolution,2009,41(1):1-8)计算逆回归育种值及权重。

三、检测与大白猪群体初生窝重性状相关的SNP位点

1、采用限制性内切酶TaqI和MspI对大白猪基因组DNA进行双酶切,添加个体识别序列后,取等量DNA混合(平均包含22个大白猪样本),选取长度在400-500bp之间的片段,在Hiseq 4000平台进行双端测序(PE100)。根据个体识别序列对原始测序数据进行拆分,平均每个个体测序短片段数为6.17×106条。对测序数据进行质控,过滤掉低质量值的测序片段(质量值小于20的碱基比例超过30%),平均每个个体剩余测序片段数为5.66×106条。

2、完成步骤1后,采用BWA软件(http://bio-bwa.sourceforge.net/bwa.shtml)将过滤后的片段比对到参考基因组(assembly Sscrofa10.2),然后采用SAMtools软件(http://samtools.sourceforge.net/)进行变异位点检测,结果共得到200588个原始单核苷酸多态性标记,即200588个SNP位点。

3、完成步骤2后,将200588个SNP位点进行过滤(过滤条件:群体检出率大于0.7,SNP位点质量值大于20,最小等位基因频率大于0.01,杂合度小于0.9),剩余80270个SNP位点。

4、完成步骤3后,采用fastphase软件对基因型进行填补,然后过滤(过滤条件:群体检出率大于0.7,最小等位基因频率大于0.01,杂合度小于0.9),共得到79725个高质量的SNP位点。

fastphase软件的网址为http://stephenslab.uchicago.edu/software.html。

四、SNP位点的筛选

以步骤二得到的逆回归育种值为因变量,采用bayesB模型计算每个SNP位点的效应值。bayesB模型如下:

模型中yd表示逆回归育种值向量,μ表示平均值向量,n表示SNP位点个数,xi表示第i个SNP位点的基因型(基因型的数字表示,比如CC、CT、TT基因型分别表示为0、1、2),gi表示第i个SNP位点的效应值,e表示残差向量,w为步骤二得到的权重向量,gi服从混合分布,gi效应值为0的概率为1-π0,的概率为π0。

随着SNP位点的效应值(绝对值)降低,SNP位点对表型(即初生窝重性状)方差的贡献一般也呈降低趋势,当然还受到等位基因频率的影响。为了以较少数量的SNP对初生窝重性状进行较好的预测,选取效应值最大的5个SNP位点,将这5个SNP位点分别命名为SNP1、SNP2、SNP3、SNP4和SNP5位点,基本信息见表2。

表2中贝叶斯因子(BF)采用如下公式进行计算:

p为SNP位点效应值不为0的后验概率,π0为SNP位点效应值不为0的先验概率。当BF<3时,该SNP位点与初生窝重性状不相关;当3<BF<20时,该SNP位点与初生窝重性状相关性较弱;当BF>20时,该SNP位点与表型(即初生窝重性状)有比较强的相关性(Robert E.Kass,Adrian E.Raftery.Journal of the American Statistical Association,Vol.90,No.430,773-795.)

结果表明,SNP1位点、SNP2位点、SNP3位点、SNP4位点和SNP5位点均与初生窝重性状相关。

SNP1位点为大白猪基因组中序列表中序列1自5’末端起第501位核苷酸。

SNP2位点为大白猪基因组中序列表中序列2自5’末端起第501位核苷酸。

SNP3位点为大白猪基因组中序列表中序列3自5’末端起第501位核苷酸。

SNP4位点为大白猪基因组中序列表中序列4自5’末端起第501位核苷酸。

SNP5位点为大白猪基因组中序列表中序列5自5’末端起第501位核苷酸。

表2

SNP位点 所在染色体 在染色体上的位置 等位基因基因型 贝叶斯因子 SNP1 1 28561604 CC、TT、CT 17.6 SNP2 2 88137636位 GG、TT、GT 81.0 SNP3 7 118104654 CC、TT、CT 25.4 SNP4 18 55035460 CC、TT、CT 30.7 SNP5 18 55035763 CC、TT、CT 96.4

实例2、采用5个SNP位点预测待测大白猪的初生窝重性状

为更加符合育种实践(即用出生早的性状记录完备的个体,对后代性状行早期预测),将618头大白猪按出生日期先后进行分组,出生日期靠前的495头大白猪作为参考群,出生日期靠后的123头大白猪作为验证群。参考群和验证群中,初生窝重性状均已知,5个SNP位点的基因型也已知。

采用SNP位点的基因型信息及系谱信息预测初生窝重性状,并评估预测的准确性。具体方法为:将验证群中的初生窝重性状设定为未知,然后根据验证群中的SNP位点的基因型信息及系谱信息对初生窝重遗传值进行预测;将该预测结果与验证群初生窝重性状的估计育种值进行比较,进而评估预测的准确性。

在没有初生窝重性状记录情况下,采用如下模型预测验证群的育种值:

y=Xb+Z1p+Z2u+Z3w+e

模型中y表示初生窝重性状向量,X表示固定效应关联矩阵,b表示固定效应向量,固定效应包括场—年、胎次效应,Z1表示永久环境效应关联矩阵、p表示永久环境效应向量,Z2表示加性遗传效应关联矩阵、u表示个体加性遗传效应向量,Z3表示标记效应关联矩阵、w表示标记效应向量,e表示残差,I表示单位矩阵,A表示基于系谱的亲缘关系矩阵,分别为永久环境效应方差、加性遗传效应方差、残差。

采用AIREML(average information restricted maximum likelihood)算法对方差组分进行估计(取618个个体的初生窝重性状记录),的值分别为1.02、0.44、13.02。求解混合线性模型方程组(495个个体有初生窝重性状记录),进而得到没有初生窝重性状记录情况下123头大白猪(验证群)初生窝重性状的估计育种值。

混合线性模型方程组为:

M=[X Z3]

其中,M′为M的转置矩阵,为n的估计值,X′、Z′2、Z′1分别表示X、Z2、Z1的转置矩阵,分别为b、u、p的估计值。

按照实施例1步骤一的方法,获得有初生窝重性状记录情况下123头大白猪(验证群)初生窝重性状的估计育种值。

验证群育种值的预测可靠性采用验证群育种值与校正表型值的相关性(Guo et al.Journal of Animal Science,2015,93(2):503-12;Guosheng Su et al.PLoS One.2012,7(9):e45293)来进行评价,r2=cor2(EBV,yc)/h2,r2为预测可靠性,EBV为验证群体的育种值,为基于全部数据计算的育种值,为残差,n为记录胎次数,h2为遗传力。由于h2为常数,因此不同方法预测准确性的比较可以简化为比较rc=cor(EBV,yc)的大小。

结果表明,BLUP预测可靠性(rc)值为0.014,而采用本发明筛选的5个SNP位点预测的可靠性值为0.033,相比BLUP提高了129.7%。

因此,利用本发明提供的5个SNP位点可以预测待测大白猪的初生窝重遗传性能,且具有成本低、准确性高的特点,可进一步加快大白猪的初生窝重性状的遗传进展,为育种者带来经济效益。本发明具有重要的应用价值。

<110> 深圳华大基因研究院 深圳市农牧实业有限公司

<120> 一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法

<160> 5

<170> PatentIn version 3.5

<210> 1

<211> 1001

<212> DNA

<213> 人工序列

<220>

<221>

<222> (501)..(501)

<223> n为c或t

<400> 1

ttatgccaag atttttcacc agtggacagt ttaatctcat aaccacacgt gtacggctac 60

ataattgttt ggtttttggt ttttggtttt tgggtttttt tttttttttt tttttgtctt 120

tttgtctttt ctagggccgc tcccgcagca tatggaggtt cccaggctag gggtttaatc 180

ggagctgtag ccaccggcct acgccagagc cacagccacg tgggatccga gctgcgtctg 240

caacctacac cacagctcac ggcaacgccg gaacctaacc cactgagcaa agccagggat 300

caaacccgca acctcatggt tcctagtcgg attcgttaac cactgagcca ctacgggaac 360

tccagttgtt tgttaaataa tatctttttc ttgtttagca ttttggtttt cagtagtaaa 420

attaaagtag tctggaacaa atgaagcttt acacaaaatt cagtagcacc agtagatcca 480

atgctagtca atgaccagta nggtcttagc agaatggatt gttcgagaat gagtttgggg 540

tatattttag tcaggctgca tcttcatctt gactctaggt ttatgttcct cttattggag 600

ttcatttgat ttccagaaat gtgtctcctt accctaccaa acttggagca gagtttggct 660

acaaaaatcg taaattgcag gctgacttgg gattcacaag ctcattctga aggggccact 720

tgcctttctg gtgggcagag ttcactctct gcttagtcag ttactattaa acttgggctt 780

tgcacaaaag ggcagattct ggaaaattca gacatgtcct ccagagactc agccatagac 840

atgcaaactg caagtcatat gcatcaaaat tggtgactcc tttttccaga gggctctgtg 900

gttcttgagc ttggggaggc ccagcaaagg gaagtgactg ggaacctggg ctcagtcctc 960

ctgcccagct ggagtttccc acctgtactc cttgagcaaa t 1001

<210> 2

<211> 1001

<212> DNA

<213> 人工序列

<220>

<221>

<222> (501)..(501)

<223> r为g或t

<400> 2

cactgggaca gcgactgtgc catggcttgc tgcctgccca gtgccggcgg cagcggcagc 60

tgcgacacgc ccggcatggc tgccgccgcc cagcgggtgt cgttggcgtg gaaagagcac 120

aggctgtcgc ccatggcggc ggcggcggcg gcggcggccg acgggaactg tggaaggcct 180

ggcgtgggca gcagcgtgcc aggagcgcgg aacacgttgg tagtcttctt gcgcttcttc 240

cacttcgcgc gccgattctg gaaccagacc tgcagcgggc ggggcaggag acacacacag 300

ggcgttgtta gcaggggtgg ggtgccggct tgagcctggg aaacccgcgg caggtccacc 360

ccactcagcc ccaggcccaa gtgccagaga ccctggtcct ccaccagctc gtgtcagtcg 420

gtgtccctcg cacccactgg gcaccagctc ccggggtcct gagggattgt cccccagagc 480

gcttacaaac agttcagaca racgtcgcgc gcagtgttca ccccgcccct gcacgctggc 540

acattgtgtg cgcggcttag atgcacaggt ctacaggcag gcaggtgtca aggcttggac 600

cctcaggtgt acaaatgaag ataaacatgt gtacccagga ggcttaatag cgtgccttat 660

aacactgatg gggtatagaa ttttcagaaa cactggaaat ttggaaattg atgaagggcc 720

gtggatgaca tagccagttt caaaatcgaa agacaaagga aaacccctaa cgccaccaga 780

tgacagagcg gagcggttaa tatagtgatc cgcatgggaa agcgagcgcc atgagctaca 840

gttatttggg tcgccaaacc gtgacttctg attcttagcg attggtacta ctgccacaat 900

tttggatact tcattctcaa ggccttctaa gagcaccttt atctgggcta tgcagatgtg 960

ctggaacctg ctgccagagc cctgagcctc aggaccttca a 1001

<210> 3

<211> 1001

<212> DNA

<213> 人工序列

<220>

<221>

<222> (501)..(501)

<223> n为c或t

<400> 3

tgcaaatcag gttggtctat gctcactctg atgaataact tatgtgaaaa gaacttgaag 60

atagcaaatg aatttaatta tcagtgaaaa ttaccaaaga agaactaatg tttgcaaatg 120

ctaatatttt attataaaat acactgttat tgtttctact atctaacact ttaccaaatt 180

tgaagcagat ttagcaattt gccttatgca caaaaaagta cttaggtctg catagtgtta 240

taccttcttt tttcttcagt tagtgctaaa cataaaacca ttattttcag atccttgatc 300

tagctttcag aatttatcct ctactcttca ccatgtgaaa taaaagttct gttttgacac 360

cagggaaaaa tacagaaaca cacatattta cacacaaata taaattatat gatcatttgc 420

ccaacacaat tacatttcca agtgaaaaag tatgtgaaag tggctttcta agagatgaag 480

cattccggca aaatgcaaaa naaaaaagtt ccaagtgaat gatcctttag ggtagaaaaa 540

ggttagctgt gaatacgctt gtgaaatata ctgtggagga ttctcattct gagattatga 600

tcgttcttgc ctccaggttc aagtgttgct caatcagcaa ggtgctcaat tcacagtgat 660

tgcggcgcat ttcctcgttg atcaggaaaa tgcgtaatct cagcctagac acatttacca 720

taaaaatgaa tatacgaaat aggatttttg atttaaattt tccagttgca gcatatcgag 780

aaaaatatat gcaagagaag attctgtttg aaaagctcta attcaaataa gtccaaaaag 840

aacacatctc tatgtaccta acgctgtctt gccattagat agcaagcttt tctcgctcag 900

agcccttgtc aatttgatta aactcacaaa cacgtggctg actccgcccc ttttaaaaat 960

actctctagc cgagccggag gatgactgag aagcatgtgg c 1001

<210> 4

<211> 1001

<212> DNA

<213> 人工序列

<220>

<221>

<222> (501)..(501)

<223> n为c或t

<400> 4

ggagcaaagg aggaaggcgg gctgtcctgg caatggatga cttgaggaag gctgaggcac 60

gggcacggga tgggtgaaca gggcgaggga ggtcacagcc aggaacaccc cggaagtcta 120

ccctgacacc ttgagctcaa ggtcatcagg aagcgtgggg gccaggaggg ggagtggcac 180

cgacaggaga ttctgtgtct ggatccgggg cagctccggc ccccagacct cctcctgtac 240

ccagacaaca ggcacctggg caagccgctt acccaaaggc aaagccagag gattcttcct 300

tgaagaaatg gagattcctg ggagttccga ggtctccaga ctggtactgg tacccagcat 360

tagccccacc ccttctggaa tgtggcccag gaccggacct gcctgttggc ccactgccac 420

acccacacca tcacagcgag gtcagggagg ggaccctgcc aaaggagccg agtgaggcca 480

ctccgggacc ccaggggagg ngggcagggg agcacaggcg gaaagtcggc agcagggggg 540

taatgagacg ggagagtcac gtgggccctg gggggctgat catcctgcaa cagaagagcc 600

ccttcatgca ggacctgagt ttgtattttc agagtgattc aggaagatgt cacagacgta 660

aaaataggag accacaacaa agaaacacaa cactggagaa caagaaagac tcttcagaaa 720

cgaaatcagc cattttaaaa tatggagctg aggagttcct gtagtggcgc agtggttaac 780

gaatccgact aggaaccatg aggcgggagg ttcgatccct ggcctcgctc agtgggttaa 840

ggatctggca ttgccatgag ctgtggtgta ggtcaaagat gtggccccga tctggcattg 900

ctgtggttgt ggtacagacc ggcggttaca gctccaattt gatccctagc ctgggaaact 960

ctttatgccc cgggtgtggc cctaaaaaga caaaagaaga c 1001

<210> 5

<211> 1001

<212> DNA

<213> 人工序列

<220>

<221>

<222> (501)..(501)

<223> n为c或t

<400> 5

agaaatggag attcctggga gttccgaggt ctccagactg gtactggtac ccagcattag 60

ccccacccct tctggaatgt ggcccaggac cggacctgcc tgttggccca ctgccacacc 120

cacaccatca cagcgaggtc agggagggga ccctgccaaa ggagccgagt gaggccactc 180

cgggacccca ggggaggtgg gcaggggagc acaggcggaa agtcggcagc aggggggtaa 240

tgagacggga gagtcacgtg ggccctgggg ggctgatcat cctgcaacag aagagcccct 300

tcatgcagga cctgagtttg tattttcaga gtgattcagg aagatgtcac agacgtaaaa 360

ataggagacc acaacaaaga aacacaacac tggagaacaa gaaagactct tcagaaacga 420

aatcagccat tttaaaatat ggagctgagg agttcctgta gtggcgcagt ggttaacgaa 480

tccgactagg aaccatgagg ngggaggttc gatccctggc ctcgctcagt gggttaagga 540

tctggcattg ccatgagctg tggtgtaggt caaagatgtg gccccgatct ggcattgctg 600

tggttgtggt acagaccggc ggttacagct ccaatttgat ccctagcctg ggaaactctt 660

tatgccccgg gtgtggccct aaaaagacaa aagaagacaa aaaaataaaa aaacattata 720

aaataaaata tggagctgaa acacaagaca acataaggaa gaaaaagtta aaaagagaca 780

gatgatcaaa gcaggatgac catcatttgc ctaaaaggga atgatctggt tgatccagga 840

aacaatgaga aatcttcagt ttctaaggcc gctaagaatt ccccacacag ctcccaacat 900

gacacaacag gatcagtggc atctctgaag cactgggatg aaatttcaat ccccaacccg 960

gcacagcgag ttaaaggatc tggcactgct gcagctgtgg c 1001

一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法.pdf_第1页
第1页 / 共14页
一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法.pdf_第2页
第2页 / 共14页
一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法.pdf_第3页
第3页 / 共14页
点击查看更多>>
资源描述

《一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法.pdf》由会员分享,可在线阅读,更多相关《一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法.pdf(14页珍藏版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201710630307.3 (22)申请日 2017.07.28 (71)申请人 深圳华大基因研究院 地址 518083 广东省深圳市盐田区北山工 业区11栋 申请人 深圳市农牧实业有限公司 (72)发明人 郑华苗泽圃魏强蒙小云 杨漫漫陈茜李勇方铭陈涛 (74)专利代理机构 北京纪凯知识产权代理有限 公司 11245 代理人 关畅 (51)Int.Cl. C12Q 1/68(2006.01) G06F 19/20(2011.01) (54)发明名称 一种预测待测猪的初生窝重遗传。

2、性能的SNP 位点组合及方法 (57)摘要 本发明公开了一种预测待测猪的初生窝重 遗传性能的SNP位点组合及方法。 本发明所提供 的SNP位点组合, 由猪基因组中序列表中序列1自 5 末端起第501位核苷酸、 序列表中序列2自5 末 端起第501位核苷酸、 序列表中序列3自5 末端起 第501位核苷酸、 序列表中序列4自5 末端起第 501位核苷酸和序列表中序列5自5 末端起第501 位核苷酸组成。 实验证明, 采用本发明筛选的5个 SNP位点预测可靠性值为0.033, 相比BLUP方法提 高了129.7。 因此, 利用5个SNP位点来预测待测 大白猪的初生窝重的遗传值, 可以加快遗传进 展,。

3、 为育种者带来经济效益, 具有重要的应用价 值。 权利要求书1页 说明书8页 序列表4页 CN 107287330 A 2017.10.24 CN 107287330 A 1.与猪的初生窝重遗传性能相关的SNP位点组合, 由SNP1位点、 SNP2位点、 SNP3位点、 SNP4位点和SNP5位点组成; 所述SNP1位点为猪基因组中序列表中序列1自5 末端起第501位核苷酸; 所述SNP2位点为猪基因组中序列表中序列2自5 末端起第501位核苷酸; 所述SNP3位点为猪基因组中序列表中序列3自5 末端起第501位核苷酸; 所述SNP4位点为猪基因组中序列表中序列4自5 末端起第501位核苷酸;。

4、 所述SNP5位点为猪基因组中序列表中序列5自5 末端起第501位核苷酸。 2.预测待测猪的初生窝重遗传性能的系统, 包括检测待测猪的所述SNP位点组合中各 个SNP位点的基因型的试剂。 3.如权利要求2所述的系统, 其特征在于: 所述系统还可包括将待测猪的所述SNP位点 组合中各个SNP位点的基因型转换为待测猪的所述SNP位点组合的效应值的系统。 4.权利要求1所述SNP位点组合在预测待测猪的初生窝重遗传性能中的应用。 5.权利要求2或3所述系统在预测待测猪的初生窝重遗传性能中的应用。 6.如序列表中的序列1所示的分子标记甲、 或、 如序列表中的序列2所示的分子标记乙、 如序列表中的序列3所。

5、示的分子标记丙、 或、 如序列表中的序列4所示的分子标记丁、 或、 如 序列表中的序列5所示的分子标记戊。 7.权利要求6所述分子标记甲和/或所述分子标记乙和/或所述分子标记丙和/或所述 分子标记丁和/或所述分子标记戊在预测待测猪的初生窝重遗传性能中的应用。 8.权利要求1所述SNP位点组合、 或、 权利要求2或3所述系统、 或、 权利要求6所述分子标 记甲、 或、 权利要求6所述分子标记乙、 或、 权利要求6所述分子标记丙、 或、 权利要求6所述分 子标记丁、 或、 权利要求6所述分子标记戊在猪育种中的应用。 9.一种预测待测猪的初生窝重遗传性能的方法, 依次包括如下步骤: (1)检测待测猪。

6、的权利要求1所述SNP位点组合中各个SNP位点的基因型; (2)采用MBLUP模型估计待测猪SNP位点组合的效应值, SNP位点组合的效应值越大, 其 初生窝重的遗传性能越高; SNP位点组合的效应值越小, 其初生窝重的遗传性能越低。 10.一种筛选与猪的初生窝重遗传性能相关的SNP位点的方法, 依次包括如下步骤: (1)获得猪的初生窝重的估计育种值; (2)获得覆盖猪的全基因组的遗传标记; (3)获得各个SNP位点的效应值; 取效应值较大的SNP位点, 并计算其贝叶斯因子, 贝叶 斯因子值较大的SNP位点即为与猪初生窝重遗传性能相关的SNP位点。 权利要求书 1/1 页 2 CN 10728。

7、7330 A 2 一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法 技术领域 0001 本发明涉及生物信息学领域及家畜育种领域, 具体涉及一种预测待测猪的初生窝 重遗传性能的SNP位点组合及方法。 背景技术 0002 在猪产业中, 初生窝重是一个重要的经济指标, 但初生窝重遗传力较低, 表型选 择、 单标记选择都难以取得良好的选择效果。 近年来, 有研究者采用全基因组选择的方法来 提高初生窝重性状的选择准确性, 但全基因组选择需要覆盖整个基因组的遗传标记。 目前 在群体中进行大规模的全基因组遗传标记检测仍是一笔较大的开支。 0003 标记辅助最佳线性无偏预测(marker-assiste。

8、d best linear unbiased prediction, MBLUP)是对动物实施标记辅助选择(marker-assisted selection, MAS)的一 种重要方法, 其可以利用较少数量的遗传标记来提高传统的最佳线性无偏预测(Best Linear Unbiased Prediction, BLUP)选择的准确性, 在家畜育种中更具成本优势和推广前 景。 MBLUP的实施首先要获得目标性状关联位点。 发明内容 0004 本发明所要解决的技术问题是如何预测待测猪的初生窝重的遗传性能。 0005 1、 为解决上述技术问题, 本发明首先提供了与猪的初生窝重的遗传性能相关的 SN。

9、P位点组合。 0006 本发明所提供的与猪的初生窝重的遗传性能相关的SNP位点组合, 可由SNP1位点、 SNP2位点、 SNP3位点、 SNP4位点和SNP5位点组成; 0007 所述SNP1位点可为猪基因组中序列表中序列1自5 末端起第501位核苷酸; 0008 所述SNP2位点可为猪基因组中序列表中序列2自5 末端起第501位核苷酸; 0009 所述SNP3位点可为猪基因组中序列表中序列3自5 末端起第501位核苷酸; 0010 所述SNP4位点可为猪基因组中序列表中序列4自5 末端起第501位核苷酸; 0011 所述SNP5位点可为猪基因组中序列表中序列5自5 末端起第501位核苷酸。。

10、 0012 2、 为解决上述技术问题, 本发明还提供了预测待测猪的初生窝重遗传性能的系 统, 该系统可包括检测待测猪的所述SNP位点组合中各个SNP位点的基因型的试剂。 0013 上述预测待测猪的初生窝重遗传性能的系统中, 所述系统还可包括将待测猪的所 述SNP位点组合中各个SNP位点的基因型转换为待测猪的所述SNP位点组合的效应值的系 统。 0014 所述SNP位点组合在预测待测猪的初生窝重遗传性能中的应用也属于本发明的保 护范围。 0015 上述任一所述系统在预测待测猪的初生窝重遗传性能中的应用也属于本发明的 保护范围。 0016 本发明还保护如序列表中的序列1所示的分子标记甲、 或、 如。

11、序列表中的序列2所 说明书 1/8 页 3 CN 107287330 A 3 示的分子标记乙、 如序列表中的序列3所示的分子标记丙、 或、 如序列表中的序列4所示的分 子标记丁、 或、 如序列表中的序列5所示的分子标记戊。 0017 所述分子标记甲和/或所述分子标记乙和/或所述分子标记丙和/或所述分子标记 丁和/或所述分子标记戊在预测待测猪的初生窝重遗传性能中的应用也属于本发明的保护 范围。 0018 所述SNP位点组合、 或、 上述任一所述预测待测猪的初生窝重遗传性能的系统、 或、 所述分子标记甲、 或、 所述分子标记乙、 或、 所述分子标记丙、 或、 所述分子标记丁、 或、 所述 分子标记。

12、戊在猪育种中的应用也属于本发明的保护范围。 0019 3、 为解决上述技术问题, 本发明还提供了一种预测待测猪的初生窝重遗传性能的 方法, 可依次包括如下步骤: 0020 (1)检测待测猪所述SNP位点组合中各个SNP位点的基因型; 0021 (2)采用MBLUP模型估计待测猪SNP位点组合的效应值, SNP位点组合的效应值越 大, 其初生窝重的遗传性能越高; SNP位点组合的效应值越小, 其初生窝重的遗传性能越低。 0022 4、 本发明还保护筛选与猪的初生窝重遗传性能相关的SNP位点的方法, 可依次包 括如下步骤: 0023 (1)获得猪初生窝重的估计育种值; 0024 (2)获得覆盖猪全。

13、基因组的遗传标记; 0025 (3)获得各个SNP位点的效应值; 取效应值较大的SNP位点, 并计算其贝叶斯因子, 贝叶斯因子值较大的SNP位点即为与猪初生窝重遗传性能相关的SNP位点。 0026 所述步骤(1)中, 获得猪的初生窝重的估计育种值具体可采用BLUP方法。 0027 所述步骤(2)中, 获得覆盖猪的全基因组的遗传标记具体可采用限制酶切位点相 关DNA测序技术(restriction-site associated DNA sequencing, RAD-seq)。 0028 所述步骤(3)中, 可采用BayesB模型筛选与猪初生窝重遗传性能相关的SNP位点。 在本发明的实施例中,。

14、 筛选与猪初生窝重遗传性能相关的SNP位点时, 综合考虑SNP位点效 应值及贝叶斯因子, 且SNP位点效应值优先级更高。 0029 上述任一所述猪具体可为大白猪。 0030 5、 模型解释 0031 5.1所述MBLUP模型如下: 0032 yXb+Z1p+Z2u+Z3w+e 0033 y表示初生窝重性状向量, X表示固定效应关联矩阵, b表示固定效应向量, 固定效 应包括场年、 胎次效应, Z1表示永久环境效应关联矩阵、 p表示永久环境效应向量, Z2表示 加性遗传效应关联矩阵、 u表示个体加性遗传效应向量, Z3表示标记效应关联矩阵、 w表示标 记效应向量, e表示残差。 0034I表示单。

15、位矩阵, A表示基于系谱的 亲缘关系矩阵,分别为永久环境效应方差、 加性遗传效应方差、 残差。 0035 所述混合模型方程组可为: 说明书 2/8 页 4 CN 107287330 A 4 0036 0037 MX Z3 0038 0039M 为M的转置矩阵, 为n的估计值, X 、 Z 2、 Z1分别表示X、 Z2、 Z1的转置矩阵, 分别为b、 u、 p的估计值。 0040 5.2所述bayesB模型如下: 0041 0042 yd表示逆回归育种值向量, 表示初生窝重性状(逆回归育种值)的平均值向量, n 表示SNP位点个数, xi表示第i个SNP位点的基因型(基因型的数字表示, 比如CC。

16、、 CT、 TT基因 型分别表示为0、 1、 2), gi表示第i个SNP位点的效应值, e表示残差向量,w为权重 向量, gi服从混合分布,gi效应值为0的概率为1- 0,的概率为 0。 0043 所述逆回归育种值向量和所述权重向量是根据估计育种值, 采用Dorian J Garrick等的方法(Genetics Selection Evolution, 2009, 41(1): 1-8)计算得到的。 0044 所述估计育种值可采用BLUP模型计算, 、 首先采用AIREML算法对方差组分进行估 计, 然后求解混合模型方程组, 求出u的估计值即为估计育种值。 0045 5.3所述BLUP模型。

17、如下: 0046 yXb+Z1p+Z2u+e 0047 模型中y表示初生窝重性状向量, X表示固定效应关联矩阵, b表示固定效应向量, 固定效应包括场年、 胎次效应, Z1表示永久环境效应关联矩阵、 p表示永久环境效应向量, Z2表示加性遗传效应关联矩阵、 u表示个体加性遗传效应向量, e表示残差, 0048I表示单位矩阵, A表示基于系谱的 亲缘关系矩阵,分别为永久环境效应方差、 加性遗传效应方差、 残差。 0049 混合模型方程组为: 0050 0051X 、 Z 2、 Z1分别表示X、 Z2、 Z1的转置矩阵,分别为 b、 u、 p的估计值。 0052 实验证明, 采用BLUP方法预测的。

18、可靠性(rc)值为0.014, 而采用本发明筛选的5个 SNP位点预测的可靠性值为0.033, 相比BLUP方法提高了129.7。 因此可以利用本发明提供 说明书 3/8 页 5 CN 107287330 A 5 的5个SNP位点来预测待测大白猪的初生窝重的遗传值, 可以加快遗传进展, 为育种者带来 经济效益, 具有重要的应用价值。 具体实施方式 0053 以下的实例仅便于更好地理解本发明, 但并不限定本发明。 下述实例中的实验方 法, 如无特殊说明, 均为常规方法; 同样, 所用的试验材料, 如无特殊说明, 也均为常规生化 试剂。 0054 下述实例中的618头雌性大白猪分别来自广东潼湖核心。

19、种猪场(225头)和广东紫 金核心种猪场(393头)。 0055 实例1、 与大白猪群体初生窝重性状相关的5个SNP位点的获得 0056 一、 估计大白猪群体初生窝重性状的育种值 0057 1、 对618头大白猪不同胎次的初生窝重进行记录, 获得原始记录。 例如, 编号为133 和94的大白猪的原始记录见表1。 0058 表1 0059 编号被查个体号胎次配种日期分娩日期初生窝重(kg) 133YYNMZC21002740212011/8/21/ 133YYNMZC21002740212011/9/122012/1/89.6 133YYNMZC21002740222012/2/42012/5/。

20、3114.7 133YYNMZC21002740232012/6/27/ 133YYNMZC21002740232012/9/72013/1/412.4 133YYNMZC21002740242013/2/1/ 133YYNMZC21002740242013/2/21/ 133YYNMZC21002740242013/7/122013/11/717.2 133YYNMZC21002740252013/11/302014/3/2919.9 133YYNMZC21002740262014/4/252014/8/2116.2 133YYNMZC21002740272014/9/192015/1/18。

21、12.9 94YYNMZC21002770412011/5/30/ 94YYNMZC21002770412011/10/222012/2/159.7 94YYNMZC21002770422012/3/62012/6/3012.8 94YYNMZC21002770432012/7/202012/11/1412.2 94YYNMZC21002770442012/12/11/ 94YYNMZC21002770442013/2/62013/6/111.2 94YYNMZC21002770452013/6/282013/10/239.6 94YYNMZC21002770462013/11/152014/。

22、3/147.9 94YYNMZC21002770472014/4/12/ 0060 注:“/” 表示不存在, 即配种不成功或记录缺失。 0061 2、 对步骤1得到的原始记录进行质量控制(如去除个体编号重复、 胎次记录重复及 异常值), 并保留前10个胎次, 剩余2566条记录。 结合系谱数据(共包含1899个个体)采用如 说明书 4/8 页 6 CN 107287330 A 6 下模型(BLUP模型)估计育种值: 0062 yXb+Z1p+Z2u+e 0063 模型中y表示初生窝重性状向量, X表示固定效应关联矩阵, b表示固定效应向量, 固定效应包括场年、 胎次效应, Z1表示永久环境效应。

23、关联矩阵、 p表示永久环境效应向量, Z2表 示 加性 遗 传效 应 关 联 矩阵 、 u 表 示 个 体 加性 遗 传效 应向 量 , e 表 示 残 差 , I表示单位矩阵, A表示基于系谱的亲缘关系 矩阵,分别为永久环境效应方差、 加性遗传效应方差、 残差。 0064 采用AIREML(average information restricted maximum likelihood)算法对方 差组分进行估计,的值分别为1.11、 1.31、 13.03。 再将的值代 入混合模型方程组, 求出u的估计值即为估计育种值。 0065 Henderson线性方程组为: 0066 0067X 、。

24、 Z 2、 Z1分别表示X、 Z2、 Z1的转置矩阵,分别为 b、 u、 p的估计值。 0068 二、 逆回归育种值及权重的计算 0069 根据步骤一得到的估计育种值, 采用Garrick等的方法(Genetics Selection Evolution, 2009, 41(1): 1-8)计算逆回归育种值及权重。 0070 三、 检测与大白猪群体初生窝重性状相关的SNP位点 0071 1、 采用限制性内切酶TaqI和MspI对大白猪基因组DNA进行双酶切, 添加个体识别 序列后, 取等量DNA混合(平均包含22个大白猪样本), 选取长度在400-500bp之间的片段, 在 Hiseq 400。

25、0平台进行双端测序(PE100)。 根据个体识别序列对原始测序数据进行拆分, 平均 每个个体测序短片段数为6.17106条。 对测序数据进行质控, 过滤掉低质量值的测序片段 (质量值小于20的碱基比例超过30), 平均每个个体剩余测序片段数为5.66106条。 0072 2、 完成步骤1后, 采用BWA软件(http:/bio- 过滤后的片段比对到参考基因组(assembly Sscrofa10.2), 然后采用SAMtools软件 ( 结果共得到200588个原始单核 苷酸多态性标记, 即200588个SNP位点。 0073 3、 完成步骤2后, 将200588个SNP位点进行过滤(过滤条件。

26、: 群体检出率大于0.7, SNP位点质量值大于20, 最小等位基因频率大于0.01, 杂合度小于0.9), 剩余80270个SNP位 点。 0074 4、 完成步骤3后, 采用fastphase软件对基因型进行填补, 然后过滤(过滤条件: 群 体检出率大于0.7, 最小等位基因频率大于0.01, 杂合度小于0.9), 共得到79725个高质量的 SNP位点。 0075 fastphase软件的网址为http:/stephenslab.uchicago.edu/software.html。 0076 四、 SNP位点的筛选 说明书 5/8 页 7 CN 107287330 A 7 0077 以。

27、步骤二得到的逆回归育种值为因变量, 采用bayesB模型计算每个SNP位点的效 应值。 bayesB模型如下: 0078 0079 模型中yd表示逆回归育种值向量, 表示平均值向量, n表示SNP位点个数, xi表示第 i个SNP位点的基因型(基因型的数字表示, 比如CC、 CT、 TT基因型分别表示为0、 1、 2), gi表示 第i个SNP位点的效应值, e表示残差向量,w为步骤二得到的权重向量, gi服从混 合分布,gi效应值为0的概率为1- 0,的概率为 0。 0080 随着SNP位点的效应值(绝对值)降低, SNP位点对表型(即初生窝重性状)方差的贡 献一般也呈降低趋势, 当然还受到。

28、等位基因频率的影响。 为了以较少数量的SNP对初生窝重 性状进行较好的预测, 选取效应值最大的5个SNP位点, 将这5个SNP位点分别命名为SNP1、 SNP2、 SNP3、 SNP4和SNP5位点, 基本信息见表2。 0081 表2中贝叶斯因子(BF)采用如下公式进行计算: 0082 0083 p为SNP位点效应值不为0的后验概率, 0为SNP位点效应值不为0的先验概率。 当BF 3时, 该SNP位点与初生窝重性状不相关; 当3BF20时, 该SNP位点与表型(即初生窝重性状)有比较强的相关性(Robert E.Kass, Adrian E.Raftery.Journal of the Am。

29、erican Statistical Association, Vol.90, No.430, 773-795.) 0084 结果表明, SNP1位点、 SNP2位点、 SNP3位点、 SNP4位点和SNP5位点均与初生窝重性 状相关。 0085 SNP1位点为大白猪基因组中序列表中序列1自5 末端起第501位核苷酸。 0086 SNP2位点为大白猪基因组中序列表中序列2自5 末端起第501位核苷酸。 0087 SNP3位点为大白猪基因组中序列表中序列3自5 末端起第501位核苷酸。 0088 SNP4位点为大白猪基因组中序列表中序列4自5 末端起第501位核苷酸。 0089 SNP5位点为大。

30、白猪基因组中序列表中序列5自5 末端起第501位核苷酸。 0090 表2 0091 SNP位点所在染色体在染色体上的位置等位基因基因型贝叶斯因子 SNP1128561604CC、 TT、 CT17.6 SNP2288137636位GG、 TT、 GT81.0 SNP37118104654CC、 TT、 CT25.4 SNP41855035460CC、 TT、 CT30.7 SNP51855035763CC、 TT、 CT96.4 0092 实例2、 采用5个SNP位点预测待测大白猪的初生窝重性状 0093 为更加符合育种实践(即用出生早的性状记录完备的个体, 对后代性状行早期预 说明书 6/8。

31、 页 8 CN 107287330 A 8 测), 将618头大白猪按出生日期先后进行分组, 出生日期靠前的495头大白猪作为参考群, 出生日期靠后的123头大白猪作为验证群。 参考群和验证群中, 初生窝重性状均已知, 5个 SNP位点的基因型也已知。 0094 采用SNP位点的基因型信息及系谱信息预测初生窝重性状, 并评估预测的准确性。 具体方法为: 将验证群中的初生窝重性状设定为未知, 然后根据验证群中的SNP位点的基因 型信息及系谱信息对初生窝重遗传值进行预测; 将该预测结果与验证群初生窝重性状的估 计育种值进行比较, 进而评估预测的准确性。 0095 在没有初生窝重性状记录情况下, 采。

32、用如下模型预测验证群的育种值: 0096 yXb+Z1p+Z2u+Z3w+e 0097 模型中y表示初生窝重性状向量, X表示固定效应关联矩阵, b表示固定效应向量, 固定效应包括场年、 胎次效应, Z1表示永久环境效应关联矩阵、 p表示永久环境效应向量, Z2表示加性遗传效应关联矩阵、 u表示个体加性遗传效应向量, Z3表示标记效应关联矩阵、 w 表示标记效应向量, e表示残差,I表示单位矩 阵, A表示基于系谱的亲缘关系矩阵,分别为永久环境效应方差、 加性遗传效 应方差、 残差。 0098 采用AIREML(average information restricted maximum li。

33、kelihood)算法对方 差组分进行估计(取618个个体的初生窝重性状记录),的值分别为1.02、 0.44、 13.02。 求解混合线性模型方程组(495个个体有初生窝重性状记录), 进而得到没有初 生窝重性状记录情况下123头大白猪(验证群)初生窝重性状的估计育种值。 0099 混合线性模型方程组为: 0100 0101 MX Z3 0102 0103其中, M 为M的转置矩阵, 为n的估计值, X 、 Z 2、 Z1分别表示X、 Z2、 Z1的转置矩 阵,分别为b、 u、 p的估计值。 0104 按照实施例1步骤一的方法, 获得有初生窝重性状记录情况下123头大白猪(验证 群)初生窝重。

34、性状的估计育种值。 0105 验证群育种值的预测可靠性采用验证群育种值与校正表型值的相关性(Guo et al.Journal of Animal Science,2015,93(2):503-12; Guosheng Su et al.PLoS One.2012,7(9):e45293)来进行评价, r2cor2(EBV, yc)/h2, r2为预测可靠性, EBV为验证群体的育种值, 为基于全部数据计算的育种值,为残差, n为记录胎次数, h2为 遗传力。 由于h2为常数, 因此不同方法预测准确性的比较可以简化为比较rccor(EBV, yc) 的大小。 说明书 7/8 页 9 CN 10。

35、7287330 A 9 0106 结果表明, BLUP预测可靠性(rc)值为0.014, 而采用本发明筛选的5个SNP位点预测 的可靠性值为0.033, 相比BLUP提高了129.7。 0107 因此, 利用本发明提供的5个SNP位点可以预测待测大白猪的初生窝重遗传性能, 且具有成本低、 准确性高的特点, 可进一步加快大白猪的初生窝重性状的遗传进展, 为育种 者带来经济效益。 本发明具有重要的应用价值。 说明书 8/8 页 10 CN 107287330 A 10 深圳华大基因研究院 深圳市农牧实业有限公司 一种预测待测猪的初生窝重遗传性能的SNP位点组合及方法 5 PatentIn vers。

36、ion 3.5 1 1001 DNA 人工序列 (501).(501) n为c或t 1 ttatgccaag atttttcacc agtggacagt ttaatctcat aaccacacgt gtacggctac 60 ataattgttt ggtttttggt ttttggtttt tgggtttttt tttttttttt tttttgtctt 120 tttgtctttt ctagggccgc tcccgcagca tatggaggtt cccaggctag gggtttaatc 180 ggagctgtag ccaccggcct acgccagagc cacagccacg tgg。

37、gatccga gctgcgtctg 240 caacctacac cacagctcac ggcaacgccg gaacctaacc cactgagcaa agccagggat 300 caaacccgca acctcatggt tcctagtcgg attcgttaac cactgagcca ctacgggaac 360 tccagttgtt tgttaaataa tatctttttc ttgtttagca ttttggtttt cagtagtaaa 420 attaaagtag tctggaacaa atgaagcttt acacaaaatt cagtagcacc agtagatcca 4。

38、80 atgctagtca atgaccagta nggtcttagc agaatggatt gttcgagaat gagtttgggg 540 tatattttag tcaggctgca tcttcatctt gactctaggt ttatgttcct cttattggag 600 ttcatttgat ttccagaaat gtgtctcctt accctaccaa acttggagca gagtttggct 660 acaaaaatcg taaattgcag gctgacttgg gattcacaag ctcattctga aggggccact 720 tgcctttctg gtgggc。

39、agag ttcactctct gcttagtcag ttactattaa acttgggctt 780 tgcacaaaag ggcagattct ggaaaattca gacatgtcct ccagagactc agccatagac 840 atgcaaactg caagtcatat gcatcaaaat tggtgactcc tttttccaga gggctctgtg 900 gttcttgagc ttggggaggc ccagcaaagg gaagtgactg ggaacctggg ctcagtcctc 960 ctgcccagct ggagtttccc acctgtactc cttg。

40、agcaaa t 1001 2 1001 DNA 人工序列 (501).(501) r为g或t 序列表 1/4 页 11 CN 107287330 A 11 2 cactgggaca gcgactgtgc catggcttgc tgcctgccca gtgccggcgg cagcggcagc 60 tgcgacacgc ccggcatggc tgccgccgcc cagcgggtgt cgttggcgtg gaaagagcac 120 aggctgtcgc ccatggcggc ggcggcggcg gcggcggccg acgggaactg tggaaggcct 180 ggcgtgggca。

41、 gcagcgtgcc aggagcgcgg aacacgttgg tagtcttctt gcgcttcttc 240 cacttcgcgc gccgattctg gaaccagacc tgcagcgggc ggggcaggag acacacacag 300 ggcgttgtta gcaggggtgg ggtgccggct tgagcctggg aaacccgcgg caggtccacc 360 ccactcagcc ccaggcccaa gtgccagaga ccctggtcct ccaccagctc gtgtcagtcg 420 gtgtccctcg cacccactgg gcaccagc。

42、tc ccggggtcct gagggattgt cccccagagc 480 gcttacaaac agttcagaca racgtcgcgc gcagtgttca ccccgcccct gcacgctggc 540 acattgtgtg cgcggcttag atgcacaggt ctacaggcag gcaggtgtca aggcttggac 600 cctcaggtgt acaaatgaag ataaacatgt gtacccagga ggcttaatag cgtgccttat 660 aacactgatg gggtatagaa ttttcagaaa cactggaaat ttggaa。

43、attg atgaagggcc 720 gtggatgaca tagccagttt caaaatcgaa agacaaagga aaacccctaa cgccaccaga 780 tgacagagcg gagcggttaa tatagtgatc cgcatgggaa agcgagcgcc atgagctaca 840 gttatttggg tcgccaaacc gtgacttctg attcttagcg attggtacta ctgccacaat 900 tttggatact tcattctcaa ggccttctaa gagcaccttt atctgggcta tgcagatgtg 960 。

44、ctggaacctg ctgccagagc cctgagcctc aggaccttca a 1001 3 1001 DNA 人工序列 (501).(501) n为c或t 3 tgcaaatcag gttggtctat gctcactctg atgaataact tatgtgaaaa gaacttgaag 60 atagcaaatg aatttaatta tcagtgaaaa ttaccaaaga agaactaatg tttgcaaatg 120 ctaatatttt attataaaat acactgttat tgtttctact atctaacact ttaccaaatt 180 tgaa。

45、gcagat ttagcaattt gccttatgca caaaaaagta cttaggtctg catagtgtta 240 taccttcttt tttcttcagt tagtgctaaa cataaaacca ttattttcag atccttgatc 300 tagctttcag aatttatcct ctactcttca ccatgtgaaa taaaagttct gttttgacac 360 cagggaaaaa tacagaaaca cacatattta cacacaaata taaattatat gatcatttgc 420 ccaacacaat tacatttcca ag。

46、tgaaaaag tatgtgaaag tggctttcta agagatgaag 480 cattccggca aaatgcaaaa naaaaaagtt ccaagtgaat gatcctttag ggtagaaaaa 540 ggttagctgt gaatacgctt gtgaaatata ctgtggagga ttctcattct gagattatga 600 tcgttcttgc ctccaggttc aagtgttgct caatcagcaa ggtgctcaat tcacagtgat 660 tgcggcgcat ttcctcgttg atcaggaaaa tgcgtaatct 。

47、cagcctagac acatttacca 720 序列表 2/4 页 12 CN 107287330 A 12 taaaaatgaa tatacgaaat aggatttttg atttaaattt tccagttgca gcatatcgag 780 aaaaatatat gcaagagaag attctgtttg aaaagctcta attcaaataa gtccaaaaag 840 aacacatctc tatgtaccta acgctgtctt gccattagat agcaagcttt tctcgctcag 900 agcccttgtc aatttgatta aactcacaaa 。

48、cacgtggctg actccgcccc ttttaaaaat 960 actctctagc cgagccggag gatgactgag aagcatgtgg c 1001 4 1001 DNA 人工序列 (501).(501) n为c或t 4 ggagcaaagg aggaaggcgg gctgtcctgg caatggatga cttgaggaag gctgaggcac 60 gggcacggga tgggtgaaca gggcgaggga ggtcacagcc aggaacaccc cggaagtcta 120 ccctgacacc ttgagctcaa ggtcatcagg aagcgtgggg gccaggaggg ggagtggcac 180 cgacaggaga ttctgtgtct ggatccgggg cagctccggc ccccagacct cctcctgtac 240 ccagacaaca ggcacctggg caagccgctt accc。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 >


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1