技术领域
本发明涉及分子标记领域,具体而言,涉及一种SNP分子标记mk6330及其应用。
背景技术
黄麻属于二倍体锦葵科植物,是继棉花之后在种植面积和产量方面最为重要和常用的天然纤维作物。黄麻能够在营养贫瘠的土壤中快速生长,获得大量的生物质,所得纤维具有柔软、易于干燥、吸湿性和抗菌性好、可降解、可回收和环境友好的特点,被广泛应用于造纸、纺织、中草药、阔叶蔬菜和可再生生物燃料能源。因此,全球对黄麻的需求不断增加。
盐胁迫对黄麻的形态发育和生长具有显著影响,具体涉及细胞渗透压、离子毒性、氧化应激、细胞结构损伤以及代谢紊乱。了解耐盐遗传机制并绘制与耐盐性相关的数量性状基因座(QTL)在黄麻的遗传育种和生产方面具有重要的意义。然而,迄今为止尚无在黄麻中成功定位与耐盐相关的QTL的报道。
有鉴于此,特提出本发明。
发明内容
本发明的第一目的在于提供一种SNP分子标记mk6330,其与黄麻耐盐QTL(qJST-1)紧密连锁,通过检测黄麻样本在mk6330处的遗传信息反映该样本的耐盐性,对于遗传育种和种质资源的鉴定具有重要意义。
本发明的第二目的在于提供一种检测黄麻耐盐性的方法。
本发明的第三目的在于提供一种黄麻育种方法。
本发明的第四目的在于提供由前方法方法产生的黄麻植物用于生产具有耐盐性的黄麻繁殖材料的用途。
本发明的第五目的在于提供前述mk6330在构建黄麻遗传图谱或研究黄麻种群遗传多样性中的应用。
为了实现本发明的上述目的,特采用以下技术方案:
一种SNP分子标记mk6330,所述mk6330位于AWUE01014574.1上的第13864位,参考碱基为C,变异碱基为T。
本发明还涉及:
一种检测黄麻耐盐性的方法,检测黄麻样本中所述mk6330的遗传信息,根据所述mk6330的遗传信息判断所述黄麻样本是否具有耐盐性。
在一些具体的实施方式中,通过探针、PCR扩增或测序获得所述mk6330的遗传信息。
在一些具体的实施方式中,通过PCR扩增获得所述mk6330的遗传信息。
在一些具体的实施方式中,通过PCR扩增获得所述mk6330的遗传信息。
在一些具体的实施方式中,所述PCR扩增使用的引物对如SEQ ID NO:13~14所示。
本发明还涉及:
一种黄麻育种方法,所述方法包括以下步骤:(1)执行前述方法;(2)根据所述步骤(1)挑选具有耐盐性的黄麻样本,将其作为亲本繁育子代。
在一些具体的实施方式中,通过回交、自交和/或与具有优良农艺性状的其他黄麻杂交的方式繁育获得所述子代。
本发明还涉及:
由前述育种方法产生的黄麻植物用于产生具有耐盐抗性的黄麻繁殖材料的用途,其中所述繁殖材料适宜于有性繁殖、植物性繁殖或可再生的细胞的组织培养。
在一些具体的实施方式中,适宜于有性繁殖的所述繁殖材料选自小孢子,花粉,子房,胚珠,胚囊和卵细胞;
适宜于植物性繁殖的所述繁殖材料选自插枝,根,茎,细胞,原生质体;
适宜于可再生的细胞的组织培养的所述繁殖材料选自叶,花粉,胚,子叶,下胚轴,分生组织细胞,根,根端,花药,花,种子和茎。
本发明还涉及:
前述mk6330在构建黄麻遗传图谱或研究黄麻种群遗传多样性中的应用。
与现有技术相比,本发明的有益效果为:
本发明利用SNPs成功构建黄麻高密度遗传图谱,耐盐性状的主效QTLs和微效QTLs得以在遗传图谱上准确定位,并获得包括mk6330在内的、与其紧密连锁的SNPs。所述SNP分子标记mk6330能够准确反映该样本的耐盐性,对于遗传育种和种质资源的鉴定具有重要意义。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为连锁群标记分布图;
图2为连锁群LG4上的部分SNP分子标记连锁信息;
图3为连锁群1相邻标记间连锁关系热图,纵轴:位于同一条连锁群上的marker,从上到下分别为连锁群标记按遗传距离排列;
图4为140mM盐浓度下,第4天的STIG数据;
图5为160mM盐浓度下,第4天的STIG数据;
图6为140mM盐浓度下,黄麻耐盐性的QTL作图结果;
图7为160mM盐浓度下,黄麻耐盐性的QTL作图结果。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购买获得的常规产品。
实施例1作图群体和DNA提取
1.作图群体
野生型黄麻(C.olitorius L.)种质J009和耐盐性低于J009的黄麻(C.olitorius L.)变种Guangfengchangguo(GFG)作为亲本植物。150个F2代个体用于构建高分辨率遗传图谱,并结合F2:3后代耐盐性状进行耐盐QTLs定位。植物野生种质资源通常携带大量的抗性基因,是抗逆境育种的天然基因库,因而非常适合黄麻耐盐基因的筛选。
2.DNA提取
从150个F2代个体和2个亲本的嫩叶组织提取基因组DNA,用于制备基于测序的基因分型(genotyping-by sequencing,GBS)库。其中,基因组DNA的提取使用DNeasy Plant Mini Kit(天根,北京,中国);DNA降解和污染通过1%琼脂糖凝胶监测;DNA的纯度通过分光光度计(IMPLEN,CA,USA)确定;DNA的浓度通过DNA Assay Kit和2.0荧光计(Life Technologies,CA,USA)检测。
实施例2发芽期耐盐性的评价
在两种不同盐浓度环境下(140mM和160mM)进行耐盐实验,具体实验如下所示:
将作图群体(150个F2:3家系)的种子表面灭菌,每个家系的种子按30粒/皿的量分别种植在两个具有相同灭菌纸的Petri培养皿中并置于照明培养箱中培养(培养条件:相对湿度75%,12h-12h昼/夜光周期,对应温度为28±0.5℃/25±0.5℃),其中,一培养皿用于盐胁迫(盐胁迫组),另一培养皿用于对照(对照组)。
所述盐胁迫组和对照组的设计如下所示:培养的第1天,盐胁迫组培养皿加入3ml氯化钠溶液,而对照组培养皿加入3ml水,之后所述盐胁迫组和所述对照组每天分别加入2ml氯化钠溶液和2ml水至对应培养皿(共计6天)。在每种盐胁迫环境下,完全随机地设置3个生物学重复。在6天的实验全程,每天观察并记录种子萌发的条件。当芽长于3mm时,将种子定义为发芽种子。
种子萌发的耐盐指数(STIG)根据以下等式评估:
STIG=(盐胁迫环境下发芽的种子数/种子总数)/(对照条件下发芽的种子数/种子总数)
实施例3文库构建及测序
根据标准GBS方案构建实施例1所述DNA的GBS文库,具体包括:
1、用限制性内切酶MseⅠ和HaeⅢ消化DNA,随后连接条形码化适配体(barcoded adapters)以带有个体化标签,所得带有不同条形码序列的限制性连接样品使用Agencourt AMPure XP(Beckman)纯化;
2、使用Phusion Master Mix(NEB)通用引物(universal primer)和索引引物(index primer)对纯化的样品进行PCR扩增以获得完整的i5和i7序列;
3、使用Agencourt AMPure XP(Beckman)纯化PCR产物并合并,然后在2%琼脂糖凝胶上电泳;使用凝胶提取试剂盒(Qiagen)分离375-400bp的片段(包括索引和适配体);
4、使用Agencourt AMPure XP(Beckman)纯化这些片段产物,并用于Illumina HiSeqTM 2000平台的配双末端(Paired-End)测序,测序数据经严格过滤后获得高质量的有效数据(参见表1)。
为尽可能多地检测到SNP标记,本实施例对2个黄麻亲本样本(CFG和J009)进行高水平测序,其中,总的高质量测序数据量为16.78Gb(平均Q20=95.30%,读长为150bp),每个样本分别为8282642100bp和8399779200bp(参见表1)。本实施例共测序150个黄麻F2代样本,总的高质量测序数据量为113.47Gb(平均Q20值为95.56%),个体测序长度从447.55Mb至1087.85Mb不等,平均测序长度为756.57Mb(参见表1)。结果显示前述测序结果的测序质量高(Q20≥90%),GC分布正常,本实施例建库测序成功。
表1测序结果信息的统计
注:Sample:样本名称;Raw base:原始数据的碱基个数;Clean base:原始数据经过滤后的高质量碱基数;Effective rate:数据有效利用率,即clean base与Raw base的百分比;Q20:Phred数值大于20的碱基占总体碱基的百分比;GC content(%):GC含量。
5、将高质量的有效数据与黄麻参考基因组比对,具体比对方法如下所示:
(1)使用BWA比对软件(参数:mem-t 4-k 32-M-R),将亲本和子代Clean data的PE reads与参考基因组进行比对,参考基因组基本情况参见:https://www.ncbi.nlm.nih.gov/genome/?term=olitorius;(2)使用SAMtools将比对结果进行格式转换,转换成SAM/BAM files;(3)使用Perl脚本统计比对率和覆盖度;(4)使用SAMtools对比对结果进行排序(参数:sort),用于后续分析。
比对结果显示,两个亲本样本平均比对率为93.12%,平均覆盖度为97.24%(至少有一个碱基的覆盖),平均测序深度为20.97×。F2代的平均比对率为94.92%,平均覆盖度为21.36%,平均测序深度为9.71倍。
实施例4 SNP检测和基因分型
1、用GATK等软件进行群体SNP的检测,具体分析步骤如下:(1)对BWA比对结果进行过滤:将比对到基因组上唯一位置的读长(reads)挑选出来,进行后续分析;(2)SNP检测:采用GATK(-type UnifiedGenotyper)对过滤后的bam文件进行群体SNP的检测;(3)SNP过滤:为减少测序错误造成的假阳性SNP,亲本与子代要求SNP碱基支持数不少于4;(4)SNP相关信息统计:杂合SNP数,纯合SNP数,杂合SNP比率。其中亲本SNP检测结果如表2所示,F2代SNP检测结果未示出。
表2亲本SNP检测结果统计
注:Homozygous SNP:纯合SNP,如AA;Heterozygosis SNP:杂合SNP,如AC;Het rate:Heterozygosis SNP/Total;Total:所有SNP的个数。
2、亲本间SNP标记开发:基于2个亲本基因型检测结果,进行亲本间多态性标记开发。过滤掉亲本信息缺失的位点;筛选父母本都为纯合且亲本间具有多态性的位点(例如:在某个SNP位点亲本1基因型为“GG”,亲本2基因型为“AA”,亲本基因型都为纯合,且亲本间基因型不相同)。该项目共获得多态性位点1959620个,其中F2群体可用标记类型为“aa×bb”型,多态性标记217356个。所有开发的标记类型及数量见表3。亲本间多态性标记展示形式见表4。
表3标记开发类型
注:MarkerType:亲本基因型,如ab x cc,ab和cc为父本和母本的基因型;P1 genotype:亲本1基因型;P2 genptype:亲本2基因型;Marker number:各类型标记数;Percentage:各类型标记占有效标记总数百分比;Total:有效标记总数。
表4 F2群体亲本间部分多态性标记展示
注:Chr:标记所在染色体(或Scaffold)编号;Position:标记所在染色体(或)Scaffold上的位置;Ref:参考基因组碱基型;P1:亲本1基因型;P2:亲本2基因型。
3、完成亲本间标记开发后,提取150个F2代在上述2个亲本多态性标记位点的基因型。部分F2代在个别标记位点的基因分型结果如表5所示。
表5子代基因分型
注:Chr:标记所在Scaffold编号;Position:标记所在Scaffold上的位置;Ref:参考基因组碱基型;P1:亲本1基因型;P2:亲本2基因型;J382-1-J382-102:部分子代个体在标记位点的基因型;“--”:表示缺失。
4、对分型后的子代标记进行筛选,具体筛选步骤如下:
(1)异常碱基检查。
F2代分型结果中,可能会出现少数亲本中没有出现的碱基型。例如,某SNP位点,亲本基因型分别为“AA”和“TT”,若子代中出现“A或T”以外的其他碱基(G或C),则该碱基被认为是异常碱基。异常碱基的出现可能受参考基因组组装质量,亲本测序数据质量,基因分型准确性等因素影响,也有可能是子代群体中出现的变异。对于子代中出现而亲本中不存在的异常碱基,将其视为缺失,用符号“--”表示。经检查,未发现有异常碱基,说明基因分型准确性较好。
(2)完整度过滤。
筛选基因型至少覆盖所有F2代75%以上个体的标记(该标准根据实际标记数据量进行适当调整)。即对于单个多态性标记位点,100个F2代中至少有75个个体有确定基因型。通过对基因型完整性覆盖情况差的标记进行过滤,最终得到9019个标记。
(3)偏分离标记(Segregation distortion)过滤。
偏分离标记影响图谱构建结果及QTL定位,采用卡方检验,对上述9019个候选标记进行偏分离过滤,偏分离设定的阈值p为0.001。经过偏分离分析,剩余有效标记共8150个将进入连锁性分析。
实施例5遗传图谱的构建
1、构建连锁群:对筛选后得到的高质量遗传标记,采用Joinmap 4.0软件遗传图谱构建:1)连锁群划分,LOD值设置为2~30;2)对每个连锁群采用最大似然法进行排序;3)采用Kosambi函计算标记间的遗传距离。遗传连锁群的具体信息如表6所示。
2、用perl SVG模块绘制连锁图,各连锁群上标记分布如图1~2所示。
3、利用连锁群热图,评价标记见连锁关系;标记正确,则标记间的连锁关系随着标记间距离增大而变弱。图3示例性地展示连锁群1相连标记连锁关系。
表6遗传连锁群信息统计结果
注:Group:连锁群编号;SNP markers:SNP标记数量;Map length:遗传距离长度;Average distance(cM):平均遗传距离;Gap<5:标记间遗传距离小于5cM的百分比。
实施例6耐盐QTL的定位
记录实施例2所述150个F2:3家系在盐胁迫条件下的STIG,STIG数据在第4天出现正态分布,被用作QTLs的表型数据(图4~5)。将定位在7个连锁图上的SNPs基因分型数据与每种植物用于QTL定位的耐盐表型数据加以整合。使用基于复合区间定位法(CIM)的QTL Cartographer v2.5进行QTL分析。对于每种性状(trait),根据使用MapQTL的所有标记经1000次置换检验均具有P<0.05的显著性的要求,将两种盐胁迫条件下的LOD阈值定为3.5。通过LOD峰位置和分值在阈值之上的周边区域确定每个QTL的定位区间。
在两种盐胁迫条件下,从连锁群LG4上鉴定出3个明显的QTLs,并在两种盐胁迫环境下同时检测到一个主效QTL,将其命名为qJST-1。qJST-1在140mM盐胁迫环境下定位在连锁群LG4的11.4~23.7cM处,位于标记mk5633和mk6723之间;qJST-1在160mM盐胁迫环境下定位在连锁群LG4的16.9~21.6cM处,位于标记mk6160和mk6484之间。在140mM和160mM盐胁迫条件下,qJST-1的LOD峰定位在连锁群LG4的19.31cM处,分别解释了11.81%和19.61%的总表型变种。qJST-2在140mM盐胁迫环境下定位在标记mk7047和mk5638之间(连锁群LG4的9~11.4cM处),其LOD峰定位在连锁群LG4的10.01cM处,解释了3.74%的表型变种。qJST-3在160mM盐胁迫环境下定位在标记mk6393和mk6391之间(连锁群LG4的10.4~16.9cM处),其LOD峰定位在连锁群LG4的13.41cM处,解释了8.84%的表型变种。QTLs的所有加性效应均为负值,表明耐盐性的增加是由J009等位基因赋予的。另外,尽管多个位置的LOD值在3.5以下,但在这些位置发现明显的峰(LOD>2.0),这些位置区域被认为涉及微效(例如,minor)QTLs。在140mM(n=5)和160nM(n=8)盐胁迫条件下,从连锁群LG2、LG4、LG5和LG7中鉴定13个微效(minor)QTLs,解释了0.58~8.12%的表型变种。QTLs的区间长度从1.3cM至20.2cM不等。其中,QTLs的定位结果如图6~7所示,前述QTLs的具体信息如表7所示,与所述qJST-1、aJST-2和qJST-3紧密连锁的SNPs标记如表8~9所示。
表7两种盐胁迫条件下与耐盐性相关的QTLs
注:PVE解释表型突变体的百分比。
表8与qJST-1、qJST-2和qJST-3紧密连锁的分子标记
注:Trait:性状编号;Lg:连锁群编号;第三列Position(cM):qtl区段中LOD峰值所在遗传位置;LOD:qtl区段中LOD值峰值;Additive_effect:加性效应;Dominant_effect:显性效应;R2:QTL解释表型变异的比例;LOD2_L(cM):99%置信区间下,QTL左边界;LOD2_R(cM):99%置信区间下,QTL右边界;Marker2_L:QTL左边界对应的标记名称;Marker2_R:QTL右边界对应的标记名称。
表9与qJST-1、qJST-2和qJST-3紧密连锁的分子标记的具体信息
实施例7
设计用于扩增与qJST-1和qJST-2紧密连锁的SNPs分子标记的引物对,以实现对所述分子标记和对应QTL的检测,具体引物信息如表10所示。
表10 SNPs分子标记的扩增引物信息
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
SEQUENCE LISTING
<110> 中国农业科学院麻类研究所
<120> 一种SNP分子标记mk6330及其应用
<160> 18
<170> PatentIn version 3.3
<210> 1
<211> 22
<212> DNA
<213> 人工序列
<400> 1
taagtaggta cactatggga ta 22
<210> 2
<211> 18
<212> DNA
<213> 人工序列
<400> 2
tacggagaac aaatgaag 18
<210> 3
<211> 26
<212> DNA
<213> 人工序列
<400> 3
attttagcca aaatcgtgta ctaacc 26
<210> 4
<211> 25
<212> DNA
<213> 人工序列
<400> 4
aaaactgtga tggtgattac acgat 25
<210> 5
<211> 22
<212> DNA
<213> 人工序列
<400> 5
ttctcaggca ggcagtagcc at 22
<210> 6
<211> 27
<212> DNA
<213> 人工序列
<400> 6
tatattggat catcctaaga gcggacc 27
<210> 7
<211> 27
<212> DNA
<213> 人工序列
<400> 7
tgctatagtc tatatgcttg atgcttt 27
<210> 8
<211> 26
<212> DNA
<213> 人工序列
<400> 8
agtaagggaa gagtgaagat ttgaac 26
<210> 9
<211> 26
<212> DNA
<213> 人工序列
<400> 9
tctataatta ttacttcaac agggca 26
<210> 10
<211> 24
<212> DNA
<213> 人工序列
<400> 10
tcagactgat atttttgtca ccat 24
<210> 11
<211> 16
<212> DNA
<213> 人工序列
<400> 11
acaaatcggc aaatcc 16
<210> 12
<211> 18
<212> DNA
<213> 人工序列
<400> 12
tggttgggtc aaataaac 18
<210> 13
<211> 22
<212> DNA
<213> 人工序列
<400> 13
gaaaaagatg gaagaaatag gg 22
<210> 14
<211> 27
<212> DNA
<213> 人工序列
<400> 14
attgaaaaca atacatgtta ttctgtt 27
<210> 15
<211> 29
<212> DNA
<213> 人工序列
<400> 15
tacttacatt ctcaggcagg cagtagcca 29
<210> 16
<211> 30
<212> DNA
<213> 人工序列
<400> 16
ggttttctgg tgtaccccct acttgtatgg 30
<210> 17
<211> 17
<212> DNA
<213> 人工序列
<400> 17
cttcctcaat ccctcat 17
<210> 18
<211> 17
<212> DNA
<213> 人工序列
<400> 18
acatccatat cccgtgt 17