改造合成的苏云金芽孢杆菌杀虫晶体蛋白基因Cry1C* 技术领域:
本发明属于基因工程技术领域,属于对苏云金芽孢杆菌(Bt)杀虫晶体蛋白(ICP)基因的一种创新。具体涉及到:部分改变原始基因的密码子组成,保留原基因中编码杀虫晶体蛋白的N端毒性区的DNA序列,部分去除原基因中编码C端的DNA序列,在5’端添加提高基因表达效率的引导序列和在3’端添加加尾识别序列,改造合成用于转基因植物中高效表达的杀虫基因Cry1C*。
背景技术:
虫害是造成农业生产损失的一个重要因素。据统计,虫害每年给农业生产造成的直接经济损失高达13%。
化学杀虫剂曾对防治虫害、稳定农业生产做出过重要贡献。随着人们对化学杀虫剂环境危害的认识、环保意识的日益加强,对环境安全的生物杀虫剂已成为研究的热点。在生物杀虫剂中,目前研究最清楚、应用最成功的是一类Bt制剂。Bt制剂的有效成分是Bt杀虫晶体蛋白(ICP)。Bt杀虫晶体蛋白(ICP)是苏云金芽孢杆菌在芽孢形成过程中产生的。但生产上也发现,Bt制剂存在着不稳定的问题,一方面在田间易被雨水冲刷流失,药效短;另一方面,因为Bt杀虫剂的活性成份是蛋白质,在阳光中紫外线地照射下易被分解而失效。植物转基因的成功为Bt杀虫晶体蛋白的应用提供了一条崭新途径。
Bt杀虫晶体蛋白(ICP)是由Bt基因编码产生。许多ICP的氨基酸序列存在不同程度的同源性。1989年,Hfte和Whiteley(Hfte H and Whiteley HR,Microbio.Rev.,53:241-255)根据ICP的杀虫谱及氨基酸序列的同源性将当时发现的大约42个基因分为五大类、15个亚类。其中前四类为晶体蛋白的基因家族(Cry),第五类被称为细胞溶解蛋白基因(Cyt)。CryI基因编码对鳞翅目昆虫有毒性的CryI蛋白,CryII基因编码对鳞翅目和双翅目昆虫有毒性的CryII蛋白,CryIII基因编码对鞘翅目昆虫有毒性的CryIII蛋白,CryIV基因编码对双翅目昆虫有毒性的CryIV蛋白。由于新的杀虫基因的不断分离鉴定,根据Hfte和Whiteley的双重分类方法,1992年,Feitelson等(Feitelson et al.,Bio/Technology,10:271-275,1992)对原有的分类进行了补充,将Bt基因分为7大类,29亚类。除原来的5大类,新增加了CryV和CryVI两大类。随着新Bt基因数量的不断增加,人们发现原有的分类方法存在氨基酸同源性与杀虫特异性相互矛盾的问题。因此,在1995年无脊椎病理学会年会上专门成立了由Crickmore等人组成的Bt基因命名委员会,提出了以杀虫蛋白氨基酸序列同源性为唯一标准的分类命名体系,将Bt基因分为17大类、3啊亚类(Crickmore et al,1995),1996年增补为21大类、44亚类;至2002年8月2日,Bt基因达到42大类、110亚类,总计200多个Bt基因序列。
典型的ICP由两部分组成,N端的活性片段和C端的结构片段,带有结构片段的ICP被称为原毒素。它经过蛋白酶的消化作用后,产生有活性的毒性肽。最近有人指出,在N端的活性片段又分为毒性区和细胞结合区。当Bt杀虫晶体蛋白被靶昆虫取食后,经溶解和酶解两个步骤产生活性毒素分子,释放出的活性毒素可穿过昆虫中肠道滋养层细胞空隙直接与消化道上皮细胞作用。细胞结合区与昆虫中肠道上皮细胞的受体特异结合后,毒性区直接作用于细胞膜,使细胞膜穿孔,破坏细胞的渗透平衡,最后引起细胞的裂解。
1987年,Vaeck等(Vaeck et al.,Nature,328:33-37,1987)、Barton等(Barton etal.,Plant Physiol.85:1103-1109,1987)、Fischoff等(fischoff et al.,Bio/Technology,5:807-813,1987)获得了转Bt基因植物。但他们获得的这些早期的转Bt基因植株的抗虫性都很弱,难以检测出mRNA的转录,蛋白质表达量很低。造成Bt基因在植物中表达量低的原因有许多:例如,1、野生Bt基因中富含AT序列,在植物中表达的mRNA不稳定;2、野生Bt基因中可能存在真核基因的内含子切割位点、转录终止信号序列,造成转录本不完整或转录本的异常加工;3、微生物与植物在翻译中对密码子的使用频率上有很大差异,使翻译效率降低;4、真核基因的5’-UTR序列与原核基因有很大的不同,以及真核基因的3’端需要加尾识别信号序列。因此,要使得Bt基因在转基因植物中高效表达,必须对野生Bt基因进行有效的改造。
1990年,Adang等(Adang et al,EP0359472,1990)通过调整野生基因的A+T含量和密码子的使用频率,使其与双子叶植物基因保持一致,去除了影响基因在植物中表达的AATGAA,合成了一个新Btt基因:新基因与原基因的同源性为85%,A+T含量下降到正常植物基因的水平(55%)。利用改造的基因转化植物,Bt蛋白的表达量得到提高。
1991年,Perlak等(Perlak et al,PNAS USA,7164 88:3324-3328 1991)在不改变晶体蛋白氨基酸序列的情况下,对Cry1Ab基因进行了部分改造或通过人工合成进行完全改造,选用植物偏爱的密码子,部分去除了原序列中干扰基因在植物中表达的元件,如ATTTA序列,获得了PM和FM基因;结果,转PM和FM基因植物的目标蛋白表达量获得提高。
1992年,郭三堆等人(郭三堆等,中国发明专利申请号:95119563.8)通过双链合成DNA方法,人工合成了全长1824bp的Cry1Ab和Cry1Ac融合的GFM杀虫基因,结果Bt毒蛋白在植物中的表达量大幅度提高,全合成基因比原基因的表达量提高了约100倍。之后,许多科学工作者对Bt杀虫基因进行了大量的改造研究,并利用改造的Bt杀虫基因做了大量的植物转化工作,为培育Bt抗虫植物打下了基础。据不完全统计,至今已有部分改良或人工合成的Bt基因(用于转基因植物)专利四十多项。
典型的CryI基因的编码杀虫晶体蛋白约130kD,而目前改造合成的大多数CryI基因为部分去除编码杀虫晶体蛋白C端的DNA序列的切短基因。以上列举的三个实例均为切短编码序列的基因改造。对已经发表的改造Cry1基因的序列分析可以看出,保留原始基因5’端编码约70kB蛋白的DNA序列就能满足植物转基因的需要。
发明内容:
本发明的目的在于人工改造合成新的Cry1C*基因(DNA)序列。
本发明通过以下方案实现:
一种被命名为Cry1C*的苏云金芽孢杆菌(Bt)DNA序列,它具有核苷酸编码序列表SEQ ID NO:1所示的序列。还具有如序列表SEQ ID NO:2所示的5’端非编码的引导序列和序列表SEQ ID NO:3所示的3’端的加尾识别的序列。
所述的的编码核苷酸序列SEQ ID NO:1的C+G含量为44.62%,与原始DNA序列的同源性为84.0%。
所述的DNA序列的密码子组成如图1所示。
所述的DNA序列,包括该DNA序列在植物细胞中的表达,更进一步的在植物转基因抗虫育种上的应用。
具体步骤包括:
(1)以Cry1Ca5为蓝本,除去3’端编码128个氨基酸的384个核苷酸,得到5’端编码630个氨基酸的含1890个核苷酸的序列。
(2)根据植物对密码子使用的偏爱性,在保持氨基酸组成不变的情况下,用植物基因高频使用密码子部分置换1890个核苷酸的序列的密码子,初步获得一个改造的DNA序列。
(3)排除DNA序列中存在的典型的造成植物基因转录本不稳定的富含AT序列以及常用限制性内切酶位点,然后通过置换密码子的方法进行改正。
(4)用改进的编码序列的正链和对应的负链进行Blast2分析,通过置换密码子的方法排除基因内存在大的反向重复序列。
(5)确定Cry1C*基因如序列表SEQ ID NO:1所示的编码序列。
(6)在确定的Cry1C*基因的编码序列的5’端添加如序列表SEQ ID NO:2所示的序列,在3’端添加如序列表SEQ ID NO:3所示的序列。
(7)在序列两端加上进一步克隆需要的限制性内切酶识别位点序列。最终确定Cry1C*基因如序列表SEQ ID NO:4所示的序列。
(8)化学合成如序列表SEQ ID NO:4所示的序列。
以下对核苷酸序列表进行说明:
1、序列表SEQ ID NO:1是设计的Cry1C*的编码序列
2、序列表SEQ ID NO:2是Cry1C*的5’端引导序列:
3、序列表SEQ ID NO:3是Cry1C*的3’端加尾识别信号和转录终止序列:
4、序列表SEQ ID NO:4是合成的Cry1C*基因序列
附图及其说明:
附图1:是本发明涉及的植物基因密码子使用频率的比较分析
附图2:本发明改造合成的Cry1C*与原Cry1Ca5的5’端1890个核苷酸的序列的密码子特征比较
具体的实施方式:
实施例1 植物基因密码子偏爱性分析:
从Genbank中取984条植物基因编码序列及20条高度表达的植物核糖体蛋白基因编码序列,分别统计密码子使用频率处理如图1。从中可以看出,植物基因的密码子的第三位摇摆碱基偏爱使用G或C。
实施例2:Cry1C*编码序列与原Cry1Ca5的5’端1890个核苷酸的序列的密码子特征比较
从Genbank中查找Cry1Ca序列,共获得6条,分别为Cry1Ca1、Cry1Ca2、Cry1Ca3、Cry1Ca4、Cry1Ca5和Cry1Ca6。从中选择序列最短的Cry1Ca5,部分去除其3’端编码序列,保留5’端编码630个氨基酸的1890个核苷酸的序列。依据表1统计结果,采用植物基因高频使用密码子部分置换1890个核苷酸的序列的对应密码子,部分去除其中的ATTTA、AATGAA等富含AT序列和不明确的内含子序列,以及排除基因中存在的大的反向重复序列和常用限制性内切酶识别位点序列;设计出目标合成的Cry1C*基因的编码序列如序列表SEQ ID NO:1所示。目标合成的Cry1C*基因的密码子特征如图2所示。
实施例3 合成的Cry1C*的编码序列特征分析
将原Cry1Ca5的1890个核苷酸的序列与合成的Cry1C*编码序列进行Blast2分析,两条序列的同源性为84.0%。碱基组成的统计结果为:原始基因的C+G%为36.55%,新合成基因的C+G%为44.62%。编码的氨基酸序列的Blast2分析显示,两者编码的氨基酸序列完全一致。
实施例4 提高基因转录本在植物细胞中的稳定性和表达效率的末端序列的添加
通过对植物基因的5’端引导序列的结构分析,设计序列2,该序列如序列表序列表SEQ ID NO:2所示,并加在Cry1C*基因编码序列的5’端。另设计的序列如序列表SEQ ID NO:3所示,该序列添加在Cry1C*基因编码序列的3’端。
实施例5 进一步克隆的限制性内切酶识别位点序列的添加
根据基因进一步克隆的需要,在设计序列的5’端添加BamHI内切酶识别位点序列ggatcc,3’端添加SacI、BamHI和HindIII内切酶识别位点序列gagctcggatccaagctt。
实施例6 Cry1C*基因的合成
通过以上步骤,设计出改造合成的Cry1C*基因序列如序列表序列表SEQ ID NO:4所示。然后通过化学合成该基因,装载在质粒载体pUC18上。
实施例7 合成基因在大肠杆菌细胞中表达和表达产物的毒性检测
将合成的Cry1C*基因构建到大肠杆菌质粒表达载体pGEX-KG,转化大肠杆菌DHIOB;接种单菌落至20mL LB培养基培养4小时,加入IPTG诱导表达试剂,继续培养2-3小时;然后离心收集菌体,加入20mL无菌水重悬;液氮反复冻溶6次,离心去菌体,上清液喂食鳞翅目昆虫菜青虫和二化螟;毒性鉴定结果见表3和表4:
表3合成基因表达产物对菜青虫的毒性鉴定一、喂食24小时 的统计结果处理(三次重复)试虫数(只) 平均死亡率 (%)校正死亡率(%) 清水 18 5.56 空白载体 18 11.11 5.88 Cry1C* 18 22.22 17.64二、喂食48小时 的统计结果处理(三次重复)试虫数(只) 平均死亡率 (%)校正死亡率(%) 清水 18 5.56 空白载体 18 22.22 17.64 Cry1C* 18 66.67 64.71
表4合成基因表达产物对二化螟的毒性鉴定一、喂食48小时 的统计结果处理(三次重复)试虫数(只)平均死亡率(%)校正死亡率(%) 清水 30 0 0 空白载体 30 10.0 10.0 Cry1C* 30 36.67 36.67二、喂食72小时 的统计结果处理(三次重复)试虫数(只)平均死亡率(%)校正死亡率(%) 清水 30 0 0 空白载体 30 16.67 16.67 Cry1C* 30 80.0 78.57
苏云金芽胞杆菌基因SEQ:ID:NO:4.WorkFileOrganization Applicant----------------------
Street:狮子山街
City:武汉
State:湖北省
Country:中国
PostalCode:430070
PhoneNumber:027-87282038
FaxNumber:027-87397735
EmailAddress:zhanghb@mail.hzau.edu.cn<110>OrganizationName:华中农业大学Application Project-------------------<120>Title:改造合成的苏云金芽孢杆菌杀虫晶体蛋白基因Cry1C*<130>AppFileReference:<140>CurrentAppNumber:<141>CurrentFilingDate:2002-09-20Sequence--------<213>OrganismName:苏云金芽胞杆菌(Bacillus thuringiensis)<400>PreSequenceString:1atggaggaga acaatcagaa ccagtgtatc ccttacaatt gtctttctaa tcctgaagaa 60gttcttttgg atggagaaag gatctcaact ggtaactcat caattgacat ctctctctca 120cttgttcagt tcttggtttc taactttgtg ccaggaggag gattccttgt tggacttatc 180gacttcgttt ggggaatcgt tggaccttct caatgggatg catttctcgt tcagatcgaa 240cagctcatca acgaaagaat cgctgagttc gctaggaatg ctgctattgc taaccttgaa 300ggacttggaa acaacttcaa catctacgtg gaggcattca aggaatggga agaagatcct 360aacaacccag caaccaggac cagagtgatc gataggttcc gtatccttga tggacttctt 420gaaagggaca ttcctagctt taggatctct ggatttgaag ttccacttct ctctgtttac 480gctcaagctg ctaatctcca tcttgctatc cttagagatt ctgtgatctt cggagaaaga 540tggggattga caaccatcaa cgtgaacgag aactacaaca gactcatcag gcacatcgat 600gagtacgctg atcactgtgc taacacttac aaccgtggac tcaacaacct tcctaagtct 660acctatcaag attggatcac atacaaccga cttaggagag accttacatt gactgttctt 720gatatcgctg ctttctttcc aaactatgac aataggagat atccaattca gccagttggt 780caacttacaa gggaagttta cactgaccca ctcatcaact tcaacccaca gcttcagtct 840gttgctcagc ttcctacctt caacgttatg gagagcagcg caatcagaaa tcctcacctc 900ttcgacatct tgaacaacct tacaatcttt accgattggt ttagtgttgg acgtaacttc 960tactggggag gacatcgagt gatctctagc ctcatcggag gtggtaacat cacatctcct 1020atctacggaa gagaggctaa ccaggagcct ccaagatcat tcactttcaa cggacctgtg 1080ttcaggactc tttcaaatcc tactcttcga cttcttcagc aaccttggcc agctccacca 1140ttcaaccttc gtggtgttga aggagttgag ttctctacac ctacaaacag cttcacctat 1200cgtggaagag gtactgttga ttctcttact gaacttccac ctgaggacaa cagtgtgcca 1260cctcgtgaag gatacagtca tcgtctttgt catgcaacct tcgttcaaag atctggaaca 1320cctttcctta caactggtgt tgtgttctct tggactcatc gtagtgcaac tcttaccaac 1380acaattgatc cagagaggat caaccagatc cctcttgtga aaggattcag agtttgggga 1440ggaacctctg tgattacagg accaggattc acaggaggtg atatccttcg aagaaacacc 1500tttggtgact tcgtttctct tcaagtgaac atcaactcac caatcaccca aagataccgt 1560
苏云金芽胞杆菌基因SEQ:ID:NO:4.WorkFilecttagatttc gttacgcttc tagtagggat gcacgagtta tcgttcttac aggagctgca 1620tctacaggag tgggaggtca agttagtgtg aacatgcctc ttcagaaaac tatggagatc 1680ggagagaacc tcacatctag aacattcaga tacaccgact tcagtaatcc tttctcattc 1740agagctaatc cagacatcat cggtatcagt gaacaacctc tcttcggtgc aggttctatc 1800agtagcggtg aactttacat cgacaagatc gagatcatcc ttgcagatgc aacatttgaa 1860gcagaatctg accttgaaag agcacaaaag tagtgaccaa cgtatttata tcagaaaata 1920gatgagtcga aattaaaagc ttatacccgt taatga 1956<212>Type:DNA<211>Length:1956
SequenceName:SEQ ID NO:1
SequenceDescription:Feature-------Sequence:SEQ ID NO:1:<221>FeatureKey:CDS<222>LocationFrom:1<222>LocationTo:1956
Other Information:
CDSJoin:NoSequence--------<213>OrganismName:苏云金芽胞杆菌(Bacillus thuringiensis)<400>PreSequenceString:2agactcactc tgagcgtcgt cacacgcagc ttgtgcggga tatcatttgc ctgtaaccgg 60tttccttaaa gcgaaaaccc ccccacccaa aggtaaggct 100<212>Type:DNA<211>Length:100
SequenceName:SEQ ID NO:2
SequenceDescription:Feature--------Sequence:SEQ ID NO:2:<221>FeatureKey:5′UTR<222>LocationFrom:1<222>LocationTo:100
Other Information:
CDSJoin:NoSequence---------<213>OrganismName:苏云金芽胞杆菌(Bacillus thuringiensis)<400>PreSequenceString:3tgacgaattc ccgatctagt aacatagatg acaccgcgcg cgataattta tcctagtttg 60cgcgctatat tttgttttct atcgcgtatt aaatgtataa ttgcgggact ctaatcataa 120aaacccatct cataaataac gtcatgcacc tgaatagatc ttggacaagc gttaggccta 180tctgtgcatt acatgttaat tattacatgc ttaacgtaat tcaacagaaa ttatatgata 240
苏云金芽胞杆菌基因SEQ ID NO:4.WorkFileatcatcgcaa gaccggcaac aggattcaat cttaagaaac tttattgcca aatgtttgaa 300cgatcgggga aattc 315<212>Type:DNA<211>Length:315
SequenceName:SEQ ID NO:3
SequenceDescription:Feature-------Sequence:SEQ ID NO:3:<221>FeatureKey:3′UTR<222>LocationFrom:1<222>LocationTo:315
Other Information:
CDSJoin:NoSequence----------<213>OrganismName:苏云金芽胞杆菌(Bacillus thuringiensis)<400>PreSequenceString:4cggatccaga ctcactctga gcgtcgtcac acgcagcttg tgcgggatat catttgcctg 60taaccggttt ccttaaagcg aaaacccccc cacccaaagg taaggctatg gaggagaaca 120atcagaacca gtgtatccct tacaattgtc tttctaatcc tgaagaagtt cttttggatg 180gagaaaggat ctcaactggt aactcatcaa ttgacatctc tctctcactt gttcagttct 240tggtttctaa ctttgtgcca ggaggaggat tccttgttgg acttatcgac ttcgtttggg 300gaatcgttgg accttctcaa tgggatgcat ttctcgttca gatcgaacag ctcatcaacg 360aaagaatcgc tgagttcgct aggaatgctg ctattgctaa ccttgaagga cttggaaaca 420acttcaacat ctacgtggag gcattcaagg aatgggaaga agatcctaac aacccagcaa 480ccaggaccag agtgatcgat aggttccgta tccttgatgg acttcttgaa agggacattc 540ctagctttag gatctctgga tttgaagttc cacttctctc tgtttacgct caagctgcta 600atctccatct tgctatcctt agagattctg tgatcttcgg agaaagatgg ggattgacaa 660ccatcaacgt gaacgagaac tacaacagac tcatcaggca catcgatgag tacgctgatc 720actgtgctaa cacttacaac cgtggactca acaaccttcc taagtctacc tatcaagatt 780ggatcacata caaccgactt aggagagacc ttacattgac tgttcttgat atcgctgctt 840tctttccaaa ctatgacaat aggagatatc caattcagcc agttggtcaa cttacaaggg 900aagtttacac tgacccactc atcaacttca acccacagct tcagtctgtt gctcagcttc 960ctaccttcaa cgttatggag agcagcgcaa tcagaaatcc tcacctcttc gacatcttga 1020acaaccttac aatctttacc gattggttta gtgttggacg taacttctac tggggaggac 1080atcgagtgat ctctagcctc atcggaggtg gtaacatcac atctcctatc tacggaagag 1140aggctaacca ggagcctcca agatcattca ctttcaacgg acctgtgttc aggactcttt 1200caaatcctac tcttcgactt cttcagcaac cttggccagc tccaccattc aaccttcgtg 1260gtgttgaagg agttgagttc tctacaccta caaacagctt cacctatcgt ggaagaggta 1320ctgttgattc tcttactgaa cttccacctg aggacaacag tgtgccacct cgtgaaggat 1380acagtcatcg tctttgtcat gcaaccttcg ttcaaagatc tggaacacct ttccttacaa 1440ctggtgttgt gttctcttgg actcatcgta gtgcaactct taccaacaca attgatccag 1500agaggatcaa ccagatccct cttgtgaaag gattcagagt ttggggagga acctctgtga 1560ttacaggacc aggattcaca ggaggtgata tccttcgaag aaacaccttt ggtgacttcg 1620tttctcttca agtgaacatc aactcaccaa tcacccaaag ataccgtctt agatttcgtt 1680acgcttctag tagggatgca cgagttatcg ttcttacagg agctgcatct acaggagtgg 1740
苏云金芽胞杆菌基因SEQ:ID:NO:4.WorkFilegaggtcaagt tagtgtgaac atgcctcttc agaaaactat ggagatcgga gagaacctca 1800catctagaac attcagatac accgacttca gtaatccttt ctcattcaga gctaatccag 1860acatcatcgg tatcagtgaa caacctctct tcggtgcagg ttctatcagt agcggtgaac 1920tttacatcga caagatcgag atcatccttg cagatgcaac atttgaagca gaatctgacc 1980ttgaaagagc acaaaagtag tgaccaacgt atttatatca gaaaatagat gagtcgaaat 2040taaaagctta tacccgttaa tgacaaaaaa taaataaaaa cgaattcccg atctagtaac 2100atagatgaca ccgcgcgcga taatttatcc tagtttgcgc gctatatttt gttttctatc 2160gcgtattaaa tgtataattg cgggactcta atcataaaaa cccatctcat aaataacgtc 2220atgcacctga atagatcttg gacaagcgtt aggcctatct gtgcattaca tgttaattat 2280tacatgctta acgtaattca acagaaatta tatgataatc atcgcaagac cggcaacagg 2340attcaatctt aagaaacttt attgccaaat gtttgaacga tcggggaaat tcgagctcgg 2400atcccaa 2407<212>Type:DNA<211>Length:2407
SequenceName:SEQ ID NO:4
SequenceDescription:Feature-------Sequence:SEQ ID NO:4:<221>FeatureKey:gene<222>LocationFrom:1<222>LocationTo:2407
Other Information:
CDSJoin:No