用于合成错误最小化核酸分子的材料和方法.pdf

摘要
申请专利号：	CN201380009031.7	申请日：	2013.02.01
公开号：	CN104220602A	公开日：	2014.12.17
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):C12P 19/34申请日:20130201\|\|\|公开
IPC分类号：	C12P19/34	主分类号：	C12P19/34
申请人：	合成基因组股份有限公司
发明人：	D·吉布森; N·卡亚扎; T·理查德松
地址：	美国加利福尼亚州
优先权：	2012.02.01 US 61/593,813
专利代理机构：	北京纪凯知识产权代理有限公司 11245	代理人：	赵蓉民;陆惠中
PDF下载：	PDF下载

内容摘要

本发明提供了可用于对核酸分子进行纠错的材料和方法。通过暴露于具有单向错配内切核酸酶活性的分子来使具有核苷酸错配的第一多个双链核酸分子片段化，留下在所述分子的末端或近末端具有错配的双链核酸分子。然后将所述核酸分子暴露于具有单向外切核酸酶活性的分子以去除所述错配核苷酸。然后通过例如具有DNA聚合酶活性的分子的作用填充所述缺失的核苷酸。结果是双链核酸分子的核苷酸错配频率降低。本发明还提供了编码错配内切核酸酶的新颖核酸序列、由此编码的多肽以及核酸构建体、转基因细胞及其各种组合物。

权利要求书

1.  一种对核酸分子进行纠错的方法，所述方法包括：
(a)获得包含至少一个核苷酸错配的第一多个双链核酸分子；
(b)通过使具有错配的所述核酸分子与具有单向错配内切核酸酶活性的至少一种分子反应来使具有错配的所述多个双链核酸分子片段化；
(c)通过使(b)的具有错配的所述片段化双链核酸分子与具有与(b)的所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的至少一种分子反应来去除所述核苷酸错配，从而提供片段化无错双链核酸分子；和
(d)组装包含(c)的所述片段化无错双链核酸分子的第二多个双链核酸分子，其中与所述第一多个双链核酸分子相比，所述第二多个双链核酸分子的核苷酸错配频率降低。

2.  根据权利要求1所述的方法，其中所述第一多个核酸分子包含一个或多个合成核苷酸序列。

3.  根据权利要求1所述的方法，其中所述第一多个核酸分子包含一个或多个天然存在的基因序列和一个或多个合成核苷酸序列的混合物。

4.  根据权利要求1所述的方法，其中获得第一多个核酸分子包括合成所述核酸分子。

5.  根据权利要求1所述的方法，其中获得第一多个核酸分子包括由亚型和/或寡核苷酸组装所述核酸分子。

6.  根据权利要求1所述的方法，其中步骤(b)和步骤(c)作为独立反应进行。

7.  根据权利要求1所述的方法，其中步骤(b)和步骤(c)作为一步同步反应进行。

8.  根据权利要求1所述的方法，其中所述单向错配内切核酸酶活性将5'切成所述错配而所述单向外切核酸酶活性将所述核苷酸错配从所述片段化核酸分子的5'末端去除。

9.  根据权利要求1所述的方法，其中所述单向错配内切核酸酶活性将3'切成所述错配而所述单向外切核酸酶活性将所述核苷酸错配从所述片段化核酸分子的3'末端去除。

10.  根据权利要求1所述的方法，其中具有单向错配内切核酸酶活性的所述至少一种分子选自RES I、CEL I、CEL II、SP内切核酸酶、SP I、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、Mut蛋白质、其中任一种的变体和以上任两种或更多种的组合。

11.  根据权利要求10所述的方法，其中具有单向错配内切核酸酶活性的所述至少一种分子选自：CEL I、CEL II、其中任一种的变体和以上任两种或更多种的组合。

12.  根据权利要求1所述的方法，其中具有单向错配内切核酸酶活性的所述至少一种分子由选自以下的核酸序列编码：
a)在低、中或高严格条件下与选自SEQ ID NO:01、SEQ ID NO:03、SEQ ID NO:05、SEQ ID NO:07、SEQ ID NO:09、SEQ ID NO:12、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、任一种的补体和任一种的片段的核酸序列杂交的核酸序列；
b)对选自SEQ ID NO:01、SEQ ID NO:03、SEQ ID NO:05、SEQ ID NO:07、SEQ ID NO:09、SEQ ID NO:12、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、任一种的补体和任一种的片段的核酸序列展现出70％或更高同一性的核酸序列；和
c)编码对选自SEQ ID NO:02、SEQ ID NO:04、SEQ ID NO:06、SEQ ID NO:08、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:21、SEQ ID NO:23、SEQ ID NO:25、SEQ ID NO:27、SEQ ID NO:28和SEQ ID NO:29的氨基酸序列展现出60％或更高同一性的多肽的核酸序列。

13.  根据权利要求1所述的方法，其中具有单向外切核酸酶活性的所述至少一种分子选自外切核酸酶III、DNA聚合酶、λ外切核酸酶、T7外切核酸酶、T5外切核酸酶及其中任一种的变体。

14.  根据权利要求1所述的方法，其中具有单向外切核酸酶活性的所述至少一种分子为具有校正活性的聚合酶。

15.  根据权利要求14所述的方法，其中具有校正活性的所述聚合酶选自T4聚合酶、T7聚合酶和phi29聚合酶。

16.  根据权利要求1所述的方法，其中
具有单向错配内切核酸酶活性的所述至少一种分子选自CEL I、CEL II、其中任一种的变体和以上任两种或更多种的组合；和
具有单向外切核酸酶活性的所述至少一种分子选自外切核酸酶III及其变体。

17.  一种分离的核酸分子，其包含：
a)在低、中或高严格条件下与选自SEQ ID NO:09、SEQ ID NO:12、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、其补体或任一种的片段的核酸序列杂交的核酸序列；或
b)对选自SEQ ID NO:09、SEQ ID NO:12、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、其补体或任一种的片段的核酸序列展现出70％或更高同一性的核酸序列；或
d)编码对选自SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:21、SEQ ID NO:23、SEQ ID NO:25、SEQ ID NO:27、SEQ ID NO:28和SEQ ID NO:29的氨基酸序列展现出50％或更高同一性的多肽的核酸序列。

18.  根据权利要求17所述的核酸分子，其中所述核酸序列编码具有错配内切核酸酶活性的分子。

19.  一种重组核酸构建体，其包含与异源核酸可操作连接的根据权利要求17所述的核酸分子。

20.  根据权利要求19所述的重组核酸构建体，其中所述异源核酸为异源转录控制元件。

21.  根据权利要求19所述的重组核酸构建体，其中所述异源核酸包含编码多肽序列的核酸序列。

22.  根据权利要求21所述的重组核酸构建体，其中所述多肽序列包含分泌信号或表位标签。

23.  一种重组宿主细胞，其包含根据权利要求19所述的核酸构建体。

24.  根据权利要求23所述的重组宿主细胞，其中所述宿主细胞为昆虫细胞、哺乳动物细胞、微生物细胞或植物细胞。

25.  一种分离的多肽，其中所述多肽通过引入宿主细胞中的根据权利要求17所述的包含核酸序列的核酸分子来表达。

26.  根据权利要求25所述的分离的多肽，其中所述多肽包含选自SEQ ID NO:11、SEQ ID NO:11的氨基酸残基1-297、SEQ ID NO:11的氨基酸残基22-308、SEQ ID NO:17、SEQ ID NO:17的氨基酸残基1-320和SEQ ID NO:17的氨基酸残基22-331的氨基酸序列。

27.  一种组合物，其包含：(i)具有单向错配内切核酸酶活性的分子；和(ii)具有与(i)的所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的分子。

28.  根据权利要求27所述的组合物，其中(i)的所述分子选自RESI、CEL I、CEL II、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、Mut蛋白质、其中任一种的变体和以上任两种或更多种的组合；并且(ii)的所述分子选自外切核酸酶III、DNA聚合酶、其中任一种的变体和以上任两种或更多种的组合。

29.  根据权利要求27所述的组合物，其中(i)的所述分子选自CELI、CEL II、其中任一种的变体和以上任两种或更多种的组合；并且(ii)的所述分子选自外切核酸酶III及其变体。

30.  根据权利要求27所述的组合物，其中(i)的所述分子选自RES I、CEL I、CEL II、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、Mut蛋白质、其中任一种的变体和以上任两种或更多种的组合；并且(ii)的所述分子为外切核酸酶III或其变体。

31.  一种试剂盒，其包含根据权利要求27所述的组合物。

32.  根据权利要求31所述的试剂盒，其中具有单向错配内切核酸酶活性的所述分子选自：RES I、CEL I、CEL II、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、Mut蛋白质、其中任一种的变体和以上任两种或更多种的组合；并且具有与所述单向错配内切核酸酶相同的方向性的单向外切核酸酶活性的所述分子选自：外切核酸酶III、DNA聚合酶、其中任一种的变体和以上任两种或更多种的组合。

33.  根据权利要求32所述的试剂盒，其中
具有与所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的所述分子选自：RES I、CEL I、CEL II、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、Mut蛋白质、其中任一种的变体和以上任两种或更多种的组合；并且
具有与所述单向错配内切核酸酶相同的方向性的单向外切核酸酶活性的所述分子选自：外切核酸酶III或其变体。

说明书

用于合成错误最小化核酸分子的材料和方法
本申请要求2012年2月1日提交的美国临时申请序列号61/593,813的权益，其据此通过引用整体并入，包括所有表格、附图和权利要求。
发明领域
本发明总体涉及分子生物学和遗传学，并且涉及基因和其它核酸分子的合成。
序列表的并入
所附序列表中的材料据此通过引用并入本申请中。名称为SGI-XXX.XXPCT_序列表的所附序列表文本文件于当日创建并且为XX KB。可在使用Windows OS的电脑上用Microsoft Word评估所述文件。
发明背景
在现代分子生物学和基因工程中，许多涉及使用核酸分子的分子技术往往需要通过合成法生成大量核酸分子。例如，要测试代谢工程或基因组学领域的假说，合成指定蛋白质和具有定制基因组的生物，往往需要有成本效益的合成对预定核苷酸序列高度保真的核酸分子的方法。核酸合成，例如双链DNA合成的常见方法包括聚合酶链式反应法和连接链式反应法。通常，如果不是必须，则确保合成DNA分子含有正确的核苷酸序列对于要使用合成DNA的分子技术的成功很重要。例如，合成用于功能多肽的基因表达的DNA编码序列需要精确的DNA序列；因为即使一个核苷酸取代、插入或缺失也可对最终生成的多肽造成重大后果。因此，普遍认为从合成DNA群体中将具有不正确的DNA序列的DNA分子减到最少在提供通过基因从头合成法生成无错合成DNA中必不可少。
最近，在控制成本的同时准确合成核酸分子的努力已经取得了包括基于微芯片的基因合成和基于PCR的基因组装技术在内的方法。虽然这些传统技术提供了合成多个基因的能力，但是减少引入所需基因序列中的错误仍充满挑战。为避免基因合成中固有的序列错误问题，一些人集中于纯化在合成方法早期使用的寡核苷酸。然而，这些寡核苷酸纯化方法成本高，而序列错误依然存在并且在合成方法的后续步骤中传播。
因此，需要减少DNA分子群体中的序列错误的替代方法。所期望的是以更高的具有所需核苷酸序列的分子产量，合成基因和其它核酸分子的途径。可在合成方法的较晚步骤纠正序列错误的方法在核苷酸序列准确性上可能产生所需增加，同时使所述方法有成本效益。
发明概述
本发明提供了用于对核酸分子的复制和扩增进行纠错的方法和材料。在本发明的一个实施方案中，通过暴露于单向错配内切核酸酶来使具有核苷酸错配的第一多个双链核酸分子片段化。用内切核酸酶在错配位点或附近切割核酸分子，留下在所述分子的末端或近末端具有错配的双链核酸分子。在一个实施方案中，然后将所述核酸分子暴露于在5’至3’或3’至5’方向具有单向活性的外切核酸酶，从而去除错配核苷酸。由去除了错配核苷酸的核酸组装第二多个双链核酸分子。然后直接或在后续扩增步骤，通过例如DNA聚合酶的作用填充所述缺失的核苷酸，并且如果有必要可重复这些步骤多次。结果是与第一多个核酸分子相比，双链核酸分子的核苷酸错配频率降低。
因此，一方面本发明提供了核酸分子纠错的方法。所述方法涉及(a)获得具有至少一个核苷酸错配的第一多个双链核酸分子；(b)通过使具有错配的所述核酸分子与具有单向错配内切核酸酶活性的至少一种分子反应来使具有错配的所述多个双链核酸分子片段化；(c)通过使(b)的具有错配的所述片段化双链核酸分子与具有与(b)的所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的至少一种分子反应来去除所述核苷酸错配，从而提供片段化无错双链核酸分子；和(d)组装具有(c)的所述片段化无错双链核酸分子的第二多个双链核酸分子。与所述第一多个双链核酸分子相比，所述第二多个双链核酸分子的核苷酸错配频率降低。
在一个实施方案中，所述第一多个核酸分子可含有一个或多个合成核苷酸序列。所述第一多个核酸分子可含有一个或多个天然存在的基因序列和一个或多个合成核苷酸序列的混合物。在一个实施方案中可通过合成核酸分子，或在另一实施方案中可通过由亚型和/或寡核苷酸组装所述核酸分子获得第一多个核酸分子。
在所述方法的一个实施方案中，上述步骤(b)和步骤(c)作为独立反应进行，但是在另一实施方案中步骤(b)和步骤(c)作为同步或一步反应进行。在所述方法的一个实施方案中，所述单向错配内切核酸酶活性将5'切成所述错配而所述单向外切核酸酶活性将所述核苷酸错配从所述片段化核酸分子的5'末端去除。但是在另一实施方案中，所述单向错配内切核酸酶活性将3'切成所述错配而所述单向外切核酸酶活性将所述核苷酸错配从所述片段化核酸分子的3'末端去除。具有单向错配内切核酸酶活性的分子的实例包括但不限于RES I、CEL I、CEL II、SP内切核酸酶、SP I内切核酸酶、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、Mut蛋白质、其中任一种的变体和以上任两种或更多种的组合。在一个优选实施方案中，利用CEL I、CEL II或CEL I和CEL II的组合。在另一优选实施方案中，具有单向错配内切核酸酶活性的分子由包含在低、中或高严格条件下与选自以下的核酸序列杂交的核苷酸序列的核酸分子编码：a)在低、中或高严格条件下与选自SEQ ID NO:01、SEQ ID NO:03、SEQ ID NO:05、SEQ ID NO:07、SEQ ID NO:09、SEQ ID NO:12、SEQ ID NO:15、SEQ ID NO: 18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、任一种的补体和任一种的片段的核酸序列杂交的核酸序列；b)对选自SEQ ID NO:01、SEQ ID NO:03、SEQ ID NO:05、SEQ ID NO:07、SEQ ID NO:09、SEQ ID NO:12、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、任一种的补体和任一种的片段的核酸序列展现出70％或更高同一性的核酸序列；和c)编码对选自SEQ ID NO:02、SEQ ID NO:04、SEQ ID NO:06、SEQ ID NO:08、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:21、SEQ ID NO:23、SEQ ID NO:25、SEQ ID NO:27、SEQ ID NO:28和SEQ ID NO:29的氨基酸序列展现出60％或更高同一性的多肽的核酸序列。
具有单向外切核酸酶活性的分子的实例包括但不限于外切核酸酶III、DNA聚合酶、λ外切核酸酶、T7外切核酸酶和T5外切核酸酶及其变体。在一个实施方案中，具有单向外切核酸酶活性的分子为具有校正活性(例如，3’外切核酸酶校正活性)的DNA聚合酶。具有校正活性的聚合酶的实例包括但不限于T4聚合酶、T7聚合酶和phi29聚合酶。
在本发明方法的一个特定实施方案中，具有单向错配内切核酸酶活性的所述至少一种分子选自：CEL I、CEL II、其中任一种的变体及其中任两种或更多种的组合；并且具有单向外切核酸酶活性的所述至少一种分子选自外切核酸酶III、其变体及其中任两种或更多种的组合。
在本发明的一个方面，本发明提供了分离的核酸分子，其包含在低、中或高严格条件下杂交的核酸序列：a)在低、中或高严格条件下与选自SEQ ID NO:09、SEQ ID NO:12、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO: 26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、其补体或任一种的片段的核酸序列杂交的核酸序列；或b)对选自SEQ ID NO:09、SEQ ID NO:12、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:24、SEQ ID NO:26、SEQ ID NO:28、SEQ ID NO:30、SEQ ID NO:32、其补体或任一种的片段的核酸序列展现出70％或更高同一性的核酸序列；或c)编码对选自SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:21、SEQ ID NO:23、SEQ ID NO:25、SEQ ID NO:27、SEQ ID NO:28和SEQ ID NO:29的氨基酸序列展现出50％或更高同一性的多肽的核酸序列。
在本发明的另一方面，本发明提供了重组核酸构建体，例如重组核酸载体，其包括如本文所述，与异源核酸可操作地连接的本发明核酸分子。在一些实施方案中，异源核酸为异源转录控制元件。在一些优选实施方案中，以上任何重组核酸构建体可包含编码多肽序列的异源核酸。多肽序列可包括分泌信号或表位标签。在特定实施方案中，核酸构建体可包含SEQ ID NO:31或SEQ ID NO:33或其补体或变体活包含在低、中或高严格条件下与SEQ ID NO:31或SEQ ID NO:33或其补体或变体的任一种杂交的序列。
在本发明的又一方面，本发明提供了包括如本文公开的本发明核酸构建体的重组宿主细胞。重组宿主细胞可为昆虫细胞、哺乳动物细胞、微生物细胞或植物细胞。在一些其它实施方案中，本发明还提供了源自如上所述宿主生物的生物样品、生物质和后代。在其它实施方案中，本发明进一步提供了源自如上所述宿主生物的生物材料。
在本发明的另一方面，本发明进一步提供了分离的多肽。在一些实施方案中，由如本文所述的本发明核酸分子表达此类分离的多肽。可将表达所述多肽的核酸分子引入宿主细胞中。在一些实施方案中，所述多肽的氨基酸序列可包含选自SEQ ID NO:11、SEQ ID NO:11的氨基酸残基1-297、SEQ ID NO:11的氨基酸残基22-308、SEQ ID NO:17、SEQ ID NO:17的氨基酸残基1-320和SEQ ID NO:17的氨基酸残基22-331的氨基酸序列。
另一方面，本发明公开了组合物，其包含：(i)具有单向错配内切核酸酶活性的分子；和(ii)具有与(i)中所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的分子。在各实施方案中，(i)的分子选自RES I、CEL I、CEL II、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、Mut蛋白质、其中任一种的变体及其中任两种或更多种的组合；并且(ii)的分子选自外切核酸酶III、DNA聚合酶、其中任一种的变体及其中任两种或更多种的组合。
又一方面，本发明进一步提供了一种试剂盒，其包含(i)具有单向错配内切核酸酶活性的分子；和(ii)具有与(i)中所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的分子。在其它实施方案中，所述试剂盒还可具有进行如本文所述的纠错方法的说明书和/或提供了到提供关于如本文所述的纠错方法的信息的网站的链接。
结合附图查阅下面的发明详述和权利要求时，本领域的普通技术人员将更加充分地理解本发明的这些和其它目的、方面和特征。
附图简述
图1提供了本发明方法的一个实施方案的示意图。
图2提供了本发明一个实施方案的步骤的示意图。
图3提供了说明在本发明一个实施方案中采取的步骤的流程图。
图4为鳞叶卷柏(Selaginella lepidophlla)CEL I内切核酸酶(SEQ ID NO:02)、芹菜CEL I内切核酸酶(SEQ ID NO:04)、芹属(Apium sp.)CEL II内切核酸酶(SEQ ID NO:06)、另一芹属CEL II内切核酸酶(SEQ ID NO:08)、玄参科猴面花(Mimulus guttatus)CEL I内切核酸酶(SEQ ID NO:10)、马铃薯(Solanum tuberosum)CEL I内切核酸酶(SEQ ID NO:13)、葡萄(Vitis vinifera)CEL II内切核酸酶(SEQ ID NO:16)、马铃薯CEL II内切核酸酶(SEQ ID NO:25)、苜蓿属(Medicago sp.)CEL II内切核酸酶(SEQ ID NO:27)的比对。使用Vector NTI Advance^TM11.5包(Invitrogen,Carlsbad,Calif.)的程序AlignX，用默认设置生成图4的序列比对。如本文其它地方所详细讨论，已经由这种序列比较分析鉴定了具有高度保守性的几个多肽结构域和基序。在本文所示比对图中，比对序列中的破折号表示空位，即该位置缺乏氨基酸。黑色方框和灰色方框分别标识比对序列中的相同氨基酸和保守氨基酸。
图5描绘了纯化MimmulusC-His CEL I蛋白的SDS聚丙烯酰胺凝胶分析(图5A)和使用抗-聚组氨酸抗体的蛋白质印迹结果(图5B)。泳道1：Fermentas标记(5μL)；泳道2：透析前的MimmulusC-His(12μL)；泳道4：Fermentas标记(12μL)；泳道5：透析后的MimmulusC-His(12μL)；泳道7：Fermentas标记(5μL)；泳道8：透析后的MimmulusC-His(6μL)。
发明详述
本申请涉及可用于制备错误最小化核酸分子的组合物、方法和相关材料。
一方面，本发明提供了可用于减少核酸分子群体中的错配错误的材料和方法。例如，公开了编码错配内切核酸酶的核酸分子以及使用此类核酸分子及其编码的多肽减少核酸群体中的核苷酸错配的方法。本发明还提供了重组核酸分子和包含此类核酸分子的重组细胞以及重组生物及其使用方。
除非上下文中另有明确规定，单数形式“一个”、“一种”和“所述”包括复数个指示物。例如，术语“一个/种细胞”包括一个/种或多个/种细胞，包括其混合物。
结构域：“结构域”是多肽中可用于表征蛋白质家族和/或蛋白质部分的大体上连续的成组氨基酸。此类结构域通常具有可包含保守一级序列、二级结构和/或三维构象的“指纹”、“基序”或“签名”。通常，结构域与体外和/或体内特定活性相关。结构域的长度可从4个氨基酸至400个氨基酸，例如4-50个氨基酸，或4-20个氨基酸，或4-10个氨基酸，或4-8个氨基酸，或25-100个氨基酸，或35-65个氨基酸，或35-55个氨基酸，或45-60个氨基酸，或200-300个氨基酸，或300-400个氨基酸。
表达：如本文所使用，“表达”指通过通常受酶、RNA聚合物催化的转录将多核苷酸的遗传信息转化为RNA和通过核糖体上mRNA的翻译转化为蛋白质的过程。
如本文所使用的术语“表位”、“标签”、“标签序列”或“蛋白质标签”指化学部分，核苷酸、寡核苷酸、多核苷酸或氨基酸、肽或蛋白质或其它化学品，其在添加到另一序列时，为该序列提供附加实用性或赋予尤其是在检测或分离上的有用性质。因此，例如，可向引物或探针序列添加均聚物核酸序列或与捕获寡核苷酸互补的核酸序列以利于延伸产物或杂交产物的后续分离。在蛋白质标签的情况下，可向蛋白质的氨基或羧基端添加组氨酸残基(例如，4-8个连续组氨酸残基)以利于通过金属螯合色谱法进行蛋白质分离。可选地，可向蛋白质添加代表对特异性抗体分子或其它分子(例如，FLAG表位、c-myc表位、流感A病毒血球凝集素蛋白的跨膜表位、蛋白质A、纤维素结合结构域、钙调蛋白结合蛋白、麦芽糖结合蛋白、几丁质结合结构域、谷胱甘肽S-转移酶等)有反应性的表位或结合决定簇的氨基酸序列、肽、蛋白质或融合伴侣以利于通过例如亲和或免疫亲和色谱法等程序进行蛋白质分离。化学标签部分包括诸如生物素等分子，其可添加到核酸或蛋白质中并且利于通过与亲和素试剂等的相互作用分离或检测。许多其它标签部分为技术人员已知并且可由技术人员预想到，并且视为在本定义范围内。
本发明的多核苷酸及其编码的多肽
在本发明的一方面，本发明提供了新颖分离的核酸分子、与这些核酸分子杂交的核酸分子(例如补体)和由于DNA密码的简并性编码相同蛋白质的核酸分子。本申请的附加实施方案进一步包括由本发明的核酸分子编码的多肽。
序列表中公开或本文另外公开的本发明多核苷酸和多肽(及其片段和变体)就其结构属性而论，例如核酸与另一核酸分子杂交的能力，或多肽受抗体结合(或与另一分子竞争此类结合)的能力，“具生物活性”。可选地，此类属性可为催化性并且因此涉及所述分子介导化学反应或应答的能力。
在一些实施方案中，本发明的多核苷酸和多肽为重组。重组多核苷酸或多肽是使用产生在受操纵生物中不会存在(或生成)的核酸序列(或多肽)的实验室方法，由人操纵多核苷酸或多肽和生物获得的重组多核苷酸或多肽。
本发明的核酸分子或其片段能够在某些情况下与其它核酸分子特异性杂交。“特异性杂交”指互补核酸链在适当严格条件下退火为彼此的过程。如果其中一个分子的每个核苷酸与另一分子的核苷酸互补并且核苷酸对形成Watson-Crick碱基对，则称核酸分子展现出“完全互补性”。如果可以足够稳定性退火为彼此以在至少传统的“低严格”条件下保持退火，则称两个核酸分子具“最低互补性”。类似地，如果可以足够稳定性相互杂交以允许其在传统的“高严格”条件下保持退火为彼此，则称所述分子“互补”。Sambrook等在Molecular Cloning,A Laboratory Manual，第2版，Cold Spring Harbor Press,Cold Spring Harbor,NY(1989)中和Haymes等在：Nucleic Acid Hybridization,A Practical Approach，IRL Press,Washington,D.C.(1985)中描述了传统严格条件。因此可允许脱离完全互补性，只要这种脱离不完全消除分子形成双链结构的能力。因此，为了使本发明的核酸分子或其片段用作引物或探针，只需在序列上充分互补就能够在采用的特定溶剂和盐浓度下形成稳定的双链结构。
促进DNA杂交的适当严格条件包括(例如)约45℃下6.0×氯化钠/柠檬酸钠(SSC)，接着在约50℃下2.0×SSC洗涤。另外，洗涤步骤的温度可从低严格条件的室温约22℃升高到高严格条件约65℃。温度和盐均可改变，或可保持温度或盐浓度恒定，而改变其它变量。这些条件为本领域的技术人员已知，或可在Current Protocols in Molecular Biology，John Wiley&Sons,N.Y.(1989),6.3.1-6.3.6中找到。例如，低严格条件可用于选择与靶核酸序列具有较低序列同一性的核酸序列。人们可能希望采用例如在范围从约20℃至约55℃稳定下，约0.15M至约0.9M氯化钠的条件。高严格条件可用于选择与公开的核酸序列具有更高度同一性的核酸序列(Sambrook等，1989，同时)。高严格条件通常涉及在约2×SSC至约10×SSC(由含有3M氯化钠和0.3M柠檬酸钠(pH7.0)的20×SSC原液稀释于蒸馏水中)、约2.5×至约5×Denhardt溶液(由含有1％(w/v)牛血清白蛋白、1％(w/v)菲柯尔(ficoll)和1％(w/v)聚乙烯吡咯烷酮的50×原液稀释于蒸馏水中)、约10mg/mL至约100mg/mL鱼精子DNA和约0.02％(w/v)至约0.1％(w/v)SDS中，经约50℃至约70℃下培育几小时至过夜的核酸杂交。优选用6×SSC、5×Denhardt溶液、100mg/mL鱼精子DNA和约0.1％(w/v)SDS，在55×C下培育几小时提供高严格条件。通常在杂交之后进行几个洗涤步骤。洗涤组合物通常包含0.5×SSC至约10×SSC和0.01％(w/v)至约0.5％(w/v)SDS，在约20℃至约70℃下培育15min。优选地，在65℃下于0.1×SSC中洗涤至少一次后，核酸片段保持杂交。
在一个实施方案中，本发明核酸分子的亚型包括由所公开多核苷酸的至少12个、至少15个、至少16个、至少17个、至少18个、至少19个和至少20个连续核苷酸组成的公开的多核苷酸片段。此类寡核苷酸为序列表中公开或本文另外描述的较大多核苷酸分子的片段并且可用作(例如)检测本发明多核苷酸的干扰分子、探针和引物。
本发明的核酸分子可包括足以编码错配内切核酸酶的结构域的生物活性片段、整个错配内切核酸酶或开放阅读框内编码错配内切核酸酶的几个结构域的序列。
在另一实施方案中，本发明明确提供了包含编码多肽的区域的核苷酸序列。编码的多肽可为蛋白质或多核苷酸所表示的基因所编码的完整多肽，或可为编码的蛋白质的片段。优选地，本文提供的多核苷酸编码构成完整蛋白质的很大一部分，并且更优选，构成完整蛋白质的足够部分以提供相关生物活性，例如错配内切核酸酶活性的多肽。
特别关注的是编码错配内切核酸酶的本发明多核苷酸。此类多核苷酸可在重组细胞或重组生物中表达以生成具有错配内切核酸酶活性的分子。在一些实施方案中，本发明还涵盖了为这些编码错配内切核酸酶的核苷酸序列的片段的核酸分子。如本文所使用，“错配内切核酸酶片段”预期为编码错配内切核酸酶的核苷酸序列的片段。核苷酸序列的片段可编码错配内切核酸酶的生物活性部分，或可为可用作使用本文公开的方法的杂交探针或PCR引物的片段。核酸分子或多肽的片段包含至少10、25、50、100、200、300、400、500、600、700、800、900、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2150、2200、2250、2300、2350、2400、2450、2500、2550、2600、2650、2700、2750、2800、2850、2900、2950、3000、3050、3100、3150、3200、3250、3300、3350个相邻核苷酸或氨基酸，或多达本文公开的全长核苷酸序列或多肽序列中存在的核苷酸或氨基酸的数量。本发明核苷酸序列的片段包括编码保持错配内切核酸酶的生物活性的蛋白质片段的核苷酸序列片段。用“保持活性”指片段将具有全长错配内切核酸酶蛋白的至少30％、至少50％、至少70％、至少80％、至少90％或至少95％的内切核酸酶活性。测量内切核酸酶，包括错配内切核酸酶活性的方法在本领域众所周知。参见例如美国专利第6,391,557号；美国专利第7,129,075号。错配内切核酸酶活性指在进行测定的方便时间段内，在所述方法中进行片段化dsDNA分子(或去除核苷酸错配)的步骤的足够水平的活性。在不同实施方案中，所述活性足以在2h或4h或6h或10h或12h或24h内进行片段化或去除。
在不同实施方案中，编码错配内切核酸酶的核苷酸序列的编码本发明多肽的生物活性部分的片段将编码至少15、25、30、50、75、100、125、150、175、200、225、250、275、300、325、350个相邻氨基酸，或多达序列表中公开或本文另外公开的全长错配内切核酸酶蛋白质中存在的氨基酸的总数。例如，相对于序列表中公开或本文另外公开的错配内切核酸酶氨基酸序列，根据本发明的错配内切核酸酶片段可具有至少20个氨基酸、至少50个、至少75个、至少90个、至少100个或至少150个氨基酸的N端或C端截断。
本发明中还关注的是序列表中公开或本文另外公开的多核苷酸的变体。此类变体可天然存在，包括来自相同或不同物种的同源多核苷酸，或可为非天然变体，例如使用化学合成法合成或使用重组DNA技术生成的多核苷酸。可生成具有经修饰核酸分子的变体，其中已经插入、缺失和/或取代了核苷酸，并且此类修饰可对如本文所述的内切核酸酶生物活性提供所需影响。遗传密码的简并性提供了用不同碱基取代基因的蛋白质编码序列的至少一个碱基，而不引起由基因生成的多肽的氨基酸序列变化的可能性。因此，本发明的核酸分子也可具有已经根据遗传密码的简并性，通过取代由本文公开的任一多核苷酸序列变化而来的任何碱基序列。
技术人员将进一步意识到可通过本发明核苷酸序列的突变引入变化，从而导致编码的内切核酸酶蛋白的氨基酸序列变化，而不改变蛋白质的生物活性。因此，可通过向本文公开的相应核苷酸序列中引入一个或多个核苷酸取代、添加或缺失产生变体分离的核酸分子，以便将一个或多个氨基酸取代、添加或缺失引入编码的蛋白质中。可通过标准技术，例如定点诱变和PCR介导的诱变引入突变。本发明也涵盖了此类变体核苷酸序列。
例如，可在一个或多个预估的处产生保守性氨基酸取代。如本文所使用，“非必需”氨基酸残基是可由错配内切核酸酶蛋白质的野生型序列改变而来，而未改变生物活性的残基，而“必需”氨基酸残基是生物活性所必需的。“保守性氨基酸取代”是其中氨基酸残基经具有相似侧链的氨基酸残基置换的氨基酸取代。在本领域中已经良好定义了具有相似侧链的氨基酸残基家族。这些家族包括具有碱性侧链的氨基酸(例如赖氨酸、精氨酸、组氨酸)、具有酸性侧链的氨基酸(例如天冬氨酸、谷氨酸)、具有不带电的极性侧链的氨基酸(例如甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、具有非极性侧链的氨基酸(例如丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸)、具有β分支侧链的氨基酸(例如苏氨酸、缬氨酸、异亮氨酸)和具有芳香族侧链的氨基酸(例如酪氨酸、苯丙氨酸、色氨酸、组氨酸)。
如以上所讨论，本领域的技术人员将认识到，可在保持功能的非保守区域内进行氨基酸取代。一般而言，不会对保守性氨基酸残基或留在保守性基序内的氨基酸残基进行此类取代，其中此类残基对蛋白质活性而言必不可少。在本领域中报道了错配内切核酸酶序列的保守性残基、结构域和基序。保守并且可能对蛋白质活性必不可少的残基的实例包括(例如)在本发明氨基酸序列和已知错配内切核酸酶序列的比对中所含的所有蛋白质之间相同的残基。保守，但是可能允许保守性氨基酸取代并且仍保持活性的残基的实例包括(例如)在本发明氨基酸序列和已知错配内切核酸酶序列的比对中所含的所有蛋白质之间仅具有保守性取代的残基。然而，本领域的技术人员应理解，功能变体在保守性残基中可能具有较小保守或非保守性改变。
在本发明的一些实施方案中，此类错配内切核酸酶变体包括具有与本文公开的任一多肽的不同之处在于，在对应于图4标识的保守性氨基酸残基的一个或多个位置有氨基酸缺失、插入或取代的氨基酸序列的蛋白质。在一些优选实施方案中，此类错配内切核酸酶变体包括具有与SEQ ID NO:11或SEQ ID NO:17的多肽序列或任一个的片段的不同之处在于，在对应于图4标识的保守性氨基酸残基的一个或多个位置有氨基酸缺失、插入或取代及其任何组合的氨基酸序列的蛋白质。
可选地，可通过沿整个或部分编码序列随机引入突变，例如通过饱和诱变，产生变体核苷酸序列，并且随后筛选所得突变体赋予错配内切核酸酶活性的能力，以便鉴定保持了错配内切核酸酶活性的突变体。例如，在诱变后，可重组表达编码的蛋白质，并且可使用标准测定技术测定蛋白质的活性。测定内切核酸酶活性并且尤其是错配内切核酸酶活性的方法在本领域众所周知。参见例如美国专利第6,391,557号；美国专利第7,129,075号。
另外，使用基于序列的方法例如PCR、杂交等，可鉴定相应的错配内切核酸酶序列，例如与本发明的序列具有大体同一性的序列。参见例如Sambrook和Russell(2001，同上)。
为本文提供的多核苷酸和多肽的变体的多核苷酸和多肽通常将展示出与本文提供的多核苷酸和多肽的显著同一性。特别关注的是与序列表中描述或本文另外描述的任一多核苷酸或多肽序列有至少约50％序列同一性，优选至少约60％，优选至少约70％，更优选至少约75％，更优选至少约80％，更优选至少约85％，更优选至少约90％，甚至更优选至少约95％和最优选至少约96％、97％、98％或99％序列同一性的多核苷酸和多肽同系物。例如，本发明提供了与SEQ ID NO:1、3、5、7、9、12、15、18、20、22、24、26、29、30和32中任一个的多核苷酸以及构建体SEQ ID NO:31和33有所述百分比序列同一性的多核苷酸同系物。本发明还提供了由本文公开的任一多核苷酸编码的多肽。本发明还提供了与SEQ ID NO:2、4、6、8、10、11、13、14、16、17、19、21、23、25、27、28和29中任一个的多肽有所述百分比序列同一性的多肽变体。本发明还提供了本文公开的多核苷酸和多肽的片段。
“序列同一性”指在组分，例如核苷酸或氨基酸的整个比对窗口上，两个最佳比对多核苷酸或肽序列不变的程度。试验序列和参考序列比对片段的“同一性分数”为两个比对序列共有的相同组分的数量除以参考序列片段，即整个参考序列或规定的参考序列的一小部分中组分的总数。
如本文根据多核苷酸所使用，“序列同一性百分比”或“百分比序列同一性”指最佳比对两个序列时，与试验(“受试”)多核苷酸分子(或其互补链)相比，参考(“查询”)多核苷酸分子(或其互补链)的直链多核苷酸序列中相同核苷酸或氨基酸的百分比。可根据多肽序列及其相应的氨基酸残基以相同方式使用术语。如本领域所知，计算本文所述的多核苷酸和/或多肽序列的百分比序列同一性时，为了这个计算的目的，并未将为了例如易于纯化、表达、分泌等目的包括在内的任何前导序列或序列标签或其它此类序列包括在内。
通过比较按两个序列之间的局部比对长度限定的比较窗口上经最佳局部比对的两个序列测定百分比序列同一性。与参考序列(其不包含添加或缺失)相比，比较窗口上的多核苷酸序列可包含添加或缺失(例如，空位或悬突)，以最佳比对两个序列。两个序列之间的局部比对仅包括每个序列中根据取决于用于进行比对的算法(例如BLAST)的标准，视为足够相似的片段。通过测定两个序列中出现相同核酸碱基(或多肽氨基酸)的位置数量以得到匹配位置的数量，匹配位置的数量除以比较窗口中位置的总数并且将结果乘以100来计算百分比同一性。比对比较窗口的最佳序列比对为本领域技术人员众所周知并且任一种均可用于本发明中，例如Smith和Waterman的局部同源性算法(Add.APL.Math.2:482,1981)，Needleman和Wunsch的全局同源性比对算法(J Mol.Biol.48:443,1970)，Pearson和Lipman的相似性查找方法(Proc.Natl.Acad.Sci.(USA)85:2444,1988)，启发式执行这些算法例如可用作GCG^TM Wisconsin Package^TM(Genetics Computer Group,Accelrys Inc.,Burlington,Mass.)的一部分的GAP、BESTFIT、FASTA和TFASTA，启发式执行这些算法例如NCBI BLAST、WU-BLAST、BLAT、SIM、BLASTZ或人工检验。如上所述，试验序列和参考序列的比对片段的“同一性分数”为两个比对序列共有的相同组分的数量除以参考序列片段，即整个参考序列或规定的参考序列的一小部分中组分的总数。将百分比序列同一性表示为同一性分数乘以100。一个或多个多核苷酸序列的比较可为全长多核苷酸序列或其一部分或更长的多核苷酸序列。为了本发明的目的，对于经翻译的核苷酸序列也可使用BLASTX2.0版本而对于多核苷酸序列也可使用BLASTN2.0版本测定“百分比同一性”。
为了本发明的目的，对于经翻译的核苷酸序列也可使用BLASTX2.0版本而对于多核苷酸序列也可使用BLASTN2.0版本(或对于多肽序列可用BLASTp)测定“百分比同一性”。在本发明的一个优选实施方案中，当前公开的基因调控序列包含与其各自的同系物，BLAST得分高于200，优选BLAST得分高于300，并且甚至更优选BLAST得分高于400的蛋白质、肽、核酸分子或片段。
当已经鉴定了两个序列以便比较时，可采用GAP和BESTFIT测定其最佳比对。为了这个目的，优选使用序列分析软件包^TM(版本10；Genetics Computer Group,Inc.,Madison,Wis.)的BESTFIT或GAP程序测定序列同一性的百分比。GAP利用Needleman和Wunsch的算法(Needleman和Wunsch，J.Mol.Biol.48:443-453,1970)找到最大化匹配数量而最小化空位数量的两个序列的比对。BESTFIT进行两个序列之间具相似性的最好片段的最佳比对并且插入空位以使用Smith和Waterman的局部同源性算法(Smith和Waterman，Adv.Applied Math.,2:482-489,1981,Smith等，Nucl.Acids Res.11:2205-2220,1983)最大化匹配数量。最优选使用BESTFIT程序测定百分比同一性。通常，使用5.00的空位权重默认值和0.30的空位权重默认值。术语多核苷酸或多肽序列之间的“大体序列同一性”指使用所述程序与参考序列相比，多核苷酸或多肽包含具有至少50％序列同一性，优选至少约70％，优选至少约80％，更优选至少约85％，更优选至少约90％，甚至更优选至少约95％和最优选至少约96％、97％、98％或99％序列同一性的序列。因此，根据本发明的一个实施方案为与本文所述的蛋白质、肽或多核苷酸序列具有至少约50％序列同一性，优选至少约70％，优选至少约80％，更优选至少约85％，更优选至少约90％，甚至更优选至少约95％和最优选至少约96％、97％、98％或99％序列同一性的蛋白质、肽或多核苷酸分子。能够调控可操作连接的可转录多核苷酸分子的转录并且与本文提供的多核苷酸分子的多核苷酸序列有大体百分比序列同一性的多核苷酸分子涵盖在本发明的范围中。
在本发明的一方面，本发明还提供了由本文所述的本发明任何多核苷酸编码的多肽。因此，本发明提供了SEQ ID NO:2、4、6、8、10、11、13、14、16、17、19、21、23、25、27、28和29的多肽。本发明还提供了本文公开的多核苷酸的变体或片段和由本文公开的任何多核苷酸变体或片段编码的多肽。
可根据传统技术，在经基因工程改造的宿主细胞中生成本发明的内切核酸酶多肽，包括全长多肽及生物活性片段和融合多肽。适合宿主细胞为可经外源DNA转化或转染并且在培养中生长的细胞类型，并且包括细菌、昆虫细胞、植物细胞、真菌细胞和培养的高等真核细胞。优选真核细胞，尤其是培养的多细胞生物细胞。Sambrook等，1989，同上；和Ausubel等编辑，Current Protocols in Molecular Biology,John Wiley and Sons,Inc.,NY,1987公开了操纵克隆DNA分子和将外源DNA引入多种宿主细胞的技术。
一般而言，编码内切核酸酶多肽的核酸序列与表达载体或构件体中对其表达所需的其它遗传元件可操作地连接，通常包括转录启动子和终止子。虽然本领域的技术人员将认识到在某些系统中，可在单独载体上提供可选标记，但是载体或构建体通常还将含有一个或多个可选标记和一个或多个复制起点，并且可通过整合到宿主细胞基因组中提供外源DNA的复制。启动子、终止子、可选标记、载体和其它元件的选择是在本领域普通技术水平内的常规设计问题。在文献中描述了许多此类元件并且可通过商业供应商得到。
要指导内切核酸酶多肽进入宿主细胞的分泌途径，可将分泌信号序列(也称为前导序列、前序列(pre sequence)或前原序列(prepro sequence))包括在表达载体中。分泌信号序列可能是天然内切核酸酶多肽的分泌信号序列，或可能源自另一分泌蛋白或从头合成。分泌信号序列与编码内切核酸酶的DNA序列可操作地连接，即所述两个序列连接在正确阅读框中并且定位为指导新合成的多肽进入宿主细胞的分泌途径。虽然某些分泌信号序列可能位于目标DNA序列的其它地方，但是分泌信号序列通常位于编码目标多肽的DNA序列的5'(参见例如美国专利第5,037,743和5,143,830号)。
各种原核和真核细胞为本发明的适合宿主细胞，包括但不限于微生物细胞、藻类细胞、真菌细胞、昆虫细胞、哺乳动物细胞和植物细胞。例如，当用植物细胞作为宿主时，在植物生物技术领域中众所周知使用发根农杆菌(Agrobacterium rhizogene)作为植物细胞中表达基因的载体。例如，在美国专利第5,162,222号和WIPO公布WO94/06463中广泛描述了昆虫细胞的转化和其中外来多肽的生成。昆虫细胞可经通常源自苜蓿银纹夜蛾(Autographa californica)核型多角体病毒(AcNPV)。参见例如D.R.等，Baculovirus Expression Vectors:A Laboratory Manual，New York,Oxford University Press.,1994；和Richardson编辑，Baculovirus Expression Protocols.Methods in Molecular Biology,Totowa,N.J.,Humana Press,1995。制备重组杆状病毒的第二种方法利用Luckow等(J Virol67:4566-79,1993)，Bac-to-试剂盒(Life Technologies,Inc.,Carlsbad,CA)描述的基于转座子的系统。这种系统利用转移载体，含有Tn7转座子的pFastBacl^TM(Life Technologies,Inc.,Carlsbad,CA)将编码目标多肽的DNA移到维持在大肠杆菌(E.coli)中的杆状病毒基因组中作为大质粒，称为“杆粒(bacmid)”。pFastBacl^TM转移载体利用AcNPV多角体蛋白启动子以驱动目标基因的表达，在这种情况下为错配内切核酸酶。进一步地，pFastBacl^TM(Life Technologies,Inc.,Carlsbad,CA)可经相当程度的修饰。可去除多角体蛋白启动子并且用在杆状病毒感染早期表达的杆状病毒碱性蛋白启动子(也称为Pcor、p6.9或MP启动子)取代，并且已经证实对表达分泌的蛋白质有利。参见例如Hill-Perkins和Possee J.Gen.Virol.71:971-6,1990；Bonning等，J.Gen.Virol.75: 1551-6,1994；和Chazenbalk和Rapoport，J.Biol.Chem.270:1543-9,1995。在此类转移载体构建体中，可使用短或长形式的碱性蛋白启动子。而且，可将转移载体构建为包括源自昆虫蛋白的分泌信号序列。例如，来自蜕皮类固醇葡糖基转移酶(EGT)、蜜蜂蜂毒肽或杆状病毒gp67的分泌信号序列可根据本发明用于重组核酸构建体中。另外，转移载体可包括与编码表达的内切核酸酶多肽的C或N端的表位标签的DNA的框内融合。使用本领域已知的技术，可将含有本发明的内切核酸酶的转移载体转化到大肠杆菌中，并且筛选含有表示重组杆状病毒的断裂lacZ基因的杆粒。可使用常见技术分离含有重组杆状病毒基因组的杆粒DNA，并且可用于转染草地贪夜蛾(Spodoptera frugiperda)昆虫细胞，例如Sf9细胞。随后产生表达重组内切核酸酶的重组病毒。可通过本领域常用的方法制备重组病毒原液。
真菌细胞，包括酵母细胞适合作为本发明的宿主。在这点上特别感兴趣的酵母种类包括酿酒酵母(Saccharomyces cerevisiae)、巴斯德毕赤酵母(Pichia pastoris)和甲醇毕赤酵母(Pichia methanolica)。用外源DNA转化这些酵母种类的细胞和由此生成重组多肽的方法在本领域众所周知。参见例如美国专利第4,599,311、4,931,373、4,870,008、5,037,743和4,845,075号。通过由可选标记确定的表现型，通常为抗药性或在缺乏特定养分(例如，腺嘌呤或亮氨酸)时生长的能力，选择转化细胞。用于酵母的适合的启动子和终止子包括来自糖酵解酶基因(参见例如美国专利第4,599,311、4,615,974和4,977,092号)和醇脱氢酶基因的启动子和终止子。同样见美国专利第4,990,446、5,063,154、5,139,936和4,661,454号。众所周知使用甲醇毕赤酵母作为生成重组蛋白的宿主(参见例如PCT公布第WO 199717450、WO 199717451、WO199802536和WO 91998/902565号)。在本领域中还已知其它酵母的转化体系，包括多形汉逊酵母(Hansenula polymorpha)、粟酒裂殖酵母(Schizosaccharomyces pombe)、乳酸克鲁维酵母(Kluyveromyces lactis)、脆壁克鲁维酵母(Kluyveromyces fragilis)、玉蜀黍黑粉菌(Ustilago maydis)、巴斯德毕赤酵母、季也蒙毕赤酵母(Pichia guillermondii)和麦芽糖假丝酵母(Candida maltosa)。参见例如Gleeson等，J.Gen.Microbiol.132:3459-65,1986和美国专利第4,882,279号。曲霉菌(Aspergillus)细胞可根据例如美国专利第4,935,349号中描述的多种已知方法用作重组宿主细胞。转化产黄头孢霉(Acremonium chrysogenum)和脉孢菌(Neurospora sp.)的方法也众所周知(参见例如美国专利第5,162,228号；美国专利第4,486,533号)。
原核宿主细胞，包括细菌大肠杆菌(Escherichia coli)、杆菌(Bacillus)和其它属的菌株也是本发明中的有用宿主细胞。转化这些宿主和表达其中克隆的外来DNA序列的技术在本领域众所周知(参见例如Sambrook等，同上)。在细菌例如大肠杆菌中表达内切核酸酶多肽时，可用细菌分泌序列将多肽定向到周质间隙，或可保留在细胞质中，通常呈不溶性颗粒。在前一种情况下，可通过破坏细胞(例如，通过超声处理或渗透性冲击)以释放出周质间隙的内含物并且回收蛋白质，从周质间隙回收呈可溶性功能形式的多肽，从而避免了对变性和再折叠的需要。在后一种情况下，溶解细胞，并且使用(例如)异硫氰酸胍或脲回收颗粒并使其变性。然后可通过稀释变性剂，例如通过用胍溶液及氧化和还原谷胱甘肽的组合透析，接着用缓冲盐水溶液透析使变性多肽再折叠并二聚化。
另外，培养的哺乳动物细胞也是本发明的适合宿主。将外源DNA引入哺乳动物宿主细胞的方法众所周知并且包括但不限于脂质体介导的转染(Hawley-Nelson等，Focus15:73,1993；Ciccarone等，Focus15:80,1993)；磷酸钙介导的转染(Wigler等，Cell14:725,1978；Corsaro和Pearson，Somatic Cell Genetics7:603,1981；Graham和Van der Eb，Virology52:456,1973)；电穿孔(Neumann等，EMBO J.1:841-5,1982)、DEAE-葡聚糖介导的转染(Ausubel等，同上)和病毒载体(Miller和Rosman，BioTechniques7:980-90,1989；Wang和Finer，Nature Med.2:714-6,1996)。在科学文献和专利文献中广泛描述了培养的哺乳动物细胞中重组多肽的生长(参见例如美国专利第4,713,339、4,784,950、4,579,821和4,656,134号)。适合的培养哺乳动物细胞包括但不限于 BHK(ATCC编号：CRL1632)、BHK570(ATCC编号：CRL10314)、COS-1(ATCC编号：CRL1650)、COS-7(ATCC编号：CRL1651)、293(ATCC编号：CRL1573；Graham等，J.Gen.Virol.36:59-72,1977)和中国仓鼠卵巢(例如CHO-K1；ATCC编号：CCL61)细胞系。在本领域中已知另外的适合细胞系并且可从公共贮藏所例如弗吉尼亚州马纳萨斯美国模式培养物保藏所获得。一般而言，优选强转录启动子，例如来自SV-40或巨细胞病毒的启动子。参见例如美国专利第4,956,288号。其它适合启动子包括来自金属硫蛋白基因的启动子(美国专利第4,579,821和4,601,978号)和腺病毒主要后期启动子。
纠正核酸分子中的错误的方法
一方面，本发明的实施方案或方法提供了在核酸分子中纠错的方法。在核酸分子的复制、扩增和/或合成中出现错误。“错误”为与核酸分子预期具有的核苷酸序列，例如由复制和/或扩增和/或合成程序产生的所需序列的偏差。错误包括所需核苷酸序列的缺失、取代和添加，并且在合成中的任何时候通过任何机制出现。
寡核苷酸的化学合成由于所涉化学的限制，固有地经受核苷酸插入中出现错误，这通常涉及某一类型的涉及向生长分子的3'末端依次添加核苷酸的固相合成。发生不完全反应或副反应对可合成的核苷酸长度设置上限，但是即使较短的核苷酸也并入了一定比率的非预期或错误核苷酸。
组装的核酸分子默认为双链。可通过传统方法使双链核酸分子变性和退化。例如，双链核酸分子的热变性将双链分子分成相应的单链分子对。冷却单链分子促进其作为单独核苷酸退火为双链分子，其沿核苷酸序列的互补段包含结合成核苷酸碱基对的核酸分子。可控制变性和退火的动力学或其它物理或化学参数以促进单链分子的混合，使得单链分子更换伴侣。例如，如果双链DNA分子在两条链中距一端的第400个核苷酸处有序列错误，变性和退火后，该分子的单链可与在该位置没有错误的另一单链分子配对，在该位置产生核苷酸错配。因此，变性和退火过程可产生在错误位点，核苷酸碱基之间有错配的双链核酸分子。例如，可通过使退火分子与具有某些特征的内切核酸酶在适当条件下反应，靶向这些错配以便去除。错配位点或核苷酸错配位点是双链核酸分子上非互补碱基对彼此相对定位的位点。核苷酸错配由可在DNA复制或扩增期间发生的碱基错误插入、缺失或错误并入引起。错配碱基的实例为G/T或A/C配对或与标准G/C和A/T Watson-Crick碱基配对的其它偏差。错配也可由合成期间碱基互变异构化引起。
可实践本发明的一方面以纠正和减少双链核酸分子中的错误。预期有所需核苷酸序列和所需长度的第一组双链核酸分子与一种或多种内切核酸酶反应。在一个实施方案中，内切核酸酶是在错配位点或附近切割核酸，产生具有错配末端的核酸分子的错配内切核酸酶。这可通过选择一种或多种适当的内切核酸酶实现。因此将具有错配的核酸分子切成在末端或附近具有核苷酸错配的较小片段。然后用内切核酸酶处理具有错配末端的核酸，这样切成错配末端并因此去除错配。然后通过另一种酶，例如DNA聚合酶或具有聚合酶活性的分子的作用填充所得悬突，并制成完全双链核酸分子。在一个实施方案中，如有必要，可重复变性、退火、用适当内切核酸酶切割和填充悬突的过程直至样品中的错配率不显著，意味着错误率非常低使得对使用核酸的研究的结果无实质影响。在末端或附近有错配的核酸指在核酸分子末端的10个或更少核苷酸内有错配核苷酸对的核酸分子。在其它实施方案中，在核酸分子末端的9个或更少核苷酸内，或在核苷酸错配的8个或更少，或7个或更少，或6个或更少，或5个或更少，或4个或更少，或3个或更少，或2个或更少，或1个核苷酸内存在错配核苷酸。
图1为显示本发明方法的总体说明的图。在这个实施方案中，在溶液中含有无错dsDNA分子101以及具有错误103的dsDNA分子。无错dsDNA分子是具有“正确”所需核苷酸序列，即所需序列的那些分子，而具有错误的dsDNA分子在其序列中具有“不正确”，即偏离所需序列的核苷酸。dsDNA分子变性，然后退火，生成在dsDNA的其中一条单链中具有一个或多个错误或错配105的双链核酸分子(dsDNA)。然后将dsDNA分子暴露于内切核酸酶的作用，从而将dsDNA裂解成片段。在一些实施方案中，内切核酸酶为生成在分子107的末端或附近具有错配的dsDNA片段的错配内切核酸酶。在图1描绘的实施方案中，在其中一条单链的3'末端出现错配，但是根据所选则的内切核酸酶，也可在5'末端出现错配。在描绘的实施方案中，然后将核酸暴露于3'外切核酸酶的作用，其“咀嚼”掉分子的3'末端并且因此通过去除不正确的核苷酸而去除错配错误。然后核酸分子再次变性、退火、暴露于错配内切核酸酶，如果需要，经填充并且任选扩增以生成无错dsDNA分子111。可重复所述过程几次，直至链中的错误率不显著。在一些实施方案中，若需要，可使用连接酶连接链。
可通过与单向错配内切核酸酶反应，使双链核酸分子片段化。单向错配内切核酸酶指具有单向错配内切核酸酶活性的任何分子或分子组合。在一个实施方案中，所述分子为酶，但是所述分子也可为不是酶但仍然具有单向内切核酸酶活性的另一种分子。单向错配内切核酸酶可作为单一内切核酸酶或内切核酸酶与其它分子的混合物使用。在一个实施方案中，使用单一错配内切核酸酶，而在其它实施方案中，单一错配内切核酸酶可与错配内切核酸酶活性所必需或增强错配内切核酸酶活性的另一种非酶类分子组合使用。
如本文所使用，术语“错配内切核酸酶”指能够识别异源双链体多核苷酸(例如，含有核苷酸错配的双链核酸分子)并在错配处或附近切割异源双链体的一条或两条链的酶活性。具有单向错配内切核酸酶活性的分子一致地在错配一侧，5'或3'侧，而不在另一侧切割。在一个实施方案中，错配内切核酸酶大体上为单向，意味着至少90％的切口在错配一侧，5'或3'侧，但是允许高达10％的切口在相对侧。在各实施方案中，本发明的错配内切核酸酶可识别异源双链体多核苷酸中的核苷酸错配并且切割异源双链体的两条链。在各实施方案中，在核苷酸错配的10个或更少核苷酸内引入切口。在其它实施方案中，在核苷酸错配的9个或更少核苷酸，或8个或更少，或7个或更少，或6个或更少，或5个或更少，或4个或更少，或3个或更少，或2个或更少或1个核苷酸内引入切口。在另一实施方案中，在核苷酸错配位点引入切口，从而在核酸分子的末端留下至少一个错配核苷酸。在一个实施方案中，错配内切核酸酶在异源双链体的两条链上留下平末端切口。在核苷酸错配位点留下平末端时，在核酸分子末端存在错配核苷酸对。但是在其它实施方案中，切口可产生一个或多个核苷酸，例如1个核苷酸或2个或3个或4个或5个或6个或7个或8个或9个或10个或10个以上核苷酸的悬突。可用传统方法将这些片段组装成第二组双链核酸分子111，其比第一组分子极其更加可能具有所需核苷酸序列和所需长度。
多种错配内切核酸酶将用于本发明。RES I、CEL I、CEL II、SP核酸酶、SP I内切核酸酶、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、Mut蛋白质全部为有用的错配内切核酸酶。在本发明中有用的一种单向错配内切核酸酶在市场上可买到，作为使用CEL II作为主要组分的核酸酶(Transgenomic,Inc.,Omaha,NE)。利用这些中任何一种以上的组合也有利。在一个特定实施方案中，利用的错配内切核酸酶为CEL I和CEL II错配内切核酸酶的组合。这些中的一些已经重组表达(CEL I和SP I)(Pimkin等BMC Biotechnology，7:29(2007)。Doetsch等Nucleic Acids Res.，第16卷，第14期(1988)已经描述了SP核酸酶。
在各实施方案中，也可向反应混合物添加组分以增加内切核酸酶的作用以在核酸分子中产生双链断裂。一些内切核酸酶，例如内切核酸酶V，仅裂解核酸分子的一条链。但是可通过掺杂在恰当浓度的锰离子Mn⁺²介质中促进两条链的裂解。在一个实施方案中，反应介质包括呈方便形式，例如MnCl₂的10nM Mn⁺²。在另一实施方案中，进行附加步骤以从反应介质中排除镁Mg⁺²。
本文公开的错配内切核酸酶的变体在本发明中也有用。根据本发明，普通技术人员将意识到更多的内切核酸酶将在本发明中有用。也有可能的是，将发现或研发具有所需活性的新内切核酸酶，并且可用于本发明的申请中。因此，本文公开的错配内切核酸酶的变体和同系物在本发明中也有用。在各实施方案中，与本文公开的任何内切核酸酶具有至少70％序列同一性，或至少75％序列同一性，或至少80％序列同一性，或至少85％序列同一性，或至少90％序列同一性，或至少95％或96％或97％或98％或99％序列同一性的蛋白质在本发明中也有用。因此，在另个单独实施方案中，与CEL I或CEL II具有以上任何序列同一性的蛋白质均可用于本发明。
在一个替代实施方案中，本发明中有用的蛋白质、肽或核酸分子包含对选自序列表中SEQ ID NO:1至SEQ ID NO:33、其任何补体、其任何片段或其任何功能结构域的蛋白质、肽或核酸分子展现出70％或更高同一性和更优选至少75％或更高，80％或更高，85％或更高，87％或更高，88％或更高，89％或更高，90％或更高，91％或更高，92％或更高，93％或更高，94％或更高，95％或更高，96％或更高，97％或更高，98％或更高或99％或更高同一性。因此，本文公开的所有内切核酸酶和外切核酸酶的所有变体和同系物将在本发明中有用，并且可使用本文公开的原理发现或设计此类变体和同系物。
对于核酸和多肽，本文用术语“变体”指分别与参考多肽或多核苷酸相比，在其碱基或氨基酸序列上有合成或自然产生的一些差异的多肽、蛋白质或多核苷酸分子。例如，这些差异包括参考多肽或多核苷酸中的取代、插入、缺失或此类变化的组合。多肽和蛋白质变体可进一步由电荷变化和/或翻译后修饰(例如糖基化、甲基化、磷酸化等)组成。本发明的组合物也涵盖多核苷酸序列的生物活性变体。本发明的生物活性变体可通过定点诱变、诱发突变产生，或可作为等位基因变体存在(多态性)。合成核苷酸序列是在实验室环境下通过化学过程制成的核苷酸序列。合成核苷酸的实例为使用已知亚磷酰胺化学合成制成的寡核苷酸。这种化学方法使用源自受保护的2'-脱氧核苷(dA、 dC、dG和T)的亚磷酰胺构件在3’至5’方向连接核苷酸。产生合成核酸的另一种方法是聚合酶链式反应。在自然界或实验室使用自然方法合成自然生成的寡核苷酸，例如由微生物合成寡核苷酸。合成核苷酸序列可不同于自然生成的核苷酸序列，因为自然生成的序列可能已经通过一些转录后修饰加工以产生经化学改变的核苷酸序列。经合成生成的寡核苷酸可由较小寡核苷酸或亚型组装而成以形成较大的合成寡核苷酸。
如本文所使用的术语“功能同系物”描述了共同具有至少一种特征的蛋白质或多肽。此类特征包括序列相似性、生化活性、转录模式相似性和表型活性。通常，功能同系物为与参考多肽具有序列相似性并且实现参考多肽的一种或多种生物活性的多肽。功能同系物通常将产生类似但不一定相同程度的相同特征。通常，功能同源蛋白产生相同特征，其中归因于其中一种同系物的定量测量为另一种的至少20％；更典型地，介于30-40％；更典型地，介于50-60％；甚至更典型地，介于70-80％；甚至更典型地，介于90-95％；甚至更典型地，介于另一种的98-100％。
功能同系物和参考多肽可为天然存在的多肽，并且序列相似性可能是由于趋同或趋异进化事件。因此，有时在文献中将功能同系物称为同系物、直系同源物或旁系同源物。天然存在的功能同系物的变体，例如由突变体或野生型编码序列编码的多肽，本身可为功能同系物。如本文所使用，也可经多肽编码序列的定点诱变，或通过组合来自不同天然存在的多肽的编码序列的结构域产生功能同系物。术语“功能同系物”有时适于编码功能同源多肽的核酸。
可通过分析核苷酸和多肽序列比对鉴定功能同系物。例如，对核苷酸或多肽序列数据库进行查询可鉴定多肽的同系物。序列分析可涉及使用多肽的氨基酸序列作为参考序列对非冗余数据库的BLAST、倒数BLAST或PSI-BLAST分析。在一些情况下，由核苷酸序列推导出氨基酸序列。通常，数据库中具有大于40％序列同一性的那些多肽是进一步评估作为多肽的适合性的候选物。氨基酸序列相似性允许保守性氨基酸取代，例如将一个疏水性残基取代为另一个疏水性残基或将一个极性残基取代为另一个极性残基。若需要，可进行此类候选物的人工检查以便缩小要进一步评估的候选物的数量。可通过选择看起来具有目标多肽中存在的结构域，例如保守功能结构域的候选物进行人工检查。
可通过将定位多肽一级氨基酸序列中，为重复序列，形成某一二级结构(例如，螺旋和β折叠)，建立带正电或负电的结构域，或表示蛋白质基序或结构域的区域鉴定保守区。参见例如万维网网址sanger.ac.uk/Software/Pfam/and pfam.janelia.org/上描述多种蛋白质基序和结构域的共有序列的Pfam网站。例如，在Sonnhammer等(Nucl.Acids Res.，26:320-322,1998)，Sonnhammer等(Proteins，28:405-420,1997)；和Bateman等(Nucl.Acids Res.，27:260-262,1999)中描述了Pfam数据库包括的信息描述。也可通过比对来自近缘种的相同或相关多肽的序列确定保守区。近缘种优选来自相同家族。在一些实施方案中，比对来自两个不同物种的序列已足够。表示目标多肽活性的结构域的实例可在可以研究的各种文献来源和物种中找到，例如植物、藻类、真菌、细菌和动物。
通常，展现出至少40％氨基酸序列同一性的多肽对鉴定保守区有用。相关多肽的保守区展现出至少45％氨基酸序列同一性，例如至少50％，至少60％，至少70％，至少80％或至少90％氨基酸序列同一性。在一些实施方案中，保守区展现出至少92％、94％、96％、98％或99％氨基酸序列同一性。
如本文所使用，术语“外切核酸酶”指从多核苷酸的一个或多个末端去除核苷酸的酶活性。在一些实施方案中，多核苷酸与第二多核苷酸结合形成双链核酸分子。具有单向外切核酸酶活性的分子继续在5’至3’方向或3’至5’方向以逐步方式去除核苷酸。所述分子可为酶或具有外切核酸酶活性的另一种分子。具有大体上单向的外切核酸酶活性的分子指在核酸分子的5'或3'侧去除了至少90％的核苷酸，而在核酸分子的相对侧去除了0％至10％。在一个实施方案中，本发明方法中使用的外切核酸酶具有与所述方法中使用的错配内切核酸酶相同的方向性。
多种外切核酸酶将在本发明中有用。外切核酸酶指具有外切核酸酶活性的任何分子，包酶和非酶类分子。在各实施方案中，外切核酸酶为外切核酸酶III、具有外切核酸酶活性的DNA聚合酶、λ外切核酸酶、T7外切核酸酶和T5外切核酸酶及其变体。外切核酸酶也可以两种或更多种外切核酸酶的组合利用。DNA聚合酶常常具有3'外切核酸酶活性，并且市售的一种此类DNA聚合酶为DNA聚合酶(Finnzymes Oy,Espoo,Sweden)。具有外切核酸酶活性的其它DNA聚合酶包括T4DNA聚合酶、phi29聚合酶。本文公开的外切核酸酶的变体和同系物也可用于本发明，并且可如本文所公开那样鉴定或发现。
图2为了说明的目的描绘了5种不同的寡核苷酸202，但是可使用任何数量的寡核苷酸。可以任何方式获得所述寡核苷酸，包括从行业供应商处购买和/或独立合成。可以不同于获得一种或多种其它寡核苷酸的方式获得任何数量的寡核苷酸。任何寡核苷酸可能或可能不经测序就确定其是否包含足够具有所需核苷酸序列的分子。任何寡核苷酸可任选地经进一步纯化以减少其可能携带的任何核苷酸序列错误的数量。
在一些实施方案中，对预期具有所需寡核苷酸序列的核酸分子双链获得寡核苷酸。可仅对预期具有所需核苷酸序列的NDA单链获得寡核苷酸202。在一些实施方案中，可对DNA双链获得寡核苷酸202，使得一组寡核苷酸202包含具有全长所需核苷酸序列的重叠片段的一些寡核苷酸202。具有此类序列重叠的一组寡核苷酸202可用于比其它可能更有效地组装预期具有所需核苷酸序列的全长分子。这种效率增加意味着可使用更少量预期具有所需核苷酸序列的全长分子(或甚至没有全长分子)以获得更多预期具有所需核苷酸序列的全长分子。这种效率允许更好地控制核酸分子合成的成本。
参考图1和2，寡核苷酸202扩增为寡核苷酸204，增加了包含每种寡核苷酸202的分子的数量。用双箭头表示每种扩增的寡核苷酸204。双箭头仅为表示图案：扩增后每种寡核苷酸204的分子数量不一定是扩增之前存在的每种寡核苷酸202的分子数量的两倍，并且很可能是更高的数量级。任何扩增的寡核苷酸204可能或可能不经测序就确定其是否包含足够具有所需核苷酸序列的分子。任何扩增的寡核苷酸204可任选地经进一步纯化以减少其可能携带的任何核苷酸序列错误的数量。
扩增的寡核苷酸204用于组装第一组预期具有所需核苷酸序列的全长分子206。双平行线段表示全长、双链DNA分子206。然而，在一组此类全长分子206中，预期可存在具有一个或多个序列错误的一个或多个分子208。沿着全长分子208用短斜线指示序列错误。可能存在许多在序列的不同点有一个或多个序列错误的分子208。在一组此类全长分子206中，还可预期存在没有任何序列错误的一个或多个分子210。
第一组dsDNA分子206变性，使得每个分子的两条链分开。因此所述组的变性、单链、全长分子212可包含没有序列错误的一个或多个分子214和有一个或多个序列错误的一个或多个分子216。可能存在许多在序列的不同点有一个或多个序列错误的分子216。可以任何方式，例如通过加热分子206使所述组的全长分子206变性。
然后使所述组的变性分子212变性以获得预期具有所需核苷酸序列的双链DNA(dsDNA)分子218。在一组此类dsDNA分子中，可预期存在在dsDNA中有一个或多个序列错误或错配的一个或多个分子(220和105)和无任何序列错误或错配的一个或多个分子(未示出)。可以任何方式，例如通过冷却分子使变性组的单链(ssDNA)分子212 退火。
dsDNA中可能有许多在序列的不同点有一个或多个序列错误或错配的分子(220和105)。序列错误在第二组分子218上的分布将最有可能不同于第一组分子206上的分布，因为一个或多个单链分子214和216将退火为不同于变性之前与之结合的单链分子的其它单链分子214和216。例如，第一组分子206中的双链分子208可能有两个序列错误，每条链一个，直接在彼此对面。变性期间，来自分子208的单链216可移到没有错误的单链分子214附近。退火期间，第二全长分子220可形成只在其两条链的其中一条中有错误的分子。
可切割(例如，通过错配内切核酸酶)第二组全长分子218以形成第三组分子(未示出，但是在图1中用图表描绘，107)，使得第三组分子中的一个或多个分子比全长分子206或218短。切口可出现于dsDNA中存在错配的部分。在一个实施方案中，切口留下平末端而在其它实施方案中可留下粘性末端或悬突。在一个实施方案中，内切核酸酶是为本文公开的单向错配内切核酸酶的一种或多种内切核酸酶。这些内切核酸酶将在dsDNA核酸分子的两条链间有错配之处切割dsDNA。因此这样将留下在核酸分子的末端具有错配的dsDNA，例如在核酸107中(示为平末端切割实施方案)。然后可用“咀嚼”掉分子末端并消除不正确核苷酸的外切核酸酶，例如单向外切核酸酶消化这些dsDNA，产生具有悬突的dsDNA(图1中的109)。然后可使这些dsDNA退火和扩增并且用聚合物填充任何空位。在一些实施方案中，如有必要，可用连接酶修复缺口。
参考本发明可以看出，经每个周期的变性、退火和用内切核酸酶和外切核酸酶切割，所述组的分子中序列错误的数量比起始组的分子低得多。通过提供在核酸分子合成方法晚期操作的独特有力的纠错方法，核酸分子纠错的示例性方法得到一组预期具有所需核苷酸序列的全长分子111，其具有比另外可获得的明显更少的错误。
图3为描述合成错误最小化核酸分子的方法的一个实施方案的流程图。在步骤302，获得长度小于全长所需核苷酸序列的寡核苷酸101(图1)(即，全长所需核苷酸序列的“寡核苷酸片段”)。预期每个寡核苷酸101具有包含全长所需核苷酸序列的一部分的所需核苷酸序列。在各实施方案中，还可预期每个寡核苷酸101具有包含用于寡核苷酸101的PCR扩增的接头引物，用于连接寡核苷酸与DNA微芯片的栓系序列或由实验目的或其它意图决定的任何其它核苷酸序列的所需核苷酸序列。可以一种或多种途径的其中一种，例如通过合成、购买等获得寡核苷酸。
在步骤304，扩增获得的寡核苷酸101以获得更多的每种寡核苷酸。扩增可通过任何方法，例如通过PCR实现。可能在扩增期间发生向任何寡核苷酸103的核苷酸序列中引入另外的错误。不同的扩增寡核苷酸由步骤304的扩增产生。可用接头引物扩增寡核苷酸，并且可借助于IIS型限制性内切核酸酶裂解掉接头序列。
在步骤306，将扩增的寡核苷酸组装成第一多个双链核酸分子，其在一个实施方案中预期具有为预期合成的所需核苷酸序列的全长的所需长度。扩增的寡核苷酸组装成全长分子可以任何方式，例如使用基于PCR的方法实现。一个或多个双链核酸分子(或全长分子)可为含有由其一条或两条链中的一个或多个序列错误引起的至少一个核苷酸错配的双链核酸分子(105)。并且一个或多个双链核酸分子(或全长分子)可为其单链之一中不含核苷酸错配或序列错误的双链核酸分子105(图1)。
在步骤308，使第一多个双链核酸分子与一种或多种内切核酸酶反应。在一些实施方案中，内切核酸酶为单向错配内切核酸酶，其通过在错配核苷酸对或附近切割来使具有至少一个核苷酸错配的双链核酸分子片段化。因此所述一种或多种内切核酸酶将具有错配的双链核酸分子切成在核酸分子的末端核苷酸处或附近具有错配核苷酸对的较短分子。在粘性末端或悬突的情况下，末端核苷酸是单链悬突的最后一个核苷酸。在平末端切口的情况下，末端核苷酸将为核酸分子末端核苷酸对的任一个。
在所述方法的实施方案的步骤310，通过具有单向外切核酸酶活性的分子的作用从在核酸分子的末端核苷酸处或附近具有错配的双链核酸分子去除核苷酸错配。在一个实施方案中，单向外切核酸酶活性具有与单向错配内切核酸酶活性相同的方向性。因此，如果单向错配内切核酸酶裂解为核苷酸对错配的3'侧，则单向外切核酸酶可咀嚼掉包含核酸分子的核酸链的3'末端的核苷酸。然后可立即或在下一任选复制/扩增阶段通过聚合酶的作用来置换通过外切核酸酶咀嚼掉的核苷酸。这随后提供了片段化无错双链核酸分子。
最后在步骤312，组装第二多个具有片段化无错双链核酸分子111的双链核酸分子。此第二多个双链核酸分子与第一多个双链核酸分子相比，核苷酸错配频率降低。
在本发明的各实施方案中，所述方法的步骤可改变。例如在一个实施方案中，片段化具有核苷酸错配的双链核酸分子的步骤和用错配单向外切核酸酶去除不正确的核苷酸的步骤可在两步反应中作为单独步骤依次进行。但是在其它实施方案中，本方法涉及的一个或多个步骤可同时进行。因此，在一个实施方案中，与内切核酸酶和外切核酸酶的反应(例如，图2实施方案中描绘的步骤308和310)可作为一步反应同时进行。该实施方案涉及鉴定错配内切核酸酶和单向外切核酸酶可在相同反应中进行其反应的反应参数。在一步反应中，一经添加反应所必需的所有组分，就不需要打开反应容器，直至反应完全。在一些实施方案中，可用核酸酶(Transgenomic,Inc.,Omaha,NE)进行片段化步骤并且可用外切核酸酶III进行外切核酸酶/纠错步骤，并且如实施例3所详述，这种酶的组合可用于两步或一步法。
本发明还提供了对进行本发明的方法有用的组合物。所述组合物可包含(i)具有单向错配内切核酸酶活性的分子；和(ii)具有与(i)中所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的分子。在各实施方案中，具有单向错配内切核酸酶活性的分子可为本文所述任一种。具有单向外切核酸酶活性的分子也可为本文所述具有所述活性的任何分子。所述分子可组合成任何组合。在各实施方案中，具有单向错配内切核酸酶活性的分子可为RES I、CEL I、CEL II、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、Mut蛋白质中的任一种、其中任一种的变体及其中任两种或更多种的组合。在组合物中这种分子可与具有单向外切核酸酶活性的分子组合，例如外切核酸酶III、DNA聚合酶的任一种、其中任一种的变体或其中任两种或更多种的组合。在不同实施方案中，在不同实施方案中，组合物可呈干燥形式或于适合缓冲液中提供。也可在管、小瓶或其它适合容器中提供所述组合物。在一个实施方案中，在容器中提供呈纯化形式的(i)和(ii)的分子。
本发明还提供了对进行本发明的方法有用的试剂盒。所述试剂盒可包括以下任两种或更多种组分：错配内切核酸酶、5'或3'外切核酸酶、DNA聚合酶(有或无3'外切核酸酶校正活性)、进行所述方法的适合缓冲液、进行本发明一种或多种方法的说明书和标识含有关于本发明纠错方法的信息的网站的信息。所述信息是进行本发明方法的说明。在一个实施方案中，所述试剂盒含有单向错配内切核酸酶和外切核酸酶III，各自的量足以进行本发明的方法。本发明的试剂盒也可包含本文所述的任何组合物。试剂盒中包括的内切核酸酶、外切核酸酶和DNA聚合酶可为本文公开的任一种，例如核酸酶(Transgenomic,Inc.,Omaha,NE)或任一种的通用替代品、外切核酸酶III和DNA聚合酶(Finnzymes Oy,Finland)或任一种的通用替代品。可在单独的适合容器中提供试剂盒的组分，或在单个容器中与一种或多种组分一起提供。试剂盒的组分可在容器中呈纯化形式提供。试剂盒的组分也可呈干燥形式或在适合缓冲液中提供。
本发明也可连同操纵核酸的各种技术一起利用。例如，在一个实施方案中可在连接核酸分子的方法之后或连同一起利用本发明的纠错技术以确保在所述程序期间核酸分子正确复制。实例包括美国专利申请第2010/0035768号中公开的方法。尽管任何核酸组装方法将得益于增加如本文公开的纠错方法。因此本发明的试剂盒可含有在进行本发明的纠错方法之前或之后进行附加程序或DNA操纵的组分。因此，除上述试剂盒组分外，所述试剂盒还可包括以下任何一种或多种组分：缺乏3'外切核酸酶活性的非热稳定性5’至3’外切核酸酶(例如，T5外切核酸酶)、拥挤剂(例如，聚乙二醇、菲柯尔)、具有3'外切核酸酶活性的热稳定性非链置换DNA聚合酶、所述DNA聚合酶和缺乏3'外切核酸酶活性的另一种DNA聚合酶的混合物和热稳定性连接酶。
在本公开的通篇中，提到各种信息来源并通过引用并入。信息来源包括(例如)科学期刊文章、专利文献、教科书和万维网浏览器非活动性页面地址。对此类信息来源的参考仅仅是为了提供在提交时本领域总体状况的指示。虽然本领域的技术人员可依赖每一个信息来源的内容和教导并且用于获得和使用本发明的实施方案，但是特定信息来源中的任何讨论和评论决不得视为承认将此类评论作为本领域的一般意见广泛接受。
本文指定的通用方法的讨论仅仅旨在说明的目的。查阅本发明后，对于本领域技术人员，其它替代方法和实施方案将显而易见，并且要包括在本申请的精神和范围之内。
应理解，提供下列实施例是为了说明，而非限制本发明。
实施例1：由寡核苷酸组装合成HA和NA基因
如前所述使用Gibson Assembly^TM(Synthetic Genomics,Inc.,San Diego,CA)，由在其末端具有重叠序列的多个核苷酸组装合成基因产物(参见例如美国专利申请第2010/0035768号)。基因包括代表性血凝素(HA)基因和代表性神经氨酸酶(NA)基因。
试剂
5X等温(ISO)缓冲液:
5X ISO缓冲液含有25％PEG-8000、500mM Tris-HCl pH8.0、50mM MgCl₂、50mM DTT、各1mM的4dNTP和5mM NAD。
可通过合并以下组分制备6ml这种缓冲液：
3ml的1M Tris-HCl pH8.0
300μl的1M MgCl₂
600μl的10mM dNTP
300μl的1M DTT(1.54g溶于多达10ml的dH2O中)
1.5g PEG-8000
300μl的100mM NAD(Sigma；0.66g溶于多达10ml的dH₂O中；通过在50℃下加热，接着连续涡旋来重悬)
加水至6ml，等分试样1ml并且储存在-80℃下。
2X组装主要混合物：
2X组装主要混合物含有ISO反应缓冲液和组分寡核苷酸组装成基因产物所需的酶活性：5X等温(ISO)反应缓冲液)T5外切核酸酶(Epicentre)、DNA聚合酶(Finnzymes Oy,Vantaa,Finland)和Taq DNA连接酶。
可通过合并以下组分制备800μl足够80次反应的2X组装主要混合物：
如以上制备的320μl5X ISO缓冲液
6.4μl的1U/μl T5外切核酸酶(由酶原液1:10稀释于1×T5外切核酸酶缓冲液)
20μl的2U/μl聚合酶(Finnzymes Oy,Vantaa,Finland)
80μl的40U/μl Taq连接酶
374μl dH₂O
混合均匀并且储存在-20℃下，或如果要立即使用则储存于冰上。
组装混合物可储存在-20℃下至少一年。酶在至少10次冻融循环后仍有活性。所述混合物对于具有20-150bp重叠的DNA分子的组装而言是理想的。
寡核苷酸：
购买各自浓度为10,000nM的标准寡核苷酸。使用52个寡核苷酸(oligo)覆盖整个HA基因序列并且使用44个NA寡核苷酸覆盖整个NA基因序列。
基因组装
对于组装反应，汇合各10μl的寡核苷酸，对于HA而言每种寡核苷酸浓度为192nM(10,000nM/52)而对于NA而言每种寡核苷酸浓度为227nM(10,000nM/44)。寡核苷酸长度平均为60个碱基，有30bp重叠。
一经汇合，向以上制备的10μl的2X组织混合物添加10μl这种寡核苷酸混合物。50℃下温育反应物1h。组装反应后，如下通过PCR扩增基因产生：
5μl组装反应物
20μl5XHF缓冲液(Finnzymes Oy,Vantaa,Finland)
2μl10mM dNTP
71μl水
1μl热启动聚合酶(Finnzymes Oy,Vantaa,Finland)
0.5μl100uM RC-Univ-PKS10-F引物(克隆载体的通用正向引物)
0.5μl100uM RC-Univ-PKS10-R引物(克隆载体的通用反向引物)
循环反应如下：
98℃，1min；
98℃，10s；60℃，30s；72℃，1.5min；
在72℃下再重复24次循环5min，然后保持在4℃下。
实施例2：将组装基因克隆至克隆载体中
为了将组装基因产物克隆至PKS10克隆载体中，首先用引物扩增质粒以产生匹配重叠序列和末端，以与组装基因产物进行后续组装反应。
克隆载体的制备
如下通过PCR扩增通用PKS10克隆载体：
20μl5XHF PCR缓冲液
2μl10mM dNTP
75μl水
1μl热启动聚合酶(Finnzymes Oy,Vantaa,Finland)
1μl6ng/μl PKS10质粒模板
0.5μl100uM Univ-PKS10-F引物
0.5μl100uM Univ-PKS10-R引物
循环反应如下：
98℃，30s；
98℃，10s；60℃，30s；72℃，3min；
在72℃下再重复29次循环5min，然后保持在4℃下。
然后使用(Qiagen,GmbH,Hilden,Germany)凝胶纯化试剂盒凝胶纯化所得PCR产物。该PCR反应的典型产量为约50ng/μl。
将合成基因组装到克隆载体中
用凝胶纯化试剂盒凝胶纯化经扩增的合成基因或经纠错的合成基因的PCR产物，并且如下用于和经凝胶纯化的通用PKS10载体PCR产物组装：
0.3μl载体
4.7μl HA或NA
5μl2X组装主要混合物
50℃下温育反应物1h，然后加20μl水并且与组装反应物混合。然后通过标准电穿孔方法用这种稀释的组装反应混合物转化大肠杆菌(Epicentre Epi300细胞)。将1ml SOC生长物的1/1000接种到LB羧苄青霉素板上以获得单独菌落。
然后使单独菌落的许多培养物生长，制备质粒DNA，然后使用标准Sanger测序法测定合成基因的序列。测定含所需序列的克隆的百分比，并通过经测序克隆的数量乘以合成的DNA碱基对(bp)的数量，然后将这个数量除以错误总数测定错误率。
实施例3：使用错配内切核酸酶和外切核酸酶一起为合成HA和NA基因纠错
使用内切核酸酶和外切核酸酶使组装的HA和NA基因经受各种纠错方法以去除主要由于并入组装基因产物的寡核苷酸中序列不正确的固有错配。结果是HA和NA基因的简单、高保真、高效基因合成。通过经测序克隆的数量乘以合成的DNA碱基对(bp)的数量，然后将这个数量除以错误总数测定错误率。
A.两步反应
在两步反应中，先进行内切核酸酶反应，接着进行外切核酸酶反应。如实施例1所示，组装基因产物的PCR后，进行以下反应：
核酸酶/外切核酸酶III
如下，使8μl的PCR产物变性并退火：
98℃，2min；以2℃/s缓慢冷却至85℃，保持在85℃下2min，以0.1℃/s缓慢冷却至25℃，保持在25℃下2min，然后保持在10℃下。
添加2μl核酸酶(Transgenomic,Inc.,Omaha,NE)(源自芹菜、裂解所有类型的错配的错配内切核酸酶)并且在42℃下温育1h。
添加1μl外切核酸酶III(于1X HF缓冲液中1:4000稀释)并且在37℃下温育1h。
然后如上所述通过PCR扩增2μl此反应混合物。
任选地，重复步骤1-3以增加保真性(进一步减少最终基因产物中的错误)。
使用两步反应的纠错结果
由寡核苷酸组装合成HA基因，然后使用单独的核酸酶或在以上两步反应中使用核酸酶，接着用外切核酸酶III进行纠错。所得错误率如下：

因此，使用单独的核酸酶处理，合成HA基因纠错使获得的正确序列数量从48％增加到62％，错误率从1/1,791bp改善为1/3,710bp；而使用所公开的结合内切核酸酶与外切核酸酶的两步纠错方法，从48％增加到75％，错误率从1/1,791bp改善为1/5,572bp。
在另一实验中，由寡核苷酸组装HA和NA合成基因，然后使用单独的核酸酶，或在以上两步反应中使用核酸酶，接着用外切核酸酶III进行纠错。所得错误率如下：

因此，使用单独的核酸酶处理，合成HA基因纠错使获得的正确序列数量从9.5％增加到58.3％，错误率从1/1635bp改善为1/2828bp；而使用所公开的结合内切核酸酶与外切核酸酶的两步纠错方法，从9.5％增加到71％，错误率从1/1635bp改善为1/6169bp。
使用单独的核酸酶(Transgenomic,Inc.,Omaha,NE)处理，合成NA基因纠错使获得的正确序列数量从46.4％增加到58.1％，错误率从1/1850bp改善为1/2480bp；而使用所公开的结合内切核酸酶与外切核酸酶的两步纠错方法，从46.4％增加到80％，错误率从1/1850bp改善为1/5314bp。
替代性内切核酸酶+外切核酸酶III
与以上两步法一样，但是改变内切核酸酶和步骤2的条件进行反应，如下：
用T4内切核酸酶替代核酸酶，并且在37℃下温育1h。
用内切核酸酶V替代核酸酶，并且在37℃下温育1h。
使用两步反应用替代内切核酸酶纠错的结果

因此，其它替代核酸酶与公开的外切核酸酶组合能够增加获得的正确序列数量并且在不同程度上改善错误率。
B.一步反应
在一步反应中，内切核酸酶反应与外切核酸酶反应同时(同时在相同混合物中)进行。如实施例1所示，组装基因产物的PCR后，进行以下反应。
如下，使8μl的PCR产物变性并退火：
98℃，2min；以2℃/s缓慢冷却至85℃，保持在85℃下2min，以0.1℃/s缓慢冷却至25℃，保持在25℃下2min，然后保持在10℃下。
添加2μl核酸酶(Transgenomic,Inc.,Omaha,NE)和1μl外切核酸酶III(于1X HF缓冲液中1:4000稀释)并且在42℃下温育1h。
然后如上所述通过PCR扩增2μl此反应混合物。
任选地，重复步骤1和2以增加保真性。
使用一步反应纠错的结果
由寡核苷酸组装合成HA基因，然后在以上一步反应中一起使用核酸酶(Transgenomic,Inc.,Omaha,NE)与外切核酸酶III进行纠错。添加反应组分后，不再打开反应容器直至反应完成。将温育温度从4℃改变为50℃以确定纠错的最佳反应条件。所得错误率如下：

基因温度(℃)错误率正确克隆数HA41/1,357bp25个中10个正确(40％)HA251/1,866bp25个中11个正确(44％)HA301/6,716bp30个中22个正确(73％)HA371/3,582bp30个中19个正确(63％)HA421/6,716bp30个中23个正确(77％)HA501/5,572bp28个中21个正确(75％)

因此，在30℃-50℃的不同温度下，一起使用核酸酶与外切核酸酶III的合成HA基因的一步纠错使获得的正确序列数量增加且错误率改善。在42℃下易于进行一步纠错方法。
实施例4：一起使用单独的内切核酸酶或与外切核酸酶或具有外切核酸酶活性的聚合酶的合成HA和NA基因的纠错
使用各种单独内切核酸酶或与外切核酸酶或具有外切核酸酶活性的聚合酶的组合使组装HA基因产物经受各种纠错方法，以去除主要由于并入组装基因产物的寡核苷酸中序列不正确的固有错配。
用核酸酶(Transgenomic,Inc.,Omaha,NE)(将3'切成错配)单独或在如上所述两步反应中与具有3’至5’外切核酸酶活性的DNA聚合酶(Finnzymes,Oy,Finland)一起进行纠错。反应条件为用核酸酶42℃下20min，接着用DNA聚合酶37℃下20min。
用T7内切核酸酶(将5'切成错配)单独或在如上所述两步反应中与具有5’至3’外切核酸酶活性的T5外切核酸酶一起进行纠错。反应条件为用T7内切核酸酶37℃下20min，接着用T5外切核酸酶37℃下20min。
使用两步反应用替代内切核酸酶和替代外切核酸酶活性纠错的结果

因此，其它替代核酸酶与公开的外切核酸酶或具有外切核酸酶活性的另一种酶组合能够增加获得的正确序列数量并且在不同程度上改善错误率。
实施例5：鉴定并分离编码新颖错配内切核酸酶的基因
鉴定并分离编码新颖错配内切核酸酶的几种新颖基因。在所附序列表中提供了这些基因的核苷酸序列和推导的氨基酸序列。
在BLASTX同源性分析中，测定每个新颖基因的核苷酸序列以编码与已知错配内切核酸酶有同源性的蛋白质。还使用DDBJ/GenBank/EMBL数据库进行了对基因的核苷酸序列和推导的氨基酸序列的同源性搜索。另外，还使用GENOMEQUEST^TM软件(GenomeQuest,Inc.,Westborough,MA)(Gene-IT,Worcester,Mass.)测定了序列同一性和相似性。如表1所报告，每个基因的推导氨基酸序列展现出与已知内切核酸酶，从芹菜和鳞叶卷柏分离的CEL I和CEL II的高度序列相似性(美国专利第6,391,557、7,078,211和7,560,261号)。
表1.使用Vector包(Life Technologies,Carlsbad,CA)的(Life Technologies,Carlsbad,CA)工具计算与已知内切核酸酶的氨基酸序列同源性。

图4为鳞叶卷柏RES I内切核酸酶(SEQ ID NO:02)、芹菜CEL I内切核酸酶(SEQ ID NO:04)、芹属CEL II内切核酸酶(SEQ ID NO:06)、另一芹属CEL II内切核酸酶(SEQ ID NO:08)、玄参科猴面花CEL I内切核酸酶(SEQ ID NO:10)、马铃薯CEL I内切核酸酶(SEQ ID NO:13)、葡萄CEL II内切核酸酶(SEQ ID NO:16)、马铃薯CEL II内切核酸酶(SEQ ID NO:25)、苜蓿属CEL II内切核酸酶(SEQ ID NO:27)的比对。在该实施例中，使用Vector NTI(Invitrogen,Corp.,Carlsbad,CA)11.5包(Invitrogen,Carlsbad,Calif.)的程序(Life Technologies,Carlsbad,CA)，用默认设置生成图4的序列比对。如本文其它地方所详细讨论，已经由这种序列比较分析鉴定了具有高度保守性的几个多肽结构域和基序。在本文所示比对图中，比对序列中的破折号表示空位，即该位置缺乏氨基酸。黑色方框和灰色方框分别标识比对序列中的相同氨基酸和保守氨基酸。
另外，使用程序SignalP4.0，预估玄参科猴面花CEL I内切核酸酶全长多肽(SEQ ID NO:10)的A30和W31之间的蛋白水解酶裂解位点。因此，预估对应于SEQ ID NO:10的氨基酸序列的残基31-306的玄参科猴面花CEL I内切核酸酶成熟核心区随后用于如以下，例如实施例6、7和8所详细描述，在昆虫细胞中生成玄参科猴面花CEL I内切核酸酶重组体。
类似地，预估对应于SEQ ID NO:23的氨基酸序列的残基25-323的葡萄CEL II内切核酸酶成熟核心区随后用于如以下实施例6、7和8所详细描述，在昆虫细胞中生成葡萄CEL II内切核酸酶重组体。
实施例6：构建适合重组昆虫细胞中异源酶生成的重组表达盒。
该实施例描述了利用Bac-to-杆状病毒表达系统(Life Technologies,Inc.,Carlsbad,Calif.)构建使得能够在昆虫细胞中异源表达从玄参科猴面花和葡萄分离的错配内切核酸酶的两种重组表达盒。
设计了两种嵌合表达盒，用于重组表达含有玄参科猴面花CEL I内切核酸酶(SEQ ID NO:14)或葡萄CEL II内切核酸酶(SEQ ID NO:23的残基25-323)的成熟核心区的嵌合多肽。每个嵌合多肽含有与蜜蜂蜂毒肽的N端分泌信号(Tesier等，Gene98，177-183)可操作连接的成熟核心区编码序列和具有连接子的C端8X多组氨酸表位标签。在序列表中作为SEQ ID NO:11和SEQ ID NO:17公开了嵌合蛋白的氨基酸序列。
然后SEQ ID NO:11和SEQ ID NO:17的氨基酸序列用于生成具有为在昆虫细胞中表达而优化的DNA序列密码子的表达盒。为此，使用草地贪夜蛾的密码子偏好。本文在序列表中作为SEQ ID NO:31和SEQ ID NO:33公开了两个经密码子优化的表达盒的核苷酸序列。随后将每个重组表达盒克隆至表达载体pFastbacl的两个克隆位点5'EcoRI和3'NotI。分别命名为Mimmulus-C-His-pFastbacl和Vitis-C-His-pFastbacl的所得质粒用于感染Sf9昆虫细胞。使用BAC-TO-系统(Life Technologies,Inc.,Carlsbad,CA)，根据生产商的说明，在Sf9昆虫细胞中生成P1杆状病毒原液。
实施例7：制备表达重组嵌合内切核酸酶的昆虫细胞的溶解膜提取物。
该实施例描述了利用BAC-TO-杆状病毒表达系统(Life Technologies,Inc.,Carlsbad,Calif)，在昆虫细胞培养物中生成重组表达的Mimmulus-C-His和Vitis-C-His内切核酸酶的详情。简言之，根据生产商的说明进行P1病毒生成和异源生成重组表达盒。如下所述，使用抗His标签抗体，通过蛋白质印迹测定法分析来自表达重组内切核酸酶的P1病毒储用培养物的细胞溶解产物。
由昆虫细胞培养物制备粗溶解膜提取物：
膜的制备：使每种昆虫细胞培养物的细胞团块重悬在IMAC A缓冲液中(20mM Tris、500mM NaCl、0.0125％Brij-35、0.01％Triton X-100、0.005％吐温20(Tween-20)，pH8.0)。然后超声处理细胞悬液(3×30s，脉冲)并且使用台式离心机18,000rpm离心60min。弃上清液并且使所述团块重悬在20mM Tris-HCl、150mM NaCl、5％甘油中。量化蛋白质浓度，然后在最终缓冲液(50mM Tris-HCl、300mM NaCl、10μΜZnCl2、20％甘油)中稀释至10mg/ml。将蛋白质提取物等分成1ml每份并使用液氮速冻并且储存在-80℃下。要监测细胞溶解效率，通常对全细胞和重悬的团块样品进行SDS-PAGE凝胶测定(CRITERION^TM无染料预制PAGE系统)(BioRad Laboratories,Inc.,Hercules,CA)和蛋白质印迹分析(抗HIS表位抗体)。
在以下溶解研究中发现重组Mimmulus-C-His和Vitis-C-His内切核酸酶均可溶。使昆虫细胞团块1:10重悬在20mM Tris-HCl、150mM NaCl中。将重悬的蛋白质分到4支相同管中以产生如下4种条件：
I.20mM Tris-HCl、150mM NaCl
II.20mM Tris-HCl、150mM NaCl、0.0125％Brij-35、0.01％Triton X-100、0.005％吐温20
III.20mM Tris-HCl、150mM NaCl、8M脲
IV.20mM Tris-HCl、150mM NaCl、0.0125％Brij-35、0.01％Triton X-100、0.005％吐温20、8M脲
超声处理以上4个样品(3×15s，于冰上)，并且使用台式Allegra离心机18,000rpm离心60min。通常对全细胞和重悬的团块样品进行SDS-PAGE凝胶测定和蛋白质印迹分析。一次抗体为小鼠体内产生的多克隆抗多组氨酸抗体，1:3000稀释；二次抗体经山羊抗小鼠过氧化物酶偶联，1:20,000稀释。用SUPERSIGNAL^TM West Pico化学发光底物(Pierce Chemical Co.,Rockford,IL)进行检测。
纯化昆虫细胞中异源表达的重组Mimmulus-C-His内切核酸酶
实施例6中描述的每种表达盒含有与编码内切核酸酶成熟核心区的核酸序列可操作连接，编码蜜蜂蜂毒肽的分泌信号的核苷酸序列。这种特征允许重组蛋白一旦在昆虫细胞的细胞质中生成，就分泌到培养基中。
1L条件培养基中的昆虫细胞培养物与5ml的Ni-6FF树脂(Pharmacia Fine Chemicals,Piscataway,NJ)成批结合过夜。通过离心收集树脂，包在5ml柱中，并连接到Explorer(GE Health Care Biosciences,Inc.,Uppsala,Sweden)。用10CV的IMAC缓冲液A(20mM Tris500mM NaCl5mM咪唑pH7.5)洗涤所述柱。用超过 30CV的4％-100％线性梯度的IMAC缓冲液B(20mM Tris、500mM NaCl、1M咪唑，pH7.5)洗脱结合的蛋白质，收集2.5ml成分。通常通过SDS PAGE CRITERION^TM无染料(BioRad Laboratories,Inc.,Hercules,CA)和蛋白质印迹，用抗His抗体分析以下样品：(1)洗脱成分，(2)载料，(3)流过物(FT)和(4)洗涤样品。汇合含蛋白质的成分并用最终配制缓冲液(50mM Tris、30mM NaCl、10μΜZnCl2、20％甘油，pH7.6)透析。过滤透析汇合物(0.45μl)并通过SDS PAGE CRITERION^TM无染料和蛋白质印迹，用抗His抗体分析。通过紫外分光光度法测定蛋白质样品中的蛋白质浓度。将汇合物分成1ml等分试样，使用液氮速冻并储存在-80℃下。MimmulusC-His蛋白质的最终浓度为0.75mg/ml。来自1L细胞培养物的蛋白质总量为9mg。配制缓冲液如下：50mM Tris-HCl、300mM NaCl、10μΜZnCl2；20％甘油，pH7.6。
MimmulusC-His蛋白质的最终浓度为0.75mg/ml。来自1L细胞培养物的蛋白质总量为9mg。配制缓冲液如下：50mM Tris-HCl、300mM NaCl、10μΜZnCl2；20％甘油，pH7.6。
图5描绘了纯化MimmulusC-His CEL I蛋白质的SDS聚丙烯酰胺凝胶分析(图5A)和使用抗多组氨酸抗体(图5B)的蛋白质印迹结果。泳道1：Fermentas标记(5μL)；泳道2：透析前的MimmulusC-His(12μL)；泳道4：Fermentas标记(12μL)；泳道5：透析后的MimmulusC-His(12μL)；泳道7：Fermentas标记(5μL)；泳道8：透析后的MimmulusC-His(6μL)。一次抗体为小鼠体内产生的多克隆抗多组氨酸抗体，1:3000稀释；二次抗体经山羊抗小鼠过氧化物酶偶联。1:20,000稀释。用West Pico化学发光底物(Pierce Chemical Co.,Rockford,IL)进行检测。
实施例8：使用纯化MimulusC-His嵌合内切核酸酶对合成基因纠错。
如以上实施例7所述分离的纯化重组MimulusC-His嵌合内切核酸酶如实施例3所述，经受各种两步纠错测定，即先进行内切核酸酶反应，接着进行外切核酸酶反应。通过经测序克隆的数量乘以合成的DNA碱基对(bp)的数量，然后将此数量除以错误总数来确定错误率。
简言之，如实施例1所示，由寡核苷酸组装合成NA基因，然后使用未纯化的重组MimulusC-His内切核酸酶或纯化的重组MimulusC-His内切核酸酶，接着通过如以上两步反应中描述的外切核酸酶反应进行纠错。在此实验中，在外切核酸酶处理步骤使用T5外切核酸酶或外切核酸酶III。所得错误率如下：
表2：用源自溶解膜提取物的未纯化重组MimulusCEL I成熟核心进行的纠错测定。

因此，单独使用未纯化重组MimulusCEL I处理为合成HA基因纠错提供了1/1,572bp至1/2,801bp的错误率改善。如表2所公开，使用结合内切核酸酶与外切核酸酶的两步纠错方法大大改善了纠错率。具体而言，未纯化重组MimulusCEL I成熟核心和外切核酸酶III的组合使获得的正确序列数量从40％增加到83％，并且提供了1/1,572bp至1/10,131bp的错误率改善。
在另一实验中，在两步纠错测定中试验了未纯化和纯化MimulusCEL I内切核酸酶。在此实验中，由寡核苷酸组织HA合成基因，然后如实施例3所述，使用MimulusCEL I内切核酸酶(42℃，1h)，接着通过外切核酸酶III处理(55℃，1h)以两步反应进行纠错。所得错误率如下：
表3：用通过Ni-柱色谱法(Pharmacia Fine Chemicals，Piscataway，NJ)纯化的重组MimulusCEL I成熟核心进行的纠错测定。

因此，使用单独的未纯化重组MimulusCEL I成熟核心，合成HA基因纠错使获得的正确序列数量从25％增加到59.5％，错误率从1/1，204bp改善为1/3，081bp；而使用结合内切核酸酶与外切核酸酶III处理的两步纠错方法，从25％增加到89％，错误率从1/1，204bp改善为1/13，570bp。
序列
示例性内切核酸酶-RES I
US7078211-SEQ ID NO：01-核酸序列
>RES I_US7078211_SEQIDNO_01
ATGGCAACGACCAAGACGAGCGGGATGGCGCTGGCTTTGCTCCTCGTCGCCGCCCTGGCCGTGGGAGCTGCGGCCTGGGGGAAAGAGGGCCATCGCCTCACTTGTATGGTCGCCGAGCCCTTTCTAAGCTCTGAATCCAAGCAAGCTGTGGAGGAGCTTCTCTCTGGAAGAGATCTCCCGGACTTGTGTTCATGGGCCGATCAGATTCGAAGATCGTATAAGTTTAGATGGACTGGTCCTTTGCACTACATCGATACTCCAGACAACCTCTGCACCTATGACTATGATCGTGACTGCCACGATTCCCATGGGAAGAAGGACGTGTGTGTCGCTGGTGGGATCAACAATTACTCGTCGCAGCTGGAAACGTTTCTAGATTCAGAGAGCTCGTCGTATAACTTGACCGAGGCGCTGCTCTTCCTGGCTCACTTTGTCGGGGATATACACCAGCCCTTGCACGTAGCATTTACGAGTGATGCCGGAGGCAA TGGCGTGCACGTCCGCTGGTTTGGACGAAAGGCCAACTTGCATCACGTCTGGGATACAGAATTTATTTCTAGAGCCAATCGTGTGTACTACCACGACATTTCCAAGATGCTCCGGAACATTACCAGGAGCATAACTAAGAAGAATTTCAATAGTTGGAGCAGATGTAAGACTGATCCGGCGGCTTGTATTGATAGTTATGCGACAGAAAGTATAGATGCTTCTTGCAACTGGGCATACAAAGACGCACCCGACGGAAGCTCTCTAGATGATGATTACTTCTCTTCACGCCTTCCAATTGTTGAGCAGCGTCTTGCTCAAGGGGGCGTCAGGCTGGCGTCAATACTCAACAGGATTTTTGGAGGAGCAAAGTCGAACAGGTCCAGTCGCTCAAGCATGTAG
US7078211-SEQ ID NO：02-氨基酸序列
>RES I_US7078211_SEQIDNO_02
MATTKTSGMALALLLVAALAVGAAAWGKEGHRLTCMVAEPFLSSESKQAVEELLSGRDLPDLCSWADQIRRSYKFRWTGPLHYIDTPDNLCTYDYDRDCHDSHGKKDVCVAGGINNYSSQLETFLDSESSSYNLTEALLFLAHFVGDIHQPLHVAFTSDAGGNGVHVRWFGRKANLHHVWDTEFISRANRVYYHDISKMLRNITRSITKKNFNSWSRCKTDPAACIDSYATESIDASCNWAYKDAPDGSSLDDDYFSSRLPIVEQRLAQGGVRLASILNRIFGGAKSNRSSRSSM
示例性内切核酸酶-CELI
US6391557-SEQ ID NO：03-核酸序列
>CEL I_US6391557_SEQIDNO_03
TACTCACTATAGGGCTCGAGCGCCCGCCCGGGCAGGTATAATATTAGACTTGTACTCAATGACAAGCGCCATCTATGAGTTTCATCATGCCTATATATAAACACATGAACCTGTCATTGTTCATTTATGCATTATTGTTGTATTAGCTGAAAAATTTCTGGCAAATGACGCGATTATATTCTGTGTTCTTTCTTTTGTTGGCTCTTGTAGTTGAACCGGGTGTTAGAGCCTGGAGCAAAGAAGGCCATGTCATGACATGTCAAATTGCGCAGGATCTGTTGGAGCCAGAAGCAGCACATGCTGTAAAGATGCTGTTACCGGACTATGCTAATGGCAACTTATCGTCGCTGTGTGTGTGGCCTGATCAAATTCGACACTGGTACAAGTACAGGTGGACTAGCTCTCTCCATTTCATCGATACACCTGATCAAGCCTGTTCATTTGATTACCAGAGAGACTGTCATGATCCACATGGAGGGAAGGACATGTGTGTTGCTGGAGCCATTCAAAATTTCACATCTCAGCTTGGACATTTCCGCCATGGAACATCTGATCGTCGATATAATATGACAGAGGCTTTGTTATTTTTATCCCACTTCATGGGAGATATTCATCAGCCTATGCATGTTGGATTTACAAGTGATATGGGAGGAAACAGTATAGATTTGCGCTGGTTTCGCCACAAATCCAACCTGCACCATGTTTGGGATAGAGAGATTATTCTTACAGCTG CAGCAGATTACCATGGTAAGGATATGCACTCTCTCCTACAAGACATACAGAGGAACTTTACAGAGGGTAGTTGGTTGCAAGATGTTGAATCCTGGAAGGAATGTGATGATATCTCTACTTGCGCCAATAAGTATGCTAAGGAGAGTATAAAACTAGCCTGTAACTGGGGTTACAAAGATGTTGAATCTGGCGAAACTCTGTCAGATAAATACTTCAACACAAGAATGCCAATTGTCATGAAACGGATAGCTCAGGGTGGAATCCGTTTATCCATGATTTTGAACCGAGTTCTTGGAAGCTCCGCAGATCATTCTTTGGCATGAATTTAGATACTGATATTCGCATTTCTCATGACACCCTTCTCTTATGCAATTTGCAGATCAGCTGTGATTCACTAATTGAA
US6391557-SEQ ID NO：04-氨基酸序列
>CELI_US6391557_SEQIDNO_04
MTRLYSVFFLLLALVVEPGVRAWSKEGHVMTCQIAQDLLEPEAAHAVKMLLPDYANGNLSSLCVWPDQIRHWYKYRWTSSLHFIDTPDQACSFDYQRDCHDPHGGKDMCVAGAIQNFTSQLGHFRHGTSDRRYNMTEALLFLSHFMGDIHQPMHVGFTSDMGGNSIDLRWFRHKSNLHHVWDREIILTAAADYHGKDMHSLLQDIQRNFTEGSWLQDVESWKECDDISTCANKYAKESIKLACNWGYKDVESGETLSDKYFNTRMPIVMKRIAQGGIRLSMILNRVLGSSADHSLA
示例性内切核酸酶-CEL II
US7560261-SEQ ID NO：05-核酸序列
>CEL II_US7560261_SEQIDNO_05
ATGGGTATGTTGACTTATACTGGAATTTATTTTCTGCTATTACTTCCAAGTGTTTTCTGTTGGGGAAAACAAGGACATTTTGCAATTTGTAAAATTGCCCAGGGGTTCCTTAGTAAAGATGCACTGACTGCAGTGAAAGCATTGCTCCCAGAATATGCAGATGGTGATCTAGCAGCTGTTTGCTCCTGGGCTGACGAGGTTCGATTTCATATGCGTTGGAGTAGCCCATTACATTATGTGGACACGCCTGATTTCAGGTGTAACTATAAATACTGTAGAGATTGCCATGATTCTGTTGGACGGAAAGACCGGTGTGTTACTGGAGCAATTCACAACTACACAGAGCAACTTCTATTGGGTGTTCATGACTTGAATTCAAAAATGAATAACAACTTGACGGAGGCACTTATGTTCTTATCACATTTCGTTGGTGATGTCCATCAGCCTCTACATGTTGGCTTCCTTGGCGATGAAGGAGGAAACACAATCACCGTCCGCTGGTATCGGAGGAAAACCAATTTGCATCATGTATGGGACACAATGATGATTGAATCCTCCTTGAAGACATTCTACAATTCAGATCTTTCTAGCTTAATACAAGCTATTCAGAGCAATATTACAGGTGTCTGGCTTACCGACAGCTTATCTTGGAGCAATTGCACTGCTGATCATGTGGTTTGTCCAGACCCGTATGCTTCTGAAAGCATTGAGTTGGCCTGCAAGTTTGCCTAC AGAAATGCCACACCTGGGACCACTTTAGGAGATGAGTACTTCCTCTCTCGGTTGCCTGTTGCGGAGAAGAGGTTGGCTCAGGCTGGGGTCCGTTTGGCTGCTACTCTTAACCGAATCTTCACTTCAAACCCCAGCGATCTCACAAGATTGAATATGCATAATGGTGGACATAGAAGCAGTAACAATATTGAAATAGTGTAA
US7560261-SEQ ID NO：06-氨基酸序列
>CEL II_US7560261_SEQIDNO_06
MGMLTYTGIYFLLLLPSVFCWGKQGHFAICKIAQGFLSKDALTAVKALLPEYADGDLAAVCSWADEVRFHMRWSSPLHYVDTPDFRCNYKYCRDCHDSVGRKDRCVTGAIHNYTEQLLLGVHDLNSKMNNNLTEALMFLSHFVGDVHQPLHVGFLGDEGGNTITVRWYRRKTNLHHVWDTMMIESSLKTFYNSDLSSLIQAIQSNITGVWLTDSLSWSNCTADHVVCPDPYASESIELACKFAYRNATPGTTLGDEYFLSRLPVAEKRLAQAGVRLAATLNRIFTSNPSDLTRLNMHNGGHRSSNNIEIV
US7560261-SEQ ID NO：07-核酸序列
>CEL II_US7560261_SEQIDNO_07
TGGGGAAAACAAGGACATTTTGCAATTTGTAAAATTGCCCAGGGGTTCCTTAGTAAAGATGCACTGACTGCAGTGAAAGCATTGCTCCCAGAATATGCAGATGGTGATCTAGCAGCTGTTTGCTCCTGGGCTGACGAGGTTCGATTTCATATGCGTTGGAGTAGCCCATTACATTATGTGGACACGCCTGATTTCAGGTGTAACTATAAATACTGTAGAGATTGCCATGATTCTGTTGGACGGAAAGACCGGTGTGTTACTGGAGCAATTCACAACTACACAGAGCAACTTCTATTGGGTGTTCATGACTTGAATTCAAAAATGAATAACAACTTGACGGAGGCACTTATGTTCTTATCACATTTCGTTGGTGATGTCCATCAGCCTCTACATGTTGGCTTCCTTGGCGATGAAGGAGGAAACACAATCACCGTCCGCTGGTATCGGAGGAAAACCAATTTGCATCATGTATGGGACACAATGATGATTGAATCCTCCTTGAAGACATTCTACAATTCAGATCTTTCTAGCTTAATACAAGCTATTCAGAGCAATATTACAGGTGTCTGGCTTACCGACAGCTTATCTTGGAGCAATTGCACTGCTGATCATGTGGTTTGTCCAGACCCGTATGCTTCTGAAAGCATTGAGTTGGCCTGCAAGTTTGCCTACAGAAATGCCACACCTGGGACCACTTTAGGAGATGAGTACTTCCTCTCTCGGTTGCCTGTTGCGGAGAAGAGGTTGGCTCAGGCTGGGGTCCGTTTGGCTGCTACTCTTAACCGAATCTTCACTTCAAACCCCAGCGATCTCACAAGATTGAATATGCATAATGGTGGACATAGAAGCAGTAACAATATTGAAATAGTGTAA
US7560261-SEQ ID NO：08-氨基酸序列
>CELII_US756026I_SEQIDNO_08
WGKQGHFAICKIAQGFLSKDALTAVKALLPEYADGDLAAVCSWADEVRFHMRWSSPLHYVDTPDFRCNYKYCRDCHDSVGRKDRCVTGAIHNYTEQLLLGVHDLNSKMNNNLTEALMFLSHFVGDVHQPLHVGFLGDEGGNTITVRWYRRKTNLHHVWDTMMIESSLKTFYNSDLSSLIQAIQSNITGVWLTDSLSWSNCTADHVVCPDPYASESIELACKFAYRNATPGTTLGDEYFLSRLPVAEKRLAQAGVRLAATLNRIFTSNPSDLTRLNMHNGGHRSSNNIEIV
示例性内切核酸酶-CEL I变体-玄参科猴面花
核酸序列SEQ ID NO：09
ATGCAGATGTCGATTTCACGAGGAATTTTTGTTTCTTATTTTGCTTTATTTCTTTGTGTTTGTGTTGTTTATGAACCTTGTGTCCAGGCATGGAGTAAAGAAGGTCATTCCATGACATGCAAAATTGCTCAGGATTTGCTGGGACCAGAGGCGAAGCATGCTGTCCAAATGCTGTTACCTGAAAATGTTAATGGTGATTTATCGGCACTTAGCGTGTGGCCTGACCAAGTAAGACACTGGTATAAGTACCGTTGGACGAGCCCTCTTCACTTCATAGACACACCAGATCAAGCCTGTAATTTCAATTATCAGAGGGATTGCCATGATCCACATGGTGTTAAGGGTATGTGTGTAGCGGGGGCAATTCAGAACTTCACCAATCAGCTTTCGCATTATCGGCACGGAACCTCTGATCGACGCTATAATATGACAGAGGCCTTGTTGTTCTTGGCACACTTCATGGGAGATATTCATCAGCCACTGCATGTTGGATTCACGAGTGACGAAGGAGGAAACACTATAGACTTGCGCTGGTTCAGACACAAGTCAAATCTGCACCATGTATGGGACAGAGAGATAATTCTTACAGCTGCAGCAGATTACTACGGAAAGGACATTGACCTCCTGCAAGAAGACATTAAGGGAAACTTCACTGATGGAATCTGGTCTGGTGATCTTGCCTCTTGGAGGGAATGCAGTGATATATTTTCTTGTGTCAACAAGTATGCTGCTGAGAGTATAAACATGGCCTGCAAATGGGGTTACAAAGATGTTAAATCAGGGGACACTCTTTCAGATGATTACTTTAATTCAAGATTGCCGATTGTTATGAAACGCATAGCTCAGGGTGGAGTCCGTTTAGCTATGATTTTGAACCGGGTTTTCGGTGATAGCAAAGAGGATTCCTTAATTGCTACTTAA
氨基酸序列SEQ ID NO：10
MQMSISRGIFVSYFALFLCVCVVYEPCVQAWSKEGHSMTCKIAQDLLGPEAKHAVQMLLPENVNGDLSALSVWPDQVRHWYKYRWTSPLHFIDTPDQACNFNYQRDCHDPHGVKGMCVAGAIQNFTNQLSHYRHGTSDRRYNMTEALLFLAHFMGDIHQPLHVGFTSDEGGNTIDLRWFRHKS NLHHVWDREIILTAAADYYGKDIDLLQEDIKGNFTDGIWSGDLASWRECSDIFSCVNKYAAESINMACKWGYKDVKSGDTLSDDYFNSRLPIVMKRIAQGGVRLAMILNRVFGDSKEDSLIAT
用于昆虫细胞表达的氨基酸序列SEQ ID NO：11
MKFLVNVALVFMVVYISYIYAWSKEGHSMTCKIAQDLLGPEAKHAVQMLLPENVNGDLSALSVWPDQVRHWYKYRWTSPLHFIDTPDQACNFNYQRDCHDPHGVKGMCVAGAIQNFTNQLSHYRHGTSDRRYNMTEALLFLAHFMGDIHQPLHVGFTSDEGGNTIDLRWFRHKSNLHHVWDREIILTAAADYYGKDIDLLQEDIKGNFTDGIWSGDLASWRECSDIFSCVNKYAAESINMACKWGYKDVKSGDTLSDDYFNSRLPIVMKRIAQGGVRLAMILNRVFGDSKEDSLIATGSHHHHHHHHG
加下划线的-蜜蜂蜂毒肽分泌信号；
具连接子的多组氨酸标签
示例性内切核酸酶-CEL I变体-马铃薯
核酸序列SEQ ID NO：12
ATGTTGAGGTTAACTTCATTAAGCATTATTTTCTTTCTCTGTCTTGCTTTTATCAACCATCATGGTGCTGAAGCATGGAGCAAAGAGGGGCATATGATGACATGTCGCATCGCGCAGGGCTTGTTGAATGATGAGGCAGCTCATGCAGTCAAGATGTTGTTGCCGGAATATGTTAACGGCGACTTATCGGCCCTCTGTGTGTGGCCGGATCAAGTCCGGCACTGGTATAAGTATAAATGGACAAGCCCTCTACACTTCATTGATACACCAGATAAAGCTTGCAACTTTGATTATGAAAGGGACTGTCATGATCAACATGGAGTGAAGGATATGTGTGTTGCTGGTGCAATTCAGAACTTTACTACTCAACTCTCTCATTACAGAGAGGGAACTTCTGATCGTCGATATAATATGACAGAGGCCTTGCTGTTCTTGTCACATTTTATGGGAGATATCCATCAACCAATGCATGTTGGCTTTACAAGTGATGCTGGAGGAAATAGTATTGATTTACGCTGGTTTAGGCATAAATCGAACTTGCACCATGTGTGGGATAGGGAGATAATTCTAACAGCTGCTAAAGACTACTATGCAAAGGATGTAAACCTCCTTGAAGAAGACATTGAAGGAAACTTCACTGACGGAATTTGGTCTGATGATCTTGCTTCTTGGAGAGAATGTGGCAATGTCTTTTCTTGTGTAAACAAGTTTGCAACGGAAAGTATAAATATAGCATGCAAATGGGGATACAAAAGTGTTGAAGCTGGTGAAACTTTATCAGATGATTATTTCAATTCAAGACTTCCAATAGTGATGAAACGAGTAGCACAAGGTGGAATACGATTAGCCATGCTTTTAAACAACGTTTTTGGAGTTTCTCAACAAGAAGATTCAGTTGCTGCAACTTAA
氨基酸序列SEQ ID NO：13
MLRLTSLSIIFFLCLAFINHHGAEAWSKEGHMMTCRIAQGLLNDEAAHAVKMLLPEYVNGDLSALCVWPDQVRHWYKYKWTSPLHFIDTPDKACNFDYERDCHDQHGVKDMCVAGAIQNFTTQLSHYREGTSDRRYNMTEALLFLSHFMGDIHQPMHVGFTSDAGGNSIDLRWFRHKSNLHHVWDREIILTAAKDYYAKDVNLLEEDIEGNFTDGIWSDDLASWRECGNVFSCVNKFATESINIACKWGYKSVEAGETLSDDYFNSRLPIVMKRVAQGGIRLAMLLNNVFGVSQQEDSVAAT
示例性内切核酸酶-CEL I成熟核心序列
氨基酸序列SEQ ID NO：14
WSKEGHSMTCKIAQDLLGPEAKHAVQMLLPENVNGDLSALSVWPDQVRHWYKYRWTSPLHFIDTPDQACNFNYQRDCHDPHGVKGMCVAGAIQNFTNQLSHYRHGTSDRRYNMTEALLFLAHFMGDIHQPLHVGFTSDEGGNTIDLRWFRHKSNLHHVWDREIILTAAADYYGKDIDLLQEDIKGNFTDGIWSGDLASWRECSDIFSCVNKYAAESINMACKWGYKDVKSGDTLSDDYFNSRLPIVMKRIAQGGVRLAMILNRVFGDSKEDSLIAT
示例性内切核酸酶-CEL II变体-葡萄
核酸序列SEQ ID NO：15
ATGTGGGGAAAGGAAGGACACTATGCAGTTTGTAAAATAGCTGAGGGGTTCCTTTCTGAAGATGCATTAGGAGCAGTGAAAGGATTGCTTCCAGATTATGCTGATGGTGATCTGGCTGCCGTTTGCTCCTGGGCTGATGAGATTCGTCACAACTTCCATTGGCGATGGAGTGGCCCTTTACATTATGTAGATACACCAGATTACAGGTGTAATTATGAATACTGCAGAGACTGCCATGACTTCAGAGGACACAAAGATATATGTGTAACTGGAGCAATTTACAACTACACAAAGCAACTCACTTCTGGTTATCACAATTCAGGTTCAGAAATAAGATACAATTTGACAGAGGCCCTCATGTTCTTATCAGATTTTATTGGGGATGTCCATCAGCCCCTACATGTTGGTTTTACTGGAGATGAAGGTGGGAACACAATAATAGTCCGTTGGTACCGGAGGAAGACTAATTTGCATCATATATGGGATGACATGATCATTGATTCCGCCTTGAAGACATATTACAATTCAGATATTGCAATCATGATACAAGCCATTCAAAGAAATATTACAGGTGACTGGTCCTTTGATATCTCATCATGGAAAAATTGTGCATCTGATGATACGGCTTGTCCAAACCTGTATGCGTCTGAAGGCATTAGTTTAGCTTGCAAGTTTGCTTACAGAAATGCCACACCAGGAAGCACTCTAGGAGATGATTACTTCCTGTCTCGG CTACCAATTGTGGAGAAGAGGCTAGCCCCGAGTGGGATCCGCCTGGCTGCCACCCTTAACCGTATCTTTGCTTCTCAAGGCAAGAGAGCTAAAGCATGA
氨基酸序列SEQ ID NO：16
MWGKEGHYAVCKIAEGFLSEDALGAVKGLLPDYADGDLAAVCSWADEIRHNFHWRWSGPLHYVDTPDYRCNYEYCRDCHDFRGHKDICVTGAIYNYTKQLTSGYHNSGSEIRYNLTEALMFLSDFIGDVHQPLHVGFTGDEGGNTIIVRWYRRKTNLHHIWDDMIIDSALKTYYNSDIAIMIQAIQRNITGDWSFDISSWKNCASDDTACPNLYASEGISLACKFAYRNATPGSTLGDDYFLSRLPIVEKRLAPSGIRLAATLNRIFASQGKRAKA
用于昆虫细胞表达的氨基酸序列SEQ ID NO：17
MKFLVNVALVFMVVYISYIYAWGKEGHYAVCKIAEGFLSEDALGAVKALLPDYAEGDLAAVCSWADEIRHNFHWRWSGPLHYVDTPDYRCNYEYCRDCHDFRGHKDICVTGAIYNYTKQLTSGYHNSGSEIRYNLTEALMFLSHFIGDVHQPLHVGFTGDEGGNTIIVRWYRRKTNLHHIWDNMIIDSALKTYYNSDLAIMIQAIQRNITGDWSFDISSWKNCASDDTACPNLYASESISLACKFAYRNATPGSTLGDDYFLSRLPIVEKRLAQGGIRLAATLNRIFASQPKISLKHEDKRVEKTTPVDYIEWSPLQQFSGSHHHHHHHHG
加下划线的-蜜蜂蜂毒肽分泌信号；
具连接子的多组氨酸标签
示例性内切核酸酶-CELII变体-巧克力杯(Chocolate pot)
核酸序列SEQ ID NO：18
ATGACTTGGGGATTTTGGGCACATCGGCAAATACATCGCCAAGCCGTTTATCTTATGCCTTCGCCCGTGGCAGAGTTCTTTCGCGCAAATGTTCAAGAACTTGTCGACCGCTCGGTTGAAGCCGATGAACGCCGACGCATAGACCCCAACGAAGCTCCGCAACACTTCATTGATTTAGACCGCTACGGTGCCTATCCTTTTGAACAACTTCCGAGAGATTATGAAAAAGCCGTTGAGAAATTCGGCTATGAGCGGCTGAAAGAAAATGGACTTGTGCCGTGGCGCATTGCCGCCTTTGCCGATAGCCTCACCAACGCATTTCGGGAGCAGAACCGCGAAAAAATTTTATACTTCGCCGCAAATTTAGGGCATTATGTCGCCGATGCTAACGTGCCACTTCATGCCACCGAAAACTACGACGGACAACTCACAGGGCAAAAAGGATTGCACGCACGTTGGGAAACTATTTATCCTCAAAAGTTTATGCTCCCACGAGAAACCACCTATCTCGAAAACGGGAGCATCTTTATCATTGACAACATCACCGAA GAAGCCTTCAACTGGTCATTAGAAAGTTATGTATTGAGCCAACAAGTTTTGGCGATTGATAAGCAAATTCAATCGGAATTGTCAGAAGAAGAATTGTATGAGTTAAATTCATCAGACGCGCCGCCATTTCGTCGCGATTTTTCACAACGCTATTATGAAAAACTCAAAGAAAAATTGAATCAAATGGTTGAAAAATGCTTTGAGTTAAGCGTCATTAGGGTAGCGTCAGTTTGGTATTTTTCTTGGTTAAAAGCAGAAAAACCGAATTTATTTAACTTATTAAAAAATTGA
氨基酸序列SEQ ID NO：19
MTWGFWAHRQIHRQAVYLMPSPVAEFFRANVQELVDRSVEADERRRIDPNEAPQHFIDLDRYGAYPFEQLPRDYEKAVEKFGYERLKENGLVPWRIAAFADSLTNAFREQNREKILYFAANLGHYVADANVPLHATENYDGQLTGQKGLHARWETIYPQKFMLPRETTYLENGSIFIIDNITEEAFNWSLESYVLSQQVLAIDKQIQSELSEEELYELNSSDAPPFRRDFSQRYYEKLKEKLNQMVEKCFELSVIRVASVWYFSWLKAEKPNLFNLLKN
示例性内切核酸酶-CEL II变体-黑曜岩池
核酸序列SEQ ID NO：20
ATGTTTTGGGCACATCAAAAAGTCAACGAGCATGCCATTGATTTATTACCCGAGCCACTCCGCAGTTTTTATGAACAAAATAAGGAATACATAGTTAAGGAGTCGGTCGCCCCTGATCTCAGGCGTGCAGAAAACAAGGAAGAAGGTTATTATCACTATATGGATCTCGATAAATATGGTGAATATCCGTTCAAGAATTTGCCAGAAAACTACGACGACGCAGTAAAAAGGTTTGGTTACGATACTGTTCTCAAGAACGGAATTGTGCCGTGGAAGGTAAAATGGTTGACAGACAGTTTGAGTCAAGCTATGGAGAGAAAGGATGTGCCACAGGTCTTAAGACTTTCAGCCGACCTTGGTCATTATGTTGCTGACATGCATGTTCCATTTCATTCGACAGAAAATTATGATGGACAGCTGACAGGCAACATAGGAATACACTTCAGATGGGAAAGCGGCATTCCAGAACATTTTGGAACAAATTACAACTATGAGGGAATAGAGCCCGCTGTTTACTTCAAGCATCCTGATAAAAAGGCATTTGAGATACTGACTATGAGTTACAAGTTGATTCTACCTTCTCTCAAGGCTGATAGTCTTGCAAAAGTTGGATTGAATGGAAAGAGACTTTATAAAGTTGAGAGAGAAGACGGTAAAAAAGTTTACGTTTATTCAAACGAGTATTATGAGAAGTTCAACAAAAACCTTGGTGGTATTGTAGAATCGCAGATGAGGCTGGCAATCCATGATGTTGCAAGCTACTGGTATACTGCATGGGTAAATGCCGGTAAACCAAAGTTTTGGTAA
氨基酸序列SEQ ID NO：21
MFWAHQKVNEHAIDLLPEPLRSFYEQNKEYIVKESVAPDLRRAENKEEGYYHYMDLDKYGEYPFKNLPENYDDAVKRFGYDTVLKNGIVPWKVKWLTDSLSQAMERKDVPQVLRLSADLGHYVADMHVPFHSTENYDGQLTGNIGIHFRWESGIPEHFGTNYNYEGIEPAVYFKHPDKKAFEILTMSYKLILPSLKADSLAKVGLNGKRLYKVEREDGKKVYVYSNEYYEKFNKNLGGIVESQMRLAIHDVASYWYTAWVNAGKPKFW
示例性内切核酸酶-CEL II变体-葡萄
核酸序列SEQ ID NO：22
ATGGCTTGGTCTGGGGTCTTGTTGATTGTGAGGGCACTTGTTCTTCTGCAATTGATTCCTGGAATTCTGAGTTGGGGAAAGGAAGGACACTATGCAGTTTGTAAAATAGCTGAGGGGTTCCTTTCTGAAGATGCATTAGGAGCAGTGAAAGCATTGCTTCCAGATTATGCTGAAGGTGATCTGGCTGCGGTTTGCTCCTGGGCTGATGAGATTCGTCACAACTTCCATTGGCGATGGAGTGGCCCTTTACATTATGTAGATACGCCAGATTACAGGTGTAACTATGAATACTGCAGAGACTGCCATGACTTCAGAGGACACAAAGATATATGTGTAACTGGAGCAATTTACAATTACACAAAGCAACTCACTTCTGGTTATCACAATTCAGGTTCAGAAATAAGATACAATTTGACAGAGGCACTCATGTTCTTATCACATTTTATTGGGGATGTCCATCAGCCCCTACATGTTGGTTTTACTGGAGATGAAGGTGGGAACACAATAATAGTCCGTTGGTACCGGAGGAAGACTAATTTGCATCATATATGGGATAACATGATCATTGATTCCGCCCTGAAGACATATTACAATTCAGATCTTGCAATCATGATACAAGCCATTCAAAGAAATATTACGGGTGATTGGTCCTTTGATATCTCATCATGGAAAAATTGTGCATCTGATGATACGGCTTGTCCAAACCTGTATGCTTCTGAAAGCATTAGTTTAGCTTGCAAGTTTGCTTACAGAAATGCCACACCAGGAAGCACTCTAGGAGATGATTACTTCCTGTCTCGGCTACCAATTGTGGAGAAGAGGCTAGCCCAAGGTGGGATCCGCCTGGCTGCCACCCTTAACCGTATCTTTGCTTCTCAACCAAAAATCTCTCTCAAGCATGAAGATAAAAGGGTAGAGAAAACAACTCCAGTGGATTATATAGAGTGGAGCCCACTGCAACAATTTTCATAA
氨基酸序列SEQ ID NO：23
MAWSGVLLIVRALVLLQLIPGILSWGKEGHYAVCKIAEGFLSEDALGAVKALLPDYAEGDLAAVCSWADEIRHNFHWRWSGPLHYVDTPDYRCNYEYCRDCHDFRGHKDICVTGAIYNYTKQ LTSGYHNSGSEIRYNLTEALMFLSHFIGDVHQPLHVGFTGDEGGNTIIVRWYRRKTNLHHIWDNMIIDSALKTYYNSDLAIMIQAIQRNITGDWSFDISSWKNCASDDTACPNLYASESISLACKFAYRNATPGSTLGDDYFLSRLPIVEKRLAQGGIRLAATLNRIFASQPKISLKHEDKRVEKTTPVDYIEWSPLQQFS
示例性内切核酸酶-CEL II变体-马铃薯
核酸序列SEQ ID NO：24
ATGGGTGGGTTTGAGCTCAAATGGTTTGTAGGAGTAGCTGTTGTTCTGATGATGGTTCAAAATATTCTTGGTTGGGGGAAAGAGGGACACTATATTATCTGCAAAATTGCTGAGGAATATCTAACAGAAGATGCTTTAGCTGCAGTCAAAGCATTACTCCCAGATCAAGCCGAAGGTGATCTTGCAGCTGTCTGCTCCTGGCCTGATGAGGTTCGGCGCCACTACCACTACCGCTGGAGCTCTCCATTACATTATGTAGATACACCTGATTTCTTGTGCAATTACAAATATTGCCGAGACTGCCATGACGGGCATGGGCTCAAGGACAGGTGTGTTACGGGAGCAATATACAACTACTCAATGCAACTTTCGCAGGGATATTATGATTTGAATTCAGAAAAATACAACTTGACTGAAGCACTTATGTTCTTGTCTCATTTTGTTGGTGACGTACATCAGCCTCTCCATGTTGGTTTCACTGGAGATCTTGGTGGAAACAGTATAATTGTTCGTTGGTACAGGAGGAAGACTAATTTGCACCATGTATGGGATAACATGATTATTGAATCTGCGTTGAAGACATACTACAAATCTGATATAATGTTAATGACACAAGTTCTTCTGAAAAACATCACTCATGAATGGTCCGATGATGTTCCATCTTGGGAAGATTGCAAGGAGATGGTTTGTCCTGACCCATATGCTTCTGAAAGTATCCGTTTGGCCTGCAAATTTGCCTACAGAAATGCAACCCCGGGAAGCACTTTAACAGACGATTACTTCCTCTCTCGTCTTCCTGTTGTGGAGAAGAGGTTGGCACAAGGTGGGGTCCGCTTGGCCGAAGTTCTCAACAGAATTTTCACTAAAAAACCATCAGATGCTGCACAATGA
氨基酸序列SEQ ID NO：25
MGGFELKWFVGVAVVLMMVQNILGWGKEGHYIICKIAEEYLTEDALAAVKALLPDQAEGDLAAVCSWPDEVRRHYHYRWSSPLHYVDTPDFLCNYKYCRDCHDGHGLKDRCVTGAIYNYSMQLSQGYYDLNSEKYNLTEALMFLSHFVGDVHQPLHVGFTGDLGGNSIIVRWYRRKTNLHHVWDNMIIESALKTYYKSDIMLMTQVLLKNITHEWSDDVPSWEDCKEMVCPDPYASESIRLACKFAYRNATPGSTLTDDYFLSRLPVVEKRLAQGGVRLAEVLNRIFTKKPSDAAQ
示例性内切核酸酶-CELII变体-苜蓿
核酸序列SEQ ID NO：26
ATGATCACGCTCTTAGTTCCGTTGCTGCTATCACTCGCGTTGCCAAATGTTCTGGCTTGGGGAAAAGATGGTCACTATGCAATTTGTAAAATTTCACAGGAGTATCTTAGTGAAGATGCTCTATTTGCAGTCAAACAATTACTTCCAGATTCTGCTCAAGCTGATCTTGCTTCAGTTTGCTCTTGGCCTGATGAGATTCGCCATAATTACCATTATCGTTGGAGTAGTCCTTTACATTATATTGATACACCAGATTTCAAATGTAACTATCAATATTGCAGAGACTGTCATGATTCTTATGGACATAAGCATAGATGCGTTACTGGAGCAATATACAATTATACAATGCAATTAAAATTAGCTAACGCCGATGCTTCATCTGAATTAAAATATAACTTGACAGAGGCACTTATGTTCTTGTCACATTTTGTTGGAGATGTTCATCAGCCCCTACATGTTGGTTTTACTGGAGACCTAGGTGGAAACTCAATAACAGTTCGTTGGTACAGGAGGAAAACAAATCTTCATCACGTATGGGATAACATGATTATTGAGTCTGCTCTGAAAAAGTTCTATGGTTCAGATCTTTCAACTATGATACAGGCTATTCAAAGGAATATTAGTGATATTTGGTCAAATGATGTATCTATTTGGGAACATTGTGCACACAACCACACAGCATGTCCAGACCGGTATGCTTCTGAGAGTATTAGCTTGGCATGCAAGTTTGCGTATAAGAATGCTACACCGGGAAGCACTTTGGAAGATGACTACTTCCTTTCTCGGTTGCCTATTGTGGAGAAAAGGCTGGCTCAAGGTGGTGTGCGACTTGCAGCTATCCTCAACCACATTTTCACTCCGAAGACCAGAATAGCTCAAGCTTAA
氨基酸序列SEQ ID NO：27
MITLLVPLLLSLALPNVLAWGKDGHYAICKISQEYLSEDALFAVKQLLPDSAQADLASVCSWPDEIRHNYHYRWSSPLHYIDTPDFKCNYQYCRDCHDSYGHKHRCVTGAIYNYTMQLKLANADASSELKYNLTEALMFLSHFVGDVHQPLHVGFTGDLGGNSITVRWYRRKTNLHHVWDNMIIESALKKFYGSDLSTMIQAIQRNISDIWSNDVSIWEHCAHNHTACPDRYASESISLACKFAYKNATPGSTLEDDYFLSRLPIVEKRLAQGGVRLAAILNHIFTPKTRIAQA
示例性内切核酸酶-CEL II变体成熟核心序列
氨基酸序列SEQ ID NO：28
WGKEGHYAVCKIAEGFLSEDALGAVKGLLPDYADGDLAAVCSWADEIRHNFHWRWSGPLHYVDTPDYRCNYEYCRDCHDFRGHKDICVTGAIYNYTKQLTSGYHNSGSEIRYNLTEALMFLSDFIGDVHQPLHVGFTGDEGGNTIIVRWYRRKTNLHHIWDDMIIDSALKTYYNSDIAIMIQAIQRNITGDWSFDISSWKNCASDDTACPNLYASEGISLACKFAYRNATPGSTLGDDYFLSRLPIVEKRLAPSGIRLAATLNRIFASQGK
示例性内切核酸酶-CEL II变体成熟核心序列
氨基酸序列SEQ ID NO：29
WGKEGHYAVCKIAEGFLSEDALGAVKALLPDYAEGDLAAVCSWADEIRHNFHWRWSGPLHYVDTPDYRCNYEYCRDCHDFRGHKDICVTGAIYNYTKQLTSGYHNSGSEIRYNLTEALMFLSHFIGDVHQPLHVGFTGDEGGNTIIVRWYRRKTNLHHIWDNMIIDSALKTYYNSDLAIMIQAIQRNITGDWSFDISSWKNCASDDTACPNLYASESISLACKFAYRNATPGSTLGDDYFLSRLPIVEKRLAQGGIRLAATLNRIFASQPK
玄参科猴面花CEL I的密码子优化成熟核心区
核酸序列SEQ ID NO：30
TGGAGTAAGGAGGGACATAGCATGACATGTAAGATAGCCCAGGACTTGTTGGGTCCCGAAGCCAAACACGCCGTGCAAATGTTGTTGCCTGAAAATGTGAACGGCGACCTAAGCGCCTTGTCGGTGTGGCCGGACCAAGTGAGACACTGGTACAAATACAGATGGACCTCCCCTTTGCACTTCATTGACACCCCCGATCAGGCTTGCAACTTTAACTACCAGAGAGACTGCCATGACCCGCACGGTGTAAAAGGCATGTGCGTTGCCGGTGCCATTCAAAATTTCACGAACCAATTGTCGCACTACAGACACGGCACGTCGGACAGACGTTACAACATGACGGAGGCCTTGTTGTTTTTGGCCCACTTTATGGGCGATATTCATCAGCCGTTGCACGTGGGCTTCACGTCAGACGAAGGCGGCAACACGATTGACTTGAGATGGTTTCGCCACAAGAGCAACTTGCATCACGTATGGGATCGAGAAATTATCCTAACTGCCGCTGCGGACTACTACGGAAAGGACATCGACCTACTCCAGGAGGATATCAAAGGCAATTTTACTGACGGCATCTGGTCGGGCGATTTGGCCTCGTGGAGAGAATGTTCGGACATTTTTTCGTGTGTGAACAAGTACGCTGCCGAATCCATAAACATGGCTTGTAAATGGGG CTACAAGGATGTGAAATCGGGTGACACGCTCTCGGACGACTATTTCAACAGTCGTCTCCCGATCGTAATGAAAAGAATCGCTCAAGGAGGCGTTCGCTTAGCAATGATTCTCAACAGAGTATTCGGTGATAGCAAAGAGGACAGCTTGATTGCCACG
用于玄参科猴面花CEL I的昆虫细胞表达的密码子优化表达盒
核酸序列SEQ ID NO：31
ACCATGAAGTTCTTGGTCAACGTAGCACTGGTTTTTATGGTAGTCTATATCAGCTACATTTACGCGTGGAGTAAGGAGGGACATAGCATGACATGTAAGATAGCCCAGGACTTGTTGGGTCCCGAAGCCAAACACGCCGTGCAAATGTTGTTGCCTGAAAATGTGAACGGCGACCTAAGCGCCTTGTCGGTGTGGCCGGACCAAGTGAGACACTGGTACAAATACAGATGGACCTCCCCTTTGCACTTCATTGACACCCCCGATCAGGCTTGCAACTTTAACTACCAGAGAGACTGCCATGACCCGCACGGTGTAAAAGGCATGTGCGTTGCCGGTGCCATTCAAAATTTCACGAACCAATTGTCGCACTACAGACACGGCACGTCGGACAGACGTTACAACATGACGGAGGCCTTGTTGTTTTTGGCCCACTTTATGGGCGATATTCATCAGCCGTTGCACGTGGGCTTCACGTCAGACGAAGGCGGCAACACGATTGACTTGAGATGGTTTCGCCACAAGAGCAACTTGCATCACGTATGGGATCGAGAAATTATCCTAACTGCCGCTGCGGACTACTACGGAAAGGACATCGACCTACTCCAGGAGGATATCAAAGGCAATTTTACTGACGGCATCTGGTCGGGCGATTTGGCCTCGTGGAGAGAATGTTCGGACATTTTTTCGTGTGTGAACAAGTACGCTGCCGAATCCATAAACATGGCTTGTAAATGGGGCTACAAGGATGTGAAATCGGGTGACACGCTCTCGGACGACTATTTCAACAGTCGTCTCCCGATCGTAATGAAAAGAATCGCTCAAGGAGGCGTTCGCTTAGCAATGATTCTCAACAGAGTATTCGGTGATAGCAAAGAGGACAGCTTGATTGCCACGGGCTCGCACCATCACCACCATCACCACCACGGTTGATAA
葡萄CEL II的密码子优化成熟核心区
核酸序列SEQ ID NO：32
TGGGGCAAAGAAGGCCACTACGCCGTGTGTAAGATTGCGGAGGGCTTTTTGTCGGAAGACGCATTGGGAGCGGTCAAAGCCTTGTTGCCGGACTACGCGGAAGGCGACTTGGCAGCCGTATGTAGCTGGGCCGACGAGATCAGACACAACTTTCACTGGAGATGGTCGGGCCCACTGCATTACGTCGACACGCCGGATTACAGATGCAACTACGAGTACTGCCGCGACTGTCACGACTTCAGAG GCCACAAAGACATTTGCGTCACGGGCGCGATATACAACTACACGAAACAATTGACGTCGGGCTACCACAACAGTGGCTCCGAGATTCGATACAACCTCACGGAGGCCTTGATGTTCCTCTCGCATTTCATTGGCGACGTGCACCAACCGCTGCATGTGGGCTTTACGGGCGATGAAGGCGGAAATACGATCATTGTCCGTTGGTACCGCAGAAAGACCAACCTCCACCACATATGGGACAACATGATCATCGACTCGGCGTTGAAGACCTACTACAACAGCGACCTGGCCATAATGATCCAGGCGATTCAAAGAAACATCACCGGCGATTGGTCCTTTGACATCAGCAGCTGGAAGAACTGTGCCAGTGACGACACTGCTTGTCCGAACCTATACGCGTCGGAGAGCATCTCGTTGGCCTGTAAATTTGCCTACAGAAATGCCACCCCCGGTTCGACGCTGGGCGACGACTACTTCTTGTCGCGATTGCCGATTGTTGAAAAACGCCTCGCCCAAGGCGGTATTAGATTGGCCGCCACCTTGAACCGTATTTTTGCCTCGCAACCGAAAATCTCGCTGAAACACGAAGACAAGAGAGTCGAGAAGACGACGCCGGTAGACTACATCGAGTGGTCGCCATTGCAACAGTTCAGC
用于玄参科猴面花CEL I的昆虫细胞表达的密码子优化表达盒
核酸序列SEQ ID NO：33
ACCATGAAGTTCTTGGTGAACGTGGCGCTGGTGTTCATGGTCGTGTACATCTCCTACATTTACGCGTGGGGCAAAGAAGGCCACTACGCCGTGTGTAAGATTGCGGAGGGCTTTTTGTCGGAAGACGCATTGGGAGCGGTCAAAGCCTTGTTGCCGGACTACGCGGAAGGCGACTTGGCAGCCGTATGTAGCTGGGCCGACGAGATCAGACACAACTTTCACTGGAGATGGTCGGGCCCACTGCATTACGTCGACACGCCGGATTACAGATGCAACTACGAGTACTGCCGCGACTGTCACGACTTCAGAGGCCACAAAGACATTTGCGTCACGGGCGCGATATACAACTACACGAAACAATTGACGTCGGGCTACCACAACAGTGGCTCCGAGATTCGATACAACCTCACGGAGGCCTTGATGTTCCTCTCGCATTTCATTGGCGACGTGCACCAACCGCTGCATGTGGGCTTTACGGGCGATGAAGGCGGAAATACGATCATTGTCCGTTGGTACCGCAGAAAGACCAACCTCCACCACATATGGGACAACATGATCATCGACTCGGCGTTGAAGACCTACTACAACAGCGACCTGGCCATAATGATCCAGGCGATTCAAAGAAACATCACCGGCGATTGGTCCTTTGACATCAGCAGCTGGAAGAACTGTGCCAGTGACGACACTGCTTGTCCGAACCTATACGCGTCGGAGAGCATCTCGTTGGCCTGTAAATTTGCCTACAGAAATGCCACCCCCGGTTCGACGCTGGGCGACGACTACTTCTTGTCGCGATTGCCGATTGTTGAAAAACGCCTCGCCCAAGGCGGTATTAGATTGGCCGCCACCTTGAACCGTATTTTTGCCTCGCAACCGAAAATCTCGCTGAAACACGAAGACAAGAGAGTCGAGAAGACGACGCCGGTAGACTACATCGAGTGGTCGCCATTGCAACAGTTCAGCGGAAGCCACCACCATCACCACCATCATCACGGCTGATAA

资源描述

《用于合成错误最小化核酸分子的材料和方法.pdf》由会员分享，可在线阅读，更多相关《用于合成错误最小化核酸分子的材料和方法.pdf（48页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104220602A43申请公布日20141217CN104220602A21申请号201380009031722申请日2013020161/593,81320120201USC12P19/3420060171申请人合成基因组股份有限公司地址美国加利福尼亚州72发明人D吉布森N卡亚扎T理查德松74专利代理机构北京纪凯知识产权代理有限公司11245代理人赵蓉民陆惠中54发明名称用于合成错误最小化核酸分子的材料和方法57摘要本发明提供了可用于对核酸分子进行纠错的材料和方法。通过暴露于具有单向错配内切核酸酶活性的分子来使具有核苷酸错配的第一多个双链核酸分子片段化，留下在所述分子的末。

2、端或近末端具有错配的双链核酸分子。然后将所述核酸分子暴露于具有单向外切核酸酶活性的分子以去除所述错配核苷酸。然后通过例如具有DNA聚合酶活性的分子的作用填充所述缺失的核苷酸。结果是双链核酸分子的核苷酸错配频率降低。本发明还提供了编码错配内切核酸酶的新颖核酸序列、由此编码的多肽以及核酸构建体、转基因细胞及其各种组合物。30优先权数据85PCT国际申请进入国家阶段日2014081286PCT国际申请的申请数据PCT/US2013/0244962013020187PCT国际申请的公布数据WO2013/116771EN2013080851INTCL权利要求书3页说明书37页附图7页19中华人民共和国国。

3、家知识产权局12发明专利申请权利要求书3页说明书37页附图7页10申请公布号CN104220602ACN104220602A1/3页21一种对核酸分子进行纠错的方法，所述方法包括A获得包含至少一个核苷酸错配的第一多个双链核酸分子；B通过使具有错配的所述核酸分子与具有单向错配内切核酸酶活性的至少一种分子反应来使具有错配的所述多个双链核酸分子片段化；C通过使B的具有错配的所述片段化双链核酸分子与具有与B的所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的至少一种分子反应来去除所述核苷酸错配，从而提供片段化无错双链核酸分子；和D组装包含C的所述片段化无错双链核酸分子的第二多个双链核酸分子，。

4、其中与所述第一多个双链核酸分子相比，所述第二多个双链核酸分子的核苷酸错配频率降低。2根据权利要求1所述的方法，其中所述第一多个核酸分子包含一个或多个合成核苷酸序列。3根据权利要求1所述的方法，其中所述第一多个核酸分子包含一个或多个天然存在的基因序列和一个或多个合成核苷酸序列的混合物。4根据权利要求1所述的方法，其中获得第一多个核酸分子包括合成所述核酸分子。5根据权利要求1所述的方法，其中获得第一多个核酸分子包括由亚型和/或寡核苷酸组装所述核酸分子。6根据权利要求1所述的方法，其中步骤B和步骤C作为独立反应进行。7根据权利要求1所述的方法，其中步骤B和步骤C作为一步同步反应进行。8根据权利要求1。

5、所述的方法，其中所述单向错配内切核酸酶活性将5切成所述错配而所述单向外切核酸酶活性将所述核苷酸错配从所述片段化核酸分子的5末端去除。9根据权利要求1所述的方法，其中所述单向错配内切核酸酶活性将3切成所述错配而所述单向外切核酸酶活性将所述核苷酸错配从所述片段化核酸分子的3末端去除。10根据权利要求1所述的方法，其中具有单向错配内切核酸酶活性的所述至少一种分子选自RESI、CELI、CELII、SP内切核酸酶、SPI、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、MUT蛋白质、其中任一种的变体和以上任两种或更多种的组合。11根据权利要求10所述的方法，其中具有单向错配内切核酸酶活性的所述至少一种分。

6、子选自CELI、CELII、其中任一种的变体和以上任两种或更多种的组合。12根据权利要求1所述的方法，其中具有单向错配内切核酸酶活性的所述至少一种分子由选自以下的核酸序列编码A在低、中或高严格条件下与选自SEQIDNO01、SEQIDNO03、SEQIDNO05、SEQIDNO07、SEQIDNO09、SEQIDNO12、SEQIDNO15、SEQIDNO18、SEQIDNO20、SEQIDNO22、SEQIDNO24、SEQIDNO26、SEQIDNO28、SEQIDNO30、SEQIDNO32、任一种的补体和任一种的片段的核酸序列杂交的核酸序列；B对选自SEQIDNO01、SEQIDNO0。

7、3、SEQIDNO05、SEQIDNO07、SEQIDNO09、SEQIDNO12、SEQIDNO15、SEQIDNO18、SEQIDNO20、SEQIDNO22、SEQIDNO24、SEQIDNO26、SEQIDNO28、SEQIDNO30、SEQIDNO32、任一种的补体和任一种的片段的核酸序列展现出70或更高同一性的核酸序列；和C编码对选自SEQIDNO02、SEQIDNO04、SEQIDNO06、SEQIDNO08、SEQIDNO10、SEQIDNO11、SEQIDNO13、SEQIDNO14、SEQIDNO16、SEQIDNO17、SEQID权利要求书CN104220602A2/3页。

8、3NO19、SEQIDNO21、SEQIDNO23、SEQIDNO25、SEQIDNO27、SEQIDNO28和SEQIDNO29的氨基酸序列展现出60或更高同一性的多肽的核酸序列。13根据权利要求1所述的方法，其中具有单向外切核酸酶活性的所述至少一种分子选自外切核酸酶III、DNA聚合酶、外切核酸酶、T7外切核酸酶、T5外切核酸酶及其中任一种的变体。14根据权利要求1所述的方法，其中具有单向外切核酸酶活性的所述至少一种分子为具有校正活性的聚合酶。15根据权利要求14所述的方法，其中具有校正活性的所述聚合酶选自T4聚合酶、T7聚合酶和PHI29聚合酶。16根据权利要求1所述的方法，其中具有单向。

9、错配内切核酸酶活性的所述至少一种分子选自CELI、CELII、其中任一种的变体和以上任两种或更多种的组合；和具有单向外切核酸酶活性的所述至少一种分子选自外切核酸酶III及其变体。17一种分离的核酸分子，其包含A在低、中或高严格条件下与选自SEQIDNO09、SEQIDNO12、SEQIDNO15、SEQIDNO18、SEQIDNO20、SEQIDNO22、SEQIDNO24、SEQIDNO26、SEQIDNO28、SEQIDNO30、SEQIDNO32、其补体或任一种的片段的核酸序列杂交的核酸序列；或B对选自SEQIDNO09、SEQIDNO12、SEQIDNO15、SEQIDNO18、SEQ。

10、IDNO20、SEQIDNO22、SEQIDNO24、SEQIDNO26、SEQIDNO28、SEQIDNO30、SEQIDNO32、其补体或任一种的片段的核酸序列展现出70或更高同一性的核酸序列；或D编码对选自SEQIDNO10、SEQIDNO11、SEQIDNO13、SEQIDNO14、SEQIDNO16、SEQIDNO17、SEQIDNO19、SEQIDNO21、SEQIDNO23、SEQIDNO25、SEQIDNO27、SEQIDNO28和SEQIDNO29的氨基酸序列展现出50或更高同一性的多肽的核酸序列。18根据权利要求17所述的核酸分子，其中所述核酸序列编码具有错配内切核酸酶活性。

11、的分子。19一种重组核酸构建体，其包含与异源核酸可操作连接的根据权利要求17所述的核酸分子。20根据权利要求19所述的重组核酸构建体，其中所述异源核酸为异源转录控制元件。21根据权利要求19所述的重组核酸构建体，其中所述异源核酸包含编码多肽序列的核酸序列。22根据权利要求21所述的重组核酸构建体，其中所述多肽序列包含分泌信号或表位标签。23一种重组宿主细胞，其包含根据权利要求19所述的核酸构建体。24根据权利要求23所述的重组宿主细胞，其中所述宿主细胞为昆虫细胞、哺乳动物细胞、微生物细胞或植物细胞。25一种分离的多肽，其中所述多肽通过引入宿主细胞中的根据权利要求17所述的包含核酸序列的核酸分子。

12、来表达。权利要求书CN104220602A3/3页426根据权利要求25所述的分离的多肽，其中所述多肽包含选自SEQIDNO11、SEQIDNO11的氨基酸残基1297、SEQIDNO11的氨基酸残基22308、SEQIDNO17、SEQIDNO17的氨基酸残基1320和SEQIDNO17的氨基酸残基22331的氨基酸序列。27一种组合物，其包含I具有单向错配内切核酸酶活性的分子；和II具有与I的所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的分子。28根据权利要求27所述的组合物，其中I的所述分子选自RESI、CELI、CELII、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、M。

13、UT蛋白质、其中任一种的变体和以上任两种或更多种的组合；并且II的所述分子选自外切核酸酶III、DNA聚合酶、其中任一种的变体和以上任两种或更多种的组合。29根据权利要求27所述的组合物，其中I的所述分子选自CELI、CELII、其中任一种的变体和以上任两种或更多种的组合；并且II的所述分子选自外切核酸酶III及其变体。30根据权利要求27所述的组合物，其中I的所述分子选自RESI、CELI、CELII、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、MUT蛋白质、其中任一种的变体和以上任两种或更多种的组合；并且II的所述分子为外切核酸酶III或其变体。31一种试剂盒，其包含根据权利要求27所述。

14、的组合物。32根据权利要求31所述的试剂盒，其中具有单向错配内切核酸酶活性的所述分子选自RESI、CELI、CELII、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、MUT蛋白质、其中任一种的变体和以上任两种或更多种的组合；并且具有与所述单向错配内切核酸酶相同的方向性的单向外切核酸酶活性的所述分子选自外切核酸酶III、DNA聚合酶、其中任一种的变体和以上任两种或更多种的组合。33根据权利要求32所述的试剂盒，其中具有与所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的所述分子选自RESI、CELI、CELII、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、MUT蛋白质、其中任一种的变。

15、体和以上任两种或更多种的组合；并且具有与所述单向错配内切核酸酶相同的方向性的单向外切核酸酶活性的所述分子选自外切核酸酶III或其变体。权利要求书CN104220602A1/37页5用于合成错误最小化核酸分子的材料和方法0001本申请要求2012年2月1日提交的美国临时申请序列号61/593,813的权益，其据此通过引用整体并入，包括所有表格、附图和权利要求。发明领域0002本发明总体涉及分子生物学和遗传学，并且涉及基因和其它核酸分子的合成。0003序列表的并入0004所附序列表中的材料据此通过引用并入本申请中。名称为SGIXXXXXPCT_序列表的所附序列表文本文件于当日创建并且为XXKB。可。

16、在使用WINDOWSOS的电脑上用MICROSOFTWORD评估所述文件。0005发明背景0006在现代分子生物学和基因工程中，许多涉及使用核酸分子的分子技术往往需要通过合成法生成大量核酸分子。例如，要测试代谢工程或基因组学领域的假说，合成指定蛋白质和具有定制基因组的生物，往往需要有成本效益的合成对预定核苷酸序列高度保真的核酸分子的方法。核酸合成，例如双链DNA合成的常见方法包括聚合酶链式反应法和连接链式反应法。通常，如果不是必须，则确保合成DNA分子含有正确的核苷酸序列对于要使用合成DNA的分子技术的成功很重要。例如，合成用于功能多肽的基因表达的DNA编码序列需要精确的DNA序列；因为即使一。

17、个核苷酸取代、插入或缺失也可对最终生成的多肽造成重大后果。因此，普遍认为从合成DNA群体中将具有不正确的DNA序列的DNA分子减到最少在提供通过基因从头合成法生成无错合成DNA中必不可少。0007最近，在控制成本的同时准确合成核酸分子的努力已经取得了包括基于微芯片的基因合成和基于PCR的基因组装技术在内的方法。虽然这些传统技术提供了合成多个基因的能力，但是减少引入所需基因序列中的错误仍充满挑战。为避免基因合成中固有的序列错误问题，一些人集中于纯化在合成方法早期使用的寡核苷酸。然而，这些寡核苷酸纯化方法成本高，而序列错误依然存在并且在合成方法的后续步骤中传播。0008因此，需要减少DNA分子群体。

18、中的序列错误的替代方法。所期望的是以更高的具有所需核苷酸序列的分子产量，合成基因和其它核酸分子的途径。可在合成方法的较晚步骤纠正序列错误的方法在核苷酸序列准确性上可能产生所需增加，同时使所述方法有成本效益。0009发明概述0010本发明提供了用于对核酸分子的复制和扩增进行纠错的方法和材料。在本发明的一个实施方案中，通过暴露于单向错配内切核酸酶来使具有核苷酸错配的第一多个双链核酸分子片段化。用内切核酸酶在错配位点或附近切割核酸分子，留下在所述分子的末端或近末端具有错配的双链核酸分子。在一个实施方案中，然后将所述核酸分子暴露于在5至3或3至5方向具有单向活性的外切核酸酶，从而去除错配核苷酸。由去除。

19、了错配核苷酸的核酸组装第二多个双链核酸分子。然后直接或在后续扩增步骤，通过例如DNA聚合酶的作用填充所述缺失的核苷酸，并且如果有必要可重复这些步骤多次。结果是与第一多个说明书CN104220602A2/37页6核酸分子相比，双链核酸分子的核苷酸错配频率降低。0011因此，一方面本发明提供了核酸分子纠错的方法。所述方法涉及A获得具有至少一个核苷酸错配的第一多个双链核酸分子；B通过使具有错配的所述核酸分子与具有单向错配内切核酸酶活性的至少一种分子反应来使具有错配的所述多个双链核酸分子片段化；C通过使B的具有错配的所述片段化双链核酸分子与具有与B的所述单向错配内切核酸酶活性相同的方向性的单向外切核酸。

20、酶活性的至少一种分子反应来去除所述核苷酸错配，从而提供片段化无错双链核酸分子；和D组装具有C的所述片段化无错双链核酸分子的第二多个双链核酸分子。与所述第一多个双链核酸分子相比，所述第二多个双链核酸分子的核苷酸错配频率降低。0012在一个实施方案中，所述第一多个核酸分子可含有一个或多个合成核苷酸序列。所述第一多个核酸分子可含有一个或多个天然存在的基因序列和一个或多个合成核苷酸序列的混合物。在一个实施方案中可通过合成核酸分子，或在另一实施方案中可通过由亚型和/或寡核苷酸组装所述核酸分子获得第一多个核酸分子。0013在所述方法的一个实施方案中，上述步骤B和步骤C作为独立反应进行，但是在另一实施方案中。

21、步骤B和步骤C作为同步或一步反应进行。在所述方法的一个实施方案中，所述单向错配内切核酸酶活性将5切成所述错配而所述单向外切核酸酶活性将所述核苷酸错配从所述片段化核酸分子的5末端去除。但是在另一实施方案中，所述单向错配内切核酸酶活性将3切成所述错配而所述单向外切核酸酶活性将所述核苷酸错配从所述片段化核酸分子的3末端去除。具有单向错配内切核酸酶活性的分子的实例包括但不限于RESI、CELI、CELII、SP内切核酸酶、SPI内切核酸酶、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、MUT蛋白质、其中任一种的变体和以上任两种或更多种的组合。在一个优选实施方案中，利用CELI、CELII或CELI和C。

22、ELII的组合。在另一优选实施方案中，具有单向错配内切核酸酶活性的分子由包含在低、中或高严格条件下与选自以下的核酸序列杂交的核苷酸序列的核酸分子编码A在低、中或高严格条件下与选自SEQIDNO01、SEQIDNO03、SEQIDNO05、SEQIDNO07、SEQIDNO09、SEQIDNO12、SEQIDNO15、SEQIDNO18、SEQIDNO20、SEQIDNO22、SEQIDNO24、SEQIDNO26、SEQIDNO28、SEQIDNO30、SEQIDNO32、任一种的补体和任一种的片段的核酸序列杂交的核酸序列；B对选自SEQIDNO01、SEQIDNO03、SEQIDNO05、S。

23、EQIDNO07、SEQIDNO09、SEQIDNO12、SEQIDNO15、SEQIDNO18、SEQIDNO20、SEQIDNO22、SEQIDNO24、SEQIDNO26、SEQIDNO28、SEQIDNO30、SEQIDNO32、任一种的补体和任一种的片段的核酸序列展现出70或更高同一性的核酸序列；和C编码对选自SEQIDNO02、SEQIDNO04、SEQIDNO06、SEQIDNO08、SEQIDNO10、SEQIDNO11、SEQIDNO13、SEQIDNO14、SEQIDNO16、SEQIDNO17、SEQIDNO19、SEQIDNO21、SEQIDNO23、SEQIDNO25。

24、、SEQIDNO27、SEQIDNO28和SEQIDNO29的氨基酸序列展现出60或更高同一性的多肽的核酸序列。0014具有单向外切核酸酶活性的分子的实例包括但不限于外切核酸酶III、DNA聚合酶、外切核酸酶、T7外切核酸酶和T5外切核酸酶及其变体。在一个实施方案中，具有单向外切核酸酶活性的分子为具有校正活性例如，3外切核酸酶校正活性的DNA聚合酶。具有校正活性的聚合酶的实例包括但不限于T4聚合酶、T7聚合酶和PHI29聚合酶。说明书CN104220602A3/37页70015在本发明方法的一个特定实施方案中，具有单向错配内切核酸酶活性的所述至少一种分子选自CELI、CELII、其中任一种的变。

25、体及其中任两种或更多种的组合；并且具有单向外切核酸酶活性的所述至少一种分子选自外切核酸酶III、其变体及其中任两种或更多种的组合。0016在本发明的一个方面，本发明提供了分离的核酸分子，其包含在低、中或高严格条件下杂交的核酸序列A在低、中或高严格条件下与选自SEQIDNO09、SEQIDNO12、SEQIDNO15、SEQIDNO18、SEQIDNO20、SEQIDNO22、SEQIDNO24、SEQIDNO26、SEQIDNO28、SEQIDNO30、SEQIDNO32、其补体或任一种的片段的核酸序列杂交的核酸序列；或B对选自SEQIDNO09、SEQIDNO12、SEQIDNO15、SEQ。

26、IDNO18、SEQIDNO20、SEQIDNO22、SEQIDNO24、SEQIDNO26、SEQIDNO28、SEQIDNO30、SEQIDNO32、其补体或任一种的片段的核酸序列展现出70或更高同一性的核酸序列；或C编码对选自SEQIDNO10、SEQIDNO11、SEQIDNO13、SEQIDNO14、SEQIDNO16、SEQIDNO17、SEQIDNO19、SEQIDNO21、SEQIDNO23、SEQIDNO25、SEQIDNO27、SEQIDNO28和SEQIDNO29的氨基酸序列展现出50或更高同一性的多肽的核酸序列。0017在本发明的另一方面，本发明提供了重组核酸构建体，例。

27、如重组核酸载体，其包括如本文所述，与异源核酸可操作地连接的本发明核酸分子。在一些实施方案中，异源核酸为异源转录控制元件。在一些优选实施方案中，以上任何重组核酸构建体可包含编码多肽序列的异源核酸。多肽序列可包括分泌信号或表位标签。在特定实施方案中，核酸构建体可包含SEQIDNO31或SEQIDNO33或其补体或变体活包含在低、中或高严格条件下与SEQIDNO31或SEQIDNO33或其补体或变体的任一种杂交的序列。0018在本发明的又一方面，本发明提供了包括如本文公开的本发明核酸构建体的重组宿主细胞。重组宿主细胞可为昆虫细胞、哺乳动物细胞、微生物细胞或植物细胞。在一些其它实施方案中，本发明还提供。

28、了源自如上所述宿主生物的生物样品、生物质和后代。在其它实施方案中，本发明进一步提供了源自如上所述宿主生物的生物材料。0019在本发明的另一方面，本发明进一步提供了分离的多肽。在一些实施方案中，由如本文所述的本发明核酸分子表达此类分离的多肽。可将表达所述多肽的核酸分子引入宿主细胞中。在一些实施方案中，所述多肽的氨基酸序列可包含选自SEQIDNO11、SEQIDNO11的氨基酸残基1297、SEQIDNO11的氨基酸残基22308、SEQIDNO17、SEQIDNO17的氨基酸残基1320和SEQIDNO17的氨基酸残基22331的氨基酸序列。0020另一方面，本发明公开了组合物，其包含I具有单向。

29、错配内切核酸酶活性的分子；和II具有与I中所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的分子。在各实施方案中，I的分子选自RESI、CELI、CELII、T7内切核酸酶、T4内切核酸酶、内切核酸酶V、MUT蛋白质、其中任一种的变体及其中任两种或更多种的组合；并且II的分子选自外切核酸酶III、DNA聚合酶、其中任一种的变体及其中任两种或更多种的组合。0021又一方面，本发明进一步提供了一种试剂盒，其包含I具有单向错配内切核酸酶活性的分子；和II具有与I中所述单向错配内切核酸酶活性相同的方向性的单向外切核酸酶活性的分子。在其它实施方案中，所述试剂盒还可具有进行如本文所述的纠错方法的。

30、说明书和/或提供了到提供关于如本文所述的纠错方法的信息的网站的链接。说明书CN104220602A4/37页80022结合附图查阅下面的发明详述和权利要求时，本领域的普通技术人员将更加充分地理解本发明的这些和其它目的、方面和特征。0023附图简述0024图1提供了本发明方法的一个实施方案的示意图。0025图2提供了本发明一个实施方案的步骤的示意图。0026图3提供了说明在本发明一个实施方案中采取的步骤的流程图。0027图4为鳞叶卷柏SELAGINELLALEPIDOPHLLACELI内切核酸酶SEQIDNO02、芹菜CELI内切核酸酶SEQIDNO04、芹属APIUMSPCELII内切核酸酶S。

31、EQIDNO06、另一芹属CELII内切核酸酶SEQIDNO08、玄参科猴面花MIMULUSGUTTATUSCELI内切核酸酶SEQIDNO10、马铃薯SOLANUMTUBEROSUMCELI内切核酸酶SEQIDNO13、葡萄VITISVINIFERACELII内切核酸酶SEQIDNO16、马铃薯CELII内切核酸酶SEQIDNO25、苜蓿属MEDICAGOSPCELII内切核酸酶SEQIDNO27的比对。使用VECTORNTIADVANCETM115包INVITROGEN,CARLSBAD,CALIF的程序ALIGNX，用默认设置生成图4的序列比对。如本文其它地方所详细讨论，已经由这种序列比。

32、较分析鉴定了具有高度保守性的几个多肽结构域和基序。在本文所示比对图中，比对序列中的破折号表示空位，即该位置缺乏氨基酸。黑色方框和灰色方框分别标识比对序列中的相同氨基酸和保守氨基酸。0028图5描绘了纯化MIMMULUSCHISCELI蛋白的SDS聚丙烯酰胺凝胶分析图5A和使用抗聚组氨酸抗体的蛋白质印迹结果图5B。泳道1FERMENTAS标记5L；泳道2透析前的MIMMULUSCHIS12L；泳道4FERMENTAS标记12L；泳道5透析后的MIMMULUSCHIS12L；泳道7FERMENTAS标记5L；泳道8透析后的MIMMULUSCHIS6L。0029发明详述0030本申请涉及可用于制备错。

33、误最小化核酸分子的组合物、方法和相关材料。0031一方面，本发明提供了可用于减少核酸分子群体中的错配错误的材料和方法。例如，公开了编码错配内切核酸酶的核酸分子以及使用此类核酸分子及其编码的多肽减少核酸群体中的核苷酸错配的方法。本发明还提供了重组核酸分子和包含此类核酸分子的重组细胞以及重组生物及其使用方。0032除非上下文中另有明确规定，单数形式“一个”、“一种”和“所述”包括复数个指示物。例如，术语“一个/种细胞”包括一个/种或多个/种细胞，包括其混合物。0033结构域“结构域”是多肽中可用于表征蛋白质家族和/或蛋白质部分的大体上连续的成组氨基酸。此类结构域通常具有可包含保守一级序列、二级结构。

34、和/或三维构象的“指纹”、“基序”或“签名”。通常，结构域与体外和/或体内特定活性相关。结构域的长度可从4个氨基酸至400个氨基酸，例如450个氨基酸，或420个氨基酸，或410个氨基酸，或48个氨基酸，或25100个氨基酸，或3565个氨基酸，或3555个氨基酸，或4560个氨基酸，或200300个氨基酸，或300400个氨基酸。0034表达如本文所使用，“表达”指通过通常受酶、RNA聚合物催化的转录将多核苷酸的遗传信息转化为RNA和通过核糖体上MRNA的翻译转化为蛋白质的过程。0035如本文所使用的术语“表位”、“标签”、“标签序列”或“蛋白质标签”指化学部分，说明书CN104220602。

35、A5/37页9核苷酸、寡核苷酸、多核苷酸或氨基酸、肽或蛋白质或其它化学品，其在添加到另一序列时，为该序列提供附加实用性或赋予尤其是在检测或分离上的有用性质。因此，例如，可向引物或探针序列添加均聚物核酸序列或与捕获寡核苷酸互补的核酸序列以利于延伸产物或杂交产物的后续分离。在蛋白质标签的情况下，可向蛋白质的氨基或羧基端添加组氨酸残基例如，48个连续组氨酸残基以利于通过金属螯合色谱法进行蛋白质分离。可选地，可向蛋白质添加代表对特异性抗体分子或其它分子例如，FLAG表位、CMYC表位、流感A病毒血球凝集素蛋白的跨膜表位、蛋白质A、纤维素结合结构域、钙调蛋白结合蛋白、麦芽糖结合蛋白、几丁质结合结构域、谷。

36、胱甘肽S转移酶等有反应性的表位或结合决定簇的氨基酸序列、肽、蛋白质或融合伴侣以利于通过例如亲和或免疫亲和色谱法等程序进行蛋白质分离。化学标签部分包括诸如生物素等分子，其可添加到核酸或蛋白质中并且利于通过与亲和素试剂等的相互作用分离或检测。许多其它标签部分为技术人员已知并且可由技术人员预想到，并且视为在本定义范围内。0036本发明的多核苷酸及其编码的多肽0037在本发明的一方面，本发明提供了新颖分离的核酸分子、与这些核酸分子杂交的核酸分子例如补体和由于DNA密码的简并性编码相同蛋白质的核酸分子。本申请的附加实施方案进一步包括由本发明的核酸分子编码的多肽。0038序列表中公开或本文另外公开的本发明。

37、多核苷酸和多肽及其片段和变体就其结构属性而论，例如核酸与另一核酸分子杂交的能力，或多肽受抗体结合或与另一分子竞争此类结合的能力，“具生物活性”。可选地，此类属性可为催化性并且因此涉及所述分子介导化学反应或应答的能力。0039在一些实施方案中，本发明的多核苷酸和多肽为重组。重组多核苷酸或多肽是使用产生在受操纵生物中不会存在或生成的核酸序列或多肽的实验室方法，由人操纵多核苷酸或多肽和生物获得的重组多核苷酸或多肽。0040本发明的核酸分子或其片段能够在某些情况下与其它核酸分子特异性杂交。“特异性杂交”指互补核酸链在适当严格条件下退火为彼此的过程。如果其中一个分子的每个核苷酸与另一分子的核苷酸互补并且。

38、核苷酸对形成WATSONCRICK碱基对，则称核酸分子展现出“完全互补性”。如果可以足够稳定性退火为彼此以在至少传统的“低严格”条件下保持退火，则称两个核酸分子具“最低互补性”。类似地，如果可以足够稳定性相互杂交以允许其在传统的“高严格”条件下保持退火为彼此，则称所述分子“互补”。SAMBROOK等在MOLECULARCLONING,ALABORATORYMANUAL，第2版，COLDSPRINGHARBORPRESS,COLDSPRINGHARBOR,NY1989中和HAYMES等在NUCLEICACIDHYBRIDIZATION,APRACTICALAPPROACH，IRLPRESS,WA。

39、SHINGTON,DC1985中描述了传统严格条件。因此可允许脱离完全互补性，只要这种脱离不完全消除分子形成双链结构的能力。因此，为了使本发明的核酸分子或其片段用作引物或探针，只需在序列上充分互补就能够在采用的特定溶剂和盐浓度下形成稳定的双链结构。0041促进DNA杂交的适当严格条件包括例如约45下60氯化钠/柠檬酸钠SSC，接着在约50下20SSC洗涤。另外，洗涤步骤的温度可从低严格条件的室温约22升高到高严格条件约65。温度和盐均可改变，或可保持温度或盐浓度恒定，而改变其它变量。这些条件为本领域的技术人员已知，或可在CURRENTPROTOCOLSINMOLECULAR说明书CN10422。

40、0602A6/37页10BIOLOGY，JOHNWILEYSONS,NY1989,631636中找到。例如，低严格条件可用于选择与靶核酸序列具有较低序列同一性的核酸序列。人们可能希望采用例如在范围从约20至约55稳定下，约015M至约09M氯化钠的条件。高严格条件可用于选择与公开的核酸序列具有更高度同一性的核酸序列SAMBROOK等，1989，同时。高严格条件通常涉及在约2SSC至约10SSC由含有3M氯化钠和03M柠檬酸钠PH70的20SSC原液稀释于蒸馏水中、约25至约5DENHARDT溶液由含有1W/V牛血清白蛋白、1W/V菲柯尔COLL和1W/V聚乙烯吡咯烷酮的50原液稀释于蒸馏水中、。

41、约10MG/ML至约100MG/ML鱼精子DNA和约002W/V至约01W/VSDS中，经约50至约70下培育几小时至过夜的核酸杂交。优选用6SSC、5DENHARDT溶液、100MG/ML鱼精子DNA和约01W/VSDS，在55C下培育几小时提供高严格条件。通常在杂交之后进行几个洗涤步骤。洗涤组合物通常包含05SSC至约10SSC和001W/V至约05W/VSDS，在约20至约70下培育15MIN。优选地，在65下于01SSC中洗涤至少一次后，核酸片段保持杂交。0042在一个实施方案中，本发明核酸分子的亚型包括由所公开多核苷酸的至少12个、至少15个、至少16个、至少17个、至少18个、至少。

42、19个和至少20个连续核苷酸组成的公开的多核苷酸片段。此类寡核苷酸为序列表中公开或本文另外描述的较大多核苷酸分子的片段并且可用作例如检测本发明多核苷酸的干扰分子、探针和引物。0043本发明的核酸分子可包括足以编码错配内切核酸酶的结构域的生物活性片段、整个错配内切核酸酶或开放阅读框内编码错配内切核酸酶的几个结构域的序列。0044在另一实施方案中，本发明明确提供了包含编码多肽的区域的核苷酸序列。编码的多肽可为蛋白质或多核苷酸所表示的基因所编码的完整多肽，或可为编码的蛋白质的片段。优选地，本文提供的多核苷酸编码构成完整蛋白质的很大一部分，并且更优选，构成完整蛋白质的足够部分以提供相关生物活性，例如错。

43、配内切核酸酶活性的多肽。0045特别关注的是编码错配内切核酸酶的本发明多核苷酸。此类多核苷酸可在重组细胞或重组生物中表达以生成具有错配内切核酸酶活性的分子。在一些实施方案中，本发明还涵盖了为这些编码错配内切核酸酶的核苷酸序列的片段的核酸分子。如本文所使用，“错配内切核酸酶片段”预期为编码错配内切核酸酶的核苷酸序列的片段。核苷酸序列的片段可编码错配内切核酸酶的生物活性部分，或可为可用作使用本文公开的方法的杂交探针或PCR引物的片段。核酸分子或多肽的片段包含至少10、25、50、100、200、300、400、500、600、700、800、900、1000、1050、1100、1150、1200。

44、、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2150、2200、2250、2300、2350、2400、2450、2500、2550、2600、2650、2700、2750、2800、2850、2900、2950、3000、3050、3100、3150、3200、3250、3300、3350个相邻核苷酸或氨基酸，或多达本文公开的全长核苷酸序列或多肽序列中存在的核苷酸或氨基酸的数量。本发明核苷酸序列的片段包括编码保持错配内切核酸酶的生物活性的蛋白质片段的核苷酸。

45、序列片段。用“保持活性”指片段将具有全长错配内切核酸酶蛋白的至少30、至少50、至少70、至少80、至少90或至少95的内切核酸酶活性。测量内切核酸酶，包括错配内切核酸酶活性的方法在本领域众所周知。参见例如美国专利第6,391,557号；美国专利第7,129,075号。错配内切核酸酶活性指在进行测定的方便时间段内，在所述方法中进行片段化DSDNA分子或去除核苷酸错配的说明书CN104220602A107/37页11步骤的足够水平的活性。在不同实施方案中，所述活性足以在2H或4H或6H或10H或12H或24H内进行片段化或去除。0046在不同实施方案中，编码错配内切核酸酶的核苷酸序列的编码本发明。

46、多肽的生物活性部分的片段将编码至少15、25、30、50、75、100、125、150、175、200、225、250、275、300、325、350个相邻氨基酸，或多达序列表中公开或本文另外公开的全长错配内切核酸酶蛋白质中存在的氨基酸的总数。例如，相对于序列表中公开或本文另外公开的错配内切核酸酶氨基酸序列，根据本发明的错配内切核酸酶片段可具有至少20个氨基酸、至少50个、至少75个、至少90个、至少100个或至少150个氨基酸的N端或C端截断。0047本发明中还关注的是序列表中公开或本文另外公开的多核苷酸的变体。此类变体可天然存在，包括来自相同或不同物种的同源多核苷酸，或可为非天然变体，例如。

47、使用化学合成法合成或使用重组DNA技术生成的多核苷酸。可生成具有经修饰核酸分子的变体，其中已经插入、缺失和/或取代了核苷酸，并且此类修饰可对如本文所述的内切核酸酶生物活性提供所需影响。遗传密码的简并性提供了用不同碱基取代基因的蛋白质编码序列的至少一个碱基，而不引起由基因生成的多肽的氨基酸序列变化的可能性。因此，本发明的核酸分子也可具有已经根据遗传密码的简并性，通过取代由本文公开的任一多核苷酸序列变化而来的任何碱基序列。0048技术人员将进一步意识到可通过本发明核苷酸序列的突变引入变化，从而导致编码的内切核酸酶蛋白的氨基酸序列变化，而不改变蛋白质的生物活性。因此，可通过向本文公开的相应核苷酸序列。

48、中引入一个或多个核苷酸取代、添加或缺失产生变体分离的核酸分子，以便将一个或多个氨基酸取代、添加或缺失引入编码的蛋白质中。可通过标准技术，例如定点诱变和PCR介导的诱变引入突变。本发明也涵盖了此类变体核苷酸序列。0049例如，可在一个或多个预估的处产生保守性氨基酸取代。如本文所使用，“非必需”氨基酸残基是可由错配内切核酸酶蛋白质的野生型序列改变而来，而未改变生物活性的残基，而“必需”氨基酸残基是生物活性所必需的。“保守性氨基酸取代”是其中氨基酸残基经具有相似侧链的氨基酸残基置换的氨基酸取代。在本领域中已经良好定义了具有相似侧链的氨基酸残基家族。这些家族包括具有碱性侧链的氨基酸例如赖氨酸、精氨酸、。

49、组氨酸、具有酸性侧链的氨基酸例如天冬氨酸、谷氨酸、具有不带电的极性侧链的氨基酸例如甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸、具有非极性侧链的氨基酸例如丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸、具有分支侧链的氨基酸例如苏氨酸、缬氨酸、异亮氨酸和具有芳香族侧链的氨基酸例如酪氨酸、苯丙氨酸、色氨酸、组氨酸。0050如以上所讨论，本领域的技术人员将认识到，可在保持功能的非保守区域内进行氨基酸取代。一般而言，不会对保守性氨基酸残基或留在保守性基序内的氨基酸残基进行此类取代，其中此类残基对蛋白质活性而言必不可少。在本领域中报道了错配内切核酸酶序列的保守性残基、结构域和基序。保守并且可能对蛋白质活性必不可少的残基的实例包括例如在本发明氨基酸序列和已知错配内切核酸酶序列的比对中所含的所有蛋白质之间相同的残基。保守，但是可能允许保守性氨基酸取代并且仍保持活性的残基的实例包括例如在本发明氨基酸序列和已知错配内切核酸酶序列的比对中所含的所有蛋白质之间仅具有保守性取代的残基。然而，本领域的技术人员应理解，功能变体在保守性残基中可能说明书CN104220602A118/37页12具有较小保守或非保守性改变。0051在本发明的一些实施方案中，此类错配内。

展开阅读全文