酮还原酶介导的产生Α氯代醇的立体选择性途径.pdf

上传人:sha****007 文档编号:5379410 上传时间:2019-01-08 格式:PDF 页数:165 大小:5.23MB
返回 下载 相关 举报
摘要
申请专利号:

CN201080027481.5

申请日:

2010.06.22

公开号:

CN102482648A

公开日:

2012.05.30

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):C12N 9/02申请日:20100622|||公开

IPC分类号:

C12N9/02; C12N15/53; A61P7/04

主分类号:

C12N9/02

申请人:

科德克希思公司

发明人:

荣贵·彭; 迈克尔·沃格尔; 史蒂文·詹姆斯·科利尔; 韦丝娜·米切尔; 亚加迪什·马维纳哈利

地址:

美国加利福尼亚州

优先权:

2009.06.22 US 61/219,162; 2010.02.10 US 61/303,057

专利代理机构:

北京安信方达知识产权代理有限公司 11262

代理人:

申基成;郑霞

PDF下载: PDF下载
内容摘要

本公开内容涉及工程化的酮还原酶多肽和其用于从α-氯代酮制备α-氯代醇的用途。还提供了编码工程化的酮还原酶多肽的多核苷酸和能够表达工程化的酮还原酶多肽的宿主细胞。

权利要求书

1: 一种工程化的酮还原酶多肽, 所述工程化的酮还原酶多肽能够以 SEQ ID NO : 2 活性 的至少约 1.2 倍的相对活性转化 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 为叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯, 其中所述多肽包括与 SEQ ID NO : 2 至少约 70%相同的氨基酸序列, 并包括一种或多种下述特征 : 对应于 SEQ ID NO : 2 的氨基酸 2 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨 酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 28 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 34 的残基是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸 的极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 47 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 50 的残基是选自赖氨酸和精氨酸的碱性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 81 的残基是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸 的极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 90 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 91 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的脂肪族或非极性氨基酸, 选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基 酸, 或选自赖氨酸和精氨酸的碱性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 94 的残基是碱性氨基酸精氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 112 的残基是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族 氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 117 的残基是选自天冬氨酸和谷氨酸的酸性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 143 的残基是选自赖氨酸和精氨酸的碱性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 144 的残基是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸 的极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和 甲硫氨酸的非极性氨基酸, 或选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸的脂肪族氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 148 的残基是选自脯氨酸和组氨酸的受限制的氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 150 的残基是选自亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和 甲硫氨酸的非极性或脂肪族氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 152 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的非极性或脂肪族氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 153 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸和脯氨酸的受限制的氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 158 的残基是选自天冬酰胺、 谷氨酰胺和丝氨酸的极性 氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 190 的残基是选自丙氨酸、 缬氨酸、 亮氨酸、 异亮氨酸、 甘 2 氨酸和甲硫氨酸的非极性或脂肪族氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 198 的残基是选自天冬酰胺、 谷氨酰胺和苏氨酸的极性 氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 199 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲 硫氨酸的脂肪族或非极性氨基酸, 或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基 酸; 对应于 SEQ ID NO : 2 的氨基酸 200 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和 甘氨酸的非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 217 的残基是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸 的极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 225 的残基是选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的 非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 231 的残基是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族 氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 232 的残基是选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和 甲硫氨酸的非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 233 的残基是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸 的极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 244 的残基是选自丙氨酸、 亮氨酸、 异亮氨酸、 缬氨酸、 甘 氨酸和甲硫氨酸的非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 260 的残基是选自酪氨酸和色氨酸的芳香族氨基酸 ; 且 对应于 SEQ ID NO : 2 的氨基酸 261 的残基是选自天冬酰胺、 谷氨酰胺和苏氨酸的极性 氨基酸。
2: 如权利要求 1 所述的多肽, 其中所述氨基酸序列包括相对于 SEQ IDNO : 2 的一种或 多种以下氨基酸取代 : P2L ; V28A ; A34S ; A47V ; E50K ; D81N ; S90V ; I91L ; I91W ; I91R ; I91K ; K94R ; D112Y ; G117D ; S143R ; V144T ; G145A ; R148H ; A150G ; F152L ; N153G ; N153V ; N153H ; T158S ; G190A ; S198N ; I199M ; I199L ; I199N ; M200I ; A217T ; I225V ; P231F ; A232V ; E233Q ; D244G ; F260Y 和 S261N。
3: 如权利要求 2 所述的多肽, 其中所述多肽包括选自以下组成的组的氨基酸序列 : SEQ ID NO : 4、 6、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54、 56、 60、 62、 65、 66、 68、 70、 72、 74、 76、 78 和 80。
4: 如权利要求 1 所述的多肽, 其中所述相对活性是 SEQ ID NO : 2 活性的至少约 1.5 倍。
5: 如权利要求 4 所述的酮还原酶, 其中所述多肽包括选自以下组成的组的氨基酸序 列: SEQ ID NO : 6、 18、 22、 30、 38、 40、 50、 52、 54 和 56。
6: 如权利要求 1 所述的多肽, 其中所述相对活性是 SEQ ID NO : 2 活性的至少约 3 倍。
7: 如权利要求 6 所述的多肽, 其中所述多肽包括选自以下组成的组的氨基酸序列 : SEQ ID NO : 6、 50、 52 和 56。
8: 如权利要求 1 所述的多肽, 其中所述氨基酸序列包括一种或多种下述特征 : 对应于 SEQ ID NO : 2 的氨基酸 91 的残基选自亮氨酸、 色氨酸、 精氨酸和赖氨酸组成的 3 组; 对应于 SEQ ID NO : 2 的氨基酸 144 的残基是苏氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基是丙氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 150 的残基是甘氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 153 的残基选自甘氨酸、 缬氨酸和组氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 190 的残基是丙氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 199 的残基选自甲硫氨酸、 亮氨酸和天冬酰胺组成的组 ; 且 对应于 SEQ ID NO : 2 的氨基酸 260 的残基是酪氨酸。
9: 如权利要求 8 所述的多肽, 其中所述多肽包括选自以下组成的组的氨基酸序列 : SEQ ID NO : 16、 18、 22、 24、 26、 28、 30、 32、 34、 38、 40 和 52。
10: 如权利要求 10 所述的多肽, 其中所述氨基酸序列包括一种或多种下述特征 : 对应于 SEQ ID NO : 2 的氨基酸 91 的残基是精氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基是丙氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 153 的残基选自甘氨酸和组氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 190 的残基是丙氨酸 ; 且 对应于 SEQ ID NO : 2 的氨基酸 260 的残基是酪氨酸。
11: 如权利要求 10 所述的多肽, 其中所述多肽包括选自以下组成的组的氨基酸序列 : SEQ ID NO : 18、 22、 30、 38、 40 和 52。
12: 如权利要求 8 所述的多肽, 其中所述相对活性是 SEQ ID NO : 2 活性的至少约 3 倍, 且其中对应于 SEQ ID NO : 2 的氨基酸 145 的残基是丙氨酸。
13: 如权利要求 12 所述的多肽, 其中所述多肽包括 SEQ ID NO : 52 的氨基酸序列。
14: 如权利要求 1 所述的多肽, 其中所述多肽能够在 24 小时内以至少 70%的转化率转 化包含初始浓度为至少 10g/L 的 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 的反应混合物为叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯。
15: 如权利要求 14 所述的多肽, 其中所述多肽能够在 24 小时内达到至少 95%的转化 率。
16: 如权利要求 14 所述的多肽, 其中所述多肽能够转化 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯 基丁烷 -2- 基氨基甲酸酯为至少 97%非对映体过量的叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯 基丁烷 -2- 基氨基甲酸酯。
17: 如权利要求 14 所述的多肽, 其中所述反应混合物包含少于约 5g/L 的所述多肽。
18: 如权利要求 14 所述的多肽, 其中所述反应混合物包含初始浓度为至少 100g/L 的 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯。
19: 一种工程化的酮还原酶多肽, 所述多肽能够以比参考多肽 SEQ IDNO : 2 大至少 2 倍 的活性氧化异丙醇 (IPA) 为丙酮, 其中所述多肽包含与选自 SEQ ID NO : 6、 56、 60、 62、 64、 78 和 80 的序列具有至少 70%同一性的氨基酸序列。 66、 68、 70、 72、 74、 76、
20: 如权利要求 19 所述的多肽, 其中所述氨基酸序列与选自 SEQ IDNO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的序列具有至少 95%同一性。
21: 如权利要求 19 所述的多肽, 其中所述氨基酸序列包括至少一种下述特征 : 4 对应于 SEQ ID NO : 2 的氨基酸 144 的残基是半胱氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基选自丙氨酸和缬氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 150 的残基选自异亮氨酸、 丝氨酸和色氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 190 的残基选自谷氨酰胺、 脯氨酸和缬氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 199 的残基选自甘氨酸和亮氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 200 的残基是异亮氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 204 的残基是苯丙氨酸 ; 且 对应于 SEQ ID NO : 2 的氨基酸 225 的残基是缬氨酸。
22: 如权利要求 19 所述的多肽, 其中所述氨基酸序列包含与 SEQ IDNO : 2 相比的至少 一种以下取代 : V144C、 A150I、 A150S、 A150W、 G190P、 G190V、 M200I 和 V204F。
23: 如权利要求 19 所述的多肽, 其中所述氨基酸序列包含与 SEQ IDNO : 2 相比的至少 一种以下组的氨基酸取代 : G145A 和 I199L ; 和 G145A 和 I225V。
24: 如权利要求 19 所述的多肽, 其中所述活性比参考多肽 SEQ ID NO : 2 大至少 5 倍, 且其中所述氨基酸序列包含与 SEQ ID NO : 2 相比的至少一种以下取代 : A150W、 M200I 和 G190V。
25: 如权利要求 19 所述的多肽, 其中所述氨基酸序列选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80。
26: 一种组合物, 所述组合物包含权利要求 1-25 任一项的多肽。
27: 一种多核苷酸, 所述多核苷酸编码权利要求 1-25 任一项的多肽。
28: 一种表达载体, 所述表达载体包含可操作地连接于能够指导编码的多肽在宿主细 胞中表达的控制序列的权利要求 27 的多核苷酸。
29: 如权利要求 28 所述的表达载体, 其中所述控制序列包含分泌信号。
30: 一种宿主细胞, 所述宿主细胞包含权利要求 27 或 28 任一项的表达载体。
31: 如权利要求 30 所述的宿主细胞, 其中编码多肽的所述多核苷酸的密码子已被优化 以在所述宿主细胞中表达。
32: 一种制备权利要求 1 至 25 任一项的工程化的酮还原酶多肽的方法, 所述方法包括 培养权利要求 30 的宿主细胞, 并从所述宿主细胞分离所述多肽。
33: 一种制备大于约 95%非对映体过量的式 (II) 化合物的方法, 所述方法包括 : 式 (II) 在适当的反应条件下将式 (I) 化合物 5 式 (I) 与权利要求 1 至 18 任一项的工程化的酮还原酶多肽接触。
34: 如权利要求 33 所述的方法, 其中 R1 是选自以下组成的组的氮保护基 : 甲酰基、 三苯甲基、 甲氧基三苯甲基、 甲苯磺酰基、 邻苯二甲酰亚氨基、 乙酰基、 三氯乙酰基、 氯乙酰 基、 溴乙酰基、 碘乙酰基、 苄氧羰基 (Cbz)、 9- 芴基甲氧羰基 (FMOC)、 2- 三甲硅烷基乙氧羰 基 (Teoc)、 1- 甲基 -1-(4- 联苯基 ) 乙氧羰基 (Bpoc)、 叔丁氧羰基 (BOC)、 烯丙氧基羰基 (Alloc)、 三卤代乙酰基、 苄基、 苯甲酰基和硝基苯基乙酰基。
35: 如权利要求 33 所述的方法, 其中 R1 是叔丁氧羰基。
36: 如权利要求 33 所述的方法, 其中所述反应条件包括约 6.5 至约 9.5 的 pH。
37: 如权利要求 33 所述的方法, 其中所述反应条件包括约 9.0 的 pH。
38: 如权利要求 33 所述的方法, 其中所述反应条件包括从约 25℃至约 60℃的温度。
39: 如权利要求 33 所述的方法, 其中所述反应条件包括约 45℃的温度。
40: 如权利要求 33 所述的方法, 其中所述反应条件包括含水共溶剂系统。
41: 如权利要求 33 所述的方法, 其中所述反应条件包括包含从约 90 ∶ 10(v/v) 至约 10 ∶ 90(v/v) 的有机溶剂与水的比例的含水共溶剂系统。
42: 如权利要求 33 所述的方法, 其中所述反应条件包括包含从约 5%至约 40%异丙醇 的含水共溶剂系统。
43: 如权利要求 33 所述的方法, 其中所述反应条件包括包含约 10%异丙醇的含水共溶 剂系统。
44: 如权利要求 33 所述的方法, 其中所述反应条件包括包含约 pH 9.0 和约 10%异丙 醇的含水共溶剂系统。
45: 如权利要求 33 所述的方法, 其中所述多肽的浓度少于约 5g/L。
46: 如权利要求 33 所述的方法, 其中所述多肽的浓度少于约 1g/L。
47: 如权利要求 33 所述的方法, 其中所述式 (I) 化合物的浓度是至少约 100g/L。
48: 如权利要求 33 所述的方法, 其中所述式 (I) 化合物的浓度是至少约 150g/L。
49: 如权利要求 33 所述的方法, 其中所述多肽是大致上纯的多肽。
50: 如权利要求 33 所述的方法, 所述方法还包括选自以下组成的组的辅因子再生系 统: 葡萄糖脱氢酶和葡萄糖、 甲酸脱氢酶和甲酸、 亚磷酸脱氢酶和亚磷酸、 以及异丙醇和仲 醇脱氢酶。
51: 如权利要求 50 所述的方法, 其中所述辅因子再生系统是仲醇脱氢酶。
52: 如权利要求 51 所述的方法, 其中所述仲醇脱氢酶是所述工程化的酮还原酶多肽。
53: 如权利要求 33 所述的方法, 其中所述非对映体过量是大于约 97%。
54: 如权利要求 33 所述的方法, 其中在少于约 24 小时内至少约 95%的所述式 (I) 化 合物被转化为所述式 (II) 化合物。
55: 如权利要求 33 所述的方法, 其中在少于约 24 小时内至少约 95%的所述式 (I) 化 6 合物被转化为所述式 (II) 化合物, 其中所述式 (I) 化合物的浓度是至少约 150g/L 且所述 多肽的浓度是少于约 1g/L。
56: 一种制备大于约 95%非对映体过量的式 (III) 化合物的方法, 所述方法包括 : 式 (III) (a) 在适当的反应条件下将式 (I) 化合物与权利要求 1 至 23 任一项的多肽接触, 式 (I) 从而形成包含式 (II) 化合物的反应混合物 式 (II) (b) 用有机溶剂萃取所述反应混合物 ; 并 (c) 将有机溶剂萃取物与碱接触。
57: 如权利要求 56 所述的方法, 其中 R1 是选自以下组成的组的氮保护基 : 甲酰基、 三苯甲基、 甲氧基三苯甲基、 甲苯磺酰基、 邻苯二甲酰亚氨基、 乙酰基、 三氯乙酰基、 氯乙酰 基、 溴乙酰基、 碘乙酰基、 苄氧羰基 (Cbz)、 9- 芴基甲氧羰基 (FMOC)、 2- 三甲硅烷基乙氧羰 基 (Teoc)、 1- 甲基 -1-(4- 联苯基 ) 乙氧羰基 (Bpoc)、 叔丁氧羰基 (BOC)、 烯丙氧基羰基 (Alloc)、 三卤代乙酰基、 苄基、 苯甲酰基和硝基苯基乙酰基。
58: 如权利要求 56 所述的方法, 其中 R1 是叔丁氧羰基 (BOC)。
59: 如权利要求 56 所述的方法, 其中进行将式 (II) 化合物与碱接触的所述步骤而不纯 化和 / 或分离所述式 (II) 化合物。
60: 如权利要求 56 所述的方法, 所述方法还包括从所述有机溶剂萃取物结晶所述式 (III) 化合物。
61: 如权利要求 56 所述的方法, 其中所述有机溶剂选自甲苯、 异丙醇、 MTBE、 正丁醇和 乙腈。
62: 如权利要求 61 所述的方法, 其中所述有机溶剂是 MTBE。
63: 如权利要求 62 所述的方法, 所述方法还包括用结晶溶剂交换所述有机溶剂萃取物 的有机溶剂, 并从所述结晶溶剂结晶所述式 (III) 化合物。
64: 如权利要求 63 所述的方法, 其中所述结晶溶剂是庚烷。
65: 如权利要求 56 所述的方法, 其中所述碱选自氢氧化钾 (KOH)、 叔丁醇钾、 碳酸钾和 7 三乙胺。
66: 如权利要求 65 所述的方法, 其中所述碱是氢氧化钾 (KOH)。
67: 如权利要求 56 所述的方法, 其中所述非对映体过量大于约 97%。

说明书


酮还原酶介导的产生 α 氯代醇的立体选择性途径

    1. 技术领域
     本公开内容涉及工程化的多肽和其用于从 α- 氯代酮制备 α- 氯代醇的用途。
     2. 对序列表、 表格或计算机程序的引用
     根 据 37C.F.R.1.821 以 计 算 机 可 读 形 式 (CRF) 通 过 EFS-Web 使 用 文 件 名 CX2-012WO1_ST25.txt 同时电子提交的序列表通过引用被并入本文。电子版的序列表创建 于 2010 年 6 月 22 日, 其文件大小为 143 千字节。
     3. 背景
     立体选择性还原 α- 卤代 - 酮为其相应的手性卤代 - 醇是见于许多有用的合成途 径中的转化。例如, 形成抗病毒化合物阿扎那韦 (atazanavir) 的合成途径包括还原来源自 L- 苯丙氨酸的 Boc- 氯 - 酮为相应的手性 Boc-(S)- 氯 - 醇。进行这一转化的标准化学技术 产生需要进一步拆分的期望中间产物的非对映体混合物, 增加了阿扎那韦生产的成本和降 低效率。因此, 能够更有效地立体选择性还原 α- 卤代 - 酮为手性卤代 - 醇的方法和组合 物将是期望的。 已经发现属于酮还原酶 (KRED) 或羰基还原酶类 (EC1.1.1.184) 的某些酶可用于 立体选择性转化前 - 立体异构的醛或酮底物为相应的手性醇产物。 KRED 通常将酮或醛底物 转化为相应的醇产物, 但是还可以催化逆反应, 即醇底物被氧化为相应的酮 / 醛产物。酶例 如 KRED 对酮和醛的还原以及醇的氧化需要辅因子, 其中最常见的为还原型烟酰胺腺嘌呤 二核苷酸 (NADH) 或还原型烟酰胺腺嘌呤二核苷酸磷酸 (NADPH) 以及用于氧化反应的烟酰 胺腺嘌呤二核苷酸 (NAD) 或烟酰胺腺嘌呤二核苷酸磷酸 (NADP)。NADH 和 NADPH 充当电子 供体, 而 NAD 和 NADP 充当电子受体。
     KRED 正日益被用于立体选择性转化酮和醛为用于关键药物化合物生产的手性 醇化合物。使用 KRED 来产生有用的化合物的实例包括 4- 氯乙酰基乙酸酯的不对称还 原 (Zhou, J.Am.Chem.Soc.1983 105 : 5925-5926 ; Santaniello, J.Chem.Res.(S)1984 : 132-133 ; 美国专利第 5,559,030 号 ; 美国专利第 5,700,670 号和美国专利第 5,891,685 号 )、 二氧代羧酸的还原 ( 例如美国专利第 6,399,339 号 )、 (S) 氯 -5- 羟基 -3- 氧代己酸 叔丁基酯的还原 ( 例如美国专利第 6,645,746 号和 WO 01/40450)、 基于吡咯并三嗪的化 合物的还原 ( 例如美国申请第 2006/0286646 号 )、 取代苯乙酮的还原 ( 例如美国专利第 6,800,477 号 ) 和酮噻吩烷 (ketothiolanes) 的还原 (WO 2005/054491)。 在另一个方法中, 如本文证明的, 酮还原可在醇诸如异丙醇的存在下进行, 以提供逆反应 ( 醇脱氢 ) 的底物。 以这种方式, 酮还原反应中消耗的 NADH/NADPH 通过逆向、 氧化反应再生。
     美国专利第 7,083,973 号公开了一种通过利用红球菌属 (Rhodococcus) 和短 杆菌属 (Brevibacterium) 的某些物种还原含相应酮基团的化合物, 制备 (3S, 2R)-1- 卤 代 -2- 羟基 -3-( 保护的 ) 氨基 -4- 取代的丁烷的立体选择性方法。 ‘973 专利公开, 仅 红球菌属和短杆菌属的选定物种催化该还原以形成高量和对映体产率的期望的 (3S, 2R)-1- 卤代 -2- 羟基 -3-( 保护的 ) 氨基 -4- 取代的丁烷。 ‘973 专利公开, 将来自 150g 红 串 红 球 菌 (Rhodococcus erythropolis)ATCC 4277 细 胞 的 10mL 细 胞 提 取 物 加 载 于
     10mg(1S)-[N-(1- 苄基 -2- 氧 -3- 氯 ) 丙基 ] 氨基甲酸叔丁基酯底物、 葡萄糖脱氢酶 (35 单 + 位 )、 0.7mM NAD 和 200mg 葡萄糖 ( 反应在 pH 6.0、 150RPM 搅动和 30℃进行 ) 以 95%产率 和> 98%非对映体纯度产生 (1S, 2R)-[N-(1- 苄基 -2- 羟基 -3- 氯 ) 丙基 ] 氨基甲酸叔丁 基酯产物。
     因此, 能够以高产率和高的非对映体纯度立体选择性转化 α- 卤代 - 酮为卤 代 - 醇的分离的 KRED 多肽将是期望的。同样, 利用 KRED 多肽进行大规模手性卤代 - 醇的 制备的改进方法将是期望的。
     4. 概述
     本公开内容提供能够立体选择性地转化 α- 卤代 - 酮为手性卤代 - 醇的酮还原酶 多肽, 和在合成方法中利用这些多肽来制备化学化合物的方法, 所述化学化合物诸如生产 活性药物成分诸如抗逆转录病毒药物阿扎那韦中的中间产物。
     在某些实施方案中, 本公开内容提供能够转化式 (I) 化合物 N- 保护的 (S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 酮 ( 其中 R1 是保护基 ) 为相应的立体异构醇式 (II) 产物 N- 保 护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇的酮还原酶多肽, 如以下方案 1 所示。
     方案 1
     在 具 体 实 施 方 案 中, 本 公 开 内 容 提 供 能 够 转 化 氯 代 酮 化 合 物 (1)((S)- 叔 丁 基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 为相应的醇化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 的酮还原酶多肽, 如以下方案 2 所示 :
     方案 2
     在某些实施方案中, 本公开内容提供能够在 24 小时内以至少 70%的转化率转化 包含初始浓度为至少 10g/L 化合物 (1) 的反应混合物为化合物 (2) 的酮还原酶多肽。在某 些实施方案中, 能够进行这一转化的多肽的浓度是 5g/L、 2g/L、 1g/L、 或更少。在某些实施 方案中, 所述多肽能够在 24 小时或甚至更少时间内达到至少 80%、 85%、 90%、 95%、 98%、 99%、 或更高的转化率。在某些实施方案中, 所述多肽能够转化化合物 (1) 为大于约 95%、 大于约 97%或大于约 99%非对映体过量的化合物 (2)。在某些实施方案中, 所述多肽能够
     对包含初始浓度为至少 20g/L、 40g/L、 60g/L、 80g/L、 100g/L、 150g/L、 200g/L 或甚至更多的 化合物 (1) 的反应混合物达到上述转化率。
     在某些实施方案中, 本公开内容提供转化式 (I) 化合物为式 (III) 化合物的方法 1 ( 参见方案 3), 其中 R 如上所述, 所述方法包括利用本公开内容的酮还原酶转化式 (I) 化 合物为式 (II) 化合物, 然后将式 (II) 化合物与碱接触以提供式 (III) 化合物。
     方案 3
     在某些实施方案中, 该方法还包括将包含式 (II) 化合物的反应混合物萃取到有 机溶剂萃取物中, 将所述萃取物与碱接触。 在某些实施方案中, 该方法还包括用结晶溶剂交 换所述有机溶剂萃取物, 并结晶式 (III) 化合物。在某些实施方案中, 进行将式 (II) 化合 物与碱接触的所述步骤而不首先纯化和 / 或分离式 (II) 化合物。
     因此, 在具体实施方案中, 本公开内容提供转化化合物 (1) 为化合物 (3)( 叔丁基 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯乙基氨基甲酸酯 ) 的方法, 包括利用本公开内容的酮 还原酶转化化合物 (1) 为化合物 (2), 然后将化合物 (2) 与碱接触以提供化合物 (3)( 参见 方案 4)。
     方案 4
     在某些实施方案中, 该方法还包括将包含化合物 (2) 的反应混合物萃取到有机溶 剂萃取物中, 将所述萃取物与碱接触。 在某些实施方案中, 该方法还包括用结晶溶剂交换所 述有机溶剂萃取物, 并结晶化合物 (3)。在某些实施方案中, 进行将化合物 (2) 与碱接触的 所述步骤而不首先纯化和 / 或分离化合物 (2)。
     在 一 些 实 施 方 案 中, 还 原 或 转 化 底 物 N- 保 护 的 (S)-3- 氨 基 -1- 氯 -4- 苯 基 丁 -2- 酮 ( 如 化 合 物 (1)) 为 其 相 应 的 立 体 异 构 醇 产 物 N- 保 护 的 (2R, 3S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 醇 ( 如化合物 (2)) 的方法, 包括在适于还原或转化底物为产物的 条件下将所述底物与至少一种本文公开的酮还原酶多肽接触或培养。
     在上述方法的一些实施方案中, 底物被还原为大于约 95%、 大于约 97%或大于约 99%非对映体过量的产物, 其中酮还原酶多肽包括对应于 SEQ IDNO : 4、 6、 8、 10、 12、 14、 16、
     18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的序列。
     在上述方法的某些实施方案中, 当以大于约 100g/L 底物和少于约 5g/L 多肽进行 时, 至少约 95%的底物在少于约 24 小时内被转化为产物。在某些实施方案中, 能够进行该 方法的多肽包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列。在上述方法的一些实施 方案中, 当以大于约 150g/L 底物和少于约 1g/L 多肽进行时, 至少约 95%的底物在少于约 30 小时内被转化为产物, 其中多肽包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列。
     一方面, 本文所述的酮还原酶多肽具有与野生型酮还原酶相比或与工程化的酮还 原酶相比具有一种或多种氨基酸差异的氨基酸序列。一种或多种氨基酸差异导致该酶对 指定底物至少一种改进的特性。通常, 本文所述的酮还原酶多肽是与从 Novosphingobium aromaticivorans 获得的天然存在的野生型酮还原酶 (“N.aromaticivorans” ; SEQ ID NO : 2) 相比具有一种或多种改进的特性的工程化的酮还原酶多肽。 工程化的酮还原酶多肽的酶 特性的改进包括以下的增加 : 酶活性、 立体选择性、 立体特异性、 热稳定性、 溶剂稳定性、 对 底物水平升高的耐受和对产物水平升高的耐受。
     在一些实施方案中, 本发明的酮还原酶多肽与 SEQ ID NO : 2 相比在酶促活性的比 率 (rate) 方面是改进的, 即, 还原 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮 (“底 物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 醇 (“产物” )( 如, 化合物 (2)) 的转化率 (conversion rate)。在一些实施方案 中, 在相当的检验条件下, 工程化的酮还原酶多肽能够以 SEQ ID NO : 2 的酶表现的速率的至 少 1.1 倍、 1.2 倍、 1.3 倍、 1.5 倍、 2 倍、 3 倍或大于 3 倍的转化率转化底物为产物。
     在 一 些 实 施 方 案 中, 这 种 酮 还 原 酶 多 肽 还 能 够 转 化 N- 保 护 的 (S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 酮 (“底物” )( 如, 化合物 (1), 其中保护基是 BOC 部分 ) 为非对 映体过量百分比至少约 95%的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 ( “产 物” )( 如化合物 (2))。在一些实施方案中, 这种酮还原酶多肽还能够转化底物为非对映体 过量百分比至少约 97%的产物。在一些实施方案中, 这种酮还原酶多肽还能够转化底物为 非对映体过量百分比至少约 99%的产物。具有这种特性的示例性的多肽包括但不限于, 包 含 对 应 于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够转化 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1)), 其中保护基是 BOC 部分 ) 为非对映体过量百分比 至少约 99%的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)), 转化率比 SEQ ID NO : 2 多肽改进至少约 1.2 倍或更大。具有这种特性的示例性的多 肽包括但不限于, 包含对应于 SEQID NO : 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够转化 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如, 化合物 (1), 其中保护基是 BOC 部分 ) 为非对映体过量百分比 至少约 99%的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)), 转化率比 SEQ ID NO : 2 多肽改进至少约 1.5 倍或更大。具有这种特性的示例性的多 肽包括但不限于, 包含对应于 SEQID NO : 6、 18、 22、 30、 38、 40、 50、 52、 54 和 56 的氨基酸序列 的多肽。在一些实施方案中, 酮还原酶多肽能够转化 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为非对映体过量百分比至 少约 99 %的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)), 转化率比 SEQ ID NO : 2 多肽改进大于 3 倍。具有这种特性的示例性的多肽包括但不 限于, 包含对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 当以大于约 100g/L 底物和少于约 5g/L 多肽进行时, 酮还原酶 多肽能够在少于约 24 小时内转化至少约 95%的底物为产物。具有这一能力的示例性的多 肽包括但不限于, 包含对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽是高度立体选择性的, 其中多肽可还原底物为 大于约 99%、 99.1%、 99.2%、 99.3%、 99.4%、 99.5%、 99.6%、 99.7%、 99.8%或 99.9%非 对映体过量的产物。具有高立体选择性的示例性的酮还原酶多肽包括但不限于, 包含对应 于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 为了辅因子再生, 酮还原酶多肽具有对仲醇的活性增加的改 进特性。在一些实施方案中, 相对于参考多肽 SEQ ID NO : 2, 酮还原酶多肽以至少 2 倍、 2.5 倍、 5 倍、 10 倍、 15 倍或甚至更大的活性氧化异丙醇 (IPA) 为丙酮。表现对 IPA 的活性增加 的改进特性的示例性的酮还原酶多肽包括但不限于, 包括对应于 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的氨基酸序列的多肽。 在某些实施方案中, 本公开内容的酮还原酶多肽与参考序列 SEQ IDNO : 2 至少约 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85%、 86%、 87%、 88%、 89%、 90%、 91%、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相 同, 并在对应于 SEQ ID NO : 2 的所指位置的位置具有至少一种以下氨基酸差异 : 位置 2 的 氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨 基酸 ; 位置 28 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂 肪族或非极性氨基酸 ; 位置 34 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极 性氨基酸 ; 位置 47 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸 的脂肪族或非极性氨基酸 ; 位置 50 的氨基酸是选自赖氨酸和精氨酸的碱性氨基酸 ; 位置 81 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸 ; 位置 90 的氨基酸是 选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 位置 91 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极 性氨基酸, 或位置 91 的氨基酸是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸, 或位置 91 的氨基酸是选自赖氨酸和精氨酸的碱性氨基酸 ; 位置 94 的氨基酸是碱性氨基酸精氨酸 ; 位置 112 的氨基酸是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸 ; 位置 117 的氨基酸是 选自天冬氨酸和谷氨酸的酸性氨基酸 ; 位置 143 的氨基酸是选自赖氨酸和精氨酸的碱性氨 基酸 ; 位置 144 的氨基酸是半胱氨酸, 或位置 144 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝 氨酸和苏氨酸的极性氨基酸 ; 位置 145 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸 和甲硫氨酸的非极性氨基酸或选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸的脂肪族氨基酸 ; 位 置 148 的氨基酸是选自脯氨酸和组氨酸的受限制的氨基酸 ; 位置 150 的氨基酸是选自亮氨
     酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或位置 150 的氨基酸 是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸, 或位置 150 的氨基酸是选自酪 氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸 ; 位置 152 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨 酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸 ; 位置 153 的氨基酸是选自丙氨 酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸 和脯氨酸的受限制的氨基酸 ; 位置 158 的氨基酸是选自天冬酰胺、 谷氨酰胺和丝氨酸的极 性氨基酸 ; 位置 190 的氨基酸是选自丙氨酸、 缬氨酸、 亮氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸 的非极性或脂肪族氨基酸, 或位置 190 的氨基酸是选自天冬酰胺、 谷氨酰胺和丝氨酸的极 性氨基酸, 或位置 190 的氨基酸是脯氨酸 ; 位置 198 的氨基酸是选自天冬酰胺、 谷氨酰胺和 苏氨酸的极性氨基酸 ; 位置 199 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲硫氨 酸的脂肪族或非极性氨基酸, 或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸 ; 位置 200 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甘氨酸的非极性氨基酸 ; 位 置 204 的氨基酸是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸 ; 位置 217 的氨基酸是选 自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸 ; 位置 225 的氨基酸是选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的非极性氨基酸 ; 位置 231 的氨基酸是选自酪氨酸、 色氨酸和苯 丙氨酸的芳香族氨基酸 ; 位置 232 的氨基酸是选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲 硫氨酸的非极性氨基酸 ; 位置 233 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的 极性氨基酸 ; 位置 244 的氨基酸是选自丙氨酸、 亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲硫氨 酸的非极性氨基酸 ; 位置 260 的氨基酸是选自酪氨酸和色氨酸的芳香族氨基酸 ; 和位置 261 的氨基酸是选自天冬酰胺、 谷氨酰胺和苏氨酸的极性氨基酸。
     在某些实施方案中, 本公开内容的酮还原酶多肽与参考序列 SEQ IDNO : 2 至少约 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99 % 相同, 与 SEQ ID NO : 2 相比具有选自以下组成的组的至少一种氨基酸取代 : P2L ; V28A ; A34S ; A47V ; E50K ; D81N ; S90V ; I91L ; I91W ; I91R ; I91K ; K94R ; D112Y ; G117D ; S143R ; V144C ; V144T ; G145A ; G145V ; R148H ; A150G ; A150I ; A150S ; A150W ; F152L ; N153G ; N153V ; N153H ; T158S ; G190A ; G190P ; G190Q ; G190V ; S198N ; I199G ; I199L ; I199M ; I199N ; M200I ; V204F ; A217T ; I225V ; P231F ; A232V ; E233Q ; D244G ; F260Y ; S261N ; 和其混合物。
     在一些实施方案中, 本公开内容的改进的酮还原酶多肽是基于 SEQ IDNO : 2 的序 列, 并包括与参考序列 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93%、 94%、 95%、 96%、 97%、 98%或 99%相同的氨基酸序列, 还包括选自以下组成的组的 至少一种氨基酸取代 : 位置 2 的脯氨酸残基被亮氨酸代替 ; 位置 28 的缬氨酸残基被丙氨酸 代替 ; 位置 34 的丙氨酸残基被丝氨酸代替 ; 位置 47 的丙氨酸残基被缬氨酸代替 ; 位置 50 的 谷氨酸残基被赖氨酸代替 ; 位置 81 的天冬氨酸残基被天冬酰胺代替 ; 位置 90 的丝氨酸残 基被缬氨酸代替 ; 位置 91 的异亮氨酸残基被选自亮氨酸、 色氨酸、 精氨酸和赖氨酸的氨基 酸代替 ; 位置 94 的赖氨酸残基被精氨酸代替 ; 位置 112 的天冬氨酸残基被酪氨酸代替 ; 位 置 117 的甘氨酸残基被天冬氨酸代替 ; 位置 143 的丝氨酸残基被精氨酸代替 ; 位置 144 的缬氨酸残基被选自半胱氨酸和苏氨酸的氨基酸代替 ; 位置 145 的甘氨酸残基被选自丙氨酸和 缬氨酸的氨基酸代替 ; 位置 148 的精氨酸残基被组氨酸代替 ; 位置 150 的丙氨酸残基被选 自甘氨酸、 异亮氨酸、 丝氨酸和色氨酸的氨基酸代替 ; 位置 152 的苯丙氨酸残基被亮氨酸代 替; 位置 153 的天冬酰胺残基被选自甘氨酸、 缬氨酸和组氨酸的氨基酸代替 ; 位置 158 的苏 氨酸残基被丝氨酸代替 ; 位置 190 的甘氨酸残基被选自丙氨酸、 脯氨酸、 谷氨酰胺和缬氨酸 的氨基酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺代替 ; 位置 199 的异亮氨酸残基被选自 甘氨酸、 甲硫氨酸、 亮氨酸和天冬酰胺的氨基酸代替 ; 位置 200 的甲硫氨酸残基被异亮氨酸 代替 ; 位置 204 的缬氨酸残基被苯丙氨酸代替 ; 位置 217 的丙氨酸残基被苏氨酸代替 ; 位置 225 的异亮氨酸残基被缬氨酸代替 ; 位置 231 的脯氨酸残基被苯丙氨酸代替 ; 位置 232 的丙 氨酸残基被缬氨酸代替 ; 位置 233 的谷氨酸残基被谷氨酰胺代替 ; 位置 244 的天冬氨酸残 基被甘氨酸代替 ; 位置 260 的苯丙氨酸残基被酪氨酸代替 ; 和位置 261 的丝氨酸残基被天 冬酰胺代替。
     在一些实施方案中, 除了以上以外, 酮还原酶多肽可具有与参考氨基酸序列相比 或与 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 或 80 的任何一种相比的一种或多 种修饰 ( 即, 残基差异 )。这些修饰可以是氨基酸插入、 缺失、 取代、 或这种改变的任何组 合。在一些实施方案中, 氨基酸序列差异可包括非保守、 保守、 以及非保守和保守氨基酸取 代的组合。在一些实施方案中, 这些酮还原酶多肽可任选地在其他氨基酸残基具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 改进的酮还原酶包括与对应于 SEQ ID NO : 2 的氨基酸序列 至少约 70%、 71 %、 72 %、 73%、 74%、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83%、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99%相同的氨基酸序列, 其中改进的酮还原酶多肽氨基酸序列包括表 2 或 3 中展示的具体 氨基酸取代组合的任何一组。在一些实施方案中, 这些酮还原酶多肽可具有在其他氨基酸 残基的突变。
     另一方面, 本公开内容提供编码本文所述的酮还原酶多肽的多核苷酸, 和在高度 严格杂交条件下与这种多核苷酸杂交的多核苷酸。 多核苷酸可包括可用于表达所编码的工 程化的酮还原酶的启动子和其他调节元件, 并可采用对于具体的期望表达系统优化的密码 子。
     在一些实施方案中, 本公开内容提供编码与 SEQ ID NO : 2 的氨基酸序列相比具有 至少以下氨基酸序列, 并且还包含选自以下组成的组的至少一种氨基酸取代的酮还原酶多 肽的多核苷酸 : 位置 2 的脯氨酸残基被亮氨酸代替 ; 位置 28 的缬氨酸残基被丙氨酸代替 ; 位置 34 的丙氨酸残基被丝氨酸代替 ; 位置 47 的丙氨酸残基被缬氨酸代替 ; 位置 50 的谷 氨酸残基被赖氨酸代替 ; 位置 81 的天冬氨酸残基被天冬酰胺代替 ; 位置 90 的丝氨酸残基 被缬氨酸代替 ; 位置 91 的异亮氨酸残基被选自亮氨酸、 色氨酸、 精氨酸和赖氨酸的氨基酸 代替 ; 位置 94 的赖氨酸残基被精氨酸代替 ; 位置 112 的天冬氨酸残基被酪氨酸代替 ; 位置 117 的甘氨酸残基被天冬氨酸代替 ; 位置 143 的丝氨酸残基被精氨酸代替 ; 位置 144 的缬氨酸残基被选自半胱氨酸和苏氨酸的氨基酸代替 ; 位置 145 的甘氨酸残基被选自丙氨酸和 缬氨酸的氨基酸代替 ; 位置 148 的精氨酸残基被组氨酸代替 ; 位置 150 的丙氨酸残基被选 自甘氨酸、 异亮氨酸、 丝氨酸和色氨酸的氨基酸代替 ; 位置 152 的苯丙氨酸残基被亮氨酸代 替; 位置 153 的天冬酰胺残基被选自甘氨酸、 缬氨酸和组氨酸的氨基酸代替 ; 位置 158 的苏 氨酸残基被丝氨酸代替 ; 位置 190 的甘氨酸残基被选自丙氨酸、 脯氨酸、 谷氨酰胺和缬氨酸 的氨基酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺代替 ; 位置 199 的异亮氨酸残基被选自 甘氨酸、 甲硫氨酸、 亮氨酸和天冬酰胺的氨基酸代替 ; 位置 200 的甲硫氨酸残基被异亮氨酸 代替 ; 位置 204 的缬氨酸残基被苯丙氨酸代替 ; 位置 217 的丙氨酸残基被苏氨酸代替 ; 位置 225 的异亮氨酸残基被缬氨酸代替 ; 位置 231 的脯氨酸残基被苯丙氨酸代替 ; 位置 232 的丙 氨酸残基被缬氨酸代替 ; 位置 233 的谷氨酸残基被谷氨酰胺代替 ; 位置 244 的天冬氨酸残 基被甘氨酸代替 ; 位置 260 的苯丙氨酸残基被酪氨酸代替 ; 和位置 261 的丝氨酸残基被天 冬酰胺代替。 示例性的多核苷酸包括但不限于 SEQ IDNO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79 的多核苷酸序列。
     在一些实施方案中, 本公开内容提供包括编码本文所述的酮还原酶多肽的多核苷 酸和 / 或含这些多核苷酸的表达载体的宿主细胞。 宿主细胞可以是 N.aromaticivorans, 或 可以是不同生物, 如大肠杆菌 (E.coli)。宿主细胞可用于表达和分离本文所述的工程化的 酮还原酶, 或可选地, 它们可直接用于转化底物为立体异构产物。 因此, 在一些实施方案中, 本文公开的工程化的酮还原酶多肽可通过标准方法制备, 包括培养包括含编码多肽的多核 苷酸的表达载体的宿主细胞, 从宿主细胞分离多肽。
     无论以完整细胞、 细胞提取物还是纯化的酮还原酶进行该方法, 可使用单独的酮 还原酶, 或可选地, 可使用两种或多种酮还原酶的混合物。
     5. 详述
     除了在工作实施例中, 或另外指明以外, 说明书和权利要求书中使用的表示成分 的量、 反应条件等等的所有数字应理解为在所有情形中被术语 “约” 修饰。
     在本公开内容中, 除非另外具体指明, 否则单数形式的使用包括多数形式 ( 反之 亦然 )。而且, 除非另外指明, 否则 “或” 的使用表示 “和 / 或” 。类似地, “comprise( 包括 )” 、 “comprises( 包括 )” 、 “comprising( 包括 )” 、 “include( 包括 )” 、 “includes( 包括 )”和 “including( 包括 )” 是可互换的, 不意为限制。
     还应理解的是, 当不同实施方案的描述使用术语 “comprising( 包括 )” 时, 本领 域技术人员将理解, 在一些具体情形中, 一种实施方案可替代地利用措辞 “基本由 ... 组成 (consisting essentially of)” 或 “由 ... 组成 (consistingof)” 描述。
     应理解的是, 包括附图的以上一般性描述和以下的详述仅是示例性和说明性的, 不限制本公开内容。
     本文使用的标题仅是为了结构的目的, 不解释为限制所描述的主题。
     本公开内容涉及生物催化方法, 其中 α- 氯代酮与酮还原酶接触, 从而被转化为 相应的 α- 氯代醇。因此, 本公开内容提供能够转化 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为相应的立体异构醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)) 的酮还原酶。 本公开内容还包括转化醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 ( 如 化合物 (2)) 为相应的立体异构环氧化物 N- 保护的 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯 基乙基氨基甲酸酯 ) 如化合物 (3)( 叔丁基 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯基乙基氨 基甲酸酯 ; 其中保护基是 BOC 部分 ) 的方法。
     5.1. 定义
     如本文所用, 下列术语旨在具有下列意义 :
     术语 “保护基” 是指当连接于分子中的反应性官能团时, 掩蔽、 减少或阻止该官能 团的反应性的原子的基团。通常, 保护基可在合成过程期间如期望地选择性去除。
     “氮保护基” (或 “N- 保护基” ) 是指通常用于封闭或保护化合物上的氮官能性 而使其他官能团能够反应的取代基。这种氮保护基的实例包括甲酰基、 三苯甲基、 甲氧基 三苯甲基、 甲苯磺酰基、 邻苯二甲酰亚氨基、 乙酰基、 三氯乙酰基、 氯乙酰基、 溴乙酰基、 碘 乙酰基、 苄氧羰基 (Cbz)、 9- 芴基甲氧羰基 (FMOC)、 2- 三甲硅烷基乙氧羰基 (Teoc)、 1- 甲 基 -1-(4- 联苯基 ) 乙氧羰基 (Bpoc)、 叔丁氧羰基 (BOC)、 烯丙氧基羰基 (Alloc)、 三卤代乙 酰基、 苄基、 苯甲酰基和硝基苯基乙酰基等等。 可用于本公开内容的实施方案的保护基的进 一步实例可见于 P.G.M.Wuts 和 T.W.Greene, “Greene’ s Protective Groups in Organic Synthesis-Fourth Edition(Greene 有机合成中的保护基 - 第四版 ), ” John Wiley and Sons, New York, N.Y., 2007, 第 7 章 (“Greene” )。 “立体异构体” 、 “立体异构形式” 和类似表述在本文可互换使用, 是指单独分子差 异仅在于其原子在空间中的方位不同的所有异构体。 其包括对映异构体和具有多于一个手 性中心、 不是彼此镜像的化合物的异构体 (“非对映异构体” )。
     “手性中心” 是指四个不同基团与其连接的碳原子。
     “对映异构体” 或 “对映异构形式” 是指不可与其镜像叠加的分子, 因此是光学活性 的, 其中对映异构体以一个方向旋转偏振光平面, 其镜像以相反方向旋转偏振光平面。
     “对映体过量” 、 “(ee)” 、 “非对映体过量” 、 “(de)” 是指在化学物质中一种对映体或 非对映体比另一种更多地存在。这一差异定义为每种对映体的摩尔分数之间的绝对差异 : ee = |(F+)-(F-)|, 其中 (F+)+(F-) = 1。因此, (ee) 和 (de) 可表示为对映体过量或非对 映体过量的百分比。
     术语 “外消旋” 是指化合物等摩尔量的两种对映体的混合物, 该混合物是光学上无 活性的。
     本文所用的 “富集” 特定手性化合物、 对映异构体或非对映异构体的组合物通常包 括至少约 60%、 70%、 80%、 90%或甚至更多的该特定手性化合物、 对映异构体或非对映异 构体。 富集的量可利用本领域技术人员例行使用的常规分析方法确定, 包括但不限于, 在手 性位移试剂存在下的 NMR 光谱、 利用手性柱的气相色谱分析和利用手性柱的高压液相色谱 分析。 在一些实施方案中, 单个手性化合物、 对映异构体或非对映异构体将大致上不含其他 相应的手性化合物、 对映异构体或非对映异构体。 “大致上不含” 是指, 利用本领域技术人员 例行使用的常规分析方法, 诸如以上提到的方法确定, 组合物包括少于约 10%的指定不希 望的手性化合物、 对映异构体或非对映异构体。在一些实施方案中, 不希望的手性化合物、 对映异构体或非对映异构体的量可少于约 10%, 例如, 少于约 9%、 8%、 7%、 6%、 5%、 4%、 3%、 2%、 1%或甚至更少。包含至少约 95%的指定手性化合物、 对映异构体或非对映异构
     体的手性富集、 对映异构富集或非对映异构富集的组合物在本文分别称为 “大致上手性地 纯” 、 “大致上对映异构地纯” 和 “大致上非对映异构地纯” 。包含至少约 99%的指定手性化 合物、 对映异构体或非对映异构体的组合物在本文分别称为 “手性地纯” 、 “对映异构地纯” 和 “非对映异构地纯” 。
     “酮还原酶” 和 “KRED” 在本文中可互换地使用, 以指具有将羰基还原为其相应的醇 的酶促能力的多肽。在具体的实施方案中, 本发明的酮还原酶多肽能够立体选择性地还原 (1)((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 为相应的醇化合物 (2)( 叔 丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯 )。所述多肽通常利用辅因子 即还原型烟酰胺腺嘌呤二核苷酸 (NADH) 或还原型烟酰胺腺嘌呤二核苷酸磷酸 (NADPH) 作 为还原剂。本文所用的酮还原酶包括天然存在的 ( 野生型 ) 酮还原酶以及通过人类操作而 产生的非天然存在的工程化的多肽。
     本文使用的 “工程化的酮还原酶多肽” 是指具有通过人类操纵而产生的变异序列 ( 如, 通过天然存在的母体酶的定向进化或此前来源自天然存在的酶的变体的定向进化而 产生的序列 ) 的酮还原酶多肽。
     “天然存在的” 或 “野生型” 是指在自然中所发现的形式。例如, 天然存在的或野生 型的多肽或多核苷酸序列是存在于生物体中的、 可从自然中的来源分离的并且未被人类操 作有意识地修改的序列。
     “蛋白” 、 “多肽”和 “肽”在本文可互换使用, 表示通过酰胺键共价连接的至少 两个氨基酸的聚合物, 而不论长度或翻译后修饰 ( 如, 糖基化、 磷酸化、 脂质化、 豆蔻酰化 (myristilation)、 泛素化等等 )。这一定义中包括 D- 氨基酸和 L- 氨基酸, 以及 D- 氨基酸 与 L- 氨基酸的混合物。
     “多核苷酸” 或 “寡核苷酸” 是指核碱基聚合物或寡聚物, 其中核碱基被糖磷酸酯键 ( 糖磷酸酯骨架 ) 连接。核碱基或碱基包括对利用核酸或多核苷酸技术或利用聚酰胺或肽 核酸技术从而产生可以序列特异性方式与多核苷酸杂交的聚合物的人们公知的天然存在 的和合成的杂环部分。核碱基的非限制性实例包括 : 腺嘌呤、 胞嘧啶、 鸟嘌呤、 胸腺嘧啶、 尿 嘧啶、 5- 丙炔基 - 尿嘧啶、 2- 硫代 -5- 丙炔基 - 尿嘧啶、 5- 甲基胞嘧啶、 假异胞嘧啶、 2- 硫尿 嘧啶和 2- 硫代胸腺嘧啶、 2- 氨基嘌呤、 N9-(2- 氨基 -6- 氯嘌呤 )、 N9-(2, 6- 二氨基嘌呤 )、 次黄嘌呤、 N9-(7- 脱氮 - 鸟嘌呤 )、 N9-(7- 脱氮 -8- 氮杂 - 鸟嘌呤 ) 和 N8-(7- 脱氮 -8- 氮 杂 - 腺嘌呤 )。示例性的多核苷酸和寡核苷酸包括 2’ 脱氧核糖核苷酸的聚合物 (DNA) 和核 糖核苷酸的聚合物 (RNA)。多核苷酸可完全由核糖核苷酸、 完全由 2’ 脱氧核糖核苷酸或其 组合构成。
     “编码序列” 是指编码多肽 ( 例如蛋白 ) 的氨基酸序列的那部分多核苷酸 ( 例如基 因 )。
     “序列同一性百分比” 、 “同一性百分比” 和 “同一的百分比” 在本文中可互换使用, 以指多核苷酸序列或多肽序列之间的比较, 并且是通过将两个最佳地比对的序列在一个比 较窗口上进行比较而被确定的, 其中比较窗口中的多核苷酸或多肽序列的部分与参考序列 相比可包括添加或缺失 ( 即, 缺口 ) 以将这两个序列最佳地比对。百分比如下计算 : 确定两 个序列中存在相同核酸碱基或氨基酸残基或者核酸碱基和氨基酸残基与缺口对齐的位置 的数量而产生匹配位置数目, 将匹配位置数目除以比较窗口中位置的总数目并将该结果乘以 100 以得到序列同一性百分比。使用 BLAST 和 BLAST 2.0 算法来进行最佳比对和序列同 一性百分比的确定 ( 参见例如, Altschul 等, 1990, J.Mol.Biol.215 : 403-410 和 Altschul 等, 1977, NucleicAcids Res.3389-3402)。用于进行 BLAST 分析的软件可通过美国国家生 物技术信息中心网站公开获得。
     简要地说, BLAST 分析包括首先通过识别问询序列中具有长度 W 的短字来识别高 得分序列对 (HSP), 所述短字当与数据库序列中的相同长度的字对齐时匹配或满足某个正 值阈值得分 T。 T 被称为相邻字得分阈值 (neighborhood word score threshold)(Altschul 等人, 上述 )。这些最初的相邻字匹配 (word hit) 充当用于启动搜索的种子以寻找包含它 们的更长的 HSP。 然后字匹配沿每条序列在两个方向上延伸远至累计的比对得分可被增加。 对于核苷酸序列, 使用参数 M( 对一对匹配残基的奖励得分 ; 总是> 0) 和 N( 对错配残基的 处罚得分 ; 总是< 0) 计算累计得分。对于氨基酸序列, 使用得分矩阵来计算累计得分。当 发生以下情况时字匹配在每个方向上的延伸停止 : 累计比对得分从其所达到的最大值下降 了量 X ; 由于一个或更多个负得分残基比对的累积, 累计得分趋于零或零以下 ; 或者到达每 条序列的末端。BLAST 算法参数 W、 T 和 X 决定比对的灵敏度和速度。BLASTN 程序 ( 对于 核苷酸序列而言 ) 使用字长 (W)11、 期望 (E)10、 M = 5、 N = -4 以及两条链的比较作为缺省 值。对于氨基酸序列, BLASTP 程序使用字长 (W)3、 期望 (E)10 以及 BLOSUM62 得分矩阵作为 缺省值 ( 参见 Henikoff 和 Henikoff, 1989, Proc Natl Acad Sci USA 89 : 10915)。
     可获得与 BLAST 相似地作用的其他算法来提供两条序列的同一性百分比。用于比 较的序列的最佳比对可如下进行 : 例如, 通过 Smith 和 Waterman, 1981, Adv.Appl.Math.2 : 482 的局部同源性算法, 通过 Needleman 和 Wunsch, 1970, J.Mol.Biol.48 : 443 的同源性 比对算法, 通过 Pearson 和 Lipman, 1988, Proc.Natl.Acad.Sci.USA 85 : 2444 的相似性搜 索方法, 通过这些算法的计算机实现 (GCG Wisconsin 软件包中的 GAP、 BESTFIT、 FASTA 或 TFASTA) 或通过直观检查 ( 一般参见, Current Protocols inMolecular Biology( 分子 生物学最新实验方案 ), F.M.Ausubel 等编著, Current Protocols, Greene Publishing Associates Inc. 和 John Wiley&Sons, Inc. 之间的合资企业, (1995 年增刊 )(Ausubel))。 另外, 序列比对和序列同一性百分比的确定可以利用 GCG Wisconsin 软件包 (Accelrys, Madison WI) 中的 BESTFIT 或 GAP 程序, 使用提供的缺省参数。
     “参考序列” 是指与改变的序列进行比较的确定序列。参考序列可以是较大序列的 子部分 (subset), 例如, 全长基因或多肽序列的区段。 一般而言, 参考序列长度为至少 20 个 核苷酸或氨基酸残基, 长度至少 25 个残基, 长度至少 50 个残基, 或者核酸或多肽的全长。 因 为两个多核苷酸或多肽可以各自 (1) 包含在这两条序列之间相似的序列 ( 即完整序列的一 部分 ), 以及 (2) 还可以包含在这两条序列之间相异的序列, 所以在两种 ( 或更多种 ) 多核 苷酸或多肽之间的序列比较通常是通过跨比较窗口比较这两种多核苷酸的序列而进行的, 以识别和比较局部区域的序列相似性。
     术语 “参考序列” 不意为限于野生型序列, 且可包括工程化或改变的序列。例如, 在一些实施方案中, “参考序列” 可以是之前工程化或改变的氨基酸序列。例如, “基于 SEQ ID NO : 2、 在位置 X315 具有甘氨酸残基的参考序列” 是指对应 SEQ ID NO : 2、 在 X315 具有甘 氨酸残基的参考序列 ( 而 SEQ ID NO : 2 的未改变形式在 X315 具有谷氨酸 )。
     “比较窗口” 是指至少约 20 个连续核苷酸位置或氨基酸残基的概念性区段, 其中可以将序列与至少 20 个连续核苷酸或氨基酸的参考序列进行比较, 并且其中在比较窗口中 的序列的部分可以包括与参考序列 ( 它不包括添加或缺失 ) 相比 20%或更少的添加或缺失 ( 即空位 ), 以用于这两条序列的最优比对。比较窗口可以比 20 个连续残基长, 并且任选地 包括 30、 40、 50、 100 或更长的窗口。
     “基本同一性 (substantial identity)” 是指具有与参考序列跨至少 20 个残基位 置的比较窗口、 通常至少 30-50 个残基的窗口相比至少 80%序列同一性、 至少 85%序列同 一性、 至少 89%序列同一性、 至少 95%序列同一性、 甚至至少 99%序列同一性的多核苷酸 或多肽序列, 其中序列同一性百分比是通过跨比较窗口比较参考序列与包括参考序列的总 计 20%或更少的缺失或添加的序列而计算的。在应用于多肽的特定实施方案中, 术语 “基 本同一性” 表示两条多肽序列当通过诸如程序 GAP 或 BESTFIT 使用缺省空位权重进行最优 比对时共有至少 80%的序列同一性, 优选至少 89%序列同一性, 至少 95%序列同一性或更 大 ( 例如, 99%序列同一性 )。优选地, 不相同的残基位置差别在于保守的氨基酸取代。
     “对应于” 、 “关于” 或 “相对于” 当用在给定氨基酸或多核苷酸序列的编号上下文中 时, 是指在该给定氨基酸或多核苷酸序列与指定的参考序列进行比较时该参考序列的残基 编号。 换言之, 给定聚合物的残基号码或残基位置是根据参考序列指定的, 而不是给定氨基 酸或多核苷酸序列内的残基的实际数字位置指定的。例如, 可以将给定的氨基酸序列诸如 工程化酮还原酶的氨基酸序列与参考序列进行比对, 这是通过引入空位以优化这两条序列 之间的残基匹配而实现的。 在这些情况下, 尽管存在空位, 对给定氨基酸或多核苷酸序列中 的残基进行编号是根据与其进行比对的参考序列做出的。
     “来源自” 如本文中在工程化的酶的上下文中所用, 标明所述工程化所基于的起始 酶和 / 或编码这种酶的基因。例如, 通过人工地使编码 SEQ IDNO : 2 的野生型酮还原酶的多 核苷酸突变经过多代而获得具有变异多肽序列 SEQ ID NO : 6 的工程化的酮还原酶。因此, 该工程化的酮还原酶 “来源自” SEQ ID NO : 2 的野生型酮还原酶。
     “立体选择性” 或 “立体特异性” 是指在化学反应或酶促反应中一种立体异构体比 另一种立体异构体优先形成。立体选择性可以是部分的, 其中一种立体异构体的形成优于 另一种, 或者立体选择性可以是完全的, 其中只形成一种立体异构体。 当立体异构体是对映 体时, 立体选择性被称为对映体选择性, 即一种对映体在两种对映体之和中的分数 ( 通常 被报告为百分比 )。它在本领域中通常可选地被报告为 ( 通常为百分比 ) 根据式 [ 主要对 映体一次要对映体 ]/[ 主要对映体 + 次要对映体 ] 从其计算出的对映体过量 (e.e)。当立 体异构体是非对映体时, 有时立体选择性被称为非对映体选择性, 即一种非对映体在两种 非对映体的混合物之中的分数 ( 通常被报告为百分比 ), 通常被可选地报告为非对映体过 量 (d.e.)。对映体过量和非对映体过量是立体异构体过量的类型。
     本文使用的 “高立体选择性” 是指能够将底物转化或还原为其对应的具有至少约 99%立体异构体过量的产物 ( 如化合物 (1) 为化合物 (2)) 的酮还原酶多肽。
     “改进的酶特性” 是指与参考酶表现的特性相比, 为了特定目的使得更好或更期望 的任何酶特性。对于本文所述的工程化酮还原酶多肽而言, 这种比较一般是对野生型酮还 原酶作出的, 但是在一些实施方案中, 参考酮还原酶可以是另一种改进的工程化酮还原酶。 期望改进的酶特性包括但不限于酶活性 ( 它可以按照在一段时间内底物转化百分比来表 示 )、 热稳定性、 pH 稳定性或活性概况、 辅因子需求、 对抑制剂 ( 例如, 产物抑制 ) 的不应性、立体特异性和立体选择性 ( 包括对映体选择性 )。
     “提高的酶活性” 或 “提高的活性” 或 “提高的转化率” 是指与参考酶相比, 可以由比 活性 ( 例如, 产生的产物 / 时间 / 重量蛋白 ) 的提高或者由底物转化为产物的转化率 ( 例 如, 使用指定量的转胺酶在指定时间段内将起始量的底物转化为产物的百分比 ) 的提高表 示的工程化酶的改进特性。确定酶活性和转化率的示例性方法被提供在实施例中。可以影 响与酶活性相关的任何特性, 包括经典的酶特性 Km、 Vmax 或 kcat, 它们的改变能够导致提高的 酶活性。 酶活性的改进可以是从比对应的野生型酮还原酶的酶活性改进约 100%, 到比天然 存在的酮还原酶或从其获取酮还原酶多肽的另一种工程化酮还原酶的酶活性改进 200%、 500%、 1000%或更大。在具体的实施方案中, 工程化酮还原酶展现出在比母体野生型或其 他参考酮还原酶的酶活性改进 100%至 200%、 200%至 1000%或大于 1500%的范围内的改 进的酶活性。本领域技术人员理解, 任何酶的活性都受扩散限制以致催化转换速率不能超 过包括任何所需的辅因子在内的底物的扩散速率。 扩散限制或 kcat/Km 的理论最大值一般是 8 9 -1 -1 约 10 到 10 (M s )。因此, 酮还原酶的酶活性上的任何改进将具有与酮还原酶所作用的底 物的扩散速率相关的上限。 酮还原酶活性可以通过用于测量酮还原酶的标准测定中的任何 一种来测量, 例如实施例 7 描述的测定。使用本文进一步详述的限定的酶制品、 在设置条件 下的确定的测定以及一种或多种确定的底物, 进行酶活性或转化率的比较。 一般而言, 在比 较裂解物时, 确定所测定的细胞数目和 / 或蛋白的量, 并使用相同的表达系统和相同的宿 主细胞以使得由该宿主细胞所产生并存在于裂解物中的酶量的改变最小化。
     “转化” 是指底物被酶促转化为对应的产物。 “转化百分比” 是指在指定条件下在一 段时间内被转化为产物的底物的百分比。因此, 例如, 酮还原酶多肽的 “活性” 或 “转化率” 可以表示为底物到产物的 “转化百分比” 。
     “热稳定的” 或 “热稳定” 可互换使用, 是指与未处理的酶相比, 在暴露于一组温度 条件 ( 例如 40-80℃ ) 一段时间 ( 例如 0.5-24 小时 ) 时耐受失活, 从而在暴露于高温后保 持某一水平残留活性 ( 例如多于 60%到 80% ) 的多肽。
     “溶剂稳定的” 是指与未处理的酶相比, 在暴露于不同浓度 ( 例如, 5-99% ) 的溶 剂 ( 如, 异丙醇、 二甲基亚砜、 四氢呋喃、 2- 甲基四氢呋喃、 丙酮、 甲苯、 乙酸丁酯、 甲基叔丁 基醚、 乙腈等等 ) 一段时间 ( 例如 0.5-24 小时 ) 后保持相似活性 ( 多于例如 60%到 80% ) 的多肽。
     “pH 稳定的” 是指与未处理的酶相比, 在暴露于高 pH 或低 pH( 例如 8 至 12 或 4.5-6) 一段时间 ( 例如 0.5-24 小时 ) 后保持相似活性 ( 例如多于 60%到 80% ) 的多肽。
     “热稳定且溶剂稳定的” 是指既热稳定又溶剂稳定的多肽。
     在本文公开的多肽上下文中使用的 “氨基酸” 或 “残基” 是指在序列位置的具体单 体 ( 如, E315 表示 SEQ ID NO : 2 位置 315 的 “氨基酸” 或 “残基” 是谷氨酸 )。
     “亲 水 性 氨 基 酸 或 残 基”是 指 根 据 Eisenberg 等 人, 1984, J.Mol.Biol.179 : 125-142 的标准化统一疏水性量表具有展现出小于零的疏水性的侧链的氨基酸或残基。 遗 传 编 码 的 亲 水 性 氨 基 酸 包 括 L-Thr(T)、 L-Ser(S)、 L-His(H)、 L-Glu(E)、 L-Asn(N)、 L-Gln(Q)、 L-Asp(D)、 L-Lys(K) 和 L-Arg(R)。
     “酸性氨基酸或残基” 是指当氨基酸被包括在肽或多肽中时具有展现出小于约 6 的 pK 值的侧链的亲水性氨基酸或残基。酸性氨基酸由于氢离子的缺失在生理 pH 下通常具有带负电的侧链。遗传编码的酸性氨基酸包括 L-Glu(E) 和 L-Asp(D)。
     “碱性氨基酸或残基” 是指当氨基酸被包括在肽或多肽中时具有展现出大于约 6 的 pKa 值的侧链的亲水性氨基酸或残基。 碱性氨基酸由于与水合氢离子缔合在生理 pH 下通常 具有带正电的侧链。遗传编码的碱性氨基酸包括 L-Arg(R) 和 L-Lys(K)。
     “极性氨基酸或残基” 是指所具有的侧链在生理 pH 下不带电荷但具有如下至少 一个键的亲水性氨基酸或残基 : 在所述至少一个键中由两个原子共有的电子对被这两个 原子之一更紧密地持有。遗传编码的极性氨基酸包括 L-Asn(N)、 L-Gln(Q)、 L-Ser(S) 和 L-Thr(T)。
     “疏 水 性 氨 基 酸 或 残 基”是 指 根 据 Eisenberg 等 人, 1984, J.Mol.Biol.179 : 125-142 的标准化统一疏水性量表具有展现出大于零的疏水性的侧链的氨基酸或残基。 遗 传 编 码 的 疏 水 性 氨 基 酸 包 括 L-Pro(P)、 L-Ile(I)、 L-Phe(F)、 L-Val(V)、 L-Leu(L)、 L-Trp(W)、 L-Met(M)、 L-Ala(A) 和 L-Tyr(Y)。
     “芳香族氨基酸或残基” 是指具有包括至少一个芳环或杂芳环的侧链的亲水性或 疏水性氨基酸或残基。遗传编码的芳香族氨基酸包括 L-Phe(F)、 L-Tyr(Y) 和 L-Trp(W)。 尽管 L-His(H) 由于其杂芳香族氮原子的 pKa 有时被分类为碱性残基, 或者因为其侧链包 括杂芳环而被分类为芳香族残基, 但本文的组氨酸被分类为亲水性残基或 “受限制的残基 (constrainedresidue)” ( 见下面 )。
     “受限制的氨基酸或残基” 是指具有受限制的几何形状的氨基酸或残基。本文中, 受限制的残基包括 L-pro(P) 和 L-his(H)。 组氨酸具有受限制的几何形状, 因为它具有相对 小的咪唑环。脯氨酸具有受限制的几何形状, 因为它也具有五元环。
     “非极性氨基酸或残基” 是指所具有的侧链在生理 pH 下不带电荷并且具有如下键 的疏水性氨基酸或残基 : 在所述键中由两个原子共有的电子对一般被这两个原子中每一个 同等持有 ( 即侧链是没有极性的 )。遗传编码的非极性氨基酸包括 L-Gly(G)、 L-Leu(L)、 L-Val(V)、 L-Ile(I)、 L-Met(M) 和 L-Ala(A)。
     “脂肪族氨基酸或残基” 是指具有脂肪烃侧链的疏水性氨基酸或残基。遗传编码的 脂肪族氨基酸包括 L-Ala(A)、 L-Val(V)、 L-Leu(L) 和 L-Ile(I)。
     “半胱氨酸” 。氨基酸 L-Cys(C) 是独特的, 因为它能够与其他 L-Cys(C) 氨基酸或 其他包含硫烃基或硫氢基的氨基酸形成二硫键桥。 “半胱氨酸样残基” 包括半胱氨酸和其他 包含可用于形成二硫键桥的硫氢基部分的氨基酸。L-Cys(C)( 和其他具有包含 -SH 的侧链 的氨基酸 ) 以游离 -SH 还原形式或氧化的二硫键桥形式存在于肽中的能力影响 L-Cys(C) 赋予肽净疏水性还是净亲水性。尽管根据 Eisenberg 的标准化统一量表 (Eisenberg 等人, 1984, 上述 )L-Cys(C) 展现出 0.29 的疏水性, 但应理解出于本公开内容的目的将 L-Cys(C) 归为它自己一组。
     “小氨基酸或残基” 是指具有由总计三个或更少的碳和 / 或杂原子 ( 不包括 α- 碳 和氢 ) 组成的侧链的氨基酸或残基。根据以上定义可以将小氨基酸或残基进一步归类 为脂肪族、 非极性、 极性或酸性的小氨基酸或残基。遗传编码的小氨基酸包括 L-Ala(A)、 L-Val(V)、 L-Cys(C)、 L-Asn(N)、 L-Ser(S)、 L-Thr(T) 和 L-Asp(D)。
     “包含羟基的氨基酸或残基” 是指包含羟基 (-OH) 部分的氨基酸。遗传编码的包含 羟基的氨基酸包括 L-Ser(S)、 L-Thr(T) 和 L-Tyr(Y)。
     “氨基酸差异” 或 “残基差异” 是指与参考序列相比, 在多肽序列指定位置的残基改变。例如, 参考序列在位置 I199 具有异亮氨酸时, 位置 I199 的残基差异是指在位置 199 的残基改变为异亮氨酸以外的任何残基。如本文公开的, 工程化的酮还原酶可包括相对参 考序列的一种或多种残基差异, 其中多个残基差异通常由相对参考序列进行改变的指定位 置的列表表示 ( 如, “与 SEQ ID NO : 2 相比在以下残基位置的一种或多种残基差异 : 2、 28、 34、 47、 50、 81、 90、 91、 94、 112、 117、 143、 144、 145、 150、 152、 153、 158、 190、 198、 199、 200、 204、 217、 225、 231、 232、 233、 244、 260 和 261” )。
     “保守的” 氨基酸取代 ( 或突变 ) 是指以具有相似侧链的残基取代残基, 并因此通 常包括用相同或相似定义的氨基酸类别中的氨基酸取代多肽中的氨基酸。然而, 如本文所 用, 在一些实施方案中, 如果保守的突变可以是从脂肪族残基到脂肪族残基、 非极性残基到 非极性残基、 极性残基到极性残基、 酸性残基到酸性残基、 碱性残基到碱性残基、 芳香族残 基到芳香族残基、 或受限制的残基到受限制的残基的取代, 则保守的突变不包括从亲水性 残基到亲水性残基、 疏水性残基到疏水性残基、 包含羟基的残基到包含羟基的残基、 或小残 基到小残基的取代。此外, 如本文所用, A、 V、 L 或 I 可以被保守突变为另一种脂肪族残基或 另一种非极性残基。下表 1 显示了示例性保守取代。
     表1: 保守取代“非保守取代” 是指用具有显著差别的侧链特性的氨基酸取代或突变多肽中的氨 基酸。非保守取代可以利用以上列出的限定组之间而不是它们之内的氨基酸。在一个实施 方案中, 非保守突变影响 : (a) 取代区域中的肽骨架的结构 ( 例如, 脯氨酸取代甘氨酸 ), (b) 电荷或疏水性, 或 (c) 侧链体积。
     “缺失” 是指通过从参考多肽去除一个或更多个氨基酸而对多肽进行的修饰。缺失 可以包括去除 1 个或更多个氨基酸、 2 个或更多个氨基酸、 3 个或更多个氨基酸、 4 个或更多 个氨基酸、 5 个或更多个氨基酸、 6 个或更多个氨基酸、 7 个或更多个氨基酸、 8 个或更多个氨 基酸、 10 个或更多个氨基酸、 12 个或更多个氨基酸、 15 个或更多个氨基酸、 或者 20 个或更多 个氨基酸、 高达构成参考酶的氨基酸总数的 10%、 或高达氨基酸总数的 20%, 同时保留酶 活性和 / 或保留工程化酮还原酶的改进特性。缺失可以针对多肽的内部和 / 或端部。在多
     个实施方案中, 缺失可以包括连续的区段或者可以是不连续的。
     “插入” 是指通过从参考多肽添加一个或更多个氨基酸而对多肽进行的修饰。在一 些实施方案中, 改进的工程化酮还原酶包括一个或更多个氨基酸插入天然存在的酮还原酶 多肽, 以及一个或更多个氨基酸插入其他工程化的酮还原酶多肽。插入可以在多肽的内部 或者到羧基端或氨基端。如本文所用的插入包括本领域已知的融合蛋白。插入可以是氨基 酸的连续区段, 或者被天然存在的多肽中的一个或更多个氨基酸分隔。
     如本文所用的 “片段” 是指如下多肽 : 所述多肽具有氨基端和 / 或羧基端缺失, 但 其中剩余的氨基酸序列与该序列中的对应位置相同。片段可以为至少 14 个氨基酸长、 至 少 20 个氨基酸长, 至少 50 个氨基酸长或更长, 以及高达全长酮还原酶多肽的 70%、 80%、 90%、 95%、 98%和 99%。
     “分离的多肽” 是指如下多肽 : 所述多肽基本上与其天然伴随的其他污染物例如蛋 白、 脂质和多核苷酸分离。该术语包括已自其天然存在环境或表达系统 ( 例如, 宿主细胞或 体外合成 ) 中移出或纯化的多肽。改进的酮还原酶可以存在于细胞内、 存在于细胞培养基 中或者以各种形式制备, 诸如裂解物或分离的制备物。像这样, 在一些实施方案中, 改进的 酮还原酶可以是分离的多肽。
     “基本上纯的多肽” 是指如下组合物 : 在所述组合物中多肽物类是存在的优势物类 ( 即, 在摩尔基础或重量基础上它比该组合物中的任何其他个体大分子物类更丰富 ), 并且 当目标物类构成存在的大分子物类的按摩尔或重量%计至少约 50%时一般是基本上纯化 的组合物。一般而言, 基本上纯的酮还原酶组合物将构成该组合物中存在的所有大分子物 类的按摩尔或重量%计约 60%或更多、 约 70%或更多、 约 80%或更多、 约 90%或更多、 约 95%或更多以及约 98%或更多。 在一些实施方案中, 将目标物类纯化至基本的均一性 ( 即, 通过常规检测方法不能在组合物中检测出污染物类 ), 其中组合物基本上由单一大分子物 类组成。溶剂物类、 小分子 ( < 500 道尔顿 )、 以及元素离子物类不被认为是大分子物类。 在一些实施方案中, 分离的改进酮还原酶多肽是基本上纯的多肽组合物。
     如本文所用的 “严格杂交” 是指如下条件 : 在所述条件下核酸杂交体是稳定的。如 本领域技术人员已知的, 杂交体的稳定性反映在杂交体的解链温度 (Tm) 上。一般而言, 杂 交体的稳定性随离子强度、 温度、 G/C 含量和离液剂的存在而变化。多核苷酸的 Tm 值可以 使用预测解链温度的已知方法计算 ( 参见例如, Baldino 等人, Methods Enzymology 168 : 761-777 ; Bolton 等人, 1962, Proc.Natl.Acad.Sci.USA 48 : 1390 ; Bresslauer 等人, 1986, Proc.Natl.Acad.Sci USA 83 : 8893-8897 ; Freier 等 人, 1986, Proc.Natl.Acad.SciUSA 83 : 9373-9377 ; Kierzek 等人, Biochemistry 25 : 7840-7846 ; Rychlik 等人, 1990, Nucleic Acids Res 18 : 6409-6412( 勘 误, 1991, Nucleic Acids Res19 : 698) ; Sambrook 等 人, 上 述); Suggs 等人, 1981, 在 DevelopmentalBiology Using Purified Genes( 使用纯化基因 的发育生物学 )(Brown 等人, 编 ), 第 683-693 页, Academic Press 中 ; 以及 Wetmur, 1991, Crit Rev BiochemMol Biol 26 : 227-259。所有的出版物均通过引用并入本文 )。在一些 实施方案中, 多核苷酸编码本文公开的多肽并且在限定条件下诸如在中度严格或高度严格 条件下与编码本公开内容的工程化酮还原酶的序列的互补序列杂交。
     “杂交严格度” 涉及核酸的这种洗涤条件。一般而言, 在较低严格度条件下进行杂 交反应, 接着是具有不同但更高的严格度的洗涤。术语 “中度严格杂交” 是指允许靶 DNA结合以下互补核酸的条件, 所述互补核酸与该靶 DNA 具有约 60 %同一性、 优选约 75 %同 一性、 约 85 %同一性 ; 与靶多核苷酸具有大于约 90 %同一性。示例性中度严格条件是等 同于在 42 ℃于 50 %甲酰胺、 5×Denhart 溶液、 5×SSPE、 0.2 % SDS 中杂交, 接着在 42 ℃于 0.2×SSPE、 0.2% SDS 中洗涤的条件。 “高严格度杂交” 一般是指如下条件 : 与对限定的多 核苷酸序列在溶液条件下确定的热解链温度 Tm 相差约 10℃或更小。在一些实施方案中, 高 严格度条件是指允许仅那些在 65℃于 0.018M NaCl 中形成稳定杂交体的核酸序列杂交的 条件 ( 即, 如果杂交体在 65℃于 0.018M NaCl 中不稳定, 它在本文考虑的高严格度条件下将 是不稳定的 )。可以例如通过在等同于在 42℃于 50%甲酰胺、 5×Denhart 溶液、 5×SSPE、 0.2% SDS 的条件中杂交, 接着在 65℃于 0.1×SSPE 和 0.1% SDS 中洗涤, 而提供高严格度 条件。其他高严格度杂交条件以及中度严格条件描述于以上引用的参考文献中。
     “重组的” 在提及例如细胞、 核酸或多肽而被使用时, 是指以本来在自然中不存在 的方式被修饰, 或者与自然中存在的物质相同但是是从合成的物质和 / 或通过使用重组技 术的操作而产生或衍生出来的物质或对应于该物质的天然或天生形式的物质。 非限制性的 实例包括但不限于这样的重组细胞, 其表达在天然 ( 非重组 ) 形式的细胞中未被发现的基 因或者表达本来以不同水平表达的天然基因。
     “异源” 多核苷酸是指通过实验技术引入宿主细胞的任何多核苷酸, 并且包括从宿 主细胞中移出、 经历实验室操作、 然后再引入宿主细胞中的多核苷酸。
     “密码子优化的” 是指编码蛋白质的多核苷酸的密码子变为特定生物体中优先使 用的那些密码子, 以致所编码的蛋白被有效表达在感兴趣的生物体中。尽管遗传密码由于 大多数氨基酸被称作 “同义密码子” 或 “同义” 密码子的几个密码子代表而为简并的, 但众 所周知具体生物体的密码子使用是非随机的且偏向特定的密码子三联体。就给定基因、 具 有共同功能或祖先起源的基因、 高表达蛋白相对于低拷贝数蛋白以及生物体基因组的聚集 蛋白编码区而言, 这种密码子使用偏向可能更高。 在一些实施方案中, 可以对编码酮还原酶 的多核苷酸进行密码子优化, 以用于从为表达所选的宿主生物体中优化生产。
     “偏爱密码子、 优化的密码子、 高密码子使用偏向的密码子” 可互换地指在蛋白编 码区中以高于编码同一氨基酸的其他密码子的频率被使用的密码子。 偏爱密码子可以根据 在单基因、 一组具有共同功能或起源的基因、 高表达基因中的密码子使用, 在整个生物体的 聚集蛋白编码区中的密码子频率, 在相关生物体中的聚集蛋白编码区中的密码子频率或它 们的组合来确定。频率随基因表达水平而提高的密码子通常是用于表达的优化密码子。多 种方法已知用于确定具体生物体中的密码子频率 ( 例如, 密码子使用, 相对同义的密码子 使用 ) 和密码子偏好, 包括多变量分析, 例如使用聚类分析或对应分析, 以及用于确定基因 中使用的密码子的有效数目 ( 参见 GCG CodonPreference, 遗传学计算机工作组 Wisconsin 软件包 (GeneticsComputer Group Wisconsin Package) ; Codon W, John Peden, 诺丁汉大 学; McInerney, J.O, 1998, Bioinformatics 14 : 372-73 ; Stenico 等人, 1994, NucleicAcids Res.222437-46 ; Wright, F., 1990, Gene 87 : 23-29)。不断增加的生物名单的密码子使用表 是可用的 ( 参见例如, Wada 等人, 1992, Nucleic Acids Res.20 : 2111-2118 ; Nakamura 等 人, 2000, Nucl.Acids Res.28 : 292 ; Duret 等 人, 上述 ; Henaut 和 Danchin, “Escherichia coli and Salmonella( 大肠杆菌和沙门氏菌 ), ” 1996, Neidhardt 等人编, ASM Press, Washington D.C., 第 2047-2066 页 )。用于获得密码子使用的数据资源可依赖于能够编码蛋白的任何可用的核苷酸序列。这些数据集包括实际上已知编码表达的蛋白的核酸序 列 ( 例如, 完整的蛋白编码序列 -CDS)、 表达序列标签 (ESTS)、 或基因组序列的预测编码区 ( 参见, 例如 Mount, D., Bioinformatics : Sequence andGenome Analysis( 生物信息学 : 序 列和基因组分析 ), 第 8 章, Cold SpringHarbor Laboratory Press, Cold Spring Harbor, N.Y., 2001 ; Uberbacher, E.C., 1996, Methods Enzymol.266 : 259-281 ; Tiwari 等人, 1997, Comput.Appl.Biosci.13 : 263-270)。
     “控制序列” 在本文定义为包括对本公开内容的多肽的表达必要或有利的所有组 分。每个控制序列可能对编码多肽的核酸序列是天然的或外来的。这些控制序列包括但不 限于前导序列、 聚腺苷酸化序列、 前肽序列、 启动子、 信号肽序列和转录终止子。至少, 控制 序列包括启动子以及转录和翻译终止信号。 为了引入特定的限制位点以促进控制序列与编 码多肽的核酸序列的编码区连接, 控制序列可与连接序列一起提供。
     “可操作地连接” 在本文定义为如下一种配置 : 在所述配置中控制序列相对于 DNA 序列的编码序列的位置被适当安放, 以使得控制序列指导多核苷酸和 / 或多肽的表达。
     “启动子序列” 是由宿主细胞识别用于表达编码区的核酸序列。控制序列可以包括 适当的启动子序列。启动子序列包含介导多肽的表达的转录控制序列。启动子可以是在选 择的宿主细胞中显示转录活性的任何核酸序列, 包括突变的、 截短的和杂合的启动子, 并且 可以从编码细胞外多肽或细胞内多肽的、 与该宿主细胞同源或异源的基因中获得。
     术语 “辅因子再生系统” 是指参加将氧化型的辅因子还原 ( 例如 NADP+ 至 NADPH) 的反应的一组反应物。 被酮还原酶催化的酮底物还原所氧化的辅因子被辅因子再生系统再 生为还原型。辅因子再生系统包括化学计量还原剂, 其为还原氢等价物的来源并且能够将 辅因子的氧化型还原。辅因子再生系统还可包括催化剂, 例如催化还原剂对辅因子氧化型 + + 的还原的酶催化剂。用于从 NAD 或 NADP 分别再生 NADH 或 NADPH 的辅因子再生系统是本 领域已知的并且可被用于本文所述的方法。
     5.2. 酮还原酶多肽和其用途
     本公开内容提供为能够立体特异性地还原 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为相应的立体异构醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)) 的酶的工 程化的酮还原酶 (“KRED” ) 多肽, 如以上方案 1 所示 )。在某些实施方案中, 被转化为立体 异构醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇产物 ( 如化合物 (2)) 的 底物 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮 (“底物” ) 在生物催化还原反应中作 为外消旋混合物的部分、 或作为大致上手性纯的化合物、 或作为手性纯的化合物存在。 本公 开内容的工程化的酮还原酶 (“KRED” ) 酶是与从 Novosphingobiumaromaticivorans 获得 的天然存在的野生型 KRED 酶 (SEQ ID NO : 2) 相比具有改进的特性的酶。期望对其改进的 酶特性包括但不限于, 酶促活性、 热稳定性、 pH 活性谱、 辅因子需求、 对抑制剂 ( 如, 产物抑 制 ) 的不应性、 立体特异性、 立体选择性和溶剂稳定性。改进可以是关于单独酶特性, 诸如 酶促活性, 或关于不同酶特性的组合, 诸如酶促活性和立体特异性。
     如 上 所 述, 具 有 改 进 的 酶 特 性 的 工 程 化 的 酮 还 原 酶 是 关 于 Novosphingobium aromaticivorans(SEQ ID NO : 2) 描述的。这些酮还原酶中的氨基酸残基位置从起始甲硫 氨酸 (M) 残基开始确定 ( 即, M 代表残基位置 1), 尽管本领域技术人员将理解, 这一起始的甲硫氨酸残基可能被诸如宿主细胞或体外翻译系统中的生物加工机制去除以产生缺少起 始甲硫氨酸残基的成熟蛋白。 氨基酸序列中存在特定氨基酸或氨基酸改变的氨基酸残基位 置在本文有时描述为术语 “Xn” 或 “残基 n” , 其中 n 是指残基位置。取代突变是序列中对应 于参考序列 ( 例如天然存在的酮还原酶 SEQ IDNO : 2) 的残基的残基被不同氨基酸残基进行 氨基酸残基替换, 如下标为 “X( 数字 )Z” , 其中 X 是见于 N.aromaticivorans 野生型酶 (SEQ ID NO : 2) 位置 “数字” 的氨基酸, Z 是见于 “突变体” 酶的位置 “数字” 的氨基酸, “突变体” 酶即其中氨基酸 Z 已经取代氨基酸 X 的酶。在这种情形, 单字母代码用于代表氨基酸 ; 如 G145A 是指其中 SEQ ID NO : 2 位置 145 的 “野生型” 氨基酸甘氨酸已被氨基酸丙氨酸替换的 情形。
     在本文, 突变有时被描述为一个残基突变 “为一种” 类型的氨基酸。例如, SEQ ID NO : 2 的残基 199( 异亮氨酸 (I)) 可被突变 “为一种” 极性残基。使用短语 “为一种” 不排除 从一个类别的一种氨基酸突变为同一类别的另一种氨基酸。例如, 残基 199 可从异亮氨酸 被突变 “为” 天冬酰胺。
     编 码 Novosphingobium aromaticivorans 的 天 然 存 在 的 酮 还 原 酶 ( 还 称 为 “ADH”或 “醇 脱 氢 酶” ) 的 多 核 苷 酸 序 列 可 从 GenBank 登 录 号 CP000677.1 中 提 供 的 Novosphingobium aromaticivorans DSM 12444 质粒 pNL2( 序列 ) 的碱基 160464 至 161243 完整序列的 780bp 区获得。这一多核苷酸编码的相应的多肽序列由 GenBank 登录号 gi|14 5322460|gb|ABP64403.1|[145322460 提供。由于起始密码子选择不同, 这一多肽比 SEQ ID NO : 2 短四个氨基酸 ( 即, GenBank 多肽序列开始于对应于 SEQ ID NO : 2 位置 5 的 Met)。本 公开内容预期包括其中多肽是 SEQ IDNO : 2 的片段的酮还原酶多肽, 其中该片段氨基酸序 列开始于 SEQ ID NO : 2 位置 5 的 Met, 结束于 SEQ ID NO : 2 的位置 263。因此, 在本文公开 的工程化的酮还原酶多肽的任何实施方案中, 其中多肽包括相对于 SEQ IDNO : 2 的氨基酸 差异, 本公开内容还提供工程化的酮还原酶多肽的片段, 其中该片段氨基酸序列开始于 SEQ ID NO : 2 位置 5 的 Met, 结束于 SEQ IDNO : 2 的位置 263, 氨基酸差异是在如同相应的全长工 程化的多肽相对于 SEQ ID NO : 2 的相同氨基酸处。
     在一些实施方案中, 本文的酮还原酶多肽可具有多个相对于参考序列 (SEQ ID NO : 2 的 Novosphingobium aromaticivorans) 的修饰, 其中修饰导致改进的酮还原酶特性。 在这种实施方案中, 对氨基酸序列的修饰的数目可包括一个或多个氨基酸、 2 或多个氨基 酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多个氨基酸、 8 或多个氨基酸、 9 或多个氨基酸、 10 或多个氨基酸、 15 或多个氨基酸、 或 20 或多个氨基酸、 达参考酶序列氨基 酸总数的 10%、 达氨基酸总数的 10%、 达氨基酸总数的 20%、 或达氨基酸总数的 30%。 在一 些实施方案中, 产生改进的酮还原酶特性的对天然存在的多肽或工程化的多肽的修饰数目 可包括参考序列的从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个修饰。 修饰可包括插入、 缺失、 取 代、 或其组合。
     在一些实施方案中, 修饰包括对参考序列, 即 SEQ ID NO : 2 的 Novosphingobium aromaticivorans KRED 序列的氨基酸取代。 可产生改进的酮还原酶特性的取代可以是在一 个或多个氨基酸、 2 或多个氨基酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多 个氨基酸、 7 或多个氨基酸、 8 或多个氨基酸、 9 或多个氨基酸、 10 或多个氨基酸、 15 或多个氨基酸、 或 20 或多个氨基酸、 达参考酶序列氨基酸总数的 10%、 达氨基酸总数的 15%、 达氨基 酸总数的 20%、 或达氨基酸总数的 30%。在一些实施方案中, 产生改进的酮还原酶特性的 对天然存在的多肽或工程化的多肽的取代数目可包括参考序列的从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个氨基酸取代。
     在一些实施方案中, 酮还原酶多肽的改进的特性是关于其立体特异性的增加。例 如, 在一些实施方案中, 改进的特性是酶区分 N- 保护的 3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮的 两种对映体 ( 如, 按照式 (IV) 的 (3S) 对映体和 (3R) 对映体的外消旋混合物 ), 并转化大致 上仅 (3S) 对映体为相应的立体异构式 (II) 产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 醇 ( 如化合物 (2)) 的能力, 如例如以下方案 5 所示。
     方案 5
     酮还原酶多肽的立体特异性的这一改进可表示为酮还原酶反应的 “E 值” 的改进。
     在一些实施方案中, 酮还原酶多肽的改进的特性是关于其转化或还原更大百分比 的底物为产物的能力增加。在一些实施方案中, 酮还原酶多肽的改进的特性是关于其转化 底物为产物的比率增加。酶促活性的这一改进可表示为与野生型或其他参考序列相比, 使 用较少的改进的多肽还原或转化相同量的产物的能力。在一些实施方案中, 酮还原酶多肽 的改进的特性是关于其稳定性或热稳定性。在一些实施方案中, 酮还原酶多肽具有多于一 种改进的特性, 诸如立体特异性、 酶活性和热稳定性的组合。
     在 一 些 实 施 方 案 中, 酮 还 原 酶 多 肽 能 够 立 体 特 异 性 地 转 化 N- 保 护 的 3- 氨 基 -1- 氯 -4- 苯基丁 -2- 酮的 (3S)- 对映体以获得非对映体过量百分比为至少约 25 %、 50 %、 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %、 99 %、 99.9%或 99.99%的相应的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇产物。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 90%非对 映体过量的产物。具有这种立体特异性的示例性的多肽包括但不限于, 包含对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 95%非对 映体过量的产物。具有这种立体特异性的示例性的多肽包括但不限于, 包含对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 97%非对 映体过量的产物。具有这种立体特异性的示例性的多肽包括但不限于, 包含对应于 SEQ ID
     NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 98%非对 映体过量的产物。具有这种高立体特异性的示例性的酮还原酶多肽包括但不限于, 包含对 应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为至少约 98 %、 99%、 99.9%或 99.99%非对映体过量百分比的产物, 其中多肽包括对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是等价或改进的。能够以与野生型等价或比 野生型改进的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是改进的。能够以比野生型改进至少约 1.2 倍的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是改进的。能够以比野生型改进至少约 1.5 倍的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 6、 18、 22、 30、 38、 40、 50、 52、 54 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是改进的。能够以比野生型改进至少约 3 倍 的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 本公开内容的工程化的酮还原酶多肽能够转化底物为至少约 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %、 99 %、 99.9 %、 99.99 %或更多非对映 体过量的产物。具有这一能力的示例性的工程化的酮还原酶多肽包括但不限于, 包括对应 于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的序列的多肽。
     在一些实施方案中, 本公开内容的工程化的酮还原酶多肽能够以改进的转化率还 原底物式 (I) 化合物 ( 如, 化合物 (1)) 为产物式 (II) 化合物 ( 如, 化合物 (2))。 例如, 在一 些实施方案中, 本公开内容的工程化的酮还原酶多肽能够在约 24 小时或更短时间内转化 至少约 70%、 71%、 72%、 73 %、 74 %、 75%、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %、 99%或更多底物为产物。在一些实施方案中, 工程化的酮还原酶多肽能够在少于约 24 小 时、 少于约 20 小时、 少于约 16 小时、 少于约 12 小时、 和甚至少于约 10 小时内转化至少约90%底物为产物。具有这一能力的示例性的工程化的酮还原酶多肽包括但不限于, 包括对 应于 SEQ ID NO : 6、 50、 52 和 56 的序列的多肽。
     在一些实施方案中, 当反应混合物包括相对于底物的量的重量约 1%或更少 ( 但 多于 0% )、 0.5%或更少 ( 但多于 0% )、 0.2%或更少 ( 但多于 0% )、 或甚至 0.1%或更少 ( 但多于 0% ) 重量比的酮还原酶多肽时, 本公开内容的工程化的酮还原酶多肽能够在约 24 小时或更短时间内转化至少约 70%、 80%、 90%、 95%、 99%或更多底物式 (I) 化合物 ( 如, 化合物 (1)) 为产物式 (II) 化合物 ( 如, 化合物 (2))。具有这一能力的示例性的多肽包括 但不限于, 包括对应于 SEQ ID NO : 6、 50、 52 和 56 的序列的多肽。
     在一些实施方案中, 当反应混合物包括酮还原酶多肽负荷为约 10g/L 或更少、 5g/ L 或更少、 2g/L 或更少、 1g/L 或更少和反应混合物中底物的初始浓度 ( 即, 底物负荷 ) 为至 少约 25g/L、 至少约 50g/L、 至少约 75g/L、 至少约 100g/L、 至少约 125g/L、 至少约 150g/L、 至 少约 175g/L、 或至少约 200g/L 时, 本公开内容的工程化的酮还原酶多肽能够在约 24 小时或 更短时间内转化至少约 70%、 80%、 90%、 95%、 99%或更多底物式 (I) 化合物 ( 如, 化合物 (1)) 为产物式 (II) 化合物 ( 如, 化合物 (2))。具有这一能力的示例性的多肽包括但不限 于, 包括对应于 SEQ ID NO : 6、 50、 52 和 56 的序列的多肽。
     在一些实施方案中, 酮还原酶多肽具有比野生型改进的活性和稳定性, 可还原底 物为大于约 98% d.e 的产物。具有这种能力的示例性的多肽包括但不限于 SEQ ID NO : 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56。以下表 2 以序列标识符 (SEQ ID NO) 列出本文公开的工程化的酮还原酶多肽 ( 和编码多核苷酸 ) 连同工程化的多 肽的变异序列相对于其通过定向进化来自的野生型 Novosphingobiumaromaticivorans 酮 还原酶序列的具体残基差异 (SEQ ID NO : 2)( 参见如, Stemmer 等, 1994, Proc Natl Acad Sci USA 91 : 10747-10751)。表 2 的每行列出两个 SEQ ID NO, 其中奇数是指编码偶数提供 的多肽氨基酸序列的核苷酸序列。
     确定每种工程化的酮还原酶多肽相对于野生型酶 SEQ ID NO : 2 活性的活性 ( 野 生型 : 24 小时中~ 30%转化、 3g/L 底物负荷、 5g/L 酶负荷 )。活性确定为随着时间, 化合物 (1) 向化合物 (2) 的转化, 如实施例 7 所述。如表 2 中概括的, 活性的改进如下定量 : “相当 (Control)” 指示与 SEQ ID NO : 2 的 KRED 的活性相比 100%至 120% ; “+” 指示与 SEQ ID NO : 2 的 KRED 相比> 120 %至 150 % ; “++” 指示与 SEQ ID NO : 2 的 KRED 相比> 150 %至 300% ; 且 “+++” 指示与 SEQ ID NO : 2 的 KRED 相比> 300%。
     表2
     工程化的酮还原酶多肽转化仲醇即异丙醇 (IPA) 为其相应产物丙酮的改进的活 性相对于参考多肽 SEQ ID NO : 2 的相同活性确定。相对 IPA 活性利用以下反应条件的检验 确定 : 100μl 10× 稀释的工程化的 KRED 裂解物、 10% IPA(v/v)、 0.5g/L NAD+、 100mM TEA、 pH 7.5。对 IPA 表现相对于 SEQ ID NO : 2 增加至少 2 倍的活性的示例性的工程化的酮还原 酶多肽列在表 3。相对于 WT SEQ ID NO : 2 在 IPA 活性方面的改进倍数如下定量 : “+” 指示 至少 200%至 250%改进 ; “++” 指示< 250%至 500%改进 ; 和 “+++” 指示> 500%至 1000%
     改进 ; 和 “++++” 指示> 1000%至 2000%改进。
     表3
     在一些实施方案中, 本公开内容提供改进的酮还原酶多肽, 其包含与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73 %、 74 %、 75 %、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99%相同的氨基酸序列, 且包括表 2 或表 3 中列出的至少一种氨基酸取代。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 活性的至少约 3 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 2 的相对活性指定为 “+++” ), 其中 改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92%、 93%、 94%、 95%、 96%、 97%、 98%、 或 99%相同的氨基酸序列, 且包括至少一种以下 氨基酸取代或氨基酸取代组 : G145A ; G145A 和 I225V ; P2L、 E50K、 G145A 和 A217T ; G145A 和 I199L。本文公开的这种改进的酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。改进的酮 还原酶在位置 P2、 E50、 G145、 I199、 A217 和 I225 的其他可用的氨基酸序列取代在以下公开。 在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 活性的至少约 1.5 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 2 的相对活性指定为 “++” ), 其中改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、
     91%、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相同的氨基酸序列, 且包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代 : N153G ; N153H ; G190A ; F260Y ; I91R ; K94R ; G145A ; I199N ; 或与 SEQ ID NO : 2 相比的以下氨基酸取代组 : K94R、 G145A 和 I199N。本文公开的这 种改进的酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以是 非保守取代、 保守取代、 或非保守取代和保守取代的组合。 改进的酮还原酶在位置 I91、 K94、 G145、 N153、 G190、 I199 和 F260 的其他可用的氨基酸序列取代在以下公开。 在一些实施方案 中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或 约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 活性的至少约 1.2 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 2 的相对活性指定为 “+” ), 其中 改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相同的氨基酸序列, 且包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代 : I199L ; A150G ; I91L ; I91W ; I91K ; 和 V144T ; 或与 SEQ ID NO : 2 相比的以下氨基酸取代组之一 : G145A ; A47V 和 I199M ; A150G 和 P231F。本文公开的 这种改进的酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以 是非保守取代、 保守取代、 或非保守取代和保守取代的组合。改进的酮还原酶在位置 A47、 I91、 V144、 G145、 A150、 I199 和 P231 的其他可用的氨基酸序列取代在以下公开。 在一些实施 方案中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 转化异丙醇为丙 酮方面活性的至少约 2 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 3 的相对活 性指定为 “+” ), 其中改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99 %相同的氨基酸序 列, 且包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代 : V144C、 G145A、 G145V、 A150S、 M200I、 V204F 或 I225V ; 或与 SEQ ID NO : A150I、 A150W、 G190P、 G190Q、 G190V、 I199G、 I199L、 2 相比的以下氨基酸取代组之一 : G145A、 I199L ; 或 G145A、 I225V。本文公开的这种改进的 酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以是非保守取 代、 保守取代、 或非保守取代和保守取代的组合。改进的酮还原酶在位置 V144、 G145、 A150、 G190、 I199、 M200、 V204 和 I225 的其他可用的氨基酸序列取代在以下公开。 在一些实施方案 中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或 约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。因此, 在一些实施方案中, 本公开内容提供能够以比参考多肽 SEQ IDNO : 2 大至少 2 倍、 2.5 倍、 5 倍、 或 10 倍的活性氧化异丙醇 (IPA) 为丙酮的工程化的酮还原酶多肽, 其中 该多肽包括具有与选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的序列至 少 70%、 80%、 85%、 90%、 95%、 98%、 99%或更大的同一性的氨基酸序列。在一些实施方 案中, 工程化的多肽具有与选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的序列具有至少 95%的同一性的氨基酸序列。在一些实施方案中, 工程化的多肽具有选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的氨基酸序列。
     在一些实施方案中, 能够以比参考多肽 SEQ ID NO : 2 大至少 2 倍、 2.5 倍、 5 倍或 10 倍的活性氧化异丙醇 (IPA) 为丙酮的工程化的酮还原酶多肽具有包括至少一种以下特征 的氨基酸序列 : 对应于 SEQ ID NO : 2 的氨基酸 144 的残基是半胱氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基选自丙氨酸和缬氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 150 的 残基选自异亮氨酸、 丝氨酸和色氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 190 的残基选 自谷氨酰胺、 脯氨酸和缬氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 199 的残基选自甘 氨酸和亮氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 200 的残基是异亮氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 204 的残基是苯丙氨酸 ; 且对应于 SEQ ID NO : 2 的氨基酸 225 的残基是 缬氨酸。在某些实施方案中, 工程化的多肽的氨基酸序列包括与 SEQ ID NO : 2 相比的至少 一种以下取代 : V144C、 A150I、 A150S、 A150W、 G190P、 G190V、 M200I 和 V204F。在某些实施方 案中, 工程化的多肽的氨基酸序列包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代组 : G145A 和 I199L ; G145A 和 I225V。
     在一些实施方案中, 工程化的酮还原酶多肽能够以比参考多肽 SEQ IDNO : 2 大至 少 5 倍的活性氧化异丙醇 (IPA) 为丙酮, 且其中氨基酸序列包括与 SEQ ID NO : 2 相比的至 少一种以下取代 : A150W、 M200I 和 G190V。
     在一些实施方案中, 本公开内容的酮还原酶多肽可具有与参考氨基酸序列相比或 与 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 或 80 任一种相比的一种或多种修 饰 ( 即, 残基差异 )。修饰可包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守 取代、 或非保守取代和保守取代的组合。 在一些实施方案中, 这些酮还原酶多肽可在其他氨 基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。 在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供改进的酮还原酶多肽, 其包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73 %、 74 %、 75 %、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83%、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99%相同的氨基酸序列, 且包括与 SEQ ID NO : 2 相比选自以下组成的组的至少一种氨基酸 取代 : 位置 2 的脯氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的 脂肪族或非极性氨基酸代替 ; 位置 28 的缬氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬 氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替 ; 位置 34 的丙氨酸残基 被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 47 的丙氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性 氨基酸代替 ; 位置 50 的谷氨酸残基被选自赖氨酸和精氨酸的碱性氨基酸代替 ; 位置 81 的 天冬氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 90 的 丝氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极 性氨基酸代替 ; 位置 91 的异亮氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨 酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替, 而在其他方面, 位置 91 的异亮氨酸 残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸, 或选自赖氨酸和精氨酸的碱性氨 基酸代替 ; 位置 94 的赖氨酸残基以保守改变被另一种碱性氨基酸精氨酸代替 ; 位置 112 的 天冬氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位置 117 的甘氨酸 残基被选自天冬氨酸和谷氨酸的酸性氨基酸代替 ; 位置 143 的丝氨酸残基被选自赖氨酸和 精氨酸的碱性氨基酸代替 ; 位置 144 的缬氨酸残基被半胱氨酸或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 145 的甘氨酸残基以保守或非保守改变, 可被选 自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甲硫氨酸的非极性氨基酸或选自丙氨酸、 亮氨酸、 缬 氨酸、 异亮氨酸的脂肪族氨基酸代替 ; 位置 148 的精氨酸残基被选自脯氨酸和组氨酸的受 限制的氨基酸代替 ; 位置 150 的丙氨酸残基以保守或非保守改变被选自亮氨酸、 缬氨酸、 异 亮氨酸、 甘氨酸和甲硫氨酸的另一种非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸, 或选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位 置 152 的苯丙氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非 极性或脂肪族氨基酸代替 ; 位置 153 的天冬酰胺残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮 氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸和脯氨酸的受限制的氨 基酸代替 ; 位置 158 的苏氨酸残基以保守改变被选自天冬酰胺、 谷氨酰胺和丝氨酸的另一 种极性氨基酸代替 ; 位置 190 的甘氨酸残基以保守或非保守改变被选自丙氨酸、 缬氨酸、 亮 氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨酰胺 和丝氨酸的极性氨基酸, 或脯氨酸代替 ; 位置 198 的丝氨酸残基以保守改变被选自天冬酰 胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替 ; 位置 199 的异亮氨酸残基以保守改变被 选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲硫氨酸的另一种脂肪族或非极性氨基酸, 或选自 天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 200 的甲硫氨酸残基以保 守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甘氨酸的另一种非极性氨基酸代替 ; 位 置 204 的缬氨酸以非保守改变被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位 置 217 的丙氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 225 的异亮氨酸残基以保守改变被选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的另一种非极性 氨基酸代替 ; 位置 231 的脯氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代 替; 位置 232 的丙氨酸残基以保守改变被选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲硫氨 酸的另一种非极性氨基酸代替 ; 位置 233 的谷氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸 和苏氨酸的极性氨基酸代替 ; 位置 244 的天冬氨酸残基被选自丙氨酸、 亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲硫氨酸的非极性氨基酸代替 ; 位置 260 的苯丙氨酸残基以保守改变被 选自酪氨酸和色氨酸的另一种芳香族氨基酸代替 ; 且位置 261 的丝氨酸残基以保守改变被 选自天冬酰胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替。以上改进的酮还原酶多肽还 可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸 残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰 的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个 其他氨基酸残基。
     在某些实施方案中, 本公开内容的改进的酮还原酶多肽包括与 SEQ IDNO : 2 至少 约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78%、 79%、 80%、 81%、 82%、 83%、 84%、 85%、 86%、 87%、 88%、 89%、 90%、 91%、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相 同的氨基酸序列, 并包括与 SEQ ID NO : 2 相比选自以下组成的组的至少一种氨基酸取代 : 位置 2 的脯氨酸残基被亮氨酸代替 (P2L) ; 位置 28 的缬氨酸残基被丙氨酸代替 (V28A) ; 位 置 34 的丙氨酸残基被丝氨酸代替 (A34S) ; 位置 47 的丙氨酸残基被缬氨酸代替 (A47V) ; 位置 50 的谷氨酸残基被赖氨酸代替 (E50K) ; 位置 81 的天冬氨酸残基被天冬酰胺代替 (D81N) ; 位置 90 的丝氨酸残基被缬氨酸代替 (S90V) ; 位置 91 的异亮氨酸残基被选自亮氨 酸 (I91L)、 色氨酸 (I91W)、 精氨酸 (I91R) 和赖氨酸 (I91K) 的氨基酸代替 ; 位置 94 的赖氨 酸残基被精氨酸代替 (K94R) ; 位置 112 的天冬氨酸残基被酪氨酸代替 (D112Y) ; 位置 117 的 甘氨酸残基被天冬氨酸代替 (G117D) ; 位置 143 的丝氨酸残基被精氨酸代替 (S143R) ; 位置 144 的缬氨酸残基被选自半胱氨酸 (V144C) 和苏氨酸 (V144T) 的氨基酸代替 ; 位置 145 的甘 氨酸残基被选自丙氨酸 (G145A) 和缬氨酸 (G145V) 的氨基酸代替 ; 位置 148 的精氨酸残基 被组氨酸代替 (R148H) ; 位置 150 的丙氨酸残基被选自甘氨酸 (A150G)、 异亮氨酸 (A150I)、 丝氨酸 (A150S) 和色氨酸 (A150W) 的氨基酸代替 ; 位置 152 的苯丙氨酸残基被亮氨酸代 替 (F152L) ; 位置 153 的天冬酰胺残基被选自甘氨酸 (N153G)、 缬氨酸 (N153V) 和组氨酸 (N153H) 的氨基酸代替 ; 位置 158 的苏氨酸残基被丝氨酸代替 (T158S) ; 位置 190 的甘氨酸 残基被选自丙氨酸 (G190A)、 脯氨酸 (G190P)、 谷氨酰胺 (G190Q) 和缬氨酸 (G190V) 的氨基 酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺代替 (S198N) ; 位置 199 的异亮氨酸残基被选自 甘氨酸 (I199G)、 甲硫氨酸 (I199M)、 亮氨酸 (I199L) 和天冬酰胺 (I199N) 的氨基酸代替 ; 位 置 200 的甲硫氨酸残基被异亮氨酸代替 (M200I) ; 位置 204 的缬氨酸残基被苯丙氨酸代替 (V204F) ; 位置 217 的丙氨酸残基被苏氨酸代替 (A217T) ; 位置 225 的异亮氨酸残基被缬氨 酸代替 (I225V) ; 位置 231 的脯氨酸残基被苯丙氨酸代替 (P231F) ; 位置 232 的丙氨酸残基 被缬氨酸代替 (A232V) ; 位置 233 的谷氨酸残基被谷氨酰胺代替 (E233Q) ; 位置 244 的天冬 氨酸残基被甘氨酸代替 (D244G) ; 位置 260 的苯丙氨酸残基被酪氨酸代替 (F260Y) ; 且位置 261 的丝氨酸残基被天冬酰胺代替 (S261N)。
     在某些实施方案中, 本公开内容的工程化的酮还原酶多肽包括选自以下组成的组 的氨基酸序列 : SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80。以上改进的酮还 原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在 其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。 在一些实施方 案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35或约 40 个其他氨基酸残基。
     在一些实施方案中, 改进的工程化的酮还原酶可包括天然存在的酮还原酶多肽的 缺失以及其他改进的酮还原酶多肽的缺失。在一些实施方案中, 本文所述的每种改进的工 程化的酮还原酶可包括本文所述的多肽的缺失。因此, 对于本公开内容的酮还原酶多肽的 每种和每个实施方案, 缺失可包括一个或多个氨基酸、 2 或多个氨基酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多个氨基酸、 8 或多个氨基酸、 10 或多个氨基酸、 15 或多 个氨基酸、 或 20 或多个氨基酸、 达还原酶多肽的氨基酸总数的 10%、 达氨基酸总数的 10%、 达氨基酸总数的 20%、 或达酮氨基酸总数的 30%, 只要保留酮还原酶活性的功能活性。在 一些实施方案中, 缺失可包括 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个氨基酸残基。
     如本文所述, 本公开内容的酮还原酶多肽可以融合多肽的形式, 其中酮还原酶多 肽与其他多肽诸如抗体标签 ( 如, myc 表位 ) 或纯化序列 ( 如, His 标签 ) 融合。因此, 酮还 原酶多肽可以与其他多肽融合或不与其他多肽融合地使用。
     在一些实施方案中, 改进的工程化的酮还原酶可包括对天然存在的酮还原酶多肽 添加或插入氨基酸序列以及对其他改进的酮还原酶多肽添加或插入氨基酸序列。 在具体实 施方案中, 本公开内容的酮还原酶多肽可例如, 在天然存在的酮还原酶多肽以及本公开内 容的改进的酮还原酶多肽的氨基端或羧基端包括 1-20、 2-15、 3-10、 4-8、 或 5-7 个另外的氨 基酸。对于本公开内容的酮还原酶多肽的每种和每个实施方案, 插入或添加可包括一个或 多个氨基酸、 2 或多个氨基酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多个 氨基酸、 8 或多个氨基酸、 10 或多个氨基酸、 15 或多个氨基酸、 或 20 或多个氨基酸、 达酮还 原酶多肽的氨基酸总数的 10%、 达氨基酸总数的 10%、 达氨基酸总数的 20%、 或达氨基酸 总数的 30%, 只要保留酮还原酶活性的功能活性。在一些实施方案中, 插入或添加可包括 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个氨基酸残基。
     本文所述的多肽不受限于遗传编码的氨基酸。除了遗传编码的氨基酸以外, 本文 所述的多肽可以总体上或部分上由天然存在的和 / 或合成的非编码氨基酸组成。可组成 本文所述的多肽的某些常见非编码氨基酸可以包括但不限于 : 遗传编码的氨基酸的 D- 对 映异构体 ; 2, 3- 二氨基丙酸 (Dpr) ; α- 氨基异丁酸 (Aib) ; ε- 氨基己酸 (Aha) ; δ- 氨基 戊酸 (Ava) ; N- 甲基甘氨酸或肌氨酸 (MeGly 或 Sar) ; 鸟氨酸 (Orn) ; 瓜氨酸 (Cit) ; 叔丁 基丙氨酸 (Bua) ; 叔丁基甘氨酸 (Bug) ; N- 甲基异亮氨酸 (MeIle) ; 苯基甘氨酸 (Phg) ; 环 己基丙氨酸 (Cha) ; 正亮氨酸 (Nle) ; 萘基丙氨酸 (Nal) ; 2- 氯苯丙氨酸 (Ocf) ; 3- 氯苯丙 氨酸 (Mcf) ; 4- 氯苯丙氨酸 (Pcf) ; 2- 氟苯丙氨酸 (Off) ; 3- 氟苯丙氨酸 (Mff) ; 4- 氟苯丙 氨酸 (Pff) ; 2- 溴苯丙氨酸 (Obf) ; 3- 溴苯丙氨酸 (Mbf) ; 4- 溴苯丙氨酸 (Pbf) ; 2- 甲基苯 丙氨酸 (Omf) ; 3- 甲基苯丙氨酸 (Mmf) ; 4- 甲基苯丙氨酸 (Pmf) ; 2- 硝基苯丙氨酸 (Onf) ; 3- 硝基苯丙氨酸 (Mnf) ; 4- 硝基苯丙氨酸 (Pnf) ; 2- 氰基苯丙氨酸 (Ocf) ; 3- 氰基苯丙氨酸 (Mcf) ; 4- 氰基苯丙氨酸 (Pcf) ; 2- 三氟甲基苯丙氨酸 (Otf) ; 3- 三氟甲基苯丙氨酸 (Mtf) ; 4- 三氟甲基苯丙氨酸 (Ptf) ; 4- 氨基苯丙氨酸 (Paf) ; 4- 碘苯丙氨酸 (Pif) ; 4- 氨甲基苯 丙氨酸 (Pamf) ; 2, 4- 二氯苯丙氨酸 (Opef) ; 3, 4- 二氯苯丙氨酸 (Mpcf) ; 2, 4- 二氟苯丙氨 酸 (Opff) ; 3, 4- 二氟苯丙氨酸 (Mpff) ; 吡啶 -2- 基丙氨酸 (2pAla) ; 吡啶 -3- 基丙氨酸(3pAla) ; 吡啶 -4- 基丙氨酸 (4pAla) ; 萘 -1- 基丙氨酸 (1nAla) ; 萘 -2- 基丙氨酸 (2nAla) ; 噻唑基丙氨酸 (taAla) ; 苯并噻吩基丙氨酸 (bAla) ; 噻吩基丙氨酸 (tAla) ; 呋喃基丙氨酸 (fAla) ; 高苯丙氨酸 (hPhe) ; 高酪氨酸 (hTyr) ; 高色氨酸 (hTrp) ; 五氟苯丙氨酸 (5ff) ; 苯 乙烯基丙氨酸 (sAla) ; 蒽基丙氨酸 (aAla) ; 3, 3- 二苯丙氨酸 (Dfa) ; 3- 氨基 -5- 苯基戊酸 (Afp) ; 青霉胺 (Pen) ; 1, 2, 3, 4- 四氢异喹啉 -3- 羧酸 (Tic) ; β-2- 噻吩基丙氨酸 (Thi) ; 甲硫氨酸亚砜 (Mso) ; N(w)- 硝基精氨酸 (nArg) ; 高赖氨酸 (hLys) ; 膦酰基甲基苯丙氨酸 (pmPhe) ; 磷酸丝氨酸 (pSer) ; 磷酸苏氨酸 (pThr) ; 高天冬氨酸 (hAsp) ; 高谷氨酸 (hGlu) ; 1- 氨基环戊 -(2 或 3)- 烯 -4 羧酸 ; 哌可酸 (PA) ; 氮杂环丁烷 -3- 羧酸 (ACA) ; 1- 氨基环 戊烷 -3- 羧酸 ; 烯丙基甘氨酸 (aOly) ; 炔丙基甘氨酸 (pgGly) ; 高丙氨酸 (hAla) ; 正缬氨酸 (nVal) ; 高亮氨酸 (hLeu) ; 高缬氨酸 (hVal) ; 高异亮氨酸 (hIle) ; 高精氨酸 (hArg) ; N- 乙 酰赖氨酸 (AcLys) ; 2, 4- 氨基丁酸 (Dbu) ; 2, 3- 二氨基丁酸 (Dab) ; N- 甲基缬氨酸 (MeVal) ; 高半胱氨酸 (hCys) ; 高丝氨酸 (hSer) ; 羟基脯氨酸 (Hyp) 和高脯氨酸 (hPro)。本文所述 多肽可包含的另外的非编码氨基酸将对本领域技术人员是明显的 ( 参见, 例如, 在 Fasman, 1989, CRC Practical Handbookof Biochemistry and Molecular Biology(CRC 生物化学 和分子生物学实用手册 ), CRC Press, Boca Raton, FL, 在第 3-70 页及其中引用的参考文献 中提供的多种氨基酸, 该文献以及其中所引用的参考文献全部通过引用并入本文 )。 这些氨 基酸可以处于 L- 构型或 D- 构型。
     本领域技术人员将认识到, 带有侧链保护基的氨基酸或残基也可以构成本文所述 的多肽。在这种情况下属于芳香族类别的这些受保护的氨基酸的非限制性实例包括 ( 在 圆括号中列出保护基 ) 但不限于 : Arg(tos)、 Cys( 甲苄基 )、 Cys( 硝基吡啶亚氧硫基 )、 Glu(δ- 苄基酯 )、 Gln( 呫吨基 )、 Asn(N-δ- 呫吨基 )、 His(bom)、 His( 苄基 )、 His(tos)、 Lys(fmoc)、 Lys(tos)、 Ser(O- 苄基 )、 Thr(O- 苄基 ) 和 Tyr(O- 苄基 )。
     可构成本文所述多肽的构型上受限制的非编码氨基酸包括但不限于 N- 甲基氨基 酸 (L- 构型 ) ; 1- 氨基酸环戊 -(2 或 3)- 烯 -4- 羧酸 ; 哌可酸 ; 氮杂环丁烷 -3- 羧酸 ; 高脯 氨酸 (hPro) ; 以及 1- 氨基环戊烷 -3- 羧酸。
     如上所述, 被引入天然存在的多肽以产生工程化酮还原酶的各种修饰可以被定向 至该酶的具体特性。
     5.3 编码工程化酮还原酶的多核苷酸
     另一方面, 本公开内容提供了编码工程化的酮还原酶的多核苷酸。可以将所述多 核苷酸可操作地连接至控制基因表达的一种或多种异源调节序列以产生能够表达该多肽 的重组多核苷酸。 可以将包含编码工程化酮还原酶的异源多核苷酸的表达构建体引入适当 的宿主细胞中来表达对应的酮还原酶多肽。
     由于对各种氨基酸所对应的密码子的了解, 蛋白序列的可用性提供了对能够编码 该主题的所有多核苷酸的描述。 相同氨基酸由替代的或同义的密码子编码的遗传密码的简 并性允许极大数目的核酸被制出, 所有这些核酸编码本文所公开的改进的酮还原酶。 因此, 如果已识别了具体的氨基酸序列, 本领域技术人员能够以不改变蛋白的氨基酸序列的方式 通过仅仅变更序列的一个或更多个密码子来制出任意数目的不同核酸。在这点上, 本公开 内容明确涵盖可通过选择基于可能的密码子选择的组合制出的多核苷酸的每一种可能的 改变, 并且所有这些改变将被认为对本文公开的任何多肽明确地公开, 所述本文公开的任何多肽包括在表 2 中提供的氨基酸序列。
     在一些实施方案中, 多核苷酸包括编码以下酮还原酶多肽的核苷酸序列, 该酮还 原酶多肽的氨基酸序列与本文所述的任何一种工程化的酮还原酶多肽, 即, 包括选自 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 组成的组的氨基酸序列的多肽, 具有 至少约 80%或更大序列同一性、 至少 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78%、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94%、 95%、 96%、 97%、 98%或 99%同一性、 或更大序列同一性。
     在多个实施方案中, 优选地选择密码子以适合在其中产生蛋白的宿主细胞。例 如, 在细菌中使用的偏爱密码子用于在细菌中表达基因 ; 在酵母中使用的偏爱密码子 用于酵母中的表达 ; 并且在哺乳动物中使用的偏爱密码子用于哺乳动物细胞中的表 达。例如, 多核苷酸 SEQ ID NO : 1 可被密码子优化以在大肠杆菌中表达, 但另外地编码 Novosphingobiumaromaticivorans 的天然存在的酮还原酶。
     在一些实施方案中, 不必替换所有密码子来优化酮还原酶的密码子使用, 由于天 然序列将包括偏爱密码子并且因为偏爱密码子的使用可能并不是所有氨基酸残基所需的。 因此, 编码酮还原酶的密码子优化的多核苷酸可以在全长编码区的约 40 %、 50 %、 60 %、 70%、 80%或大于 90%的密码子位置包含偏爱密码子。 在一些实施方案中, 编码工程化的酮还原酶的多核苷酸选自 SEQ IDNO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79。在一些实施方案中, 编码工程化的酮还原酶的多核苷 酸能够在高度严格条件下与包括 SEQ ID NO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79 的多核苷酸杂交。这些多核苷酸编码由表 2 和表 3 列出的氨基酸序列代表的一些多肽。
     在其他实施方案中, 多核苷酸包括编码本文所述的多肽, 但在核苷酸水平与编码 工程化的酮还原酶的参考多核苷酸具有约 80%或更大序列同一性、 约 85%或更大序列同 一性、 约 90%或更大序列同一性、 约 95%或更大序列同一性、 约 98%或更大序列同一性、 或 99%或更大序列同一性的多核苷酸。在一些实施方案中, 参考多核苷酸选自由 SEQ ID NO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79 代表的多核苷酸序列。
     可以用多种方式操作编码改进的酮还原酶多肽的分离的多核苷酸以提供该多肽 的表达。取决于表达载体, 所分离的多核苷酸在其插入载体中之前的操作可能是令人期 望的或必要的。利用重组 DNA 方法修饰多核苷酸和核酸序列的技术是本领域公知的。在 Sambrook 等人, 2001, MolecularCloning : A Laboratory Manual( 分子克隆实验室指南 ), 第 3 版, Cold SpringHarbor Laboratory Press ; 以及 Current Protocols in Molecular Biology( 分子生物学最新实验方案 ), Ausubel.F. 编, Greene Pub.Associates, 1998, 更新 至 2006 中提供了指导。
     对于细菌宿主细胞, 用于指导本公开内容的核酸构建体转录的适宜启动子包 括 从 大 肠 杆 菌 lac 操 纵 子、 天 蓝 色 链 霉 菌 (Streptomyces coelicolor) 琼 脂 糖 酶 基 因 (dagA)、 枯 草 芽 孢 杆 菌 (Bacillus subtilis) 果 聚 糖 蔗 糖 酶 基 因 (sacB)、 地衣芽孢杆
     菌 (Bacillus licheniformis)α- 淀 粉 酶 基 因 (amyL)、 嗜 热 脂 肪 芽 孢 杆 菌 (Bacillus stearothermophilus) 生 麦 芽 糖 淀 粉 酶 基 因 (amyM)、 解 淀 粉 芽 孢 杆 菌 (Bacillus amyloliquefaciens)α- 淀粉酶基因 (amyQ)、 地衣芽孢杆菌青霉素酶基因 (penP)、 枯草芽 孢杆菌 xylA 基因和 xylB 基因、 以及原核 β- 内酰胺酶基因 (Villa-Kamaroff 等人, 1978, Proc.Natl Acad.Sci.USA 75 : 3727-3731) 获得的启动子以及 tac 启动子 (DeBoer 等人, 1983, Proc.Natl Acad.Sci.USA 80 : 21-25)。
     对于丝状真菌宿主细胞而言, 用于指导本公开内容的核酸构建体转录的适宜启动 子包括从米曲霉 (Aspergillus oryzae)TAKA 淀粉酶、 米黑根毛霉 (Rhizomucor miehei) 天 冬氨酸蛋白酶、 黑曲霉 (Aspergillus niger) 中性 α- 淀粉酶、 黑曲霉酸稳定的 α- 淀粉酶、 黑曲霉或泡盛曲霉 (Aspergillusawamori) 葡萄糖淀粉酶 (glaA)、 米黑根毛霉脂肪酶、 米曲 霉碱性蛋白酶、 米曲霉磷酸丙糖异构酶、 构巢曲霉 (Aspergillus nidulans) 乙酰胺酶和尖 孢镰刀菌 (Fusarium oxysporum) 胰蛋白酶样蛋白酶 (WO 96/00787) 的基因获得的启动子 以及 NA2-tpi 启动子 ( 来自黑曲霉中性 α- 淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启 动子的杂合体 ), 和它们突变的、 截短的及杂合的启动子。
     在酵母宿主中, 有用的启动子可以来自酿酒酵母 (Saccharomycescerevisiae) 烯 醇化酶 (ENO-1)、 酿酒酵母半乳糖激酶 (GAL1)、 酿酒酵母醇脱氢酶 / 甘油醛 -3- 磷酸脱氢 酶 (ADH2/GAP) 以及酿酒酵母 3- 磷酸甘油酸酯激酶的基因。Romanos 等人, 1992, Yeast 8 : 423-488 描述了酵母宿主细胞其他有用的启动子。
     控制序列也可以是适宜的转录终止子序列, 即由宿主细胞识别的终止转录的序 列。终止子序列被可操作地连接于编码多肽的核酸序列的 3′端。在本发明中可以使用在 选择的宿主细胞中有功能的任何终止子。
     例如, 丝状真菌宿主细胞的示例性转录终止子可以从米曲霉 TAKA 淀粉酶、 黑曲霉 葡萄糖淀粉酶、 构巢曲霉邻氨基苯甲酸合酶、 黑曲霉 α- 葡糖苷酶和尖孢镰刀菌胰蛋白酶 样蛋白酶的基因中获得。
     酵母宿主细胞的示例性终止子可以从酿酒酵母烯醇化酶、 酿酒酵母细胞色素 C(CYC1) 和酿酒酵母甘油醛 -3- 磷酸脱氢酶的基因中获得。上述 Romanos 等人, 1992 对酵 母宿主细胞其他有用的终止子进行了描述。
     控制序列也可以是适宜的前导序列, 一种对宿主细胞翻译而言重要的 mRNA 的非 翻译区。前导序列被可操作地连接于编码多肽的核酸序列的 5′端。可以使用在选择的宿 主细胞中有功能的任何前导序列。丝状真菌宿主细胞的示例性前导序列是从米曲霉 TAKA 淀粉酶和构巢曲霉磷酸丙糖异构酶的基因中获得。 酵母宿主细胞适宜的前导序列是从酿酒 酵母烯醇化酶 (ENO-1)、 酿酒酵母 3- 磷酸甘油酸激酶、 酿酒酵母 α- 因子以及酿酒酵母醇脱 氢酶 / 甘油醛 -3- 磷酸脱氢酶 (ADH2/GAP) 的基因中获得。
     控制序列也可以是聚腺苷酸化序列, 即可操作地连接于核酸序列的 3′端并且当 转录时被宿主细胞识别为向转录的 mRNA 添加聚腺苷残基的信号的序列。在本发明中可以 使用在选择的宿主细胞中有功能的任何聚腺苷酸化序列。丝状真菌宿主细胞的示例性聚 腺苷酸化序列可以从米曲霉 TAKA 淀粉酶、 黑曲霉葡萄糖淀粉酶、 构巢曲霉邻氨基苯甲酸合 酶、 尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉 α- 葡糖苷酶的基因中获得。Guo 和 Sherman, 1995, Mol Cell Bio 15 : 5983-5990 描述了酵母宿主细胞的有用的聚腺苷酸化序列。控制序列也可以是编码与多肽的氨基端连接的氨基酸序列并引导该编码多肽进 入细胞分泌途径的信号肽编码区。核酸序列的编码序列的 5′端可以固有地包含翻译阅读 框中与编码分泌的多肽的编码区区段天然连接的信号肽编码区。 可选地, 编码序列的 5′端 可以包含对编码序列而言为外来的信号肽编码区。 在编码序列天然不包含信号肽编码区时 可能需要外来的信号肽编码区。
     可选地, 外来的信号肽编码区可仅仅代替天然信号肽编码区以增强多肽的分泌。 然而, 引导表达的多肽进入所选宿主细胞的分泌途径的任何信号肽编码区可用在本发明 中。
     细菌宿主细胞有效的信号肽编码区是从芽孢杆菌 NClB 11837 生麦芽糖淀粉酶、 嗜热脂肪芽孢杆菌 α- 淀粉酶、 地衣芽孢杆菌枯草杆菌蛋白酶、 地衣芽孢杆菌 β- 内酰胺 酶、 嗜热脂肪芽孢杆菌中性蛋白酶 (nprT、 nprS、 nprM) 和枯草芽孢杆菌 prsA 的基因中获得 的信号肽编码区。Simonen 和 Palva, 1993, Microbiol Rev 57 : 109-137 描述了其他的信号 肽。
     丝状真菌宿主细胞有效的信号肽编码区可以是从米曲霉 TAKA 淀粉酶、 黑曲霉 中性淀粉酶、 黑曲霉葡萄糖淀粉酶、 米黑根毛霉天冬氨酸蛋白酶、 特异腐质霉 (Humicola insolens) 纤维素酶以及柔毛腐质酶 (Humicolalanuginosa) 脂肪酶的基因中获得的信号 肽编码区。
     酵母宿主细胞有用的信号肽可以来自酿酒酵母 α- 因子和酿酒酵母转化酶的基 因。上述 Romanos 等人, 1992 对其他有用的信号肽编码区进行了描述。
     控制序列也可以是编码位于多肽氨基端的氨基酸序列的前肽编码区。生成的 多 肽 被 称 为 酶 原 (proenzyme) 或 多 肽 原 ( 或 在 某 些 情 况 下 称 为 酶 原 (zymogen))。 多 肽原一般是无活性的, 并且可以通过前肽从多肽原的催化裂解或自身催化裂解转化为 成熟的活性多肽。前肽编码区可以从枯草芽孢杆菌碱性蛋白酶 (aprE)、 枯草芽孢杆 菌中性蛋白酶 (nprT)、 酿酒酵母 α- 因子、 米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉 (Myceliophthorathermophila) 乳糖酶的基因获得 (WO 95/33836)。
     在信号肽和前肽区都存在于多肽的氨基端时, 前肽区被定位于紧挨着多肽的氨基 端并且信号肽区被定位于紧挨着前肽区的氨基端。
     添加调节序列可能也是令人期望的, 所述调节序列允许相对于宿主细胞的生长调 节多肽的表达。调节系统的实例是响应于化学刺激或物理刺激 ( 包括调节化合物的存在 ) 而促使基因的表达被打开或关闭的那些调节系统。在原核宿主细胞中, 适宜的调节序列包 括 lac、 tac 以及 trp 操纵子系统。在酵母宿主细胞中, 适宜的调节系统包括, 例如 ADH2 系 统或 GAL1 系统。在丝状真菌中, 适宜的调节序列包括 TAKA α- 淀粉酶启动子、 黑曲霉葡萄 糖淀粉酶启动子以及米曲霉葡萄糖淀粉酶启动子。
     调节序列的其他实例是那些允许基因扩增的调节序列。在真核系统中, 这些调节 序列包括在甲氨蝶呤的存在下扩增的二氢叶酸还原酶基因和用重金属扩增的金属硫蛋白 基因。在这些情况下, 编码本发明的 KRED 多肽的核酸序列将与调节序列可操作地连接。
     因此, 在另一个实施方案中, 本公开内容也涉及重组表达载体, 所述重组表达载体 包含编码工程化酮还原酶多肽或其变体的多核苷酸以及一个或更多个表达调节区, 诸如启 动子和终止子、 复制起点等等, 这取决于表达调节区被引入的宿主的类型。 可以将上述多种核酸和控制序列连接在一起产生重组表达载体, 所述重组表达载体可以包括一个或更多个 便利的限制性位点以允许在这些位点插入或取代编码多肽的核酸序列。可选地, 本公开内 容的核酸序列可以通过将该核酸序列或包含该序列的核酸构建体插入用于表达的适当载 体中来表达。在表达载体的创建中, 编码序列位于载体中以使得该编码序列与用于表达的 适当的控制序列可操作地连接。
     重组表达载体可以是能够便利地进行重组 DNA 步骤并且能够导致多核苷酸序列 表达的任何载体 ( 例如质粒或病毒 )。载体的选择将通常取决于载体与该载体要引入的宿 主细胞的相容性。载体可以是线性质粒或闭合环状质粒。
     表达载体可以是自主复制的载体, 即作为染色体外的实体而存在、 其复制独立于 染色体复制的载体, 例如质粒、 染色体外的元件、 微型染色体或人工染色体。载体可以包含 用于确保自我复制的任何手段。可选地, 载体可以是在引入宿主细胞中时被整合到基因组 并与它所整合的染色体一起复制的载体。 此外, 可以使用单种载体或质粒, 或者一起包含要 引入到宿主细胞基因组中的总 DNA 的两种或更多种载体或质粒, 或转座子。
     本发明的表达载体优选地包含一种或多种选择性标记, 所述选择性标记使得容易 选择转化的细胞。 选择性标记是一种基因, 其产物提供了杀生物剂抗性或病毒抗性、 对重金 属的耐受性、 针对营养缺陷型的原养型等。细菌的选择性标记的实例是来自枯草芽孢杆菌 或地衣芽孢杆菌的 dal 基因, 或是赋予抗生素抗性诸如氨苄西林、 卡那霉素、 氯霉素或四环 素抗性的标记。酵母宿主细胞的适宜标记是 ADE2、 HIS3、 LEU2、 LYS2、 MET3、 TRP1 和 URA3。
     在丝状真菌宿主细胞中使用的选择性标记包括但不限于 amdS( 乙酰胺酶 )、 argB( 鸟氨酸氨基甲酰基转移酶 )、 bar( 草丁膦乙酰转移酶 )、 hph( 潮霉素磷酸转移酶 )、 niaD( 硝酸盐还原酶 )、 pyrG( 乳清酸核苷 -5 ′ - 磷酸脱羧酶 )、 cysC( 硫酸腺苷酰转移 酶 )、 以及 trpC( 邻氨基苯甲酸合酶 ) 以及它们的等同物。在曲霉属细胞中使用的实施 方案包括构巢曲霉或米曲霉的 amdS 基因和 pyrG 基因, 以及吸水链霉菌 (Streptomyces hygroscopicus) 的 bar 基因。
     本发明的表达载体优选地包含允许载体整合到宿主细胞基因组中或允许该载体 在细胞中独立于基因组而自主复制的元件。对于整合到宿主细胞基因组中, 载体可以依赖 于编码多肽的核酸序列或载体的任何其他元件通过同源重组或非同源重组将载体整合到 基因组中。
     可选地, 表达载体可以包含用于指导通过同源重组整合到宿主细胞基因组中的另 外的核酸序列。 所述另外的核酸序列使载体能够在染色体中的精确位置被整合到宿主细胞 基因组中。为了提高在精确位置整合的可能性, 整合元件应该优选地包含与对应的靶序列 高度同源的数目足够的核酸, 诸如 100 到 10,000 个碱基对, 优选 400 到 10,000 个碱基对, 以及最优选 800 到 10,000 个碱基对, 以增强同源重组的机率。整合元件可以是与宿主细胞 的基因组中的靶序列同源的任何序列。此外, 整合元件可以是非编码核酸序列或编码核酸 序列。另一方面, 可以通过非同源重组将载体整合到宿主细胞的基因组中。
     对于自主复制, 载体还可以包括使该载体能在要考虑的宿主细胞中自主复制的复 制起点。细菌复制起点的实例是允许在大肠杆菌中复制的 P15Aori、 或质粒 pBR322、 pUC19、 pACYC177( 该质粒具有 P15A ori) 或质粒 pACYC184 的复制起点, 以及允许在芽孢杆菌中复 制的 pUB110、 pE194、 pTA1060 或 pAMβ1 的复制起点。在酵母宿主细胞中使用的复制起点的实例是 2 微米复制起点 ARS1、 ARS4, ARS1 和 CEN3 的组合, 以及 ARS4 和 CEN6 的组合。复 制起点可以是具有突变的复制起点, 所述突变使其在宿主细胞中以温度敏感的方式起作用 ( 参见, 例如 Ehrlich, 1978, Proc NatlAcad Sci.USA 75 : 1433)。
     可以将多于一个拷贝的本发明的核酸序列插入宿主细胞中以提高基因产物的生 产量。核酸序列拷贝数的增加可以通过如下方式获得 : 通过将该序列的至少一个另外拷贝 整合到宿主细胞基因组中, 或者通过使该核酸序列包括可扩增的选择性标记基因, 其中可 以通过在适当选择剂的存在下培养细胞来选择包含该选择性标记基因的扩增拷贝和由此 包含该核酸序列的另外拷贝的细胞。
     在本发明中使用的许多表达载体可商购获得。适宜的商业表达载体包括来自 Sigma-Aldrich Chemicals, St.Louis MO. 的 p3xFLAGTMTM 表达载体, 它包括用于在哺乳 动物宿主细胞中表达的 CMV 启动子和 hGH 多腺苷酸化位点以及用于在大肠杆菌中扩增 的 pBR322 复制起点和氨苄西林抗性标记。其他适宜的表达载体是可以从 Stratagene, LaJolla CA 商 购 获 得 的 pBluescriptII SK(-) 和 pBK-CMV, 以 及 源 自 于 pBR322(Gibco BRL)、 pUC(Gibco BRL)、 pREP4、 pCEP4(Invitrogen) 或 pPoly(Lathe 等 人, 1987, Gene57 : 193-201) 的质粒。
     5.4 用于表达酮还原酶多肽的宿主细胞
     另一方面, 本公开内容提供了包含编码本公开内容的改进酮还原酶多肽的多核苷 酸的宿主细胞, 该多核苷酸与用于在该宿主细胞中表达酮还原酶的一个或更多个控制序列 可操作地连接。在由本发明的表达载体所编码的 KRED 多肽的表达中使用的宿主细胞是本 领域公知的并且包括但不限于 : 细菌细胞, 诸如大肠杆菌、 乳杆菌属、 链霉菌属和鼠伤寒沙 门氏菌 (Salmonella typhimurium) 的细胞 ; 真菌细胞, 诸如酵母细胞 ( 例如, 酿酒酵母或巴 斯德毕赤酵母 (Pichia pastorts)(ATCC 获取号 201178)) ; 昆虫细胞诸如果蝇 S2 细胞和夜 蛾 (Spodoptera)Sf9 细胞 ; 动物细胞诸如 CHO、 COS、 BHK、 293 和 Bowes 黑色素瘤细胞 ; 以及 植物细胞。用于上述宿主细胞的适当培养基和生长条件是本领域公知的。因此, 在一些实 施方案中, 本文公开的工程化的酮还原酶多肽可通过标准方法制备, 包括培养包含含编码 多肽的多核苷酸的适当表达载体的宿主细胞。
     可以通过本领域已知的多种方法将用于表达酮还原酶的多核苷酸引入细胞中。 技 术包括但不限于电穿孔、 生物射弹粒子轰击、 脂质体介导的转染、 氯化钙转染和原生质体融 合。用于将多核苷酸引入细胞中的多种方法将对技术人员是明显的。
     示例性宿主细胞是大肠杆菌 W3110。另一种示例性宿主细胞是大肠杆菌 BL21。通 过将编码改进的酮还原酶的多核苷酸可操作地连入质粒 pCK110900( 参见, 美国申请公布 20040137585) 而产生表达载体, 该多核苷酸与在 lacI 阻抑物的控制下的 lac 启动子可操作 地连接。该表达载体还包含 P15a 复制起点和氯霉素抗性基因。通过对在大肠杆菌 W3110 或 BL21 中包含主题多核苷酸的细胞进行氯霉素选择来分离这些细胞。
     5.5 产生工程化的酮还原酶多肽的方法
     在一些实施方案中, 为了制备本公开内容的改进的 KRED 多核苷酸和多肽, 从 Novosphingobium aromaticivorans 获得 ( 或衍生 ) 催化还原反应的天然存在的酮还原酶。 在一些实施方案中, 母体多核苷酸序列被密码子优化以增强酮还原酶在指定宿主细胞中的 表达。作为例证, 编码 Novosphingobium aromaticivorans 野生型 KRED 多肽的亲本多核苷酸序列 (SEQ ID NO : 1), 可基于该序列从寡核苷酸组装, 或从包含密码子优化的编码序列的 寡核苷酸组装以在指定宿主细胞如大肠杆菌宿主细胞中表达。在一个实施方案中, 多核苷 酸可被克隆到表达载体中, 放置酮还原酶基因的表达在 lac 启动子和 lacI 阻遏基因的控制 下。可鉴定在大肠杆菌中表达活性酮还原酶的克隆, 对基因测序以证实其身份。
     如上所述, 通过使编码天然存在的酮还原酶的多核苷酸经历诱变和 / 或定向进化 方法, 可以获得工程化酮还原酶。示例性定向进化技术是如在 Stemmer, 1994, Proc Natl Acad Sci USA 91 : 10747-10751 ; WO 95/22625 ; WO97/0078 ; WO 97/35966 ; WO 98/27230 ; WO 00/42651 ; WO 01/75767 和美国专利 6,537,746 中所述的诱变和 / 或 DNA 改组。其他可 以使用的定向进化方案包括但不限于 : 交错延伸过程 (StEP)、 体外重组 (Zhao 等人, 1998, Nat.Biotechnol.16 : 258-261)、诱 变 PCR(Caldwell 等 人, 1994, PCR Methods Appl.3 : S136-S140) 和盒式诱变 (Black 等人, 1996, Proc Natl Acad Sci USA93 : 3525-3529)。
     筛选按照诱变处理获得的克隆中具有期望的改进的酶特性的工程化的酮还原酶。 测量表达文库的酶活性可利用监测 NADH 或 NADPH 浓度因为被转化为 NAD+ 或 NADP+ 而降低 的比率 ( 由吸光度或荧光的降低 ) 的标准生化技术进行。 在这一反应中, 随着酮还原酶还原 酮底物为相应的羟基, NADH 或 NADPH 被酮还原酶消耗 ( 氧化 )。由吸光度或荧光降低测量 的每单位时间 NADH 或 NADPH 浓度的降低率, 指示在固定量的裂解物 ( 或由其制成的冻干粉 末 ) 中 KRED 多肽的相对 ( 酶 ) 活性。在期望的改进酶特性是热稳定性的情况下, 可以在使 酶制品经历限定的温度并测量热处理后剩余的酶活性的量之后测量酶活性。 然后对包含编 码酮还原酶的多核苷酸的克隆进行分离, 测序, 以识别核苷酸序列的改变 ( 如果有的话 ), 并将这些克隆用于在宿主细胞中表达酶。
     在工程化多肽的序列为已知的情况下, 可以根据已知的合成方法通过标准固相方 法制备编码酶的多核苷酸。在一些实施方案中, 高达大约 100 个碱基的片段能够单独合成, 然后连接 ( 例如, 通过酶连接或化学连接方法或聚合酶介导的方法 ) 形成任何期望的连续 序列。例如, 可以使用例如由 Beaucage 等人, 1981, Tet Lett 22 : 1859-69 所描述的经典亚 磷酰胺方法或由 Matthes 等人, 1984, EMBO J.3 : 801-05 所描述的方法 ( 例如, 像它通常在自 动化合成方法中实施的那样 ) 通过化学合成来制备本发明的多核苷酸和寡核苷酸。根据亚 磷酰胺方法, 例如在自动化 DNA 合成器中合成寡核苷酸, 纯化, 退火, 连接并克隆在适当载 体中。此外, 基本上任何核酸都可以从各种商业来源中的任何一种获得, 诸如 The Midland CertifiedReagent Company, Midland, TX、 The Great American Gene Company, Ramona, CA、 ExpressGen Inc.Chicago, IL、 Operon Technologies Inc., Alameda, CA 以及许多其他 来源。
     在宿主细胞中表达的工程化酮还原酶可以使用任何一种或多种公知的蛋白质纯 化技术从这些细胞中和或培养基中回收, 所述公知的蛋白质纯化技术包括但不限于溶菌酶 处理、 超声处理、 过滤、 盐析、 超离心和色谱。 用于裂解和从细菌诸如大肠杆菌中高效提取蛋 白的适宜溶液是从 St.LouisMO 的 Sigma-Aldrich 以商标名 CelLytic BTM 可商业途径获得 的。因此, 在一些实施方案中, 本文公开的工程化的酮还原酶多肽可由标准方法制备, 包括 培养包括含编码多肽的多核苷酸的适当表达载体的宿主细胞, 并从宿主细胞分离多肽。 用于分离酮还原酶多肽的色谱技术包括但不限于反相色谱、 高效液相色谱、 离子 交换色谱、 凝胶电泳和亲和色谱。 用于纯化特定酶的条件将部分取决于如下因素 : 诸如净电
     荷、 疏水性、 亲水性、 分子量、 分子形状等等, 并且将对本领域技术人员是明显的。
     在一些实施方案中, 亲和技术可以用于分离改进的酮还原酶。 对于亲和色谱纯化, 可以使用特异性结合酮还原酶多肽的任何抗体。对于抗体的产生, 可以通过用本公开内容 的多肽注射来免疫多种宿主动物, 包括但不限于兔、 小鼠、 大鼠等等。可以将该多肽与适宜 载体 ( 诸如 BSA) 通过侧链官能基团或与侧链官能基团相连的连接物相连。多种佐剂可根 据宿主物种用于提高免疫应答, 包括但不限于弗氏 ( 完全或不完全 ) 佐剂, 矿物凝胶诸如 氢氧化铝, 表面活性物质诸如溶血卵磷脂, 多聚醇, 聚阴离子, 肽, 油乳剂, 匙孔血蓝蛋白, 二 硝基苯酚, 以及可能有用的人佐剂诸如 BCG( 卡介苗 ) 和短小棒状杆菌 (Corynebacterium parvum)。
     5.6 利用工程化酮还原酶的方法和以此制备的化合物
     本文所述的酮还原酶可催化式 (I) 化合物 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基 丁 -2- 酮 (“底 物” )( 如 化 合 物 (1), 其 中 保 护 基 是 BOC 部 分 ) 对 映 体 特 异 性 (enantiospecific) 还原为相应的式 (II) 化合物立体异构醇产物 N- 保护的 (2R, 3S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)), 如方案 1 所示 ( 参见以上 )。
     在一些实施方案中, 本发明提供在 N- 保护的 (R)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮 化合物与 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮的混合物中立体特异性地富集 N- 保护的 (R)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮化合物的方法, 该方法通过在适于产生手性 醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇的反应条件下将混合物与本文 公开的酮还原酶多肽接触或培养, 而还原混合物中 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基 丁 -2- 酮化合物, 如方案 5 的反应所示 ( 参见以上 )。因此, 在一些实施方案中, 具有改进的 立体特异性 ( 与 SEQID NO : 2 相比 ) 的本公开内容的酮还原酶多肽可用于拆分手性 α- 氯 代酮化合物的混合物。
     在该方法的一些实施方案中, 当以大于或等于 200g/L 底物和少于或等于 2g/L 酮 还原酶 ( 但多于 0g/L 酶 ) 进行该方法时, 在少于 24、 23、 22、 21、 20、 19、 18、 17、 16、 15、 14、 13、 12、 11、 10、 9、 8 或 7 小时内至少约 45%的外消旋底物混合物被还原为产物。
     利用本文公开的酮还原酶转化式 (I) 化合物为手性氯代醇式 (II) 化合物的方法 表现比已知方法的实质改进, 部分是因为所得的高产率 ( 如, 在少于 24 小时内转化率> 80%或更大 )、 高纯度 ( 如, > 99% d.e.) 和有利的溶剂系统, 这允许制备式 (II) 化合物并 利用其作为随后反应的反应物的 “压缩 (telescoped)” 反应。
     在该方法的一些实施方案中, 产物具有大于约 90%、 95%、 97%、 98%、 99%或甚至 更大非对映体过量的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇。
     在该方法的一些实施方案中, 当以大于约 100g/L 底物和少于约 5g/L 多肽进行该 方法时, 在少于约 24 小时内约 95%的底物被转化为产物。
     在该方法的一些实施方案中, 在少于约 24 小时、 20 小时、 12 小时、 8 小时、 或甚至更 短时间内至少约 90%、 95%、 97%、 98%或更多式 (I) 化合物被转化为式 (II) 化合物。
     在该方法的一些实施方案中, 在少于约 24 小时内至少约 95%的式 (I) 化合物被转 化为式 (II) 化合物, 其中式 (I) 化合物浓度是至少约 150g/L 且多肽浓度是少于约 1g/L。
     在某些实施方案中, 本公开内容还提供制备式 (III) 化合物环氧化物的方法, 该 方法按照以上所示的方案 3 和 4, 通过利用本公开内容的酮还原酶转化式 (I) 化合物为式(II) 化合物手性氯代醇 ( 如, 化合物 (2)), 然后环化式 (II) 化合物为式 (III) 化合物环氧 化物 ( 如, 化合物 (3))。这一转化可通过如下非常有效地进行 : 用适当溶剂 ( 如, MTBE) 萃 取含式 (II) 化合物的粗制酶促反应混合物, 并将这一萃取物与适当的碱 ( 如, KOH) 接触。
     在本文提供的方法的某些实施方案中, 碱选自氢氧化钾 (KOH)、 叔丁醇钾、 碳酸钾 和三乙胺。
     在某些实施方案中, 化合物 (3) 的制备可如下进行 : 通过将 MTBE 中的 0.3M 化合物 (2)( 如, 酮还原酶反应混合物的粗制萃取物 ) 与 MTBE 溶液中的 0.6M KOH( 或其他适当的 碱 ) 反应。这一反应在 5 小时内达到> 99%转化为化合物 (3) 环氧化物, 在 8 小时内达到 99.9%转化 ( 由 HPLC 确定 )。
     在某些实施方案中, 制备本公开内容的式 (III) 化合物的方法包括以下步骤 : 用 有机溶剂萃取酶反应混合物, 并将有机溶剂萃取物与碱接触。 在某些实施方案中, 进行该方 法, 其中进行将式 (II) 化合物与碱接触的所述步骤而不首先纯化和 / 或分离式 (II) 化合 物 ( 如, “压缩 (telescoped)” 反应或 “一锅法 (one-pot)” 反应 )。
     因此, 在一些实施方案中, 本公开内容提供制备式 (III) 化合物 ( 如, 化合物 (3)) 的方法, 包括利用本公开内容的酮还原酶转化式 (I) 化合物为式 (II) 化合物 ( 如, 化合物 (2)) 的步骤。 在制备式 (III) 化合物的一些实施方案中, 该方法还包括将式 (II) 化合物与 碱接触的步骤。在某些实施方案中, 进行该方法, 其中进行将式 (II) 化合物与碱接触的所 述步骤而不首先纯化和 / 或分离式 (II) 化合物。
     在某些实施方案中, 该方法还包括用结晶溶剂交换 ( 或更换 ) 有机溶剂萃取物 的有机溶剂, 并从结晶溶剂结晶式 (III) 化合物。在某些实施方案中, 有机溶剂萃取物是 MTBE, 其被交换为结晶溶剂庚烷。
     根据本文提供的方法, 可用于萃取和结晶的其他有机溶剂是本领域已知和本领域 技术人员可获取的有机溶剂, 包括公知的烃类、 醚类、 酯类和醇类, 如, 乙腈、 正丁醇、 甲苯、 乙酸异丙酯。
     如上所述, 本文所述的任何酮还原酶多肽, 包括表 2 中举例的那些, 可用在该方法 中。而且, 在一些实施方案中, 该方法可使用酮还原酶多肽, 该酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98%、 或 99%相同的氨基酸序列, 还包括与 SEQ ID NO : 2 相比选自以下组成的组的至少一 种氨基酸取代 : 位置 2 的脯氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲 硫氨酸的脂肪族或非极性氨基酸代替 ; 位置 28 的缬氨酸残基以保守改变被选自丙氨酸、 亮 氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替 ; 位置 34 的丙氨 酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 47 的丙氨酸 残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或 非极性氨基酸代替 ; 位置 50 的谷氨酸残基被选自赖氨酸和精氨酸的碱性氨基酸代替 ; 位 置 81 的天冬氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位 置 90 的丝氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族 或非极性氨基酸代替 ; 位置 91 的异亮氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替, 而在其他方面, 位置 91 的异亮氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸, 或选自赖氨酸和精氨酸的 碱性氨基酸代替 ; 位置 94 的赖氨酸残基以保守改变被另一种碱性氨基酸精氨酸代替 ; 位置 112 的天冬氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位置 117 的甘 氨酸残基被选自天冬氨酸和谷氨酸的酸性氨基酸代替 ; 位置 143 的丝氨酸残基被选自赖氨 酸和精氨酸的碱性氨基酸代替 ; 位置 144 的缬氨酸残基被半胱氨酸或选自天冬酰胺、 谷氨 酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 145 的甘氨酸残基以保守或非保守改变, 可 被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甲硫氨酸的非极性氨基酸, 或选自丙氨酸、 亮氨 酸、 缬氨酸、 异亮氨酸的脂肪族氨基酸代替 ; 位置 148 的精氨酸残基被选自脯氨酸和组氨酸 的受限制的氨基酸代替 ; 位置 150 的丙氨酸残基以保守或非保守改变被选自亮氨酸、 缬氨 酸、 异亮氨酸、 甘氨酸和甲硫氨酸的另一种非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨 酰胺、 丝氨酸和苏氨酸的极性氨基酸, 或选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代 替; 位置 152 的苯丙氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸 的非极性或脂肪族氨基酸代替 ; 位置 153 的天冬酰胺残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸和脯氨酸的受限制 的氨基酸代替 ; 位置 158 的苏氨酸残基以保守改变被选自天冬酰胺、 谷氨酰胺和丝氨酸的 另一种极性氨基酸代替 ; 位置 190 的甘氨酸残基以保守或非保守改变被选自丙氨酸、 缬氨 酸、 亮氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨 酰胺和丝氨酸的极性氨基酸, 或脯氨酸代替 ; 位置 198 的丝氨酸残基以保守改变被选自天 冬酰胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替 ; 位置 199 的异亮氨酸残基以保守改 变被选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲硫氨酸的另一种脂肪族或非极性氨基酸, 或 选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 200 的甲硫氨酸残基以 保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甘氨酸的另一种非极性氨基酸代替 ; 位置 204 的缬氨酸以非保守改变被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位置 217 的丙氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位 置 225 的异亮氨酸残基以保守改变被选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的另一种非 极性氨基酸代替 ; 位置 231 的脯氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基 酸代替 ; 位置 232 的丙氨酸残基以保守改变被选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲 硫氨酸的另一种非极性氨基酸代替 ; 位置 233 的谷氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝 氨酸和苏氨酸的极性氨基酸代替 ; 位置 244 的天冬氨酸残基被选自丙氨酸、 亮氨酸、 异亮氨 酸、 缬氨酸、 甘氨酸和甲硫氨酸的非极性氨基酸代替 ; 位置 260 的苯丙氨酸残基以保守改变 被选自酪氨酸和色氨酸的另一种芳香族氨基酸代替 ; 且位置 261 的丝氨酸残基以保守改变 被选自天冬酰胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替。以上改进的酮还原酶多肽 还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸 残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰 的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个 其他氨基酸残基。
     在一些实施方案中, 该方法可使用本公开内容的改进的酮还原酶多肽, 其包括与SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78%、 79%、 80%、 81%、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97%、 98%、 或 99%相同的氨基酸序列, 还包括与 SEQ ID NO : 2 相比选自以下组成的组的 至少一种氨基酸取代 : 位置 2 的脯氨酸残基被亮氨酸代替 (P2L) ; 位置 28 的缬氨酸残基 被丙氨酸代替 (V28A) ; 位置 34 的丙氨酸残基被丝氨酸代替 (A34S) ; 位置 47 的丙氨酸残 基被缬氨酸代替 (A47V) ; 位置 50 的谷氨酸残基被赖氨酸代替 (E50K) ; 位置 81 的天冬氨 酸残基被天冬酰胺代替 (D81N) ; 位置 90 的丝氨酸残基被缬氨酸代替 (S90V) ; 位置 91 的 异亮氨酸残基被选自亮氨酸 (I91L)、 色氨酸 (I91W)、 精氨酸 (I91R) 和赖氨酸 (I91K) 的 氨基酸代替 ; 位置 94 的赖氨酸残基被精氨酸代替 (K94R) ; 位置 112 的天冬氨酸残基被酪 氨酸代替 (D112Y) ; 位置 117 的甘氨酸残基被天冬氨酸代替 (G117D) ; 位置 143 的丝氨酸 残基被精氨酸代替 (S143R) ; 位置 144 的缬氨酸残基被选自半胱氨酸 (V144C) 和苏氨酸 (V144T) 的氨基酸代替 ; 位置 145 的甘氨酸残基被选自丙氨酸 (G145A) 和缬氨酸 (G145V) 的氨基酸代替 ; 位置 148 的精氨酸残基被组氨酸代替 (R148H) ; 位置 150 的丙氨酸残基被 选自甘氨酸 (A150G)、 异亮氨酸 (A150I)、 丝氨酸 (A150S) 和色氨酸 (A150W) 的氨基酸代 替; 位置 152 的苯丙氨酸残基被亮氨酸代替 (F152L) ; 位置 153 的天冬酰胺残基被选自甘 氨酸 (N153G)、 缬氨酸 (N153V) 和组氨酸 (N153H) 的氨基酸代替 ; 位置 158 的苏氨酸残基 被丝氨酸代替 (T158S) ; 位置 190 的甘氨酸残基被选自丙氨酸 (G190A)、 脯氨酸 (G190P)、 谷氨酰胺 (G190Q) 和缬氨酸 (G190V) 的氨基酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺 代替 (S198N) ; 位置 199 的异亮氨酸残基被选自甘氨酸 (I199G)、 甲硫氨酸 (I199M)、 亮氨 酸 (I199L) 和天冬酰胺 (I199N) 的氨基酸代替 ; 位置 200 的甲硫氨酸残基被异亮氨酸代替 (M200I) ; 位置 204 的缬氨酸残基被苯丙氨酸代替 (V204F) ; 位置 217 的丙氨酸残基被苏氨 酸代替 (A217T) ; 位置 225 的异亮氨酸残基被缬氨酸代替 (I225V) ; 位置 231 的脯氨酸残基 被苯丙氨酸代替 (P231F) ; 位置 232 的丙氨酸残基被缬氨酸代替 (A232V) ; 位置 233 的谷 氨酸残基被谷氨酰胺代替 (E233Q) ; 位置 244 的天冬氨酸残基被甘氨酸代替 (D244G) ; 位 置 260 的苯丙氨酸残基被酪氨酸代替 (F260Y) ; 且位置 261 的丝氨酸残基被天冬酰胺代替 (S261N)。 在某些实施方案中, 本公开内容的酮还原酶多肽包括选自以下组成的组的氨基酸 序列 : SEQ IDNO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 65、 66、 68、 70、 72、 74、 76、 78 和 80。以上改进的酮还原酶多肽还 可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸 残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰 的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个 其他氨基酸残基。
     在一些实施方案中, 本公开内容的方法使用包括选自以下组成的组的氨基酸序列 的酮还原酶 : SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 65、 66、 68、 70、 72、 74、 76、 78、 80 和其组合。示例性的 包括序列组合的组包括 : SEQ ID NO 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56 组成的组 ; SEQ ID NO6、 18、 22、 30、 38、 40、 50、 52、 54 和 56 组成的组 ; 和 SEQ IDNO 6、 50、 52 和 56 组成的组。
     在该方法的一些实施方案中, 产物具有大于约 90%、 95%、 97%、 98%、 99%、 或甚 至更大非对映体过量的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇, 其中酮还原 酶多肽包括对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列。
     在该方法的一些实施方案中, 当该方法以大于或等于 200g/L 底物和少于或等于 2g/L 酮还原酶 ( 但多于 0g/L 酶 ) 进行时, 在少于 24、 23、 22、 21、 20、 19、 18、 17、 16、 15、 14、 13、 12、 11、 10、 9、 8、 或 7 小时内至少约 45%的外消旋底物混合物被还原为产物, 其中酮还原 酶多肽包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列。
     如本领域技术人员已知的, 酮还原酶 - 催化的还原反应通常需要辅因子。本文所 述的工程化的酮还原酶催化的还原反应通常也需要辅因子, 但工程化的酮还原酶的许多实 施方案比用野生型酮还原酶催化的反应需要的辅因子少得多。 本文所用的术语 “辅因子” 是 指联合酮还原酶起作用的非蛋白化合物。 适于用于本文所述的工程化的酮还原酶的辅因子 + 包括但不限于, NADP ( 烟酰胺腺嘌呤二核苷酸磷酸 )、 NADPH(NADP+ 的还原形式 )、 NAD+( 烟 酰胺腺嘌呤二核苷酸 ) 和 NADH(NAD+ 的还原形式 )。通常, 将辅因子的还原形式加到反应混 合物。还原的 NAD(P)H 形式任选地可利用辅因子再生系统从氧化的 NAD(P)+ 形式再生。
     术语 “辅因子再生系统” 是指参加将氧化型的辅因子还原 ( 例如 NADP+ 至 NADPH) 的反应的一组反应物。 被酮还原酶催化的酮底物还原所氧化的辅因子被辅因子再生系统再 生为还原型。辅因子再生系统包括化学计量还原剂, 其为还原氢等价物的来源并且能够将 辅因子的氧化型还原。辅因子再生系统还可包括催化剂, 例如催化还原剂对辅因子氧化型 + + 的还原的酶。用于从 NAD 或 NADP 分别再生 NADH 或 NADPH 的辅因子再生系统是本领域已 知的并且可被用于本文所述的方法。
     可被使用的适合的示例性辅因子再生系统包括但不限于葡萄糖和葡萄糖脱氢酶、 甲酸和甲酸脱氢酶、 葡萄糖 -6- 磷酸和葡萄糖 -6- 磷酸脱氢酶、 仲醇 ( 例如异丙醇 ) 和仲醇 脱氢酶、 亚磷酸盐和亚磷酸盐脱氢酶、 分子氢和氢化酶以及诸如此类。 这些系统可与 NADP+/ NADPH 或 NAD+/NADH 辅因子共同使用。使用氢化酶的电化学再生还可被用作辅因子再生系 统。参见例如美国专利第 5,538,867 和 6,495,023 号, 其二者都通过引用被并入本文。包 括金属催化剂和还原剂 ( 例如分子氢或甲酸盐 ) 的化学辅因子再生系统也是适合的。参见 例如 PCT 公布 WO 2000/053731, 其通过引用被并入本文。
     术语 “葡萄糖脱氢酶” 和 “GDH” 在本文中被互换地使用以指 NAD+ 或 NADP+ 依赖性 酶, 所述酶催化 D- 葡萄糖和 NAD+ 或 NADP+ 分别向葡萄糖酸和 NADH 或 NADPH 的转化。下面 的反应式 (1) 描述葡萄糖脱氢酶催化的葡萄糖对 NAD+ 或 NADP+ 的还原。
     适合用于本文所述方法的实践的葡萄糖脱氢酶包括天然存在的葡萄糖脱氢酶以 及非天然存在的葡萄糖脱氢酶二者。编码天然存在的葡萄糖脱氢酶的基因已在文献中 报道。例如, 枯草芽孢杆菌 61297GDH 基因被表达在大肠杆菌中, 并且据报道其展示了与 在其天然宿主中所产生的酶相同的物理化学性质 (Vasantha 等, 1983, Proc.Natl.Acad. Sci.USA 80 : 785)。对应于 Genbank 登录号 M12276 的枯草芽孢杆菌 GDH 基因的基因序
     列被报道在 Lampel 等, 1986, J.Bacteriol.166 : 238-243 中, 而且其作为 Genbank 登录号 D50453 以修正形式被报道在 Yamane 等, 1996, Microbiology142 : 3047-3056 中。天然存在 的 GDH 基因还包括编码蜡样芽孢杆菌 (B.cereus)ATCC 14579(Nature, 2003, 423 : 87-91 ; Genbank 登录号 AE017013) 和巨大芽孢杆菌 (B.megaterium)(Eur.J.Biochem., 1988, 174 : 485-490, Genbank 登录号 X12370 ; J.Ferment.Bioeng., 1990, 70 : 363-369, Genbank 登录号 GI216270) 中 GDH 的那些。来自芽孢杆菌属的葡萄糖脱氢酶作为 SEQID NO : 10 和 12( 分别 由对应于该 PCT 公布中的 SEQ ID NO : 9 和 11 的多核苷酸序列所编码 ) 被提供在 PCT 公布 WO 2005/018579 中, 其公开通过引用被并入本文。
     可使用已知方法例如诱变、 定向进化以及诸如此类来产生非天然存在的葡萄糖脱 氢酶。可使用 PCT 公布 WO 2005/018579 中实施例 4 所描述的测定容易地鉴定具有适当活 性的 GDH 酶, 不论它是天然存在的还是非天然存在的, 其公开通过引用被并入本文。示例性 的非天然存在的葡萄糖脱氢酶作为 SEQ ID NO : 62、 64、 66、 68、 122、 124 和 126 被提供在 PCT 公布 WO 2005/018579 中。编码它们的多核苷酸序列分别作为 SEQ ID NO : 61、 63、 65、 67、 121、 123 和 125 被提供在 PCT 公布 WO 2005/018579 中。所有这些序列通过引用被并入本 文。 适合用于本文所公开的酮还原酶催化的还原反应的另外的非天然存在的葡萄糖脱氢酶 被提供在美国申请公布第 2005/0095619 和 2005/0153417 号中, 其公开通过引用被并入本 文。
     本文所述的酮还原酶催化的还原反应中使用的葡萄糖脱氢酶可在 PCT 公布 WO 2005/018579 的实施例 4 中所述的测定中展示至少约 10μmol/min/mg 而且有时候至少约 102μmol/min/mg 或约 103μmol/min/mg、 高达约 104μmol/min/mg 或更高的活性。
     本文所述的酮还原酶催化的还原反应通常在溶剂中进行。适合的溶剂包括水、 有 机溶剂 ( 例如乙酸乙酯、 乙酸丁酯、 2- 丙醇 ( 异丙醇或 IPA)、 1- 辛醇、 庚烷、 辛烷、 甲基叔丁 基醚 (MTBE)、 甲苯以及诸如此类 )、 离子液体 ( 例如 1- 乙基 4- 甲基咪唑四氟硼酸盐、 1- 丁 基 -3- 甲基咪唑四氟硼酸盐、 1- 丁基 -3- 甲基咪唑六氟磷酸盐以及诸如此类 )。在一些实 施方案中, 使用含水溶剂, 其包括水和含水共溶剂系统。
     示例性的含水共溶剂系统具有水、 pH 缓冲盐和一种或多种有机溶剂。通常, 选择 含水共溶剂系统的有机溶剂组分以便它不完全地使酮还原酶失活。 可利用酶活性测定例如 本文所述的那些, 通过用候选溶剂系统中感兴趣的确定底物来测量指定的工程化的酮还原 酶的酶活性来容易地鉴定适当的共溶剂系统。
     含水共溶剂系统的有机溶剂组分可与含水组分混溶以提供单液相, 或者可与含水 组分部分混溶或不可混溶以提供两个液相。 通常, 当使用含水共溶剂系统时, 它被选择为双 相性的, 水被分散在有机溶剂中或者相反。通常, 当使用含水共溶剂系统时, 期望选择可从 水相容易地分离的有机溶剂。通常, 共溶剂系统中水和有机溶剂的比例通常是在有机溶剂 对水约 90 ∶ 10 至约 10 ∶ 90(v/v), 以及有机溶剂对水约 80 ∶ 20 至约 20 ∶ 80(v/v) 的范 围内。可在加入反应混合物之前预先形成共溶剂系统, 或者可将其在反应容器中就地 (in situ) 形成。在某些实施方案中, 含水共溶剂系统包括约 5% -40% (v/v)、 约 5% -20% (v/ v)、 约 10-20% (v/v)、 约 15% (v/v) 或约 10% (v/v) 的异丙醇 (IPA)。
     含水溶剂 ( 水或含水共溶剂系统 ) 可以是 pH 缓冲的或未缓冲的。一般地, 可在约 10 或以下, 通常在约 5 至约 10 的范围内的 pH 进行还原。在一些实施方案中, 在约 9.5 或以下, 通常在约 6.5 至约 9.5 的范围内的 pH 进行还原。还原可在约 7.0 至约 9.5 的 pH 进行。 在某些实施方案中, 在约 8.5 至约 9.5 的 pH 进行还原。在具体实施方案中, 在约 9.0 的 pH 进行还原。可选地, 可在中性 pH 即约 7 进行还原。
     在其中使用含水共溶剂的某些实施方案中, 还原的反应条件可包括 pH 约 8.5 至约 9.5 和约 5%至约 40% IPA、 约 pH 9.0 至 9.5 和约 25%至约 40% IPA、 约 pH 8.5 至 9.5 和 约 5%至约 15% IPA、 或约 pH 9.0 和约 10% IPA。在某些实施方案中, 还原的反应条件可包 括 pH 约 6.5 至约 7.0 和约 5%至约 15% IPA、 或约 pH 7.0 和约 5%至 10% IPA。
     在还原反应的过程中, 反应混合物的 pH( 如, 含水共溶剂溶液 ) 可改变。可在反应 过程中通过加入酸或碱而将反应混合物的 pH 维持在期望的 pH 或在期望的 pH 范围内。可 选地, 可使用含有缓冲液的含水溶剂来控制 pH。 维持期望 pH 范围的适合的缓冲液是本领域 已知的并且包括例如磷酸盐缓冲液、 三乙醇胺缓冲液 (TEA) 以及诸如此类。还可使用缓冲 和酸或碱添加的组合。因此, 在某些实施方案中, 具有在以上指定的某些范围中的 pH 和有 机溶剂 ( 如, IPA) 的含水共溶剂, 还可包括缓冲液诸如 TEA。
     当使用葡萄糖 / 葡萄糖脱氢酶辅因子再生系统时, 如果所得的葡萄糖酸水溶液不 被另外中和, 那么反应式 (1) 中所表示的葡萄糖酸 (pKa = 3.6) 的共同产生导致反应混合 物的 pH 下降。可通过标准的缓冲技术 ( 其中所述缓冲液将高达所提供的缓冲能力的葡萄 糖酸中和 ), 或者通过与转化过程同时发生的碱的加入而将反应混合物的 pH 维持在期望水 平。还可使用缓冲和碱添加的组合。上面描述了维持期望 pH 范围的适合的缓冲液。用于 葡萄糖酸中和的适合的碱是有机碱例如胺、 醇化物和诸如此类, 以及无机碱例如氢氧化物 盐 ( 例如 NaOH)、 碳酸盐 ( 例如 NaHCO3)、 碳酸氢盐 ( 例如 K2CO3)、 碱式磷酸盐 ( 例如 K2HPO4、 Na3PO4) 以及诸如此类。可以在监测反应混合物 pH 时手动地, 或者更方便地通过使用被用 作 pH 恒定器的自动滴定器来完成与转化过程同时发生的碱的加入。还可将部分缓冲能力 和碱添加的组合用于过程控制。
     当碱添加被用来中和在酮还原酶催化的还原反应过程中释放的葡萄糖酸时, 可通 过被添加以维持 pH 的碱的量来监测转化过程。通常, 在还原过程中被加入未缓冲的或部分 缓冲的反应混合物的碱以水溶液被加入。
     在一些实施方案中, 辅因子再生系统可包括甲酸脱氢酶。术语 “甲酸脱氢酶” 和 + + + “FDH” 在本文中被互换地使用以指 NAD 或 NADP 依赖性酶, 所述酶催化甲酸和 NAD 或 NADP+ 分别向二氧化碳和 NADH 或 NADPH 的转化。 适合在本文所述的酮还原酶催化的还原反应中用 作辅因子再生系统的甲酸脱氢酶包括天然存在的甲酸脱氢酶以及非天然存在的甲酸脱氢 酶二者。 甲酸脱氢酶包括对应于 PCT 公布 WO 2005/018579 中 SEQ ID NO : 70( 假单胞菌属 ) 和 72( 博伊丁念珠菌 Candida boidinii) 的那些, 其被分别对应于 PCT 公布 2005/018579 中 SEQ ID NO : 69 和 71 的多核苷酸序列所编码, 其公开通过引用被并入本文。用于本文所 述方法的甲酸脱氢酶 ( 不论是天然存在的还是非天然存在的 ) 可展示至少约 1μmol/min/ mg、 有时候至少约 10μmol/min/mg 或至少约 102μmol/min/mg、 高达约 103μmol/min/mg 或 更高的活性, 并且可在 PCT 公布 WO 2005/018579 的实施例 4 中所述的测定中容易地筛选活 性。
     如本文所用, 术语 “甲酸 (formate)” 是指甲酸阴离子 (HCO2-)、 甲酸 (HCO2H) 及其混 合物。 可以以盐 ( 通常为碱金属的盐 (alkali salt) 或铵盐 ( 例如 HCO2Na、 KHCO2NH4 以及诸如此类 ))、 甲酸 ( 通常为甲酸水溶液 ) 或其混合物的形式提供甲酸。甲酸是温和酸。在它 的 pKa( 水中 pKa = 3.7) 的几个 pH 单位以内的水溶液中, 甲酸以平衡浓度的 HCO2- 和 HCO2H 二者存在。在高于约 pH 4 的 pH 值下, 甲酸主要以 HCO2- 存在。当以甲酸 (formicacid) 的 形式提供甲酸 (formate) 时, 通常通过加入碱而对反应混合物进行缓冲或使其酸性减少以 提供期望的 pH, 其通常为约 pH 5 或以上。适用于中和甲酸的碱包括但不限于有机碱例如 胺、 醇化物和诸如此类, 以及无机碱例如氢氧化物盐 ( 例如 NaOH)、 碳酸盐 ( 例如 NaHCO3)、 碳酸氢盐 ( 例如 K2CO3)、 碱式磷酸盐 ( 例如 K2HPO4、 Na3PO4) 以及诸如此类。
     对于高于约 pH 5 的 pH 值 ( 在此条件下甲酸主要以 HCO2- 存在 ), 下面的反应式 (2) + + 描述甲酸脱氢酶催化的甲酸对 NAD 或 NADP 的还原。
     当使用甲酸和甲酸脱氢酶作为辅因子再生系统时, 可通过标准的缓冲技术 ( 其中 所述缓冲液释放高达所提供的缓冲能力的质子 ), 或者通过与转化过程同时发生的酸的加 入而将反应混合物的 pH 维持在期望水平。在反应过程中被加入以维持 pH 的适合的酸包括 有机酸例如羧酸、 磺酸、 膦酸和诸如此类, 无机酸例如氢卤酸 ( 例如盐酸 )、 硫酸、 磷酸和诸 如此类, 酸式盐例如磷酸二氢盐 ( 例如 KH2PO4)、 硫酸氢盐 ( 例如 NaHSO4) 和诸如此类。一些 实施方案利用甲酸 (formic acid), 从而甲酸 (fornmate) 浓度和溶液 pH 二者都得以维持。
     当利用酸添加来维持使用甲酸 / 甲酸脱氢酶辅因子再生系统的还原反应中的 pH 时, 可通过被添加以维持 pH 的酸的量来监测转化过程。通常, 在转化过程中被加入未缓冲 的或部分缓冲的反应混合物的酸以水溶液被加入。
     术语 “仲醇脱氢酶” 和 “sADH” 在本文中被互换地使用以指 NAD+ 或 NADP+ 依赖性酶, 所述酶催化仲醇和 NAD+ 或 NADP+ 分别向酮和 NADH 或 NADPH 的转化。下面的反应式 (3) 描 述仲醇 ( 用异丙醇进行说明 ) 对 NAD+ 或 NADP+ 的还原。
     适合用作本文所述酮还原酶催化的还原反应中辅因子再生系统的仲醇脱氢 酶包括天然存在的仲醇脱氢酶以及非天然存在的仲醇脱氢酶二者。天然存在的仲醇 脱 氢 酶 包 括 来 自 布 氏 热 厌 氧 菌 (Thermoanaerobiumbrockii)、 红 串 红 球 菌、 高加索酸 奶 乳 杆 菌 (Lactobacillus kefiri)、 短 乳 杆 菌 (Lactobacillus brevis)、 微小乳杆菌 (Lactobacillus minor)、 Novosphingobium aromaticivorans 的已知的醇脱氢酶, 而非天 然存在的仲醇脱氢酶包括从其衍生的工程化的醇脱氢酶。用于本文所述方法的仲醇脱氢 酶 ( 不论是天然存在的还是非天然存在的 ) 可展示至少约 1μmol/min/mg、 有时候至少约 2 3 10μmol/min/mg 或至少约 10 μmol/min/mg、 高达约 10 μmol/min/mg 或更高的活性。
     适合的仲醇包括低级仲链烷醇和芳基 - 烷基甲醇。低级仲醇的实例包括异丙醇、 2- 丁醇、 3- 甲基 -2- 丁醇、 2- 戊醇、 3- 戊醇、 3, 3- 二甲基 -2- 丁醇以及诸如此类。在一个实 施方案中, 仲醇是异丙醇。适合的芳基 - 烷基甲醇包括未取代的和取代的 1- 芳基乙醇。
     当仲醇和仲醇脱氢酶被用作辅因子再生系统时, 所得的 NAD+ 或 NADP+ 被仲醇的偶
     合氧化所还原, 其中所述偶合氧化是仲醇脱氢酶将仲醇氧化为酮。一些工程化的酮还原酶 还具有对仲醇还原剂脱氢的活性。在一些将仲醇用作还原剂的实施方案中, 工程化的酮还 原酶和仲醇脱氢酶是同一种酶。因此, 在某些实施方案中, 本公开内容的反应如以下方案 6 和 7 描绘的 :
     方案 6
     方案 7在利用辅因子再生系统进行本文所述的酮还原酶 - 催化的还原反应的实施方案 时, 如方案 6 和 7 所示的, 反应可在低压和 / 或高温下进行以实现去除丙 -2- 酮产物。这种 实施方案还可包括随着反应进行, 添加异丙醇, 如, 通过持续供料或批次添加。
     在进行利用辅因子再生系统的本文所述酮还原酶催化的还原反应的实施方案中, 可最初提供氧化或还原型的辅因子。如上所述, 辅因子再生系统将氧化的辅因子转化为其 还原型, 其然后被用于酮还原酶底物的还原中。
     在一些实施方案中, 辅因子再生系统未被使用。对于不使用辅因子再生系统而进 行的还原反应, 将还原型的辅因子加入反应混合物。
     在一些实施方案中, 当使用宿主生物体的整个细胞进行该过程时, 整个细胞可天 生地提供该辅因子。可选地或共同地, 该细胞可天生地或重组地提供葡萄糖脱氢酶。
     在进行本文所述立体特异性还原反应时, 工程化的酮还原酶和包括任选的辅因子 再生系统的任何酶可以以纯化的酶、 用编码该酶的基因转化的整个细胞和 / 或这种细胞的 细胞提取物和 / 或裂解物的形式被加入反应混合物。编码工程化的酮还原酶和任选的辅因 子再生系统的基因可被分别转化进宿主细胞或一起转化进相同宿主细胞。例如, 在一些实 施方案中, 可用编码工程化的酮还原酶的基因来转化一组宿主细胞, 并用编码辅因子再生 酶的基因来转化另一组。 两组转化细胞可以完整细胞形式或从其衍生的裂解物或提取物形 式一起用于反应混合物。在其他实施方案中, 可用编码工程化的酮还原酶和辅因子再生酶 的基因来转化宿主细胞。
     用编码工程化的酮还原酶和 / 或任选的辅因子再生酶的基因所转化的整个细胞 或者其细胞提取物和 / 或裂解物可以以各种不同形式被使用, 所述形式包括固体 ( 例如冻 干的、 喷雾干燥的以及诸如此类 ) 或半固体 ( 例如粗制的糊状物 )。
     可通过沉淀作用 ( 硫酸铵、 聚乙烯亚胺、 热处理或诸如此类, 接着在冻干之前进行 脱盐程序 ( 例如超滤、 透析以及诸如此类 )) 将细胞提取物或细胞裂解物部分地纯化。可通 过使用已知的交联剂例如戊二醛的交联或固定于固相 ( 例如 Eupergit C 以及诸如此类 ) 来稳定任何细胞制剂。
     可以以各种不同形式将固体反应物 ( 例如酶、 盐等 ) 提供给反应, 所述不同形式 包括粉末 ( 例如冻干的、 喷雾干燥的以及诸如此类 )、 溶液、 乳浊液、 悬液以及诸如此类。可 使用本领域普通技术人员已知的方法和设备将反应物容易地冻干或喷雾干燥。例如, 可以 在 -80℃以小等份将蛋白溶液冷冻, 然后加入预先冷却的冻干室中, 接着施加真空。在从样 品除去水后, 在释放真空并回收冻干的样品之前, 通常将温度提高到 4℃保持两小时。
     取决于期望产物的量并随着所使用的酮还原酶底物的量, 用于还原反应的反应物 的量通常将变化。可使用下述准则来确定待使用的酮还原酶、 辅因子和任选的辅因子再生 系统的量。通常, 可以使用约 50mg/L 至约 5g/L 的酮还原酶和约 10mg 至约 150mg 的辅因子 来利用浓度为约 20g/L 至 300g/L 的酮底物。本领域普通技术人员将容易理解如何改变这 些量以使它们达到期望的产率水平和生产规模。可基于所用辅因子和 / 或酮还原酶的量通 过常规实验来容易地确定任选的辅因子再生系统的适当的量。通常, 以超过酮还原酶底物 的等摩尔水平的水平来利用还原剂 ( 例如葡萄糖、 甲酸、 异丙醇 ) 以获得基本完全的或接近 完全的酮还原酶底物转化。
     反应物的加入顺序不重要。可同时将反应物一起加入溶剂 ( 例如单相溶剂、 双相 含水共溶剂系统以及诸如此类 ), 或可选地可将一些反应物分开加入, 以及将一些在不同时 间点一同加入。例如, 辅因子再生系统、 辅因子、 酮还原酶和酮还原酶底物可被首先加入溶 剂。
     为了在使用含水共溶剂系统时增加混合效率, 可首先将辅因子再生系统、 酮还原 酶和辅因子加入并混合进水相。然后可将有机相加入并混合, 接着加入酮还原酶底物。可 选地, 在加入水相之前, 可将酮还原酶底物在有机相中预先混合。
     进行本文所述的酮还原酶催化的还原反应的适合条件包括各种各样的可被常规 实验容易地优化的条件, 所述常规实验包括但不限于在实验 pH 和温度下将工程化的酮还 原酶和底物相接触并且使用例如本文所提供的实施例中所述的方法检测产物。
     通常在约 15℃至约 85℃、 约 20℃至约 80℃、 约 25℃至约 75℃、 约 30℃至约 70℃、约 35℃至约 65℃、 约 40℃至约 60℃或约 45℃至约 55℃范围内的温度下进行酮还原酶催化 的还原。在某些实施方案中, 酮还原酶催化的还原在约 45℃的温度进行。
     通常允许还原反应进行到基本上完成或者接近完成, 得到底物向产物的转化。可 使用已知方法通过检测底物和 / 或产物来监测底物向产物的还原。适合的方法包括气相 色谱法、 HPLC 以及诸如此类。反应混合物中产生的醇还原产物的转化率通常超过约 50%, 也可超过约 60%, 也可超过约 70%, 也可超过约 80%, 也可超过约 90%, 并且往往超过约 97%、 98%或甚至 99%。
     在下面的代表性实例中说明本公开的各种特征和实施方案, 其旨在是说明性的而 不是限制性的。 6. 实施例
     实施例 1 : 野生型酮还原酶基因的获得和表达载体的构建
     利用标准的密码子优化设计来自野生型 Novosphingobiumaromaticivorans 的 酮还原酶 (KRED)(SEQ ID NO : 2) 编码基因用于在大肠杆菌中表达。( 标准的密码子优化 软件综述在例如, “OPTIMIZER : a webserver for optimizing the codon usage of DNA sequences(OPTIMIZER : 一 种 优 化 DNA 序 列 的 密 码 子 使 用 的 网 络 服 务 器 ), ” Puigbò 等, Nucleic Acids Res.2007 Jul ; 35( 网络服务器特刊 ) : W126-31.Epub 2007 年 4 月 16 日 )。 利用 42 个核苷酸构成的寡核苷酸合成基因, 克隆到表达载体 pCK110900 中在 lac 启动子控 制下, 该表达载体在通过引用并入本文的美国专利申请公布 20060195947 中描绘为图 3。 表 达载体还包含 P15a 复制起点和氯霉素抗性基因。利用标准方法将所得的质粒转化到大肠 杆菌 W3110 或大肠杆菌 BL21 中。
     还将编码本公开内容的工程化的酮还原酶多肽的多核苷酸克隆到载体 pCK110900 中以在大肠杆菌 W3110 或大肠杆菌 BL21 表达。对密码子优化的 KRED 基因进行多轮定向进 化, 产生表 2 中所列的变异序列。
     实施例 2 : 用于产生酮还原酶多肽的摇瓶程序
     含有编码感兴趣的工程化酮还原酶的质粒的大肠杆菌的一个单独微生物菌落被 接种在 50ml 的含有 30μg/ml 氯霉素和 1%葡萄糖的 LuriaBertani 肉汤中。在 30℃培养 箱中以 250rpm 摇动培养细胞过夜 ( 至少 16 小时 )。在 1 升烧瓶中的含 30μg/ml 氯霉素的 250mlTerrific 肉汤 (12g/L 细菌用胰蛋白胨、 24g/L 酵母提取物、 4ml/L 甘油、 65mM 磷酸钾、 pH 7.0、 1mM MgSO4) 中将培养物稀释到在 600nm(OD600) 下 0.2 的光密度, 并允许其在 30℃ 下生长。当培养物的 OD600 是 0.6 至 0.8 时, 通过添加 1mM 终浓度的异丙基 -β-D- 硫代半 乳糖苷 (“IPTG” ) 诱导酮还原酶基因的表达, 然后继续培养过夜 ( 至少 16 小时 )。
     通 过 离 心 (5000rpm、 15min、 4 ℃ ) 收 集 细 胞 并 丢 弃 上 清 液。 用 等 体 积 冷 的 (4℃ )100mM 三乙醇胺 ( 氯化物 ) 缓冲液 pH 7.0( 任选地包括 2mMMgSO4) 将细胞团块重悬 浮, 并如上通过离心收集。在两体积的冷的三乙醇胺 ( 氯化物 ) 缓冲液中将被冲洗的细胞 重悬浮, 并在维持在 4℃时在 12,000psi 下将其通过弗氏压碎器 (French Press) 两次。通 过离心 (9000rpm、 45min、 4℃ ) 除去细胞碎片。收集澄清的裂解物上清液并储存在 -20℃。 对冷冻的澄清裂解物的冻干提供了粗制酮还原酶多肽的干燥摇瓶粉末。可选地, 细胞团块 ( 洗涤前或洗涤后 ) 可储存在 4℃或 -80℃。实施例 3 : 用于产生酮还原酶多肽的发酵步骤
     在通风搅拌的 15L 发酵器中, 利用 6.0L 生长培养基 (0.88g/L 硫酸铵、 0.98g/L 柠 檬酸钠 ; 12.5g/L 三水合磷酸氢二钾、 6.25g/L 磷酸二氢钾、 6.2g/L 的 Tastone-154 酵母提 取物、 0.083g/L 柠檬酸铁铵和 8.3ml/L 含 2g/L 二水合氯化钙、 2.2g/L 七水合硫酸锌、 0.5g/ L 一水合硫酸锰、 1g/L 七水合硫酸亚铜、 0.1g/L 四水合钼酸铵和 0.02g/L 四硼酸钠的微量元 素溶液 ) 进行实验室规模的发酵。用 ( 在实施例 2 中所述的摇瓶中生长的 ) 含有编码感兴 趣的工程化酮还原酶基因的质粒的大肠杆菌 W3110 或大肠杆菌 BL21 的晚期指数培养物在 发酵器中接种, 至 0.5 至 2.0 的起始 OD600。以 500-1500rpm 搅拌发酵器, 并以 1.0-15.0L/ 分钟向发酵容器中提供空气以维持 30%饱和或更高的溶氧水平。通过加入 20% v/v 的氢 氧化铵来将培养物的 pH 维持在 7.0。通过加入含有 500g/L 结晶葡萄糖 (cerelose)、 12g/ L 氯化铵和 10.4g/L 七水合硫酸镁的进料溶液来维持培养物的生长。在培养物达到 50 的 OD600 之后, 通过将异丙基 -β-D- 硫代半乳糖苷 (IPTG) 加到 1mM 的终浓度来诱导酮还原酶 的表达, 发酵继续再 14 小时。然后将培养物冷却到 4℃并维持在该温度直到被收集。通过 在 4℃以 5000G 离心 40 分钟来收集细胞。 将收集的细胞直接用于接下来的下游回收过程或 储存在 4℃或冷冻在 -80℃直到如此使用。
     在 4℃下以每体积的湿细胞糊状物 2 体积的 100mM 三乙醇胺 ( 氯化物 ) 缓冲液 pH 6.8 将细胞团块重悬浮。通过利用 12000psig 的压力将悬浮液穿过装有二阶段均质阀门组 件的均质器来从细胞释放细胞内的酮还原酶。破裂之后马上将细胞匀浆冷却到 4℃。10% w/v 的聚乙烯亚胺 pH 7.2 的溶液被加入裂解物至终浓度 0.5% w/v, 并且搅拌 30 分钟。通 过在标准的实验室离心机上以 5000G 离心 30 分钟而使所得的悬浮液变澄清。将澄清的上 清液倒出并使用具有 30kD 的分子量截留 (cut off) 的纤维素超滤膜将其浓缩十倍。将最 终的浓缩物分配到浅容器中, 在 -20℃下冷冻并冻干为粉末。 将粗制酮还原酶多肽粉末储存 在 -80℃。
     实施例 4 : 酮还原酶催化的还原化合物 (1)((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 为相应醇化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 的转化百分比和非对映体纯度的确定
     酮还原酶催化的立体选择性还原化合物 (1)((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 为相应的醇化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 的转化率通过以时间间隔 ( 如, 第 0.5、 2、 4、 7、 9 和 24 小时 ) 对酶促 反应混合物取样, 如下确定 : 利用配备有 AgilentXDB C18( 长 15cm, 直径 4.6mm) 的 Agilent 1200HPLC, 利用 60 % MeCN、 40 %水 ( 等度 ) 作为洗脱剂, 流速为 1.8ml/min ; 柱温度 25 ℃。 化合物 (1) 保留时间 : 3.119 分钟 ; 化合物 (2) 保留时间 : 2.378 分钟。底物 ( 化合物 (1)) 和产物 ( 化合物 (2)) 的量基于在 210nm 检测的 HPLC 峰面积确定。
     酮还原酶多肽催化的反应产物化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯 基丁烷 -2- 基氨基甲酸酯 ) 的非对映体纯度如下确定 : 利用配备有 Agilent XDB C18( 长 15cm, 直径 4.6mm) 的 Agilent 1200 HPLC, 利用 50% MeCN、 50%水 ( 等度 ) 作为洗脱剂, 流 速为 1.50mL/min, 温度 20℃。 化合物 (2) 的期望非对映体的保留时间 : 5.083min ; 不希望的 非对映体 ( 和底物 ) 的保留时间 : 4.050min。
     实施例 5 : 预筛选能够在 NADP+ 存在下还原异丙醇以产生 NADPH 和丙酮的工程化的酮还原酶多肽
     这一实施例阐述用于鉴定编码能够在 NADP+ 存在下还原异丙醇以产生丙酮和 NADPH 的酮还原酶的变异基因的预筛选检验。利用 自动菌落挑取器 (GenetixUSA, Inc., Boston, MA) 将含编码工程化的酮还原酶的质粒的大肠杆菌菌落挑取到包含 180μL Terrific 肉汤 (TB)、 1%葡萄糖和 30μg/mL 氯霉素 (CAM) 的 96 孔的浅孔微量滴定 板。细胞在 30℃生长过夜, 伴随以 200rpm 摇动。然后将此培养物的 10μL 等份转移到包 含 390μL Terrific 肉汤 (TB)、 1mM MgSO4 和 30μg/mL CAM 的 96- 深孔板中。在 30℃伴随 以 250rpm 摇动培养深孔板 2-3 小时后, 通过加入 IPTG 至终浓度 1mM 来诱导培养细胞中的 重组基因表达。然后在 30℃伴随以 250rpm 摇动培养板 18 小时。
     细胞通过离心 (4000RPM, 10 分钟, 4℃ ) 沉淀, 重悬在 400μL 裂解缓冲液中, 通过 在室温摇动 2 小时而裂解。裂解缓冲液包含 100mM 三乙醇胺 ( 氯化物 ) 缓冲液、 pH 7、 1mg/ mL 溶菌酶、 500μg/mL 硫酸多粘菌素 B(“PMBS” ) 和 1mM MgSO4。用铝 / 聚丙烯薄片热封带 (Velocity 11, Menlo Park, CA, 目录号 06643-001) 密封板后, 在室温剧烈摇动板 2 小时。 细胞碎片通过离心 (4000RPM, 10 分钟, 4℃ ) 收集, 直接检验澄清上清液, 或在 4℃储存直到 使用。
     在这一检验中, 将 20μl 样品 ( 稀释在 100mM 三乙醇胺 ( 氯化物 ) 缓冲液中、 与裂 解缓冲液相同的 pH、 和 1mM MgSO4) 加至 96 孔黑色微量滴定板的孔中的 180μl 检验混合 物。检验缓冲液由 100mM 三乙醇胺 ( 氯化物 ) 缓冲液、 pH 7、 50%异丙醇 (IPA)、 1mM MgSO4 + + 和 222μM NADP 组成。 反应后, 利用 设备测量 NADP 随着被转化为 NADPH 的荧 光减少 (Molecular Devices, Sunnyvale, CA)。在 330nm 激发后, 在 445nm 测量 NADPH 荧光。 如果需要, 在添加到检验混合物之前, 裂解物样品可在 50% IPA 存在或不存在下在 25-40℃ 预培养。
     实 施 例 6: 筛 选 能 够 立 体 选 择 性 转 化 底 物 化 合 物 (1)((S)- 叔 丁 基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 为相应的产物化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 的工程化的酮还原酶多肽
     利 用 上 述 定 向 进 化 方 法 将 如 实 施 例 1 构 建 的 来 源 自 Novosphingobiumaromaticivorans 的密码子优化的酮还原酶基因 (SEQ ID NO : 1) 进行诱 变, 将突变体 DNA 分子的群体转化到适当的大肠杆菌宿主菌株中。选择抗生素抗性转化体 并处理以鉴定表达具有转化化合物 (1) 为化合物 (2) 的改进的能力的酮还原酶的转化体。
     细胞选择、 生长、 诱导变异酮还原酶基因和收集细胞团块如实施例 5 所述。通过向 每个孔添加 400μL 裂解缓冲液 (1mM MgSO4、 0.5mg/ml 硫酸多粘菌素 B(“PMBS” )、 1mg/ml + 溶菌酶、 100mM 三乙醇胺 (pH ~ 6) 和 1mg/mL NADP ) 来裂解细胞团块。密封板, 在室温剧烈 摇动板 2 小时, 然后在 4℃以 4000rpm 离心 10 分钟。回收上清液, 在 4℃储存直到使用。
     酶促还原检验 : 利用 Multidrop 仪器 (MTX Lab Systems, Vienna VA) 将异丙醇 与固体底物 ((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 的混合物的等份 (450μL) 加到 深孔板的每个孔, 随后利用 MultimekTM 仪器 (Multimek, Inc., Santa Clara CA) 自动添加 50μL 回收的裂解物上清液, 以提供包含 10mg/ml 底物 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯、 0.1mg/ml NADP+、 10mM 三乙醇胺 pH ~ 6 和10%异丙醇 (v/v) 的反应。在 170℃用铝 / 聚丙烯薄片热封带 (Velocity 11(Menlo Park, CA), 目录号 06643-001) 热密封板 2.5 秒, 然后在室温摇动板过夜 ( 至少 16 小时 )。通过 添加 1ml 甲基叔丁基醚 (MTBE) 来猝灭反应。再次密封板, 摇动 5 分钟, 然后以 4000rpm 离 心 10 分钟。 将 250μL 等份的澄清反应混合物转移到新的浅孔聚丙烯板 (Costar#3365), 密 封, 然后利用上述方法对提取物进行 HPLC 分析 ( 如, 参见实施例 4)。
     在 pH ~ 6 和 10% IPA(v/v) 的高通量筛选检验 : 将含 1g/L NADP+ 的 50μl 细胞裂 解物转移到包含 450μl 检验混合物 ( 每 100ml 检验混合物 : 5ml 100mM 三乙醇胺 ( 氯化物 ) (pH 7)、 13.4g(S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯和 10ml 异丙醇 ) 的 深孔板 (Costar#3960)。密封板后, 反应在室温进行至少 16 小时。通过添加 1ml 95% MTBE 来猝灭反应, 用铝 / 聚丙烯薄片热封带 (Velocity 11(Menlo Park, CA), 目录号 06643-001) 密封板, 摇动 5-10min, 以 4000rpm 离心 10 分钟。将 250μL 等份的澄清反应混合物转移到 新的浅孔聚丙烯板 (Costar#3365), 然后密封。 对以这种方式制备的提取物进行如上所述的 HPLC 分析。
     利用以上公开的程序鉴定能够以高转化率 ( 如, 24 小时内至少约 70-95% ) 和高 非对映体纯度 ( 如, 至少约 85-99% d.e) 转化 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基 氨基甲酸酯为叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯的工程化的 酮还原酶多肽。进行这些程序的多次迭代, 其中从一轮诱变分离具有改进的特性的一种或 多种工程化的酮还原酶基因, 并将其用作下一轮诱变和筛选的起始材料。从这些多轮定向 进化获得的一些改进的工程化的酮还原酶在本文公开, 列在表 2。
     实 施 例 7 : 利 用 异 丙 醇 用 于 辅 因 子 再 生, 来 源 自 Novosphingobiumaromaticivorans 的 工 程 化 的 酮 还 原 酶 立 体 选 择 性 还 原 (S)- 叔 丁 基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯化合物 (1)
     如下检验如上所述的来源自 Novosphingobium aromaticivorans 的工程化的酮还 原酶在制备规模地还原 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯中的使用。 将 100mM 三乙醇胺 ( 氯化物 ) 缓冲液 pH 7 中 100μL 待试验的工程化的酮还原酶 (10mg/mL) 和 NADP-Na(1mg/mL) 的溶液合并在装备有磁性搅拌棒的 5mL 反应小瓶中。随后, 将 85μL 异丙醇 (“IPA” ) 加到酶 /NADP-Na 溶液, 然后加入 120mg 化合物 (1)。在室温搅拌反应, 化 合物 (1) 向化合物 (2) 的转化通过利用实施例 4 中公开的分析方法, HPLC 分析在 24 小时 阶段定期从反应获取的样品来监测。
     表 2 标明了酮还原酶变体 ( 由多核苷酸和多肽 SEQ ID NO)、 相对于野生型酮还原 酶多肽 SEQ ID NO : 2 的氨基酸突变、 和每种变体相对于具有氨基酸序列 SEQ ID NO : 2 的野 生型酶的活性的相对活性。如表 2 列出的结果所示的, 几乎所有工程化的酮还原酶具有野 生型多肽活性的至少 120% ( 即, 1.2 倍或更大 ) 活性, 多种工程化的酮还原酶 ( 如, 多肽 SEQ ID NO : 6、 50、 52、 56) 具有导致改进的活性比 SEQ ID NO : 2 大至少 300% ( 即, 3 倍或更大 ) 的突变。这些结果说明, 本文公开的来源自酮还原酶 Novosphingobium aromaticivorans 的工程化的酮还原酶提供与野生型酮还原酶 SEQ ID NO : 2 相比还原式 (I) 化合物诸如化合 物 (1) 的改进的活性。
     实施例 8 : 在立体选择性制备规模转化化合物 (1) 为化合物 (2)、 和转化化合物 (2) 为化合物 (3) 中使用工程化的酮还原酶向装备有上悬的搅拌器、 导流板和内部温度计的 1L 加套过程反应器顺序地充入 90.0g 化合物 (1)、 400ml 100mM 三乙醇胺溶液 (pH 9.0)、 60ml IPA 和 NAD+(300mg)。搅拌 所得的浆状物 10min, 加入 600mg 工程化的酮还原酶多肽 SEQ ID NO : 6。加热反应混合物到 45℃, 以 150rpm 搅拌前 4 小时, 随后以 250rpm 搅拌。在反应时进行工序内 HPLC 分析以确 定化合物 (1) 向化合物 (2) 的转化 ( 如实施例 4 所述 )。工序内分析指示 99.8%转化 ( 在 9 小时时 ) 后, 将反应冷却到 20℃。
     将 MTBE(600mL) 加入反应浆状物, 以 250rpm 搅动 50min。 允许各相分离, 取出水层。 分别收集 MTBE 相。重新充入水层, 加入 MTBE(300mL)。以 250rpm 搅动双相混合物 45min。 允许各相分离, 取出水层。对水相的 HPLC 分析 ( 如实施例 4 中为确定转化所描述的 ) 指示 > 99%产物已被取出。将合并的 MTBE 层过滤通过硅藻土垫 (30g), 用 90mLMTBE 洗涤滤饼, 在 250rpm 用 90mL 水洗涤联合的 MTBE 相 15min。允许各相分离, 取出水层。根据 HPLC 确定 期望产物化合物 (2) 的纯度为 98.4%。
     将 KOH(39.7g, 85% w/w) 加到含化合物 (2) 的有机相, 在 250rpm 和 25℃搅拌。工 序内 HPLC 分析指示> 99.9%转化 ( 在 8 小时时 ) 后加入 180ml 水, 在 250rpm 搅拌双相混 合物 30min。允许各相分离, 取出水层。用水 (90mL 和 180mL) 重复洗涤两次。将剩余 MTBE 相 (1L) 浓缩到 400mL, 然后加入 600ml 正庚烷。 利用 50℃的套内温度, 同时逐步减少压力到 105Torr 再次将所得混合物浓缩到 400mL。这一步骤重复一次。对剩余正庚烷层的 GC 分析 指示≤ 0.7% MTBE 保留, 加入正庚烷以获得总体积 1L。在 120rpm 搅拌溶液, 调整溶液的温 度为 20℃。以 20mg 纯化合物 (3) 对溶液引晶, 搅拌 1 小时。以 0.5℃的阶梯经 150min 将温 度逐渐降低到 17.5℃。搅拌另外 1 小时后观察到结晶形成。在 400rpm 搅拌所得的更粘稠 的溶液, 温度降低到 0℃, 搅拌 30min。排空反应器, 在减压下过滤白色物质, 用冷的正庚烷 (2×180ml) 洗涤, 在大约 20mmHg 干燥 24 小时。这在单次收获 (single crop) 中提供作为 白色固体的 64.4g(81%产率 ) 的化合物 (3) 叔丁基 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯 基乙基氨基甲酸酯, 化学纯度为 98.9%, 非对映体纯度为> 99.9% de。产率的余量在母液 中, 并可作为二次收获 (second crop) 被分离以提供大约 98-99%的几乎定量的总产率。 合 理地预计, 修改的结晶方法可导致几乎定量的化合物 (3) 纯产物的单次收获产率。
     本申请中所引用的所有出版物、 专利、 专利申请和其他文件为所有目的通过引用 以其整体并入本文, 达到如同单个出版物、 专利、 专利申请或其他文件单独表明为了所有目 的而通过引用被并入的程度。
     本公开内容涉及工程化的多肽和其用于从 α- 氯代酮制备 α- 氯代醇的用途。
     2. 对序列表、 表格或计算机程序的引用
     根 据 37C.F.R.1.821 以 计 算 机 可 读 形 式 (CRF) 通 过 EFS-Web 使 用 文 件 名 CX2-012WO1_ST25.txt 同时电子提交的序列表通过引用被并入本文。电子版的序列表创建 于 2010 年 6 月 22 日, 其文件大小为 143 千字节。
     3. 背景
     立体选择性还原 α- 卤代 - 酮为其相应的手性卤代 - 醇是见于许多有用的合成途 径中的转化。例如, 形成抗病毒化合物阿扎那韦 (atazanavir) 的合成途径包括还原来源自 L- 苯丙氨酸的 Boc- 氯 - 酮为相应的手性 Boc-(S)- 氯 - 醇。进行这一转化的标准化学技术 产生需要进一步拆分的期望中间产物的非对映体混合物, 增加了阿扎那韦生产的成本和降 低效率。因此, 能够更有效地立体选择性还原 α- 卤代 - 酮为手性卤代 - 醇的方法和组合 物将是期望的。 已经发现属于酮还原酶 (KRED) 或羰基还原酶类 (EC1.1.1.184) 的某些酶可用于 立体选择性转化前 - 立体异构的醛或酮底物为相应的手性醇产物。 KRED 通常将酮或醛底物 转化为相应的醇产物, 但是还可以催化逆反应, 即醇底物被氧化为相应的酮 / 醛产物。酶例 如 KRED 对酮和醛的还原以及醇的氧化需要辅因子, 其中最常见的为还原型烟酰胺腺嘌呤 二核苷酸 (NADH) 或还原型烟酰胺腺嘌呤二核苷酸磷酸 (NADPH) 以及用于氧化反应的烟酰 胺腺嘌呤二核苷酸 (NAD) 或烟酰胺腺嘌呤二核苷酸磷酸 (NADP)。NADH 和 NADPH 充当电子 供体, 而 NAD 和 NADP 充当电子受体。
     KRED 正日益被用于立体选择性转化酮和醛为用于关键药物化合物生产的手性 醇化合物。使用 KRED 来产生有用的化合物的实例包括 4- 氯乙酰基乙酸酯的不对称还 原 (Zhou, J.Am.Chem.Soc.1983 105 : 5925-5926 ; Santaniello, J.Chem.Res.(S)1984 : 132-133 ; 美国专利第 5,559,030 号 ; 美国专利第 5,700,670 号和美国专利第 5,891,685 号 )、 二氧代羧酸的还原 ( 例如美国专利第 6,399,339 号 )、 (S) 氯 -5- 羟基 -3- 氧代己酸 叔丁基酯的还原 ( 例如美国专利第 6,645,746 号和 WO 01/40450)、 基于吡咯并三嗪的化 合物的还原 ( 例如美国申请第 2006/0286646 号 )、 取代苯乙酮的还原 ( 例如美国专利第 6,800,477 号 ) 和酮噻吩烷 (ketothiolanes) 的还原 (WO 2005/054491)。 在另一个方法中, 如本文证明的, 酮还原可在醇诸如异丙醇的存在下进行, 以提供逆反应 ( 醇脱氢 ) 的底物。 以这种方式, 酮还原反应中消耗的 NADH/NADPH 通过逆向、 氧化反应再生。
     美国专利第 7,083,973 号公开了一种通过利用红球菌属 (Rhodococcus) 和短 杆菌属 (Brevibacterium) 的某些物种还原含相应酮基团的化合物, 制备 (3S, 2R)-1- 卤 代 -2- 羟基 -3-( 保护的 ) 氨基 -4- 取代的丁烷的立体选择性方法。 ‘973 专利公开, 仅 红球菌属和短杆菌属的选定物种催化该还原以形成高量和对映体产率的期望的 (3S, 2R)-1- 卤代 -2- 羟基 -3-( 保护的 ) 氨基 -4- 取代的丁烷。 ‘973 专利公开, 将来自 150g 红 串 红 球 菌 (Rhodococcus erythropolis)ATCC 4277 细 胞 的 10mL 细 胞 提 取 物 加 载 于
     KRED 正日益被用于立体选择性转化酮和醛为用于关键药物化合物生产的手性 醇化合物。使用 KRED 来产生有用的化合物的实例包括 4- 氯乙酰基乙酸酯的不对称还 原 (Zhou, J.Am.Chem.Soc.1983 105 : 5925-5926 ; Santaniello, J.Chem.Res.(S)1984 : 132-133 ; 美国专利第 5,559,030 号 ; 美国专利第 5,700,670 号和美国专利第 5,891,685 号 )、 二氧代羧酸的还原 ( 例如美国专利第 6,399,339 号 )、 (S) 氯 -5- 羟基 -3- 氧代己酸 叔丁基酯的还原 ( 例如美国专利第 6,645,746 号和 WO 01/40450)、 基于吡咯并三嗪的化 合物的还原 ( 例如美国申请第 2006/0286646 号 )、 取代苯乙酮的还原 ( 例如美国专利第 6,800,477 号 ) 和酮噻吩烷 (ketothiolanes) 的还原 (WO 2005/054491)。 在另一个方法中, 如本文证明的, 酮还原可在醇诸如异丙醇的存在下进行, 以提供逆反应 ( 醇脱氢 ) 的底物。 以这种方式, 酮还原反应中消耗的 NADH/NADPH 通过逆向、 氧化反应再生。
     美国专利第 7,083,973 号公开了一种通过利用红球菌属 (Rhodococcus) 和短 杆菌属 (Brevibacterium) 的某些物种还原含相应酮基团的化合物, 制备 (3S, 2R)-1- 卤 代 -2- 羟基 -3-( 保护的 ) 氨基 -4- 取代的丁烷的立体选择性方法。 ‘973 专利公开, 仅 红球菌属和短杆菌属的选定物种催化该还原以形成高量和对映体产率的期望的 (3S, 2R)-1- 卤代 -2- 羟基 -3-( 保护的 ) 氨基 -4- 取代的丁烷。 ‘973 专利公开, 将来自 150g 红 串 红 球 菌 (Rhodococcus erythropolis)ATCC 4277 细 胞 的 10mL 细 胞 提 取 物 加 载 于
     10mg(1S)-[N-(1- 苄基 -2- 氧 -3- 氯 ) 丙基 ] 氨基甲酸叔丁基酯底物、 葡萄糖脱氢酶 (35 单 + 位 )、 0.7mM NAD 和 200mg 葡萄糖 ( 反应在 pH 6.0、 150RPM 搅动和 30℃进行 ) 以 95%产率 和> 98%非对映体纯度产生 (1S, 2R)-[N-(1- 苄基 -2- 羟基 -3- 氯 ) 丙基 ] 氨基甲酸叔丁 基酯产物。
     因此, 能够以高产率和高的非对映体纯度立体选择性转化 α- 卤代 - 酮为卤 代 - 醇的分离的 KRED 多肽将是期望的。同样, 利用 KRED 多肽进行大规模手性卤代 - 醇的 制备的改进方法将是期望的。
     4. 概述
     本公开内容提供能够立体选择性地转化 α- 卤代 - 酮为手性卤代 - 醇的酮还原酶 多肽, 和在合成方法中利用这些多肽来制备化学化合物的方法, 所述化学化合物诸如生产 活性药物成分诸如抗逆转录病毒药物阿扎那韦中的中间产物。
     在某些实施方案中, 本公开内容提供能够转化式 (I) 化合物 N- 保护的 (S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 酮 ( 其中 R1 是保护基 ) 为相应的立体异构醇式 (II) 产物 N- 保 护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇的酮还原酶多肽, 如以下方案 1 所示。
     方案 1
     在 具 体 实 施 方 案 中, 本 公 开 内 容 提 供 能 够 转 化 氯 代 酮 化 合 物 (1)((S)- 叔 丁 基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 为相应的醇化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 的酮还原酶多肽, 如以下方案 2 所示 :
     方案 2
     方案 2
    
     在某些实施方案中, 本公开内容提供能够在 24 小时内以至少 70%的转化率转化 包含初始浓度为至少 10g/L 化合物 (1) 的反应混合物为化合物 (2) 的酮还原酶多肽。在某 些实施方案中, 能够进行这一转化的多肽的浓度是 5g/L、 2g/L、 1g/L、 或更少。在某些实施 方案中, 所述多肽能够在 24 小时或甚至更少时间内达到至少 80%、 85%、 90%、 95%、 98%、 99%、 或更高的转化率。在某些实施方案中, 所述多肽能够转化化合物 (1) 为大于约 95%、 大于约 97%或大于约 99%非对映体过量的化合物 (2)。在某些实施方案中, 所述多肽能够
     对包含初始浓度为至少 20g/L、 40g/L、 60g/L、 80g/L、 100g/L、 150g/L、 200g/L 或甚至更多的 化合物 (1) 的反应混合物达到上述转化率。
     在某些实施方案中, 本公开内容提供转化式 (I) 化合物为式 (III) 化合物的方法 1 ( 参见方案 3), 其中 R 如上所述, 所述方法包括利用本公开内容的酮还原酶转化式 (I) 化 合物为式 (II) 化合物, 然后将式 (II) 化合物与碱接触以提供式 (III) 化合物。
     方案 3
     在某些实施方案中, 该方法还包括将包含式 (II) 化合物的反应混合物萃取到有 机溶剂萃取物中, 将所述萃取物与碱接触。 在某些实施方案中, 该方法还包括用结晶溶剂交 换所述有机溶剂萃取物, 并结晶式 (III) 化合物。在某些实施方案中, 进行将式 (II) 化合 物与碱接触的所述步骤而不首先纯化和 / 或分离式 (II) 化合物。
     因此, 在具体实施方案中, 本公开内容提供转化化合物 (1) 为化合物 (3)( 叔丁基 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯乙基氨基甲酸酯 ) 的方法, 包括利用本公开内容的酮 还原酶转化化合物 (1) 为化合物 (2), 然后将化合物 (2) 与碱接触以提供化合物 (3)( 参见 方案 4)。
     方案 4
     方案 4
    
     在某些实施方案中, 该方法还包括将包含化合物 (2) 的反应混合物萃取到有机溶 剂萃取物中, 将所述萃取物与碱接触。 在某些实施方案中, 该方法还包括用结晶溶剂交换所 述有机溶剂萃取物, 并结晶化合物 (3)。在某些实施方案中, 进行将化合物 (2) 与碱接触的 所述步骤而不首先纯化和 / 或分离化合物 (2)。
     在 一 些 实 施 方 案 中, 还 原 或 转 化 底 物 N- 保 护 的 (S)-3- 氨 基 -1- 氯 -4- 苯 基 丁 -2- 酮 ( 如 化 合 物 (1)) 为 其 相 应 的 立 体 异 构 醇 产 物 N- 保 护 的 (2R, 3S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 醇 ( 如化合物 (2)) 的方法, 包括在适于还原或转化底物为产物的 条件下将所述底物与至少一种本文公开的酮还原酶多肽接触或培养。
     在上述方法的一些实施方案中, 底物被还原为大于约 95%、 大于约 97%或大于约 99%非对映体过量的产物, 其中酮还原酶多肽包括对应于 SEQ IDNO : 4、 6、 8、 10、 12、 14、 16、
     在 一 些 实 施 方 案 中, 还 原 或 转 化 底 物 N- 保 护 的 (S)-3- 氨 基 -1- 氯 -4- 苯 基 丁 -2- 酮 ( 如 化 合 物 (1)) 为 其 相 应 的 立 体 异 构 醇 产 物 N- 保 护 的 (2R, 3S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 醇 ( 如化合物 (2)) 的方法, 包括在适于还原或转化底物为产物的 条件下将所述底物与至少一种本文公开的酮还原酶多肽接触或培养。
     在上述方法的一些实施方案中, 底物被还原为大于约 95%、 大于约 97%或大于约 99%非对映体过量的产物, 其中酮还原酶多肽包括对应于 SEQ IDNO : 4、 6、 8、 10、 12、 14、 16、
     18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的序列。
     在上述方法的某些实施方案中, 当以大于约 100g/L 底物和少于约 5g/L 多肽进行 时, 至少约 95%的底物在少于约 24 小时内被转化为产物。在某些实施方案中, 能够进行该 方法的多肽包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列。在上述方法的一些实施 方案中, 当以大于约 150g/L 底物和少于约 1g/L 多肽进行时, 至少约 95%的底物在少于约 30 小时内被转化为产物, 其中多肽包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列。
     一方面, 本文所述的酮还原酶多肽具有与野生型酮还原酶相比或与工程化的酮还 原酶相比具有一种或多种氨基酸差异的氨基酸序列。一种或多种氨基酸差异导致该酶对 指定底物至少一种改进的特性。通常, 本文所述的酮还原酶多肽是与从 Novosphingobium aromaticivorans 获得的天然存在的野生型酮还原酶 (“N.aromaticivorans” ; SEQ ID NO : 2) 相比具有一种或多种改进的特性的工程化的酮还原酶多肽。 工程化的酮还原酶多肽的酶 特性的改进包括以下的增加 : 酶活性、 立体选择性、 立体特异性、 热稳定性、 溶剂稳定性、 对 底物水平升高的耐受和对产物水平升高的耐受。
     在一些实施方案中, 本发明的酮还原酶多肽与 SEQ ID NO : 2 相比在酶促活性的比 率 (rate) 方面是改进的, 即, 还原 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮 (“底 物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 醇 (“产物” )( 如, 化合物 (2)) 的转化率 (conversion rate)。在一些实施方案 中, 在相当的检验条件下, 工程化的酮还原酶多肽能够以 SEQ ID NO : 2 的酶表现的速率的至 少 1.1 倍、 1.2 倍、 1.3 倍、 1.5 倍、 2 倍、 3 倍或大于 3 倍的转化率转化底物为产物。
     在 一 些 实 施 方 案 中, 这 种 酮 还 原 酶 多 肽 还 能 够 转 化 N- 保 护 的 (S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 酮 (“底物” )( 如, 化合物 (1), 其中保护基是 BOC 部分 ) 为非对 映体过量百分比至少约 95%的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 ( “产 物” )( 如化合物 (2))。在一些实施方案中, 这种酮还原酶多肽还能够转化底物为非对映体 过量百分比至少约 97%的产物。在一些实施方案中, 这种酮还原酶多肽还能够转化底物为 非对映体过量百分比至少约 99%的产物。具有这种特性的示例性的多肽包括但不限于, 包 含 对 应 于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够转化 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1)), 其中保护基是 BOC 部分 ) 为非对映体过量百分比 至少约 99%的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)), 转化率比 SEQ ID NO : 2 多肽改进至少约 1.2 倍或更大。具有这种特性的示例性的多 肽包括但不限于, 包含对应于 SEQID NO : 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够转化 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如, 化合物 (1), 其中保护基是 BOC 部分 ) 为非对映体过量百分比 至少约 99%的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)), 转化率比 SEQ ID NO : 2 多肽改进至少约 1.5 倍或更大。具有这种特性的示例性的多 肽包括但不限于, 包含对应于 SEQID NO : 6、 18、 22、 30、 38、 40、 50、 52、 54 和 56 的氨基酸序列 的多肽。在一些实施方案中, 酮还原酶多肽能够转化 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为非对映体过量百分比至 少约 99 %的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)), 转化率比 SEQ ID NO : 2 多肽改进大于 3 倍。具有这种特性的示例性的多肽包括但不 限于, 包含对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 当以大于约 100g/L 底物和少于约 5g/L 多肽进行时, 酮还原酶 多肽能够在少于约 24 小时内转化至少约 95%的底物为产物。具有这一能力的示例性的多 肽包括但不限于, 包含对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽是高度立体选择性的, 其中多肽可还原底物为 大于约 99%、 99.1%、 99.2%、 99.3%、 99.4%、 99.5%、 99.6%、 99.7%、 99.8%或 99.9%非 对映体过量的产物。具有高立体选择性的示例性的酮还原酶多肽包括但不限于, 包含对应 于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 为了辅因子再生, 酮还原酶多肽具有对仲醇的活性增加的改 进特性。在一些实施方案中, 相对于参考多肽 SEQ ID NO : 2, 酮还原酶多肽以至少 2 倍、 2.5 倍、 5 倍、 10 倍、 15 倍或甚至更大的活性氧化异丙醇 (IPA) 为丙酮。表现对 IPA 的活性增加 的改进特性的示例性的酮还原酶多肽包括但不限于, 包括对应于 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的氨基酸序列的多肽。 在某些实施方案中, 本公开内容的酮还原酶多肽与参考序列 SEQ IDNO : 2 至少约 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85%、 86%、 87%、 88%、 89%、 90%、 91%、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相 同, 并在对应于 SEQ ID NO : 2 的所指位置的位置具有至少一种以下氨基酸差异 : 位置 2 的 氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨 基酸 ; 位置 28 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂 肪族或非极性氨基酸 ; 位置 34 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极 性氨基酸 ; 位置 47 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸 的脂肪族或非极性氨基酸 ; 位置 50 的氨基酸是选自赖氨酸和精氨酸的碱性氨基酸 ; 位置 81 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸 ; 位置 90 的氨基酸是 选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 位置 91 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极 性氨基酸, 或位置 91 的氨基酸是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸, 或位置 91 的氨基酸是选自赖氨酸和精氨酸的碱性氨基酸 ; 位置 94 的氨基酸是碱性氨基酸精氨酸 ; 位置 112 的氨基酸是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸 ; 位置 117 的氨基酸是 选自天冬氨酸和谷氨酸的酸性氨基酸 ; 位置 143 的氨基酸是选自赖氨酸和精氨酸的碱性氨 基酸 ; 位置 144 的氨基酸是半胱氨酸, 或位置 144 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝 氨酸和苏氨酸的极性氨基酸 ; 位置 145 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸 和甲硫氨酸的非极性氨基酸或选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸的脂肪族氨基酸 ; 位 置 148 的氨基酸是选自脯氨酸和组氨酸的受限制的氨基酸 ; 位置 150 的氨基酸是选自亮氨
     酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或位置 150 的氨基酸 是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸, 或位置 150 的氨基酸是选自酪 氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸 ; 位置 152 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨 酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸 ; 位置 153 的氨基酸是选自丙氨 酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸 和脯氨酸的受限制的氨基酸 ; 位置 158 的氨基酸是选自天冬酰胺、 谷氨酰胺和丝氨酸的极 性氨基酸 ; 位置 190 的氨基酸是选自丙氨酸、 缬氨酸、 亮氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸 的非极性或脂肪族氨基酸, 或位置 190 的氨基酸是选自天冬酰胺、 谷氨酰胺和丝氨酸的极 性氨基酸, 或位置 190 的氨基酸是脯氨酸 ; 位置 198 的氨基酸是选自天冬酰胺、 谷氨酰胺和 苏氨酸的极性氨基酸 ; 位置 199 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲硫氨 酸的脂肪族或非极性氨基酸, 或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸 ; 位置 200 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甘氨酸的非极性氨基酸 ; 位 置 204 的氨基酸是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸 ; 位置 217 的氨基酸是选 自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸 ; 位置 225 的氨基酸是选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的非极性氨基酸 ; 位置 231 的氨基酸是选自酪氨酸、 色氨酸和苯 丙氨酸的芳香族氨基酸 ; 位置 232 的氨基酸是选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲 硫氨酸的非极性氨基酸 ; 位置 233 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的 极性氨基酸 ; 位置 244 的氨基酸是选自丙氨酸、 亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲硫氨 酸的非极性氨基酸 ; 位置 260 的氨基酸是选自酪氨酸和色氨酸的芳香族氨基酸 ; 和位置 261 的氨基酸是选自天冬酰胺、 谷氨酰胺和苏氨酸的极性氨基酸。
     在某些实施方案中, 本公开内容的酮还原酶多肽与参考序列 SEQ IDNO : 2 至少约 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99 % 相同, 与 SEQ ID NO : 2 相比具有选自以下组成的组的至少一种氨基酸取代 : P2L ; V28A ; A34S ; A47V ; E50K ; D81N ; S90V ; I91L ; I91W ; I91R ; I91K ; K94R ; D112Y ; G117D ; S143R ; V144C ; V144T ; G145A ; G145V ; R148H ; A150G ; A150I ; A150S ; A150W ; F152L ; N153G ; N153V ; N153H ; T158S ; G190A ; G190P ; G190Q ; G190V ; S198N ; I199G ; I199L ; I199M ; I199N ; M200I ; V204F ; A217T ; I225V ; P231F ; A232V ; E233Q ; D244G ; F260Y ; S261N ; 和其混合物。
     在一些实施方案中, 本公开内容的改进的酮还原酶多肽是基于 SEQ IDNO : 2 的序 列, 并包括与参考序列 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93%、 94%、 95%、 96%、 97%、 98%或 99%相同的氨基酸序列, 还包括选自以下组成的组的 至少一种氨基酸取代 : 位置 2 的脯氨酸残基被亮氨酸代替 ; 位置 28 的缬氨酸残基被丙氨酸 代替 ; 位置 34 的丙氨酸残基被丝氨酸代替 ; 位置 47 的丙氨酸残基被缬氨酸代替 ; 位置 50 的 谷氨酸残基被赖氨酸代替 ; 位置 81 的天冬氨酸残基被天冬酰胺代替 ; 位置 90 的丝氨酸残 基被缬氨酸代替 ; 位置 91 的异亮氨酸残基被选自亮氨酸、 色氨酸、 精氨酸和赖氨酸的氨基 酸代替 ; 位置 94 的赖氨酸残基被精氨酸代替 ; 位置 112 的天冬氨酸残基被酪氨酸代替 ; 位 置 117 的甘氨酸残基被天冬氨酸代替 ; 位置 143 的丝氨酸残基被精氨酸代替 ; 位置 144 的缬氨酸残基被选自半胱氨酸和苏氨酸的氨基酸代替 ; 位置 145 的甘氨酸残基被选自丙氨酸和 缬氨酸的氨基酸代替 ; 位置 148 的精氨酸残基被组氨酸代替 ; 位置 150 的丙氨酸残基被选 自甘氨酸、 异亮氨酸、 丝氨酸和色氨酸的氨基酸代替 ; 位置 152 的苯丙氨酸残基被亮氨酸代 替; 位置 153 的天冬酰胺残基被选自甘氨酸、 缬氨酸和组氨酸的氨基酸代替 ; 位置 158 的苏 氨酸残基被丝氨酸代替 ; 位置 190 的甘氨酸残基被选自丙氨酸、 脯氨酸、 谷氨酰胺和缬氨酸 的氨基酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺代替 ; 位置 199 的异亮氨酸残基被选自 甘氨酸、 甲硫氨酸、 亮氨酸和天冬酰胺的氨基酸代替 ; 位置 200 的甲硫氨酸残基被异亮氨酸 代替 ; 位置 204 的缬氨酸残基被苯丙氨酸代替 ; 位置 217 的丙氨酸残基被苏氨酸代替 ; 位置 225 的异亮氨酸残基被缬氨酸代替 ; 位置 231 的脯氨酸残基被苯丙氨酸代替 ; 位置 232 的丙 氨酸残基被缬氨酸代替 ; 位置 233 的谷氨酸残基被谷氨酰胺代替 ; 位置 244 的天冬氨酸残 基被甘氨酸代替 ; 位置 260 的苯丙氨酸残基被酪氨酸代替 ; 和位置 261 的丝氨酸残基被天 冬酰胺代替。
     在一些实施方案中, 除了以上以外, 酮还原酶多肽可具有与参考氨基酸序列相比 或与 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 或 80 的任何一种相比的一种或多 种修饰 ( 即, 残基差异 )。这些修饰可以是氨基酸插入、 缺失、 取代、 或这种改变的任何组 合。在一些实施方案中, 氨基酸序列差异可包括非保守、 保守、 以及非保守和保守氨基酸取 代的组合。在一些实施方案中, 这些酮还原酶多肽可任选地在其他氨基酸残基具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 改进的酮还原酶包括与对应于 SEQ ID NO : 2 的氨基酸序列 至少约 70%、 71 %、 72 %、 73%、 74%、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83%、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99%相同的氨基酸序列, 其中改进的酮还原酶多肽氨基酸序列包括表 2 或 3 中展示的具体 氨基酸取代组合的任何一组。在一些实施方案中, 这些酮还原酶多肽可具有在其他氨基酸 残基的突变。
     另一方面, 本公开内容提供编码本文所述的酮还原酶多肽的多核苷酸, 和在高度 严格杂交条件下与这种多核苷酸杂交的多核苷酸。 多核苷酸可包括可用于表达所编码的工 程化的酮还原酶的启动子和其他调节元件, 并可采用对于具体的期望表达系统优化的密码 子。
     在一些实施方案中, 本公开内容提供编码与 SEQ ID NO : 2 的氨基酸序列相比具有 至少以下氨基酸序列, 并且还包含选自以下组成的组的至少一种氨基酸取代的酮还原酶多 肽的多核苷酸 : 位置 2 的脯氨酸残基被亮氨酸代替 ; 位置 28 的缬氨酸残基被丙氨酸代替 ; 位置 34 的丙氨酸残基被丝氨酸代替 ; 位置 47 的丙氨酸残基被缬氨酸代替 ; 位置 50 的谷 氨酸残基被赖氨酸代替 ; 位置 81 的天冬氨酸残基被天冬酰胺代替 ; 位置 90 的丝氨酸残基 被缬氨酸代替 ; 位置 91 的异亮氨酸残基被选自亮氨酸、 色氨酸、 精氨酸和赖氨酸的氨基酸 代替 ; 位置 94 的赖氨酸残基被精氨酸代替 ; 位置 112 的天冬氨酸残基被酪氨酸代替 ; 位置 117 的甘氨酸残基被天冬氨酸代替 ; 位置 143 的丝氨酸残基被精氨酸代替 ; 位置 144 的缬氨酸残基被选自半胱氨酸和苏氨酸的氨基酸代替 ; 位置 145 的甘氨酸残基被选自丙氨酸和 缬氨酸的氨基酸代替 ; 位置 148 的精氨酸残基被组氨酸代替 ; 位置 150 的丙氨酸残基被选 自甘氨酸、 异亮氨酸、 丝氨酸和色氨酸的氨基酸代替 ; 位置 152 的苯丙氨酸残基被亮氨酸代 替; 位置 153 的天冬酰胺残基被选自甘氨酸、 缬氨酸和组氨酸的氨基酸代替 ; 位置 158 的苏 氨酸残基被丝氨酸代替 ; 位置 190 的甘氨酸残基被选自丙氨酸、 脯氨酸、 谷氨酰胺和缬氨酸 的氨基酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺代替 ; 位置 199 的异亮氨酸残基被选自 甘氨酸、 甲硫氨酸、 亮氨酸和天冬酰胺的氨基酸代替 ; 位置 200 的甲硫氨酸残基被异亮氨酸 代替 ; 位置 204 的缬氨酸残基被苯丙氨酸代替 ; 位置 217 的丙氨酸残基被苏氨酸代替 ; 位置 225 的异亮氨酸残基被缬氨酸代替 ; 位置 231 的脯氨酸残基被苯丙氨酸代替 ; 位置 232 的丙 氨酸残基被缬氨酸代替 ; 位置 233 的谷氨酸残基被谷氨酰胺代替 ; 位置 244 的天冬氨酸残 基被甘氨酸代替 ; 位置 260 的苯丙氨酸残基被酪氨酸代替 ; 和位置 261 的丝氨酸残基被天 冬酰胺代替。 示例性的多核苷酸包括但不限于 SEQ IDNO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79 的多核苷酸序列。
     在一些实施方案中, 本公开内容提供包括编码本文所述的酮还原酶多肽的多核苷 酸和 / 或含这些多核苷酸的表达载体的宿主细胞。 宿主细胞可以是 N.aromaticivorans, 或 可以是不同生物, 如大肠杆菌 (E.coli)。宿主细胞可用于表达和分离本文所述的工程化的 酮还原酶, 或可选地, 它们可直接用于转化底物为立体异构产物。 因此, 在一些实施方案中, 本文公开的工程化的酮还原酶多肽可通过标准方法制备, 包括培养包括含编码多肽的多核 苷酸的表达载体的宿主细胞, 从宿主细胞分离多肽。
     无论以完整细胞、 细胞提取物还是纯化的酮还原酶进行该方法, 可使用单独的酮 还原酶, 或可选地, 可使用两种或多种酮还原酶的混合物。
     5. 详述
     除了在工作实施例中, 或另外指明以外, 说明书和权利要求书中使用的表示成分 的量、 反应条件等等的所有数字应理解为在所有情形中被术语 “约” 修饰。
     在本公开内容中, 除非另外具体指明, 否则单数形式的使用包括多数形式 ( 反之 亦然 )。而且, 除非另外指明, 否则 “或” 的使用表示 “和 / 或” 。类似地, “comprise( 包括 )” 、 “comprises( 包括 )” 、 “comprising( 包括 )” 、 “include( 包括 )” 、 “includes( 包括 )”和 “including( 包括 )” 是可互换的, 不意为限制。
     还应理解的是, 当不同实施方案的描述使用术语 “comprising( 包括 )” 时, 本领 域技术人员将理解, 在一些具体情形中, 一种实施方案可替代地利用措辞 “基本由 ... 组成 (consisting essentially of)” 或 “由 ... 组成 (consistingof)” 描述。
     应理解的是, 包括附图的以上一般性描述和以下的详述仅是示例性和说明性的, 不限制本公开内容。
     本文使用的标题仅是为了结构的目的, 不解释为限制所描述的主题。
     本公开内容涉及生物催化方法, 其中 α- 氯代酮与酮还原酶接触, 从而被转化为 相应的 α- 氯代醇。因此, 本公开内容提供能够转化 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为相应的立体异构醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)) 的酮还原酶。 本公开内容还包括转化醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 ( 如 化合物 (2)) 为相应的立体异构环氧化物 N- 保护的 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯 基乙基氨基甲酸酯 ) 如化合物 (3)( 叔丁基 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯基乙基氨 基甲酸酯 ; 其中保护基是 BOC 部分 ) 的方法。
     5.1. 定义
     如本文所用, 下列术语旨在具有下列意义 :
     术语 “保护基” 是指当连接于分子中的反应性官能团时, 掩蔽、 减少或阻止该官能 团的反应性的原子的基团。通常, 保护基可在合成过程期间如期望地选择性去除。
     “氮保护基” (或 “N- 保护基” ) 是指通常用于封闭或保护化合物上的氮官能性 而使其他官能团能够反应的取代基。这种氮保护基的实例包括甲酰基、 三苯甲基、 甲氧基 三苯甲基、 甲苯磺酰基、 邻苯二甲酰亚氨基、 乙酰基、 三氯乙酰基、 氯乙酰基、 溴乙酰基、 碘 乙酰基、 苄氧羰基 (Cbz)、 9- 芴基甲氧羰基 (FMOC)、 2- 三甲硅烷基乙氧羰基 (Teoc)、 1- 甲 基 -1-(4- 联苯基 ) 乙氧羰基 (Bpoc)、 叔丁氧羰基 (BOC)、 烯丙氧基羰基 (Alloc)、 三卤代乙 酰基、 苄基、 苯甲酰基和硝基苯基乙酰基等等。 可用于本公开内容的实施方案的保护基的进 一步实例可见于 P.G.M.Wuts 和 T.W.Greene, “Greene’ s Protective Groups in Organic Synthesis-Fourth Edition(Greene 有机合成中的保护基 - 第四版 ), ” John Wiley and Sons, New York, N.Y., 2007, 第 7 章 (“Greene” )。 “立体异构体” 、 “立体异构形式” 和类似表述在本文可互换使用, 是指单独分子差 异仅在于其原子在空间中的方位不同的所有异构体。 其包括对映异构体和具有多于一个手 性中心、 不是彼此镜像的化合物的异构体 (“非对映异构体” )。
     “手性中心” 是指四个不同基团与其连接的碳原子。
     “对映异构体” 或 “对映异构形式” 是指不可与其镜像叠加的分子, 因此是光学活性 的, 其中对映异构体以一个方向旋转偏振光平面, 其镜像以相反方向旋转偏振光平面。
     “对映体过量” 、 “(ee)” 、 “非对映体过量” 、 “(de)” 是指在化学物质中一种对映体或 非对映体比另一种更多地存在。这一差异定义为每种对映体的摩尔分数之间的绝对差异 : ee = |(F+)-(F-)|, 其中 (F+)+(F-) = 1。因此, (ee) 和 (de) 可表示为对映体过量或非对 映体过量的百分比。
     术语 “外消旋” 是指化合物等摩尔量的两种对映体的混合物, 该混合物是光学上无 活性的。
     本文所用的 “富集” 特定手性化合物、 对映异构体或非对映异构体的组合物通常包 括至少约 60%、 70%、 80%、 90%或甚至更多的该特定手性化合物、 对映异构体或非对映异 构体。 富集的量可利用本领域技术人员例行使用的常规分析方法确定, 包括但不限于, 在手 性位移试剂存在下的 NMR 光谱、 利用手性柱的气相色谱分析和利用手性柱的高压液相色谱 分析。 在一些实施方案中, 单个手性化合物、 对映异构体或非对映异构体将大致上不含其他 相应的手性化合物、 对映异构体或非对映异构体。 “大致上不含” 是指, 利用本领域技术人员 例行使用的常规分析方法, 诸如以上提到的方法确定, 组合物包括少于约 10%的指定不希 望的手性化合物、 对映异构体或非对映异构体。在一些实施方案中, 不希望的手性化合物、 对映异构体或非对映异构体的量可少于约 10%, 例如, 少于约 9%、 8%、 7%、 6%、 5%、 4%、 3%、 2%、 1%或甚至更少。包含至少约 95%的指定手性化合物、 对映异构体或非对映异构
     体的手性富集、 对映异构富集或非对映异构富集的组合物在本文分别称为 “大致上手性地 纯” 、 “大致上对映异构地纯” 和 “大致上非对映异构地纯” 。包含至少约 99%的指定手性化 合物、 对映异构体或非对映异构体的组合物在本文分别称为 “手性地纯” 、 “对映异构地纯” 和 “非对映异构地纯” 。
     “酮还原酶” 和 “KRED” 在本文中可互换地使用, 以指具有将羰基还原为其相应的醇 的酶促能力的多肽。在具体的实施方案中, 本发明的酮还原酶多肽能够立体选择性地还原 (1)((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 为相应的醇化合物 (2)( 叔 丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯 )。所述多肽通常利用辅因子 即还原型烟酰胺腺嘌呤二核苷酸 (NADH) 或还原型烟酰胺腺嘌呤二核苷酸磷酸 (NADPH) 作 为还原剂。本文所用的酮还原酶包括天然存在的 ( 野生型 ) 酮还原酶以及通过人类操作而 产生的非天然存在的工程化的多肽。
     本文使用的 “工程化的酮还原酶多肽” 是指具有通过人类操纵而产生的变异序列 ( 如, 通过天然存在的母体酶的定向进化或此前来源自天然存在的酶的变体的定向进化而 产生的序列 ) 的酮还原酶多肽。
     “天然存在的” 或 “野生型” 是指在自然中所发现的形式。例如, 天然存在的或野生 型的多肽或多核苷酸序列是存在于生物体中的、 可从自然中的来源分离的并且未被人类操 作有意识地修改的序列。
     “蛋白” 、 “多肽”和 “肽”在本文可互换使用, 表示通过酰胺键共价连接的至少 两个氨基酸的聚合物, 而不论长度或翻译后修饰 ( 如, 糖基化、 磷酸化、 脂质化、 豆蔻酰化 (myristilation)、 泛素化等等 )。这一定义中包括 D- 氨基酸和 L- 氨基酸, 以及 D- 氨基酸 与 L- 氨基酸的混合物。
     “多核苷酸” 或 “寡核苷酸” 是指核碱基聚合物或寡聚物, 其中核碱基被糖磷酸酯键 ( 糖磷酸酯骨架 ) 连接。核碱基或碱基包括对利用核酸或多核苷酸技术或利用聚酰胺或肽 核酸技术从而产生可以序列特异性方式与多核苷酸杂交的聚合物的人们公知的天然存在 的和合成的杂环部分。核碱基的非限制性实例包括 : 腺嘌呤、 胞嘧啶、 鸟嘌呤、 胸腺嘧啶、 尿 嘧啶、 5- 丙炔基 - 尿嘧啶、 2- 硫代 -5- 丙炔基 - 尿嘧啶、 5- 甲基胞嘧啶、 假异胞嘧啶、 2- 硫尿 嘧啶和 2- 硫代胸腺嘧啶、 2- 氨基嘌呤、 N9-(2- 氨基 -6- 氯嘌呤 )、 N9-(2, 6- 二氨基嘌呤 )、 次黄嘌呤、 N9-(7- 脱氮 - 鸟嘌呤 )、 N9-(7- 脱氮 -8- 氮杂 - 鸟嘌呤 ) 和 N8-(7- 脱氮 -8- 氮 杂 - 腺嘌呤 )。示例性的多核苷酸和寡核苷酸包括 2’ 脱氧核糖核苷酸的聚合物 (DNA) 和核 糖核苷酸的聚合物 (RNA)。多核苷酸可完全由核糖核苷酸、 完全由 2’ 脱氧核糖核苷酸或其 组合构成。
     “编码序列” 是指编码多肽 ( 例如蛋白 ) 的氨基酸序列的那部分多核苷酸 ( 例如基 因 )。
     “序列同一性百分比” 、 “同一性百分比” 和 “同一的百分比” 在本文中可互换使用, 以指多核苷酸序列或多肽序列之间的比较, 并且是通过将两个最佳地比对的序列在一个比 较窗口上进行比较而被确定的, 其中比较窗口中的多核苷酸或多肽序列的部分与参考序列 相比可包括添加或缺失 ( 即, 缺口 ) 以将这两个序列最佳地比对。百分比如下计算 : 确定两 个序列中存在相同核酸碱基或氨基酸残基或者核酸碱基和氨基酸残基与缺口对齐的位置 的数量而产生匹配位置数目, 将匹配位置数目除以比较窗口中位置的总数目并将该结果乘以 100 以得到序列同一性百分比。使用 BLAST 和 BLAST 2.0 算法来进行最佳比对和序列同 一性百分比的确定 ( 参见例如, Altschul 等, 1990, J.Mol.Biol.215 : 403-410 和 Altschul 等, 1977, NucleicAcids Res.3389-3402)。用于进行 BLAST 分析的软件可通过美国国家生 物技术信息中心网站公开获得。
     简要地说, BLAST 分析包括首先通过识别问询序列中具有长度 W 的短字来识别高 得分序列对 (HSP), 所述短字当与数据库序列中的相同长度的字对齐时匹配或满足某个正 值阈值得分 T。 T 被称为相邻字得分阈值 (neighborhood word score threshold)(Altschul 等人, 上述 )。这些最初的相邻字匹配 (word hit) 充当用于启动搜索的种子以寻找包含它 们的更长的 HSP。 然后字匹配沿每条序列在两个方向上延伸远至累计的比对得分可被增加。 对于核苷酸序列, 使用参数 M( 对一对匹配残基的奖励得分 ; 总是> 0) 和 N( 对错配残基的 处罚得分 ; 总是< 0) 计算累计得分。对于氨基酸序列, 使用得分矩阵来计算累计得分。当 发生以下情况时字匹配在每个方向上的延伸停止 : 累计比对得分从其所达到的最大值下降 了量 X ; 由于一个或更多个负得分残基比对的累积, 累计得分趋于零或零以下 ; 或者到达每 条序列的末端。BLAST 算法参数 W、 T 和 X 决定比对的灵敏度和速度。BLASTN 程序 ( 对于 核苷酸序列而言 ) 使用字长 (W)11、 期望 (E)10、 M = 5、 N = -4 以及两条链的比较作为缺省 值。对于氨基酸序列, BLASTP 程序使用字长 (W)3、 期望 (E)10 以及 BLOSUM62 得分矩阵作为 缺省值 ( 参见 Henikoff 和 Henikoff, 1989, Proc Natl Acad Sci USA 89 : 10915)。
     可获得与 BLAST 相似地作用的其他算法来提供两条序列的同一性百分比。用于比 较的序列的最佳比对可如下进行 : 例如, 通过 Smith 和 Waterman, 1981, Adv.Appl.Math.2 : 482 的局部同源性算法, 通过 Needleman 和 Wunsch, 1970, J.Mol.Biol.48 : 443 的同源性 比对算法, 通过 Pearson 和 Lipman, 1988, Proc.Natl.Acad.Sci.USA 85 : 2444 的相似性搜 索方法, 通过这些算法的计算机实现 (GCG Wisconsin 软件包中的 GAP、 BESTFIT、 FASTA 或 TFASTA) 或通过直观检查 ( 一般参见, Current Protocols inMolecular Biology( 分子 生物学最新实验方案 ), F.M.Ausubel 等编著, Current Protocols, Greene Publishing Associates Inc. 和 John Wiley&Sons, Inc. 之间的合资企业, (1995 年增刊 )(Ausubel))。 另外, 序列比对和序列同一性百分比的确定可以利用 GCG Wisconsin 软件包 (Accelrys, Madison WI) 中的 BESTFIT 或 GAP 程序, 使用提供的缺省参数。
     “参考序列” 是指与改变的序列进行比较的确定序列。参考序列可以是较大序列的 子部分 (subset), 例如, 全长基因或多肽序列的区段。 一般而言, 参考序列长度为至少 20 个 核苷酸或氨基酸残基, 长度至少 25 个残基, 长度至少 50 个残基, 或者核酸或多肽的全长。 因 为两个多核苷酸或多肽可以各自 (1) 包含在这两条序列之间相似的序列 ( 即完整序列的一 部分 ), 以及 (2) 还可以包含在这两条序列之间相异的序列, 所以在两种 ( 或更多种 ) 多核 苷酸或多肽之间的序列比较通常是通过跨比较窗口比较这两种多核苷酸的序列而进行的, 以识别和比较局部区域的序列相似性。
     术语 “参考序列” 不意为限于野生型序列, 且可包括工程化或改变的序列。例如, 在一些实施方案中, “参考序列” 可以是之前工程化或改变的氨基酸序列。例如, “基于 SEQ ID NO : 2、 在位置 X315 具有甘氨酸残基的参考序列” 是指对应 SEQ ID NO : 2、 在 X315 具有甘 氨酸残基的参考序列 ( 而 SEQ ID NO : 2 的未改变形式在 X315 具有谷氨酸 )。
     “比较窗口” 是指至少约 20 个连续核苷酸位置或氨基酸残基的概念性区段, 其中可以将序列与至少 20 个连续核苷酸或氨基酸的参考序列进行比较, 并且其中在比较窗口中 的序列的部分可以包括与参考序列 ( 它不包括添加或缺失 ) 相比 20%或更少的添加或缺失 ( 即空位 ), 以用于这两条序列的最优比对。比较窗口可以比 20 个连续残基长, 并且任选地 包括 30、 40、 50、 100 或更长的窗口。
     “基本同一性 (substantial identity)” 是指具有与参考序列跨至少 20 个残基位 置的比较窗口、 通常至少 30-50 个残基的窗口相比至少 80%序列同一性、 至少 85%序列同 一性、 至少 89%序列同一性、 至少 95%序列同一性、 甚至至少 99%序列同一性的多核苷酸 或多肽序列, 其中序列同一性百分比是通过跨比较窗口比较参考序列与包括参考序列的总 计 20%或更少的缺失或添加的序列而计算的。在应用于多肽的特定实施方案中, 术语 “基 本同一性” 表示两条多肽序列当通过诸如程序 GAP 或 BESTFIT 使用缺省空位权重进行最优 比对时共有至少 80%的序列同一性, 优选至少 89%序列同一性, 至少 95%序列同一性或更 大 ( 例如, 99%序列同一性 )。优选地, 不相同的残基位置差别在于保守的氨基酸取代。
     “对应于” 、 “关于” 或 “相对于” 当用在给定氨基酸或多核苷酸序列的编号上下文中 时, 是指在该给定氨基酸或多核苷酸序列与指定的参考序列进行比较时该参考序列的残基 编号。 换言之, 给定聚合物的残基号码或残基位置是根据参考序列指定的, 而不是给定氨基 酸或多核苷酸序列内的残基的实际数字位置指定的。例如, 可以将给定的氨基酸序列诸如 工程化酮还原酶的氨基酸序列与参考序列进行比对, 这是通过引入空位以优化这两条序列 之间的残基匹配而实现的。 在这些情况下, 尽管存在空位, 对给定氨基酸或多核苷酸序列中 的残基进行编号是根据与其进行比对的参考序列做出的。
     “来源自” 如本文中在工程化的酶的上下文中所用, 标明所述工程化所基于的起始 酶和 / 或编码这种酶的基因。例如, 通过人工地使编码 SEQ IDNO : 2 的野生型酮还原酶的多 核苷酸突变经过多代而获得具有变异多肽序列 SEQ ID NO : 6 的工程化的酮还原酶。因此, 该工程化的酮还原酶 “来源自” SEQ ID NO : 2 的野生型酮还原酶。
     “立体选择性” 或 “立体特异性” 是指在化学反应或酶促反应中一种立体异构体比 另一种立体异构体优先形成。立体选择性可以是部分的, 其中一种立体异构体的形成优于 另一种, 或者立体选择性可以是完全的, 其中只形成一种立体异构体。 当立体异构体是对映 体时, 立体选择性被称为对映体选择性, 即一种对映体在两种对映体之和中的分数 ( 通常 被报告为百分比 )。它在本领域中通常可选地被报告为 ( 通常为百分比 ) 根据式 [ 主要对 映体一次要对映体 ]/[ 主要对映体 + 次要对映体 ] 从其计算出的对映体过量 (e.e)。当立 体异构体是非对映体时, 有时立体选择性被称为非对映体选择性, 即一种非对映体在两种 非对映体的混合物之中的分数 ( 通常被报告为百分比 ), 通常被可选地报告为非对映体过 量 (d.e.)。对映体过量和非对映体过量是立体异构体过量的类型。
     本文使用的 “高立体选择性” 是指能够将底物转化或还原为其对应的具有至少约 99%立体异构体过量的产物 ( 如化合物 (1) 为化合物 (2)) 的酮还原酶多肽。
     “改进的酶特性” 是指与参考酶表现的特性相比, 为了特定目的使得更好或更期望 的任何酶特性。对于本文所述的工程化酮还原酶多肽而言, 这种比较一般是对野生型酮还 原酶作出的, 但是在一些实施方案中, 参考酮还原酶可以是另一种改进的工程化酮还原酶。 期望改进的酶特性包括但不限于酶活性 ( 它可以按照在一段时间内底物转化百分比来表 示 )、 热稳定性、 pH 稳定性或活性概况、 辅因子需求、 对抑制剂 ( 例如, 产物抑制 ) 的不应性、立体特异性和立体选择性 ( 包括对映体选择性 )。
     “提高的酶活性” 或 “提高的活性” 或 “提高的转化率” 是指与参考酶相比, 可以由比 活性 ( 例如, 产生的产物 / 时间 / 重量蛋白 ) 的提高或者由底物转化为产物的转化率 ( 例 如, 使用指定量的转胺酶在指定时间段内将起始量的底物转化为产物的百分比 ) 的提高表 示的工程化酶的改进特性。确定酶活性和转化率的示例性方法被提供在实施例中。可以影 响与酶活性相关的任何特性, 包括经典的酶特性 Km、 Vmax 或 kcat, 它们的改变能够导致提高的 酶活性。 酶活性的改进可以是从比对应的野生型酮还原酶的酶活性改进约 100%, 到比天然 存在的酮还原酶或从其获取酮还原酶多肽的另一种工程化酮还原酶的酶活性改进 200%、 500%、 1000%或更大。在具体的实施方案中, 工程化酮还原酶展现出在比母体野生型或其 他参考酮还原酶的酶活性改进 100%至 200%、 200%至 1000%或大于 1500%的范围内的改 进的酶活性。本领域技术人员理解, 任何酶的活性都受扩散限制以致催化转换速率不能超 过包括任何所需的辅因子在内的底物的扩散速率。 扩散限制或 kcat/Km 的理论最大值一般是 8 9 -1 -1 约 10 到 10 (M s )。因此, 酮还原酶的酶活性上的任何改进将具有与酮还原酶所作用的底 物的扩散速率相关的上限。 酮还原酶活性可以通过用于测量酮还原酶的标准测定中的任何 一种来测量, 例如实施例 7 描述的测定。使用本文进一步详述的限定的酶制品、 在设置条件 下的确定的测定以及一种或多种确定的底物, 进行酶活性或转化率的比较。 一般而言, 在比 较裂解物时, 确定所测定的细胞数目和 / 或蛋白的量, 并使用相同的表达系统和相同的宿 主细胞以使得由该宿主细胞所产生并存在于裂解物中的酶量的改变最小化。
     “转化” 是指底物被酶促转化为对应的产物。 “转化百分比” 是指在指定条件下在一 段时间内被转化为产物的底物的百分比。因此, 例如, 酮还原酶多肽的 “活性” 或 “转化率” 可以表示为底物到产物的 “转化百分比” 。
     “热稳定的” 或 “热稳定” 可互换使用, 是指与未处理的酶相比, 在暴露于一组温度 条件 ( 例如 40-80℃ ) 一段时间 ( 例如 0.5-24 小时 ) 时耐受失活, 从而在暴露于高温后保 持某一水平残留活性 ( 例如多于 60%到 80% ) 的多肽。
     “溶剂稳定的” 是指与未处理的酶相比, 在暴露于不同浓度 ( 例如, 5-99% ) 的溶 剂 ( 如, 异丙醇、 二甲基亚砜、 四氢呋喃、 2- 甲基四氢呋喃、 丙酮、 甲苯、 乙酸丁酯、 甲基叔丁 基醚、 乙腈等等 ) 一段时间 ( 例如 0.5-24 小时 ) 后保持相似活性 ( 多于例如 60%到 80% ) 的多肽。
     “pH 稳定的” 是指与未处理的酶相比, 在暴露于高 pH 或低 pH( 例如 8 至 12 或 4.5-6) 一段时间 ( 例如 0.5-24 小时 ) 后保持相似活性 ( 例如多于 60%到 80% ) 的多肽。
     “热稳定且溶剂稳定的” 是指既热稳定又溶剂稳定的多肽。
     在本文公开的多肽上下文中使用的 “氨基酸” 或 “残基” 是指在序列位置的具体单 体 ( 如, E315 表示 SEQ ID NO : 2 位置 315 的 “氨基酸” 或 “残基” 是谷氨酸 )。
     “亲 水 性 氨 基 酸 或 残 基”是 指 根 据 Eisenberg 等 人, 1984, J.Mol.Biol.179 : 125-142 的标准化统一疏水性量表具有展现出小于零的疏水性的侧链的氨基酸或残基。 遗 传 编 码 的 亲 水 性 氨 基 酸 包 括 L-Thr(T)、 L-Ser(S)、 L-His(H)、 L-Glu(E)、 L-Asn(N)、 L-Gln(Q)、 L-Asp(D)、 L-Lys(K) 和 L-Arg(R)。
     “酸性氨基酸或残基” 是指当氨基酸被包括在肽或多肽中时具有展现出小于约 6 的 pK 值的侧链的亲水性氨基酸或残基。酸性氨基酸由于氢离子的缺失在生理 pH 下通常具有带负电的侧链。遗传编码的酸性氨基酸包括 L-Glu(E) 和 L-Asp(D)。
     “碱性氨基酸或残基” 是指当氨基酸被包括在肽或多肽中时具有展现出大于约 6 的 pKa 值的侧链的亲水性氨基酸或残基。 碱性氨基酸由于与水合氢离子缔合在生理 pH 下通常 具有带正电的侧链。遗传编码的碱性氨基酸包括 L-Arg(R) 和 L-Lys(K)。
     “极性氨基酸或残基” 是指所具有的侧链在生理 pH 下不带电荷但具有如下至少 一个键的亲水性氨基酸或残基 : 在所述至少一个键中由两个原子共有的电子对被这两个 原子之一更紧密地持有。遗传编码的极性氨基酸包括 L-Asn(N)、 L-Gln(Q)、 L-Ser(S) 和 L-Thr(T)。
     “疏 水 性 氨 基 酸 或 残 基”是 指 根 据 Eisenberg 等 人, 1984, J.Mol.Biol.179 : 125-142 的标准化统一疏水性量表具有展现出大于零的疏水性的侧链的氨基酸或残基。 遗 传 编 码 的 疏 水 性 氨 基 酸 包 括 L-Pro(P)、 L-Ile(I)、 L-Phe(F)、 L-Val(V)、 L-Leu(L)、 L-Trp(W)、 L-Met(M)、 L-Ala(A) 和 L-Tyr(Y)。
     “芳香族氨基酸或残基” 是指具有包括至少一个芳环或杂芳环的侧链的亲水性或 疏水性氨基酸或残基。遗传编码的芳香族氨基酸包括 L-Phe(F)、 L-Tyr(Y) 和 L-Trp(W)。 尽管 L-His(H) 由于其杂芳香族氮原子的 pKa 有时被分类为碱性残基, 或者因为其侧链包 括杂芳环而被分类为芳香族残基, 但本文的组氨酸被分类为亲水性残基或 “受限制的残基 (constrainedresidue)” ( 见下面 )。
     “受限制的氨基酸或残基” 是指具有受限制的几何形状的氨基酸或残基。本文中, 受限制的残基包括 L-pro(P) 和 L-his(H)。 组氨酸具有受限制的几何形状, 因为它具有相对 小的咪唑环。脯氨酸具有受限制的几何形状, 因为它也具有五元环。
     “非极性氨基酸或残基” 是指所具有的侧链在生理 pH 下不带电荷并且具有如下键 的疏水性氨基酸或残基 : 在所述键中由两个原子共有的电子对一般被这两个原子中每一个 同等持有 ( 即侧链是没有极性的 )。遗传编码的非极性氨基酸包括 L-Gly(G)、 L-Leu(L)、 L-Val(V)、 L-Ile(I)、 L-Met(M) 和 L-Ala(A)。
     “脂肪族氨基酸或残基” 是指具有脂肪烃侧链的疏水性氨基酸或残基。遗传编码的 脂肪族氨基酸包括 L-Ala(A)、 L-Val(V)、 L-Leu(L) 和 L-Ile(I)。
     “半胱氨酸” 。氨基酸 L-Cys(C) 是独特的, 因为它能够与其他 L-Cys(C) 氨基酸或 其他包含硫烃基或硫氢基的氨基酸形成二硫键桥。 “半胱氨酸样残基” 包括半胱氨酸和其他 包含可用于形成二硫键桥的硫氢基部分的氨基酸。L-Cys(C)( 和其他具有包含 -SH 的侧链 的氨基酸 ) 以游离 -SH 还原形式或氧化的二硫键桥形式存在于肽中的能力影响 L-Cys(C) 赋予肽净疏水性还是净亲水性。尽管根据 Eisenberg 的标准化统一量表 (Eisenberg 等人, 1984, 上述 )L-Cys(C) 展现出 0.29 的疏水性, 但应理解出于本公开内容的目的将 L-Cys(C) 归为它自己一组。
     “小氨基酸或残基” 是指具有由总计三个或更少的碳和 / 或杂原子 ( 不包括 α- 碳 和氢 ) 组成的侧链的氨基酸或残基。根据以上定义可以将小氨基酸或残基进一步归类 为脂肪族、 非极性、 极性或酸性的小氨基酸或残基。遗传编码的小氨基酸包括 L-Ala(A)、 L-Val(V)、 L-Cys(C)、 L-Asn(N)、 L-Ser(S)、 L-Thr(T) 和 L-Asp(D)。
     “包含羟基的氨基酸或残基” 是指包含羟基 (-OH) 部分的氨基酸。遗传编码的包含 羟基的氨基酸包括 L-Ser(S)、 L-Thr(T) 和 L-Tyr(Y)。
     “氨基酸差异” 或 “残基差异” 是指与参考序列相比, 在多肽序列指定位置的残基改变。例如, 参考序列在位置 I199 具有异亮氨酸时, 位置 I199 的残基差异是指在位置 199 的残基改变为异亮氨酸以外的任何残基。如本文公开的, 工程化的酮还原酶可包括相对参 考序列的一种或多种残基差异, 其中多个残基差异通常由相对参考序列进行改变的指定位 置的列表表示 ( 如, “与 SEQ ID NO : 2 相比在以下残基位置的一种或多种残基差异 : 2、 28、 34、 47、 50、 81、 90、 91、 94、 112、 117、 143、 144、 145、 150、 152、 153、 158、 190、 198、 199、 200、 204、 217、 225、 231、 232、 233、 244、 260 和 261” )。
     “保守的” 氨基酸取代 ( 或突变 ) 是指以具有相似侧链的残基取代残基, 并因此通 常包括用相同或相似定义的氨基酸类别中的氨基酸取代多肽中的氨基酸。然而, 如本文所 用, 在一些实施方案中, 如果保守的突变可以是从脂肪族残基到脂肪族残基、 非极性残基到 非极性残基、 极性残基到极性残基、 酸性残基到酸性残基、 碱性残基到碱性残基、 芳香族残 基到芳香族残基、 或受限制的残基到受限制的残基的取代, 则保守的突变不包括从亲水性 残基到亲水性残基、 疏水性残基到疏水性残基、 包含羟基的残基到包含羟基的残基、 或小残 基到小残基的取代。此外, 如本文所用, A、 V、 L 或 I 可以被保守突变为另一种脂肪族残基或 另一种非极性残基。下表 1 显示了示例性保守取代。
    
    表1: 保守取代“非保守取代” 是指用具有显著差别的侧链特性的氨基酸取代或突变多肽中的氨 基酸。非保守取代可以利用以上列出的限定组之间而不是它们之内的氨基酸。在一个实施 方案中, 非保守突变影响 : (a) 取代区域中的肽骨架的结构 ( 例如, 脯氨酸取代甘氨酸 ), (b) 电荷或疏水性, 或 (c) 侧链体积。
     “缺失” 是指通过从参考多肽去除一个或更多个氨基酸而对多肽进行的修饰。缺失 可以包括去除 1 个或更多个氨基酸、 2 个或更多个氨基酸、 3 个或更多个氨基酸、 4 个或更多 个氨基酸、 5 个或更多个氨基酸、 6 个或更多个氨基酸、 7 个或更多个氨基酸、 8 个或更多个氨 基酸、 10 个或更多个氨基酸、 12 个或更多个氨基酸、 15 个或更多个氨基酸、 或者 20 个或更多 个氨基酸、 高达构成参考酶的氨基酸总数的 10%、 或高达氨基酸总数的 20%, 同时保留酶 活性和 / 或保留工程化酮还原酶的改进特性。缺失可以针对多肽的内部和 / 或端部。在多
     个实施方案中, 缺失可以包括连续的区段或者可以是不连续的。
     “插入” 是指通过从参考多肽添加一个或更多个氨基酸而对多肽进行的修饰。在一 些实施方案中, 改进的工程化酮还原酶包括一个或更多个氨基酸插入天然存在的酮还原酶 多肽, 以及一个或更多个氨基酸插入其他工程化的酮还原酶多肽。插入可以在多肽的内部 或者到羧基端或氨基端。如本文所用的插入包括本领域已知的融合蛋白。插入可以是氨基 酸的连续区段, 或者被天然存在的多肽中的一个或更多个氨基酸分隔。
     如本文所用的 “片段” 是指如下多肽 : 所述多肽具有氨基端和 / 或羧基端缺失, 但 其中剩余的氨基酸序列与该序列中的对应位置相同。片段可以为至少 14 个氨基酸长、 至 少 20 个氨基酸长, 至少 50 个氨基酸长或更长, 以及高达全长酮还原酶多肽的 70%、 80%、 90%、 95%、 98%和 99%。
     “分离的多肽” 是指如下多肽 : 所述多肽基本上与其天然伴随的其他污染物例如蛋 白、 脂质和多核苷酸分离。该术语包括已自其天然存在环境或表达系统 ( 例如, 宿主细胞或 体外合成 ) 中移出或纯化的多肽。改进的酮还原酶可以存在于细胞内、 存在于细胞培养基 中或者以各种形式制备, 诸如裂解物或分离的制备物。像这样, 在一些实施方案中, 改进的 酮还原酶可以是分离的多肽。
     “基本上纯的多肽” 是指如下组合物 : 在所述组合物中多肽物类是存在的优势物类 ( 即, 在摩尔基础或重量基础上它比该组合物中的任何其他个体大分子物类更丰富 ), 并且 当目标物类构成存在的大分子物类的按摩尔或重量%计至少约 50%时一般是基本上纯化 的组合物。一般而言, 基本上纯的酮还原酶组合物将构成该组合物中存在的所有大分子物 类的按摩尔或重量%计约 60%或更多、 约 70%或更多、 约 80%或更多、 约 90%或更多、 约 95%或更多以及约 98%或更多。 在一些实施方案中, 将目标物类纯化至基本的均一性 ( 即, 通过常规检测方法不能在组合物中检测出污染物类 ), 其中组合物基本上由单一大分子物 类组成。溶剂物类、 小分子 ( < 500 道尔顿 )、 以及元素离子物类不被认为是大分子物类。 在一些实施方案中, 分离的改进酮还原酶多肽是基本上纯的多肽组合物。
     如本文所用的 “严格杂交” 是指如下条件 : 在所述条件下核酸杂交体是稳定的。如 本领域技术人员已知的, 杂交体的稳定性反映在杂交体的解链温度 (Tm) 上。一般而言, 杂 交体的稳定性随离子强度、 温度、 G/C 含量和离液剂的存在而变化。多核苷酸的 Tm 值可以 使用预测解链温度的已知方法计算 ( 参见例如, Baldino 等人, Methods Enzymology 168 : 761-777 ; Bolton 等人, 1962, Proc.Natl.Acad.Sci.USA 48 : 1390 ; Bresslauer 等人, 1986, Proc.Natl.Acad.Sci USA 83 : 8893-8897 ; Freier 等 人, 1986, Proc.Natl.Acad.SciUSA 83 : 9373-9377 ; Kierzek 等人, Biochemistry 25 : 7840-7846 ; Rychlik 等人, 1990, Nucleic Acids Res 18 : 6409-6412( 勘 误, 1991, Nucleic Acids Res19 : 698) ; Sambrook 等 人, 上 述); Suggs 等人, 1981, 在 DevelopmentalBiology Using Purified Genes( 使用纯化基因 的发育生物学 )(Brown 等人, 编 ), 第 683-693 页, Academic Press 中 ; 以及 Wetmur, 1991, Crit Rev BiochemMol Biol 26 : 227-259。所有的出版物均通过引用并入本文 )。在一些 实施方案中, 多核苷酸编码本文公开的多肽并且在限定条件下诸如在中度严格或高度严格 条件下与编码本公开内容的工程化酮还原酶的序列的互补序列杂交。
     “杂交严格度” 涉及核酸的这种洗涤条件。一般而言, 在较低严格度条件下进行杂 交反应, 接着是具有不同但更高的严格度的洗涤。术语 “中度严格杂交” 是指允许靶 DNA结合以下互补核酸的条件, 所述互补核酸与该靶 DNA 具有约 60 %同一性、 优选约 75 %同 一性、 约 85 %同一性 ; 与靶多核苷酸具有大于约 90 %同一性。示例性中度严格条件是等 同于在 42 ℃于 50 %甲酰胺、 5×Denhart 溶液、 5×SSPE、 0.2 % SDS 中杂交, 接着在 42 ℃于 0.2×SSPE、 0.2% SDS 中洗涤的条件。 “高严格度杂交” 一般是指如下条件 : 与对限定的多 核苷酸序列在溶液条件下确定的热解链温度 Tm 相差约 10℃或更小。在一些实施方案中, 高 严格度条件是指允许仅那些在 65℃于 0.018M NaCl 中形成稳定杂交体的核酸序列杂交的 条件 ( 即, 如果杂交体在 65℃于 0.018M NaCl 中不稳定, 它在本文考虑的高严格度条件下将 是不稳定的 )。可以例如通过在等同于在 42℃于 50%甲酰胺、 5×Denhart 溶液、 5×SSPE、 0.2% SDS 的条件中杂交, 接着在 65℃于 0.1×SSPE 和 0.1% SDS 中洗涤, 而提供高严格度 条件。其他高严格度杂交条件以及中度严格条件描述于以上引用的参考文献中。
     “重组的” 在提及例如细胞、 核酸或多肽而被使用时, 是指以本来在自然中不存在 的方式被修饰, 或者与自然中存在的物质相同但是是从合成的物质和 / 或通过使用重组技 术的操作而产生或衍生出来的物质或对应于该物质的天然或天生形式的物质。 非限制性的 实例包括但不限于这样的重组细胞, 其表达在天然 ( 非重组 ) 形式的细胞中未被发现的基 因或者表达本来以不同水平表达的天然基因。
     “异源” 多核苷酸是指通过实验技术引入宿主细胞的任何多核苷酸, 并且包括从宿 主细胞中移出、 经历实验室操作、 然后再引入宿主细胞中的多核苷酸。
     “密码子优化的” 是指编码蛋白质的多核苷酸的密码子变为特定生物体中优先使 用的那些密码子, 以致所编码的蛋白被有效表达在感兴趣的生物体中。尽管遗传密码由于 大多数氨基酸被称作 “同义密码子” 或 “同义” 密码子的几个密码子代表而为简并的, 但众 所周知具体生物体的密码子使用是非随机的且偏向特定的密码子三联体。就给定基因、 具 有共同功能或祖先起源的基因、 高表达蛋白相对于低拷贝数蛋白以及生物体基因组的聚集 蛋白编码区而言, 这种密码子使用偏向可能更高。 在一些实施方案中, 可以对编码酮还原酶 的多核苷酸进行密码子优化, 以用于从为表达所选的宿主生物体中优化生产。
     “偏爱密码子、 优化的密码子、 高密码子使用偏向的密码子” 可互换地指在蛋白编 码区中以高于编码同一氨基酸的其他密码子的频率被使用的密码子。 偏爱密码子可以根据 在单基因、 一组具有共同功能或起源的基因、 高表达基因中的密码子使用, 在整个生物体的 聚集蛋白编码区中的密码子频率, 在相关生物体中的聚集蛋白编码区中的密码子频率或它 们的组合来确定。频率随基因表达水平而提高的密码子通常是用于表达的优化密码子。多 种方法已知用于确定具体生物体中的密码子频率 ( 例如, 密码子使用, 相对同义的密码子 使用 ) 和密码子偏好, 包括多变量分析, 例如使用聚类分析或对应分析, 以及用于确定基因 中使用的密码子的有效数目 ( 参见 GCG CodonPreference, 遗传学计算机工作组 Wisconsin 软件包 (GeneticsComputer Group Wisconsin Package) ; Codon W, John Peden, 诺丁汉大 学; McInerney, J.O, 1998, Bioinformatics 14 : 372-73 ; Stenico 等人, 1994, NucleicAcids Res.222437-46 ; Wright, F., 1990, Gene 87 : 23-29)。不断增加的生物名单的密码子使用表 是可用的 ( 参见例如, Wada 等人, 1992, Nucleic Acids Res.20 : 2111-2118 ; Nakamura 等 人, 2000, Nucl.Acids Res.28 : 292 ; Duret 等 人, 上述 ; Henaut 和 Danchin, “Escherichia coli and Salmonella( 大肠杆菌和沙门氏菌 ), ” 1996, Neidhardt 等人编, ASM Press, Washington D.C., 第 2047-2066 页 )。用于获得密码子使用的数据资源可依赖于能够编码蛋白的任何可用的核苷酸序列。这些数据集包括实际上已知编码表达的蛋白的核酸序 列 ( 例如, 完整的蛋白编码序列 -CDS)、 表达序列标签 (ESTS)、 或基因组序列的预测编码区 ( 参见, 例如 Mount, D., Bioinformatics : Sequence andGenome Analysis( 生物信息学 : 序 列和基因组分析 ), 第 8 章, Cold SpringHarbor Laboratory Press, Cold Spring Harbor, N.Y., 2001 ; Uberbacher, E.C., 1996, Methods Enzymol.266 : 259-281 ; Tiwari 等人, 1997, Comput.Appl.Biosci.13 : 263-270)。
     “控制序列” 在本文定义为包括对本公开内容的多肽的表达必要或有利的所有组 分。每个控制序列可能对编码多肽的核酸序列是天然的或外来的。这些控制序列包括但不 限于前导序列、 聚腺苷酸化序列、 前肽序列、 启动子、 信号肽序列和转录终止子。至少, 控制 序列包括启动子以及转录和翻译终止信号。 为了引入特定的限制位点以促进控制序列与编 码多肽的核酸序列的编码区连接, 控制序列可与连接序列一起提供。
     “可操作地连接” 在本文定义为如下一种配置 : 在所述配置中控制序列相对于 DNA 序列的编码序列的位置被适当安放, 以使得控制序列指导多核苷酸和 / 或多肽的表达。
     “启动子序列” 是由宿主细胞识别用于表达编码区的核酸序列。控制序列可以包括 适当的启动子序列。启动子序列包含介导多肽的表达的转录控制序列。启动子可以是在选 择的宿主细胞中显示转录活性的任何核酸序列, 包括突变的、 截短的和杂合的启动子, 并且 可以从编码细胞外多肽或细胞内多肽的、 与该宿主细胞同源或异源的基因中获得。
     术语 “辅因子再生系统” 是指参加将氧化型的辅因子还原 ( 例如 NADP+ 至 NADPH) 的反应的一组反应物。 被酮还原酶催化的酮底物还原所氧化的辅因子被辅因子再生系统再 生为还原型。辅因子再生系统包括化学计量还原剂, 其为还原氢等价物的来源并且能够将 辅因子的氧化型还原。辅因子再生系统还可包括催化剂, 例如催化还原剂对辅因子氧化型 + + 的还原的酶催化剂。用于从 NAD 或 NADP 分别再生 NADH 或 NADPH 的辅因子再生系统是本 领域已知的并且可被用于本文所述的方法。
     5.2. 酮还原酶多肽和其用途
     本公开内容提供为能够立体特异性地还原 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为相应的立体异构醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)) 的酶的工 程化的酮还原酶 (“KRED” ) 多肽, 如以上方案 1 所示 )。在某些实施方案中, 被转化为立体 异构醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇产物 ( 如化合物 (2)) 的 底物 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮 (“底物” ) 在生物催化还原反应中作 为外消旋混合物的部分、 或作为大致上手性纯的化合物、 或作为手性纯的化合物存在。 本公 开内容的工程化的酮还原酶 (“KRED” ) 酶是与从 Novosphingobiumaromaticivorans 获得 的天然存在的野生型 KRED 酶 (SEQ ID NO : 2) 相比具有改进的特性的酶。期望对其改进的 酶特性包括但不限于, 酶促活性、 热稳定性、 pH 活性谱、 辅因子需求、 对抑制剂 ( 如, 产物抑 制 ) 的不应性、 立体特异性、 立体选择性和溶剂稳定性。改进可以是关于单独酶特性, 诸如 酶促活性, 或关于不同酶特性的组合, 诸如酶促活性和立体特异性。
     如 上 所 述, 具 有 改 进 的 酶 特 性 的 工 程 化 的 酮 还 原 酶 是 关 于 Novosphingobium aromaticivorans(SEQ ID NO : 2) 描述的。这些酮还原酶中的氨基酸残基位置从起始甲硫 氨酸 (M) 残基开始确定 ( 即, M 代表残基位置 1), 尽管本领域技术人员将理解, 这一起始的甲硫氨酸残基可能被诸如宿主细胞或体外翻译系统中的生物加工机制去除以产生缺少起 始甲硫氨酸残基的成熟蛋白。 氨基酸序列中存在特定氨基酸或氨基酸改变的氨基酸残基位 置在本文有时描述为术语 “Xn” 或 “残基 n” , 其中 n 是指残基位置。取代突变是序列中对应 于参考序列 ( 例如天然存在的酮还原酶 SEQ IDNO : 2) 的残基的残基被不同氨基酸残基进行 氨基酸残基替换, 如下标为 “X( 数字 )Z” , 其中 X 是见于 N.aromaticivorans 野生型酶 (SEQ ID NO : 2) 位置 “数字” 的氨基酸, Z 是见于 “突变体” 酶的位置 “数字” 的氨基酸, “突变体” 酶即其中氨基酸 Z 已经取代氨基酸 X 的酶。在这种情形, 单字母代码用于代表氨基酸 ; 如 G145A 是指其中 SEQ ID NO : 2 位置 145 的 “野生型” 氨基酸甘氨酸已被氨基酸丙氨酸替换的 情形。
     在本文, 突变有时被描述为一个残基突变 “为一种” 类型的氨基酸。例如, SEQ ID NO : 2 的残基 199( 异亮氨酸 (I)) 可被突变 “为一种” 极性残基。使用短语 “为一种” 不排除 从一个类别的一种氨基酸突变为同一类别的另一种氨基酸。例如, 残基 199 可从异亮氨酸 被突变 “为” 天冬酰胺。
     编 码 Novosphingobium aromaticivorans 的 天 然 存 在 的 酮 还 原 酶 ( 还 称 为 “ADH”或 “醇 脱 氢 酶” ) 的 多 核 苷 酸 序 列 可 从 GenBank 登 录 号 CP000677.1 中 提 供 的 Novosphingobium aromaticivorans DSM 12444 质粒 pNL2( 序列 ) 的碱基 160464 至 161243 完整序列的 780bp 区获得。这一多核苷酸编码的相应的多肽序列由 GenBank 登录号 gi|14 5322460|gb|ABP64403.1|[145322460 提供。由于起始密码子选择不同, 这一多肽比 SEQ ID NO : 2 短四个氨基酸 ( 即, GenBank 多肽序列开始于对应于 SEQ ID NO : 2 位置 5 的 Met)。本 公开内容预期包括其中多肽是 SEQ IDNO : 2 的片段的酮还原酶多肽, 其中该片段氨基酸序 列开始于 SEQ ID NO : 2 位置 5 的 Met, 结束于 SEQ ID NO : 2 的位置 263。因此, 在本文公开 的工程化的酮还原酶多肽的任何实施方案中, 其中多肽包括相对于 SEQ IDNO : 2 的氨基酸 差异, 本公开内容还提供工程化的酮还原酶多肽的片段, 其中该片段氨基酸序列开始于 SEQ ID NO : 2 位置 5 的 Met, 结束于 SEQ IDNO : 2 的位置 263, 氨基酸差异是在如同相应的全长工 程化的多肽相对于 SEQ ID NO : 2 的相同氨基酸处。
     在一些实施方案中, 本文的酮还原酶多肽可具有多个相对于参考序列 (SEQ ID NO : 2 的 Novosphingobium aromaticivorans) 的修饰, 其中修饰导致改进的酮还原酶特性。 在这种实施方案中, 对氨基酸序列的修饰的数目可包括一个或多个氨基酸、 2 或多个氨基 酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多个氨基酸、 8 或多个氨基酸、 9 或多个氨基酸、 10 或多个氨基酸、 15 或多个氨基酸、 或 20 或多个氨基酸、 达参考酶序列氨基 酸总数的 10%、 达氨基酸总数的 10%、 达氨基酸总数的 20%、 或达氨基酸总数的 30%。 在一 些实施方案中, 产生改进的酮还原酶特性的对天然存在的多肽或工程化的多肽的修饰数目 可包括参考序列的从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个修饰。 修饰可包括插入、 缺失、 取 代、 或其组合。
     在一些实施方案中, 修饰包括对参考序列, 即 SEQ ID NO : 2 的 Novosphingobium aromaticivorans KRED 序列的氨基酸取代。 可产生改进的酮还原酶特性的取代可以是在一 个或多个氨基酸、 2 或多个氨基酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多 个氨基酸、 7 或多个氨基酸、 8 或多个氨基酸、 9 或多个氨基酸、 10 或多个氨基酸、 15 或多个氨基酸、 或 20 或多个氨基酸、 达参考酶序列氨基酸总数的 10%、 达氨基酸总数的 15%、 达氨基 酸总数的 20%、 或达氨基酸总数的 30%。在一些实施方案中, 产生改进的酮还原酶特性的 对天然存在的多肽或工程化的多肽的取代数目可包括参考序列的从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个氨基酸取代。
     在一些实施方案中, 酮还原酶多肽的改进的特性是关于其立体特异性的增加。例 如, 在一些实施方案中, 改进的特性是酶区分 N- 保护的 3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮的 两种对映体 ( 如, 按照式 (IV) 的 (3S) 对映体和 (3R) 对映体的外消旋混合物 ), 并转化大致 上仅 (3S) 对映体为相应的立体异构式 (II) 产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 醇 ( 如化合物 (2)) 的能力, 如例如以下方案 5 所示。
     方案 5
    酮还原酶多肽的立体特异性的这一改进可表示为酮还原酶反应的 “E 值” 的改进。
     在一些实施方案中, 酮还原酶多肽的改进的特性是关于其转化或还原更大百分比 的底物为产物的能力增加。在一些实施方案中, 酮还原酶多肽的改进的特性是关于其转化 底物为产物的比率增加。酶促活性的这一改进可表示为与野生型或其他参考序列相比, 使 用较少的改进的多肽还原或转化相同量的产物的能力。在一些实施方案中, 酮还原酶多肽 的改进的特性是关于其稳定性或热稳定性。在一些实施方案中, 酮还原酶多肽具有多于一 种改进的特性, 诸如立体特异性、 酶活性和热稳定性的组合。
     在 一 些 实 施 方 案 中, 酮 还 原 酶 多 肽 能 够 立 体 特 异 性 地 转 化 N- 保 护 的 3- 氨 基 -1- 氯 -4- 苯基丁 -2- 酮的 (3S)- 对映体以获得非对映体过量百分比为至少约 25 %、 50 %、 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %、 99 %、 99.9%或 99.99%的相应的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇产物。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 90%非对 映体过量的产物。具有这种立体特异性的示例性的多肽包括但不限于, 包含对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 95%非对 映体过量的产物。具有这种立体特异性的示例性的多肽包括但不限于, 包含对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 97%非对 映体过量的产物。具有这种立体特异性的示例性的多肽包括但不限于, 包含对应于 SEQ ID
     NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 98%非对 映体过量的产物。具有这种高立体特异性的示例性的酮还原酶多肽包括但不限于, 包含对 应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为至少约 98 %、 99%、 99.9%或 99.99%非对映体过量百分比的产物, 其中多肽包括对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是等价或改进的。能够以与野生型等价或比 野生型改进的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是改进的。能够以比野生型改进至少约 1.2 倍的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是改进的。能够以比野生型改进至少约 1.5 倍的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 6、 18、 22、 30、 38、 40、 50、 52、 54 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是改进的。能够以比野生型改进至少约 3 倍 的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 本公开内容的工程化的酮还原酶多肽能够转化底物为至少约 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %、 99 %、 99.9 %、 99.99 %或更多非对映 体过量的产物。具有这一能力的示例性的工程化的酮还原酶多肽包括但不限于, 包括对应 于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的序列的多肽。
     在一些实施方案中, 本公开内容的工程化的酮还原酶多肽能够以改进的转化率还 原底物式 (I) 化合物 ( 如, 化合物 (1)) 为产物式 (II) 化合物 ( 如, 化合物 (2))。 例如, 在一 些实施方案中, 本公开内容的工程化的酮还原酶多肽能够在约 24 小时或更短时间内转化 至少约 70%、 71%、 72%、 73 %、 74 %、 75%、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %、 99%或更多底物为产物。在一些实施方案中, 工程化的酮还原酶多肽能够在少于约 24 小 时、 少于约 20 小时、 少于约 16 小时、 少于约 12 小时、 和甚至少于约 10 小时内转化至少约90%底物为产物。具有这一能力的示例性的工程化的酮还原酶多肽包括但不限于, 包括对 应于 SEQ ID NO : 6、 50、 52 和 56 的序列的多肽。
     在一些实施方案中, 当反应混合物包括相对于底物的量的重量约 1%或更少 ( 但 多于 0% )、 0.5%或更少 ( 但多于 0% )、 0.2%或更少 ( 但多于 0% )、 或甚至 0.1%或更少 ( 但多于 0% ) 重量比的酮还原酶多肽时, 本公开内容的工程化的酮还原酶多肽能够在约 24 小时或更短时间内转化至少约 70%、 80%、 90%、 95%、 99%或更多底物式 (I) 化合物 ( 如, 化合物 (1)) 为产物式 (II) 化合物 ( 如, 化合物 (2))。具有这一能力的示例性的多肽包括 但不限于, 包括对应于 SEQ ID NO : 6、 50、 52 和 56 的序列的多肽。
     在一些实施方案中, 当反应混合物包括酮还原酶多肽负荷为约 10g/L 或更少、 5g/ L 或更少、 2g/L 或更少、 1g/L 或更少和反应混合物中底物的初始浓度 ( 即, 底物负荷 ) 为至 少约 25g/L、 至少约 50g/L、 至少约 75g/L、 至少约 100g/L、 至少约 125g/L、 至少约 150g/L、 至 少约 175g/L、 或至少约 200g/L 时, 本公开内容的工程化的酮还原酶多肽能够在约 24 小时或 更短时间内转化至少约 70%、 80%、 90%、 95%、 99%或更多底物式 (I) 化合物 ( 如, 化合物 (1)) 为产物式 (II) 化合物 ( 如, 化合物 (2))。具有这一能力的示例性的多肽包括但不限 于, 包括对应于 SEQ ID NO : 6、 50、 52 和 56 的序列的多肽。
     在一些实施方案中, 酮还原酶多肽具有比野生型改进的活性和稳定性, 可还原底 物为大于约 98% d.e 的产物。具有这种能力的示例性的多肽包括但不限于 SEQ ID NO : 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56。以下表 2 以序列标识符 (SEQ ID NO) 列出本文公开的工程化的酮还原酶多肽 ( 和编码多核苷酸 ) 连同工程化的多 肽的变异序列相对于其通过定向进化来自的野生型 Novosphingobiumaromaticivorans 酮 还原酶序列的具体残基差异 (SEQ ID NO : 2)( 参见如, Stemmer 等, 1994, Proc Natl Acad Sci USA 91 : 10747-10751)。表 2 的每行列出两个 SEQ ID NO, 其中奇数是指编码偶数提供 的多肽氨基酸序列的核苷酸序列。
     确定每种工程化的酮还原酶多肽相对于野生型酶 SEQ ID NO : 2 活性的活性 ( 野 生型 : 24 小时中~ 30%转化、 3g/L 底物负荷、 5g/L 酶负荷 )。活性确定为随着时间, 化合物 (1) 向化合物 (2) 的转化, 如实施例 7 所述。如表 2 中概括的, 活性的改进如下定量 : “相当 (Control)” 指示与 SEQ ID NO : 2 的 KRED 的活性相比 100%至 120% ; “+” 指示与 SEQ ID NO : 2 的 KRED 相比> 120 %至 150 % ; “++” 指示与 SEQ ID NO : 2 的 KRED 相比> 150 %至 300% ; 且 “+++” 指示与 SEQ ID NO : 2 的 KRED 相比> 300%。
     表2
    工程化的酮还原酶多肽转化仲醇即异丙醇 (IPA) 为其相应产物丙酮的改进的活 性相对于参考多肽 SEQ ID NO : 2 的相同活性确定。相对 IPA 活性利用以下反应条件的检验 确定 : 100μl 10× 稀释的工程化的 KRED 裂解物、 10% IPA(v/v)、 0.5g/L NAD+、 100mM TEA、 pH 7.5。对 IPA 表现相对于 SEQ ID NO : 2 增加至少 2 倍的活性的示例性的工程化的酮还原 酶多肽列在表 3。相对于 WT SEQ ID NO : 2 在 IPA 活性方面的改进倍数如下定量 : “+” 指示 至少 200%至 250%改进 ; “++” 指示< 250%至 500%改进 ; 和 “+++” 指示> 500%至 1000%
     改进 ; 和 “++++” 指示> 1000%至 2000%改进。
     表3
    在一些实施方案中, 本公开内容提供改进的酮还原酶多肽, 其包含与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73 %、 74 %、 75 %、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99%相同的氨基酸序列, 且包括表 2 或表 3 中列出的至少一种氨基酸取代。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 活性的至少约 3 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 2 的相对活性指定为 “+++” ), 其中 改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92%、 93%、 94%、 95%、 96%、 97%、 98%、 或 99%相同的氨基酸序列, 且包括至少一种以下 氨基酸取代或氨基酸取代组 : G145A ; G145A 和 I225V ; P2L、 E50K、 G145A 和 A217T ; G145A 和 I199L。本文公开的这种改进的酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。改进的酮 还原酶在位置 P2、 E50、 G145、 I199、 A217 和 I225 的其他可用的氨基酸序列取代在以下公开。 在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 活性的至少约 1.5 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 2 的相对活性指定为 “++” ), 其中改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、
     91%、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相同的氨基酸序列, 且包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代 : N153G ; N153H ; G190A ; F260Y ; I91R ; K94R ; G145A ; I199N ; 或与 SEQ ID NO : 2 相比的以下氨基酸取代组 : K94R、 G145A 和 I199N。本文公开的这 种改进的酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以是 非保守取代、 保守取代、 或非保守取代和保守取代的组合。 改进的酮还原酶在位置 I91、 K94、 G145、 N153、 G190、 I199 和 F260 的其他可用的氨基酸序列取代在以下公开。 在一些实施方案 中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或 约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 活性的至少约 1.2 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 2 的相对活性指定为 “+” ), 其中 改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相同的氨基酸序列, 且包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代 : I199L ; A150G ; I91L ; I91W ; I91K ; 和 V144T ; 或与 SEQ ID NO : 2 相比的以下氨基酸取代组之一 : G145A ; A47V 和 I199M ; A150G 和 P231F。本文公开的 这种改进的酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以 是非保守取代、 保守取代、 或非保守取代和保守取代的组合。改进的酮还原酶在位置 A47、 I91、 V144、 G145、 A150、 I199 和 P231 的其他可用的氨基酸序列取代在以下公开。 在一些实施 方案中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 转化异丙醇为丙 酮方面活性的至少约 2 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 3 的相对活 性指定为 “+” ), 其中改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99 %相同的氨基酸序 列, 且包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代 : V144C、 G145A、 G145V、 A150S、 M200I、 V204F 或 I225V ; 或与 SEQ ID NO : A150I、 A150W、 G190P、 G190Q、 G190V、 I199G、 I199L、 2 相比的以下氨基酸取代组之一 : G145A、 I199L ; 或 G145A、 I225V。本文公开的这种改进的 酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以是非保守取 代、 保守取代、 或非保守取代和保守取代的组合。改进的酮还原酶在位置 V144、 G145、 A150、 G190、 I199、 M200、 V204 和 I225 的其他可用的氨基酸序列取代在以下公开。 在一些实施方案 中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或 约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。因此, 在一些实施方案中, 本公开内容提供能够以比参考多肽 SEQ IDNO : 2 大至少 2 倍、 2.5 倍、 5 倍、 或 10 倍的活性氧化异丙醇 (IPA) 为丙酮的工程化的酮还原酶多肽, 其中 该多肽包括具有与选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的序列至 少 70%、 80%、 85%、 90%、 95%、 98%、 99%或更大的同一性的氨基酸序列。在一些实施方 案中, 工程化的多肽具有与选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的序列具有至少 95%的同一性的氨基酸序列。在一些实施方案中, 工程化的多肽具有选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的氨基酸序列。
     在一些实施方案中, 能够以比参考多肽 SEQ ID NO : 2 大至少 2 倍、 2.5 倍、 5 倍或 10 倍的活性氧化异丙醇 (IPA) 为丙酮的工程化的酮还原酶多肽具有包括至少一种以下特征 的氨基酸序列 : 对应于 SEQ ID NO : 2 的氨基酸 144 的残基是半胱氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基选自丙氨酸和缬氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 150 的 残基选自异亮氨酸、 丝氨酸和色氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 190 的残基选 自谷氨酰胺、 脯氨酸和缬氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 199 的残基选自甘 氨酸和亮氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 200 的残基是异亮氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 204 的残基是苯丙氨酸 ; 且对应于 SEQ ID NO : 2 的氨基酸 225 的残基是 缬氨酸。在某些实施方案中, 工程化的多肽的氨基酸序列包括与 SEQ ID NO : 2 相比的至少 一种以下取代 : V144C、 A150I、 A150S、 A150W、 G190P、 G190V、 M200I 和 V204F。在某些实施方 案中, 工程化的多肽的氨基酸序列包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代组 : G145A 和 I199L ; G145A 和 I225V。
     在一些实施方案中, 工程化的酮还原酶多肽能够以比参考多肽 SEQ IDNO : 2 大至 少 5 倍的活性氧化异丙醇 (IPA) 为丙酮, 且其中氨基酸序列包括与 SEQ ID NO : 2 相比的至 少一种以下取代 : A150W、 M200I 和 G190V。
     在一些实施方案中, 本公开内容的酮还原酶多肽可具有与参考氨基酸序列相比或 与 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 或 80 任一种相比的一种或多种修 饰 ( 即, 残基差异 )。修饰可包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守 取代、 或非保守取代和保守取代的组合。 在一些实施方案中, 这些酮还原酶多肽可在其他氨 基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。 在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供改进的酮还原酶多肽, 其包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73 %、 74 %、 75 %、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83%、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99%相同的氨基酸序列, 且包括与 SEQ ID NO : 2 相比选自以下组成的组的至少一种氨基酸 取代 : 位置 2 的脯氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的 脂肪族或非极性氨基酸代替 ; 位置 28 的缬氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬 氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替 ; 位置 34 的丙氨酸残基 被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 47 的丙氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性 氨基酸代替 ; 位置 50 的谷氨酸残基被选自赖氨酸和精氨酸的碱性氨基酸代替 ; 位置 81 的 天冬氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 90 的 丝氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极 性氨基酸代替 ; 位置 91 的异亮氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨 酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替, 而在其他方面, 位置 91 的异亮氨酸 残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸, 或选自赖氨酸和精氨酸的碱性氨 基酸代替 ; 位置 94 的赖氨酸残基以保守改变被另一种碱性氨基酸精氨酸代替 ; 位置 112 的 天冬氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位置 117 的甘氨酸 残基被选自天冬氨酸和谷氨酸的酸性氨基酸代替 ; 位置 143 的丝氨酸残基被选自赖氨酸和 精氨酸的碱性氨基酸代替 ; 位置 144 的缬氨酸残基被半胱氨酸或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 145 的甘氨酸残基以保守或非保守改变, 可被选 自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甲硫氨酸的非极性氨基酸或选自丙氨酸、 亮氨酸、 缬 氨酸、 异亮氨酸的脂肪族氨基酸代替 ; 位置 148 的精氨酸残基被选自脯氨酸和组氨酸的受 限制的氨基酸代替 ; 位置 150 的丙氨酸残基以保守或非保守改变被选自亮氨酸、 缬氨酸、 异 亮氨酸、 甘氨酸和甲硫氨酸的另一种非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸, 或选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位 置 152 的苯丙氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非 极性或脂肪族氨基酸代替 ; 位置 153 的天冬酰胺残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮 氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸和脯氨酸的受限制的氨 基酸代替 ; 位置 158 的苏氨酸残基以保守改变被选自天冬酰胺、 谷氨酰胺和丝氨酸的另一 种极性氨基酸代替 ; 位置 190 的甘氨酸残基以保守或非保守改变被选自丙氨酸、 缬氨酸、 亮 氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨酰胺 和丝氨酸的极性氨基酸, 或脯氨酸代替 ; 位置 198 的丝氨酸残基以保守改变被选自天冬酰 胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替 ; 位置 199 的异亮氨酸残基以保守改变被 选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲硫氨酸的另一种脂肪族或非极性氨基酸, 或选自 天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 200 的甲硫氨酸残基以保 守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甘氨酸的另一种非极性氨基酸代替 ; 位 置 204 的缬氨酸以非保守改变被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位 置 217 的丙氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 225 的异亮氨酸残基以保守改变被选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的另一种非极性 氨基酸代替 ; 位置 231 的脯氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代 替; 位置 232 的丙氨酸残基以保守改变被选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲硫氨 酸的另一种非极性氨基酸代替 ; 位置 233 的谷氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸 和苏氨酸的极性氨基酸代替 ; 位置 244 的天冬氨酸残基被选自丙氨酸、 亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲硫氨酸的非极性氨基酸代替 ; 位置 260 的苯丙氨酸残基以保守改变被 选自酪氨酸和色氨酸的另一种芳香族氨基酸代替 ; 且位置 261 的丝氨酸残基以保守改变被 选自天冬酰胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替。以上改进的酮还原酶多肽还 可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸 残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰 的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个 其他氨基酸残基。
     在某些实施方案中, 本公开内容的改进的酮还原酶多肽包括与 SEQ IDNO : 2 至少 约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78%、 79%、 80%、 81%、 82%、 83%、 84%、 85%、 86%、 87%、 88%、 89%、 90%、 91%、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相 同的氨基酸序列, 并包括与 SEQ ID NO : 2 相比选自以下组成的组的至少一种氨基酸取代 : 位置 2 的脯氨酸残基被亮氨酸代替 (P2L) ; 位置 28 的缬氨酸残基被丙氨酸代替 (V28A) ; 位 置 34 的丙氨酸残基被丝氨酸代替 (A34S) ; 位置 47 的丙氨酸残基被缬氨酸代替 (A47V) ; 位置 50 的谷氨酸残基被赖氨酸代替 (E50K) ; 位置 81 的天冬氨酸残基被天冬酰胺代替 (D81N) ; 位置 90 的丝氨酸残基被缬氨酸代替 (S90V) ; 位置 91 的异亮氨酸残基被选自亮氨 酸 (I91L)、 色氨酸 (I91W)、 精氨酸 (I91R) 和赖氨酸 (I91K) 的氨基酸代替 ; 位置 94 的赖氨 酸残基被精氨酸代替 (K94R) ; 位置 112 的天冬氨酸残基被酪氨酸代替 (D112Y) ; 位置 117 的 甘氨酸残基被天冬氨酸代替 (G117D) ; 位置 143 的丝氨酸残基被精氨酸代替 (S143R) ; 位置 144 的缬氨酸残基被选自半胱氨酸 (V144C) 和苏氨酸 (V144T) 的氨基酸代替 ; 位置 145 的甘 氨酸残基被选自丙氨酸 (G145A) 和缬氨酸 (G145V) 的氨基酸代替 ; 位置 148 的精氨酸残基 被组氨酸代替 (R148H) ; 位置 150 的丙氨酸残基被选自甘氨酸 (A150G)、 异亮氨酸 (A150I)、 丝氨酸 (A150S) 和色氨酸 (A150W) 的氨基酸代替 ; 位置 152 的苯丙氨酸残基被亮氨酸代 替 (F152L) ; 位置 153 的天冬酰胺残基被选自甘氨酸 (N153G)、 缬氨酸 (N153V) 和组氨酸 (N153H) 的氨基酸代替 ; 位置 158 的苏氨酸残基被丝氨酸代替 (T158S) ; 位置 190 的甘氨酸 残基被选自丙氨酸 (G190A)、 脯氨酸 (G190P)、 谷氨酰胺 (G190Q) 和缬氨酸 (G190V) 的氨基 酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺代替 (S198N) ; 位置 199 的异亮氨酸残基被选自 甘氨酸 (I199G)、 甲硫氨酸 (I199M)、 亮氨酸 (I199L) 和天冬酰胺 (I199N) 的氨基酸代替 ; 位 置 200 的甲硫氨酸残基被异亮氨酸代替 (M200I) ; 位置 204 的缬氨酸残基被苯丙氨酸代替 (V204F) ; 位置 217 的丙氨酸残基被苏氨酸代替 (A217T) ; 位置 225 的异亮氨酸残基被缬氨 酸代替 (I225V) ; 位置 231 的脯氨酸残基被苯丙氨酸代替 (P231F) ; 位置 232 的丙氨酸残基 被缬氨酸代替 (A232V) ; 位置 233 的谷氨酸残基被谷氨酰胺代替 (E233Q) ; 位置 244 的天冬 氨酸残基被甘氨酸代替 (D244G) ; 位置 260 的苯丙氨酸残基被酪氨酸代替 (F260Y) ; 且位置 261 的丝氨酸残基被天冬酰胺代替 (S261N)。
     在某些实施方案中, 本公开内容的工程化的酮还原酶多肽包括选自以下组成的组 的氨基酸序列 : SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80。以上改进的酮还 原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在 其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。 在一些实施方 案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35或约 40 个其他氨基酸残基。
     在一些实施方案中, 改进的工程化的酮还原酶可包括天然存在的酮还原酶多肽的 缺失以及其他改进的酮还原酶多肽的缺失。在一些实施方案中, 本文所述的每种改进的工 程化的酮还原酶可包括本文所述的多肽的缺失。因此, 对于本公开内容的酮还原酶多肽的 每种和每个实施方案, 缺失可包括一个或多个氨基酸、 2 或多个氨基酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多个氨基酸、 8 或多个氨基酸、 10 或多个氨基酸、 15 或多 个氨基酸、 或 20 或多个氨基酸、 达还原酶多肽的氨基酸总数的 10%、 达氨基酸总数的 10%、 达氨基酸总数的 20%、 或达酮氨基酸总数的 30%, 只要保留酮还原酶活性的功能活性。在 一些实施方案中, 缺失可包括 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个氨基酸残基。
     如本文所述, 本公开内容的酮还原酶多肽可以融合多肽的形式, 其中酮还原酶多 肽与其他多肽诸如抗体标签 ( 如, myc 表位 ) 或纯化序列 ( 如, His 标签 ) 融合。因此, 酮还 原酶多肽可以与其他多肽融合或不与其他多肽融合地使用。
     在一些实施方案中, 改进的工程化的酮还原酶可包括对天然存在的酮还原酶多肽 添加或插入氨基酸序列以及对其他改进的酮还原酶多肽添加或插入氨基酸序列。 在具体实 施方案中, 本公开内容的酮还原酶多肽可例如, 在天然存在的酮还原酶多肽以及本公开内 容的改进的酮还原酶多肽的氨基端或羧基端包括 1-20、 2-15、 3-10、 4-8、 或 5-7 个另外的氨 基酸。对于本公开内容的酮还原酶多肽的每种和每个实施方案, 插入或添加可包括一个或 多个氨基酸、 2 或多个氨基酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多个 氨基酸、 8 或多个氨基酸、 10 或多个氨基酸、 15 或多个氨基酸、 或 20 或多个氨基酸、 达酮还 原酶多肽的氨基酸总数的 10%、 达氨基酸总数的 10%、 达氨基酸总数的 20%、 或达氨基酸 总数的 30%, 只要保留酮还原酶活性的功能活性。在一些实施方案中, 插入或添加可包括 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个氨基酸残基。
     本文所述的多肽不受限于遗传编码的氨基酸。除了遗传编码的氨基酸以外, 本文 所述的多肽可以总体上或部分上由天然存在的和 / 或合成的非编码氨基酸组成。可组成 本文所述的多肽的某些常见非编码氨基酸可以包括但不限于 : 遗传编码的氨基酸的 D- 对 映异构体 ; 2, 3- 二氨基丙酸 (Dpr) ; α- 氨基异丁酸 (Aib) ; ε- 氨基己酸 (Aha) ; δ- 氨基 戊酸 (Ava) ; N- 甲基甘氨酸或肌氨酸 (MeGly 或 Sar) ; 鸟氨酸 (Orn) ; 瓜氨酸 (Cit) ; 叔丁 基丙氨酸 (Bua) ; 叔丁基甘氨酸 (Bug) ; N- 甲基异亮氨酸 (MeIle) ; 苯基甘氨酸 (Phg) ; 环 己基丙氨酸 (Cha) ; 正亮氨酸 (Nle) ; 萘基丙氨酸 (Nal) ; 2- 氯苯丙氨酸 (Ocf) ; 3- 氯苯丙 氨酸 (Mcf) ; 4- 氯苯丙氨酸 (Pcf) ; 2- 氟苯丙氨酸 (Off) ; 3- 氟苯丙氨酸 (Mff) ; 4- 氟苯丙 氨酸 (Pff) ; 2- 溴苯丙氨酸 (Obf) ; 3- 溴苯丙氨酸 (Mbf) ; 4- 溴苯丙氨酸 (Pbf) ; 2- 甲基苯 丙氨酸 (Omf) ; 3- 甲基苯丙氨酸 (Mmf) ; 4- 甲基苯丙氨酸 (Pmf) ; 2- 硝基苯丙氨酸 (Onf) ; 3- 硝基苯丙氨酸 (Mnf) ; 4- 硝基苯丙氨酸 (Pnf) ; 2- 氰基苯丙氨酸 (Ocf) ; 3- 氰基苯丙氨酸 (Mcf) ; 4- 氰基苯丙氨酸 (Pcf) ; 2- 三氟甲基苯丙氨酸 (Otf) ; 3- 三氟甲基苯丙氨酸 (Mtf) ; 4- 三氟甲基苯丙氨酸 (Ptf) ; 4- 氨基苯丙氨酸 (Paf) ; 4- 碘苯丙氨酸 (Pif) ; 4- 氨甲基苯 丙氨酸 (Pamf) ; 2, 4- 二氯苯丙氨酸 (Opef) ; 3, 4- 二氯苯丙氨酸 (Mpcf) ; 2, 4- 二氟苯丙氨 酸 (Opff) ; 3, 4- 二氟苯丙氨酸 (Mpff) ; 吡啶 -2- 基丙氨酸 (2pAla) ; 吡啶 -3- 基丙氨酸(3pAla) ; 吡啶 -4- 基丙氨酸 (4pAla) ; 萘 -1- 基丙氨酸 (1nAla) ; 萘 -2- 基丙氨酸 (2nAla) ; 噻唑基丙氨酸 (taAla) ; 苯并噻吩基丙氨酸 (bAla) ; 噻吩基丙氨酸 (tAla) ; 呋喃基丙氨酸 (fAla) ; 高苯丙氨酸 (hPhe) ; 高酪氨酸 (hTyr) ; 高色氨酸 (hTrp) ; 五氟苯丙氨酸 (5ff) ; 苯 乙烯基丙氨酸 (sAla) ; 蒽基丙氨酸 (aAla) ; 3, 3- 二苯丙氨酸 (Dfa) ; 3- 氨基 -5- 苯基戊酸 (Afp) ; 青霉胺 (Pen) ; 1, 2, 3, 4- 四氢异喹啉 -3- 羧酸 (Tic) ; β-2- 噻吩基丙氨酸 (Thi) ; 甲硫氨酸亚砜 (Mso) ; N(w)- 硝基精氨酸 (nArg) ; 高赖氨酸 (hLys) ; 膦酰基甲基苯丙氨酸 (pmPhe) ; 磷酸丝氨酸 (pSer) ; 磷酸苏氨酸 (pThr) ; 高天冬氨酸 (hAsp) ; 高谷氨酸 (hGlu) ; 1- 氨基环戊 -(2 或 3)- 烯 -4 羧酸 ; 哌可酸 (PA) ; 氮杂环丁烷 -3- 羧酸 (ACA) ; 1- 氨基环 戊烷 -3- 羧酸 ; 烯丙基甘氨酸 (aOly) ; 炔丙基甘氨酸 (pgGly) ; 高丙氨酸 (hAla) ; 正缬氨酸 (nVal) ; 高亮氨酸 (hLeu) ; 高缬氨酸 (hVal) ; 高异亮氨酸 (hIle) ; 高精氨酸 (hArg) ; N- 乙 酰赖氨酸 (AcLys) ; 2, 4- 氨基丁酸 (Dbu) ; 2, 3- 二氨基丁酸 (Dab) ; N- 甲基缬氨酸 (MeVal) ; 高半胱氨酸 (hCys) ; 高丝氨酸 (hSer) ; 羟基脯氨酸 (Hyp) 和高脯氨酸 (hPro)。本文所述 多肽可包含的另外的非编码氨基酸将对本领域技术人员是明显的 ( 参见, 例如, 在 Fasman, 1989, CRC Practical Handbookof Biochemistry and Molecular Biology(CRC 生物化学 和分子生物学实用手册 ), CRC Press, Boca Raton, FL, 在第 3-70 页及其中引用的参考文献 中提供的多种氨基酸, 该文献以及其中所引用的参考文献全部通过引用并入本文 )。 这些氨 基酸可以处于 L- 构型或 D- 构型。
     本领域技术人员将认识到, 带有侧链保护基的氨基酸或残基也可以构成本文所述 的多肽。在这种情况下属于芳香族类别的这些受保护的氨基酸的非限制性实例包括 ( 在 圆括号中列出保护基 ) 但不限于 : Arg(tos)、 Cys( 甲苄基 )、 Cys( 硝基吡啶亚氧硫基 )、 Glu(δ- 苄基酯 )、 Gln( 呫吨基 )、 Asn(N-δ- 呫吨基 )、 His(bom)、 His( 苄基 )、 His(tos)、 Lys(fmoc)、 Lys(tos)、 Ser(O- 苄基 )、 Thr(O- 苄基 ) 和 Tyr(O- 苄基 )。
     可构成本文所述多肽的构型上受限制的非编码氨基酸包括但不限于 N- 甲基氨基 酸 (L- 构型 ) ; 1- 氨基酸环戊 -(2 或 3)- 烯 -4- 羧酸 ; 哌可酸 ; 氮杂环丁烷 -3- 羧酸 ; 高脯 氨酸 (hPro) ; 以及 1- 氨基环戊烷 -3- 羧酸。
     如上所述, 被引入天然存在的多肽以产生工程化酮还原酶的各种修饰可以被定向 至该酶的具体特性。
     5.3 编码工程化酮还原酶的多核苷酸
     另一方面, 本公开内容提供了编码工程化的酮还原酶的多核苷酸。可以将所述多 核苷酸可操作地连接至控制基因表达的一种或多种异源调节序列以产生能够表达该多肽 的重组多核苷酸。 可以将包含编码工程化酮还原酶的异源多核苷酸的表达构建体引入适当 的宿主细胞中来表达对应的酮还原酶多肽。
     由于对各种氨基酸所对应的密码子的了解, 蛋白序列的可用性提供了对能够编码 该主题的所有多核苷酸的描述。 相同氨基酸由替代的或同义的密码子编码的遗传密码的简 并性允许极大数目的核酸被制出, 所有这些核酸编码本文所公开的改进的酮还原酶。 因此, 如果已识别了具体的氨基酸序列, 本领域技术人员能够以不改变蛋白的氨基酸序列的方式 通过仅仅变更序列的一个或更多个密码子来制出任意数目的不同核酸。在这点上, 本公开 内容明确涵盖可通过选择基于可能的密码子选择的组合制出的多核苷酸的每一种可能的 改变, 并且所有这些改变将被认为对本文公开的任何多肽明确地公开, 所述本文公开的任何多肽包括在表 2 中提供的氨基酸序列。
     在一些实施方案中, 多核苷酸包括编码以下酮还原酶多肽的核苷酸序列, 该酮还 原酶多肽的氨基酸序列与本文所述的任何一种工程化的酮还原酶多肽, 即, 包括选自 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 组成的组的氨基酸序列的多肽, 具有 至少约 80%或更大序列同一性、 至少 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78%、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94%、 95%、 96%、 97%、 98%或 99%同一性、 或更大序列同一性。
     在多个实施方案中, 优选地选择密码子以适合在其中产生蛋白的宿主细胞。例 如, 在细菌中使用的偏爱密码子用于在细菌中表达基因 ; 在酵母中使用的偏爱密码子 用于酵母中的表达 ; 并且在哺乳动物中使用的偏爱密码子用于哺乳动物细胞中的表 达。例如, 多核苷酸 SEQ ID NO : 1 可被密码子优化以在大肠杆菌中表达, 但另外地编码 Novosphingobiumaromaticivorans 的天然存在的酮还原酶。
     在一些实施方案中, 不必替换所有密码子来优化酮还原酶的密码子使用, 由于天 然序列将包括偏爱密码子并且因为偏爱密码子的使用可能并不是所有氨基酸残基所需的。 因此, 编码酮还原酶的密码子优化的多核苷酸可以在全长编码区的约 40 %、 50 %、 60 %、 70%、 80%或大于 90%的密码子位置包含偏爱密码子。 在一些实施方案中, 编码工程化的酮还原酶的多核苷酸选自 SEQ IDNO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79。在一些实施方案中, 编码工程化的酮还原酶的多核苷 酸能够在高度严格条件下与包括 SEQ ID NO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79 的多核苷酸杂交。这些多核苷酸编码由表 2 和表 3 列出的氨基酸序列代表的一些多肽。
     在其他实施方案中, 多核苷酸包括编码本文所述的多肽, 但在核苷酸水平与编码 工程化的酮还原酶的参考多核苷酸具有约 80%或更大序列同一性、 约 85%或更大序列同 一性、 约 90%或更大序列同一性、 约 95%或更大序列同一性、 约 98%或更大序列同一性、 或 99%或更大序列同一性的多核苷酸。在一些实施方案中, 参考多核苷酸选自由 SEQ ID NO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79 代表的多核苷酸序列。
     可以用多种方式操作编码改进的酮还原酶多肽的分离的多核苷酸以提供该多肽 的表达。取决于表达载体, 所分离的多核苷酸在其插入载体中之前的操作可能是令人期 望的或必要的。利用重组 DNA 方法修饰多核苷酸和核酸序列的技术是本领域公知的。在 Sambrook 等人, 2001, MolecularCloning : A Laboratory Manual( 分子克隆实验室指南 ), 第 3 版, Cold SpringHarbor Laboratory Press ; 以及 Current Protocols in Molecular Biology( 分子生物学最新实验方案 ), Ausubel.F. 编, Greene Pub.Associates, 1998, 更新 至 2006 中提供了指导。
    对于细菌宿主细胞, 用于指导本公开内容的核酸构建体转录的适宜启动子包 括 从 大 肠 杆 菌 lac 操 纵 子、 天 蓝 色 链 霉 菌 (Streptomyces coelicolor) 琼 脂 糖 酶 基 因 (dagA)、 枯 草 芽 孢 杆 菌 (Bacillus subtilis) 果 聚 糖 蔗 糖 酶 基 因 (sacB)、 地衣芽孢杆
     菌 (Bacillus licheniformis)α- 淀 粉 酶 基 因 (amyL)、 嗜 热 脂 肪 芽 孢 杆 菌 (Bacillus stearothermophilus) 生 麦 芽 糖 淀 粉 酶 基 因 (amyM)、 解 淀 粉 芽 孢 杆 菌 (Bacillus amyloliquefaciens)α- 淀粉酶基因 (amyQ)、 地衣芽孢杆菌青霉素酶基因 (penP)、 枯草芽 孢杆菌 xylA 基因和 xylB 基因、 以及原核 β- 内酰胺酶基因 (Villa-Kamaroff 等人, 1978, Proc.Natl Acad.Sci.USA 75 : 3727-3731) 获得的启动子以及 tac 启动子 (DeBoer 等人, 1983, Proc.Natl Acad.Sci.USA 80 : 21-25)。
     对于丝状真菌宿主细胞而言, 用于指导本公开内容的核酸构建体转录的适宜启动 子包括从米曲霉 (Aspergillus oryzae)TAKA 淀粉酶、 米黑根毛霉 (Rhizomucor miehei) 天 冬氨酸蛋白酶、 黑曲霉 (Aspergillus niger) 中性 α- 淀粉酶、 黑曲霉酸稳定的 α- 淀粉酶、 黑曲霉或泡盛曲霉 (Aspergillusawamori) 葡萄糖淀粉酶 (glaA)、 米黑根毛霉脂肪酶、 米曲 霉碱性蛋白酶、 米曲霉磷酸丙糖异构酶、 构巢曲霉 (Aspergillus nidulans) 乙酰胺酶和尖 孢镰刀菌 (Fusarium oxysporum) 胰蛋白酶样蛋白酶 (WO 96/00787) 的基因获得的启动子 以及 NA2-tpi 启动子 ( 来自黑曲霉中性 α- 淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启 动子的杂合体 ), 和它们突变的、 截短的及杂合的启动子。
     在酵母宿主中, 有用的启动子可以来自酿酒酵母 (Saccharomycescerevisiae) 烯 醇化酶 (ENO-1)、 酿酒酵母半乳糖激酶 (GAL1)、 酿酒酵母醇脱氢酶 / 甘油醛 -3- 磷酸脱氢 酶 (ADH2/GAP) 以及酿酒酵母 3- 磷酸甘油酸酯激酶的基因。Romanos 等人, 1992, Yeast 8 : 423-488 描述了酵母宿主细胞其他有用的启动子。
     控制序列也可以是适宜的转录终止子序列, 即由宿主细胞识别的终止转录的序 列。终止子序列被可操作地连接于编码多肽的核酸序列的 3′端。在本发明中可以使用在 选择的宿主细胞中有功能的任何终止子。
     例如, 丝状真菌宿主细胞的示例性转录终止子可以从米曲霉 TAKA 淀粉酶、 黑曲霉 葡萄糖淀粉酶、 构巢曲霉邻氨基苯甲酸合酶、 黑曲霉 α- 葡糖苷酶和尖孢镰刀菌胰蛋白酶 样蛋白酶的基因中获得。
     酵母宿主细胞的示例性终止子可以从酿酒酵母烯醇化酶、 酿酒酵母细胞色素 C(CYC1) 和酿酒酵母甘油醛 -3- 磷酸脱氢酶的基因中获得。上述 Romanos 等人, 1992 对酵 母宿主细胞其他有用的终止子进行了描述。
     控制序列也可以是适宜的前导序列, 一种对宿主细胞翻译而言重要的 mRNA 的非 翻译区。前导序列被可操作地连接于编码多肽的核酸序列的 5′端。可以使用在选择的宿 主细胞中有功能的任何前导序列。丝状真菌宿主细胞的示例性前导序列是从米曲霉 TAKA 淀粉酶和构巢曲霉磷酸丙糖异构酶的基因中获得。 酵母宿主细胞适宜的前导序列是从酿酒 酵母烯醇化酶 (ENO-1)、 酿酒酵母 3- 磷酸甘油酸激酶、 酿酒酵母 α- 因子以及酿酒酵母醇脱 氢酶 / 甘油醛 -3- 磷酸脱氢酶 (ADH2/GAP) 的基因中获得。
     控制序列也可以是聚腺苷酸化序列, 即可操作地连接于核酸序列的 3′端并且当 转录时被宿主细胞识别为向转录的 mRNA 添加聚腺苷残基的信号的序列。在本发明中可以 使用在选择的宿主细胞中有功能的任何聚腺苷酸化序列。丝状真菌宿主细胞的示例性聚 腺苷酸化序列可以从米曲霉 TAKA 淀粉酶、 黑曲霉葡萄糖淀粉酶、 构巢曲霉邻氨基苯甲酸合 酶、 尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉 α- 葡糖苷酶的基因中获得。Guo 和 Sherman, 1995, Mol Cell Bio 15 : 5983-5990 描述了酵母宿主细胞的有用的聚腺苷酸化序列。控制序列也可以是编码与多肽的氨基端连接的氨基酸序列并引导该编码多肽进 入细胞分泌途径的信号肽编码区。核酸序列的编码序列的 5′端可以固有地包含翻译阅读 框中与编码分泌的多肽的编码区区段天然连接的信号肽编码区。 可选地, 编码序列的 5′端 可以包含对编码序列而言为外来的信号肽编码区。 在编码序列天然不包含信号肽编码区时 可能需要外来的信号肽编码区。
     可选地, 外来的信号肽编码区可仅仅代替天然信号肽编码区以增强多肽的分泌。 然而, 引导表达的多肽进入所选宿主细胞的分泌途径的任何信号肽编码区可用在本发明 中。
     细菌宿主细胞有效的信号肽编码区是从芽孢杆菌 NClB 11837 生麦芽糖淀粉酶、 嗜热脂肪芽孢杆菌 α- 淀粉酶、 地衣芽孢杆菌枯草杆菌蛋白酶、 地衣芽孢杆菌 β- 内酰胺 酶、 嗜热脂肪芽孢杆菌中性蛋白酶 (nprT、 nprS、 nprM) 和枯草芽孢杆菌 prsA 的基因中获得 的信号肽编码区。Simonen 和 Palva, 1993, Microbiol Rev 57 : 109-137 描述了其他的信号 肽。
     丝状真菌宿主细胞有效的信号肽编码区可以是从米曲霉 TAKA 淀粉酶、 黑曲霉 中性淀粉酶、 黑曲霉葡萄糖淀粉酶、 米黑根毛霉天冬氨酸蛋白酶、 特异腐质霉 (Humicola insolens) 纤维素酶以及柔毛腐质酶 (Humicolalanuginosa) 脂肪酶的基因中获得的信号 肽编码区。
     酵母宿主细胞有用的信号肽可以来自酿酒酵母 α- 因子和酿酒酵母转化酶的基 因。上述 Romanos 等人, 1992 对其他有用的信号肽编码区进行了描述。
     控制序列也可以是编码位于多肽氨基端的氨基酸序列的前肽编码区。生成的 多 肽 被 称 为 酶 原 (proenzyme) 或 多 肽 原 ( 或 在 某 些 情 况 下 称 为 酶 原 (zymogen))。 多 肽原一般是无活性的, 并且可以通过前肽从多肽原的催化裂解或自身催化裂解转化为 成熟的活性多肽。前肽编码区可以从枯草芽孢杆菌碱性蛋白酶 (aprE)、 枯草芽孢杆 菌中性蛋白酶 (nprT)、 酿酒酵母 α- 因子、 米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉 (Myceliophthorathermophila) 乳糖酶的基因获得 (WO 95/33836)。
     在信号肽和前肽区都存在于多肽的氨基端时, 前肽区被定位于紧挨着多肽的氨基 端并且信号肽区被定位于紧挨着前肽区的氨基端。
     添加调节序列可能也是令人期望的, 所述调节序列允许相对于宿主细胞的生长调 节多肽的表达。调节系统的实例是响应于化学刺激或物理刺激 ( 包括调节化合物的存在 ) 而促使基因的表达被打开或关闭的那些调节系统。在原核宿主细胞中, 适宜的调节序列包 括 lac、 tac 以及 trp 操纵子系统。在酵母宿主细胞中, 适宜的调节系统包括, 例如 ADH2 系 统或 GAL1 系统。在丝状真菌中, 适宜的调节序列包括 TAKA α- 淀粉酶启动子、 黑曲霉葡萄 糖淀粉酶启动子以及米曲霉葡萄糖淀粉酶启动子。
     调节序列的其他实例是那些允许基因扩增的调节序列。在真核系统中, 这些调节 序列包括在甲氨蝶呤的存在下扩增的二氢叶酸还原酶基因和用重金属扩增的金属硫蛋白 基因。在这些情况下, 编码本发明的 KRED 多肽的核酸序列将与调节序列可操作地连接。
     因此, 在另一个实施方案中, 本公开内容也涉及重组表达载体, 所述重组表达载体 包含编码工程化酮还原酶多肽或其变体的多核苷酸以及一个或更多个表达调节区, 诸如启 动子和终止子、 复制起点等等, 这取决于表达调节区被引入的宿主的类型。 可以将上述多种核酸和控制序列连接在一起产生重组表达载体, 所述重组表达载体可以包括一个或更多个 便利的限制性位点以允许在这些位点插入或取代编码多肽的核酸序列。可选地, 本公开内 容的核酸序列可以通过将该核酸序列或包含该序列的核酸构建体插入用于表达的适当载 体中来表达。在表达载体的创建中, 编码序列位于载体中以使得该编码序列与用于表达的 适当的控制序列可操作地连接。
     重组表达载体可以是能够便利地进行重组 DNA 步骤并且能够导致多核苷酸序列 表达的任何载体 ( 例如质粒或病毒 )。载体的选择将通常取决于载体与该载体要引入的宿 主细胞的相容性。载体可以是线性质粒或闭合环状质粒。
     表达载体可以是自主复制的载体, 即作为染色体外的实体而存在、 其复制独立于 染色体复制的载体, 例如质粒、 染色体外的元件、 微型染色体或人工染色体。载体可以包含 用于确保自我复制的任何手段。可选地, 载体可以是在引入宿主细胞中时被整合到基因组 并与它所整合的染色体一起复制的载体。 此外, 可以使用单种载体或质粒, 或者一起包含要 引入到宿主细胞基因组中的总 DNA 的两种或更多种载体或质粒, 或转座子。
     本发明的表达载体优选地包含一种或多种选择性标记, 所述选择性标记使得容易 选择转化的细胞。 选择性标记是一种基因, 其产物提供了杀生物剂抗性或病毒抗性、 对重金 属的耐受性、 针对营养缺陷型的原养型等。细菌的选择性标记的实例是来自枯草芽孢杆菌 或地衣芽孢杆菌的 dal 基因, 或是赋予抗生素抗性诸如氨苄西林、 卡那霉素、 氯霉素或四环 素抗性的标记。酵母宿主细胞的适宜标记是 ADE2、 HIS3、 LEU2、 LYS2、 MET3、 TRP1 和 URA3。
     在丝状真菌宿主细胞中使用的选择性标记包括但不限于 amdS( 乙酰胺酶 )、 argB( 鸟氨酸氨基甲酰基转移酶 )、 bar( 草丁膦乙酰转移酶 )、 hph( 潮霉素磷酸转移酶 )、 niaD( 硝酸盐还原酶 )、 pyrG( 乳清酸核苷 -5 ′ - 磷酸脱羧酶 )、 cysC( 硫酸腺苷酰转移 酶 )、 以及 trpC( 邻氨基苯甲酸合酶 ) 以及它们的等同物。在曲霉属细胞中使用的实施 方案包括构巢曲霉或米曲霉的 amdS 基因和 pyrG 基因, 以及吸水链霉菌 (Streptomyces hygroscopicus) 的 bar 基因。
     本发明的表达载体优选地包含允许载体整合到宿主细胞基因组中或允许该载体 在细胞中独立于基因组而自主复制的元件。对于整合到宿主细胞基因组中, 载体可以依赖 于编码多肽的核酸序列或载体的任何其他元件通过同源重组或非同源重组将载体整合到 基因组中。
     可选地, 表达载体可以包含用于指导通过同源重组整合到宿主细胞基因组中的另 外的核酸序列。 所述另外的核酸序列使载体能够在染色体中的精确位置被整合到宿主细胞 基因组中。为了提高在精确位置整合的可能性, 整合元件应该优选地包含与对应的靶序列 高度同源的数目足够的核酸, 诸如 100 到 10,000 个碱基对, 优选 400 到 10,000 个碱基对, 以及最优选 800 到 10,000 个碱基对, 以增强同源重组的机率。整合元件可以是与宿主细胞 的基因组中的靶序列同源的任何序列。此外, 整合元件可以是非编码核酸序列或编码核酸 序列。另一方面, 可以通过非同源重组将载体整合到宿主细胞的基因组中。
     对于自主复制, 载体还可以包括使该载体能在要考虑的宿主细胞中自主复制的复 制起点。细菌复制起点的实例是允许在大肠杆菌中复制的 P15Aori、 或质粒 pBR322、 pUC19、 pACYC177( 该质粒具有 P15A ori) 或质粒 pACYC184 的复制起点, 以及允许在芽孢杆菌中复 制的 pUB110、 pE194、 pTA1060 或 pAMβ1 的复制起点。在酵母宿主细胞中使用的复制起点的实例是 2 微米复制起点 ARS1、 ARS4, ARS1 和 CEN3 的组合, 以及 ARS4 和 CEN6 的组合。复 制起点可以是具有突变的复制起点, 所述突变使其在宿主细胞中以温度敏感的方式起作用 ( 参见, 例如 Ehrlich, 1978, Proc NatlAcad Sci.USA 75 : 1433)。
     可以将多于一个拷贝的本发明的核酸序列插入宿主细胞中以提高基因产物的生 产量。核酸序列拷贝数的增加可以通过如下方式获得 : 通过将该序列的至少一个另外拷贝 整合到宿主细胞基因组中, 或者通过使该核酸序列包括可扩增的选择性标记基因, 其中可 以通过在适当选择剂的存在下培养细胞来选择包含该选择性标记基因的扩增拷贝和由此 包含该核酸序列的另外拷贝的细胞。
     在本发明中使用的许多表达载体可商购获得。适宜的商业表达载体包括来自 Sigma-Aldrich Chemicals, St.Louis MO. 的 p3xFLAGTMTM 表达载体, 它包括用于在哺乳 动物宿主细胞中表达的 CMV 启动子和 hGH 多腺苷酸化位点以及用于在大肠杆菌中扩增 的 pBR322 复制起点和氨苄西林抗性标记。其他适宜的表达载体是可以从 Stratagene, LaJolla CA 商 购 获 得 的 pBluescriptII SK(-) 和 pBK-CMV, 以 及 源 自 于 pBR322(Gibco BRL)、 pUC(Gibco BRL)、 pREP4、 pCEP4(Invitrogen) 或 pPoly(Lathe 等 人, 1987, Gene57 : 193-201) 的质粒。
     5.4 用于表达酮还原酶多肽的宿主细胞
     另一方面, 本公开内容提供了包含编码本公开内容的改进酮还原酶多肽的多核苷 酸的宿主细胞, 该多核苷酸与用于在该宿主细胞中表达酮还原酶的一个或更多个控制序列 可操作地连接。在由本发明的表达载体所编码的 KRED 多肽的表达中使用的宿主细胞是本 领域公知的并且包括但不限于 : 细菌细胞, 诸如大肠杆菌、 乳杆菌属、 链霉菌属和鼠伤寒沙 门氏菌 (Salmonella typhimurium) 的细胞 ; 真菌细胞, 诸如酵母细胞 ( 例如, 酿酒酵母或巴 斯德毕赤酵母 (Pichia pastorts)(ATCC 获取号 201178)) ; 昆虫细胞诸如果蝇 S2 细胞和夜 蛾 (Spodoptera)Sf9 细胞 ; 动物细胞诸如 CHO、 COS、 BHK、 293 和 Bowes 黑色素瘤细胞 ; 以及 植物细胞。用于上述宿主细胞的适当培养基和生长条件是本领域公知的。因此, 在一些实 施方案中, 本文公开的工程化的酮还原酶多肽可通过标准方法制备, 包括培养包含含编码 多肽的多核苷酸的适当表达载体的宿主细胞。
     可以通过本领域已知的多种方法将用于表达酮还原酶的多核苷酸引入细胞中。 技 术包括但不限于电穿孔、 生物射弹粒子轰击、 脂质体介导的转染、 氯化钙转染和原生质体融 合。用于将多核苷酸引入细胞中的多种方法将对技术人员是明显的。
     示例性宿主细胞是大肠杆菌 W3110。另一种示例性宿主细胞是大肠杆菌 BL21。通 过将编码改进的酮还原酶的多核苷酸可操作地连入质粒 pCK110900( 参见, 美国申请公布 20040137585) 而产生表达载体, 该多核苷酸与在 lacI 阻抑物的控制下的 lac 启动子可操作 地连接。该表达载体还包含 P15a 复制起点和氯霉素抗性基因。通过对在大肠杆菌 W3110 或 BL21 中包含主题多核苷酸的细胞进行氯霉素选择来分离这些细胞。
     5.5 产生工程化的酮还原酶多肽的方法
     在一些实施方案中, 为了制备本公开内容的改进的 KRED 多核苷酸和多肽, 从 Novosphingobium aromaticivorans 获得 ( 或衍生 ) 催化还原反应的天然存在的酮还原酶。 在一些实施方案中, 母体多核苷酸序列被密码子优化以增强酮还原酶在指定宿主细胞中的 表达。作为例证, 编码 Novosphingobium aromaticivorans 野生型 KRED 多肽的亲本多核苷酸序列 (SEQ ID NO : 1), 可基于该序列从寡核苷酸组装, 或从包含密码子优化的编码序列的 寡核苷酸组装以在指定宿主细胞如大肠杆菌宿主细胞中表达。在一个实施方案中, 多核苷 酸可被克隆到表达载体中, 放置酮还原酶基因的表达在 lac 启动子和 lacI 阻遏基因的控制 下。可鉴定在大肠杆菌中表达活性酮还原酶的克隆, 对基因测序以证实其身份。
     如上所述, 通过使编码天然存在的酮还原酶的多核苷酸经历诱变和 / 或定向进化 方法, 可以获得工程化酮还原酶。示例性定向进化技术是如在 Stemmer, 1994, Proc Natl Acad Sci USA 91 : 10747-10751 ; WO 95/22625 ; WO97/0078 ; WO 97/35966 ; WO 98/27230 ; WO 00/42651 ; WO 01/75767 和美国专利 6,537,746 中所述的诱变和 / 或 DNA 改组。其他可 以使用的定向进化方案包括但不限于 : 交错延伸过程 (StEP)、 体外重组 (Zhao 等人, 1998, Nat.Biotechnol.16 : 258-261)、诱 变 PCR(Caldwell 等 人, 1994, PCR Methods Appl.3 : S136-S140) 和盒式诱变 (Black 等人, 1996, Proc Natl Acad Sci USA93 : 3525-3529)。
     筛选按照诱变处理获得的克隆中具有期望的改进的酶特性的工程化的酮还原酶。 测量表达文库的酶活性可利用监测 NADH 或 NADPH 浓度因为被转化为 NAD+ 或 NADP+ 而降低 的比率 ( 由吸光度或荧光的降低 ) 的标准生化技术进行。 在这一反应中, 随着酮还原酶还原 酮底物为相应的羟基, NADH 或 NADPH 被酮还原酶消耗 ( 氧化 )。由吸光度或荧光降低测量 的每单位时间 NADH 或 NADPH 浓度的降低率, 指示在固定量的裂解物 ( 或由其制成的冻干粉 末 ) 中 KRED 多肽的相对 ( 酶 ) 活性。在期望的改进酶特性是热稳定性的情况下, 可以在使 酶制品经历限定的温度并测量热处理后剩余的酶活性的量之后测量酶活性。 然后对包含编 码酮还原酶的多核苷酸的克隆进行分离, 测序, 以识别核苷酸序列的改变 ( 如果有的话 ), 并将这些克隆用于在宿主细胞中表达酶。
     在工程化多肽的序列为已知的情况下, 可以根据已知的合成方法通过标准固相方 法制备编码酶的多核苷酸。在一些实施方案中, 高达大约 100 个碱基的片段能够单独合成, 然后连接 ( 例如, 通过酶连接或化学连接方法或聚合酶介导的方法 ) 形成任何期望的连续 序列。例如, 可以使用例如由 Beaucage 等人, 1981, Tet Lett 22 : 1859-69 所描述的经典亚 磷酰胺方法或由 Matthes 等人, 1984, EMBO J.3 : 801-05 所描述的方法 ( 例如, 像它通常在自 动化合成方法中实施的那样 ) 通过化学合成来制备本发明的多核苷酸和寡核苷酸。根据亚 磷酰胺方法, 例如在自动化 DNA 合成器中合成寡核苷酸, 纯化, 退火, 连接并克隆在适当载 体中。此外, 基本上任何核酸都可以从各种商业来源中的任何一种获得, 诸如 The Midland CertifiedReagent Company, Midland, TX、 The Great American Gene Company, Ramona, CA、 ExpressGen Inc.Chicago, IL、 Operon Technologies Inc., Alameda, CA 以及许多其他 来源。
     在宿主细胞中表达的工程化酮还原酶可以使用任何一种或多种公知的蛋白质纯 化技术从这些细胞中和或培养基中回收, 所述公知的蛋白质纯化技术包括但不限于溶菌酶 处理、 超声处理、 过滤、 盐析、 超离心和色谱。 用于裂解和从细菌诸如大肠杆菌中高效提取蛋 白的适宜溶液是从 St.LouisMO 的 Sigma-Aldrich 以商标名 CelLytic BTM 可商业途径获得 的。因此, 在一些实施方案中, 本文公开的工程化的酮还原酶多肽可由标准方法制备, 包括 培养包括含编码多肽的多核苷酸的适当表达载体的宿主细胞, 并从宿主细胞分离多肽。 用于分离酮还原酶多肽的色谱技术包括但不限于反相色谱、 高效液相色谱、 离子 交换色谱、 凝胶电泳和亲和色谱。 用于纯化特定酶的条件将部分取决于如下因素 : 诸如净电
     荷、 疏水性、 亲水性、 分子量、 分子形状等等, 并且将对本领域技术人员是明显的。
     在一些实施方案中, 亲和技术可以用于分离改进的酮还原酶。 对于亲和色谱纯化, 可以使用特异性结合酮还原酶多肽的任何抗体。对于抗体的产生, 可以通过用本公开内容 的多肽注射来免疫多种宿主动物, 包括但不限于兔、 小鼠、 大鼠等等。可以将该多肽与适宜 载体 ( 诸如 BSA) 通过侧链官能基团或与侧链官能基团相连的连接物相连。多种佐剂可根 据宿主物种用于提高免疫应答, 包括但不限于弗氏 ( 完全或不完全 ) 佐剂, 矿物凝胶诸如 氢氧化铝, 表面活性物质诸如溶血卵磷脂, 多聚醇, 聚阴离子, 肽, 油乳剂, 匙孔血蓝蛋白, 二 硝基苯酚, 以及可能有用的人佐剂诸如 BCG( 卡介苗 ) 和短小棒状杆菌 (Corynebacterium parvum)。
     5.6 利用工程化酮还原酶的方法和以此制备的化合物
     本文所述的酮还原酶可催化式 (I) 化合物 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基 丁 -2- 酮 (“底 物” )( 如 化 合 物 (1), 其 中 保 护 基 是 BOC 部 分 ) 对 映 体 特 异 性 (enantiospecific) 还原为相应的式 (II) 化合物立体异构醇产物 N- 保护的 (2R, 3S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)), 如方案 1 所示 ( 参见以上 )。
     在一些实施方案中, 本发明提供在 N- 保护的 (R)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮 化合物与 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮的混合物中立体特异性地富集 N- 保护的 (R)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮化合物的方法, 该方法通过在适于产生手性 醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇的反应条件下将混合物与本文 公开的酮还原酶多肽接触或培养, 而还原混合物中 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基 丁 -2- 酮化合物, 如方案 5 的反应所示 ( 参见以上 )。因此, 在一些实施方案中, 具有改进的 立体特异性 ( 与 SEQID NO : 2 相比 ) 的本公开内容的酮还原酶多肽可用于拆分手性 α- 氯 代酮化合物的混合物。
     在该方法的一些实施方案中, 当以大于或等于 200g/L 底物和少于或等于 2g/L 酮 还原酶 ( 但多于 0g/L 酶 ) 进行该方法时, 在少于 24、 23、 22、 21、 20、 19、 18、 17、 16、 15、 14、 13、 12、 11、 10、 9、 8 或 7 小时内至少约 45%的外消旋底物混合物被还原为产物。
     利用本文公开的酮还原酶转化式 (I) 化合物为手性氯代醇式 (II) 化合物的方法 表现比已知方法的实质改进, 部分是因为所得的高产率 ( 如, 在少于 24 小时内转化率> 80%或更大 )、 高纯度 ( 如, > 99% d.e.) 和有利的溶剂系统, 这允许制备式 (II) 化合物并 利用其作为随后反应的反应物的 “压缩 (telescoped)” 反应。
     在该方法的一些实施方案中, 产物具有大于约 90%、 95%、 97%、 98%、 99%或甚至 更大非对映体过量的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇。
     在该方法的一些实施方案中, 当以大于约 100g/L 底物和少于约 5g/L 多肽进行该 方法时, 在少于约 24 小时内约 95%的底物被转化为产物。
     在该方法的一些实施方案中, 在少于约 24 小时、 20 小时、 12 小时、 8 小时、 或甚至更 短时间内至少约 90%、 95%、 97%、 98%或更多式 (I) 化合物被转化为式 (II) 化合物。
     在该方法的一些实施方案中, 在少于约 24 小时内至少约 95%的式 (I) 化合物被转 化为式 (II) 化合物, 其中式 (I) 化合物浓度是至少约 150g/L 且多肽浓度是少于约 1g/L。
     在某些实施方案中, 本公开内容还提供制备式 (III) 化合物环氧化物的方法, 该 方法按照以上所示的方案 3 和 4, 通过利用本公开内容的酮还原酶转化式 (I) 化合物为式(II) 化合物手性氯代醇 ( 如, 化合物 (2)), 然后环化式 (II) 化合物为式 (III) 化合物环氧 化物 ( 如, 化合物 (3))。这一转化可通过如下非常有效地进行 : 用适当溶剂 ( 如, MTBE) 萃 取含式 (II) 化合物的粗制酶促反应混合物, 并将这一萃取物与适当的碱 ( 如, KOH) 接触。
     在本文提供的方法的某些实施方案中, 碱选自氢氧化钾 (KOH)、 叔丁醇钾、 碳酸钾 和三乙胺。
     在某些实施方案中, 化合物 (3) 的制备可如下进行 : 通过将 MTBE 中的 0.3M 化合物 (2)( 如, 酮还原酶反应混合物的粗制萃取物 ) 与 MTBE 溶液中的 0.6M KOH( 或其他适当的 碱 ) 反应。这一反应在 5 小时内达到> 99%转化为化合物 (3) 环氧化物, 在 8 小时内达到 99.9%转化 ( 由 HPLC 确定 )。
     在某些实施方案中, 制备本公开内容的式 (III) 化合物的方法包括以下步骤 : 用 有机溶剂萃取酶反应混合物, 并将有机溶剂萃取物与碱接触。 在某些实施方案中, 进行该方 法, 其中进行将式 (II) 化合物与碱接触的所述步骤而不首先纯化和 / 或分离式 (II) 化合 物 ( 如, “压缩 (telescoped)” 反应或 “一锅法 (one-pot)” 反应 )。
     因此, 在一些实施方案中, 本公开内容提供制备式 (III) 化合物 ( 如, 化合物 (3)) 的方法, 包括利用本公开内容的酮还原酶转化式 (I) 化合物为式 (II) 化合物 ( 如, 化合物 (2)) 的步骤。 在制备式 (III) 化合物的一些实施方案中, 该方法还包括将式 (II) 化合物与 碱接触的步骤。在某些实施方案中, 进行该方法, 其中进行将式 (II) 化合物与碱接触的所 述步骤而不首先纯化和 / 或分离式 (II) 化合物。
     在某些实施方案中, 该方法还包括用结晶溶剂交换 ( 或更换 ) 有机溶剂萃取物 的有机溶剂, 并从结晶溶剂结晶式 (III) 化合物。在某些实施方案中, 有机溶剂萃取物是 MTBE, 其被交换为结晶溶剂庚烷。
     根据本文提供的方法, 可用于萃取和结晶的其他有机溶剂是本领域已知和本领域 技术人员可获取的有机溶剂, 包括公知的烃类、 醚类、 酯类和醇类, 如, 乙腈、 正丁醇、 甲苯、 乙酸异丙酯。
     如上所述, 本文所述的任何酮还原酶多肽, 包括表 2 中举例的那些, 可用在该方法 中。而且, 在一些实施方案中, 该方法可使用酮还原酶多肽, 该酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98%、 或 99%相同的氨基酸序列, 还包括与 SEQ ID NO : 2 相比选自以下组成的组的至少一 种氨基酸取代 : 位置 2 的脯氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲 硫氨酸的脂肪族或非极性氨基酸代替 ; 位置 28 的缬氨酸残基以保守改变被选自丙氨酸、 亮 氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替 ; 位置 34 的丙氨 酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 47 的丙氨酸 残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或 非极性氨基酸代替 ; 位置 50 的谷氨酸残基被选自赖氨酸和精氨酸的碱性氨基酸代替 ; 位 置 81 的天冬氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位 置 90 的丝氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族 或非极性氨基酸代替 ; 位置 91 的异亮氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替, 而在其他方面, 位置 91 的异亮氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸, 或选自赖氨酸和精氨酸的 碱性氨基酸代替 ; 位置 94 的赖氨酸残基以保守改变被另一种碱性氨基酸精氨酸代替 ; 位置 112 的天冬氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位置 117 的甘 氨酸残基被选自天冬氨酸和谷氨酸的酸性氨基酸代替 ; 位置 143 的丝氨酸残基被选自赖氨 酸和精氨酸的碱性氨基酸代替 ; 位置 144 的缬氨酸残基被半胱氨酸或选自天冬酰胺、 谷氨 酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 145 的甘氨酸残基以保守或非保守改变, 可 被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甲硫氨酸的非极性氨基酸, 或选自丙氨酸、 亮氨 酸、 缬氨酸、 异亮氨酸的脂肪族氨基酸代替 ; 位置 148 的精氨酸残基被选自脯氨酸和组氨酸 的受限制的氨基酸代替 ; 位置 150 的丙氨酸残基以保守或非保守改变被选自亮氨酸、 缬氨 酸、 异亮氨酸、 甘氨酸和甲硫氨酸的另一种非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨 酰胺、 丝氨酸和苏氨酸的极性氨基酸, 或选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代 替; 位置 152 的苯丙氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸 的非极性或脂肪族氨基酸代替 ; 位置 153 的天冬酰胺残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸和脯氨酸的受限制 的氨基酸代替 ; 位置 158 的苏氨酸残基以保守改变被选自天冬酰胺、 谷氨酰胺和丝氨酸的 另一种极性氨基酸代替 ; 位置 190 的甘氨酸残基以保守或非保守改变被选自丙氨酸、 缬氨 酸、 亮氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨 酰胺和丝氨酸的极性氨基酸, 或脯氨酸代替 ; 位置 198 的丝氨酸残基以保守改变被选自天 冬酰胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替 ; 位置 199 的异亮氨酸残基以保守改 变被选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲硫氨酸的另一种脂肪族或非极性氨基酸, 或 选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 200 的甲硫氨酸残基以 保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甘氨酸的另一种非极性氨基酸代替 ; 位置 204 的缬氨酸以非保守改变被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位置 217 的丙氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位 置 225 的异亮氨酸残基以保守改变被选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的另一种非 极性氨基酸代替 ; 位置 231 的脯氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基 酸代替 ; 位置 232 的丙氨酸残基以保守改变被选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲 硫氨酸的另一种非极性氨基酸代替 ; 位置 233 的谷氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝 氨酸和苏氨酸的极性氨基酸代替 ; 位置 244 的天冬氨酸残基被选自丙氨酸、 亮氨酸、 异亮氨 酸、 缬氨酸、 甘氨酸和甲硫氨酸的非极性氨基酸代替 ; 位置 260 的苯丙氨酸残基以保守改变 被选自酪氨酸和色氨酸的另一种芳香族氨基酸代替 ; 且位置 261 的丝氨酸残基以保守改变 被选自天冬酰胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替。以上改进的酮还原酶多肽 还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸 残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰 的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个 其他氨基酸残基。
     在一些实施方案中, 该方法可使用本公开内容的改进的酮还原酶多肽, 其包括与SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78%、 79%、 80%、 81%、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97%、 98%、 或 99%相同的氨基酸序列, 还包括与 SEQ ID NO : 2 相比选自以下组成的组的 至少一种氨基酸取代 : 位置 2 的脯氨酸残基被亮氨酸代替 (P2L) ; 位置 28 的缬氨酸残基 被丙氨酸代替 (V28A) ; 位置 34 的丙氨酸残基被丝氨酸代替 (A34S) ; 位置 47 的丙氨酸残 基被缬氨酸代替 (A47V) ; 位置 50 的谷氨酸残基被赖氨酸代替 (E50K) ; 位置 81 的天冬氨 酸残基被天冬酰胺代替 (D81N) ; 位置 90 的丝氨酸残基被缬氨酸代替 (S90V) ; 位置 91 的 异亮氨酸残基被选自亮氨酸 (I91L)、 色氨酸 (I91W)、 精氨酸 (I91R) 和赖氨酸 (I91K) 的 氨基酸代替 ; 位置 94 的赖氨酸残基被精氨酸代替 (K94R) ; 位置 112 的天冬氨酸残基被酪 氨酸代替 (D112Y) ; 位置 117 的甘氨酸残基被天冬氨酸代替 (G117D) ; 位置 143 的丝氨酸 残基被精氨酸代替 (S143R) ; 位置 144 的缬氨酸残基被选自半胱氨酸 (V144C) 和苏氨酸 (V144T) 的氨基酸代替 ; 位置 145 的甘氨酸残基被选自丙氨酸 (G145A) 和缬氨酸 (G145V) 的氨基酸代替 ; 位置 148 的精氨酸残基被组氨酸代替 (R148H) ; 位置 150 的丙氨酸残基被 选自甘氨酸 (A150G)、 异亮氨酸 (A150I)、 丝氨酸 (A150S) 和色氨酸 (A150W) 的氨基酸代 替; 位置 152 的苯丙氨酸残基被亮氨酸代替 (F152L) ; 位置 153 的天冬酰胺残基被选自甘 氨酸 (N153G)、 缬氨酸 (N153V) 和组氨酸 (N153H) 的氨基酸代替 ; 位置 158 的苏氨酸残基 被丝氨酸代替 (T158S) ; 位置 190 的甘氨酸残基被选自丙氨酸 (G190A)、 脯氨酸 (G190P)、 谷氨酰胺 (G190Q) 和缬氨酸 (G190V) 的氨基酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺 代替 (S198N) ; 位置 199 的异亮氨酸残基被选自甘氨酸 (I199G)、 甲硫氨酸 (I199M)、 亮氨 酸 (I199L) 和天冬酰胺 (I199N) 的氨基酸代替 ; 位置 200 的甲硫氨酸残基被异亮氨酸代替 (M200I) ; 位置 204 的缬氨酸残基被苯丙氨酸代替 (V204F) ; 位置 217 的丙氨酸残基被苏氨 酸代替 (A217T) ; 位置 225 的异亮氨酸残基被缬氨酸代替 (I225V) ; 位置 231 的脯氨酸残基 被苯丙氨酸代替 (P231F) ; 位置 232 的丙氨酸残基被缬氨酸代替 (A232V) ; 位置 233 的谷 氨酸残基被谷氨酰胺代替 (E233Q) ; 位置 244 的天冬氨酸残基被甘氨酸代替 (D244G) ; 位 置 260 的苯丙氨酸残基被酪氨酸代替 (F260Y) ; 且位置 261 的丝氨酸残基被天冬酰胺代替 (S261N)。 在某些实施方案中, 本公开内容的酮还原酶多肽包括选自以下组成的组的氨基酸 序列 : SEQ IDNO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 65、 66、 68、 70、 72、 74、 76、 78 和 80。以上改进的酮还原酶多肽还 可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸 残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰 的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个 其他氨基酸残基。
     在一些实施方案中, 本公开内容的方法使用包括选自以下组成的组的氨基酸序列 的酮还原酶 : SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 65、 66、 68、 70、 72、 74、 76、 78、 80 和其组合。示例性的 包括序列组合的组包括 : SEQ ID NO 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56 组成的组 ; SEQ ID NO6、 18、 22、 30、 38、 40、 50、 52、 54 和 56 组成的组 ; 和 SEQ IDNO 6、 50、 52 和 56 组成的组。
     在该方法的一些实施方案中, 产物具有大于约 90%、 95%、 97%、 98%、 99%、 或甚 至更大非对映体过量的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇, 其中酮还原 酶多肽包括对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列。
     在该方法的一些实施方案中, 当该方法以大于或等于 200g/L 底物和少于或等于 2g/L 酮还原酶 ( 但多于 0g/L 酶 ) 进行时, 在少于 24、 23、 22、 21、 20、 19、 18、 17、 16、 15、 14、 13、 12、 11、 10、 9、 8、 或 7 小时内至少约 45%的外消旋底物混合物被还原为产物, 其中酮还原 酶多肽包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列。
     如本领域技术人员已知的, 酮还原酶 - 催化的还原反应通常需要辅因子。本文所 述的工程化的酮还原酶催化的还原反应通常也需要辅因子, 但工程化的酮还原酶的许多实 施方案比用野生型酮还原酶催化的反应需要的辅因子少得多。 本文所用的术语 “辅因子” 是 指联合酮还原酶起作用的非蛋白化合物。 适于用于本文所述的工程化的酮还原酶的辅因子 + 包括但不限于, NADP ( 烟酰胺腺嘌呤二核苷酸磷酸 )、 NADPH(NADP+ 的还原形式 )、 NAD+( 烟 酰胺腺嘌呤二核苷酸 ) 和 NADH(NAD+ 的还原形式 )。通常, 将辅因子的还原形式加到反应混 合物。还原的 NAD(P)H 形式任选地可利用辅因子再生系统从氧化的 NAD(P)+ 形式再生。
     术语 “辅因子再生系统” 是指参加将氧化型的辅因子还原 ( 例如 NADP+ 至 NADPH) 的反应的一组反应物。 被酮还原酶催化的酮底物还原所氧化的辅因子被辅因子再生系统再 生为还原型。辅因子再生系统包括化学计量还原剂, 其为还原氢等价物的来源并且能够将 辅因子的氧化型还原。辅因子再生系统还可包括催化剂, 例如催化还原剂对辅因子氧化型 + + 的还原的酶。用于从 NAD 或 NADP 分别再生 NADH 或 NADPH 的辅因子再生系统是本领域已 知的并且可被用于本文所述的方法。
     可被使用的适合的示例性辅因子再生系统包括但不限于葡萄糖和葡萄糖脱氢酶、 甲酸和甲酸脱氢酶、 葡萄糖 -6- 磷酸和葡萄糖 -6- 磷酸脱氢酶、 仲醇 ( 例如异丙醇 ) 和仲醇 脱氢酶、 亚磷酸盐和亚磷酸盐脱氢酶、 分子氢和氢化酶以及诸如此类。 这些系统可与 NADP+/ NADPH 或 NAD+/NADH 辅因子共同使用。使用氢化酶的电化学再生还可被用作辅因子再生系 统。参见例如美国专利第 5,538,867 和 6,495,023 号, 其二者都通过引用被并入本文。包 括金属催化剂和还原剂 ( 例如分子氢或甲酸盐 ) 的化学辅因子再生系统也是适合的。参见 例如 PCT 公布 WO 2000/053731, 其通过引用被并入本文。
     术语 “葡萄糖脱氢酶” 和 “GDH” 在本文中被互换地使用以指 NAD+ 或 NADP+ 依赖性 酶, 所述酶催化 D- 葡萄糖和 NAD+ 或 NADP+ 分别向葡萄糖酸和 NADH 或 NADPH 的转化。下面 的反应式 (1) 描述葡萄糖脱氢酶催化的葡萄糖对 NAD+ 或 NADP+ 的还原。
    适合用于本文所述方法的实践的葡萄糖脱氢酶包括天然存在的葡萄糖脱氢酶以 及非天然存在的葡萄糖脱氢酶二者。编码天然存在的葡萄糖脱氢酶的基因已在文献中 报道。例如, 枯草芽孢杆菌 61297GDH 基因被表达在大肠杆菌中, 并且据报道其展示了与 在其天然宿主中所产生的酶相同的物理化学性质 (Vasantha 等, 1983, Proc.Natl.Acad. Sci.USA 80 : 785)。对应于 Genbank 登录号 M12276 的枯草芽孢杆菌 GDH 基因的基因序
     列被报道在 Lampel 等, 1986, J.Bacteriol.166 : 238-243 中, 而且其作为 Genbank 登录号 D50453 以修正形式被报道在 Yamane 等, 1996, Microbiology142 : 3047-3056 中。天然存在 的 GDH 基因还包括编码蜡样芽孢杆菌 (B.cereus)ATCC 14579(Nature, 2003, 423 : 87-91 ; Genbank 登录号 AE017013) 和巨大芽孢杆菌 (B.megaterium)(Eur.J.Biochem., 1988, 174 : 485-490, Genbank 登录号 X12370 ; J.Ferment.Bioeng., 1990, 70 : 363-369, Genbank 登录号 GI216270) 中 GDH 的那些。来自芽孢杆菌属的葡萄糖脱氢酶作为 SEQID NO : 10 和 12( 分别 由对应于该 PCT 公布中的 SEQ ID NO : 9 和 11 的多核苷酸序列所编码 ) 被提供在 PCT 公布 WO 2005/018579 中, 其公开通过引用被并入本文。
     可使用已知方法例如诱变、 定向进化以及诸如此类来产生非天然存在的葡萄糖脱 氢酶。可使用 PCT 公布 WO 2005/018579 中实施例 4 所描述的测定容易地鉴定具有适当活 性的 GDH 酶, 不论它是天然存在的还是非天然存在的, 其公开通过引用被并入本文。示例性 的非天然存在的葡萄糖脱氢酶作为 SEQ ID NO : 62、 64、 66、 68、 122、 124 和 126 被提供在 PCT 公布 WO 2005/018579 中。编码它们的多核苷酸序列分别作为 SEQ ID NO : 61、 63、 65、 67、 121、 123 和 125 被提供在 PCT 公布 WO 2005/018579 中。所有这些序列通过引用被并入本 文。 适合用于本文所公开的酮还原酶催化的还原反应的另外的非天然存在的葡萄糖脱氢酶 被提供在美国申请公布第 2005/0095619 和 2005/0153417 号中, 其公开通过引用被并入本 文。
     本文所述的酮还原酶催化的还原反应中使用的葡萄糖脱氢酶可在 PCT 公布 WO 2005/018579 的实施例 4 中所述的测定中展示至少约 10μmol/min/mg 而且有时候至少约 102μmol/min/mg 或约 103μmol/min/mg、 高达约 104μmol/min/mg 或更高的活性。
     本文所述的酮还原酶催化的还原反应通常在溶剂中进行。适合的溶剂包括水、 有 机溶剂 ( 例如乙酸乙酯、 乙酸丁酯、 2- 丙醇 ( 异丙醇或 IPA)、 1- 辛醇、 庚烷、 辛烷、 甲基叔丁 基醚 (MTBE)、 甲苯以及诸如此类 )、 离子液体 ( 例如 1- 乙基 4- 甲基咪唑四氟硼酸盐、 1- 丁 基 -3- 甲基咪唑四氟硼酸盐、 1- 丁基 -3- 甲基咪唑六氟磷酸盐以及诸如此类 )。在一些实 施方案中, 使用含水溶剂, 其包括水和含水共溶剂系统。
     示例性的含水共溶剂系统具有水、 pH 缓冲盐和一种或多种有机溶剂。通常, 选择 含水共溶剂系统的有机溶剂组分以便它不完全地使酮还原酶失活。 可利用酶活性测定例如 本文所述的那些, 通过用候选溶剂系统中感兴趣的确定底物来测量指定的工程化的酮还原 酶的酶活性来容易地鉴定适当的共溶剂系统。
     含水共溶剂系统的有机溶剂组分可与含水组分混溶以提供单液相, 或者可与含水 组分部分混溶或不可混溶以提供两个液相。 通常, 当使用含水共溶剂系统时, 它被选择为双 相性的, 水被分散在有机溶剂中或者相反。通常, 当使用含水共溶剂系统时, 期望选择可从 水相容易地分离的有机溶剂。通常, 共溶剂系统中水和有机溶剂的比例通常是在有机溶剂 对水约 90 ∶ 10 至约 10 ∶ 90(v/v), 以及有机溶剂对水约 80 ∶ 20 至约 20 ∶ 80(v/v) 的范 围内。可在加入反应混合物之前预先形成共溶剂系统, 或者可将其在反应容器中就地 (in situ) 形成。在某些实施方案中, 含水共溶剂系统包括约 5% -40% (v/v)、 约 5% -20% (v/ v)、 约 10-20% (v/v)、 约 15% (v/v) 或约 10% (v/v) 的异丙醇 (IPA)。
     含水溶剂 ( 水或含水共溶剂系统 ) 可以是 pH 缓冲的或未缓冲的。一般地, 可在约 10 或以下, 通常在约 5 至约 10 的范围内的 pH 进行还原。在一些实施方案中, 在约 9.5 或以下, 通常在约 6.5 至约 9.5 的范围内的 pH 进行还原。还原可在约 7.0 至约 9.5 的 pH 进行。 在某些实施方案中, 在约 8.5 至约 9.5 的 pH 进行还原。在具体实施方案中, 在约 9.0 的 pH 进行还原。可选地, 可在中性 pH 即约 7 进行还原。
     在其中使用含水共溶剂的某些实施方案中, 还原的反应条件可包括 pH 约 8.5 至约 9.5 和约 5%至约 40% IPA、 约 pH 9.0 至 9.5 和约 25%至约 40% IPA、 约 pH 8.5 至 9.5 和 约 5%至约 15% IPA、 或约 pH 9.0 和约 10% IPA。在某些实施方案中, 还原的反应条件可包 括 pH 约 6.5 至约 7.0 和约 5%至约 15% IPA、 或约 pH 7.0 和约 5%至 10% IPA。
     在还原反应的过程中, 反应混合物的 pH( 如, 含水共溶剂溶液 ) 可改变。可在反应 过程中通过加入酸或碱而将反应混合物的 pH 维持在期望的 pH 或在期望的 pH 范围内。可 选地, 可使用含有缓冲液的含水溶剂来控制 pH。 维持期望 pH 范围的适合的缓冲液是本领域 已知的并且包括例如磷酸盐缓冲液、 三乙醇胺缓冲液 (TEA) 以及诸如此类。还可使用缓冲 和酸或碱添加的组合。因此, 在某些实施方案中, 具有在以上指定的某些范围中的 pH 和有 机溶剂 ( 如, IPA) 的含水共溶剂, 还可包括缓冲液诸如 TEA。
     当使用葡萄糖 / 葡萄糖脱氢酶辅因子再生系统时, 如果所得的葡萄糖酸水溶液不 被另外中和, 那么反应式 (1) 中所表示的葡萄糖酸 (pKa = 3.6) 的共同产生导致反应混合 物的 pH 下降。可通过标准的缓冲技术 ( 其中所述缓冲液将高达所提供的缓冲能力的葡萄 糖酸中和 ), 或者通过与转化过程同时发生的碱的加入而将反应混合物的 pH 维持在期望水 平。还可使用缓冲和碱添加的组合。上面描述了维持期望 pH 范围的适合的缓冲液。用于 葡萄糖酸中和的适合的碱是有机碱例如胺、 醇化物和诸如此类, 以及无机碱例如氢氧化物 盐 ( 例如 NaOH)、 碳酸盐 ( 例如 NaHCO3)、 碳酸氢盐 ( 例如 K2CO3)、 碱式磷酸盐 ( 例如 K2HPO4、 Na3PO4) 以及诸如此类。可以在监测反应混合物 pH 时手动地, 或者更方便地通过使用被用 作 pH 恒定器的自动滴定器来完成与转化过程同时发生的碱的加入。还可将部分缓冲能力 和碱添加的组合用于过程控制。
     当碱添加被用来中和在酮还原酶催化的还原反应过程中释放的葡萄糖酸时, 可通 过被添加以维持 pH 的碱的量来监测转化过程。通常, 在还原过程中被加入未缓冲的或部分 缓冲的反应混合物的碱以水溶液被加入。
     在一些实施方案中, 辅因子再生系统可包括甲酸脱氢酶。术语 “甲酸脱氢酶” 和 + + + “FDH” 在本文中被互换地使用以指 NAD 或 NADP 依赖性酶, 所述酶催化甲酸和 NAD 或 NADP+ 分别向二氧化碳和 NADH 或 NADPH 的转化。 适合在本文所述的酮还原酶催化的还原反应中用 作辅因子再生系统的甲酸脱氢酶包括天然存在的甲酸脱氢酶以及非天然存在的甲酸脱氢 酶二者。 甲酸脱氢酶包括对应于 PCT 公布 WO 2005/018579 中 SEQ ID NO : 70( 假单胞菌属 ) 和 72( 博伊丁念珠菌 Candida boidinii) 的那些, 其被分别对应于 PCT 公布 2005/018579 中 SEQ ID NO : 69 和 71 的多核苷酸序列所编码, 其公开通过引用被并入本文。用于本文所 述方法的甲酸脱氢酶 ( 不论是天然存在的还是非天然存在的 ) 可展示至少约 1μmol/min/ mg、 有时候至少约 10μmol/min/mg 或至少约 102μmol/min/mg、 高达约 103μmol/min/mg 或 更高的活性, 并且可在 PCT 公布 WO 2005/018579 的实施例 4 中所述的测定中容易地筛选活 性。
     如本文所用, 术语 “甲酸 (formate)” 是指甲酸阴离子 (HCO2-)、 甲酸 (HCO2H) 及其混 合物。 可以以盐 ( 通常为碱金属的盐 (alkali salt) 或铵盐 ( 例如 HCO2Na、 KHCO2NH4 以及诸如此类 ))、 甲酸 ( 通常为甲酸水溶液 ) 或其混合物的形式提供甲酸。甲酸是温和酸。在它 的 pKa( 水中 pKa = 3.7) 的几个 pH 单位以内的水溶液中, 甲酸以平衡浓度的 HCO2- 和 HCO2H 二者存在。在高于约 pH 4 的 pH 值下, 甲酸主要以 HCO2- 存在。当以甲酸 (formicacid) 的 形式提供甲酸 (formate) 时, 通常通过加入碱而对反应混合物进行缓冲或使其酸性减少以 提供期望的 pH, 其通常为约 pH 5 或以上。适用于中和甲酸的碱包括但不限于有机碱例如 胺、 醇化物和诸如此类, 以及无机碱例如氢氧化物盐 ( 例如 NaOH)、 碳酸盐 ( 例如 NaHCO3)、 碳酸氢盐 ( 例如 K2CO3)、 碱式磷酸盐 ( 例如 K2HPO4、 Na3PO4) 以及诸如此类。
     对于高于约 pH 5 的 pH 值 ( 在此条件下甲酸主要以 HCO2- 存在 ), 下面的反应式 (2) + + 描述甲酸脱氢酶催化的甲酸对 NAD 或 NADP 的还原。
    当使用甲酸和甲酸脱氢酶作为辅因子再生系统时, 可通过标准的缓冲技术 ( 其中 所述缓冲液释放高达所提供的缓冲能力的质子 ), 或者通过与转化过程同时发生的酸的加 入而将反应混合物的 pH 维持在期望水平。在反应过程中被加入以维持 pH 的适合的酸包括 有机酸例如羧酸、 磺酸、 膦酸和诸如此类, 无机酸例如氢卤酸 ( 例如盐酸 )、 硫酸、 磷酸和诸 如此类, 酸式盐例如磷酸二氢盐 ( 例如 KH2PO4)、 硫酸氢盐 ( 例如 NaHSO4) 和诸如此类。一些 实施方案利用甲酸 (formic acid), 从而甲酸 (fornmate) 浓度和溶液 pH 二者都得以维持。
     当利用酸添加来维持使用甲酸 / 甲酸脱氢酶辅因子再生系统的还原反应中的 pH 时, 可通过被添加以维持 pH 的酸的量来监测转化过程。通常, 在转化过程中被加入未缓冲 的或部分缓冲的反应混合物的酸以水溶液被加入。
     术语 “仲醇脱氢酶” 和 “sADH” 在本文中被互换地使用以指 NAD+ 或 NADP+ 依赖性酶, 所述酶催化仲醇和 NAD+ 或 NADP+ 分别向酮和 NADH 或 NADPH 的转化。下面的反应式 (3) 描 述仲醇 ( 用异丙醇进行说明 ) 对 NAD+ 或 NADP+ 的还原。
    
    适合用作本文所述酮还原酶催化的还原反应中辅因子再生系统的仲醇脱氢 酶包括天然存在的仲醇脱氢酶以及非天然存在的仲醇脱氢酶二者。天然存在的仲醇 脱 氢 酶 包 括 来 自 布 氏 热 厌 氧 菌 (Thermoanaerobiumbrockii)、 红 串 红 球 菌、 高加索酸 奶 乳 杆 菌 (Lactobacillus kefiri)、 短 乳 杆 菌 (Lactobacillus brevis)、 微小乳杆菌 (Lactobacillus minor)、 Novosphingobium aromaticivorans 的已知的醇脱氢酶, 而非天 然存在的仲醇脱氢酶包括从其衍生的工程化的醇脱氢酶。用于本文所述方法的仲醇脱氢 酶 ( 不论是天然存在的还是非天然存在的 ) 可展示至少约 1μmol/min/mg、 有时候至少约 2 3 10μmol/min/mg 或至少约 10 μmol/min/mg、 高达约 10 μmol/min/mg 或更高的活性。
     适合的仲醇包括低级仲链烷醇和芳基 - 烷基甲醇。低级仲醇的实例包括异丙醇、 2- 丁醇、 3- 甲基 -2- 丁醇、 2- 戊醇、 3- 戊醇、 3, 3- 二甲基 -2- 丁醇以及诸如此类。在一个实 施方案中, 仲醇是异丙醇。适合的芳基 - 烷基甲醇包括未取代的和取代的 1- 芳基乙醇。
     当仲醇和仲醇脱氢酶被用作辅因子再生系统时, 所得的 NAD+ 或 NADP+ 被仲醇的偶
     合氧化所还原, 其中所述偶合氧化是仲醇脱氢酶将仲醇氧化为酮。一些工程化的酮还原酶 还具有对仲醇还原剂脱氢的活性。在一些将仲醇用作还原剂的实施方案中, 工程化的酮还 原酶和仲醇脱氢酶是同一种酶。因此, 在某些实施方案中, 本公开内容的反应如以下方案 6 和 7 描绘的 :
     方案 6
    
    方案 7在利用辅因子再生系统进行本文所述的酮还原酶 - 催化的还原反应的实施方案 时, 如方案 6 和 7 所示的, 反应可在低压和 / 或高温下进行以实现去除丙 -2- 酮产物。这种 实施方案还可包括随着反应进行, 添加异丙醇, 如, 通过持续供料或批次添加。
     在进行利用辅因子再生系统的本文所述酮还原酶催化的还原反应的实施方案中, 可最初提供氧化或还原型的辅因子。如上所述, 辅因子再生系统将氧化的辅因子转化为其 还原型, 其然后被用于酮还原酶底物的还原中。
     在一些实施方案中, 辅因子再生系统未被使用。对于不使用辅因子再生系统而进 行的还原反应, 将还原型的辅因子加入反应混合物。
     在一些实施方案中, 当使用宿主生物体的整个细胞进行该过程时, 整个细胞可天 生地提供该辅因子。可选地或共同地, 该细胞可天生地或重组地提供葡萄糖脱氢酶。
     在进行本文所述立体特异性还原反应时, 工程化的酮还原酶和包括任选的辅因子 再生系统的任何酶可以以纯化的酶、 用编码该酶的基因转化的整个细胞和 / 或这种细胞的 细胞提取物和 / 或裂解物的形式被加入反应混合物。编码工程化的酮还原酶和任选的辅因 子再生系统的基因可被分别转化进宿主细胞或一起转化进相同宿主细胞。例如, 在一些实 施方案中, 可用编码工程化的酮还原酶的基因来转化一组宿主细胞, 并用编码辅因子再生 酶的基因来转化另一组。 两组转化细胞可以完整细胞形式或从其衍生的裂解物或提取物形 式一起用于反应混合物。在其他实施方案中, 可用编码工程化的酮还原酶和辅因子再生酶 的基因来转化宿主细胞。
     用编码工程化的酮还原酶和 / 或任选的辅因子再生酶的基因所转化的整个细胞 或者其细胞提取物和 / 或裂解物可以以各种不同形式被使用, 所述形式包括固体 ( 例如冻 干的、 喷雾干燥的以及诸如此类 ) 或半固体 ( 例如粗制的糊状物 )。
     可通过沉淀作用 ( 硫酸铵、 聚乙烯亚胺、 热处理或诸如此类, 接着在冻干之前进行 脱盐程序 ( 例如超滤、 透析以及诸如此类 )) 将细胞提取物或细胞裂解物部分地纯化。可通 过使用已知的交联剂例如戊二醛的交联或固定于固相 ( 例如 Eupergit C 以及诸如此类 ) 来稳定任何细胞制剂。
     可以以各种不同形式将固体反应物 ( 例如酶、 盐等 ) 提供给反应, 所述不同形式 包括粉末 ( 例如冻干的、 喷雾干燥的以及诸如此类 )、 溶液、 乳浊液、 悬液以及诸如此类。可 使用本领域普通技术人员已知的方法和设备将反应物容易地冻干或喷雾干燥。例如, 可以 在 -80℃以小等份将蛋白溶液冷冻, 然后加入预先冷却的冻干室中, 接着施加真空。在从样 品除去水后, 在释放真空并回收冻干的样品之前, 通常将温度提高到 4℃保持两小时。
     取决于期望产物的量并随着所使用的酮还原酶底物的量, 用于还原反应的反应物 的量通常将变化。可使用下述准则来确定待使用的酮还原酶、 辅因子和任选的辅因子再生 系统的量。通常, 可以使用约 50mg/L 至约 5g/L 的酮还原酶和约 10mg 至约 150mg 的辅因子 来利用浓度为约 20g/L 至 300g/L 的酮底物。本领域普通技术人员将容易理解如何改变这 些量以使它们达到期望的产率水平和生产规模。可基于所用辅因子和 / 或酮还原酶的量通 过常规实验来容易地确定任选的辅因子再生系统的适当的量。通常, 以超过酮还原酶底物 的等摩尔水平的水平来利用还原剂 ( 例如葡萄糖、 甲酸、 异丙醇 ) 以获得基本完全的或接近 完全的酮还原酶底物转化。
     反应物的加入顺序不重要。可同时将反应物一起加入溶剂 ( 例如单相溶剂、 双相 含水共溶剂系统以及诸如此类 ), 或可选地可将一些反应物分开加入, 以及将一些在不同时 间点一同加入。例如, 辅因子再生系统、 辅因子、 酮还原酶和酮还原酶底物可被首先加入溶 剂。
     为了在使用含水共溶剂系统时增加混合效率, 可首先将辅因子再生系统、 酮还原 酶和辅因子加入并混合进水相。然后可将有机相加入并混合, 接着加入酮还原酶底物。可 选地, 在加入水相之前, 可将酮还原酶底物在有机相中预先混合。
     进行本文所述的酮还原酶催化的还原反应的适合条件包括各种各样的可被常规 实验容易地优化的条件, 所述常规实验包括但不限于在实验 pH 和温度下将工程化的酮还 原酶和底物相接触并且使用例如本文所提供的实施例中所述的方法检测产物。
     通常在约 15℃至约 85℃、 约 20℃至约 80℃、 约 25℃至约 75℃、 约 30℃至约 70℃、约 35℃至约 65℃、 约 40℃至约 60℃或约 45℃至约 55℃范围内的温度下进行酮还原酶催化 的还原。在某些实施方案中, 酮还原酶催化的还原在约 45℃的温度进行。
     通常允许还原反应进行到基本上完成或者接近完成, 得到底物向产物的转化。可 使用已知方法通过检测底物和 / 或产物来监测底物向产物的还原。适合的方法包括气相 色谱法、 HPLC 以及诸如此类。反应混合物中产生的醇还原产物的转化率通常超过约 50%, 也可超过约 60%, 也可超过约 70%, 也可超过约 80%, 也可超过约 90%, 并且往往超过约 97%、 98%或甚至 99%。
     在下面的代表性实例中说明本公开的各种特征和实施方案, 其旨在是说明性的而 不是限制性的。 6. 实施例
     实施例 1 : 野生型酮还原酶基因的获得和表达载体的构建
     利用标准的密码子优化设计来自野生型 Novosphingobiumaromaticivorans 的 酮还原酶 (KRED)(SEQ ID NO : 2) 编码基因用于在大肠杆菌中表达。( 标准的密码子优化 软件综述在例如, “OPTIMIZER : a webserver for optimizing the codon usage of DNA sequences(OPTIMIZER : 一 种 优 化 DNA 序 列 的 密 码 子 使 用 的 网 络 服 务 器 ), ” Puigbò 等, Nucleic Acids Res.2007 Jul ; 35( 网络服务器特刊 ) : W126-31.Epub 2007 年 4 月 16 日 )。 利用 42 个核苷酸构成的寡核苷酸合成基因, 克隆到表达载体 pCK110900 中在 lac 启动子控 制下, 该表达载体在通过引用并入本文的美国专利申请公布 20060195947 中描绘为图 3。 表 达载体还包含 P15a 复制起点和氯霉素抗性基因。利用标准方法将所得的质粒转化到大肠 杆菌 W3110 或大肠杆菌 BL21 中。
     还将编码本公开内容的工程化的酮还原酶多肽的多核苷酸克隆到载体 pCK110900 中以在大肠杆菌 W3110 或大肠杆菌 BL21 表达。对密码子优化的 KRED 基因进行多轮定向进 化, 产生表 2 中所列的变异序列。
     实施例 2 : 用于产生酮还原酶多肽的摇瓶程序
     含有编码感兴趣的工程化酮还原酶的质粒的大肠杆菌的一个单独微生物菌落被 接种在 50ml 的含有 30μg/ml 氯霉素和 1%葡萄糖的 LuriaBertani 肉汤中。在 30℃培养 箱中以 250rpm 摇动培养细胞过夜 ( 至少 16 小时 )。在 1 升烧瓶中的含 30μg/ml 氯霉素的 250mlTerrific 肉汤 (12g/L 细菌用胰蛋白胨、 24g/L 酵母提取物、 4ml/L 甘油、 65mM 磷酸钾、 pH 7.0、 1mM MgSO4) 中将培养物稀释到在 600nm(OD600) 下 0.2 的光密度, 并允许其在 30℃ 下生长。当培养物的 OD600 是 0.6 至 0.8 时, 通过添加 1mM 终浓度的异丙基 -β-D- 硫代半 乳糖苷 (“IPTG” ) 诱导酮还原酶基因的表达, 然后继续培养过夜 ( 至少 16 小时 )。
     通 过 离 心 (5000rpm、 15min、 4 ℃ ) 收 集 细 胞 并 丢 弃 上 清 液。 用 等 体 积 冷 的 (4℃ )100mM 三乙醇胺 ( 氯化物 ) 缓冲液 pH 7.0( 任选地包括 2mMMgSO4) 将细胞团块重悬 浮, 并如上通过离心收集。在两体积的冷的三乙醇胺 ( 氯化物 ) 缓冲液中将被冲洗的细胞 重悬浮, 并在维持在 4℃时在 12,000psi 下将其通过弗氏压碎器 (French Press) 两次。通 过离心 (9000rpm、 45min、 4℃ ) 除去细胞碎片。收集澄清的裂解物上清液并储存在 -20℃。 对冷冻的澄清裂解物的冻干提供了粗制酮还原酶多肽的干燥摇瓶粉末。可选地, 细胞团块 ( 洗涤前或洗涤后 ) 可储存在 4℃或 -80℃。实施例 3 : 用于产生酮还原酶多肽的发酵步骤
     在通风搅拌的 15L 发酵器中, 利用 6.0L 生长培养基 (0.88g/L 硫酸铵、 0.98g/L 柠 檬酸钠 ; 12.5g/L 三水合磷酸氢二钾、 6.25g/L 磷酸二氢钾、 6.2g/L 的 Tastone-154 酵母提 取物、 0.083g/L 柠檬酸铁铵和 8.3ml/L 含 2g/L 二水合氯化钙、 2.2g/L 七水合硫酸锌、 0.5g/ L 一水合硫酸锰、 1g/L 七水合硫酸亚铜、 0.1g/L 四水合钼酸铵和 0.02g/L 四硼酸钠的微量元 素溶液 ) 进行实验室规模的发酵。用 ( 在实施例 2 中所述的摇瓶中生长的 ) 含有编码感兴 趣的工程化酮还原酶基因的质粒的大肠杆菌 W3110 或大肠杆菌 BL21 的晚期指数培养物在 发酵器中接种, 至 0.5 至 2.0 的起始 OD600。以 500-1500rpm 搅拌发酵器, 并以 1.0-15.0L/ 分钟向发酵容器中提供空气以维持 30%饱和或更高的溶氧水平。通过加入 20% v/v 的氢 氧化铵来将培养物的 pH 维持在 7.0。通过加入含有 500g/L 结晶葡萄糖 (cerelose)、 12g/ L 氯化铵和 10.4g/L 七水合硫酸镁的进料溶液来维持培养物的生长。在培养物达到 50 的 OD600 之后, 通过将异丙基 -β-D- 硫代半乳糖苷 (IPTG) 加到 1mM 的终浓度来诱导酮还原酶 的表达, 发酵继续再 14 小时。然后将培养物冷却到 4℃并维持在该温度直到被收集。通过 在 4℃以 5000G 离心 40 分钟来收集细胞。 将收集的细胞直接用于接下来的下游回收过程或 储存在 4℃或冷冻在 -80℃直到如此使用。
     在 4℃下以每体积的湿细胞糊状物 2 体积的 100mM 三乙醇胺 ( 氯化物 ) 缓冲液 pH 6.8 将细胞团块重悬浮。通过利用 12000psig 的压力将悬浮液穿过装有二阶段均质阀门组 件的均质器来从细胞释放细胞内的酮还原酶。破裂之后马上将细胞匀浆冷却到 4℃。10% w/v 的聚乙烯亚胺 pH 7.2 的溶液被加入裂解物至终浓度 0.5% w/v, 并且搅拌 30 分钟。通 过在标准的实验室离心机上以 5000G 离心 30 分钟而使所得的悬浮液变澄清。将澄清的上 清液倒出并使用具有 30kD 的分子量截留 (cut off) 的纤维素超滤膜将其浓缩十倍。将最 终的浓缩物分配到浅容器中, 在 -20℃下冷冻并冻干为粉末。 将粗制酮还原酶多肽粉末储存 在 -80℃。
     实施例 4 : 酮还原酶催化的还原化合物 (1)((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 为相应醇化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 的转化百分比和非对映体纯度的确定
     酮还原酶催化的立体选择性还原化合物 (1)((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 为相应的醇化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 的转化率通过以时间间隔 ( 如, 第 0.5、 2、 4、 7、 9 和 24 小时 ) 对酶促 反应混合物取样, 如下确定 : 利用配备有 AgilentXDB C18( 长 15cm, 直径 4.6mm) 的 Agilent 1200HPLC, 利用 60 % MeCN、 40 %水 ( 等度 ) 作为洗脱剂, 流速为 1.8ml/min ; 柱温度 25 ℃。 化合物 (1) 保留时间 : 3.119 分钟 ; 化合物 (2) 保留时间 : 2.378 分钟。底物 ( 化合物 (1)) 和产物 ( 化合物 (2)) 的量基于在 210nm 检测的 HPLC 峰面积确定。
     酮还原酶多肽催化的反应产物化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯 基丁烷 -2- 基氨基甲酸酯 ) 的非对映体纯度如下确定 : 利用配备有 Agilent XDB C18( 长 15cm, 直径 4.6mm) 的 Agilent 1200 HPLC, 利用 50% MeCN、 50%水 ( 等度 ) 作为洗脱剂, 流 速为 1.50mL/min, 温度 20℃。 化合物 (2) 的期望非对映体的保留时间 : 5.083min ; 不希望的 非对映体 ( 和底物 ) 的保留时间 : 4.050min。
     实施例 5 : 预筛选能够在 NADP+ 存在下还原异丙醇以产生 NADPH 和丙酮的工程化的酮还原酶多肽
     这一实施例阐述用于鉴定编码能够在 NADP+ 存在下还原异丙醇以产生丙酮和 NADPH 的酮还原酶的变异基因的预筛选检验。利用 自动菌落挑取器 (GenetixUSA, Inc., Boston, MA) 将含编码工程化的酮还原酶的质粒的大肠杆菌菌落挑取到包含 180μL Terrific 肉汤 (TB)、 1%葡萄糖和 30μg/mL 氯霉素 (CAM) 的 96 孔的浅孔微量滴定 板。细胞在 30℃生长过夜, 伴随以 200rpm 摇动。然后将此培养物的 10μL 等份转移到包 含 390μL Terrific 肉汤 (TB)、 1mM MgSO4 和 30μg/mL CAM 的 96- 深孔板中。在 30℃伴随 以 250rpm 摇动培养深孔板 2-3 小时后, 通过加入 IPTG 至终浓度 1mM 来诱导培养细胞中的 重组基因表达。然后在 30℃伴随以 250rpm 摇动培养板 18 小时。
     细胞通过离心 (4000RPM, 10 分钟, 4℃ ) 沉淀, 重悬在 400μL 裂解缓冲液中, 通过 在室温摇动 2 小时而裂解。裂解缓冲液包含 100mM 三乙醇胺 ( 氯化物 ) 缓冲液、 pH 7、 1mg/ mL 溶菌酶、 500μg/mL 硫酸多粘菌素 B(“PMBS” ) 和 1mM MgSO4。用铝 / 聚丙烯薄片热封带 (Velocity 11, Menlo Park, CA, 目录号 06643-001) 密封板后, 在室温剧烈摇动板 2 小时。 细胞碎片通过离心 (4000RPM, 10 分钟, 4℃ ) 收集, 直接检验澄清上清液, 或在 4℃储存直到 使用。
     在这一检验中, 将 20μl 样品 ( 稀释在 100mM 三乙醇胺 ( 氯化物 ) 缓冲液中、 与裂 解缓冲液相同的 pH、 和 1mM MgSO4) 加至 96 孔黑色微量滴定板的孔中的 180μl 检验混合 物。检验缓冲液由 100mM 三乙醇胺 ( 氯化物 ) 缓冲液、 pH 7、 50%异丙醇 (IPA)、 1mM MgSO4 + + 和 222μM NADP 组成。 反应后, 利用 设备测量 NADP 随着被转化为 NADPH 的荧 光减少 (Molecular Devices, Sunnyvale, CA)。在 330nm 激发后, 在 445nm 测量 NADPH 荧光。 如果需要, 在添加到检验混合物之前, 裂解物样品可在 50% IPA 存在或不存在下在 25-40℃ 预培养。
     实 施 例 6: 筛 选 能 够 立 体 选 择 性 转 化 底 物 化 合 物 (1)((S)- 叔 丁 基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 为相应的产物化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 的工程化的酮还原酶多肽
     利 用 上 述 定 向 进 化 方 法 将 如 实 施 例 1 构 建 的 来 源 自 Novosphingobiumaromaticivorans 的密码子优化的酮还原酶基因 (SEQ ID NO : 1) 进行诱 变, 将突变体 DNA 分子的群体转化到适当的大肠杆菌宿主菌株中。选择抗生素抗性转化体 并处理以鉴定表达具有转化化合物 (1) 为化合物 (2) 的改进的能力的酮还原酶的转化体。
     细胞选择、 生长、 诱导变异酮还原酶基因和收集细胞团块如实施例 5 所述。通过向 每个孔添加 400μL 裂解缓冲液 (1mM MgSO4、 0.5mg/ml 硫酸多粘菌素 B(“PMBS” )、 1mg/ml + 溶菌酶、 100mM 三乙醇胺 (pH ~ 6) 和 1mg/mL NADP ) 来裂解细胞团块。密封板, 在室温剧烈 摇动板 2 小时, 然后在 4℃以 4000rpm 离心 10 分钟。回收上清液, 在 4℃储存直到使用。
     酶促还原检验 : 利用 Multidrop 仪器 (MTX Lab Systems, Vienna VA) 将异丙醇 与固体底物 ((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 的混合物的等份 (450μL) 加到 深孔板的每个孔, 随后利用 MultimekTM 仪器 (Multimek, Inc., Santa Clara CA) 自动添加 50μL 回收的裂解物上清液, 以提供包含 10mg/ml 底物 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯、 0.1mg/ml NADP+、 10mM 三乙醇胺 pH ~ 6 和10%异丙醇 (v/v) 的反应。在 170℃用铝 / 聚丙烯薄片热封带 (Velocity 11(Menlo Park, CA), 目录号 06643-001) 热密封板 2.5 秒, 然后在室温摇动板过夜 ( 至少 16 小时 )。通过 添加 1ml 甲基叔丁基醚 (MTBE) 来猝灭反应。再次密封板, 摇动 5 分钟, 然后以 4000rpm 离 心 10 分钟。 将 250μL 等份的澄清反应混合物转移到新的浅孔聚丙烯板 (Costar#3365), 密 封, 然后利用上述方法对提取物进行 HPLC 分析 ( 如, 参见实施例 4)。
     在 pH ~ 6 和 10% IPA(v/v) 的高通量筛选检验 : 将含 1g/L NADP+ 的 50μl 细胞裂 解物转移到包含 450μl 检验混合物 ( 每 100ml 检验混合物 : 5ml 100mM 三乙醇胺 ( 氯化物 ) (pH 7)、 13.4g(S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯和 10ml 异丙醇 ) 的 深孔板 (Costar#3960)。密封板后, 反应在室温进行至少 16 小时。通过添加 1ml 95% MTBE 来猝灭反应, 用铝 / 聚丙烯薄片热封带 (Velocity 11(Menlo Park, CA), 目录号 06643-001) 密封板, 摇动 5-10min, 以 4000rpm 离心 10 分钟。将 250μL 等份的澄清反应混合物转移到 新的浅孔聚丙烯板 (Costar#3365), 然后密封。 对以这种方式制备的提取物进行如上所述的 HPLC 分析。
     利用以上公开的程序鉴定能够以高转化率 ( 如, 24 小时内至少约 70-95% ) 和高 非对映体纯度 ( 如, 至少约 85-99% d.e) 转化 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基 氨基甲酸酯为叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯的工程化的 酮还原酶多肽。进行这些程序的多次迭代, 其中从一轮诱变分离具有改进的特性的一种或 多种工程化的酮还原酶基因, 并将其用作下一轮诱变和筛选的起始材料。从这些多轮定向 进化获得的一些改进的工程化的酮还原酶在本文公开, 列在表 2。
     实 施 例 7 : 利 用 异 丙 醇 用 于 辅 因 子 再 生, 来 源 自 Novosphingobiumaromaticivorans 的 工 程 化 的 酮 还 原 酶 立 体 选 择 性 还 原 (S)- 叔 丁 基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯化合物 (1)
     如下检验如上所述的来源自 Novosphingobium aromaticivorans 的工程化的酮还 原酶在制备规模地还原 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯中的使用。 将 100mM 三乙醇胺 ( 氯化物 ) 缓冲液 pH 7 中 100μL 待试验的工程化的酮还原酶 (10mg/mL) 和 NADP-Na(1mg/mL) 的溶液合并在装备有磁性搅拌棒的 5mL 反应小瓶中。随后, 将 85μL 异丙醇 (“IPA” ) 加到酶 /NADP-Na 溶液, 然后加入 120mg 化合物 (1)。在室温搅拌反应, 化 合物 (1) 向化合物 (2) 的转化通过利用实施例 4 中公开的分析方法, HPLC 分析在 24 小时 阶段定期从反应获取的样品来监测。
     表 2 标明了酮还原酶变体 ( 由多核苷酸和多肽 SEQ ID NO)、 相对于野生型酮还原 酶多肽 SEQ ID NO : 2 的氨基酸突变、 和每种变体相对于具有氨基酸序列 SEQ ID NO : 2 的野 生型酶的活性的相对活性。如表 2 列出的结果所示的, 几乎所有工程化的酮还原酶具有野 生型多肽活性的至少 120% ( 即, 1.2 倍或更大 ) 活性, 多种工程化的酮还原酶 ( 如, 多肽 SEQ ID NO : 6、 50、 52、 56) 具有导致改进的活性比 SEQ ID NO : 2 大至少 300% ( 即, 3 倍或更大 ) 的突变。这些结果说明, 本文公开的来源自酮还原酶 Novosphingobium aromaticivorans 的工程化的酮还原酶提供与野生型酮还原酶 SEQ ID NO : 2 相比还原式 (I) 化合物诸如化合 物 (1) 的改进的活性。
     实施例 8 : 在立体选择性制备规模转化化合物 (1) 为化合物 (2)、 和转化化合物 (2) 为化合物 (3) 中使用工程化的酮还原酶向装备有上悬的搅拌器、 导流板和内部温度计的 1L 加套过程反应器顺序地充入 90.0g 化合物 (1)、 400ml 100mM 三乙醇胺溶液 (pH 9.0)、 60ml IPA 和 NAD+(300mg)。搅拌 所得的浆状物 10min, 加入 600mg 工程化的酮还原酶多肽 SEQ ID NO : 6。加热反应混合物到 45℃, 以 150rpm 搅拌前 4 小时, 随后以 250rpm 搅拌。在反应时进行工序内 HPLC 分析以确 定化合物 (1) 向化合物 (2) 的转化 ( 如实施例 4 所述 )。工序内分析指示 99.8%转化 ( 在 9 小时时 ) 后, 将反应冷却到 20℃。
     将 MTBE(600mL) 加入反应浆状物, 以 250rpm 搅动 50min。 允许各相分离, 取出水层。 分别收集 MTBE 相。重新充入水层, 加入 MTBE(300mL)。以 250rpm 搅动双相混合物 45min。 允许各相分离, 取出水层。对水相的 HPLC 分析 ( 如实施例 4 中为确定转化所描述的 ) 指示 > 99%产物已被取出。将合并的 MTBE 层过滤通过硅藻土垫 (30g), 用 90mLMTBE 洗涤滤饼, 在 250rpm 用 90mL 水洗涤联合的 MTBE 相 15min。允许各相分离, 取出水层。根据 HPLC 确定 期望产物化合物 (2) 的纯度为 98.4%。
     将 KOH(39.7g, 85% w/w) 加到含化合物 (2) 的有机相, 在 250rpm 和 25℃搅拌。工 序内 HPLC 分析指示> 99.9%转化 ( 在 8 小时时 ) 后加入 180ml 水, 在 250rpm 搅拌双相混 合物 30min。允许各相分离, 取出水层。用水 (90mL 和 180mL) 重复洗涤两次。将剩余 MTBE 相 (1L) 浓缩到 400mL, 然后加入 600ml 正庚烷。 利用 50℃的套内温度, 同时逐步减少压力到 105Torr 再次将所得混合物浓缩到 400mL。这一步骤重复一次。对剩余正庚烷层的 GC 分析 指示≤ 0.7% MTBE 保留, 加入正庚烷以获得总体积 1L。在 120rpm 搅拌溶液, 调整溶液的温 度为 20℃。以 20mg 纯化合物 (3) 对溶液引晶, 搅拌 1 小时。以 0.5℃的阶梯经 150min 将温 度逐渐降低到 17.5℃。搅拌另外 1 小时后观察到结晶形成。在 400rpm 搅拌所得的更粘稠 的溶液, 温度降低到 0℃, 搅拌 30min。排空反应器, 在减压下过滤白色物质, 用冷的正庚烷 (2×180ml) 洗涤, 在大约 20mmHg 干燥 24 小时。这在单次收获 (single crop) 中提供作为 白色固体的 64.4g(81%产率 ) 的化合物 (3) 叔丁基 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯 基乙基氨基甲酸酯, 化学纯度为 98.9%, 非对映体纯度为> 99.9% de。产率的余量在母液 中, 并可作为二次收获 (second crop) 被分离以提供大约 98-99%的几乎定量的总产率。 合 理地预计, 修改的结晶方法可导致几乎定量的化合物 (3) 纯产物的单次收获产率。
     本申请中所引用的所有出版物、 专利、 专利申请和其他文件为所有目的通过引用 以其整体并入本文, 达到如同单个出版物、 专利、 专利申请或其他文件单独表明为了所有目 的而通过引用被并入的程度。
     尽管已经阐释和描述了各种具体实施方案, 但应理解可以作出各种改变而不背离 本发明的精神和范围。59CN 102482648 A
    序列表1/106 页
     60CN 102482648 A序列表2/106 页
    61CN 102482648 A序列表3/106 页
    62CN 102482648 A序列表4/106 页
    63CN 102482648 A序列表5/106 页
    64CN 102482648 A序列表6/106 页
    65CN 102482648 A序列表7/106 页
    66CN 102482648 A序列表8/106 页
    67CN 102482648 A序列表9/106 页
    68CN 102482648 A序列表10/106 页
    69CN 102482648 A序列表11/106 页
    70CN 102482648 A序列表12/106 页
    71CN 102482648 A序列表13/106 页
    72CN 102482648 A序列表14/106 页
    73CN 102482648 A序列表15/106 页
    74CN 102482648 A序列表16/106 页
    75CN 102482648 A序列表17/106 页
    76CN 102482648 A序列表18/106 页
    77CN 102482648 A序列表19/106 页
    78CN 102482648 A序列表20/106 页
    79CN 102482648 A序列表21/106 页
    80CN 102482648 A序列表22/106 页
    81CN 102482648 A序列表23/106 页
    82CN 102482648 A序列表24/106 页
    83CN 102482648 A序列表25/106 页
    84CN 102482648 A序列表26/106 页
    85CN 102482648 A序列表27/106 页
    86CN 102482648 A序列表28/106 页
    87CN 102482648 A序列表29/106 页
    88CN 102482648 A序列表30/106 页
    89CN 102482648 A序列表31/106 页
    90CN 102482648 A序列表32/106 页
    91CN 102482648 A序列表33/106 页
    92CN 102482648 A序列表34/106 页
     在一些实施方案中, 当以大于约 100g/L 底物和少于约 5g/L 多肽进行时, 酮还原酶 多肽能够在少于约 24 小时内转化至少约 95%的底物为产物。具有这一能力的示例性的多 肽包括但不限于, 包含对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽是高度立体选择性的, 其中多肽可还原底物为 大于约 99%、 99.1%、 99.2%、 99.3%、 99.4%、 99.5%、 99.6%、 99.7%、 99.8%或 99.9%非 对映体过量的产物。具有高立体选择性的示例性的酮还原酶多肽包括但不限于, 包含对应 于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 为了辅因子再生, 酮还原酶多肽具有对仲醇的活性增加的改 进特性。在一些实施方案中, 相对于参考多肽 SEQ ID NO : 2, 酮还原酶多肽以至少 2 倍、 2.5 倍、 5 倍、 10 倍、 15 倍或甚至更大的活性氧化异丙醇 (IPA) 为丙酮。表现对 IPA 的活性增加 的改进特性的示例性的酮还原酶多肽包括但不限于, 包括对应于 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的氨基酸序列的多肽。 在某些实施方案中, 本公开内容的酮还原酶多肽与参考序列 SEQ IDNO : 2 至少约 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85%、 86%、 87%、 88%、 89%、 90%、 91%、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相 同, 并在对应于 SEQ ID NO : 2 的所指位置的位置具有至少一种以下氨基酸差异 : 位置 2 的 氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨 基酸 ; 位置 28 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂 肪族或非极性氨基酸 ; 位置 34 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极 性氨基酸 ; 位置 47 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸 的脂肪族或非极性氨基酸 ; 位置 50 的氨基酸是选自赖氨酸和精氨酸的碱性氨基酸 ; 位置 81 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸 ; 位置 90 的氨基酸是 选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 位置 91 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极 性氨基酸, 或位置 91 的氨基酸是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸, 或位置 91 的氨基酸是选自赖氨酸和精氨酸的碱性氨基酸 ; 位置 94 的氨基酸是碱性氨基酸精氨酸 ; 位置 112 的氨基酸是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸 ; 位置 117 的氨基酸是 选自天冬氨酸和谷氨酸的酸性氨基酸 ; 位置 143 的氨基酸是选自赖氨酸和精氨酸的碱性氨 基酸 ; 位置 144 的氨基酸是半胱氨酸, 或位置 144 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝 氨酸和苏氨酸的极性氨基酸 ; 位置 145 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸 和甲硫氨酸的非极性氨基酸或选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸的脂肪族氨基酸 ; 位 置 148 的氨基酸是选自脯氨酸和组氨酸的受限制的氨基酸 ; 位置 150 的氨基酸是选自亮氨
     酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或位置 150 的氨基酸 是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸, 或位置 150 的氨基酸是选自酪 氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸 ; 位置 152 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨 酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸 ; 位置 153 的氨基酸是选自丙氨 酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸 和脯氨酸的受限制的氨基酸 ; 位置 158 的氨基酸是选自天冬酰胺、 谷氨酰胺和丝氨酸的极 性氨基酸 ; 位置 190 的氨基酸是选自丙氨酸、 缬氨酸、 亮氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸 的非极性或脂肪族氨基酸, 或位置 190 的氨基酸是选自天冬酰胺、 谷氨酰胺和丝氨酸的极 性氨基酸, 或位置 190 的氨基酸是脯氨酸 ; 位置 198 的氨基酸是选自天冬酰胺、 谷氨酰胺和 苏氨酸的极性氨基酸 ; 位置 199 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲硫氨 酸的脂肪族或非极性氨基酸, 或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸 ; 位置 200 的氨基酸是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甘氨酸的非极性氨基酸 ; 位 置 204 的氨基酸是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸 ; 位置 217 的氨基酸是选 自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸 ; 位置 225 的氨基酸是选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的非极性氨基酸 ; 位置 231 的氨基酸是选自酪氨酸、 色氨酸和苯 丙氨酸的芳香族氨基酸 ; 位置 232 的氨基酸是选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲 硫氨酸的非极性氨基酸 ; 位置 233 的氨基酸是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的 极性氨基酸 ; 位置 244 的氨基酸是选自丙氨酸、 亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲硫氨 酸的非极性氨基酸 ; 位置 260 的氨基酸是选自酪氨酸和色氨酸的芳香族氨基酸 ; 和位置 261 的氨基酸是选自天冬酰胺、 谷氨酰胺和苏氨酸的极性氨基酸。
     在某些实施方案中, 本公开内容的酮还原酶多肽与参考序列 SEQ IDNO : 2 至少约 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99 % 相同, 与 SEQ ID NO : 2 相比具有选自以下组成的组的至少一种氨基酸取代 : P2L ; V28A ; A34S ; A47V ; E50K ; D81N ; S90V ; I91L ; I91W ; I91R ; I91K ; K94R ; D112Y ; G117D ; S143R ; V144C ; V144T ; G145A ; G145V ; R148H ; A150G ; A150I ; A150S ; A150W ; F152L ; N153G ; N153V ; N153H ; T158S ; G190A ; G190P ; G190Q ; G190V ; S198N ; I199G ; I199L ; I199M ; I199N ; M200I ; V204F ; A217T ; I225V ; P231F ; A232V ; E233Q ; D244G ; F260Y ; S261N ; 和其混合物。
     在一些实施方案中, 本公开内容的改进的酮还原酶多肽是基于 SEQ IDNO : 2 的序 列, 并包括与参考序列 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93%、 94%、 95%、 96%、 97%、 98%或 99%相同的氨基酸序列, 还包括选自以下组成的组的 至少一种氨基酸取代 : 位置 2 的脯氨酸残基被亮氨酸代替 ; 位置 28 的缬氨酸残基被丙氨酸 代替 ; 位置 34 的丙氨酸残基被丝氨酸代替 ; 位置 47 的丙氨酸残基被缬氨酸代替 ; 位置 50 的 谷氨酸残基被赖氨酸代替 ; 位置 81 的天冬氨酸残基被天冬酰胺代替 ; 位置 90 的丝氨酸残 基被缬氨酸代替 ; 位置 91 的异亮氨酸残基被选自亮氨酸、 色氨酸、 精氨酸和赖氨酸的氨基 酸代替 ; 位置 94 的赖氨酸残基被精氨酸代替 ; 位置 112 的天冬氨酸残基被酪氨酸代替 ; 位 置 117 的甘氨酸残基被天冬氨酸代替 ; 位置 143 的丝氨酸残基被精氨酸代替 ; 位置 144 的缬氨酸残基被选自半胱氨酸和苏氨酸的氨基酸代替 ; 位置 145 的甘氨酸残基被选自丙氨酸和 缬氨酸的氨基酸代替 ; 位置 148 的精氨酸残基被组氨酸代替 ; 位置 150 的丙氨酸残基被选 自甘氨酸、 异亮氨酸、 丝氨酸和色氨酸的氨基酸代替 ; 位置 152 的苯丙氨酸残基被亮氨酸代 替; 位置 153 的天冬酰胺残基被选自甘氨酸、 缬氨酸和组氨酸的氨基酸代替 ; 位置 158 的苏 氨酸残基被丝氨酸代替 ; 位置 190 的甘氨酸残基被选自丙氨酸、 脯氨酸、 谷氨酰胺和缬氨酸 的氨基酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺代替 ; 位置 199 的异亮氨酸残基被选自 甘氨酸、 甲硫氨酸、 亮氨酸和天冬酰胺的氨基酸代替 ; 位置 200 的甲硫氨酸残基被异亮氨酸 代替 ; 位置 204 的缬氨酸残基被苯丙氨酸代替 ; 位置 217 的丙氨酸残基被苏氨酸代替 ; 位置 225 的异亮氨酸残基被缬氨酸代替 ; 位置 231 的脯氨酸残基被苯丙氨酸代替 ; 位置 232 的丙 氨酸残基被缬氨酸代替 ; 位置 233 的谷氨酸残基被谷氨酰胺代替 ; 位置 244 的天冬氨酸残 基被甘氨酸代替 ; 位置 260 的苯丙氨酸残基被酪氨酸代替 ; 和位置 261 的丝氨酸残基被天 冬酰胺代替。
     在一些实施方案中, 除了以上以外, 酮还原酶多肽可具有与参考氨基酸序列相比 或与 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 或 80 的任何一种相比的一种或多 种修饰 ( 即, 残基差异 )。这些修饰可以是氨基酸插入、 缺失、 取代、 或这种改变的任何组 合。在一些实施方案中, 氨基酸序列差异可包括非保守、 保守、 以及非保守和保守氨基酸取 代的组合。在一些实施方案中, 这些酮还原酶多肽可任选地在其他氨基酸残基具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 改进的酮还原酶包括与对应于 SEQ ID NO : 2 的氨基酸序列 至少约 70%、 71 %、 72 %、 73%、 74%、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83%、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99%相同的氨基酸序列, 其中改进的酮还原酶多肽氨基酸序列包括表 2 或 3 中展示的具体 氨基酸取代组合的任何一组。在一些实施方案中, 这些酮还原酶多肽可具有在其他氨基酸 残基的突变。
     另一方面, 本公开内容提供编码本文所述的酮还原酶多肽的多核苷酸, 和在高度 严格杂交条件下与这种多核苷酸杂交的多核苷酸。 多核苷酸可包括可用于表达所编码的工 程化的酮还原酶的启动子和其他调节元件, 并可采用对于具体的期望表达系统优化的密码 子。
     在一些实施方案中, 本公开内容提供编码与 SEQ ID NO : 2 的氨基酸序列相比具有 至少以下氨基酸序列, 并且还包含选自以下组成的组的至少一种氨基酸取代的酮还原酶多 肽的多核苷酸 : 位置 2 的脯氨酸残基被亮氨酸代替 ; 位置 28 的缬氨酸残基被丙氨酸代替 ; 位置 34 的丙氨酸残基被丝氨酸代替 ; 位置 47 的丙氨酸残基被缬氨酸代替 ; 位置 50 的谷 氨酸残基被赖氨酸代替 ; 位置 81 的天冬氨酸残基被天冬酰胺代替 ; 位置 90 的丝氨酸残基 被缬氨酸代替 ; 位置 91 的异亮氨酸残基被选自亮氨酸、 色氨酸、 精氨酸和赖氨酸的氨基酸 代替 ; 位置 94 的赖氨酸残基被精氨酸代替 ; 位置 112 的天冬氨酸残基被酪氨酸代替 ; 位置 117 的甘氨酸残基被天冬氨酸代替 ; 位置 143 的丝氨酸残基被精氨酸代替 ; 位置 144 的缬氨酸残基被选自半胱氨酸和苏氨酸的氨基酸代替 ; 位置 145 的甘氨酸残基被选自丙氨酸和 缬氨酸的氨基酸代替 ; 位置 148 的精氨酸残基被组氨酸代替 ; 位置 150 的丙氨酸残基被选 自甘氨酸、 异亮氨酸、 丝氨酸和色氨酸的氨基酸代替 ; 位置 152 的苯丙氨酸残基被亮氨酸代 替; 位置 153 的天冬酰胺残基被选自甘氨酸、 缬氨酸和组氨酸的氨基酸代替 ; 位置 158 的苏 氨酸残基被丝氨酸代替 ; 位置 190 的甘氨酸残基被选自丙氨酸、 脯氨酸、 谷氨酰胺和缬氨酸 的氨基酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺代替 ; 位置 199 的异亮氨酸残基被选自 甘氨酸、 甲硫氨酸、 亮氨酸和天冬酰胺的氨基酸代替 ; 位置 200 的甲硫氨酸残基被异亮氨酸 代替 ; 位置 204 的缬氨酸残基被苯丙氨酸代替 ; 位置 217 的丙氨酸残基被苏氨酸代替 ; 位置 225 的异亮氨酸残基被缬氨酸代替 ; 位置 231 的脯氨酸残基被苯丙氨酸代替 ; 位置 232 的丙 氨酸残基被缬氨酸代替 ; 位置 233 的谷氨酸残基被谷氨酰胺代替 ; 位置 244 的天冬氨酸残 基被甘氨酸代替 ; 位置 260 的苯丙氨酸残基被酪氨酸代替 ; 和位置 261 的丝氨酸残基被天 冬酰胺代替。 示例性的多核苷酸包括但不限于 SEQ IDNO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79 的多核苷酸序列。
     在一些实施方案中, 本公开内容提供包括编码本文所述的酮还原酶多肽的多核苷 酸和 / 或含这些多核苷酸的表达载体的宿主细胞。 宿主细胞可以是 N.aromaticivorans, 或 可以是不同生物, 如大肠杆菌 (E.coli)。宿主细胞可用于表达和分离本文所述的工程化的 酮还原酶, 或可选地, 它们可直接用于转化底物为立体异构产物。 因此, 在一些实施方案中, 本文公开的工程化的酮还原酶多肽可通过标准方法制备, 包括培养包括含编码多肽的多核 苷酸的表达载体的宿主细胞, 从宿主细胞分离多肽。
     无论以完整细胞、 细胞提取物还是纯化的酮还原酶进行该方法, 可使用单独的酮 还原酶, 或可选地, 可使用两种或多种酮还原酶的混合物。
     5. 详述
     除了在工作实施例中, 或另外指明以外, 说明书和权利要求书中使用的表示成分 的量、 反应条件等等的所有数字应理解为在所有情形中被术语 “约” 修饰。
     在本公开内容中, 除非另外具体指明, 否则单数形式的使用包括多数形式 ( 反之 亦然 )。而且, 除非另外指明, 否则 “或” 的使用表示 “和 / 或” 。类似地, “comprise( 包括 )” 、 “comprises( 包括 )” 、 “comprising( 包括 )” 、 “include( 包括 )” 、 “includes( 包括 )”和 “including( 包括 )” 是可互换的, 不意为限制。
     还应理解的是, 当不同实施方案的描述使用术语 “comprising( 包括 )” 时, 本领 域技术人员将理解, 在一些具体情形中, 一种实施方案可替代地利用措辞 “基本由 ... 组成 (consisting essentially of)” 或 “由 ... 组成 (consistingof)” 描述。
     应理解的是, 包括附图的以上一般性描述和以下的详述仅是示例性和说明性的, 不限制本公开内容。
     本文使用的标题仅是为了结构的目的, 不解释为限制所描述的主题。
     本公开内容涉及生物催化方法, 其中 α- 氯代酮与酮还原酶接触, 从而被转化为 相应的 α- 氯代醇。因此, 本公开内容提供能够转化 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为相应的立体异构醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)) 的酮还原酶。 本公开内容还包括转化醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 ( 如 化合物 (2)) 为相应的立体异构环氧化物 N- 保护的 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯 基乙基氨基甲酸酯 ) 如化合物 (3)( 叔丁基 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯基乙基氨 基甲酸酯 ; 其中保护基是 BOC 部分 ) 的方法。
     5.1. 定义
     如本文所用, 下列术语旨在具有下列意义 :
     术语 “保护基” 是指当连接于分子中的反应性官能团时, 掩蔽、 减少或阻止该官能 团的反应性的原子的基团。通常, 保护基可在合成过程期间如期望地选择性去除。
     “氮保护基” (或 “N- 保护基” ) 是指通常用于封闭或保护化合物上的氮官能性 而使其他官能团能够反应的取代基。这种氮保护基的实例包括甲酰基、 三苯甲基、 甲氧基 三苯甲基、 甲苯磺酰基、 邻苯二甲酰亚氨基、 乙酰基、 三氯乙酰基、 氯乙酰基、 溴乙酰基、 碘 乙酰基、 苄氧羰基 (Cbz)、 9- 芴基甲氧羰基 (FMOC)、 2- 三甲硅烷基乙氧羰基 (Teoc)、 1- 甲 基 -1-(4- 联苯基 ) 乙氧羰基 (Bpoc)、 叔丁氧羰基 (BOC)、 烯丙氧基羰基 (Alloc)、 三卤代乙 酰基、 苄基、 苯甲酰基和硝基苯基乙酰基等等。 可用于本公开内容的实施方案的保护基的进 一步实例可见于 P.G.M.Wuts 和 T.W.Greene, “Greene’ s Protective Groups in Organic Synthesis-Fourth Edition(Greene 有机合成中的保护基 - 第四版 ), ” John Wiley and Sons, New York, N.Y., 2007, 第 7 章 (“Greene” )。 “立体异构体” 、 “立体异构形式” 和类似表述在本文可互换使用, 是指单独分子差 异仅在于其原子在空间中的方位不同的所有异构体。 其包括对映异构体和具有多于一个手 性中心、 不是彼此镜像的化合物的异构体 (“非对映异构体” )。
     “手性中心” 是指四个不同基团与其连接的碳原子。
     “对映异构体” 或 “对映异构形式” 是指不可与其镜像叠加的分子, 因此是光学活性 的, 其中对映异构体以一个方向旋转偏振光平面, 其镜像以相反方向旋转偏振光平面。
     “对映体过量” 、 “(ee)” 、 “非对映体过量” 、 “(de)” 是指在化学物质中一种对映体或 非对映体比另一种更多地存在。这一差异定义为每种对映体的摩尔分数之间的绝对差异 : ee = |(F+)-(F-)|, 其中 (F+)+(F-) = 1。因此, (ee) 和 (de) 可表示为对映体过量或非对 映体过量的百分比。
     术语 “外消旋” 是指化合物等摩尔量的两种对映体的混合物, 该混合物是光学上无 活性的。
     本文所用的 “富集” 特定手性化合物、 对映异构体或非对映异构体的组合物通常包 括至少约 60%、 70%、 80%、 90%或甚至更多的该特定手性化合物、 对映异构体或非对映异 构体。 富集的量可利用本领域技术人员例行使用的常规分析方法确定, 包括但不限于, 在手 性位移试剂存在下的 NMR 光谱、 利用手性柱的气相色谱分析和利用手性柱的高压液相色谱 分析。 在一些实施方案中, 单个手性化合物、 对映异构体或非对映异构体将大致上不含其他 相应的手性化合物、 对映异构体或非对映异构体。 “大致上不含” 是指, 利用本领域技术人员 例行使用的常规分析方法, 诸如以上提到的方法确定, 组合物包括少于约 10%的指定不希 望的手性化合物、 对映异构体或非对映异构体。在一些实施方案中, 不希望的手性化合物、 对映异构体或非对映异构体的量可少于约 10%, 例如, 少于约 9%、 8%、 7%、 6%、 5%、 4%、 3%、 2%、 1%或甚至更少。包含至少约 95%的指定手性化合物、 对映异构体或非对映异构
     “手性中心” 是指四个不同基团与其连接的碳原子。
     “对映异构体” 或 “对映异构形式” 是指不可与其镜像叠加的分子, 因此是光学活性 的, 其中对映异构体以一个方向旋转偏振光平面, 其镜像以相反方向旋转偏振光平面。
     “对映体过量” 、 “(ee)” 、 “非对映体过量” 、 “(de)” 是指在化学物质中一种对映体或 非对映体比另一种更多地存在。这一差异定义为每种对映体的摩尔分数之间的绝对差异 : ee = |(F+)-(F-)|, 其中 (F+)+(F-) = 1。因此, (ee) 和 (de) 可表示为对映体过量或非对 映体过量的百分比。
     术语 “外消旋” 是指化合物等摩尔量的两种对映体的混合物, 该混合物是光学上无 活性的。
     本文所用的 “富集” 特定手性化合物、 对映异构体或非对映异构体的组合物通常包 括至少约 60%、 70%、 80%、 90%或甚至更多的该特定手性化合物、 对映异构体或非对映异 构体。 富集的量可利用本领域技术人员例行使用的常规分析方法确定, 包括但不限于, 在手 性位移试剂存在下的 NMR 光谱、 利用手性柱的气相色谱分析和利用手性柱的高压液相色谱 分析。 在一些实施方案中, 单个手性化合物、 对映异构体或非对映异构体将大致上不含其他 相应的手性化合物、 对映异构体或非对映异构体。 “大致上不含” 是指, 利用本领域技术人员 例行使用的常规分析方法, 诸如以上提到的方法确定, 组合物包括少于约 10%的指定不希 望的手性化合物、 对映异构体或非对映异构体。在一些实施方案中, 不希望的手性化合物、 对映异构体或非对映异构体的量可少于约 10%, 例如, 少于约 9%、 8%、 7%、 6%、 5%、 4%、 3%、 2%、 1%或甚至更少。包含至少约 95%的指定手性化合物、 对映异构体或非对映异构
     体的手性富集、 对映异构富集或非对映异构富集的组合物在本文分别称为 “大致上手性地 纯” 、 “大致上对映异构地纯” 和 “大致上非对映异构地纯” 。包含至少约 99%的指定手性化 合物、 对映异构体或非对映异构体的组合物在本文分别称为 “手性地纯” 、 “对映异构地纯” 和 “非对映异构地纯” 。
     “酮还原酶” 和 “KRED” 在本文中可互换地使用, 以指具有将羰基还原为其相应的醇 的酶促能力的多肽。在具体的实施方案中, 本发明的酮还原酶多肽能够立体选择性地还原 (1)((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 为相应的醇化合物 (2)( 叔 丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯 )。所述多肽通常利用辅因子 即还原型烟酰胺腺嘌呤二核苷酸 (NADH) 或还原型烟酰胺腺嘌呤二核苷酸磷酸 (NADPH) 作 为还原剂。本文所用的酮还原酶包括天然存在的 ( 野生型 ) 酮还原酶以及通过人类操作而 产生的非天然存在的工程化的多肽。
     本文使用的 “工程化的酮还原酶多肽” 是指具有通过人类操纵而产生的变异序列 ( 如, 通过天然存在的母体酶的定向进化或此前来源自天然存在的酶的变体的定向进化而 产生的序列 ) 的酮还原酶多肽。
     “天然存在的” 或 “野生型” 是指在自然中所发现的形式。例如, 天然存在的或野生 型的多肽或多核苷酸序列是存在于生物体中的、 可从自然中的来源分离的并且未被人类操 作有意识地修改的序列。
     “蛋白” 、 “多肽”和 “肽”在本文可互换使用, 表示通过酰胺键共价连接的至少 两个氨基酸的聚合物, 而不论长度或翻译后修饰 ( 如, 糖基化、 磷酸化、 脂质化、 豆蔻酰化 (myristilation)、 泛素化等等 )。这一定义中包括 D- 氨基酸和 L- 氨基酸, 以及 D- 氨基酸 与 L- 氨基酸的混合物。
     “多核苷酸” 或 “寡核苷酸” 是指核碱基聚合物或寡聚物, 其中核碱基被糖磷酸酯键 ( 糖磷酸酯骨架 ) 连接。核碱基或碱基包括对利用核酸或多核苷酸技术或利用聚酰胺或肽 核酸技术从而产生可以序列特异性方式与多核苷酸杂交的聚合物的人们公知的天然存在 的和合成的杂环部分。核碱基的非限制性实例包括 : 腺嘌呤、 胞嘧啶、 鸟嘌呤、 胸腺嘧啶、 尿 嘧啶、 5- 丙炔基 - 尿嘧啶、 2- 硫代 -5- 丙炔基 - 尿嘧啶、 5- 甲基胞嘧啶、 假异胞嘧啶、 2- 硫尿 嘧啶和 2- 硫代胸腺嘧啶、 2- 氨基嘌呤、 N9-(2- 氨基 -6- 氯嘌呤 )、 N9-(2, 6- 二氨基嘌呤 )、 次黄嘌呤、 N9-(7- 脱氮 - 鸟嘌呤 )、 N9-(7- 脱氮 -8- 氮杂 - 鸟嘌呤 ) 和 N8-(7- 脱氮 -8- 氮 杂 - 腺嘌呤 )。示例性的多核苷酸和寡核苷酸包括 2’ 脱氧核糖核苷酸的聚合物 (DNA) 和核 糖核苷酸的聚合物 (RNA)。多核苷酸可完全由核糖核苷酸、 完全由 2’ 脱氧核糖核苷酸或其 组合构成。
     “编码序列” 是指编码多肽 ( 例如蛋白 ) 的氨基酸序列的那部分多核苷酸 ( 例如基 因 )。
     “序列同一性百分比” 、 “同一性百分比” 和 “同一的百分比” 在本文中可互换使用, 以指多核苷酸序列或多肽序列之间的比较, 并且是通过将两个最佳地比对的序列在一个比 较窗口上进行比较而被确定的, 其中比较窗口中的多核苷酸或多肽序列的部分与参考序列 相比可包括添加或缺失 ( 即, 缺口 ) 以将这两个序列最佳地比对。百分比如下计算 : 确定两 个序列中存在相同核酸碱基或氨基酸残基或者核酸碱基和氨基酸残基与缺口对齐的位置 的数量而产生匹配位置数目, 将匹配位置数目除以比较窗口中位置的总数目并将该结果乘以 100 以得到序列同一性百分比。使用 BLAST 和 BLAST 2.0 算法来进行最佳比对和序列同 一性百分比的确定 ( 参见例如, Altschul 等, 1990, J.Mol.Biol.215 : 403-410 和 Altschul 等, 1977, NucleicAcids Res.3389-3402)。用于进行 BLAST 分析的软件可通过美国国家生 物技术信息中心网站公开获得。
     简要地说, BLAST 分析包括首先通过识别问询序列中具有长度 W 的短字来识别高 得分序列对 (HSP), 所述短字当与数据库序列中的相同长度的字对齐时匹配或满足某个正 值阈值得分 T。 T 被称为相邻字得分阈值 (neighborhood word score threshold)(Altschul 等人, 上述 )。这些最初的相邻字匹配 (word hit) 充当用于启动搜索的种子以寻找包含它 们的更长的 HSP。 然后字匹配沿每条序列在两个方向上延伸远至累计的比对得分可被增加。 对于核苷酸序列, 使用参数 M( 对一对匹配残基的奖励得分 ; 总是> 0) 和 N( 对错配残基的 处罚得分 ; 总是< 0) 计算累计得分。对于氨基酸序列, 使用得分矩阵来计算累计得分。当 发生以下情况时字匹配在每个方向上的延伸停止 : 累计比对得分从其所达到的最大值下降 了量 X ; 由于一个或更多个负得分残基比对的累积, 累计得分趋于零或零以下 ; 或者到达每 条序列的末端。BLAST 算法参数 W、 T 和 X 决定比对的灵敏度和速度。BLASTN 程序 ( 对于 核苷酸序列而言 ) 使用字长 (W)11、 期望 (E)10、 M = 5、 N = -4 以及两条链的比较作为缺省 值。对于氨基酸序列, BLASTP 程序使用字长 (W)3、 期望 (E)10 以及 BLOSUM62 得分矩阵作为 缺省值 ( 参见 Henikoff 和 Henikoff, 1989, Proc Natl Acad Sci USA 89 : 10915)。
     可获得与 BLAST 相似地作用的其他算法来提供两条序列的同一性百分比。用于比 较的序列的最佳比对可如下进行 : 例如, 通过 Smith 和 Waterman, 1981, Adv.Appl.Math.2 : 482 的局部同源性算法, 通过 Needleman 和 Wunsch, 1970, J.Mol.Biol.48 : 443 的同源性 比对算法, 通过 Pearson 和 Lipman, 1988, Proc.Natl.Acad.Sci.USA 85 : 2444 的相似性搜 索方法, 通过这些算法的计算机实现 (GCG Wisconsin 软件包中的 GAP、 BESTFIT、 FASTA 或 TFASTA) 或通过直观检查 ( 一般参见, Current Protocols inMolecular Biology( 分子 生物学最新实验方案 ), F.M.Ausubel 等编著, Current Protocols, Greene Publishing Associates Inc. 和 John Wiley&Sons, Inc. 之间的合资企业, (1995 年增刊 )(Ausubel))。 另外, 序列比对和序列同一性百分比的确定可以利用 GCG Wisconsin 软件包 (Accelrys, Madison WI) 中的 BESTFIT 或 GAP 程序, 使用提供的缺省参数。
     “参考序列” 是指与改变的序列进行比较的确定序列。参考序列可以是较大序列的 子部分 (subset), 例如, 全长基因或多肽序列的区段。 一般而言, 参考序列长度为至少 20 个 核苷酸或氨基酸残基, 长度至少 25 个残基, 长度至少 50 个残基, 或者核酸或多肽的全长。 因 为两个多核苷酸或多肽可以各自 (1) 包含在这两条序列之间相似的序列 ( 即完整序列的一 部分 ), 以及 (2) 还可以包含在这两条序列之间相异的序列, 所以在两种 ( 或更多种 ) 多核 苷酸或多肽之间的序列比较通常是通过跨比较窗口比较这两种多核苷酸的序列而进行的, 以识别和比较局部区域的序列相似性。
     术语 “参考序列” 不意为限于野生型序列, 且可包括工程化或改变的序列。例如, 在一些实施方案中, “参考序列” 可以是之前工程化或改变的氨基酸序列。例如, “基于 SEQ ID NO : 2、 在位置 X315 具有甘氨酸残基的参考序列” 是指对应 SEQ ID NO : 2、 在 X315 具有甘 氨酸残基的参考序列 ( 而 SEQ ID NO : 2 的未改变形式在 X315 具有谷氨酸 )。
     “比较窗口” 是指至少约 20 个连续核苷酸位置或氨基酸残基的概念性区段, 其中可以将序列与至少 20 个连续核苷酸或氨基酸的参考序列进行比较, 并且其中在比较窗口中 的序列的部分可以包括与参考序列 ( 它不包括添加或缺失 ) 相比 20%或更少的添加或缺失 ( 即空位 ), 以用于这两条序列的最优比对。比较窗口可以比 20 个连续残基长, 并且任选地 包括 30、 40、 50、 100 或更长的窗口。
     “基本同一性 (substantial identity)” 是指具有与参考序列跨至少 20 个残基位 置的比较窗口、 通常至少 30-50 个残基的窗口相比至少 80%序列同一性、 至少 85%序列同 一性、 至少 89%序列同一性、 至少 95%序列同一性、 甚至至少 99%序列同一性的多核苷酸 或多肽序列, 其中序列同一性百分比是通过跨比较窗口比较参考序列与包括参考序列的总 计 20%或更少的缺失或添加的序列而计算的。在应用于多肽的特定实施方案中, 术语 “基 本同一性” 表示两条多肽序列当通过诸如程序 GAP 或 BESTFIT 使用缺省空位权重进行最优 比对时共有至少 80%的序列同一性, 优选至少 89%序列同一性, 至少 95%序列同一性或更 大 ( 例如, 99%序列同一性 )。优选地, 不相同的残基位置差别在于保守的氨基酸取代。
     “对应于” 、 “关于” 或 “相对于” 当用在给定氨基酸或多核苷酸序列的编号上下文中 时, 是指在该给定氨基酸或多核苷酸序列与指定的参考序列进行比较时该参考序列的残基 编号。 换言之, 给定聚合物的残基号码或残基位置是根据参考序列指定的, 而不是给定氨基 酸或多核苷酸序列内的残基的实际数字位置指定的。例如, 可以将给定的氨基酸序列诸如 工程化酮还原酶的氨基酸序列与参考序列进行比对, 这是通过引入空位以优化这两条序列 之间的残基匹配而实现的。 在这些情况下, 尽管存在空位, 对给定氨基酸或多核苷酸序列中 的残基进行编号是根据与其进行比对的参考序列做出的。
     “来源自” 如本文中在工程化的酶的上下文中所用, 标明所述工程化所基于的起始 酶和 / 或编码这种酶的基因。例如, 通过人工地使编码 SEQ IDNO : 2 的野生型酮还原酶的多 核苷酸突变经过多代而获得具有变异多肽序列 SEQ ID NO : 6 的工程化的酮还原酶。因此, 该工程化的酮还原酶 “来源自” SEQ ID NO : 2 的野生型酮还原酶。
     “立体选择性” 或 “立体特异性” 是指在化学反应或酶促反应中一种立体异构体比 另一种立体异构体优先形成。立体选择性可以是部分的, 其中一种立体异构体的形成优于 另一种, 或者立体选择性可以是完全的, 其中只形成一种立体异构体。 当立体异构体是对映 体时, 立体选择性被称为对映体选择性, 即一种对映体在两种对映体之和中的分数 ( 通常 被报告为百分比 )。它在本领域中通常可选地被报告为 ( 通常为百分比 ) 根据式 [ 主要对 映体一次要对映体 ]/[ 主要对映体 + 次要对映体 ] 从其计算出的对映体过量 (e.e)。当立 体异构体是非对映体时, 有时立体选择性被称为非对映体选择性, 即一种非对映体在两种 非对映体的混合物之中的分数 ( 通常被报告为百分比 ), 通常被可选地报告为非对映体过 量 (d.e.)。对映体过量和非对映体过量是立体异构体过量的类型。
     本文使用的 “高立体选择性” 是指能够将底物转化或还原为其对应的具有至少约 99%立体异构体过量的产物 ( 如化合物 (1) 为化合物 (2)) 的酮还原酶多肽。
     “改进的酶特性” 是指与参考酶表现的特性相比, 为了特定目的使得更好或更期望 的任何酶特性。对于本文所述的工程化酮还原酶多肽而言, 这种比较一般是对野生型酮还 原酶作出的, 但是在一些实施方案中, 参考酮还原酶可以是另一种改进的工程化酮还原酶。 期望改进的酶特性包括但不限于酶活性 ( 它可以按照在一段时间内底物转化百分比来表 示 )、 热稳定性、 pH 稳定性或活性概况、 辅因子需求、 对抑制剂 ( 例如, 产物抑制 ) 的不应性、立体特异性和立体选择性 ( 包括对映体选择性 )。
     “提高的酶活性” 或 “提高的活性” 或 “提高的转化率” 是指与参考酶相比, 可以由比 活性 ( 例如, 产生的产物 / 时间 / 重量蛋白 ) 的提高或者由底物转化为产物的转化率 ( 例 如, 使用指定量的转胺酶在指定时间段内将起始量的底物转化为产物的百分比 ) 的提高表 示的工程化酶的改进特性。确定酶活性和转化率的示例性方法被提供在实施例中。可以影 响与酶活性相关的任何特性, 包括经典的酶特性 Km、 Vmax 或 kcat, 它们的改变能够导致提高的 酶活性。 酶活性的改进可以是从比对应的野生型酮还原酶的酶活性改进约 100%, 到比天然 存在的酮还原酶或从其获取酮还原酶多肽的另一种工程化酮还原酶的酶活性改进 200%、 500%、 1000%或更大。在具体的实施方案中, 工程化酮还原酶展现出在比母体野生型或其 他参考酮还原酶的酶活性改进 100%至 200%、 200%至 1000%或大于 1500%的范围内的改 进的酶活性。本领域技术人员理解, 任何酶的活性都受扩散限制以致催化转换速率不能超 过包括任何所需的辅因子在内的底物的扩散速率。 扩散限制或 kcat/Km 的理论最大值一般是 8 9 -1 -1 约 10 到 10 (M s )。因此, 酮还原酶的酶活性上的任何改进将具有与酮还原酶所作用的底 物的扩散速率相关的上限。 酮还原酶活性可以通过用于测量酮还原酶的标准测定中的任何 一种来测量, 例如实施例 7 描述的测定。使用本文进一步详述的限定的酶制品、 在设置条件 下的确定的测定以及一种或多种确定的底物, 进行酶活性或转化率的比较。 一般而言, 在比 较裂解物时, 确定所测定的细胞数目和 / 或蛋白的量, 并使用相同的表达系统和相同的宿 主细胞以使得由该宿主细胞所产生并存在于裂解物中的酶量的改变最小化。
     “转化” 是指底物被酶促转化为对应的产物。 “转化百分比” 是指在指定条件下在一 段时间内被转化为产物的底物的百分比。因此, 例如, 酮还原酶多肽的 “活性” 或 “转化率” 可以表示为底物到产物的 “转化百分比” 。
     “热稳定的” 或 “热稳定” 可互换使用, 是指与未处理的酶相比, 在暴露于一组温度 条件 ( 例如 40-80℃ ) 一段时间 ( 例如 0.5-24 小时 ) 时耐受失活, 从而在暴露于高温后保 持某一水平残留活性 ( 例如多于 60%到 80% ) 的多肽。
     “溶剂稳定的” 是指与未处理的酶相比, 在暴露于不同浓度 ( 例如, 5-99% ) 的溶 剂 ( 如, 异丙醇、 二甲基亚砜、 四氢呋喃、 2- 甲基四氢呋喃、 丙酮、 甲苯、 乙酸丁酯、 甲基叔丁 基醚、 乙腈等等 ) 一段时间 ( 例如 0.5-24 小时 ) 后保持相似活性 ( 多于例如 60%到 80% ) 的多肽。
     “pH 稳定的” 是指与未处理的酶相比, 在暴露于高 pH 或低 pH( 例如 8 至 12 或 4.5-6) 一段时间 ( 例如 0.5-24 小时 ) 后保持相似活性 ( 例如多于 60%到 80% ) 的多肽。
     “热稳定且溶剂稳定的” 是指既热稳定又溶剂稳定的多肽。
     在本文公开的多肽上下文中使用的 “氨基酸” 或 “残基” 是指在序列位置的具体单 体 ( 如, E315 表示 SEQ ID NO : 2 位置 315 的 “氨基酸” 或 “残基” 是谷氨酸 )。
     “亲 水 性 氨 基 酸 或 残 基”是 指 根 据 Eisenberg 等 人, 1984, J.Mol.Biol.179 : 125-142 的标准化统一疏水性量表具有展现出小于零的疏水性的侧链的氨基酸或残基。 遗 传 编 码 的 亲 水 性 氨 基 酸 包 括 L-Thr(T)、 L-Ser(S)、 L-His(H)、 L-Glu(E)、 L-Asn(N)、 L-Gln(Q)、 L-Asp(D)、 L-Lys(K) 和 L-Arg(R)。
     “酸性氨基酸或残基” 是指当氨基酸被包括在肽或多肽中时具有展现出小于约 6 的 pK 值的侧链的亲水性氨基酸或残基。酸性氨基酸由于氢离子的缺失在生理 pH 下通常具有带负电的侧链。遗传编码的酸性氨基酸包括 L-Glu(E) 和 L-Asp(D)。
     “碱性氨基酸或残基” 是指当氨基酸被包括在肽或多肽中时具有展现出大于约 6 的 pKa 值的侧链的亲水性氨基酸或残基。 碱性氨基酸由于与水合氢离子缔合在生理 pH 下通常 具有带正电的侧链。遗传编码的碱性氨基酸包括 L-Arg(R) 和 L-Lys(K)。
     “极性氨基酸或残基” 是指所具有的侧链在生理 pH 下不带电荷但具有如下至少 一个键的亲水性氨基酸或残基 : 在所述至少一个键中由两个原子共有的电子对被这两个 原子之一更紧密地持有。遗传编码的极性氨基酸包括 L-Asn(N)、 L-Gln(Q)、 L-Ser(S) 和 L-Thr(T)。
     “疏 水 性 氨 基 酸 或 残 基”是 指 根 据 Eisenberg 等 人, 1984, J.Mol.Biol.179 : 125-142 的标准化统一疏水性量表具有展现出大于零的疏水性的侧链的氨基酸或残基。 遗 传 编 码 的 疏 水 性 氨 基 酸 包 括 L-Pro(P)、 L-Ile(I)、 L-Phe(F)、 L-Val(V)、 L-Leu(L)、 L-Trp(W)、 L-Met(M)、 L-Ala(A) 和 L-Tyr(Y)。
     “芳香族氨基酸或残基” 是指具有包括至少一个芳环或杂芳环的侧链的亲水性或 疏水性氨基酸或残基。遗传编码的芳香族氨基酸包括 L-Phe(F)、 L-Tyr(Y) 和 L-Trp(W)。 尽管 L-His(H) 由于其杂芳香族氮原子的 pKa 有时被分类为碱性残基, 或者因为其侧链包 括杂芳环而被分类为芳香族残基, 但本文的组氨酸被分类为亲水性残基或 “受限制的残基 (constrainedresidue)” ( 见下面 )。
     “受限制的氨基酸或残基” 是指具有受限制的几何形状的氨基酸或残基。本文中, 受限制的残基包括 L-pro(P) 和 L-his(H)。 组氨酸具有受限制的几何形状, 因为它具有相对 小的咪唑环。脯氨酸具有受限制的几何形状, 因为它也具有五元环。
     “非极性氨基酸或残基” 是指所具有的侧链在生理 pH 下不带电荷并且具有如下键 的疏水性氨基酸或残基 : 在所述键中由两个原子共有的电子对一般被这两个原子中每一个 同等持有 ( 即侧链是没有极性的 )。遗传编码的非极性氨基酸包括 L-Gly(G)、 L-Leu(L)、 L-Val(V)、 L-Ile(I)、 L-Met(M) 和 L-Ala(A)。
     “脂肪族氨基酸或残基” 是指具有脂肪烃侧链的疏水性氨基酸或残基。遗传编码的 脂肪族氨基酸包括 L-Ala(A)、 L-Val(V)、 L-Leu(L) 和 L-Ile(I)。
     “半胱氨酸” 。氨基酸 L-Cys(C) 是独特的, 因为它能够与其他 L-Cys(C) 氨基酸或 其他包含硫烃基或硫氢基的氨基酸形成二硫键桥。 “半胱氨酸样残基” 包括半胱氨酸和其他 包含可用于形成二硫键桥的硫氢基部分的氨基酸。L-Cys(C)( 和其他具有包含 -SH 的侧链 的氨基酸 ) 以游离 -SH 还原形式或氧化的二硫键桥形式存在于肽中的能力影响 L-Cys(C) 赋予肽净疏水性还是净亲水性。尽管根据 Eisenberg 的标准化统一量表 (Eisenberg 等人, 1984, 上述 )L-Cys(C) 展现出 0.29 的疏水性, 但应理解出于本公开内容的目的将 L-Cys(C) 归为它自己一组。
     “小氨基酸或残基” 是指具有由总计三个或更少的碳和 / 或杂原子 ( 不包括 α- 碳 和氢 ) 组成的侧链的氨基酸或残基。根据以上定义可以将小氨基酸或残基进一步归类 为脂肪族、 非极性、 极性或酸性的小氨基酸或残基。遗传编码的小氨基酸包括 L-Ala(A)、 L-Val(V)、 L-Cys(C)、 L-Asn(N)、 L-Ser(S)、 L-Thr(T) 和 L-Asp(D)。
     “包含羟基的氨基酸或残基” 是指包含羟基 (-OH) 部分的氨基酸。遗传编码的包含 羟基的氨基酸包括 L-Ser(S)、 L-Thr(T) 和 L-Tyr(Y)。
     “氨基酸差异” 或 “残基差异” 是指与参考序列相比, 在多肽序列指定位置的残基改变。例如, 参考序列在位置 I199 具有异亮氨酸时, 位置 I199 的残基差异是指在位置 199 的残基改变为异亮氨酸以外的任何残基。如本文公开的, 工程化的酮还原酶可包括相对参 考序列的一种或多种残基差异, 其中多个残基差异通常由相对参考序列进行改变的指定位 置的列表表示 ( 如, “与 SEQ ID NO : 2 相比在以下残基位置的一种或多种残基差异 : 2、 28、 34、 47、 50、 81、 90、 91、 94、 112、 117、 143、 144、 145、 150、 152、 153、 158、 190、 198、 199、 200、 204、 217、 225、 231、 232、 233、 244、 260 和 261” )。
     “保守的” 氨基酸取代 ( 或突变 ) 是指以具有相似侧链的残基取代残基, 并因此通 常包括用相同或相似定义的氨基酸类别中的氨基酸取代多肽中的氨基酸。然而, 如本文所 用, 在一些实施方案中, 如果保守的突变可以是从脂肪族残基到脂肪族残基、 非极性残基到 非极性残基、 极性残基到极性残基、 酸性残基到酸性残基、 碱性残基到碱性残基、 芳香族残 基到芳香族残基、 或受限制的残基到受限制的残基的取代, 则保守的突变不包括从亲水性 残基到亲水性残基、 疏水性残基到疏水性残基、 包含羟基的残基到包含羟基的残基、 或小残 基到小残基的取代。此外, 如本文所用, A、 V、 L 或 I 可以被保守突变为另一种脂肪族残基或 另一种非极性残基。下表 1 显示了示例性保守取代。
     表1: 保守取代“非保守取代” 是指用具有显著差别的侧链特性的氨基酸取代或突变多肽中的氨 基酸。非保守取代可以利用以上列出的限定组之间而不是它们之内的氨基酸。在一个实施 方案中, 非保守突变影响 : (a) 取代区域中的肽骨架的结构 ( 例如, 脯氨酸取代甘氨酸 ), (b) 电荷或疏水性, 或 (c) 侧链体积。
     “缺失” 是指通过从参考多肽去除一个或更多个氨基酸而对多肽进行的修饰。缺失 可以包括去除 1 个或更多个氨基酸、 2 个或更多个氨基酸、 3 个或更多个氨基酸、 4 个或更多 个氨基酸、 5 个或更多个氨基酸、 6 个或更多个氨基酸、 7 个或更多个氨基酸、 8 个或更多个氨 基酸、 10 个或更多个氨基酸、 12 个或更多个氨基酸、 15 个或更多个氨基酸、 或者 20 个或更多 个氨基酸、 高达构成参考酶的氨基酸总数的 10%、 或高达氨基酸总数的 20%, 同时保留酶 活性和 / 或保留工程化酮还原酶的改进特性。缺失可以针对多肽的内部和 / 或端部。在多
     个实施方案中, 缺失可以包括连续的区段或者可以是不连续的。
     “插入” 是指通过从参考多肽添加一个或更多个氨基酸而对多肽进行的修饰。在一 些实施方案中, 改进的工程化酮还原酶包括一个或更多个氨基酸插入天然存在的酮还原酶 多肽, 以及一个或更多个氨基酸插入其他工程化的酮还原酶多肽。插入可以在多肽的内部 或者到羧基端或氨基端。如本文所用的插入包括本领域已知的融合蛋白。插入可以是氨基 酸的连续区段, 或者被天然存在的多肽中的一个或更多个氨基酸分隔。
     如本文所用的 “片段” 是指如下多肽 : 所述多肽具有氨基端和 / 或羧基端缺失, 但 其中剩余的氨基酸序列与该序列中的对应位置相同。片段可以为至少 14 个氨基酸长、 至 少 20 个氨基酸长, 至少 50 个氨基酸长或更长, 以及高达全长酮还原酶多肽的 70%、 80%、 90%、 95%、 98%和 99%。
     “分离的多肽” 是指如下多肽 : 所述多肽基本上与其天然伴随的其他污染物例如蛋 白、 脂质和多核苷酸分离。该术语包括已自其天然存在环境或表达系统 ( 例如, 宿主细胞或 体外合成 ) 中移出或纯化的多肽。改进的酮还原酶可以存在于细胞内、 存在于细胞培养基 中或者以各种形式制备, 诸如裂解物或分离的制备物。像这样, 在一些实施方案中, 改进的 酮还原酶可以是分离的多肽。
     “基本上纯的多肽” 是指如下组合物 : 在所述组合物中多肽物类是存在的优势物类 ( 即, 在摩尔基础或重量基础上它比该组合物中的任何其他个体大分子物类更丰富 ), 并且 当目标物类构成存在的大分子物类的按摩尔或重量%计至少约 50%时一般是基本上纯化 的组合物。一般而言, 基本上纯的酮还原酶组合物将构成该组合物中存在的所有大分子物 类的按摩尔或重量%计约 60%或更多、 约 70%或更多、 约 80%或更多、 约 90%或更多、 约 95%或更多以及约 98%或更多。 在一些实施方案中, 将目标物类纯化至基本的均一性 ( 即, 通过常规检测方法不能在组合物中检测出污染物类 ), 其中组合物基本上由单一大分子物 类组成。溶剂物类、 小分子 ( < 500 道尔顿 )、 以及元素离子物类不被认为是大分子物类。 在一些实施方案中, 分离的改进酮还原酶多肽是基本上纯的多肽组合物。
     如本文所用的 “严格杂交” 是指如下条件 : 在所述条件下核酸杂交体是稳定的。如 本领域技术人员已知的, 杂交体的稳定性反映在杂交体的解链温度 (Tm) 上。一般而言, 杂 交体的稳定性随离子强度、 温度、 G/C 含量和离液剂的存在而变化。多核苷酸的 Tm 值可以 使用预测解链温度的已知方法计算 ( 参见例如, Baldino 等人, Methods Enzymology 168 : 761-777 ; Bolton 等人, 1962, Proc.Natl.Acad.Sci.USA 48 : 1390 ; Bresslauer 等人, 1986, Proc.Natl.Acad.Sci USA 83 : 8893-8897 ; Freier 等 人, 1986, Proc.Natl.Acad.SciUSA 83 : 9373-9377 ; Kierzek 等人, Biochemistry 25 : 7840-7846 ; Rychlik 等人, 1990, Nucleic Acids Res 18 : 6409-6412( 勘 误, 1991, Nucleic Acids Res19 : 698) ; Sambrook 等 人, 上 述); Suggs 等人, 1981, 在 DevelopmentalBiology Using Purified Genes( 使用纯化基因 的发育生物学 )(Brown 等人, 编 ), 第 683-693 页, Academic Press 中 ; 以及 Wetmur, 1991, Crit Rev BiochemMol Biol 26 : 227-259。所有的出版物均通过引用并入本文 )。在一些 实施方案中, 多核苷酸编码本文公开的多肽并且在限定条件下诸如在中度严格或高度严格 条件下与编码本公开内容的工程化酮还原酶的序列的互补序列杂交。
     “杂交严格度” 涉及核酸的这种洗涤条件。一般而言, 在较低严格度条件下进行杂 交反应, 接着是具有不同但更高的严格度的洗涤。术语 “中度严格杂交” 是指允许靶 DNA结合以下互补核酸的条件, 所述互补核酸与该靶 DNA 具有约 60 %同一性、 优选约 75 %同 一性、 约 85 %同一性 ; 与靶多核苷酸具有大于约 90 %同一性。示例性中度严格条件是等 同于在 42 ℃于 50 %甲酰胺、 5×Denhart 溶液、 5×SSPE、 0.2 % SDS 中杂交, 接着在 42 ℃于 0.2×SSPE、 0.2% SDS 中洗涤的条件。 “高严格度杂交” 一般是指如下条件 : 与对限定的多 核苷酸序列在溶液条件下确定的热解链温度 Tm 相差约 10℃或更小。在一些实施方案中, 高 严格度条件是指允许仅那些在 65℃于 0.018M NaCl 中形成稳定杂交体的核酸序列杂交的 条件 ( 即, 如果杂交体在 65℃于 0.018M NaCl 中不稳定, 它在本文考虑的高严格度条件下将 是不稳定的 )。可以例如通过在等同于在 42℃于 50%甲酰胺、 5×Denhart 溶液、 5×SSPE、 0.2% SDS 的条件中杂交, 接着在 65℃于 0.1×SSPE 和 0.1% SDS 中洗涤, 而提供高严格度 条件。其他高严格度杂交条件以及中度严格条件描述于以上引用的参考文献中。
     “重组的” 在提及例如细胞、 核酸或多肽而被使用时, 是指以本来在自然中不存在 的方式被修饰, 或者与自然中存在的物质相同但是是从合成的物质和 / 或通过使用重组技 术的操作而产生或衍生出来的物质或对应于该物质的天然或天生形式的物质。 非限制性的 实例包括但不限于这样的重组细胞, 其表达在天然 ( 非重组 ) 形式的细胞中未被发现的基 因或者表达本来以不同水平表达的天然基因。
     “异源” 多核苷酸是指通过实验技术引入宿主细胞的任何多核苷酸, 并且包括从宿 主细胞中移出、 经历实验室操作、 然后再引入宿主细胞中的多核苷酸。
     “密码子优化的” 是指编码蛋白质的多核苷酸的密码子变为特定生物体中优先使 用的那些密码子, 以致所编码的蛋白被有效表达在感兴趣的生物体中。尽管遗传密码由于 大多数氨基酸被称作 “同义密码子” 或 “同义” 密码子的几个密码子代表而为简并的, 但众 所周知具体生物体的密码子使用是非随机的且偏向特定的密码子三联体。就给定基因、 具 有共同功能或祖先起源的基因、 高表达蛋白相对于低拷贝数蛋白以及生物体基因组的聚集 蛋白编码区而言, 这种密码子使用偏向可能更高。 在一些实施方案中, 可以对编码酮还原酶 的多核苷酸进行密码子优化, 以用于从为表达所选的宿主生物体中优化生产。
     “偏爱密码子、 优化的密码子、 高密码子使用偏向的密码子” 可互换地指在蛋白编 码区中以高于编码同一氨基酸的其他密码子的频率被使用的密码子。 偏爱密码子可以根据 在单基因、 一组具有共同功能或起源的基因、 高表达基因中的密码子使用, 在整个生物体的 聚集蛋白编码区中的密码子频率, 在相关生物体中的聚集蛋白编码区中的密码子频率或它 们的组合来确定。频率随基因表达水平而提高的密码子通常是用于表达的优化密码子。多 种方法已知用于确定具体生物体中的密码子频率 ( 例如, 密码子使用, 相对同义的密码子 使用 ) 和密码子偏好, 包括多变量分析, 例如使用聚类分析或对应分析, 以及用于确定基因 中使用的密码子的有效数目 ( 参见 GCG CodonPreference, 遗传学计算机工作组 Wisconsin 软件包 (GeneticsComputer Group Wisconsin Package) ; Codon W, John Peden, 诺丁汉大 学; McInerney, J.O, 1998, Bioinformatics 14 : 372-73 ; Stenico 等人, 1994, NucleicAcids Res.222437-46 ; Wright, F., 1990, Gene 87 : 23-29)。不断增加的生物名单的密码子使用表 是可用的 ( 参见例如, Wada 等人, 1992, Nucleic Acids Res.20 : 2111-2118 ; Nakamura 等 人, 2000, Nucl.Acids Res.28 : 292 ; Duret 等 人, 上述 ; Henaut 和 Danchin, “Escherichia coli and Salmonella( 大肠杆菌和沙门氏菌 ), ” 1996, Neidhardt 等人编, ASM Press, Washington D.C., 第 2047-2066 页 )。用于获得密码子使用的数据资源可依赖于能够编码蛋白的任何可用的核苷酸序列。这些数据集包括实际上已知编码表达的蛋白的核酸序 列 ( 例如, 完整的蛋白编码序列 -CDS)、 表达序列标签 (ESTS)、 或基因组序列的预测编码区 ( 参见, 例如 Mount, D., Bioinformatics : Sequence andGenome Analysis( 生物信息学 : 序 列和基因组分析 ), 第 8 章, Cold SpringHarbor Laboratory Press, Cold Spring Harbor, N.Y., 2001 ; Uberbacher, E.C., 1996, Methods Enzymol.266 : 259-281 ; Tiwari 等人, 1997, Comput.Appl.Biosci.13 : 263-270)。
     “控制序列” 在本文定义为包括对本公开内容的多肽的表达必要或有利的所有组 分。每个控制序列可能对编码多肽的核酸序列是天然的或外来的。这些控制序列包括但不 限于前导序列、 聚腺苷酸化序列、 前肽序列、 启动子、 信号肽序列和转录终止子。至少, 控制 序列包括启动子以及转录和翻译终止信号。 为了引入特定的限制位点以促进控制序列与编 码多肽的核酸序列的编码区连接, 控制序列可与连接序列一起提供。
     “可操作地连接” 在本文定义为如下一种配置 : 在所述配置中控制序列相对于 DNA 序列的编码序列的位置被适当安放, 以使得控制序列指导多核苷酸和 / 或多肽的表达。
     “启动子序列” 是由宿主细胞识别用于表达编码区的核酸序列。控制序列可以包括 适当的启动子序列。启动子序列包含介导多肽的表达的转录控制序列。启动子可以是在选 择的宿主细胞中显示转录活性的任何核酸序列, 包括突变的、 截短的和杂合的启动子, 并且 可以从编码细胞外多肽或细胞内多肽的、 与该宿主细胞同源或异源的基因中获得。
     术语 “辅因子再生系统” 是指参加将氧化型的辅因子还原 ( 例如 NADP+ 至 NADPH) 的反应的一组反应物。 被酮还原酶催化的酮底物还原所氧化的辅因子被辅因子再生系统再 生为还原型。辅因子再生系统包括化学计量还原剂, 其为还原氢等价物的来源并且能够将 辅因子的氧化型还原。辅因子再生系统还可包括催化剂, 例如催化还原剂对辅因子氧化型 + + 的还原的酶催化剂。用于从 NAD 或 NADP 分别再生 NADH 或 NADPH 的辅因子再生系统是本 领域已知的并且可被用于本文所述的方法。
     5.2. 酮还原酶多肽和其用途
     本公开内容提供为能够立体特异性地还原 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为相应的立体异构醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)) 的酶的工 程化的酮还原酶 (“KRED” ) 多肽, 如以上方案 1 所示 )。在某些实施方案中, 被转化为立体 异构醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇产物 ( 如化合物 (2)) 的 底物 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮 (“底物” ) 在生物催化还原反应中作 为外消旋混合物的部分、 或作为大致上手性纯的化合物、 或作为手性纯的化合物存在。 本公 开内容的工程化的酮还原酶 (“KRED” ) 酶是与从 Novosphingobiumaromaticivorans 获得 的天然存在的野生型 KRED 酶 (SEQ ID NO : 2) 相比具有改进的特性的酶。期望对其改进的 酶特性包括但不限于, 酶促活性、 热稳定性、 pH 活性谱、 辅因子需求、 对抑制剂 ( 如, 产物抑 制 ) 的不应性、 立体特异性、 立体选择性和溶剂稳定性。改进可以是关于单独酶特性, 诸如 酶促活性, 或关于不同酶特性的组合, 诸如酶促活性和立体特异性。
     如 上 所 述, 具 有 改 进 的 酶 特 性 的 工 程 化 的 酮 还 原 酶 是 关 于 Novosphingobium aromaticivorans(SEQ ID NO : 2) 描述的。这些酮还原酶中的氨基酸残基位置从起始甲硫 氨酸 (M) 残基开始确定 ( 即, M 代表残基位置 1), 尽管本领域技术人员将理解, 这一起始的甲硫氨酸残基可能被诸如宿主细胞或体外翻译系统中的生物加工机制去除以产生缺少起 始甲硫氨酸残基的成熟蛋白。 氨基酸序列中存在特定氨基酸或氨基酸改变的氨基酸残基位 置在本文有时描述为术语 “Xn” 或 “残基 n” , 其中 n 是指残基位置。取代突变是序列中对应 于参考序列 ( 例如天然存在的酮还原酶 SEQ IDNO : 2) 的残基的残基被不同氨基酸残基进行 氨基酸残基替换, 如下标为 “X( 数字 )Z” , 其中 X 是见于 N.aromaticivorans 野生型酶 (SEQ ID NO : 2) 位置 “数字” 的氨基酸, Z 是见于 “突变体” 酶的位置 “数字” 的氨基酸, “突变体” 酶即其中氨基酸 Z 已经取代氨基酸 X 的酶。在这种情形, 单字母代码用于代表氨基酸 ; 如 G145A 是指其中 SEQ ID NO : 2 位置 145 的 “野生型” 氨基酸甘氨酸已被氨基酸丙氨酸替换的 情形。
     在本文, 突变有时被描述为一个残基突变 “为一种” 类型的氨基酸。例如, SEQ ID NO : 2 的残基 199( 异亮氨酸 (I)) 可被突变 “为一种” 极性残基。使用短语 “为一种” 不排除 从一个类别的一种氨基酸突变为同一类别的另一种氨基酸。例如, 残基 199 可从异亮氨酸 被突变 “为” 天冬酰胺。
     编 码 Novosphingobium aromaticivorans 的 天 然 存 在 的 酮 还 原 酶 ( 还 称 为 “ADH”或 “醇 脱 氢 酶” ) 的 多 核 苷 酸 序 列 可 从 GenBank 登 录 号 CP000677.1 中 提 供 的 Novosphingobium aromaticivorans DSM 12444 质粒 pNL2( 序列 ) 的碱基 160464 至 161243 完整序列的 780bp 区获得。这一多核苷酸编码的相应的多肽序列由 GenBank 登录号 gi|14 5322460|gb|ABP64403.1|[145322460 提供。由于起始密码子选择不同, 这一多肽比 SEQ ID NO : 2 短四个氨基酸 ( 即, GenBank 多肽序列开始于对应于 SEQ ID NO : 2 位置 5 的 Met)。本 公开内容预期包括其中多肽是 SEQ IDNO : 2 的片段的酮还原酶多肽, 其中该片段氨基酸序 列开始于 SEQ ID NO : 2 位置 5 的 Met, 结束于 SEQ ID NO : 2 的位置 263。因此, 在本文公开 的工程化的酮还原酶多肽的任何实施方案中, 其中多肽包括相对于 SEQ IDNO : 2 的氨基酸 差异, 本公开内容还提供工程化的酮还原酶多肽的片段, 其中该片段氨基酸序列开始于 SEQ ID NO : 2 位置 5 的 Met, 结束于 SEQ IDNO : 2 的位置 263, 氨基酸差异是在如同相应的全长工 程化的多肽相对于 SEQ ID NO : 2 的相同氨基酸处。
     在一些实施方案中, 本文的酮还原酶多肽可具有多个相对于参考序列 (SEQ ID NO : 2 的 Novosphingobium aromaticivorans) 的修饰, 其中修饰导致改进的酮还原酶特性。 在这种实施方案中, 对氨基酸序列的修饰的数目可包括一个或多个氨基酸、 2 或多个氨基 酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多个氨基酸、 8 或多个氨基酸、 9 或多个氨基酸、 10 或多个氨基酸、 15 或多个氨基酸、 或 20 或多个氨基酸、 达参考酶序列氨基 酸总数的 10%、 达氨基酸总数的 10%、 达氨基酸总数的 20%、 或达氨基酸总数的 30%。 在一 些实施方案中, 产生改进的酮还原酶特性的对天然存在的多肽或工程化的多肽的修饰数目 可包括参考序列的从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个修饰。 修饰可包括插入、 缺失、 取 代、 或其组合。
     在一些实施方案中, 修饰包括对参考序列, 即 SEQ ID NO : 2 的 Novosphingobium aromaticivorans KRED 序列的氨基酸取代。 可产生改进的酮还原酶特性的取代可以是在一 个或多个氨基酸、 2 或多个氨基酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多 个氨基酸、 7 或多个氨基酸、 8 或多个氨基酸、 9 或多个氨基酸、 10 或多个氨基酸、 15 或多个氨基酸、 或 20 或多个氨基酸、 达参考酶序列氨基酸总数的 10%、 达氨基酸总数的 15%、 达氨基 酸总数的 20%、 或达氨基酸总数的 30%。在一些实施方案中, 产生改进的酮还原酶特性的 对天然存在的多肽或工程化的多肽的取代数目可包括参考序列的从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个氨基酸取代。
     在一些实施方案中, 酮还原酶多肽的改进的特性是关于其立体特异性的增加。例 如, 在一些实施方案中, 改进的特性是酶区分 N- 保护的 3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮的 两种对映体 ( 如, 按照式 (IV) 的 (3S) 对映体和 (3R) 对映体的外消旋混合物 ), 并转化大致 上仅 (3S) 对映体为相应的立体异构式 (II) 产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 醇 ( 如化合物 (2)) 的能力, 如例如以下方案 5 所示。
     方案 5
    酮还原酶多肽的立体特异性的这一改进可表示为酮还原酶反应的 “E 值” 的改进。
     在一些实施方案中, 酮还原酶多肽的改进的特性是关于其转化或还原更大百分比 的底物为产物的能力增加。在一些实施方案中, 酮还原酶多肽的改进的特性是关于其转化 底物为产物的比率增加。酶促活性的这一改进可表示为与野生型或其他参考序列相比, 使 用较少的改进的多肽还原或转化相同量的产物的能力。在一些实施方案中, 酮还原酶多肽 的改进的特性是关于其稳定性或热稳定性。在一些实施方案中, 酮还原酶多肽具有多于一 种改进的特性, 诸如立体特异性、 酶活性和热稳定性的组合。
     在 一 些 实 施 方 案 中, 酮 还 原 酶 多 肽 能 够 立 体 特 异 性 地 转 化 N- 保 护 的 3- 氨 基 -1- 氯 -4- 苯基丁 -2- 酮的 (3S)- 对映体以获得非对映体过量百分比为至少约 25 %、 50 %、 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %、 99 %、 99.9%或 99.99%的相应的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇产物。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 90%非对 映体过量的产物。具有这种立体特异性的示例性的多肽包括但不限于, 包含对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 95%非对 映体过量的产物。具有这种立体特异性的示例性的多肽包括但不限于, 包含对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 97%非对 映体过量的产物。具有这种立体特异性的示例性的多肽包括但不限于, 包含对应于 SEQ ID
     NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为大于约 98%非对 映体过量的产物。具有这种高立体特异性的示例性的酮还原酶多肽包括但不限于, 包含对 应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽能够立体特异性地转化底物为至少约 98 %、 99%、 99.9%或 99.99%非对映体过量百分比的产物, 其中多肽包括对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是等价或改进的。能够以与野生型等价或比 野生型改进的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是改进的。能够以比野生型改进至少约 1.2 倍的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是改进的。能够以比野生型改进至少约 1.5 倍的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 6、 18、 22、 30、 38、 40、 50、 52、 54 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 酮还原酶多肽与野生型 (SEQ ID NO : 2) 相比在其酶促活性的 比率, 即其转化底物为产物的比率或能力方面是改进的。能够以比野生型改进至少约 3 倍 的转化率转化底物为产物的示例性的多肽包括但不限于, 包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列的多肽。
     在一些实施方案中, 本公开内容的工程化的酮还原酶多肽能够转化底物为至少约 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %、 99 %、 99.9 %、 99.99 %或更多非对映 体过量的产物。具有这一能力的示例性的工程化的酮还原酶多肽包括但不限于, 包括对应 于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的序列的多肽。
     在一些实施方案中, 本公开内容的工程化的酮还原酶多肽能够以改进的转化率还 原底物式 (I) 化合物 ( 如, 化合物 (1)) 为产物式 (II) 化合物 ( 如, 化合物 (2))。 例如, 在一 些实施方案中, 本公开内容的工程化的酮还原酶多肽能够在约 24 小时或更短时间内转化 至少约 70%、 71%、 72%、 73 %、 74 %、 75%、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %、 99%或更多底物为产物。在一些实施方案中, 工程化的酮还原酶多肽能够在少于约 24 小 时、 少于约 20 小时、 少于约 16 小时、 少于约 12 小时、 和甚至少于约 10 小时内转化至少约90%底物为产物。具有这一能力的示例性的工程化的酮还原酶多肽包括但不限于, 包括对 应于 SEQ ID NO : 6、 50、 52 和 56 的序列的多肽。
     在一些实施方案中, 当反应混合物包括相对于底物的量的重量约 1%或更少 ( 但 多于 0% )、 0.5%或更少 ( 但多于 0% )、 0.2%或更少 ( 但多于 0% )、 或甚至 0.1%或更少 ( 但多于 0% ) 重量比的酮还原酶多肽时, 本公开内容的工程化的酮还原酶多肽能够在约 24 小时或更短时间内转化至少约 70%、 80%、 90%、 95%、 99%或更多底物式 (I) 化合物 ( 如, 化合物 (1)) 为产物式 (II) 化合物 ( 如, 化合物 (2))。具有这一能力的示例性的多肽包括 但不限于, 包括对应于 SEQ ID NO : 6、 50、 52 和 56 的序列的多肽。
     在一些实施方案中, 当反应混合物包括酮还原酶多肽负荷为约 10g/L 或更少、 5g/ L 或更少、 2g/L 或更少、 1g/L 或更少和反应混合物中底物的初始浓度 ( 即, 底物负荷 ) 为至 少约 25g/L、 至少约 50g/L、 至少约 75g/L、 至少约 100g/L、 至少约 125g/L、 至少约 150g/L、 至 少约 175g/L、 或至少约 200g/L 时, 本公开内容的工程化的酮还原酶多肽能够在约 24 小时或 更短时间内转化至少约 70%、 80%、 90%、 95%、 99%或更多底物式 (I) 化合物 ( 如, 化合物 (1)) 为产物式 (II) 化合物 ( 如, 化合物 (2))。具有这一能力的示例性的多肽包括但不限 于, 包括对应于 SEQ ID NO : 6、 50、 52 和 56 的序列的多肽。
     在一些实施方案中, 酮还原酶多肽具有比野生型改进的活性和稳定性, 可还原底 物为大于约 98% d.e 的产物。具有这种能力的示例性的多肽包括但不限于 SEQ ID NO : 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56。以下表 2 以序列标识符 (SEQ ID NO) 列出本文公开的工程化的酮还原酶多肽 ( 和编码多核苷酸 ) 连同工程化的多 肽的变异序列相对于其通过定向进化来自的野生型 Novosphingobiumaromaticivorans 酮 还原酶序列的具体残基差异 (SEQ ID NO : 2)( 参见如, Stemmer 等, 1994, Proc Natl Acad Sci USA 91 : 10747-10751)。表 2 的每行列出两个 SEQ ID NO, 其中奇数是指编码偶数提供 的多肽氨基酸序列的核苷酸序列。
     确定每种工程化的酮还原酶多肽相对于野生型酶 SEQ ID NO : 2 活性的活性 ( 野 生型 : 24 小时中~ 30%转化、 3g/L 底物负荷、 5g/L 酶负荷 )。活性确定为随着时间, 化合物 (1) 向化合物 (2) 的转化, 如实施例 7 所述。如表 2 中概括的, 活性的改进如下定量 : “相当 (Control)” 指示与 SEQ ID NO : 2 的 KRED 的活性相比 100%至 120% ; “+” 指示与 SEQ ID NO : 2 的 KRED 相比> 120 %至 150 % ; “++” 指示与 SEQ ID NO : 2 的 KRED 相比> 150 %至 300% ; 且 “+++” 指示与 SEQ ID NO : 2 的 KRED 相比> 300%。
     表2
    工程化的酮还原酶多肽转化仲醇即异丙醇 (IPA) 为其相应产物丙酮的改进的活 性相对于参考多肽 SEQ ID NO : 2 的相同活性确定。相对 IPA 活性利用以下反应条件的检验 确定 : 100μl 10× 稀释的工程化的 KRED 裂解物、 10% IPA(v/v)、 0.5g/L NAD+、 100mM TEA、 pH 7.5。对 IPA 表现相对于 SEQ ID NO : 2 增加至少 2 倍的活性的示例性的工程化的酮还原 酶多肽列在表 3。相对于 WT SEQ ID NO : 2 在 IPA 活性方面的改进倍数如下定量 : “+” 指示 至少 200%至 250%改进 ; “++” 指示< 250%至 500%改进 ; 和 “+++” 指示> 500%至 1000%
     改进 ; 和 “++++” 指示> 1000%至 2000%改进。
     表3
    在一些实施方案中, 本公开内容提供改进的酮还原酶多肽, 其包含与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73 %、 74 %、 75 %、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99%相同的氨基酸序列, 且包括表 2 或表 3 中列出的至少一种氨基酸取代。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 活性的至少约 3 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 2 的相对活性指定为 “+++” ), 其中 改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92%、 93%、 94%、 95%、 96%、 97%、 98%、 或 99%相同的氨基酸序列, 且包括至少一种以下 氨基酸取代或氨基酸取代组 : G145A ; G145A 和 I225V ; P2L、 E50K、 G145A 和 A217T ; G145A 和 I199L。本文公开的这种改进的酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。改进的酮 还原酶在位置 P2、 E50、 G145、 I199、 A217 和 I225 的其他可用的氨基酸序列取代在以下公开。 在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 活性的至少约 1.5 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 2 的相对活性指定为 “++” ), 其中改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、
     91%、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相同的氨基酸序列, 且包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代 : N153G ; N153H ; G190A ; F260Y ; I91R ; K94R ; G145A ; I199N ; 或与 SEQ ID NO : 2 相比的以下氨基酸取代组 : K94R、 G145A 和 I199N。本文公开的这 种改进的酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以是 非保守取代、 保守取代、 或非保守取代和保守取代的组合。 改进的酮还原酶在位置 I91、 K94、 G145、 N153、 G190、 I199 和 F260 的其他可用的氨基酸序列取代在以下公开。 在一些实施方案 中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或 约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 活性的至少约 1.2 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 2 的相对活性指定为 “+” ), 其中 改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相同的氨基酸序列, 且包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代 : I199L ; A150G ; I91L ; I91W ; I91K ; 和 V144T ; 或与 SEQ ID NO : 2 相比的以下氨基酸取代组之一 : G145A ; A47V 和 I199M ; A150G 和 P231F。本文公开的 这种改进的酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以 是非保守取代、 保守取代、 或非保守取代和保守取代的组合。改进的酮还原酶在位置 A47、 I91、 V144、 G145、 A150、 I199 和 P231 的其他可用的氨基酸序列取代在以下公开。 在一些实施 方案中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供能够表现多肽 SEQ ID NO : 2 转化异丙醇为丙 酮方面活性的至少约 2 倍的相对活性的改进的酮还原酶多肽 ( 即, 基于以上表 3 的相对活 性指定为 “+” ), 其中改进的酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99 %相同的氨基酸序 列, 且包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代 : V144C、 G145A、 G145V、 A150S、 M200I、 V204F 或 I225V ; 或与 SEQ ID NO : A150I、 A150W、 G190P、 G190Q、 G190V、 I199G、 I199L、 2 相比的以下氨基酸取代组之一 : G145A、 I199L ; 或 G145A、 I225V。本文公开的这种改进的 酮还原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以是非保守取 代、 保守取代、 或非保守取代和保守取代的组合。改进的酮还原酶在位置 V144、 G145、 A150、 G190、 I199、 M200、 V204 和 I225 的其他可用的氨基酸序列取代在以下公开。 在一些实施方案 中, 这些酮还原酶多肽可在其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或 约 1-40 个突变。在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。因此, 在一些实施方案中, 本公开内容提供能够以比参考多肽 SEQ IDNO : 2 大至少 2 倍、 2.5 倍、 5 倍、 或 10 倍的活性氧化异丙醇 (IPA) 为丙酮的工程化的酮还原酶多肽, 其中 该多肽包括具有与选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的序列至 少 70%、 80%、 85%、 90%、 95%、 98%、 99%或更大的同一性的氨基酸序列。在一些实施方 案中, 工程化的多肽具有与选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的序列具有至少 95%的同一性的氨基酸序列。在一些实施方案中, 工程化的多肽具有选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的氨基酸序列。
     在一些实施方案中, 能够以比参考多肽 SEQ ID NO : 2 大至少 2 倍、 2.5 倍、 5 倍或 10 倍的活性氧化异丙醇 (IPA) 为丙酮的工程化的酮还原酶多肽具有包括至少一种以下特征 的氨基酸序列 : 对应于 SEQ ID NO : 2 的氨基酸 144 的残基是半胱氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基选自丙氨酸和缬氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 150 的 残基选自异亮氨酸、 丝氨酸和色氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 190 的残基选 自谷氨酰胺、 脯氨酸和缬氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 199 的残基选自甘 氨酸和亮氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 200 的残基是异亮氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 204 的残基是苯丙氨酸 ; 且对应于 SEQ ID NO : 2 的氨基酸 225 的残基是 缬氨酸。在某些实施方案中, 工程化的多肽的氨基酸序列包括与 SEQ ID NO : 2 相比的至少 一种以下取代 : V144C、 A150I、 A150S、 A150W、 G190P、 G190V、 M200I 和 V204F。在某些实施方 案中, 工程化的多肽的氨基酸序列包括与 SEQ ID NO : 2 相比的至少一种以下氨基酸取代组 : G145A 和 I199L ; G145A 和 I225V。
     在一些实施方案中, 工程化的酮还原酶多肽能够以比参考多肽 SEQ IDNO : 2 大至 少 5 倍的活性氧化异丙醇 (IPA) 为丙酮, 且其中氨基酸序列包括与 SEQ ID NO : 2 相比的至 少一种以下取代 : A150W、 M200I 和 G190V。
     在一些实施方案中, 本公开内容的酮还原酶多肽可具有与参考氨基酸序列相比或 与 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 或 80 任一种相比的一种或多种修 饰 ( 即, 残基差异 )。修饰可包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守 取代、 或非保守取代和保守取代的组合。 在一些实施方案中, 这些酮还原酶多肽可在其他氨 基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。 在一些实施方案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个其他氨基酸残基。
     在一些实施方案中, 本公开内容提供改进的酮还原酶多肽, 其包括与 SEQ ID NO : 2 至少约 70%、 71%、 72%、 73 %、 74 %、 75 %、 76%、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83%、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98 %或 99%相同的氨基酸序列, 且包括与 SEQ ID NO : 2 相比选自以下组成的组的至少一种氨基酸 取代 : 位置 2 的脯氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的 脂肪族或非极性氨基酸代替 ; 位置 28 的缬氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬 氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替 ; 位置 34 的丙氨酸残基 被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 47 的丙氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性 氨基酸代替 ; 位置 50 的谷氨酸残基被选自赖氨酸和精氨酸的碱性氨基酸代替 ; 位置 81 的 天冬氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 90 的 丝氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极 性氨基酸代替 ; 位置 91 的异亮氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨 酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替, 而在其他方面, 位置 91 的异亮氨酸 残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸, 或选自赖氨酸和精氨酸的碱性氨 基酸代替 ; 位置 94 的赖氨酸残基以保守改变被另一种碱性氨基酸精氨酸代替 ; 位置 112 的 天冬氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位置 117 的甘氨酸 残基被选自天冬氨酸和谷氨酸的酸性氨基酸代替 ; 位置 143 的丝氨酸残基被选自赖氨酸和 精氨酸的碱性氨基酸代替 ; 位置 144 的缬氨酸残基被半胱氨酸或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 145 的甘氨酸残基以保守或非保守改变, 可被选 自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甲硫氨酸的非极性氨基酸或选自丙氨酸、 亮氨酸、 缬 氨酸、 异亮氨酸的脂肪族氨基酸代替 ; 位置 148 的精氨酸残基被选自脯氨酸和组氨酸的受 限制的氨基酸代替 ; 位置 150 的丙氨酸残基以保守或非保守改变被选自亮氨酸、 缬氨酸、 异 亮氨酸、 甘氨酸和甲硫氨酸的另一种非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸, 或选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位 置 152 的苯丙氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非 极性或脂肪族氨基酸代替 ; 位置 153 的天冬酰胺残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮 氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸和脯氨酸的受限制的氨 基酸代替 ; 位置 158 的苏氨酸残基以保守改变被选自天冬酰胺、 谷氨酰胺和丝氨酸的另一 种极性氨基酸代替 ; 位置 190 的甘氨酸残基以保守或非保守改变被选自丙氨酸、 缬氨酸、 亮 氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨酰胺 和丝氨酸的极性氨基酸, 或脯氨酸代替 ; 位置 198 的丝氨酸残基以保守改变被选自天冬酰 胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替 ; 位置 199 的异亮氨酸残基以保守改变被 选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲硫氨酸的另一种脂肪族或非极性氨基酸, 或选自 天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 200 的甲硫氨酸残基以保 守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甘氨酸的另一种非极性氨基酸代替 ; 位 置 204 的缬氨酸以非保守改变被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位 置 217 的丙氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 225 的异亮氨酸残基以保守改变被选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的另一种非极性 氨基酸代替 ; 位置 231 的脯氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代 替; 位置 232 的丙氨酸残基以保守改变被选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲硫氨 酸的另一种非极性氨基酸代替 ; 位置 233 的谷氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸 和苏氨酸的极性氨基酸代替 ; 位置 244 的天冬氨酸残基被选自丙氨酸、 亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲硫氨酸的非极性氨基酸代替 ; 位置 260 的苯丙氨酸残基以保守改变被 选自酪氨酸和色氨酸的另一种芳香族氨基酸代替 ; 且位置 261 的丝氨酸残基以保守改变被 选自天冬酰胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替。以上改进的酮还原酶多肽还 可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸 残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰 的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个 其他氨基酸残基。
     在某些实施方案中, 本公开内容的改进的酮还原酶多肽包括与 SEQ IDNO : 2 至少 约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78%、 79%、 80%、 81%、 82%、 83%、 84%、 85%、 86%、 87%、 88%、 89%、 90%、 91%、 92%、 93%、 94%、 95%、 96%、 97%、 98%或 99%相 同的氨基酸序列, 并包括与 SEQ ID NO : 2 相比选自以下组成的组的至少一种氨基酸取代 : 位置 2 的脯氨酸残基被亮氨酸代替 (P2L) ; 位置 28 的缬氨酸残基被丙氨酸代替 (V28A) ; 位 置 34 的丙氨酸残基被丝氨酸代替 (A34S) ; 位置 47 的丙氨酸残基被缬氨酸代替 (A47V) ; 位置 50 的谷氨酸残基被赖氨酸代替 (E50K) ; 位置 81 的天冬氨酸残基被天冬酰胺代替 (D81N) ; 位置 90 的丝氨酸残基被缬氨酸代替 (S90V) ; 位置 91 的异亮氨酸残基被选自亮氨 酸 (I91L)、 色氨酸 (I91W)、 精氨酸 (I91R) 和赖氨酸 (I91K) 的氨基酸代替 ; 位置 94 的赖氨 酸残基被精氨酸代替 (K94R) ; 位置 112 的天冬氨酸残基被酪氨酸代替 (D112Y) ; 位置 117 的 甘氨酸残基被天冬氨酸代替 (G117D) ; 位置 143 的丝氨酸残基被精氨酸代替 (S143R) ; 位置 144 的缬氨酸残基被选自半胱氨酸 (V144C) 和苏氨酸 (V144T) 的氨基酸代替 ; 位置 145 的甘 氨酸残基被选自丙氨酸 (G145A) 和缬氨酸 (G145V) 的氨基酸代替 ; 位置 148 的精氨酸残基 被组氨酸代替 (R148H) ; 位置 150 的丙氨酸残基被选自甘氨酸 (A150G)、 异亮氨酸 (A150I)、 丝氨酸 (A150S) 和色氨酸 (A150W) 的氨基酸代替 ; 位置 152 的苯丙氨酸残基被亮氨酸代 替 (F152L) ; 位置 153 的天冬酰胺残基被选自甘氨酸 (N153G)、 缬氨酸 (N153V) 和组氨酸 (N153H) 的氨基酸代替 ; 位置 158 的苏氨酸残基被丝氨酸代替 (T158S) ; 位置 190 的甘氨酸 残基被选自丙氨酸 (G190A)、 脯氨酸 (G190P)、 谷氨酰胺 (G190Q) 和缬氨酸 (G190V) 的氨基 酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺代替 (S198N) ; 位置 199 的异亮氨酸残基被选自 甘氨酸 (I199G)、 甲硫氨酸 (I199M)、 亮氨酸 (I199L) 和天冬酰胺 (I199N) 的氨基酸代替 ; 位 置 200 的甲硫氨酸残基被异亮氨酸代替 (M200I) ; 位置 204 的缬氨酸残基被苯丙氨酸代替 (V204F) ; 位置 217 的丙氨酸残基被苏氨酸代替 (A217T) ; 位置 225 的异亮氨酸残基被缬氨 酸代替 (I225V) ; 位置 231 的脯氨酸残基被苯丙氨酸代替 (P231F) ; 位置 232 的丙氨酸残基 被缬氨酸代替 (A232V) ; 位置 233 的谷氨酸残基被谷氨酰胺代替 (E233Q) ; 位置 244 的天冬 氨酸残基被甘氨酸代替 (D244G) ; 位置 260 的苯丙氨酸残基被酪氨酸代替 (F260Y) ; 且位置 261 的丝氨酸残基被天冬酰胺代替 (S261N)。
     在某些实施方案中, 本公开内容的工程化的酮还原酶多肽包括选自以下组成的组 的氨基酸序列 : SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80。以上改进的酮还 原酶多肽还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在 其他氨基酸残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。 在一些实施方 案中, 修饰的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35或约 40 个其他氨基酸残基。
     在一些实施方案中, 改进的工程化的酮还原酶可包括天然存在的酮还原酶多肽的 缺失以及其他改进的酮还原酶多肽的缺失。在一些实施方案中, 本文所述的每种改进的工 程化的酮还原酶可包括本文所述的多肽的缺失。因此, 对于本公开内容的酮还原酶多肽的 每种和每个实施方案, 缺失可包括一个或多个氨基酸、 2 或多个氨基酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多个氨基酸、 8 或多个氨基酸、 10 或多个氨基酸、 15 或多 个氨基酸、 或 20 或多个氨基酸、 达还原酶多肽的氨基酸总数的 10%、 达氨基酸总数的 10%、 达氨基酸总数的 20%、 或达酮氨基酸总数的 30%, 只要保留酮还原酶活性的功能活性。在 一些实施方案中, 缺失可包括 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个氨基酸残基。
     如本文所述, 本公开内容的酮还原酶多肽可以融合多肽的形式, 其中酮还原酶多 肽与其他多肽诸如抗体标签 ( 如, myc 表位 ) 或纯化序列 ( 如, His 标签 ) 融合。因此, 酮还 原酶多肽可以与其他多肽融合或不与其他多肽融合地使用。
     在一些实施方案中, 改进的工程化的酮还原酶可包括对天然存在的酮还原酶多肽 添加或插入氨基酸序列以及对其他改进的酮还原酶多肽添加或插入氨基酸序列。 在具体实 施方案中, 本公开内容的酮还原酶多肽可例如, 在天然存在的酮还原酶多肽以及本公开内 容的改进的酮还原酶多肽的氨基端或羧基端包括 1-20、 2-15、 3-10、 4-8、 或 5-7 个另外的氨 基酸。对于本公开内容的酮还原酶多肽的每种和每个实施方案, 插入或添加可包括一个或 多个氨基酸、 2 或多个氨基酸、 3 或多个氨基酸、 4 或多个氨基酸、 5 或多个氨基酸、 6 或多个 氨基酸、 8 或多个氨基酸、 10 或多个氨基酸、 15 或多个氨基酸、 或 20 或多个氨基酸、 达酮还 原酶多肽的氨基酸总数的 10%、 达氨基酸总数的 10%、 达氨基酸总数的 20%、 或达氨基酸 总数的 30%, 只要保留酮还原酶活性的功能活性。在一些实施方案中, 插入或添加可包括 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个氨基酸残基。
     本文所述的多肽不受限于遗传编码的氨基酸。除了遗传编码的氨基酸以外, 本文 所述的多肽可以总体上或部分上由天然存在的和 / 或合成的非编码氨基酸组成。可组成 本文所述的多肽的某些常见非编码氨基酸可以包括但不限于 : 遗传编码的氨基酸的 D- 对 映异构体 ; 2, 3- 二氨基丙酸 (Dpr) ; α- 氨基异丁酸 (Aib) ; ε- 氨基己酸 (Aha) ; δ- 氨基 戊酸 (Ava) ; N- 甲基甘氨酸或肌氨酸 (MeGly 或 Sar) ; 鸟氨酸 (Orn) ; 瓜氨酸 (Cit) ; 叔丁 基丙氨酸 (Bua) ; 叔丁基甘氨酸 (Bug) ; N- 甲基异亮氨酸 (MeIle) ; 苯基甘氨酸 (Phg) ; 环 己基丙氨酸 (Cha) ; 正亮氨酸 (Nle) ; 萘基丙氨酸 (Nal) ; 2- 氯苯丙氨酸 (Ocf) ; 3- 氯苯丙 氨酸 (Mcf) ; 4- 氯苯丙氨酸 (Pcf) ; 2- 氟苯丙氨酸 (Off) ; 3- 氟苯丙氨酸 (Mff) ; 4- 氟苯丙 氨酸 (Pff) ; 2- 溴苯丙氨酸 (Obf) ; 3- 溴苯丙氨酸 (Mbf) ; 4- 溴苯丙氨酸 (Pbf) ; 2- 甲基苯 丙氨酸 (Omf) ; 3- 甲基苯丙氨酸 (Mmf) ; 4- 甲基苯丙氨酸 (Pmf) ; 2- 硝基苯丙氨酸 (Onf) ; 3- 硝基苯丙氨酸 (Mnf) ; 4- 硝基苯丙氨酸 (Pnf) ; 2- 氰基苯丙氨酸 (Ocf) ; 3- 氰基苯丙氨酸 (Mcf) ; 4- 氰基苯丙氨酸 (Pcf) ; 2- 三氟甲基苯丙氨酸 (Otf) ; 3- 三氟甲基苯丙氨酸 (Mtf) ; 4- 三氟甲基苯丙氨酸 (Ptf) ; 4- 氨基苯丙氨酸 (Paf) ; 4- 碘苯丙氨酸 (Pif) ; 4- 氨甲基苯 丙氨酸 (Pamf) ; 2, 4- 二氯苯丙氨酸 (Opef) ; 3, 4- 二氯苯丙氨酸 (Mpcf) ; 2, 4- 二氟苯丙氨 酸 (Opff) ; 3, 4- 二氟苯丙氨酸 (Mpff) ; 吡啶 -2- 基丙氨酸 (2pAla) ; 吡啶 -3- 基丙氨酸(3pAla) ; 吡啶 -4- 基丙氨酸 (4pAla) ; 萘 -1- 基丙氨酸 (1nAla) ; 萘 -2- 基丙氨酸 (2nAla) ; 噻唑基丙氨酸 (taAla) ; 苯并噻吩基丙氨酸 (bAla) ; 噻吩基丙氨酸 (tAla) ; 呋喃基丙氨酸 (fAla) ; 高苯丙氨酸 (hPhe) ; 高酪氨酸 (hTyr) ; 高色氨酸 (hTrp) ; 五氟苯丙氨酸 (5ff) ; 苯 乙烯基丙氨酸 (sAla) ; 蒽基丙氨酸 (aAla) ; 3, 3- 二苯丙氨酸 (Dfa) ; 3- 氨基 -5- 苯基戊酸 (Afp) ; 青霉胺 (Pen) ; 1, 2, 3, 4- 四氢异喹啉 -3- 羧酸 (Tic) ; β-2- 噻吩基丙氨酸 (Thi) ; 甲硫氨酸亚砜 (Mso) ; N(w)- 硝基精氨酸 (nArg) ; 高赖氨酸 (hLys) ; 膦酰基甲基苯丙氨酸 (pmPhe) ; 磷酸丝氨酸 (pSer) ; 磷酸苏氨酸 (pThr) ; 高天冬氨酸 (hAsp) ; 高谷氨酸 (hGlu) ; 1- 氨基环戊 -(2 或 3)- 烯 -4 羧酸 ; 哌可酸 (PA) ; 氮杂环丁烷 -3- 羧酸 (ACA) ; 1- 氨基环 戊烷 -3- 羧酸 ; 烯丙基甘氨酸 (aOly) ; 炔丙基甘氨酸 (pgGly) ; 高丙氨酸 (hAla) ; 正缬氨酸 (nVal) ; 高亮氨酸 (hLeu) ; 高缬氨酸 (hVal) ; 高异亮氨酸 (hIle) ; 高精氨酸 (hArg) ; N- 乙 酰赖氨酸 (AcLys) ; 2, 4- 氨基丁酸 (Dbu) ; 2, 3- 二氨基丁酸 (Dab) ; N- 甲基缬氨酸 (MeVal) ; 高半胱氨酸 (hCys) ; 高丝氨酸 (hSer) ; 羟基脯氨酸 (Hyp) 和高脯氨酸 (hPro)。本文所述 多肽可包含的另外的非编码氨基酸将对本领域技术人员是明显的 ( 参见, 例如, 在 Fasman, 1989, CRC Practical Handbookof Biochemistry and Molecular Biology(CRC 生物化学 和分子生物学实用手册 ), CRC Press, Boca Raton, FL, 在第 3-70 页及其中引用的参考文献 中提供的多种氨基酸, 该文献以及其中所引用的参考文献全部通过引用并入本文 )。 这些氨 基酸可以处于 L- 构型或 D- 构型。
     本领域技术人员将认识到, 带有侧链保护基的氨基酸或残基也可以构成本文所述 的多肽。在这种情况下属于芳香族类别的这些受保护的氨基酸的非限制性实例包括 ( 在 圆括号中列出保护基 ) 但不限于 : Arg(tos)、 Cys( 甲苄基 )、 Cys( 硝基吡啶亚氧硫基 )、 Glu(δ- 苄基酯 )、 Gln( 呫吨基 )、 Asn(N-δ- 呫吨基 )、 His(bom)、 His( 苄基 )、 His(tos)、 Lys(fmoc)、 Lys(tos)、 Ser(O- 苄基 )、 Thr(O- 苄基 ) 和 Tyr(O- 苄基 )。
     可构成本文所述多肽的构型上受限制的非编码氨基酸包括但不限于 N- 甲基氨基 酸 (L- 构型 ) ; 1- 氨基酸环戊 -(2 或 3)- 烯 -4- 羧酸 ; 哌可酸 ; 氮杂环丁烷 -3- 羧酸 ; 高脯 氨酸 (hPro) ; 以及 1- 氨基环戊烷 -3- 羧酸。
     如上所述, 被引入天然存在的多肽以产生工程化酮还原酶的各种修饰可以被定向 至该酶的具体特性。
     5.3 编码工程化酮还原酶的多核苷酸
     另一方面, 本公开内容提供了编码工程化的酮还原酶的多核苷酸。可以将所述多 核苷酸可操作地连接至控制基因表达的一种或多种异源调节序列以产生能够表达该多肽 的重组多核苷酸。 可以将包含编码工程化酮还原酶的异源多核苷酸的表达构建体引入适当 的宿主细胞中来表达对应的酮还原酶多肽。
     由于对各种氨基酸所对应的密码子的了解, 蛋白序列的可用性提供了对能够编码 该主题的所有多核苷酸的描述。 相同氨基酸由替代的或同义的密码子编码的遗传密码的简 并性允许极大数目的核酸被制出, 所有这些核酸编码本文所公开的改进的酮还原酶。 因此, 如果已识别了具体的氨基酸序列, 本领域技术人员能够以不改变蛋白的氨基酸序列的方式 通过仅仅变更序列的一个或更多个密码子来制出任意数目的不同核酸。在这点上, 本公开 内容明确涵盖可通过选择基于可能的密码子选择的组合制出的多核苷酸的每一种可能的 改变, 并且所有这些改变将被认为对本文公开的任何多肽明确地公开, 所述本文公开的任何多肽包括在表 2 中提供的氨基酸序列。
     在一些实施方案中, 多核苷酸包括编码以下酮还原酶多肽的核苷酸序列, 该酮还 原酶多肽的氨基酸序列与本文所述的任何一种工程化的酮还原酶多肽, 即, 包括选自 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 组成的组的氨基酸序列的多肽, 具有 至少约 80%或更大序列同一性、 至少 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78%、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94%、 95%、 96%、 97%、 98%或 99%同一性、 或更大序列同一性。
     在多个实施方案中, 优选地选择密码子以适合在其中产生蛋白的宿主细胞。例 如, 在细菌中使用的偏爱密码子用于在细菌中表达基因 ; 在酵母中使用的偏爱密码子 用于酵母中的表达 ; 并且在哺乳动物中使用的偏爱密码子用于哺乳动物细胞中的表 达。例如, 多核苷酸 SEQ ID NO : 1 可被密码子优化以在大肠杆菌中表达, 但另外地编码 Novosphingobiumaromaticivorans 的天然存在的酮还原酶。
     在一些实施方案中, 不必替换所有密码子来优化酮还原酶的密码子使用, 由于天 然序列将包括偏爱密码子并且因为偏爱密码子的使用可能并不是所有氨基酸残基所需的。 因此, 编码酮还原酶的密码子优化的多核苷酸可以在全长编码区的约 40 %、 50 %、 60 %、 70%、 80%或大于 90%的密码子位置包含偏爱密码子。 在一些实施方案中, 编码工程化的酮还原酶的多核苷酸选自 SEQ IDNO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79。在一些实施方案中, 编码工程化的酮还原酶的多核苷 酸能够在高度严格条件下与包括 SEQ ID NO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79 的多核苷酸杂交。这些多核苷酸编码由表 2 和表 3 列出的氨基酸序列代表的一些多肽。
     在其他实施方案中, 多核苷酸包括编码本文所述的多肽, 但在核苷酸水平与编码 工程化的酮还原酶的参考多核苷酸具有约 80%或更大序列同一性、 约 85%或更大序列同 一性、 约 90%或更大序列同一性、 约 95%或更大序列同一性、 约 98%或更大序列同一性、 或 99%或更大序列同一性的多核苷酸。在一些实施方案中, 参考多核苷酸选自由 SEQ ID NO : 3、 5、 7、 9、 11、 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33、 35、 37、 39、 41、 43、 45、 47、 49、 51、 53、 55、 57、 59、 61、 63、 65、 67、 69、 71、 73、 75、 77 和 79 代表的多核苷酸序列。
     可以用多种方式操作编码改进的酮还原酶多肽的分离的多核苷酸以提供该多肽 的表达。取决于表达载体, 所分离的多核苷酸在其插入载体中之前的操作可能是令人期 望的或必要的。利用重组 DNA 方法修饰多核苷酸和核酸序列的技术是本领域公知的。在 Sambrook 等人, 2001, MolecularCloning : A Laboratory Manual( 分子克隆实验室指南 ), 第 3 版, Cold SpringHarbor Laboratory Press ; 以及 Current Protocols in Molecular Biology( 分子生物学最新实验方案 ), Ausubel.F. 编, Greene Pub.Associates, 1998, 更新 至 2006 中提供了指导。
    对于细菌宿主细胞, 用于指导本公开内容的核酸构建体转录的适宜启动子包 括 从 大 肠 杆 菌 lac 操 纵 子、 天 蓝 色 链 霉 菌 (Streptomyces coelicolor) 琼 脂 糖 酶 基 因 (dagA)、 枯 草 芽 孢 杆 菌 (Bacillus subtilis) 果 聚 糖 蔗 糖 酶 基 因 (sacB)、 地衣芽孢杆
     菌 (Bacillus licheniformis)α- 淀 粉 酶 基 因 (amyL)、 嗜 热 脂 肪 芽 孢 杆 菌 (Bacillus stearothermophilus) 生 麦 芽 糖 淀 粉 酶 基 因 (amyM)、 解 淀 粉 芽 孢 杆 菌 (Bacillus amyloliquefaciens)α- 淀粉酶基因 (amyQ)、 地衣芽孢杆菌青霉素酶基因 (penP)、 枯草芽 孢杆菌 xylA 基因和 xylB 基因、 以及原核 β- 内酰胺酶基因 (Villa-Kamaroff 等人, 1978, Proc.Natl Acad.Sci.USA 75 : 3727-3731) 获得的启动子以及 tac 启动子 (DeBoer 等人, 1983, Proc.Natl Acad.Sci.USA 80 : 21-25)。
     对于丝状真菌宿主细胞而言, 用于指导本公开内容的核酸构建体转录的适宜启动 子包括从米曲霉 (Aspergillus oryzae)TAKA 淀粉酶、 米黑根毛霉 (Rhizomucor miehei) 天 冬氨酸蛋白酶、 黑曲霉 (Aspergillus niger) 中性 α- 淀粉酶、 黑曲霉酸稳定的 α- 淀粉酶、 黑曲霉或泡盛曲霉 (Aspergillusawamori) 葡萄糖淀粉酶 (glaA)、 米黑根毛霉脂肪酶、 米曲 霉碱性蛋白酶、 米曲霉磷酸丙糖异构酶、 构巢曲霉 (Aspergillus nidulans) 乙酰胺酶和尖 孢镰刀菌 (Fusarium oxysporum) 胰蛋白酶样蛋白酶 (WO 96/00787) 的基因获得的启动子 以及 NA2-tpi 启动子 ( 来自黑曲霉中性 α- 淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启 动子的杂合体 ), 和它们突变的、 截短的及杂合的启动子。
     在酵母宿主中, 有用的启动子可以来自酿酒酵母 (Saccharomycescerevisiae) 烯 醇化酶 (ENO-1)、 酿酒酵母半乳糖激酶 (GAL1)、 酿酒酵母醇脱氢酶 / 甘油醛 -3- 磷酸脱氢 酶 (ADH2/GAP) 以及酿酒酵母 3- 磷酸甘油酸酯激酶的基因。Romanos 等人, 1992, Yeast 8 : 423-488 描述了酵母宿主细胞其他有用的启动子。
     控制序列也可以是适宜的转录终止子序列, 即由宿主细胞识别的终止转录的序 列。终止子序列被可操作地连接于编码多肽的核酸序列的 3′端。在本发明中可以使用在 选择的宿主细胞中有功能的任何终止子。
     例如, 丝状真菌宿主细胞的示例性转录终止子可以从米曲霉 TAKA 淀粉酶、 黑曲霉 葡萄糖淀粉酶、 构巢曲霉邻氨基苯甲酸合酶、 黑曲霉 α- 葡糖苷酶和尖孢镰刀菌胰蛋白酶 样蛋白酶的基因中获得。
     酵母宿主细胞的示例性终止子可以从酿酒酵母烯醇化酶、 酿酒酵母细胞色素 C(CYC1) 和酿酒酵母甘油醛 -3- 磷酸脱氢酶的基因中获得。上述 Romanos 等人, 1992 对酵 母宿主细胞其他有用的终止子进行了描述。
     控制序列也可以是适宜的前导序列, 一种对宿主细胞翻译而言重要的 mRNA 的非 翻译区。前导序列被可操作地连接于编码多肽的核酸序列的 5′端。可以使用在选择的宿 主细胞中有功能的任何前导序列。丝状真菌宿主细胞的示例性前导序列是从米曲霉 TAKA 淀粉酶和构巢曲霉磷酸丙糖异构酶的基因中获得。 酵母宿主细胞适宜的前导序列是从酿酒 酵母烯醇化酶 (ENO-1)、 酿酒酵母 3- 磷酸甘油酸激酶、 酿酒酵母 α- 因子以及酿酒酵母醇脱 氢酶 / 甘油醛 -3- 磷酸脱氢酶 (ADH2/GAP) 的基因中获得。
     控制序列也可以是聚腺苷酸化序列, 即可操作地连接于核酸序列的 3′端并且当 转录时被宿主细胞识别为向转录的 mRNA 添加聚腺苷残基的信号的序列。在本发明中可以 使用在选择的宿主细胞中有功能的任何聚腺苷酸化序列。丝状真菌宿主细胞的示例性聚 腺苷酸化序列可以从米曲霉 TAKA 淀粉酶、 黑曲霉葡萄糖淀粉酶、 构巢曲霉邻氨基苯甲酸合 酶、 尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉 α- 葡糖苷酶的基因中获得。Guo 和 Sherman, 1995, Mol Cell Bio 15 : 5983-5990 描述了酵母宿主细胞的有用的聚腺苷酸化序列。控制序列也可以是编码与多肽的氨基端连接的氨基酸序列并引导该编码多肽进 入细胞分泌途径的信号肽编码区。核酸序列的编码序列的 5′端可以固有地包含翻译阅读 框中与编码分泌的多肽的编码区区段天然连接的信号肽编码区。 可选地, 编码序列的 5′端 可以包含对编码序列而言为外来的信号肽编码区。 在编码序列天然不包含信号肽编码区时 可能需要外来的信号肽编码区。
     可选地, 外来的信号肽编码区可仅仅代替天然信号肽编码区以增强多肽的分泌。 然而, 引导表达的多肽进入所选宿主细胞的分泌途径的任何信号肽编码区可用在本发明 中。
     细菌宿主细胞有效的信号肽编码区是从芽孢杆菌 NClB 11837 生麦芽糖淀粉酶、 嗜热脂肪芽孢杆菌 α- 淀粉酶、 地衣芽孢杆菌枯草杆菌蛋白酶、 地衣芽孢杆菌 β- 内酰胺 酶、 嗜热脂肪芽孢杆菌中性蛋白酶 (nprT、 nprS、 nprM) 和枯草芽孢杆菌 prsA 的基因中获得 的信号肽编码区。Simonen 和 Palva, 1993, Microbiol Rev 57 : 109-137 描述了其他的信号 肽。
     丝状真菌宿主细胞有效的信号肽编码区可以是从米曲霉 TAKA 淀粉酶、 黑曲霉 中性淀粉酶、 黑曲霉葡萄糖淀粉酶、 米黑根毛霉天冬氨酸蛋白酶、 特异腐质霉 (Humicola insolens) 纤维素酶以及柔毛腐质酶 (Humicolalanuginosa) 脂肪酶的基因中获得的信号 肽编码区。
     酵母宿主细胞有用的信号肽可以来自酿酒酵母 α- 因子和酿酒酵母转化酶的基 因。上述 Romanos 等人, 1992 对其他有用的信号肽编码区进行了描述。
     控制序列也可以是编码位于多肽氨基端的氨基酸序列的前肽编码区。生成的 多 肽 被 称 为 酶 原 (proenzyme) 或 多 肽 原 ( 或 在 某 些 情 况 下 称 为 酶 原 (zymogen))。 多 肽原一般是无活性的, 并且可以通过前肽从多肽原的催化裂解或自身催化裂解转化为 成熟的活性多肽。前肽编码区可以从枯草芽孢杆菌碱性蛋白酶 (aprE)、 枯草芽孢杆 菌中性蛋白酶 (nprT)、 酿酒酵母 α- 因子、 米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉 (Myceliophthorathermophila) 乳糖酶的基因获得 (WO 95/33836)。
     在信号肽和前肽区都存在于多肽的氨基端时, 前肽区被定位于紧挨着多肽的氨基 端并且信号肽区被定位于紧挨着前肽区的氨基端。
     添加调节序列可能也是令人期望的, 所述调节序列允许相对于宿主细胞的生长调 节多肽的表达。调节系统的实例是响应于化学刺激或物理刺激 ( 包括调节化合物的存在 ) 而促使基因的表达被打开或关闭的那些调节系统。在原核宿主细胞中, 适宜的调节序列包 括 lac、 tac 以及 trp 操纵子系统。在酵母宿主细胞中, 适宜的调节系统包括, 例如 ADH2 系 统或 GAL1 系统。在丝状真菌中, 适宜的调节序列包括 TAKA α- 淀粉酶启动子、 黑曲霉葡萄 糖淀粉酶启动子以及米曲霉葡萄糖淀粉酶启动子。
     调节序列的其他实例是那些允许基因扩增的调节序列。在真核系统中, 这些调节 序列包括在甲氨蝶呤的存在下扩增的二氢叶酸还原酶基因和用重金属扩增的金属硫蛋白 基因。在这些情况下, 编码本发明的 KRED 多肽的核酸序列将与调节序列可操作地连接。
     因此, 在另一个实施方案中, 本公开内容也涉及重组表达载体, 所述重组表达载体 包含编码工程化酮还原酶多肽或其变体的多核苷酸以及一个或更多个表达调节区, 诸如启 动子和终止子、 复制起点等等, 这取决于表达调节区被引入的宿主的类型。 可以将上述多种核酸和控制序列连接在一起产生重组表达载体, 所述重组表达载体可以包括一个或更多个 便利的限制性位点以允许在这些位点插入或取代编码多肽的核酸序列。可选地, 本公开内 容的核酸序列可以通过将该核酸序列或包含该序列的核酸构建体插入用于表达的适当载 体中来表达。在表达载体的创建中, 编码序列位于载体中以使得该编码序列与用于表达的 适当的控制序列可操作地连接。
     重组表达载体可以是能够便利地进行重组 DNA 步骤并且能够导致多核苷酸序列 表达的任何载体 ( 例如质粒或病毒 )。载体的选择将通常取决于载体与该载体要引入的宿 主细胞的相容性。载体可以是线性质粒或闭合环状质粒。
     表达载体可以是自主复制的载体, 即作为染色体外的实体而存在、 其复制独立于 染色体复制的载体, 例如质粒、 染色体外的元件、 微型染色体或人工染色体。载体可以包含 用于确保自我复制的任何手段。可选地, 载体可以是在引入宿主细胞中时被整合到基因组 并与它所整合的染色体一起复制的载体。 此外, 可以使用单种载体或质粒, 或者一起包含要 引入到宿主细胞基因组中的总 DNA 的两种或更多种载体或质粒, 或转座子。
     本发明的表达载体优选地包含一种或多种选择性标记, 所述选择性标记使得容易 选择转化的细胞。 选择性标记是一种基因, 其产物提供了杀生物剂抗性或病毒抗性、 对重金 属的耐受性、 针对营养缺陷型的原养型等。细菌的选择性标记的实例是来自枯草芽孢杆菌 或地衣芽孢杆菌的 dal 基因, 或是赋予抗生素抗性诸如氨苄西林、 卡那霉素、 氯霉素或四环 素抗性的标记。酵母宿主细胞的适宜标记是 ADE2、 HIS3、 LEU2、 LYS2、 MET3、 TRP1 和 URA3。
     在丝状真菌宿主细胞中使用的选择性标记包括但不限于 amdS( 乙酰胺酶 )、 argB( 鸟氨酸氨基甲酰基转移酶 )、 bar( 草丁膦乙酰转移酶 )、 hph( 潮霉素磷酸转移酶 )、 niaD( 硝酸盐还原酶 )、 pyrG( 乳清酸核苷 -5 ′ - 磷酸脱羧酶 )、 cysC( 硫酸腺苷酰转移 酶 )、 以及 trpC( 邻氨基苯甲酸合酶 ) 以及它们的等同物。在曲霉属细胞中使用的实施 方案包括构巢曲霉或米曲霉的 amdS 基因和 pyrG 基因, 以及吸水链霉菌 (Streptomyces hygroscopicus) 的 bar 基因。
     本发明的表达载体优选地包含允许载体整合到宿主细胞基因组中或允许该载体 在细胞中独立于基因组而自主复制的元件。对于整合到宿主细胞基因组中, 载体可以依赖 于编码多肽的核酸序列或载体的任何其他元件通过同源重组或非同源重组将载体整合到 基因组中。
     可选地, 表达载体可以包含用于指导通过同源重组整合到宿主细胞基因组中的另 外的核酸序列。 所述另外的核酸序列使载体能够在染色体中的精确位置被整合到宿主细胞 基因组中。为了提高在精确位置整合的可能性, 整合元件应该优选地包含与对应的靶序列 高度同源的数目足够的核酸, 诸如 100 到 10,000 个碱基对, 优选 400 到 10,000 个碱基对, 以及最优选 800 到 10,000 个碱基对, 以增强同源重组的机率。整合元件可以是与宿主细胞 的基因组中的靶序列同源的任何序列。此外, 整合元件可以是非编码核酸序列或编码核酸 序列。另一方面, 可以通过非同源重组将载体整合到宿主细胞的基因组中。
     对于自主复制, 载体还可以包括使该载体能在要考虑的宿主细胞中自主复制的复 制起点。细菌复制起点的实例是允许在大肠杆菌中复制的 P15Aori、 或质粒 pBR322、 pUC19、 pACYC177( 该质粒具有 P15A ori) 或质粒 pACYC184 的复制起点, 以及允许在芽孢杆菌中复 制的 pUB110、 pE194、 pTA1060 或 pAMβ1 的复制起点。在酵母宿主细胞中使用的复制起点的实例是 2 微米复制起点 ARS1、 ARS4, ARS1 和 CEN3 的组合, 以及 ARS4 和 CEN6 的组合。复 制起点可以是具有突变的复制起点, 所述突变使其在宿主细胞中以温度敏感的方式起作用 ( 参见, 例如 Ehrlich, 1978, Proc NatlAcad Sci.USA 75 : 1433)。
     可以将多于一个拷贝的本发明的核酸序列插入宿主细胞中以提高基因产物的生 产量。核酸序列拷贝数的增加可以通过如下方式获得 : 通过将该序列的至少一个另外拷贝 整合到宿主细胞基因组中, 或者通过使该核酸序列包括可扩增的选择性标记基因, 其中可 以通过在适当选择剂的存在下培养细胞来选择包含该选择性标记基因的扩增拷贝和由此 包含该核酸序列的另外拷贝的细胞。
     在本发明中使用的许多表达载体可商购获得。适宜的商业表达载体包括来自 Sigma-Aldrich Chemicals, St.Louis MO. 的 p3xFLAGTMTM 表达载体, 它包括用于在哺乳 动物宿主细胞中表达的 CMV 启动子和 hGH 多腺苷酸化位点以及用于在大肠杆菌中扩增 的 pBR322 复制起点和氨苄西林抗性标记。其他适宜的表达载体是可以从 Stratagene, LaJolla CA 商 购 获 得 的 pBluescriptII SK(-) 和 pBK-CMV, 以 及 源 自 于 pBR322(Gibco BRL)、 pUC(Gibco BRL)、 pREP4、 pCEP4(Invitrogen) 或 pPoly(Lathe 等 人, 1987, Gene57 : 193-201) 的质粒。
     5.4 用于表达酮还原酶多肽的宿主细胞
     另一方面, 本公开内容提供了包含编码本公开内容的改进酮还原酶多肽的多核苷 酸的宿主细胞, 该多核苷酸与用于在该宿主细胞中表达酮还原酶的一个或更多个控制序列 可操作地连接。在由本发明的表达载体所编码的 KRED 多肽的表达中使用的宿主细胞是本 领域公知的并且包括但不限于 : 细菌细胞, 诸如大肠杆菌、 乳杆菌属、 链霉菌属和鼠伤寒沙 门氏菌 (Salmonella typhimurium) 的细胞 ; 真菌细胞, 诸如酵母细胞 ( 例如, 酿酒酵母或巴 斯德毕赤酵母 (Pichia pastorts)(ATCC 获取号 201178)) ; 昆虫细胞诸如果蝇 S2 细胞和夜 蛾 (Spodoptera)Sf9 细胞 ; 动物细胞诸如 CHO、 COS、 BHK、 293 和 Bowes 黑色素瘤细胞 ; 以及 植物细胞。用于上述宿主细胞的适当培养基和生长条件是本领域公知的。因此, 在一些实 施方案中, 本文公开的工程化的酮还原酶多肽可通过标准方法制备, 包括培养包含含编码 多肽的多核苷酸的适当表达载体的宿主细胞。
     可以通过本领域已知的多种方法将用于表达酮还原酶的多核苷酸引入细胞中。 技 术包括但不限于电穿孔、 生物射弹粒子轰击、 脂质体介导的转染、 氯化钙转染和原生质体融 合。用于将多核苷酸引入细胞中的多种方法将对技术人员是明显的。
     示例性宿主细胞是大肠杆菌 W3110。另一种示例性宿主细胞是大肠杆菌 BL21。通 过将编码改进的酮还原酶的多核苷酸可操作地连入质粒 pCK110900( 参见, 美国申请公布 20040137585) 而产生表达载体, 该多核苷酸与在 lacI 阻抑物的控制下的 lac 启动子可操作 地连接。该表达载体还包含 P15a 复制起点和氯霉素抗性基因。通过对在大肠杆菌 W3110 或 BL21 中包含主题多核苷酸的细胞进行氯霉素选择来分离这些细胞。
     5.5 产生工程化的酮还原酶多肽的方法
     在一些实施方案中, 为了制备本公开内容的改进的 KRED 多核苷酸和多肽, 从 Novosphingobium aromaticivorans 获得 ( 或衍生 ) 催化还原反应的天然存在的酮还原酶。 在一些实施方案中, 母体多核苷酸序列被密码子优化以增强酮还原酶在指定宿主细胞中的 表达。作为例证, 编码 Novosphingobium aromaticivorans 野生型 KRED 多肽的亲本多核苷酸序列 (SEQ ID NO : 1), 可基于该序列从寡核苷酸组装, 或从包含密码子优化的编码序列的 寡核苷酸组装以在指定宿主细胞如大肠杆菌宿主细胞中表达。在一个实施方案中, 多核苷 酸可被克隆到表达载体中, 放置酮还原酶基因的表达在 lac 启动子和 lacI 阻遏基因的控制 下。可鉴定在大肠杆菌中表达活性酮还原酶的克隆, 对基因测序以证实其身份。
     如上所述, 通过使编码天然存在的酮还原酶的多核苷酸经历诱变和 / 或定向进化 方法, 可以获得工程化酮还原酶。示例性定向进化技术是如在 Stemmer, 1994, Proc Natl Acad Sci USA 91 : 10747-10751 ; WO 95/22625 ; WO97/0078 ; WO 97/35966 ; WO 98/27230 ; WO 00/42651 ; WO 01/75767 和美国专利 6,537,746 中所述的诱变和 / 或 DNA 改组。其他可 以使用的定向进化方案包括但不限于 : 交错延伸过程 (StEP)、 体外重组 (Zhao 等人, 1998, Nat.Biotechnol.16 : 258-261)、诱 变 PCR(Caldwell 等 人, 1994, PCR Methods Appl.3 : S136-S140) 和盒式诱变 (Black 等人, 1996, Proc Natl Acad Sci USA93 : 3525-3529)。
     筛选按照诱变处理获得的克隆中具有期望的改进的酶特性的工程化的酮还原酶。 测量表达文库的酶活性可利用监测 NADH 或 NADPH 浓度因为被转化为 NAD+ 或 NADP+ 而降低 的比率 ( 由吸光度或荧光的降低 ) 的标准生化技术进行。 在这一反应中, 随着酮还原酶还原 酮底物为相应的羟基, NADH 或 NADPH 被酮还原酶消耗 ( 氧化 )。由吸光度或荧光降低测量 的每单位时间 NADH 或 NADPH 浓度的降低率, 指示在固定量的裂解物 ( 或由其制成的冻干粉 末 ) 中 KRED 多肽的相对 ( 酶 ) 活性。在期望的改进酶特性是热稳定性的情况下, 可以在使 酶制品经历限定的温度并测量热处理后剩余的酶活性的量之后测量酶活性。 然后对包含编 码酮还原酶的多核苷酸的克隆进行分离, 测序, 以识别核苷酸序列的改变 ( 如果有的话 ), 并将这些克隆用于在宿主细胞中表达酶。
     在工程化多肽的序列为已知的情况下, 可以根据已知的合成方法通过标准固相方 法制备编码酶的多核苷酸。在一些实施方案中, 高达大约 100 个碱基的片段能够单独合成, 然后连接 ( 例如, 通过酶连接或化学连接方法或聚合酶介导的方法 ) 形成任何期望的连续 序列。例如, 可以使用例如由 Beaucage 等人, 1981, Tet Lett 22 : 1859-69 所描述的经典亚 磷酰胺方法或由 Matthes 等人, 1984, EMBO J.3 : 801-05 所描述的方法 ( 例如, 像它通常在自 动化合成方法中实施的那样 ) 通过化学合成来制备本发明的多核苷酸和寡核苷酸。根据亚 磷酰胺方法, 例如在自动化 DNA 合成器中合成寡核苷酸, 纯化, 退火, 连接并克隆在适当载 体中。此外, 基本上任何核酸都可以从各种商业来源中的任何一种获得, 诸如 The Midland CertifiedReagent Company, Midland, TX、 The Great American Gene Company, Ramona, CA、 ExpressGen Inc.Chicago, IL、 Operon Technologies Inc., Alameda, CA 以及许多其他 来源。
     在宿主细胞中表达的工程化酮还原酶可以使用任何一种或多种公知的蛋白质纯 化技术从这些细胞中和或培养基中回收, 所述公知的蛋白质纯化技术包括但不限于溶菌酶 处理、 超声处理、 过滤、 盐析、 超离心和色谱。 用于裂解和从细菌诸如大肠杆菌中高效提取蛋 白的适宜溶液是从 St.LouisMO 的 Sigma-Aldrich 以商标名 CelLytic BTM 可商业途径获得 的。因此, 在一些实施方案中, 本文公开的工程化的酮还原酶多肽可由标准方法制备, 包括 培养包括含编码多肽的多核苷酸的适当表达载体的宿主细胞, 并从宿主细胞分离多肽。 用于分离酮还原酶多肽的色谱技术包括但不限于反相色谱、 高效液相色谱、 离子 交换色谱、 凝胶电泳和亲和色谱。 用于纯化特定酶的条件将部分取决于如下因素 : 诸如净电
     荷、 疏水性、 亲水性、 分子量、 分子形状等等, 并且将对本领域技术人员是明显的。
     在一些实施方案中, 亲和技术可以用于分离改进的酮还原酶。 对于亲和色谱纯化, 可以使用特异性结合酮还原酶多肽的任何抗体。对于抗体的产生, 可以通过用本公开内容 的多肽注射来免疫多种宿主动物, 包括但不限于兔、 小鼠、 大鼠等等。可以将该多肽与适宜 载体 ( 诸如 BSA) 通过侧链官能基团或与侧链官能基团相连的连接物相连。多种佐剂可根 据宿主物种用于提高免疫应答, 包括但不限于弗氏 ( 完全或不完全 ) 佐剂, 矿物凝胶诸如 氢氧化铝, 表面活性物质诸如溶血卵磷脂, 多聚醇, 聚阴离子, 肽, 油乳剂, 匙孔血蓝蛋白, 二 硝基苯酚, 以及可能有用的人佐剂诸如 BCG( 卡介苗 ) 和短小棒状杆菌 (Corynebacterium parvum)。
     5.6 利用工程化酮还原酶的方法和以此制备的化合物
     本文所述的酮还原酶可催化式 (I) 化合物 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基 丁 -2- 酮 (“底 物” )( 如 化 合 物 (1), 其 中 保 护 基 是 BOC 部 分 ) 对 映 体 特 异 性 (enantiospecific) 还原为相应的式 (II) 化合物立体异构醇产物 N- 保护的 (2R, 3S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2)), 如方案 1 所示 ( 参见以上 )。
     在一些实施方案中, 本发明提供在 N- 保护的 (R)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮 化合物与 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮的混合物中立体特异性地富集 N- 保护的 (R)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮化合物的方法, 该方法通过在适于产生手性 醇产物 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇的反应条件下将混合物与本文 公开的酮还原酶多肽接触或培养, 而还原混合物中 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基 丁 -2- 酮化合物, 如方案 5 的反应所示 ( 参见以上 )。因此, 在一些实施方案中, 具有改进的 立体特异性 ( 与 SEQID NO : 2 相比 ) 的本公开内容的酮还原酶多肽可用于拆分手性 α- 氯 代酮化合物的混合物。
     在该方法的一些实施方案中, 当以大于或等于 200g/L 底物和少于或等于 2g/L 酮 还原酶 ( 但多于 0g/L 酶 ) 进行该方法时, 在少于 24、 23、 22、 21、 20、 19、 18、 17、 16、 15、 14、 13、 12、 11、 10、 9、 8 或 7 小时内至少约 45%的外消旋底物混合物被还原为产物。
     利用本文公开的酮还原酶转化式 (I) 化合物为手性氯代醇式 (II) 化合物的方法 表现比已知方法的实质改进, 部分是因为所得的高产率 ( 如, 在少于 24 小时内转化率> 80%或更大 )、 高纯度 ( 如, > 99% d.e.) 和有利的溶剂系统, 这允许制备式 (II) 化合物并 利用其作为随后反应的反应物的 “压缩 (telescoped)” 反应。
     在该方法的一些实施方案中, 产物具有大于约 90%、 95%、 97%、 98%、 99%或甚至 更大非对映体过量的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇。
     在该方法的一些实施方案中, 当以大于约 100g/L 底物和少于约 5g/L 多肽进行该 方法时, 在少于约 24 小时内约 95%的底物被转化为产物。
     在该方法的一些实施方案中, 在少于约 24 小时、 20 小时、 12 小时、 8 小时、 或甚至更 短时间内至少约 90%、 95%、 97%、 98%或更多式 (I) 化合物被转化为式 (II) 化合物。
     在该方法的一些实施方案中, 在少于约 24 小时内至少约 95%的式 (I) 化合物被转 化为式 (II) 化合物, 其中式 (I) 化合物浓度是至少约 150g/L 且多肽浓度是少于约 1g/L。
     在某些实施方案中, 本公开内容还提供制备式 (III) 化合物环氧化物的方法, 该 方法按照以上所示的方案 3 和 4, 通过利用本公开内容的酮还原酶转化式 (I) 化合物为式(II) 化合物手性氯代醇 ( 如, 化合物 (2)), 然后环化式 (II) 化合物为式 (III) 化合物环氧 化物 ( 如, 化合物 (3))。这一转化可通过如下非常有效地进行 : 用适当溶剂 ( 如, MTBE) 萃 取含式 (II) 化合物的粗制酶促反应混合物, 并将这一萃取物与适当的碱 ( 如, KOH) 接触。
     在本文提供的方法的某些实施方案中, 碱选自氢氧化钾 (KOH)、 叔丁醇钾、 碳酸钾 和三乙胺。
     在某些实施方案中, 化合物 (3) 的制备可如下进行 : 通过将 MTBE 中的 0.3M 化合物 (2)( 如, 酮还原酶反应混合物的粗制萃取物 ) 与 MTBE 溶液中的 0.6M KOH( 或其他适当的 碱 ) 反应。这一反应在 5 小时内达到> 99%转化为化合物 (3) 环氧化物, 在 8 小时内达到 99.9%转化 ( 由 HPLC 确定 )。
     在某些实施方案中, 制备本公开内容的式 (III) 化合物的方法包括以下步骤 : 用 有机溶剂萃取酶反应混合物, 并将有机溶剂萃取物与碱接触。 在某些实施方案中, 进行该方 法, 其中进行将式 (II) 化合物与碱接触的所述步骤而不首先纯化和 / 或分离式 (II) 化合 物 ( 如, “压缩 (telescoped)” 反应或 “一锅法 (one-pot)” 反应 )。
     因此, 在一些实施方案中, 本公开内容提供制备式 (III) 化合物 ( 如, 化合物 (3)) 的方法, 包括利用本公开内容的酮还原酶转化式 (I) 化合物为式 (II) 化合物 ( 如, 化合物 (2)) 的步骤。 在制备式 (III) 化合物的一些实施方案中, 该方法还包括将式 (II) 化合物与 碱接触的步骤。在某些实施方案中, 进行该方法, 其中进行将式 (II) 化合物与碱接触的所 述步骤而不首先纯化和 / 或分离式 (II) 化合物。
     在某些实施方案中, 该方法还包括用结晶溶剂交换 ( 或更换 ) 有机溶剂萃取物 的有机溶剂, 并从结晶溶剂结晶式 (III) 化合物。在某些实施方案中, 有机溶剂萃取物是 MTBE, 其被交换为结晶溶剂庚烷。
     根据本文提供的方法, 可用于萃取和结晶的其他有机溶剂是本领域已知和本领域 技术人员可获取的有机溶剂, 包括公知的烃类、 醚类、 酯类和醇类, 如, 乙腈、 正丁醇、 甲苯、 乙酸异丙酯。
     如上所述, 本文所述的任何酮还原酶多肽, 包括表 2 中举例的那些, 可用在该方法 中。而且, 在一些实施方案中, 该方法可使用酮还原酶多肽, 该酮还原酶多肽包括与 SEQ ID NO : 2 至少约 70 %、 71 %、 72 %、 73 %、 74 %、 75 %、 76 %、 77 %、 78 %、 79 %、 80 %、 81 %、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97 %、 98%、 或 99%相同的氨基酸序列, 还包括与 SEQ ID NO : 2 相比选自以下组成的组的至少一 种氨基酸取代 : 位置 2 的脯氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲 硫氨酸的脂肪族或非极性氨基酸代替 ; 位置 28 的缬氨酸残基以保守改变被选自丙氨酸、 亮 氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替 ; 位置 34 的丙氨 酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 47 的丙氨酸 残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或 非极性氨基酸代替 ; 位置 50 的谷氨酸残基被选自赖氨酸和精氨酸的碱性氨基酸代替 ; 位 置 81 的天冬氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位 置 90 的丝氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族 或非极性氨基酸代替 ; 位置 91 的异亮氨酸残基以保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的脂肪族或非极性氨基酸代替, 而在其他方面, 位置 91 的异亮氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸, 或选自赖氨酸和精氨酸的 碱性氨基酸代替 ; 位置 94 的赖氨酸残基以保守改变被另一种碱性氨基酸精氨酸代替 ; 位置 112 的天冬氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位置 117 的甘 氨酸残基被选自天冬氨酸和谷氨酸的酸性氨基酸代替 ; 位置 143 的丝氨酸残基被选自赖氨 酸和精氨酸的碱性氨基酸代替 ; 位置 144 的缬氨酸残基被半胱氨酸或选自天冬酰胺、 谷氨 酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 145 的甘氨酸残基以保守或非保守改变, 可 被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甲硫氨酸的非极性氨基酸, 或选自丙氨酸、 亮氨 酸、 缬氨酸、 异亮氨酸的脂肪族氨基酸代替 ; 位置 148 的精氨酸残基被选自脯氨酸和组氨酸 的受限制的氨基酸代替 ; 位置 150 的丙氨酸残基以保守或非保守改变被选自亮氨酸、 缬氨 酸、 异亮氨酸、 甘氨酸和甲硫氨酸的另一种非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨 酰胺、 丝氨酸和苏氨酸的极性氨基酸, 或选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代 替; 位置 152 的苯丙氨酸残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸 的非极性或脂肪族氨基酸代替 ; 位置 153 的天冬酰胺残基被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸和脯氨酸的受限制 的氨基酸代替 ; 位置 158 的苏氨酸残基以保守改变被选自天冬酰胺、 谷氨酰胺和丝氨酸的 另一种极性氨基酸代替 ; 位置 190 的甘氨酸残基以保守或非保守改变被选自丙氨酸、 缬氨 酸、 亮氨酸、 异亮氨酸、 甘氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自天冬酰胺、 谷氨 酰胺和丝氨酸的极性氨基酸, 或脯氨酸代替 ; 位置 198 的丝氨酸残基以保守改变被选自天 冬酰胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替 ; 位置 199 的异亮氨酸残基以保守改 变被选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲硫氨酸的另一种脂肪族或非极性氨基酸, 或 选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位置 200 的甲硫氨酸残基以 保守改变被选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和甘氨酸的另一种非极性氨基酸代替 ; 位置 204 的缬氨酸以非保守改变被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基酸代替 ; 位置 217 的丙氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基酸代替 ; 位 置 225 的异亮氨酸残基以保守改变被选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的另一种非 极性氨基酸代替 ; 位置 231 的脯氨酸残基被选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基 酸代替 ; 位置 232 的丙氨酸残基以保守改变被选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和甲 硫氨酸的另一种非极性氨基酸代替 ; 位置 233 的谷氨酸残基被选自天冬酰胺、 谷氨酰胺、 丝 氨酸和苏氨酸的极性氨基酸代替 ; 位置 244 的天冬氨酸残基被选自丙氨酸、 亮氨酸、 异亮氨 酸、 缬氨酸、 甘氨酸和甲硫氨酸的非极性氨基酸代替 ; 位置 260 的苯丙氨酸残基以保守改变 被选自酪氨酸和色氨酸的另一种芳香族氨基酸代替 ; 且位置 261 的丝氨酸残基以保守改变 被选自天冬酰胺、 谷氨酰胺和苏氨酸的另一种极性氨基酸代替。以上改进的酮还原酶多肽 还可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。 取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸 残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰 的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个 其他氨基酸残基。
     在一些实施方案中, 该方法可使用本公开内容的改进的酮还原酶多肽, 其包括与SEQ ID NO : 2 至少约 70%、 71%、 72%、 73%、 74%、 75%、 76%、 77%、 78%、 79%、 80%、 81%、 82 %、 83 %、 84 %、 85 %、 86 %、 87 %、 88 %、 89 %、 90 %、 91 %、 92 %、 93 %、 94 %、 95 %、 96 %、 97%、 98%、 或 99%相同的氨基酸序列, 还包括与 SEQ ID NO : 2 相比选自以下组成的组的 至少一种氨基酸取代 : 位置 2 的脯氨酸残基被亮氨酸代替 (P2L) ; 位置 28 的缬氨酸残基 被丙氨酸代替 (V28A) ; 位置 34 的丙氨酸残基被丝氨酸代替 (A34S) ; 位置 47 的丙氨酸残 基被缬氨酸代替 (A47V) ; 位置 50 的谷氨酸残基被赖氨酸代替 (E50K) ; 位置 81 的天冬氨 酸残基被天冬酰胺代替 (D81N) ; 位置 90 的丝氨酸残基被缬氨酸代替 (S90V) ; 位置 91 的 异亮氨酸残基被选自亮氨酸 (I91L)、 色氨酸 (I91W)、 精氨酸 (I91R) 和赖氨酸 (I91K) 的 氨基酸代替 ; 位置 94 的赖氨酸残基被精氨酸代替 (K94R) ; 位置 112 的天冬氨酸残基被酪 氨酸代替 (D112Y) ; 位置 117 的甘氨酸残基被天冬氨酸代替 (G117D) ; 位置 143 的丝氨酸 残基被精氨酸代替 (S143R) ; 位置 144 的缬氨酸残基被选自半胱氨酸 (V144C) 和苏氨酸 (V144T) 的氨基酸代替 ; 位置 145 的甘氨酸残基被选自丙氨酸 (G145A) 和缬氨酸 (G145V) 的氨基酸代替 ; 位置 148 的精氨酸残基被组氨酸代替 (R148H) ; 位置 150 的丙氨酸残基被 选自甘氨酸 (A150G)、 异亮氨酸 (A150I)、 丝氨酸 (A150S) 和色氨酸 (A150W) 的氨基酸代 替; 位置 152 的苯丙氨酸残基被亮氨酸代替 (F152L) ; 位置 153 的天冬酰胺残基被选自甘 氨酸 (N153G)、 缬氨酸 (N153V) 和组氨酸 (N153H) 的氨基酸代替 ; 位置 158 的苏氨酸残基 被丝氨酸代替 (T158S) ; 位置 190 的甘氨酸残基被选自丙氨酸 (G190A)、 脯氨酸 (G190P)、 谷氨酰胺 (G190Q) 和缬氨酸 (G190V) 的氨基酸代替 ; 位置 198 的丝氨酸残基被天冬酰胺 代替 (S198N) ; 位置 199 的异亮氨酸残基被选自甘氨酸 (I199G)、 甲硫氨酸 (I199M)、 亮氨 酸 (I199L) 和天冬酰胺 (I199N) 的氨基酸代替 ; 位置 200 的甲硫氨酸残基被异亮氨酸代替 (M200I) ; 位置 204 的缬氨酸残基被苯丙氨酸代替 (V204F) ; 位置 217 的丙氨酸残基被苏氨 酸代替 (A217T) ; 位置 225 的异亮氨酸残基被缬氨酸代替 (I225V) ; 位置 231 的脯氨酸残基 被苯丙氨酸代替 (P231F) ; 位置 232 的丙氨酸残基被缬氨酸代替 (A232V) ; 位置 233 的谷 氨酸残基被谷氨酰胺代替 (E233Q) ; 位置 244 的天冬氨酸残基被甘氨酸代替 (D244G) ; 位 置 260 的苯丙氨酸残基被酪氨酸代替 (F260Y) ; 且位置 261 的丝氨酸残基被天冬酰胺代替 (S261N)。 在某些实施方案中, 本公开内容的酮还原酶多肽包括选自以下组成的组的氨基酸 序列 : SEQ IDNO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 65、 66、 68、 70、 72、 74、 76、 78 和 80。以上改进的酮还原酶多肽还 可包括另外的修饰, 包括取代、 缺失、 插入、 或其组合。取代可以是非保守取代、 保守取代、 或非保守取代和保守取代的组合。在一些实施方案中, 这些酮还原酶多肽可在其他氨基酸 残基处任选地具有从约 1-2、 1-3、 1-4、 1-5、 1-6、 1-7、 1-8、 1-9、 1-10、 1-11、 1-12、 1-14、 1-15、 1-16、 1-18、 1-20、 1-22、 1-24、 1-25、 1-30、 1-35 或约 1-40 个突变。在一些实施方案中, 修饰 的数目可以是 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 14、 15、 16、 18、 20、 22、 24、 26、 30、 35 或约 40 个 其他氨基酸残基。
     在一些实施方案中, 本公开内容的方法使用包括选自以下组成的组的氨基酸序列 的酮还原酶 : SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56、 58、 60、 62、 65、 66、 68、 70、 72、 74、 76、 78、 80 和其组合。示例性的 包括序列组合的组包括 : SEQ ID NO 4、 6、 14、 16、 18、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54 和 56 组成的组 ; SEQ ID NO6、 18、 22、 30、 38、 40、 50、 52、 54 和 56 组成的组 ; 和 SEQ IDNO 6、 50、 52 和 56 组成的组。
     在该方法的一些实施方案中, 产物具有大于约 90%、 95%、 97%、 98%、 99%、 或甚 至更大非对映体过量的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇, 其中酮还原 酶多肽包括对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列。
     在该方法的一些实施方案中, 当该方法以大于或等于 200g/L 底物和少于或等于 2g/L 酮还原酶 ( 但多于 0g/L 酶 ) 进行时, 在少于 24、 23、 22、 21、 20、 19、 18、 17、 16、 15、 14、 13、 12、 11、 10、 9、 8、 或 7 小时内至少约 45%的外消旋底物混合物被还原为产物, 其中酮还原 酶多肽包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列。
     如本领域技术人员已知的, 酮还原酶 - 催化的还原反应通常需要辅因子。本文所 述的工程化的酮还原酶催化的还原反应通常也需要辅因子, 但工程化的酮还原酶的许多实 施方案比用野生型酮还原酶催化的反应需要的辅因子少得多。 本文所用的术语 “辅因子” 是 指联合酮还原酶起作用的非蛋白化合物。 适于用于本文所述的工程化的酮还原酶的辅因子 + 包括但不限于, NADP ( 烟酰胺腺嘌呤二核苷酸磷酸 )、 NADPH(NADP+ 的还原形式 )、 NAD+( 烟 酰胺腺嘌呤二核苷酸 ) 和 NADH(NAD+ 的还原形式 )。通常, 将辅因子的还原形式加到反应混 合物。还原的 NAD(P)H 形式任选地可利用辅因子再生系统从氧化的 NAD(P)+ 形式再生。
     术语 “辅因子再生系统” 是指参加将氧化型的辅因子还原 ( 例如 NADP+ 至 NADPH) 的反应的一组反应物。 被酮还原酶催化的酮底物还原所氧化的辅因子被辅因子再生系统再 生为还原型。辅因子再生系统包括化学计量还原剂, 其为还原氢等价物的来源并且能够将 辅因子的氧化型还原。辅因子再生系统还可包括催化剂, 例如催化还原剂对辅因子氧化型 + + 的还原的酶。用于从 NAD 或 NADP 分别再生 NADH 或 NADPH 的辅因子再生系统是本领域已 知的并且可被用于本文所述的方法。
     可被使用的适合的示例性辅因子再生系统包括但不限于葡萄糖和葡萄糖脱氢酶、 甲酸和甲酸脱氢酶、 葡萄糖 -6- 磷酸和葡萄糖 -6- 磷酸脱氢酶、 仲醇 ( 例如异丙醇 ) 和仲醇 脱氢酶、 亚磷酸盐和亚磷酸盐脱氢酶、 分子氢和氢化酶以及诸如此类。 这些系统可与 NADP+/ NADPH 或 NAD+/NADH 辅因子共同使用。使用氢化酶的电化学再生还可被用作辅因子再生系 统。参见例如美国专利第 5,538,867 和 6,495,023 号, 其二者都通过引用被并入本文。包 括金属催化剂和还原剂 ( 例如分子氢或甲酸盐 ) 的化学辅因子再生系统也是适合的。参见 例如 PCT 公布 WO 2000/053731, 其通过引用被并入本文。
     术语 “葡萄糖脱氢酶” 和 “GDH” 在本文中被互换地使用以指 NAD+ 或 NADP+ 依赖性 酶, 所述酶催化 D- 葡萄糖和 NAD+ 或 NADP+ 分别向葡萄糖酸和 NADH 或 NADPH 的转化。下面 的反应式 (1) 描述葡萄糖脱氢酶催化的葡萄糖对 NAD+ 或 NADP+ 的还原。
    适合用于本文所述方法的实践的葡萄糖脱氢酶包括天然存在的葡萄糖脱氢酶以 及非天然存在的葡萄糖脱氢酶二者。编码天然存在的葡萄糖脱氢酶的基因已在文献中 报道。例如, 枯草芽孢杆菌 61297GDH 基因被表达在大肠杆菌中, 并且据报道其展示了与 在其天然宿主中所产生的酶相同的物理化学性质 (Vasantha 等, 1983, Proc.Natl.Acad. Sci.USA 80 : 785)。对应于 Genbank 登录号 M12276 的枯草芽孢杆菌 GDH 基因的基因序
     列被报道在 Lampel 等, 1986, J.Bacteriol.166 : 238-243 中, 而且其作为 Genbank 登录号 D50453 以修正形式被报道在 Yamane 等, 1996, Microbiology142 : 3047-3056 中。天然存在 的 GDH 基因还包括编码蜡样芽孢杆菌 (B.cereus)ATCC 14579(Nature, 2003, 423 : 87-91 ; Genbank 登录号 AE017013) 和巨大芽孢杆菌 (B.megaterium)(Eur.J.Biochem., 1988, 174 : 485-490, Genbank 登录号 X12370 ; J.Ferment.Bioeng., 1990, 70 : 363-369, Genbank 登录号 GI216270) 中 GDH 的那些。来自芽孢杆菌属的葡萄糖脱氢酶作为 SEQID NO : 10 和 12( 分别 由对应于该 PCT 公布中的 SEQ ID NO : 9 和 11 的多核苷酸序列所编码 ) 被提供在 PCT 公布 WO 2005/018579 中, 其公开通过引用被并入本文。
     可使用已知方法例如诱变、 定向进化以及诸如此类来产生非天然存在的葡萄糖脱 氢酶。可使用 PCT 公布 WO 2005/018579 中实施例 4 所描述的测定容易地鉴定具有适当活 性的 GDH 酶, 不论它是天然存在的还是非天然存在的, 其公开通过引用被并入本文。示例性 的非天然存在的葡萄糖脱氢酶作为 SEQ ID NO : 62、 64、 66、 68、 122、 124 和 126 被提供在 PCT 公布 WO 2005/018579 中。编码它们的多核苷酸序列分别作为 SEQ ID NO : 61、 63、 65、 67、 121、 123 和 125 被提供在 PCT 公布 WO 2005/018579 中。所有这些序列通过引用被并入本 文。 适合用于本文所公开的酮还原酶催化的还原反应的另外的非天然存在的葡萄糖脱氢酶 被提供在美国申请公布第 2005/0095619 和 2005/0153417 号中, 其公开通过引用被并入本 文。
     本文所述的酮还原酶催化的还原反应中使用的葡萄糖脱氢酶可在 PCT 公布 WO 2005/018579 的实施例 4 中所述的测定中展示至少约 10μmol/min/mg 而且有时候至少约 102μmol/min/mg 或约 103μmol/min/mg、 高达约 104μmol/min/mg 或更高的活性。
     本文所述的酮还原酶催化的还原反应通常在溶剂中进行。适合的溶剂包括水、 有 机溶剂 ( 例如乙酸乙酯、 乙酸丁酯、 2- 丙醇 ( 异丙醇或 IPA)、 1- 辛醇、 庚烷、 辛烷、 甲基叔丁 基醚 (MTBE)、 甲苯以及诸如此类 )、 离子液体 ( 例如 1- 乙基 4- 甲基咪唑四氟硼酸盐、 1- 丁 基 -3- 甲基咪唑四氟硼酸盐、 1- 丁基 -3- 甲基咪唑六氟磷酸盐以及诸如此类 )。在一些实 施方案中, 使用含水溶剂, 其包括水和含水共溶剂系统。
     示例性的含水共溶剂系统具有水、 pH 缓冲盐和一种或多种有机溶剂。通常, 选择 含水共溶剂系统的有机溶剂组分以便它不完全地使酮还原酶失活。 可利用酶活性测定例如 本文所述的那些, 通过用候选溶剂系统中感兴趣的确定底物来测量指定的工程化的酮还原 酶的酶活性来容易地鉴定适当的共溶剂系统。
     含水共溶剂系统的有机溶剂组分可与含水组分混溶以提供单液相, 或者可与含水 组分部分混溶或不可混溶以提供两个液相。 通常, 当使用含水共溶剂系统时, 它被选择为双 相性的, 水被分散在有机溶剂中或者相反。通常, 当使用含水共溶剂系统时, 期望选择可从 水相容易地分离的有机溶剂。通常, 共溶剂系统中水和有机溶剂的比例通常是在有机溶剂 对水约 90 ∶ 10 至约 10 ∶ 90(v/v), 以及有机溶剂对水约 80 ∶ 20 至约 20 ∶ 80(v/v) 的范 围内。可在加入反应混合物之前预先形成共溶剂系统, 或者可将其在反应容器中就地 (in situ) 形成。在某些实施方案中, 含水共溶剂系统包括约 5% -40% (v/v)、 约 5% -20% (v/ v)、 约 10-20% (v/v)、 约 15% (v/v) 或约 10% (v/v) 的异丙醇 (IPA)。
     含水溶剂 ( 水或含水共溶剂系统 ) 可以是 pH 缓冲的或未缓冲的。一般地, 可在约 10 或以下, 通常在约 5 至约 10 的范围内的 pH 进行还原。在一些实施方案中, 在约 9.5 或以下, 通常在约 6.5 至约 9.5 的范围内的 pH 进行还原。还原可在约 7.0 至约 9.5 的 pH 进行。 在某些实施方案中, 在约 8.5 至约 9.5 的 pH 进行还原。在具体实施方案中, 在约 9.0 的 pH 进行还原。可选地, 可在中性 pH 即约 7 进行还原。
     在其中使用含水共溶剂的某些实施方案中, 还原的反应条件可包括 pH 约 8.5 至约 9.5 和约 5%至约 40% IPA、 约 pH 9.0 至 9.5 和约 25%至约 40% IPA、 约 pH 8.5 至 9.5 和 约 5%至约 15% IPA、 或约 pH 9.0 和约 10% IPA。在某些实施方案中, 还原的反应条件可包 括 pH 约 6.5 至约 7.0 和约 5%至约 15% IPA、 或约 pH 7.0 和约 5%至 10% IPA。
     在还原反应的过程中, 反应混合物的 pH( 如, 含水共溶剂溶液 ) 可改变。可在反应 过程中通过加入酸或碱而将反应混合物的 pH 维持在期望的 pH 或在期望的 pH 范围内。可 选地, 可使用含有缓冲液的含水溶剂来控制 pH。 维持期望 pH 范围的适合的缓冲液是本领域 已知的并且包括例如磷酸盐缓冲液、 三乙醇胺缓冲液 (TEA) 以及诸如此类。还可使用缓冲 和酸或碱添加的组合。因此, 在某些实施方案中, 具有在以上指定的某些范围中的 pH 和有 机溶剂 ( 如, IPA) 的含水共溶剂, 还可包括缓冲液诸如 TEA。
     当使用葡萄糖 / 葡萄糖脱氢酶辅因子再生系统时, 如果所得的葡萄糖酸水溶液不 被另外中和, 那么反应式 (1) 中所表示的葡萄糖酸 (pKa = 3.6) 的共同产生导致反应混合 物的 pH 下降。可通过标准的缓冲技术 ( 其中所述缓冲液将高达所提供的缓冲能力的葡萄 糖酸中和 ), 或者通过与转化过程同时发生的碱的加入而将反应混合物的 pH 维持在期望水 平。还可使用缓冲和碱添加的组合。上面描述了维持期望 pH 范围的适合的缓冲液。用于 葡萄糖酸中和的适合的碱是有机碱例如胺、 醇化物和诸如此类, 以及无机碱例如氢氧化物 盐 ( 例如 NaOH)、 碳酸盐 ( 例如 NaHCO3)、 碳酸氢盐 ( 例如 K2CO3)、 碱式磷酸盐 ( 例如 K2HPO4、 Na3PO4) 以及诸如此类。可以在监测反应混合物 pH 时手动地, 或者更方便地通过使用被用 作 pH 恒定器的自动滴定器来完成与转化过程同时发生的碱的加入。还可将部分缓冲能力 和碱添加的组合用于过程控制。
     当碱添加被用来中和在酮还原酶催化的还原反应过程中释放的葡萄糖酸时, 可通 过被添加以维持 pH 的碱的量来监测转化过程。通常, 在还原过程中被加入未缓冲的或部分 缓冲的反应混合物的碱以水溶液被加入。
     在一些实施方案中, 辅因子再生系统可包括甲酸脱氢酶。术语 “甲酸脱氢酶” 和 + + + “FDH” 在本文中被互换地使用以指 NAD 或 NADP 依赖性酶, 所述酶催化甲酸和 NAD 或 NADP+ 分别向二氧化碳和 NADH 或 NADPH 的转化。 适合在本文所述的酮还原酶催化的还原反应中用 作辅因子再生系统的甲酸脱氢酶包括天然存在的甲酸脱氢酶以及非天然存在的甲酸脱氢 酶二者。 甲酸脱氢酶包括对应于 PCT 公布 WO 2005/018579 中 SEQ ID NO : 70( 假单胞菌属 ) 和 72( 博伊丁念珠菌 Candida boidinii) 的那些, 其被分别对应于 PCT 公布 2005/018579 中 SEQ ID NO : 69 和 71 的多核苷酸序列所编码, 其公开通过引用被并入本文。用于本文所 述方法的甲酸脱氢酶 ( 不论是天然存在的还是非天然存在的 ) 可展示至少约 1μmol/min/ mg、 有时候至少约 10μmol/min/mg 或至少约 102μmol/min/mg、 高达约 103μmol/min/mg 或 更高的活性, 并且可在 PCT 公布 WO 2005/018579 的实施例 4 中所述的测定中容易地筛选活 性。
     如本文所用, 术语 “甲酸 (formate)” 是指甲酸阴离子 (HCO2-)、 甲酸 (HCO2H) 及其混 合物。 可以以盐 ( 通常为碱金属的盐 (alkali salt) 或铵盐 ( 例如 HCO2Na、 KHCO2NH4 以及诸如此类 ))、 甲酸 ( 通常为甲酸水溶液 ) 或其混合物的形式提供甲酸。甲酸是温和酸。在它 的 pKa( 水中 pKa = 3.7) 的几个 pH 单位以内的水溶液中, 甲酸以平衡浓度的 HCO2- 和 HCO2H 二者存在。在高于约 pH 4 的 pH 值下, 甲酸主要以 HCO2- 存在。当以甲酸 (formicacid) 的 形式提供甲酸 (formate) 时, 通常通过加入碱而对反应混合物进行缓冲或使其酸性减少以 提供期望的 pH, 其通常为约 pH 5 或以上。适用于中和甲酸的碱包括但不限于有机碱例如 胺、 醇化物和诸如此类, 以及无机碱例如氢氧化物盐 ( 例如 NaOH)、 碳酸盐 ( 例如 NaHCO3)、 碳酸氢盐 ( 例如 K2CO3)、 碱式磷酸盐 ( 例如 K2HPO4、 Na3PO4) 以及诸如此类。
     对于高于约 pH 5 的 pH 值 ( 在此条件下甲酸主要以 HCO2- 存在 ), 下面的反应式 (2) + + 描述甲酸脱氢酶催化的甲酸对 NAD 或 NADP 的还原。
    当使用甲酸和甲酸脱氢酶作为辅因子再生系统时, 可通过标准的缓冲技术 ( 其中 所述缓冲液释放高达所提供的缓冲能力的质子 ), 或者通过与转化过程同时发生的酸的加 入而将反应混合物的 pH 维持在期望水平。在反应过程中被加入以维持 pH 的适合的酸包括 有机酸例如羧酸、 磺酸、 膦酸和诸如此类, 无机酸例如氢卤酸 ( 例如盐酸 )、 硫酸、 磷酸和诸 如此类, 酸式盐例如磷酸二氢盐 ( 例如 KH2PO4)、 硫酸氢盐 ( 例如 NaHSO4) 和诸如此类。一些 实施方案利用甲酸 (formic acid), 从而甲酸 (fornmate) 浓度和溶液 pH 二者都得以维持。
     当利用酸添加来维持使用甲酸 / 甲酸脱氢酶辅因子再生系统的还原反应中的 pH 时, 可通过被添加以维持 pH 的酸的量来监测转化过程。通常, 在转化过程中被加入未缓冲 的或部分缓冲的反应混合物的酸以水溶液被加入。
     术语 “仲醇脱氢酶” 和 “sADH” 在本文中被互换地使用以指 NAD+ 或 NADP+ 依赖性酶, 所述酶催化仲醇和 NAD+ 或 NADP+ 分别向酮和 NADH 或 NADPH 的转化。下面的反应式 (3) 描 述仲醇 ( 用异丙醇进行说明 ) 对 NAD+ 或 NADP+ 的还原。
    
    适合用作本文所述酮还原酶催化的还原反应中辅因子再生系统的仲醇脱氢 酶包括天然存在的仲醇脱氢酶以及非天然存在的仲醇脱氢酶二者。天然存在的仲醇 脱 氢 酶 包 括 来 自 布 氏 热 厌 氧 菌 (Thermoanaerobiumbrockii)、 红 串 红 球 菌、 高加索酸 奶 乳 杆 菌 (Lactobacillus kefiri)、 短 乳 杆 菌 (Lactobacillus brevis)、 微小乳杆菌 (Lactobacillus minor)、 Novosphingobium aromaticivorans 的已知的醇脱氢酶, 而非天 然存在的仲醇脱氢酶包括从其衍生的工程化的醇脱氢酶。用于本文所述方法的仲醇脱氢 酶 ( 不论是天然存在的还是非天然存在的 ) 可展示至少约 1μmol/min/mg、 有时候至少约 2 3 10μmol/min/mg 或至少约 10 μmol/min/mg、 高达约 10 μmol/min/mg 或更高的活性。
     适合的仲醇包括低级仲链烷醇和芳基 - 烷基甲醇。低级仲醇的实例包括异丙醇、 2- 丁醇、 3- 甲基 -2- 丁醇、 2- 戊醇、 3- 戊醇、 3, 3- 二甲基 -2- 丁醇以及诸如此类。在一个实 施方案中, 仲醇是异丙醇。适合的芳基 - 烷基甲醇包括未取代的和取代的 1- 芳基乙醇。
     当仲醇和仲醇脱氢酶被用作辅因子再生系统时, 所得的 NAD+ 或 NADP+ 被仲醇的偶
     合氧化所还原, 其中所述偶合氧化是仲醇脱氢酶将仲醇氧化为酮。一些工程化的酮还原酶 还具有对仲醇还原剂脱氢的活性。在一些将仲醇用作还原剂的实施方案中, 工程化的酮还 原酶和仲醇脱氢酶是同一种酶。因此, 在某些实施方案中, 本公开内容的反应如以下方案 6 和 7 描绘的 :
     方案 6
    
    方案 7在利用辅因子再生系统进行本文所述的酮还原酶 - 催化的还原反应的实施方案 时, 如方案 6 和 7 所示的, 反应可在低压和 / 或高温下进行以实现去除丙 -2- 酮产物。这种 实施方案还可包括随着反应进行, 添加异丙醇, 如, 通过持续供料或批次添加。
     在进行利用辅因子再生系统的本文所述酮还原酶催化的还原反应的实施方案中, 可最初提供氧化或还原型的辅因子。如上所述, 辅因子再生系统将氧化的辅因子转化为其 还原型, 其然后被用于酮还原酶底物的还原中。
     在一些实施方案中, 辅因子再生系统未被使用。对于不使用辅因子再生系统而进 行的还原反应, 将还原型的辅因子加入反应混合物。
     在一些实施方案中, 当使用宿主生物体的整个细胞进行该过程时, 整个细胞可天 生地提供该辅因子。可选地或共同地, 该细胞可天生地或重组地提供葡萄糖脱氢酶。
     在进行本文所述立体特异性还原反应时, 工程化的酮还原酶和包括任选的辅因子 再生系统的任何酶可以以纯化的酶、 用编码该酶的基因转化的整个细胞和 / 或这种细胞的 细胞提取物和 / 或裂解物的形式被加入反应混合物。编码工程化的酮还原酶和任选的辅因 子再生系统的基因可被分别转化进宿主细胞或一起转化进相同宿主细胞。例如, 在一些实 施方案中, 可用编码工程化的酮还原酶的基因来转化一组宿主细胞, 并用编码辅因子再生 酶的基因来转化另一组。 两组转化细胞可以完整细胞形式或从其衍生的裂解物或提取物形 式一起用于反应混合物。在其他实施方案中, 可用编码工程化的酮还原酶和辅因子再生酶 的基因来转化宿主细胞。
     用编码工程化的酮还原酶和 / 或任选的辅因子再生酶的基因所转化的整个细胞 或者其细胞提取物和 / 或裂解物可以以各种不同形式被使用, 所述形式包括固体 ( 例如冻 干的、 喷雾干燥的以及诸如此类 ) 或半固体 ( 例如粗制的糊状物 )。
     可通过沉淀作用 ( 硫酸铵、 聚乙烯亚胺、 热处理或诸如此类, 接着在冻干之前进行 脱盐程序 ( 例如超滤、 透析以及诸如此类 )) 将细胞提取物或细胞裂解物部分地纯化。可通 过使用已知的交联剂例如戊二醛的交联或固定于固相 ( 例如 Eupergit C 以及诸如此类 ) 来稳定任何细胞制剂。
     可以以各种不同形式将固体反应物 ( 例如酶、 盐等 ) 提供给反应, 所述不同形式 包括粉末 ( 例如冻干的、 喷雾干燥的以及诸如此类 )、 溶液、 乳浊液、 悬液以及诸如此类。可 使用本领域普通技术人员已知的方法和设备将反应物容易地冻干或喷雾干燥。例如, 可以 在 -80℃以小等份将蛋白溶液冷冻, 然后加入预先冷却的冻干室中, 接着施加真空。在从样 品除去水后, 在释放真空并回收冻干的样品之前, 通常将温度提高到 4℃保持两小时。
     取决于期望产物的量并随着所使用的酮还原酶底物的量, 用于还原反应的反应物 的量通常将变化。可使用下述准则来确定待使用的酮还原酶、 辅因子和任选的辅因子再生 系统的量。通常, 可以使用约 50mg/L 至约 5g/L 的酮还原酶和约 10mg 至约 150mg 的辅因子 来利用浓度为约 20g/L 至 300g/L 的酮底物。本领域普通技术人员将容易理解如何改变这 些量以使它们达到期望的产率水平和生产规模。可基于所用辅因子和 / 或酮还原酶的量通 过常规实验来容易地确定任选的辅因子再生系统的适当的量。通常, 以超过酮还原酶底物 的等摩尔水平的水平来利用还原剂 ( 例如葡萄糖、 甲酸、 异丙醇 ) 以获得基本完全的或接近 完全的酮还原酶底物转化。
     反应物的加入顺序不重要。可同时将反应物一起加入溶剂 ( 例如单相溶剂、 双相 含水共溶剂系统以及诸如此类 ), 或可选地可将一些反应物分开加入, 以及将一些在不同时 间点一同加入。例如, 辅因子再生系统、 辅因子、 酮还原酶和酮还原酶底物可被首先加入溶 剂。
     为了在使用含水共溶剂系统时增加混合效率, 可首先将辅因子再生系统、 酮还原 酶和辅因子加入并混合进水相。然后可将有机相加入并混合, 接着加入酮还原酶底物。可 选地, 在加入水相之前, 可将酮还原酶底物在有机相中预先混合。
     进行本文所述的酮还原酶催化的还原反应的适合条件包括各种各样的可被常规 实验容易地优化的条件, 所述常规实验包括但不限于在实验 pH 和温度下将工程化的酮还 原酶和底物相接触并且使用例如本文所提供的实施例中所述的方法检测产物。
     通常在约 15℃至约 85℃、 约 20℃至约 80℃、 约 25℃至约 75℃、 约 30℃至约 70℃、约 35℃至约 65℃、 约 40℃至约 60℃或约 45℃至约 55℃范围内的温度下进行酮还原酶催化 的还原。在某些实施方案中, 酮还原酶催化的还原在约 45℃的温度进行。
     通常允许还原反应进行到基本上完成或者接近完成, 得到底物向产物的转化。可 使用已知方法通过检测底物和 / 或产物来监测底物向产物的还原。适合的方法包括气相 色谱法、 HPLC 以及诸如此类。反应混合物中产生的醇还原产物的转化率通常超过约 50%, 也可超过约 60%, 也可超过约 70%, 也可超过约 80%, 也可超过约 90%, 并且往往超过约 97%、 98%或甚至 99%。
     在下面的代表性实例中说明本公开的各种特征和实施方案, 其旨在是说明性的而 不是限制性的。 6. 实施例
     实施例 1 : 野生型酮还原酶基因的获得和表达载体的构建
     利用标准的密码子优化设计来自野生型 Novosphingobiumaromaticivorans 的 酮还原酶 (KRED)(SEQ ID NO : 2) 编码基因用于在大肠杆菌中表达。( 标准的密码子优化 软件综述在例如, “OPTIMIZER : a webserver for optimizing the codon usage of DNA sequences(OPTIMIZER : 一 种 优 化 DNA 序 列 的 密 码 子 使 用 的 网 络 服 务 器 ), ” Puigbò 等, Nucleic Acids Res.2007 Jul ; 35( 网络服务器特刊 ) : W126-31.Epub 2007 年 4 月 16 日 )。 利用 42 个核苷酸构成的寡核苷酸合成基因, 克隆到表达载体 pCK110900 中在 lac 启动子控 制下, 该表达载体在通过引用并入本文的美国专利申请公布 20060195947 中描绘为图 3。 表 达载体还包含 P15a 复制起点和氯霉素抗性基因。利用标准方法将所得的质粒转化到大肠 杆菌 W3110 或大肠杆菌 BL21 中。
     还将编码本公开内容的工程化的酮还原酶多肽的多核苷酸克隆到载体 pCK110900 中以在大肠杆菌 W3110 或大肠杆菌 BL21 表达。对密码子优化的 KRED 基因进行多轮定向进 化, 产生表 2 中所列的变异序列。
     实施例 2 : 用于产生酮还原酶多肽的摇瓶程序
     含有编码感兴趣的工程化酮还原酶的质粒的大肠杆菌的一个单独微生物菌落被 接种在 50ml 的含有 30μg/ml 氯霉素和 1%葡萄糖的 LuriaBertani 肉汤中。在 30℃培养 箱中以 250rpm 摇动培养细胞过夜 ( 至少 16 小时 )。在 1 升烧瓶中的含 30μg/ml 氯霉素的 250mlTerrific 肉汤 (12g/L 细菌用胰蛋白胨、 24g/L 酵母提取物、 4ml/L 甘油、 65mM 磷酸钾、 pH 7.0、 1mM MgSO4) 中将培养物稀释到在 600nm(OD600) 下 0.2 的光密度, 并允许其在 30℃ 下生长。当培养物的 OD600 是 0.6 至 0.8 时, 通过添加 1mM 终浓度的异丙基 -β-D- 硫代半 乳糖苷 (“IPTG” ) 诱导酮还原酶基因的表达, 然后继续培养过夜 ( 至少 16 小时 )。
     通 过 离 心 (5000rpm、 15min、 4 ℃ ) 收 集 细 胞 并 丢 弃 上 清 液。 用 等 体 积 冷 的 (4℃ )100mM 三乙醇胺 ( 氯化物 ) 缓冲液 pH 7.0( 任选地包括 2mMMgSO4) 将细胞团块重悬 浮, 并如上通过离心收集。在两体积的冷的三乙醇胺 ( 氯化物 ) 缓冲液中将被冲洗的细胞 重悬浮, 并在维持在 4℃时在 12,000psi 下将其通过弗氏压碎器 (French Press) 两次。通 过离心 (9000rpm、 45min、 4℃ ) 除去细胞碎片。收集澄清的裂解物上清液并储存在 -20℃。 对冷冻的澄清裂解物的冻干提供了粗制酮还原酶多肽的干燥摇瓶粉末。可选地, 细胞团块 ( 洗涤前或洗涤后 ) 可储存在 4℃或 -80℃。实施例 3 : 用于产生酮还原酶多肽的发酵步骤
     在通风搅拌的 15L 发酵器中, 利用 6.0L 生长培养基 (0.88g/L 硫酸铵、 0.98g/L 柠 檬酸钠 ; 12.5g/L 三水合磷酸氢二钾、 6.25g/L 磷酸二氢钾、 6.2g/L 的 Tastone-154 酵母提 取物、 0.083g/L 柠檬酸铁铵和 8.3ml/L 含 2g/L 二水合氯化钙、 2.2g/L 七水合硫酸锌、 0.5g/ L 一水合硫酸锰、 1g/L 七水合硫酸亚铜、 0.1g/L 四水合钼酸铵和 0.02g/L 四硼酸钠的微量元 素溶液 ) 进行实验室规模的发酵。用 ( 在实施例 2 中所述的摇瓶中生长的 ) 含有编码感兴 趣的工程化酮还原酶基因的质粒的大肠杆菌 W3110 或大肠杆菌 BL21 的晚期指数培养物在 发酵器中接种, 至 0.5 至 2.0 的起始 OD600。以 500-1500rpm 搅拌发酵器, 并以 1.0-15.0L/ 分钟向发酵容器中提供空气以维持 30%饱和或更高的溶氧水平。通过加入 20% v/v 的氢 氧化铵来将培养物的 pH 维持在 7.0。通过加入含有 500g/L 结晶葡萄糖 (cerelose)、 12g/ L 氯化铵和 10.4g/L 七水合硫酸镁的进料溶液来维持培养物的生长。在培养物达到 50 的 OD600 之后, 通过将异丙基 -β-D- 硫代半乳糖苷 (IPTG) 加到 1mM 的终浓度来诱导酮还原酶 的表达, 发酵继续再 14 小时。然后将培养物冷却到 4℃并维持在该温度直到被收集。通过 在 4℃以 5000G 离心 40 分钟来收集细胞。 将收集的细胞直接用于接下来的下游回收过程或 储存在 4℃或冷冻在 -80℃直到如此使用。
     在 4℃下以每体积的湿细胞糊状物 2 体积的 100mM 三乙醇胺 ( 氯化物 ) 缓冲液 pH 6.8 将细胞团块重悬浮。通过利用 12000psig 的压力将悬浮液穿过装有二阶段均质阀门组 件的均质器来从细胞释放细胞内的酮还原酶。破裂之后马上将细胞匀浆冷却到 4℃。10% w/v 的聚乙烯亚胺 pH 7.2 的溶液被加入裂解物至终浓度 0.5% w/v, 并且搅拌 30 分钟。通 过在标准的实验室离心机上以 5000G 离心 30 分钟而使所得的悬浮液变澄清。将澄清的上 清液倒出并使用具有 30kD 的分子量截留 (cut off) 的纤维素超滤膜将其浓缩十倍。将最 终的浓缩物分配到浅容器中, 在 -20℃下冷冻并冻干为粉末。 将粗制酮还原酶多肽粉末储存 在 -80℃。
     实施例 4 : 酮还原酶催化的还原化合物 (1)((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 为相应醇化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 的转化百分比和非对映体纯度的确定
     酮还原酶催化的立体选择性还原化合物 (1)((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 为相应的醇化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁 烷 -2- 基氨基甲酸酯 ) 的转化率通过以时间间隔 ( 如, 第 0.5、 2、 4、 7、 9 和 24 小时 ) 对酶促 反应混合物取样, 如下确定 : 利用配备有 AgilentXDB C18( 长 15cm, 直径 4.6mm) 的 Agilent 1200HPLC, 利用 60 % MeCN、 40 %水 ( 等度 ) 作为洗脱剂, 流速为 1.8ml/min ; 柱温度 25 ℃。 化合物 (1) 保留时间 : 3.119 分钟 ; 化合物 (2) 保留时间 : 2.378 分钟。底物 ( 化合物 (1)) 和产物 ( 化合物 (2)) 的量基于在 210nm 检测的 HPLC 峰面积确定。
     酮还原酶多肽催化的反应产物化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯 基丁烷 -2- 基氨基甲酸酯 ) 的非对映体纯度如下确定 : 利用配备有 Agilent XDB C18( 长 15cm, 直径 4.6mm) 的 Agilent 1200 HPLC, 利用 50% MeCN、 50%水 ( 等度 ) 作为洗脱剂, 流 速为 1.50mL/min, 温度 20℃。 化合物 (2) 的期望非对映体的保留时间 : 5.083min ; 不希望的 非对映体 ( 和底物 ) 的保留时间 : 4.050min。
     实施例 5 : 预筛选能够在 NADP+ 存在下还原异丙醇以产生 NADPH 和丙酮的工程化的酮还原酶多肽
     这一实施例阐述用于鉴定编码能够在 NADP+ 存在下还原异丙醇以产生丙酮和 NADPH 的酮还原酶的变异基因的预筛选检验。利用 自动菌落挑取器 (GenetixUSA, Inc., Boston, MA) 将含编码工程化的酮还原酶的质粒的大肠杆菌菌落挑取到包含 180μL Terrific 肉汤 (TB)、 1%葡萄糖和 30μg/mL 氯霉素 (CAM) 的 96 孔的浅孔微量滴定 板。细胞在 30℃生长过夜, 伴随以 200rpm 摇动。然后将此培养物的 10μL 等份转移到包 含 390μL Terrific 肉汤 (TB)、 1mM MgSO4 和 30μg/mL CAM 的 96- 深孔板中。在 30℃伴随 以 250rpm 摇动培养深孔板 2-3 小时后, 通过加入 IPTG 至终浓度 1mM 来诱导培养细胞中的 重组基因表达。然后在 30℃伴随以 250rpm 摇动培养板 18 小时。
     细胞通过离心 (4000RPM, 10 分钟, 4℃ ) 沉淀, 重悬在 400μL 裂解缓冲液中, 通过 在室温摇动 2 小时而裂解。裂解缓冲液包含 100mM 三乙醇胺 ( 氯化物 ) 缓冲液、 pH 7、 1mg/ mL 溶菌酶、 500μg/mL 硫酸多粘菌素 B(“PMBS” ) 和 1mM MgSO4。用铝 / 聚丙烯薄片热封带 (Velocity 11, Menlo Park, CA, 目录号 06643-001) 密封板后, 在室温剧烈摇动板 2 小时。 细胞碎片通过离心 (4000RPM, 10 分钟, 4℃ ) 收集, 直接检验澄清上清液, 或在 4℃储存直到 使用。
     在这一检验中, 将 20μl 样品 ( 稀释在 100mM 三乙醇胺 ( 氯化物 ) 缓冲液中、 与裂 解缓冲液相同的 pH、 和 1mM MgSO4) 加至 96 孔黑色微量滴定板的孔中的 180μl 检验混合 物。检验缓冲液由 100mM 三乙醇胺 ( 氯化物 ) 缓冲液、 pH 7、 50%异丙醇 (IPA)、 1mM MgSO4 + + 和 222μM NADP 组成。 反应后, 利用 设备测量 NADP 随着被转化为 NADPH 的荧 光减少 (Molecular Devices, Sunnyvale, CA)。在 330nm 激发后, 在 445nm 测量 NADPH 荧光。 如果需要, 在添加到检验混合物之前, 裂解物样品可在 50% IPA 存在或不存在下在 25-40℃ 预培养。
     实 施 例 6: 筛 选 能 够 立 体 选 择 性 转 化 底 物 化 合 物 (1)((S)- 叔 丁 基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 为相应的产物化合物 (2)( 叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 的工程化的酮还原酶多肽
     利 用 上 述 定 向 进 化 方 法 将 如 实 施 例 1 构 建 的 来 源 自 Novosphingobiumaromaticivorans 的密码子优化的酮还原酶基因 (SEQ ID NO : 1) 进行诱 变, 将突变体 DNA 分子的群体转化到适当的大肠杆菌宿主菌株中。选择抗生素抗性转化体 并处理以鉴定表达具有转化化合物 (1) 为化合物 (2) 的改进的能力的酮还原酶的转化体。
     细胞选择、 生长、 诱导变异酮还原酶基因和收集细胞团块如实施例 5 所述。通过向 每个孔添加 400μL 裂解缓冲液 (1mM MgSO4、 0.5mg/ml 硫酸多粘菌素 B(“PMBS” )、 1mg/ml + 溶菌酶、 100mM 三乙醇胺 (pH ~ 6) 和 1mg/mL NADP ) 来裂解细胞团块。密封板, 在室温剧烈 摇动板 2 小时, 然后在 4℃以 4000rpm 离心 10 分钟。回收上清液, 在 4℃储存直到使用。
     酶促还原检验 : 利用 Multidrop 仪器 (MTX Lab Systems, Vienna VA) 将异丙醇 与固体底物 ((S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 的混合物的等份 (450μL) 加到 深孔板的每个孔, 随后利用 MultimekTM 仪器 (Multimek, Inc., Santa Clara CA) 自动添加 50μL 回收的裂解物上清液, 以提供包含 10mg/ml 底物 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯、 0.1mg/ml NADP+、 10mM 三乙醇胺 pH ~ 6 和10%异丙醇 (v/v) 的反应。在 170℃用铝 / 聚丙烯薄片热封带 (Velocity 11(Menlo Park, CA), 目录号 06643-001) 热密封板 2.5 秒, 然后在室温摇动板过夜 ( 至少 16 小时 )。通过 添加 1ml 甲基叔丁基醚 (MTBE) 来猝灭反应。再次密封板, 摇动 5 分钟, 然后以 4000rpm 离 心 10 分钟。 将 250μL 等份的澄清反应混合物转移到新的浅孔聚丙烯板 (Costar#3365), 密 封, 然后利用上述方法对提取物进行 HPLC 分析 ( 如, 参见实施例 4)。
     在 pH ~ 6 和 10% IPA(v/v) 的高通量筛选检验 : 将含 1g/L NADP+ 的 50μl 细胞裂 解物转移到包含 450μl 检验混合物 ( 每 100ml 检验混合物 : 5ml 100mM 三乙醇胺 ( 氯化物 ) (pH 7)、 13.4g(S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯和 10ml 异丙醇 ) 的 深孔板 (Costar#3960)。密封板后, 反应在室温进行至少 16 小时。通过添加 1ml 95% MTBE 来猝灭反应, 用铝 / 聚丙烯薄片热封带 (Velocity 11(Menlo Park, CA), 目录号 06643-001) 密封板, 摇动 5-10min, 以 4000rpm 离心 10 分钟。将 250μL 等份的澄清反应混合物转移到 新的浅孔聚丙烯板 (Costar#3365), 然后密封。 对以这种方式制备的提取物进行如上所述的 HPLC 分析。
     利用以上公开的程序鉴定能够以高转化率 ( 如, 24 小时内至少约 70-95% ) 和高 非对映体纯度 ( 如, 至少约 85-99% d.e) 转化 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基 氨基甲酸酯为叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯的工程化的 酮还原酶多肽。进行这些程序的多次迭代, 其中从一轮诱变分离具有改进的特性的一种或 多种工程化的酮还原酶基因, 并将其用作下一轮诱变和筛选的起始材料。从这些多轮定向 进化获得的一些改进的工程化的酮还原酶在本文公开, 列在表 2。
     实 施 例 7 : 利 用 异 丙 醇 用 于 辅 因 子 再 生, 来 源 自 Novosphingobiumaromaticivorans 的 工 程 化 的 酮 还 原 酶 立 体 选 择 性 还 原 (S)- 叔 丁 基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯化合物 (1)
     如下检验如上所述的来源自 Novosphingobium aromaticivorans 的工程化的酮还 原酶在制备规模地还原 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯中的使用。 将 100mM 三乙醇胺 ( 氯化物 ) 缓冲液 pH 7 中 100μL 待试验的工程化的酮还原酶 (10mg/mL) 和 NADP-Na(1mg/mL) 的溶液合并在装备有磁性搅拌棒的 5mL 反应小瓶中。随后, 将 85μL 异丙醇 (“IPA” ) 加到酶 /NADP-Na 溶液, 然后加入 120mg 化合物 (1)。在室温搅拌反应, 化 合物 (1) 向化合物 (2) 的转化通过利用实施例 4 中公开的分析方法, HPLC 分析在 24 小时 阶段定期从反应获取的样品来监测。
     表 2 标明了酮还原酶变体 ( 由多核苷酸和多肽 SEQ ID NO)、 相对于野生型酮还原 酶多肽 SEQ ID NO : 2 的氨基酸突变、 和每种变体相对于具有氨基酸序列 SEQ ID NO : 2 的野 生型酶的活性的相对活性。如表 2 列出的结果所示的, 几乎所有工程化的酮还原酶具有野 生型多肽活性的至少 120% ( 即, 1.2 倍或更大 ) 活性, 多种工程化的酮还原酶 ( 如, 多肽 SEQ ID NO : 6、 50、 52、 56) 具有导致改进的活性比 SEQ ID NO : 2 大至少 300% ( 即, 3 倍或更大 ) 的突变。这些结果说明, 本文公开的来源自酮还原酶 Novosphingobium aromaticivorans 的工程化的酮还原酶提供与野生型酮还原酶 SEQ ID NO : 2 相比还原式 (I) 化合物诸如化合 物 (1) 的改进的活性。
     实施例 8 : 在立体选择性制备规模转化化合物 (1) 为化合物 (2)、 和转化化合物 (2) 为化合物 (3) 中使用工程化的酮还原酶向装备有上悬的搅拌器、 导流板和内部温度计的 1L 加套过程反应器顺序地充入 90.0g 化合物 (1)、 400ml 100mM 三乙醇胺溶液 (pH 9.0)、 60ml IPA 和 NAD+(300mg)。搅拌 所得的浆状物 10min, 加入 600mg 工程化的酮还原酶多肽 SEQ ID NO : 6。加热反应混合物到 45℃, 以 150rpm 搅拌前 4 小时, 随后以 250rpm 搅拌。在反应时进行工序内 HPLC 分析以确 定化合物 (1) 向化合物 (2) 的转化 ( 如实施例 4 所述 )。工序内分析指示 99.8%转化 ( 在 9 小时时 ) 后, 将反应冷却到 20℃。
     将 MTBE(600mL) 加入反应浆状物, 以 250rpm 搅动 50min。 允许各相分离, 取出水层。 分别收集 MTBE 相。重新充入水层, 加入 MTBE(300mL)。以 250rpm 搅动双相混合物 45min。 允许各相分离, 取出水层。对水相的 HPLC 分析 ( 如实施例 4 中为确定转化所描述的 ) 指示 > 99%产物已被取出。将合并的 MTBE 层过滤通过硅藻土垫 (30g), 用 90mLMTBE 洗涤滤饼, 在 250rpm 用 90mL 水洗涤联合的 MTBE 相 15min。允许各相分离, 取出水层。根据 HPLC 确定 期望产物化合物 (2) 的纯度为 98.4%。
     将 KOH(39.7g, 85% w/w) 加到含化合物 (2) 的有机相, 在 250rpm 和 25℃搅拌。工 序内 HPLC 分析指示> 99.9%转化 ( 在 8 小时时 ) 后加入 180ml 水, 在 250rpm 搅拌双相混 合物 30min。允许各相分离, 取出水层。用水 (90mL 和 180mL) 重复洗涤两次。将剩余 MTBE 相 (1L) 浓缩到 400mL, 然后加入 600ml 正庚烷。 利用 50℃的套内温度, 同时逐步减少压力到 105Torr 再次将所得混合物浓缩到 400mL。这一步骤重复一次。对剩余正庚烷层的 GC 分析 指示≤ 0.7% MTBE 保留, 加入正庚烷以获得总体积 1L。在 120rpm 搅拌溶液, 调整溶液的温 度为 20℃。以 20mg 纯化合物 (3) 对溶液引晶, 搅拌 1 小时。以 0.5℃的阶梯经 150min 将温 度逐渐降低到 17.5℃。搅拌另外 1 小时后观察到结晶形成。在 400rpm 搅拌所得的更粘稠 的溶液, 温度降低到 0℃, 搅拌 30min。排空反应器, 在减压下过滤白色物质, 用冷的正庚烷 (2×180ml) 洗涤, 在大约 20mmHg 干燥 24 小时。这在单次收获 (single crop) 中提供作为 白色固体的 64.4g(81%产率 ) 的化合物 (3) 叔丁基 (S)-1-((R)- 环氧乙烷 -2- 基 )-2- 苯 基乙基氨基甲酸酯, 化学纯度为 98.9%, 非对映体纯度为> 99.9% de。产率的余量在母液 中, 并可作为二次收获 (second crop) 被分离以提供大约 98-99%的几乎定量的总产率。 合 理地预计, 修改的结晶方法可导致几乎定量的化合物 (3) 纯产物的单次收获产率。
     本申请中所引用的所有出版物、 专利、 专利申请和其他文件为所有目的通过引用 以其整体并入本文, 达到如同单个出版物、 专利、 专利申请或其他文件单独表明为了所有目 的而通过引用被并入的程度。
     尽管已经阐释和描述了各种具体实施方案, 但应理解可以作出各种改变而不背离 本发明的精神和范围。59CN 102482648 A
    序列表1/106 页
     60CN 102482648 A序列表2/106 页
    61CN 102482648 A序列表3/106 页
    62CN 102482648 A序列表4/106 页
    63CN 102482648 A序列表5/106 页
    64CN 102482648 A序列表6/106 页
    65CN 102482648 A序列表7/106 页
    66CN 102482648 A序列表8/106 页
    67CN 102482648 A序列表9/106 页
    68CN 102482648 A序列表10/106 页
    69CN 102482648 A序列表11/106 页
    70CN 102482648 A序列表12/106 页
    71CN 102482648 A序列表13/106 页
    72CN 102482648 A序列表14/106 页
    73CN 102482648 A序列表15/106 页
    74CN 102482648 A序列表16/106 页
    75CN 102482648 A序列表17/106 页
    76CN 102482648 A序列表18/106 页
    77CN 102482648 A序列表19/106 页
    78CN 102482648 A序列表20/106 页
    79CN 102482648 A序列表21/106 页
    80CN 102482648 A序列表22/106 页
    81CN 102482648 A序列表23/106 页
    82CN 102482648 A序列表24/106 页
    83CN 102482648 A序列表25/106 页
    84CN 102482648 A序列表26/106 页
    85CN 102482648 A序列表27/106 页
    86CN 102482648 A序列表28/106 页
    87CN 102482648 A序列表29/106 页
    88CN 102482648 A序列表30/106 页
    89CN 102482648 A序列表31/106 页
    90CN 102482648 A序列表32/106 页
    91CN 102482648 A序列表33/106 页
    92CN 102482648 A序列表34/106 页
    93CN 102482648 A序列表35/106 页
    94CN 102482648 A序列表36/106 页
    95CN 102482648 A序列表37/106 页
    96CN 102482648 A序列表38/106 页
    97CN 102482648 A序列表39/106 页
    98CN 102482648 A序列表40/106 页
    99CN 102482648 A序列表41/106 页
    100CN 102482648 A序列表42/106 页
    101CN 102482648 A序列表43/106 页
    102CN 102482648 A序列表44/106 页
    103CN 102482648 A序列表45/106 页
    104CN 102482648 A序列表46/106 页
    105CN 102482648 A序列表47/106 页
    106CN 102482648 A序列表48/106 页
    107CN 102482648 A序列表49/106 页
    108CN 102482648 A序列表50/106 页
    109CN 102482648 A序列表51/106 页
    110CN 102482648 A序列表52/106 页
    111CN 102482648 A序列表53/106 页
    112CN 102482648 A序列表54/106 页
    113CN 102482648 A序列表55/106 页
    114CN 102482648 A序列表56/106 页
    115CN 102482648 A序列表57/106 页
    116CN 102482648 A序列表58/106 页
    117CN 102482648 A序列表59/106 页
    118CN 102482648 A序列表60/106 页
    119CN 102482648 A序列表61/106 页
    120CN 102482648 A序列表62/106 页
    121CN 102482648 A序列表63/106 页
    122CN 102482648 A序列表64/106 页
    123CN 102482648 A序列表65/106 页
    124CN 102482648 A序列表66/106 页
    125CN 102482648 A序列表67/106 页
    126CN 102482648 A序列表68/106 页
    127CN 102482648 A序列表69/106 页
    128CN 102482648 A序列表70/106 页
    129CN 102482648 A序列表71/106 页
    130CN 102482648 A序列表72/106 页
    131CN 102482648 A序列表73/106 页
    132CN 102482648 A序列表74/106 页
    133CN 102482648 A序列表75/106 页
    134CN 102482648 A序列表76/106 页
    135CN 102482648 A序列表77/106 页
    136CN 102482648 A序列表78/106 页
    137CN 102482648 A序列表79/106 页
    138CN 102482648 A序列表80/106 页
    139CN 102482648 A序列表81/106 页
    140CN 102482648 A序列表82/106 页
    141CN 102482648 A序列表83/106 页
    142CN 102482648 A序列表84/106 页
    143CN 102482648 A序列表85/106 页
    144CN 102482648 A序列表86/106 页
    145CN 102482648 A序列表87/106 页
    146CN 102482648 A序列表88/106 页
    147CN 102482648 A序列表89/106 页
    148CN 102482648 A序列表90/106 页
    149CN 102482648 A序列表91/106 页
    150CN 102482648 A序列表92/106 页
    151CN 102482648 A序列表93/106 页
    152CN 102482648 A序列表94/106 页
    153CN 102482648 A序列表95/106 页
    154CN 102482648 A序列表96/106 页
    155CN 102482648 A序列表97/106 页
    156CN 102482648 A序列表98/106 页
    157CN 102482648 A序列表99/106 页
    158CN 102482648 A序列表100/106 页
    159CN 102482648 A序列表101/106 页
    160CN 102482648 A序列表102/106 页
    161CN 102482648 A序列表103/106 页
    162CN 102482648 A序列表104/106 页
    163CN 102482648 A序列表105/106 页
    164CN 102482648 A序列表106/106 页165

酮还原酶介导的产生Α氯代醇的立体选择性途径.pdf_第1页
第1页 / 共165页
酮还原酶介导的产生Α氯代醇的立体选择性途径.pdf_第2页
第2页 / 共165页
酮还原酶介导的产生Α氯代醇的立体选择性途径.pdf_第3页
第3页 / 共165页
点击查看更多>>
资源描述

《酮还原酶介导的产生Α氯代醇的立体选择性途径.pdf》由会员分享,可在线阅读,更多相关《酮还原酶介导的产生Α氯代醇的立体选择性途径.pdf(165页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102482648 A (43)申请公布日 2012.05.30 CN 102482648 A *CN102482648A* (21)申请号 201080027481.5 (22)申请日 2010.06.22 61/219,162 2009.06.22 US 61/303,057 2010.02.10 US C12N 9/02(2006.01) C12N 15/53(2006.01) A61P 7/04(2006.01) (71)申请人 科德克希思公司 地址 美国加利福尼亚州 (72)发明人 荣贵彭 迈克尔沃格尔 史蒂文詹姆斯科利尔 韦丝娜米切尔 亚加迪什马维纳哈利 。

2、(74)专利代理机构 北京安信方达知识产权代理 有限公司 11262 代理人 申基成 郑霞 (54) 发明名称 酮还原酶介导的产生 氯代醇的立体选择 性途径 (57) 摘要 本公开内容涉及工程化的酮还原酶多肽和其 用于从 - 氯代酮制备 - 氯代醇的用途。还提 供了编码工程化的酮还原酶多肽的多核苷酸和能 够表达工程化的酮还原酶多肽的宿主细胞。 (30)优先权数据 (85)PCT申请进入国家阶段日 2011.12.20 (86)PCT申请的申请数据 PCT/US2010/039511 2010.06.22 (87)PCT申请的公布数据 WO2011/005527 EN 2011.01.13 (5。

3、1)Int.Cl. 权利要求书 7 页 说明书 51 页 序列表 106 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 7 页 说明书 51 页 序列表 106 页 1/7 页 2 1. 一种工程化的酮还原酶多肽, 所述工程化的酮还原酶多肽能够以 SEQ ID NO : 2 活性 的至少约 1.2 倍的相对活性转化 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 为叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯, 其中所述多肽包括与 SEQ ID NO : 2 至少约 70相同的氨基酸序列,。

4、 并包括一种或多种下述特征 : 对应于SEQ ID NO : 2的氨基酸2的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘氨 酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 28 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 34 的残基是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸 的极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 47 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 。

5、对应于 SEQ ID NO : 2 的氨基酸 50 的残基是选自赖氨酸和精氨酸的碱性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 81 的残基是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸 的极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 90 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的脂肪族或非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 91 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的脂肪族或非极性氨基酸, 选自酪氨酸、 色氨酸和苯丙氨酸的芳香族氨基 酸, 或选自赖氨酸和精氨酸的碱性氨基。

6、酸 ; 对应于 SEQ ID NO : 2 的氨基酸 94 的残基是碱性氨基酸精氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 112 的残基是选自酪氨酸、 色氨酸和苯丙氨酸的芳香族 氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 117 的残基是选自天冬氨酸和谷氨酸的酸性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 143 的残基是选自赖氨酸和精氨酸的碱性氨基酸 ; 对应于SEQ ID NO : 2的氨基酸144的残基是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸 的极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基是选自丙氨酸、 亮氨酸。

7、、 缬氨酸、 异亮氨酸和 甲硫氨酸的非极性氨基酸, 或选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸的脂肪族氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 148 的残基是选自脯氨酸和组氨酸的受限制的氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 150 的残基是选自亮氨酸、 缬氨酸、 异亮氨酸、 甘氨酸和 甲硫氨酸的非极性或脂肪族氨基酸 ; 对应于SEQ ID NO : 2的氨基酸152的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸、 甘 氨酸和甲硫氨酸的非极性或脂肪族氨基酸 ; 对应于SEQ ID NO : 2的氨基酸153的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮。

8、氨酸、 甘 氨酸和甲硫氨酸的非极性或脂肪族氨基酸, 或选自组氨酸和脯氨酸的受限制的氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 158 的残基是选自天冬酰胺、 谷氨酰胺和丝氨酸的极性 氨基酸 ; 对应于SEQ ID NO : 2的氨基酸190的残基是选自丙氨酸、 缬氨酸、 亮氨酸、 异亮氨酸、 甘 权 利 要 求 书 CN 102482648 A 2 2/7 页 3 氨酸和甲硫氨酸的非极性或脂肪族氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 198 的残基是选自天冬酰胺、 谷氨酰胺和苏氨酸的极性 氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 199 的残基是。

9、选自丙氨酸、 亮氨酸、 缬氨酸、 甘氨酸和甲 硫氨酸的脂肪族或非极性氨基酸, 或选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸的极性氨基 酸 ; 对应于 SEQ ID NO : 2 的氨基酸 200 的残基是选自丙氨酸、 亮氨酸、 缬氨酸、 异亮氨酸和 甘氨酸的非极性氨基酸 ; 对应于SEQ ID NO : 2的氨基酸217的残基是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸 的极性氨基酸 ; 对应于SEQ ID NO : 2的氨基酸225的残基是选自缬氨酸、 亮氨酸、 甘氨酸和甲硫氨酸的 非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 231 的残基是选自酪氨酸、 色氨酸和苯丙氨酸。

10、的芳香族 氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 232 的残基是选自亮氨酸、 异亮氨酸、 缬氨酸、 甘氨酸和 甲硫氨酸的非极性氨基酸 ; 对应于SEQ ID NO : 2的氨基酸233的残基是选自天冬酰胺、 谷氨酰胺、 丝氨酸和苏氨酸 的极性氨基酸 ; 对应于SEQ ID NO : 2的氨基酸244的残基是选自丙氨酸、 亮氨酸、 异亮氨酸、 缬氨酸、 甘 氨酸和甲硫氨酸的非极性氨基酸 ; 对应于 SEQ ID NO : 2 的氨基酸 260 的残基是选自酪氨酸和色氨酸的芳香族氨基酸 ; 且 对应于 SEQ ID NO : 2 的氨基酸 261 的残基是选自天冬酰胺、 谷氨酰。

11、胺和苏氨酸的极性 氨基酸。 2. 如权利要求 1 所述的多肽, 其中所述氨基酸序列包括相对于 SEQ IDNO : 2 的一种或 多种以下氨基酸取代 : P2L ; V28A ; A34S ; A47V ; E50K ; D81N ; S90V ; I91L ; I91W ; I91R ; I91K ; K94R ; D112Y ; G117D ; S143R ; V144T ; G145A ; R148H ; A150G ; F152L ; N153G ; N153V ; N153H ; T158S ; G190A ; S198N ; I199M ; I199L ; I199N ; M200。

12、I ; A217T ; I225V ; P231F ; A232V ; E233Q ; D244G ; F260Y 和 S261N。 3. 如权利要求 2 所述的多肽, 其中所述多肽包括选自以下组成的组的氨基酸序列 : SEQ ID NO : 4、 6、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 50、 52、 54、 56、 60、 62、 65、 66、 68、 70、 72、 74、 76、 78 和 80。 4.如权利要求1所述的多肽, 其中所述相对活性是SEQ ID NO : 2活性的至少约1.5倍。 5. 如权利。

13、要求 4 所述的酮还原酶, 其中所述多肽包括选自以下组成的组的氨基酸序 列 : SEQ ID NO : 6、 18、 22、 30、 38、 40、 50、 52、 54 和 56。 6. 如权利要求 1 所述的多肽, 其中所述相对活性是 SEQ ID NO : 2 活性的至少约 3 倍。 7. 如权利要求 6 所述的多肽, 其中所述多肽包括选自以下组成的组的氨基酸序列 : SEQ ID NO : 6、 50、 52 和 56。 8. 如权利要求 1 所述的多肽, 其中所述氨基酸序列包括一种或多种下述特征 : 对应于 SEQ ID NO : 2 的氨基酸 91 的残基选自亮氨酸、 色氨酸、 精。

14、氨酸和赖氨酸组成的 权 利 要 求 书 CN 102482648 A 3 3/7 页 4 组 ; 对应于 SEQ ID NO : 2 的氨基酸 144 的残基是苏氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基是丙氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 150 的残基是甘氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 153 的残基选自甘氨酸、 缬氨酸和组氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 190 的残基是丙氨酸 ; 对应于SEQ ID NO : 2的氨基酸199的残基选自甲硫氨酸、 亮氨酸和天冬酰胺组成的组 ; 且 对。

15、应于 SEQ ID NO : 2 的氨基酸 260 的残基是酪氨酸。 9. 如权利要求 8 所述的多肽, 其中所述多肽包括选自以下组成的组的氨基酸序列 : SEQ ID NO : 16、 18、 22、 24、 26、 28、 30、 32、 34、 38、 40 和 52。 10. 如权利要求 10 所述的多肽, 其中所述氨基酸序列包括一种或多种下述特征 : 对应于 SEQ ID NO : 2 的氨基酸 91 的残基是精氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基是丙氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 153 的残基选自甘氨酸和组氨酸组成的组 ;。

16、 对应于 SEQ ID NO : 2 的氨基酸 190 的残基是丙氨酸 ; 且 对应于 SEQ ID NO : 2 的氨基酸 260 的残基是酪氨酸。 11. 如权利要求 10 所述的多肽, 其中所述多肽包括选自以下组成的组的氨基酸序列 : SEQ ID NO : 18、 22、 30、 38、 40 和 52。 12. 如权利要求 8 所述的多肽, 其中所述相对活性是 SEQ ID NO : 2 活性的至少约 3 倍, 且其中对应于 SEQ ID NO : 2 的氨基酸 145 的残基是丙氨酸。 13. 如权利要求 12 所述的多肽, 其中所述多肽包括 SEQ ID NO : 52 的氨基酸。

17、序列。 14. 如权利要求 1 所述的多肽, 其中所述多肽能够在 24 小时内以至少 70的转化率转 化包含初始浓度为至少 10g/L 的 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 的反应混合物为叔丁基 (2S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯。 15. 如权利要求 14 所述的多肽, 其中所述多肽能够在 24 小时内达到至少 95的转化 率。 16.如权利要求14所述的多肽, 其中所述多肽能够转化(S)-叔丁基4-氯-3-氧-1-苯 基丁烷-2-基氨基甲酸酯为至少97非对映体过量的叔丁基(2S, 3R)-4-氯-3。

18、-羟基-1-苯 基丁烷 -2- 基氨基甲酸酯。 17. 如权利要求 14 所述的多肽, 其中所述反应混合物包含少于约 5g/L 的所述多肽。 18. 如权利要求 14 所述的多肽, 其中所述反应混合物包含初始浓度为至少 100g/L 的 (S)- 叔丁基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯。 19. 一种工程化的酮还原酶多肽, 所述多肽能够以比参考多肽 SEQ IDNO : 2 大至少 2 倍 的活性氧化异丙醇 (IPA) 为丙酮, 其中所述多肽包含与选自 SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 7。

19、8 和 80 的序列具有至少 70同一性的氨基酸序列。 20. 如权利要求 19 所述的多肽, 其中所述氨基酸序列与选自 SEQ IDNO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80 的序列具有至少 95同一性。 21. 如权利要求 19 所述的多肽, 其中所述氨基酸序列包括至少一种下述特征 : 权 利 要 求 书 CN 102482648 A 4 4/7 页 5 对应于 SEQ ID NO : 2 的氨基酸 144 的残基是半胱氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 145 的残基选自丙氨酸和缬氨酸组成的组 ; 对。

20、应于 SEQ ID NO : 2 的氨基酸 150 的残基选自异亮氨酸、 丝氨酸和色氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 190 的残基选自谷氨酰胺、 脯氨酸和缬氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 199 的残基选自甘氨酸和亮氨酸组成的组 ; 对应于 SEQ ID NO : 2 的氨基酸 200 的残基是异亮氨酸 ; 对应于 SEQ ID NO : 2 的氨基酸 204 的残基是苯丙氨酸 ; 且 对应于 SEQ ID NO : 2 的氨基酸 225 的残基是缬氨酸。 22. 如权利要求 19 所述的多肽, 其中所述氨基酸序列包含与 SEQ 。

21、IDNO : 2 相比的至少 一种以下取代 : V144C、 A150I、 A150S、 A150W、 G190P、 G190V、 M200I 和 V204F。 23. 如权利要求 19 所述的多肽, 其中所述氨基酸序列包含与 SEQ IDNO : 2 相比的至少 一种以下组的氨基酸取代 : G145A 和 I199L ; 和 G145A 和 I225V。 24. 如权利要求 19 所述的多肽, 其中所述活性比参考多肽 SEQ ID NO : 2 大至少 5 倍, 且其中所述氨基酸序列包含与 SEQ ID NO : 2 相比的至少一种以下取代 : A150W、 M200I 和 G190V。 2。

22、5.如权利要求19所述的多肽, 其中所述氨基酸序列选自SEQ ID NO : 6、 56、 60、 62、 64、 66、 68、 70、 72、 74、 76、 78 和 80。 26. 一种组合物, 所述组合物包含权利要求 1-25 任一项的多肽。 27. 一种多核苷酸, 所述多核苷酸编码权利要求 1-25 任一项的多肽。 28. 一种表达载体, 所述表达载体包含可操作地连接于能够指导编码的多肽在宿主细 胞中表达的控制序列的权利要求 27 的多核苷酸。 29. 如权利要求 28 所述的表达载体, 其中所述控制序列包含分泌信号。 30. 一种宿主细胞, 所述宿主细胞包含权利要求 27 或 2。

23、8 任一项的表达载体。 31. 如权利要求 30 所述的宿主细胞, 其中编码多肽的所述多核苷酸的密码子已被优化 以在所述宿主细胞中表达。 32. 一种制备权利要求 1 至 25 任一项的工程化的酮还原酶多肽的方法, 所述方法包括 培养权利要求 30 的宿主细胞, 并从所述宿主细胞分离所述多肽。 33. 一种制备大于约 95非对映体过量的式 (II) 化合物的方法, 所述方法包括 : 式 (II) 在适当的反应条件下将式 (I) 化合物 权 利 要 求 书 CN 102482648 A 5 5/7 页 6 式 (I) 与权利要求 1 至 18 任一项的工程化的酮还原酶多肽接触。 34. 如权利要。

24、求 33 所述的方法, 其中 R1是选自以下组成的组的氮保护基 : 甲酰基、 三苯甲基、 甲氧基三苯甲基、 甲苯磺酰基、 邻苯二甲酰亚氨基、 乙酰基、 三氯乙酰基、 氯乙酰 基、 溴乙酰基、 碘乙酰基、 苄氧羰基 (Cbz)、 9- 芴基甲氧羰基 (FMOC)、 2- 三甲硅烷基乙氧羰 基 (Teoc)、 1- 甲基 -1-(4- 联苯基 ) 乙氧羰基 (Bpoc)、 叔丁氧羰基 (BOC)、 烯丙氧基羰基 (Alloc)、 三卤代乙酰基、 苄基、 苯甲酰基和硝基苯基乙酰基。 35. 如权利要求 33 所述的方法, 其中 R1是叔丁氧羰基。 36. 如权利要求 33 所述的方法, 其中所述反应。

25、条件包括约 6.5 至约 9.5 的 pH。 37. 如权利要求 33 所述的方法, 其中所述反应条件包括约 9.0 的 pH。 38. 如权利要求 33 所述的方法, 其中所述反应条件包括从约 25至约 60的温度。 39. 如权利要求 33 所述的方法, 其中所述反应条件包括约 45的温度。 40. 如权利要求 33 所述的方法, 其中所述反应条件包括含水共溶剂系统。 41. 如权利要求 33 所述的方法, 其中所述反应条件包括包含从约 90 10(v/v) 至约 10 90(v/v) 的有机溶剂与水的比例的含水共溶剂系统。 42. 如权利要求 33 所述的方法, 其中所述反应条件包括包含。

26、从约 5至约 40异丙醇 的含水共溶剂系统。 43.如权利要求33所述的方法, 其中所述反应条件包括包含约10异丙醇的含水共溶 剂系统。 44. 如权利要求 33 所述的方法, 其中所述反应条件包括包含约 pH 9.0 和约 10异丙 醇的含水共溶剂系统。 45. 如权利要求 33 所述的方法, 其中所述多肽的浓度少于约 5g/L。 46. 如权利要求 33 所述的方法, 其中所述多肽的浓度少于约 1g/L。 47. 如权利要求 33 所述的方法, 其中所述式 (I) 化合物的浓度是至少约 100g/L。 48. 如权利要求 33 所述的方法, 其中所述式 (I) 化合物的浓度是至少约 150。

27、g/L。 49. 如权利要求 33 所述的方法, 其中所述多肽是大致上纯的多肽。 50. 如权利要求 33 所述的方法, 所述方法还包括选自以下组成的组的辅因子再生系 统 : 葡萄糖脱氢酶和葡萄糖、 甲酸脱氢酶和甲酸、 亚磷酸脱氢酶和亚磷酸、 以及异丙醇和仲 醇脱氢酶。 51. 如权利要求 50 所述的方法, 其中所述辅因子再生系统是仲醇脱氢酶。 52. 如权利要求 51 所述的方法, 其中所述仲醇脱氢酶是所述工程化的酮还原酶多肽。 53. 如权利要求 33 所述的方法, 其中所述非对映体过量是大于约 97。 54. 如权利要求 33 所述的方法, 其中在少于约 24 小时内至少约 95的所述。

28、式 (I) 化 合物被转化为所述式 (II) 化合物。 55. 如权利要求 33 所述的方法, 其中在少于约 24 小时内至少约 95的所述式 (I) 化 权 利 要 求 书 CN 102482648 A 6 6/7 页 7 合物被转化为所述式 (II) 化合物, 其中所述式 (I) 化合物的浓度是至少约 150g/L 且所述 多肽的浓度是少于约 1g/L。 56. 一种制备大于约 95非对映体过量的式 (III) 化合物的方法, 所述方法包括 : 式 (III) (a) 在适当的反应条件下将式 (I) 化合物与权利要求 1 至 23 任一项的多肽接触, 式 (I) 从而形成包含式 (II) 。

29、化合物的反应混合物 式 (II) (b) 用有机溶剂萃取所述反应混合物 ; 并 (c) 将有机溶剂萃取物与碱接触。 57. 如权利要求 56 所述的方法, 其中 R1是选自以下组成的组的氮保护基 : 甲酰基、 三苯甲基、 甲氧基三苯甲基、 甲苯磺酰基、 邻苯二甲酰亚氨基、 乙酰基、 三氯乙酰基、 氯乙酰 基、 溴乙酰基、 碘乙酰基、 苄氧羰基 (Cbz)、 9- 芴基甲氧羰基 (FMOC)、 2- 三甲硅烷基乙氧羰 基 (Teoc)、 1- 甲基 -1-(4- 联苯基 ) 乙氧羰基 (Bpoc)、 叔丁氧羰基 (BOC)、 烯丙氧基羰基 (Alloc)、 三卤代乙酰基、 苄基、 苯甲酰基和硝基。

30、苯基乙酰基。 58. 如权利要求 56 所述的方法, 其中 R1是叔丁氧羰基 (BOC)。 59.如权利要求56所述的方法, 其中进行将式(II)化合物与碱接触的所述步骤而不纯 化和 / 或分离所述式 (II) 化合物。 60. 如权利要求 56 所述的方法, 所述方法还包括从所述有机溶剂萃取物结晶所述式 (III) 化合物。 61. 如权利要求 56 所述的方法, 其中所述有机溶剂选自甲苯、 异丙醇、 MTBE、 正丁醇和 乙腈。 62. 如权利要求 61 所述的方法, 其中所述有机溶剂是 MTBE。 63. 如权利要求 62 所述的方法, 所述方法还包括用结晶溶剂交换所述有机溶剂萃取物 的。

31、有机溶剂, 并从所述结晶溶剂结晶所述式 (III) 化合物。 64. 如权利要求 63 所述的方法, 其中所述结晶溶剂是庚烷。 65. 如权利要求 56 所述的方法, 其中所述碱选自氢氧化钾 (KOH)、 叔丁醇钾、 碳酸钾和 权 利 要 求 书 CN 102482648 A 7 7/7 页 8 三乙胺。 66. 如权利要求 65 所述的方法, 其中所述碱是氢氧化钾 (KOH)。 67. 如权利要求 56 所述的方法, 其中所述非对映体过量大于约 97。 权 利 要 求 书 CN 102482648 A 8 1/51 页 9 酮还原酶介导的产生 氯代醇的立体选择性途径 1. 技术领域 0001。

32、 本公开内容涉及工程化的多肽和其用于从 - 氯代酮制备 - 氯代醇的用途。 0002 2. 对序列表、 表格或计算机程序的引用 0003 根 据 37C.F.R.1.821 以 计 算 机 可 读 形 式 (CRF) 通 过 EFS-Web 使 用 文 件 名 CX2-012WO1_ST25.txt 同时电子提交的序列表通过引用被并入本文。电子版的序列表创建 于 2010 年 6 月 22 日, 其文件大小为 143 千字节。 0004 3. 背景 0005 立体选择性还原 - 卤代 - 酮为其相应的手性卤代 - 醇是见于许多有用的合成途 径中的转化。例如, 形成抗病毒化合物阿扎那韦 (ata。

33、zanavir) 的合成途径包括还原来源自 L- 苯丙氨酸的 Boc- 氯 - 酮为相应的手性 Boc-(S)- 氯 - 醇。进行这一转化的标准化学技术 产生需要进一步拆分的期望中间产物的非对映体混合物, 增加了阿扎那韦生产的成本和降 低效率。因此, 能够更有效地立体选择性还原 - 卤代 - 酮为手性卤代 - 醇的方法和组合 物将是期望的。 0006 已经发现属于酮还原酶 (KRED) 或羰基还原酶类 (EC1.1.1.184) 的某些酶可用于 立体选择性转化前-立体异构的醛或酮底物为相应的手性醇产物。 KRED通常将酮或醛底物 转化为相应的醇产物, 但是还可以催化逆反应, 即醇底物被氧化为相。

34、应的酮 / 醛产物。酶例 如 KRED 对酮和醛的还原以及醇的氧化需要辅因子, 其中最常见的为还原型烟酰胺腺嘌呤 二核苷酸 (NADH) 或还原型烟酰胺腺嘌呤二核苷酸磷酸 (NADPH) 以及用于氧化反应的烟酰 胺腺嘌呤二核苷酸 (NAD) 或烟酰胺腺嘌呤二核苷酸磷酸 (NADP)。NADH 和 NADPH 充当电子 供体, 而 NAD 和 NADP 充当电子受体。 0007 KRED 正日益被用于立体选择性转化酮和醛为用于关键药物化合物生产的手性 醇化合物。使用 KRED 来产生有用的化合物的实例包括 4- 氯乙酰基乙酸酯的不对称还 原 (Zhou, J.Am.Chem.Soc.1983 1。

35、05 : 5925-5926 ; Santaniello, J.Chem.Res.(S)1984 : 132-133 ; 美国专利第 5,559,030 号 ; 美国专利第 5,700,670 号和美国专利第 5,891,685 号 )、 二氧代羧酸的还原 ( 例如美国专利第 6,399,339 号 )、 (S) 氯 -5- 羟基 -3- 氧代己酸 叔丁基酯的还原 ( 例如美国专利第 6,645,746 号和 WO 01/40450)、 基于吡咯并三嗪的化 合物的还原 ( 例如美国申请第 2006/0286646 号 )、 取代苯乙酮的还原 ( 例如美国专利第 6,800,477号)和酮噻吩烷。

36、(ketothiolanes)的还原(WO 2005/054491)。 在另一个方法中, 如本文证明的, 酮还原可在醇诸如异丙醇的存在下进行, 以提供逆反应 ( 醇脱氢 ) 的底物。 以这种方式, 酮还原反应中消耗的 NADH/NADPH 通过逆向、 氧化反应再生。 0008 美国专利第 7,083,973 号公开了一种通过利用红球菌属 (Rhodococcus) 和短 杆菌属 (Brevibacterium) 的某些物种还原含相应酮基团的化合物, 制备 (3S, 2R)-1- 卤 代 -2- 羟基 -3-( 保护的 ) 氨基 -4- 取代的丁烷的立体选择性方法。 973 专利公开, 仅 红球。

37、菌属和短杆菌属的选定物种催化该还原以形成高量和对映体产率的期望的 (3S, 2R)-1- 卤代 -2- 羟基 -3-( 保护的 ) 氨基 -4- 取代的丁烷。 973 专利公开, 将来自 150g 红串红球菌 (Rhodococcus erythropolis)ATCC 4277 细胞的 10mL 细胞提取物加载于 说 明 书 CN 102482648 A 9 2/51 页 10 10mg(1S)-N-(1- 苄基 -2- 氧 -3- 氯 ) 丙基 氨基甲酸叔丁基酯底物、 葡萄糖脱氢酶 (35 单 位 )、 0.7mM NAD+和 200mg 葡萄糖 ( 反应在 pH 6.0、 150RPM 。

38、搅动和 30进行 ) 以 95产率 和 98非对映体纯度产生 (1S, 2R)-N-(1- 苄基 -2- 羟基 -3- 氯 ) 丙基 氨基甲酸叔丁 基酯产物。 0009 因此, 能够以高产率和高的非对映体纯度立体选择性转化 - 卤代 - 酮为卤 代 - 醇的分离的 KRED 多肽将是期望的。同样, 利用 KRED 多肽进行大规模手性卤代 - 醇的 制备的改进方法将是期望的。 0010 4. 概述 0011 本公开内容提供能够立体选择性地转化 - 卤代 - 酮为手性卤代 - 醇的酮还原酶 多肽, 和在合成方法中利用这些多肽来制备化学化合物的方法, 所述化学化合物诸如生产 活性药物成分诸如抗逆转录。

39、病毒药物阿扎那韦中的中间产物。 0012 在某些实施方案中, 本公开内容提供能够转化式 (I) 化合物 N- 保护的 (S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 酮 ( 其中 R1是保护基 ) 为相应的立体异构醇式 (II) 产物 N- 保 护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇的酮还原酶多肽, 如以下方案 1 所示。 0013 方案 1 0014 0015 在具体实施方案中, 本公开内容提供能够转化氯代酮化合物 (1)(S)- 叔丁 基 4- 氯 -3- 氧 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 为相应的醇化合物 (2)( 叔丁基 (2。

40、S, 3R)-4- 氯 -3- 羟基 -1- 苯基丁烷 -2- 基氨基甲酸酯 ) 的酮还原酶多肽, 如以下方案 2 所示 : 0016 方案 2 0017 0018 在某些实施方案中, 本公开内容提供能够在 24 小时内以至少 70的转化率转化 包含初始浓度为至少 10g/L 化合物 (1) 的反应混合物为化合物 (2) 的酮还原酶多肽。在某 些实施方案中, 能够进行这一转化的多肽的浓度是 5g/L、 2g/L、 1g/L、 或更少。在某些实施 方案中, 所述多肽能够在 24 小时或甚至更少时间内达到至少 80、 85、 90、 95、 98、 99、 或更高的转化率。在某些实施方案中, 所述。

41、多肽能够转化化合物 (1) 为大于约 95、 大于约 97或大于约 99非对映体过量的化合物 (2)。在某些实施方案中, 所述多肽能够 说 明 书 CN 102482648 A 10 3/51 页 11 对包含初始浓度为至少 20g/L、 40g/L、 60g/L、 80g/L、 100g/L、 150g/L、 200g/L 或甚至更多的 化合物 (1) 的反应混合物达到上述转化率。 0019 在某些实施方案中, 本公开内容提供转化式 (I) 化合物为式 (III) 化合物的方法 ( 参见方案 3), 其中 R1如上所述, 所述方法包括利用本公开内容的酮还原酶转化式 (I) 化 合物为式 (I。

42、I) 化合物, 然后将式 (II) 化合物与碱接触以提供式 (III) 化合物。 0020 方案 3 0021 0022 在某些实施方案中, 该方法还包括将包含式 (II) 化合物的反应混合物萃取到有 机溶剂萃取物中, 将所述萃取物与碱接触。 在某些实施方案中, 该方法还包括用结晶溶剂交 换所述有机溶剂萃取物, 并结晶式 (III) 化合物。在某些实施方案中, 进行将式 (II) 化合 物与碱接触的所述步骤而不首先纯化和 / 或分离式 (II) 化合物。 0023 因此, 在具体实施方案中, 本公开内容提供转化化合物 (1) 为化合物 (3)( 叔丁基 (S)-1-(R)- 环氧乙烷 -2- 。

43、基 )-2- 苯乙基氨基甲酸酯 ) 的方法, 包括利用本公开内容的酮 还原酶转化化合物 (1) 为化合物 (2), 然后将化合物 (2) 与碱接触以提供化合物 (3)( 参见 方案 4)。 0024 方案 4 0025 0026 在某些实施方案中, 该方法还包括将包含化合物 (2) 的反应混合物萃取到有机溶 剂萃取物中, 将所述萃取物与碱接触。 在某些实施方案中, 该方法还包括用结晶溶剂交换所 述有机溶剂萃取物, 并结晶化合物 (3)。在某些实施方案中, 进行将化合物 (2) 与碱接触的 所述步骤而不首先纯化和 / 或分离化合物 (2)。 0027 在一些实施方案中, 还原或转化底物 N- 保。

44、护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 ( 如化合物 (1) 为其相应的立体异构醇产物 N- 保护的 (2R, 3S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 醇 ( 如化合物 (2) 的方法, 包括在适于还原或转化底物为产物的 条件下将所述底物与至少一种本文公开的酮还原酶多肽接触或培养。 0028 在上述方法的一些实施方案中, 底物被还原为大于约 95、 大于约 97或大于约 99非对映体过量的产物, 其中酮还原酶多肽包括对应于 SEQ IDNO : 4、 6、 8、 10、 12、 14、 16、 说 明 书 CN 102482648 A 11 4/5。

45、1 页 12 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的序列。 0029 在上述方法的某些实施方案中, 当以大于约 100g/L 底物和少于约 5g/L 多肽进行 时, 至少约 95的底物在少于约 24 小时内被转化为产物。在某些实施方案中, 能够进行该 方法的多肽包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列。在上述方法的一些实施 方案中, 当以大于约 150g/L 底物和少于约 1g/L 多肽进行时, 至少约 95的底物在少于约 3。

46、0 小时内被转化为产物, 其中多肽包括对应于 SEQ ID NO : 6、 50、 52 和 56 的氨基酸序列。 0030 一方面, 本文所述的酮还原酶多肽具有与野生型酮还原酶相比或与工程化的酮还 原酶相比具有一种或多种氨基酸差异的氨基酸序列。一种或多种氨基酸差异导致该酶对 指定底物至少一种改进的特性。通常, 本文所述的酮还原酶多肽是与从 Novosphingobium aromaticivorans 获得的天然存在的野生型酮还原酶 (“N.aromaticivorans” ; SEQ ID NO : 2)相比具有一种或多种改进的特性的工程化的酮还原酶多肽。 工程化的酮还原酶多肽的酶 特性的。

47、改进包括以下的增加 : 酶活性、 立体选择性、 立体特异性、 热稳定性、 溶剂稳定性、 对 底物水平升高的耐受和对产物水平升高的耐受。 0031 在一些实施方案中, 本发明的酮还原酶多肽与 SEQ ID NO : 2 相比在酶促活性的比 率 (rate) 方面是改进的, 即, 还原 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 酮 (“底 物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 醇 (“产物” )( 如, 化合物 (2) 的转化率 (conversion rat。

48、e)。在一些实施方案 中, 在相当的检验条件下, 工程化的酮还原酶多肽能够以SEQ ID NO : 2的酶表现的速率的至 少 1.1 倍、 1.2 倍、 1.3 倍、 1.5 倍、 2 倍、 3 倍或大于 3 倍的转化率转化底物为产物。 0032 在一些实施方案中, 这种酮还原酶多肽还能够转化 N- 保护的 (S)-3- 氨 基 -1- 氯 -4- 苯基丁 -2- 酮 (“底物” )( 如, 化合物 (1), 其中保护基是 BOC 部分 ) 为非对 映体过量百分比至少约 95的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 ( “产 物” )( 如化合物 。

49、(2)。在一些实施方案中, 这种酮还原酶多肽还能够转化底物为非对映体 过量百分比至少约 97的产物。在一些实施方案中, 这种酮还原酶多肽还能够转化底物为 非对映体过量百分比至少约 99的产物。具有这种特性的示例性的多肽包括但不限于, 包 含对应于 SEQ ID NO : 4、 6、 8、 10、 12、 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34、 36、 38、 40、 42、 44、 46、 48、 50、 52、 54、 56 和 58 的氨基酸序列的多肽。 0033 在一些实施方案中, 酮还原酶多肽能够转化 N- 保护的 (S)-3- 氨基 -1- 氯 -4- 苯 基丁 -2- 酮 (“底物” )( 如化合物 (1), 其中保护基是 BOC 部分 ) 为非对映体过量百分比 至少约 99的 N- 保护的 (2R, 3S)-3- 氨基 -1- 氯 -4- 苯基丁 -2- 醇 (“产物” )( 如化合物 (2), 转化率比 SEQ ID NO : 2 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 化学;冶金 > 生物化学;啤酒;烈性酒;果汁酒;醋;微生物学;酶学;突变或遗传工程


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1