本申请要求在2006年6月23日提交的未决美国临时专利申请序 列号60/816,202和在2007年6月6日提交的未决美国临时专利申请序 列号60/933,312的优先权。
技术领域
本发明提供蛋白质工程改造方法。具体地,本发明提供利用 位点评价文库(site evaluation library)的方法。
背景技术
各种蛋白质工程方法为本领域技术人员已知。一般地,为了 获得期望的蛋白质性质,对蛋白质进行修饰。在大部分方法中,对编 码蛋白质的克隆基因的核苷酸序列进行突变,并且修饰的基因被表达 以产生突变体,筛选所述突变体的目标活性。通常,将突变体性质与 野生型蛋白质的性质进行比较。
在历史上,蛋白质设计方法被作为等同于在所有蛋白质空间 中找寻用于期望应用的一种最好序列的问题进行研究。该问题极其困 难并且是“NP难题(NP hard)”。在复杂性理论中,被定义为P类的问 题被认为是容易的,对于它们的解存在有效的多项式-时间算法。NP 难题问题是这样的问题:其有效的多项式-时间算法目前是未知的,并 且如果任何NP难题问题可以被解决的话,则所有NP难题问题都可以 被解决(参见例如Pierce和Winfree,Protein Engineer.,15:779-782 [2002])。目前构建和筛选文库的策略一般涉及在整个序列中随机地或 者在蛋白质内确定的位置以控制的随机方式产生蛋白质序列多样性。 这些文库一般具有大量成员,它们基本的目标性质是“负向的”,并且 需要大量的数目被筛选以找到相对小量的正突变。一般地,负突变被 忽略,并且只获得正成员的序列信息。
饱和诱变(Estell等,在World Biotech Report 1984,vol.2:USA, Online Publications,London[1984],第181-187页;和Wells等,Gene 34:315-323[1985])是一项可被用于寻找蛋白质空间中优化蛋白质几种 性质的突变的技术。几个研究小组已经开发了鉴别将被饱和诱变改变 的位点的策略(Reetz等,Angew.Chem.Int.Edn.,44:4192-4196[2005]; Kato等,J.Mol.Biol.,351:683-692[2005];和Sandberg等,Proc.Natl. Acad.Sci.,90:8367-8371[1993]),但是还没有提出位点鉴别的通用系 统。
此外,因为大部分蛋白质工程改造方法产生大量氨基酸突变 选择,所以一般需要对大量变体进行筛选以产生期望的蛋白质性质。 一般地,反复进行筛选以产生有益的变体。因此,大部分方法是艰巨 且费时的。本领域对有效的且产生期望结果的蛋白质工程改造方法存 在持续需求。
发明内容
本发明提供蛋白质工程改造方法。具体地,本发明提供利用 位点评价文库的方法。特别地,本发明提供使用所获得的关于许多期 望性质的信息的方法,以便合理且有效地设计将优化那些性质的文库。 在一些实施方式中,本发明提供设计对至少两种期望性质来说是改进 的文库的方法。
本发明提供在蛋白质的氨基酸序列内鉴别在改进所述蛋白质 的期望性质方面相关的位置的方法。在一些特别优选的实施方式中, 本发明提供确定哪些突变是期望的方法,以便产生具有这些期望性质 以及改进的性质的蛋白质。在一些另外特别优选的实施方式中,本发 明提供鉴别改进的具体百分数好于野生型蛋白质(例如,对于一种性 质来说好于野生型的110%)的氨基酸位置和突变的方法。在仍是进一 步优选的实施方式中,本发明提供鉴别这样的突变的方法,所述突变 提供至少一个改进很多的性质以及至少一个比野生型蛋白质没有显著 差的另外性质(例如对于一种性质来说,好于野生型的110%,但对于 另外一个性质没有差于野生型的90%)。在仍是进一步优选的实施方式 中,基于该信息构建文库。在一些实施方式中,利用所有鉴别的突变 构建文库,而在一些其它的实施方式中,利用所鉴别突变的子集构建 文库。实际上,没有意图将文库限于任何特定的突变数目和/或突变类 型。
本发明提供蛋白质工程改造方法,其包括下列步骤:提供蛋 白质变体文库;在目标测试中测试所述蛋白质变体文库的至少一种目 标性质;鉴别所述至少一种目标性质的值的范围;鉴别与所述目标测 试中有利结果相关的所述值的范围内的最小值;并且提供多个具有至 少一种突变的蛋白质变体——其在所述至少一种目标性质的所述范围 内所述最小值之上,因此提供包含至少一种突变的蛋白质变体文库, 并且其中所述文库富含在所述目标测试中具有有利结果的成员。在一 些实施方式中,所述有利结果对应着在上述第一步骤中所提出的测试 中观测到的最大值的大于50%、60%、70%、80%、90%或95%的值。 在一些可选的实施方式中,一个以上目标测试被用于本发明的方法中。 在一些优选的实施方式中,蛋白质是酶。在一些特别优选的实施方式 中,所述酶选自蛋白酶、转移酶、金属蛋白酶、酯酶、淀粉酶、纤维 素酶、氧化酶、角质酶和脂肪酶。
本发明还提供蛋白质工程改造方法,其包括下列步骤:提供 蛋白质变体文库;在目标测试中测试所述蛋白质变体文库的至少两种 目标性质;鉴别所述至少两种目标性质的值的范围;鉴别与目标测试 中有利结果相关的值的范围内的最小值;并且提供在所述至少两种目 标性质的范围内所述最小值之上的多个蛋白质变体,因此提供富含在 目标测试中具有有利结果的成员的蛋白质变体文库。权利要求5所述 的方法,其中所述有利结果对应着在上述第一步骤中所提出的测试中 观测到的最大值的大于50%、60%、70%、80%、90%或95%的值。在 一些优选的实施方式中,蛋白质是酶。在一些特别优选的实施方式中, 所述酶选自蛋白酶、转移酶、金属蛋白酶、酯酶、淀粉酶、纤维素酶、 氧化酶、角质酶和脂肪酶。
本发明还提供蛋白质工程改造方法,其包括下列步骤:提供 野生型蛋白质以及所述野生型蛋白质的蛋白质变体文库;在目标测试 中测试所述蛋白质变体文库和所述野生型蛋白质的至少一种目标性 质;鉴别所述至少一种目标性质的值的范围;鉴别与目标测试中有利 结果相关的值的范围内的最小值;鉴别与野生型所获得的结果比较具 有有利的结果的蛋白质变体,其中所述有利的结果是改进的目标性质; 并且提供在所述至少一种目标性质的范围内所述最小值之上的多个蛋 白质变体,因此提供富含在目标测试中具有有利结果的成员的改进蛋 白质变体文库。在一些优选的实施方式中,所述方法进一步包括确定 性能指数的步骤,其中所述性能指数是通过用每个改进的蛋白质变体 所获得的值除以所述野生型蛋白质所获得的值确定的。在一些特别优 选的实施方式中,所述方法进一步包括鉴别改进的蛋白质变体的步骤, 其中所述改进的蛋白质变体在目标测试中达到大于1.1的性能指数。在 一些另外的实施方式中,蛋白质是酶。在一些特别优选的实施方式中, 所述酶选自蛋白酶、转移酶、金属蛋白酶、酯酶、淀粉酶、纤维素酶、 氧化酶、角质酶和脂肪酶。在一些可选的实施方式中,蛋白质选自抗 体和生长因子。在仍是另外优选的实施方式中,所述野生型蛋白质是 选自下列的酶的成熟形式:蛋白酶、转移酶、金属蛋白酶、酯酶、淀 粉酶、纤维素酶、氧化酶、角质酶和脂肪酶。在一些优选的实施方式 中,目标性质选自电荷、洗涤性能、硬表面清洁性能、热稳定性、储 存稳定性、洗涤剂稳定性、底物结合、酶抑制、表达水平、反应速率 和底物降解。在一些实施方式中,野生型蛋白质和蛋白质变体是至少 一种洗涤剂组合物的成份。在一些优选实施方式中,洗涤性能是在具 有5至12.0之间的pH、被配制成粉末状或液体洗涤剂的洗涤剂组合物 中测试的。
本发明还提供在蛋白质折叠内生产改进的亲代蛋白质变体的 方法,其包括:在目标测定中跨目标性质的范围测定所述蛋白质折叠 内测试蛋白质的多个变体;鉴别在与所述目标测定中有利结果相关的 所述目标性质的所述范围内的最小值;在目标测定中测定所述蛋白质 折叠的亲代蛋白质;并且通过在亲代蛋白质中引入氨基酸取代产生亲 代蛋白质的改进的变体,使得改进的变体在目标性质的范围的最小值 之上。在一些优选的实施方式中,亲代蛋白质和测试蛋白质是不同的。 在一些实施方式中,所述方法进一步包括确定性能指数的步骤,其中 所述性能指数是通过用改进的蛋白质变体所获得的值除以所述亲代蛋 白质所获得的值确定的。在一些实施方式中,测试蛋白质和亲代蛋白 质是酶。在一些特别优选的实施方式中,所述酶选自蛋白酶、转移酶、 金属蛋白酶、酯酶、淀粉酶、纤维素酶、氧化酶、角质酶和脂肪酶。 在一些可选的实施方式中,测试和亲代蛋白质选自抗体和生长因子。 在仍是另外优选的实施方式中,所述亲代蛋白质是选自下列的酶的成 熟形式:蛋白酶、转移酶、金属蛋白酶、酯酶、淀粉酶、纤维素酶、 氧化酶、角质酶和脂肪酶。在一些优选的实施方式中,目标性质选自 电荷、洗涤性能、硬表面清洁性能、热稳定性、储存稳定性、洗涤稳 定性、底物结合、酶抑制、表达水平、反应速率和底物降解。在一些 实施方式中,测试和亲代蛋白质是至少一种洗涤剂组合物的成份。在 一些可选的实施方式中,改进的蛋白质变体是洗涤剂组合物的成份。 在一些优选的实施方式中,洗涤性能是在具有5至12.0之间的pH、被 配制成粉末状或液体洗涤剂的洗涤剂组合物中测试的。
附图说明
图1提供每个性能所获得的2851ΔΔGapp值的分布。
图2A提供与64个随机选择的文库成员的ΔΔGapp值的实际 分布相比,计算对于一千个随机选择的四个位点处突变的组合来说 LAS稳定性和角蛋白活性的ΔΔGapp值的期望分布所得的结果。
图2B显示对64个随机选择的文库成员所观测到的实际分布。
具体实施方式
本发明涉及蛋白质工程改造方法。具体地,本发明提供利用 位点评价文库的方法。
对于实际目的来说,为了产生对于特定应用来说最优的蛋白 质,在蛋白质空间中找寻最好的序列通常不是必需的。对于大部分应 用来说,要解决的问题是鉴别至少一种满足或超过许多性质所需的最 小值的蛋白质序列。这需要具有对特定性质有利的突变的知识以及对 任何期望性质不利的那些突变的知识。本发明提供通过在蛋白质中鉴 别那些可被改变以改进基本性质并且将其它性质的值保持在期望限度 内的位置而实现目标的方法。
本发明提供通过在每个位点建立“位点评价文库”评价蛋白 质内所有位置的所有目标性质的方法。在优选的实施方式中,这些文 库在每个位置含有9-19个突变,并且被用于评价每个位置在工程改造 蛋白质和构建文库方面的应用。相对亲代酶对每个性质进行测量,并 且计算每个突变体相比野生型的表观自由能差。这些德耳塔德耳塔G (“即,ΔΔG”)表观值然后被用于测定可加性。
分析变体的理想方式是通过在目标过程中变体相比亲代蛋白 质的自由能差。过程的吉布斯(Gibbs)自由能代表系统可做的功的最 大量。与亲代酶相比的自由能变化(ΔΔG)如下给出: ΔΔG=-RT ln(k变体/k亲代) 其中k变体是变体酶的速率常数,k亲代是亲代酶的速率常数,R是气体定 律常数以及T是绝对温度。大部分试验没有设计得允许测定真实的自 由能,所以我们利用下列量: ΔΔGapp=-RT ln(P变体/P亲代) 其中P变体是变体的性能值以及P亲代是在相同条件下亲代酶的性能 值。对于数据分布和可加性,ΔΔGapp值可被期望以类似于ΔΔG的方 式表现。然而,因为ΔΔG是与亲代酶比较变体可以做的功的最大量, 所以ΔΔGapp的量一般将低估了ΔΔG并且将导致表现出增效的结果, 原因在于两个加和位置的性质可能大于通过将它们的ΔΔGapp值加在 一起所预知的值。
本发明的方法被用于设计有效的文库,所述文库被用于平行 工程改造多个性质。尽管本文描述的是“ASP”——189个氨基酸丝氨 酸蛋白酶,但该方法适用于要工程改造的任何目标蛋白质。ASP蛋白 酶在丝氨酸蛋白酶的S 1E家族中(参见,例如Rawlings等,Nucleic Acids Res.,34:D270-D272[2006])并且是灰链霉菌肽酶(streptogrisin)的同 系物。衍生自纤维单胞菌属菌株69B4(Cellulomonas strain 69B4)(DSM 983316035)的成熟丝氨酸蛋白酶是189个氨基酸长(SEQ ID NO:2), 其含有由His32、Asp56和Ser137组成的催化三联体,如下所示(其中 催化三联体以粗体和下划线表示): FDVIGGNAYT IGGRSRCSIG FAVNGGFITA GCGRTGATT ANPTGTFAGS SFPGNYAFV RTGAGVNLLA QVNNYSGGRV QVAGHTAAPV GSAVCRSGST TGWHCGTITA LNSSVTYPEG TVRGLIRTTV CAEPGDGGS LLAGNQAQGV TSGGSGNCRT GGTTFFQPVN PILQAYGLRM ITTDSGSSP(SEQ ID NO:2)
位点评价文库(SELs)是如本文所述通过在189个位置中的 每个位置上引入12至19个取代构建的。189个位置处的2851个突变 是利用三个不同的活性试验和两个不同的稳定性试验进行分析的。每 个位置平均有15个突变。
SEL变体数据的评价
表I提供蛋白质中一个位置即位置14的数据。
对于每个位置,野生型氨基酸作为参考点被列出。在位置14, R014R代表野生型,并且R014X代表测量的每个突变。对于每种性质, 16次测量被用于确定亲代酶的ΔΔGapp平均值和标准偏差。亲代平均 值(μ亲代)归一化为0,并且确定ΔΔGapp的标准偏差(σ亲代)。这些 值被用作分子的每个位置处每种性质的参照,并且在表I中被列在 R014R行。
全部2851个突变体的结果总结被提供在表II中。突变被分成 两类——“上升(UP)”和“下降(Down)”。如果ΔΔGapp是负的或者0, 突变体是“上升”,并且如果ΔΔGapp是正的,突变体是“下降”。突变 是上升或下降的概率是通过数上升或下降的突变的个数并且将该个数 除以突变的总数(即,在ASP的情况下是2851)来确定的。对于特定 性质,突变是下降的概率(即,p下降(pDown))被发现在84-94%的 范围内。对于特定性质,突变是上升的概率(即,p上升(pUp))被 发现在6-16%的范围内。这些数据表明,对一种性质有利的累积突变 需要所有其它的性质将变差。
每种性质所获得的2851个ΔΔGapp值的分布显示在图1中。 在一些实施方式中,所有性质的分布被模拟为两个或更多个高斯 (Gaussian)分布的加和。这与文献中报道的文库的自由能分布一致 (Lancet等,Proc.Natl.Acad.Sci.USA 90:8367-8371[1993];和Lu等, Proc.Natl.Acad.Sci.USA 98:1410-1415[2001])。因此,每种性质的平 均ΔΔGapp值都基本上比亲代酶差。对于具有1%或更少亲代活性(ΔΔ Gapp>2.7)的每个突变,该值任意地固定在1%,这是由于试验系统中 固有的误差。对于每种性质,大量突变具有1%或更少的亲代活性。对 于这些数据并且对于呈现出多于5%的亲代酶活性的突变体子集,计算 平均值和标准偏差(参见表III)。
2851个变体的每种性质的平均ΔΔGapp值在0.9至1.5千卡/ 摩尔之间变化,其对应着亲代酶活性的20%至7%。
重要的是要注意,这些分布也代表着在随机文库中预期的Δ ΔGapp值分布,其每个成员平均具有一个突变。
为了证明性质之间的相关性,对位点评价数据进行测试。每 种性质的ΔΔGapp值对每种其它的性质作图,并且相关系数被计算且显 示在表IV中。蛋白质底物上两种活性测量是相关的(r2=0.77),其中 对合成肽底物AAPF具有活性的任一蛋白质底物仅有弱的相关性(r2= 0.53)。两种稳定性测量都不与活性测量相关或者相互之间不相关。
SEL位置数据的评价
为了分析氨基酸序列内的位置,定义了两种类型的位点。“非 生产性(unproductive)”位点没有比亲代酶好的突变,而“生产性 (productive)”位点具有至少一个比亲代酶好的取代。表V提供ASP 的189个位置内每个性质的生产性和非生产性位点的数目。位点将是 生产性的概率是通过生产性位点的数目除以位点总数(189)得到的。 尽管任何突变将好于亲代酶的概率低(即,6%-28%),但是给定位点 将具有至少一个上升突变的概率非常高。
令人感兴趣的是确定生产性和非生产性位点相对于ASP中的 结构特征(例如隐蔽氨基酸、相互作用的氨基酸、靠近活性位点的位 置等)以及在进化中保守或可变化的序列位点是如何分布的。为了进 行该确定,对ASP的结构进行检查,并且该序列与20个非冗长的同系 物比对(Edgar,Nucl.Acids Res.,32:1792-1797[2004])。结果被提供 在表VI中。
值得注意的是,对于所研究的性质,在ASP的疏水性核中没 有发现生产性位点。同样令人感兴趣的是注意到,酪蛋白活性的大部 分生产性位点没有一个接近催化三联体。只有一个酪蛋白生产性位点 (P118)与底物接触。其余的酪蛋白生产性位点分布于整个蛋白质上 的可弯曲表面环。靠近活性位点处,没有发现角蛋白活性的生产性位 点。发现这些位点分布在整个分子的表面上。角蛋白生产性位点最接 近的是R014,其距离催化丝氨酸(S137,Ca-Ca距离)几乎仍有13A 远。
LAS稳定性生产性位点的位置遵循分布于整个蛋白质的可弯 曲表面环上的总体方案。这也适用于热稳定性生产性位点的位置,其 中有一个例外:C033与氨基酸序列中的H032具有范德华接触并且与 其连贯相邻。
基于序列对比,位点被鉴别为“保守的”(20个序列内没有 差别)、“可变的”(在20个序列内6个或以上不同的氨基酸)、或 者相对于ASP“插入或缺失的位点”。预期的数目是从位点满足给定 条件并且对于给定性质来说是生产性的或非生产性的概率来计算的。 计算所观测到的数目与预期的数目的比值;在1.4以上以及在0.6以下 的数目被认为是表明特定类型位点过多表示或不足表示。截止值是基 于从与每种类型位点的数目相匹配的10个随机产生的数据集的结果进 行选择的。发现,对于蛋白酶对两种蛋白质底物的活性以及对LAS的 稳定性来说,隐蔽残基和带有几个接触的残基与非生产性位点强烈相 关。令人惊讶地,与生产性相比,靠近活性位点的位置被发现更有可 能是非生产性的。在序列对比中,对于蛋白质底物的活性以及对于LAS 稳定性来说,保守的位点尤其可能是非生产性的,而高可变位点以及 插入或缺失的位点对于活性来说更有可能是生产性的,对稳定性几乎 没有作用。
如实施例5所示,不管性质的相关性如何,对任意性质来说 有害的突变与对每个其它的性质来说有害的突变相关。只有少量的位 置(5-10%)具有对全部性质来说有害的突变。这些位置定义了“折叠” 并且在进化中是保守的。这一点的隐含意思是,尽管对任意性质来说 有利突变的鉴别需要对那种性质来说真正有预言性的筛选,但是对任 意性质来说可能有害的突变的鉴别可以通过任意筛选来完成。简化的 蛋白质工程策略是用简单的活性和/或稳定性筛选建立SELs和进行筛 选。有害的突变被鉴别并且那些具有很少有害突变的位置被用于建立 文库以及组合的突变被用于改进多个性质。另外,挑选位于蛋白质表 面、具有很少相互作用并且在序列比对中可变的位点提供了高比例的 生产性位点。位于分子内部、具有很多接触并且在进化中被强烈保守 的位点将具有高的具有有害突变的概率并且应当被避免。应考虑到, 任何分析序列和/或结构信息的合适方法将被用于本发明,所述方法包 括但不限于计算机和/或电子方法和/或程序。
在实施例5中提供的表提供了对于两种性质中每一种来说具 有多于5%wt活性和小于5%活性的变体数目的成对比较,以及这两种 性质的相关系数。来自三种酶即ASP、ACT和NPRe的结果被显示, 尽管没有意图将本发明限于这些具体的酶,因为本文提供的方法被用 于任何蛋白质。
酶(ASP、ACT和NPRe)和试验系统被详细描述在美国专利 申请序列号10/576,331、10/581,014、11/581,102和11/583,334中,它 们都被引入其全部内容作为参考。此外,在2007年6月6日提交的美 国临时专利申请序列号60/933,312中提供的方法与本发明一起被使用。 本文所用的性质对于ASP来说是酪蛋白活性(CAS)、角蛋白活性 (KER)、AAPF活性(AAPF)、LAS稳定性(LAS)以及热稳定性; 以及对于ACT来说是过酸形成(PAF)和过酸降解(PAD)。在这些 实验中,被发现相关(相关系数>0.5)的性质只有对于ASP来说的 CAS、KER和AAPF。所有其它的性质都是不相关的(相关系数<0.3)。 不管性质是不相关的这一事实,突变对于两种性质来说将有害的概率 比偶然预期的高很多。在该表中,提供的是观测到的变体数目与偶然 预期的变体数目的计算比值。大于1的数表明正相关,小于1的数表 明负相关。
文库设计
在一些特别优选的实施方式中,位点评价文库数据被用于组 合文库的设计。传统的定向进化建立了随机文库并且对于单一性质来 说筛选了大量文库,将这些组合并且重复该过程。正如几个研究者已 经发现的(参见例如,Bloom等,Curr.Opin.Struct.Biol.,15:447-452 [2005];Bloom等,Proc.Natl.Acad.Sci.USA 103:5869-5874[2006];和 Guo等,Proc.Natl.Acad.Sci.USA 101:9205-9210[2004]),对于一种 性质来说正突变的累积通常导致其它性质的下降。这也容易地显示在 表II中,因为任何突变对于任何性质来说将是上升的概率小,任何突 变将是下降的概率高(>85%),并且累积三个(3)以上的增加活性 的突变将导致几个其它性质的下降的概率非常高。
然而,该问题通过使用位点评价数据建立有利于多个性质的 文库得以避免。非生产性位点将不被包括在组合文库中,并且生产性 位点进一步按照上升的突变的百分数来划分。四个非相互作用位点的 组(14-24-127-159)被用于设计文库以一次性改进两种性质,其中所 述位点对于LAS稳定性和角蛋白活性来说具有高百分数的上升突变 (参见表VII)。
假定位点具有相加性,预期的ΔΔGapp值是针对文库计算的, 并且与实际文库所确定的值相比较。在一些实施方式中,对于性质具 有相加性的位点来说,结果通常一致。但是,在其它实施方式中—— 其中结果与预期不一致,它们不一致的方式提供了关于位点相互作用 (一种或多种)、性质不具相加性和/或所用的试验的适当性的信息。
计算对于一千个随机选择的四个位点处突变组合来说LAS稳 定性和角蛋白活性的ΔΔGapp值的预期分布,并且将其与64个随机选 择的文库成员的ΔΔGapp值的实际分布比较。结果显示在图2A中。图 2B显示了对64个随机选择的文库成员所观测到的实际分布。该文库 明显具有大量对于LAS稳定性和角蛋白活性来说比亲代酶好的成员。 所观测到的0.02千卡的角蛋白活性的平均值与-0.01千卡的预期平均值 非常一致,这符合这些位点的相加性。对于LAS稳定性结果来说,所 观测到的-1.13的平均值明显超过-0.28的预期值,尽管标准偏差是相似 的(参见表VIII)。
在LAS稳定性的情况下,SEL突变体的原始试验低估了真实 的ΔΔGapp值。对试验进行改变,温育温度从25℃升高至35℃,因为 大部分文库成员在试验条件下是稳定的并且该文库是在更严格的条件 下进行试验的。ΔΔGapp值被校正以将这一点考虑在内,但是假定符合 标准偏差,该校正仍可能低估真实的ΔΔGapp值,并且位点对于LAS 稳定性来说仍可能具有相加性。
定义
除非另外说明,本发明的实施将包括在分子生物学、蛋白质 工程、微生物学和重组DNA中通常使用的常规技术,其在本领域的技 能范围之内。这样的技术对于本领域普通技术人员而言是已知的,并 且被描述在许多教材和参考书中(参见,例如Sambrook等,“Molecular Cloning:A Laboratory Manual”,第二版(Cold Spring Harbor),[1989];和 Ausubel等,“Current Protocols in Molecular Biology”[1987])。在本文中 提及的所有专利、专利申请、文章和出版物,无论上文还是下文中提 及,都由此明确并入本文作为参考。
除非本文中另外定义,本文中所使用的所有技术和科学术语 具有与本发明所属领域的普通技术人员所理解的含义相同的含义。例 如,Singleton和Sainsbury,Dictionary of Microbiology and Molecular Biology,第二版,John Wiley and Sons,NY(1994);以及Hale和Marham, The Harper Collins Dictionary of Biology,Harper Perennial,NY(1991)为 本领域普通技术人员提供了在本发明中使用的许多术语的通用词典。 尽管和本文中描述的那些相似或等同的任何方法和材料在本发明的实 践中可以使用,但是优选的方法和材料仍在本文中被描述。因此,通 过整体参考说明书,下面即将被定义的术语被更全面地描述。同样, 如本文所使用,单数形式的“一(a)”、“一(an)”和“该(所述,the)” 包括复数含义,除非上下文明确另行指出。数字范围包括限定该范围 的数字。除非另外指出,分别地,核酸以5′到3′的方向从左到右书写; 氨基酸序列以氨基到羧基的方向从左到右书写。可以理解,本发明并 不限于所述的具体方法、步骤和试剂,因为根据本领域技术人员使用 它们的背景(上下文),它们可以变化。
除非另外说明,本发明的实施利用了蛋白质纯化、分子生物 学、微生物学、重组DNA技术和蛋白质测序中的常规技术,其全部在 本领域技术人员的范围之内。
而且,本文所提供的标题并非是对本发明的各个方面或各种 实施方式的限制,其可以通过整体参考说明书而被拥有。因此,通过 整体参考说明书,下面即将被定义的术语被更加充分地定义。但是, 为了帮助理解本发明,下面定义了许多术语。
如本文所使用,术语“蛋白酶”和“蛋白水解活性”是指这 样的蛋白质或肽,其呈现出水解具有肽键的肽或底物的能力。存在许 多众所周知的用于测量蛋白水解活性的方法(Kalisz,″Microbial Proteinases,″在Fiechter(ed.),Advances in Biochemical Engineering/Biotechnology,[1988]中)。例如,蛋白水解活性可以通过比较试验来 确定,所述比较试验分析各个蛋白酶水解商业底物的能力。用于分析 蛋白酶或蛋白水解活性的示例性底物包括但不限于二甲基酪蛋白 (Sigma C-9801)、牛胶原(Sigma C-9879)、牛弹性蛋白(Sigma E-1625) 和牛角蛋白(ICN Biomedical 902111)。利用这些底物的比色分析在本 领域是众所周知的(参见,例如WO 99/34011;和美国专利号6,376,450, 两者在此被引入作为参考)。pNA分析(参见,例如Del Mar等,Anal. Biochem.,99:316-320[1979])在测定梯度洗脱期间收集的级分的活性 酶浓度方面也是有用的。该分析测定当酶水解可溶合成底物丁二酰-丙 氨酸-丙氨酸-脯氨酸-苯丙氨酸-对硝基苯胺(sAAPF-pNA)时,对硝基 苯胺的释放速率。水解反应生产黄色的速率在分光光度计上410nm下 进行测量并且与活性酶的浓度成比例。此外,280nm下吸光度测量可 被用于测定总的蛋白质浓度。活性酶/总蛋白质比值给出了酶的纯度。
如本文所使用,术语“ASP蛋白酶”、“Asp蛋白酶”和“Asp” 是指本文所述的丝氨酸蛋白酶。在一些优选的实施方式中,Asp蛋白酶 是本文设计为69B4蛋白酶的蛋白酶,其从纤维单胞菌属菌株69B4中 得到。因此,在优选的实施方式中,术语“69B4蛋白酶”是指衍生自 纤维单胞菌属菌株69B4(DSM 16035)的天然发生的成熟蛋白酶,其 具有与SEQ ID NO:2所提供的基本同一的氨基酸序列。在可选的实施 方式中,本发明提供ASP蛋白酶的部分。
术语“纤维单胞菌属蛋白酶同系物”是指这样的天然发生蛋 白酶,其具有与衍生自纤维单胞菌属菌株69B4或多核苷酸序列的成熟 蛋白酶基本同一的氨基酸序列,所述多核苷酸序列编码这样的天然发 生的蛋白酶并且该蛋白酶保留了被这样的核酸编码的丝氨酸蛋白酶的 功能特性。在一些实施方式中,这些蛋白酶同系物被称为 “cellulomonadins”。
如本文所使用,术语“蛋白酶变体”、“ASP变体”、“ASP 蛋白酶变体”和“69B蛋白酶变体”被用于指这样的蛋白酶,其类似 于野生型ASP,尤其在其功能上,但是在其氨基酸序列上具有突变, 这使得它们在序列上不同于野生型蛋白酶。
如本文所使用,“纤维单胞菌属某些种(Cellulomonas ssp)” 是指“纤维单胞菌(Cellulomonas)”属内的所有菌种,其是革兰氏阳性 细菌,被分类为纤维单孢菌(Cellulomondaceae)科、微球菌 (Micrococcineae)亚目、放线菌(Actinomycetales)目、放线菌 (Actinobacteria)门这些成员。应当认识到,纤维单胞菌属继续经历分类 学改组。因此,该属意图包括已经被重新分类的菌种。
如本文所使用,“芽孢杆菌(Bacillus)属”包括如本领域技 术人员所熟知的“芽孢杆菌”属内的所有菌种,包括但不限于枯草芽 孢杆菌(B.subtilis)、地衣芽孢杆菌(B.licheniformis)、缓慢芽孢杆 菌(B.lentus)、短芽孢杆菌(B.brevis)、嗜热脂肪芽孢杆菌 (B.stearothermophilus)、嗜碱芽孢杆菌(B.alkalophilus)、解淀粉芽 孢杆菌(B.amyloliquefaciens)、克劳氏芽孢杆菌(B.clausii)、耐盐芽 孢杆菌(B.halodurans)、巨大芽孢杆菌(B.megaterium)、凝结芽孢 杆菌(B.coagulans)、环状芽孢杆菌(B.circulans)、B.lautus和苏云 金芽孢杆菌(B.thuringiensis)。应当认识到,芽孢杆菌属继续经历分 类学改组。因此,该属意图包括已经被重新分类的菌种,包括但不限 于生物体例如嗜热脂肪芽孢杆菌,其现在被命名为“嗜热脂肪地芽孢 杆菌(Geobacillus stearothermophilus)”。在氧存在下抗性内生芽孢的 生产被认为是芽孢杆菌属的定义特征,尽管该特性也适用于最近命名 的环脂酸芽孢杆菌属(Alicyclobacillus)、兼性芽孢杆菌属 (Amphibacillus)、解硫胺素芽孢杆菌属(Aneurinibacillus)、厌氧芽孢 杆菌属(Anoxybacillus)、短芽孢杆菌属(Brevibacillus)、Filobacillus、 薄壁芽孢杆菌属(Gracilibacillus)、喜盐芽孢杆菌属(Halobacillus)、 类芽孢杆菌属(Paenibacillus)、需盐芽孢杆菌属(Salibacillus)、耐热 芽孢杆菌属(Thermobacillus)、解脲芽孢杆菌属(Ureibacillus)和枝芽 孢杆菌属(Virgibacillus)。
术语“多核苷酸”和“核酸”——其在本文可相互交换使用 ——是指任意长度的核苷酸聚合形式,核糖核苷酸或脱氧核糖核苷酸。 这些术语包括但不限于单、双或三链DNA、基因组DNA、cDNA、RNA、 DNA-RNA杂合体、或者包含嘌呤和嘧啶碱基或者其它天然的、化学、 生物化学修饰的、非天然或衍生的核苷酸碱基的聚合物。下列是多核 苷酸非限制性实例:基因、基因片段、染色体片段、ESTs(表达序列 标记)、外显子、内含子、mRNA、tRNA、rRNA、核酶、cDNA、重 组多核苷酸、支链多核苷酸、质粒、载体、任意序列的分离DNA、任 意序列的分离RNA、核酸探针和引物。在一些实施方式中,多核苷酸 包括修饰的核苷酸,例如甲基化的核苷酸和核苷酸类似物、尿嘧啶 (uracyl)、其它糖和连接基团如氟代核糖和硫醇酯(thioate)和核苷 酸分支。在可选的实施方式中,核苷酸序列被非核苷酸成分中断。
如本文使用的,“DNA构建物”和“转化DNA”可交互使用,是 指被用来将序列引入宿主细胞或生物体的DNA。该DNA可在体外用 本领域技术人员熟知的PCR或其它合适的技术(一种或多种)产生。 在特别优选的实施方式中,DNA构建物包括目标序列(如引入的 (incoming)序列)。在一些实施方式中,序列可操作连接到另外的元 件例如控制元件(如启动子等)。DNA构建物可进一步包括选择性标 记。它进一步包括两侧为同源盒(homology box)的引入序列。在进一 步的实施方式中,转化DNA包括被加在末端的其它非同源序列(即填 充序列(stuffer sequence)或侧翼)。在一些实施方式中,引入序列的 末端被闭合,这样,转化DNA形成闭合环。转化序列可以是野生型的、 突变体或修饰的。在一些实施方式中,DNA构建物包括与宿主细胞染 色体同源的序列。在其它实施方式中,DNA构建物包括非同源序列。 一旦DNA构建物在体外被组装,它可被用于:1)将异源序列插入到 宿主细胞的期望靶序列中,和/或2)使宿主细胞染色体的区域发生突 变(即用异源序列取代内源序列),3)使靶基因缺失,和/或4)将复 制质粒引入宿主。
如本文所使用,术语“表达盒”和“表达载体”是指重组或 合成产生的核酸构建物,其带有允许特定核酸在靶细胞中转录的一系 列特定核酸元件。重组表达盒可以被整合入质粒、染色体、线粒体DNA、 质粒DNA、病毒、或核酸片段中。通常,除了其他序列以外,表达载 体的重组表达盒部分包括待转录的核酸序列和启动子。在优选的实施 方式中,表达载体具有在宿主细胞中整合和表达异源DNA片段的能 力。许多原核和真核表达载体是商业上可得的。选择合适的表达载体 在本领域技术人员的知识范围内。术语“表达盒”在本文中与“DNA 构建物”和其语法等同词互换使用。选择合适的表达载体在本领域技 术人员的知识范围内。
如本文所使用,术语“载体”是指设计用于将核酸引入一种 或多种细胞类型的多核苷酸构建物。载体包括克隆载体、表达载体、 穿梭载体、质粒、盒等。在一些实施方式中,多核苷酸构建物包括编 码蛋白酶的DNA序列(例如前体或成熟蛋白酶),其被可操作地连接 到合适的前序列(如分泌序列等)上,所述前序列能实现DNA在合适 的宿主中的表达。
如本文所使用,术语“质粒”是指用作克隆载体的环形双链 (ds)DNA构建物,并且其在一些真核生物或原核生物中形成染色体 外自我复制遗传元件或者整合入该宿主染色体中。
如本文在将核酸序列引入到细胞的上下文中所使用,术语“引 入的(introduced)”是指任何适合于将所述核酸序列转移至所述细胞 的方法。这样的引入方法包括但不限于原生质体融合、转染、转化、 接合和转导(参见,例如Ferrari等,″Genetics,″在Hardwood等,(eds.), Bacillus,Plenum Publishing Corp.,第57-72页,[1989]中)。
如本文所使用,术语“转化的(transformed)”和“稳定转化 的(stably transformed)”是指这样的细胞,所述细胞具有被整合到其 基因组的或者作为保持至少两代的游离型质粒的非天然(异源)多核 苷酸序列。
当核酸被置于与另一核酸序列的功能关系中时,该核酸是“可 操作连接的”。例如,如果编码分泌前导区(即,信号肽)的DNA被 表达为参与多肽分泌的前蛋白(preprotein),那么该DNA便被可操作 连接到所述多肽的DNA;如果启动子或增强子影响序列的转录,那么 其被可操作连接到编码序列;或者如果核糖体结合位点被设置以有助 于翻译,那么该核糖体结合位点被可操作连接到编码序列。一般来说, “可操作连接的”指,被连接的DNA序列是邻近的,并且,在分泌前导 区的情况下,被连接的DNA序列是邻接的且处于阅读框(reading phase)。然而,增强子不必是邻接的。通过在方便的限制性位点的连接 作用(ligation)来完成连接。如果这样的位点不存在,合成的寡核苷 酸衔接子或连接子依照传统实践被使用。
如本文所使用,术语“基因”是指这样的多核苷酸(例如, DNA片段),其编码多肽,并且包括在编码区域之前和之后的区域以 及位于各编码片段(外显子)之间的间插序列(内含子)。
如本文使用,“同源基因”指来自不同但通常相关的物种的一 对基因,其彼此相对应,并且彼此相同或非常相似。该术语包括由于 物种形成(即新物种的发生)而分离的基因(例如直向同源基因),以 及由于基因复制而分离的基因(例如共生同源基因)。
如本文使用,“直向同源物”和“直向同源基因”指在不同物种中 的基因,它们是通过物种形成从共同的祖先基因(即同源基因)进化 来的。典型地,直向同源物在进化的过程中保留了相同的功能。直向 同源物的鉴别在新测序的基因组中基因功能的可靠预测中是有用的。
如本文使用,“共生同源物”和“共生同源基因”指在基因组中由 于复制而关联的基因。尽管直向同源物在进化的过程中保持了相同的 功能,但是共生同源物进化出新的功能,即使一些功能通常是与原来 的功能相关的。共生同源基因的实例包括但不限于编码胰蛋白酶、胰 凝乳蛋白酶、弹性蛋白酶和凝血酶的基因,所述酶都是丝氨酸蛋白酶 并且在相同的物种里一起出现。
如本文使用,如果蛋白质具有相同的主要二级结构——所述 二级结构为相同的排列且具有相同的拓扑连接,则所述蛋白质就被定 义为具有共同的“折叠”。具有相同折叠的不同蛋白质常常具有大小和 构象不同的二级结构外围元件和翻转区域。在一些情况下,这些不同 的外围区域可以占结构的一半。一起放在相同折叠类型中的蛋白质不 一定具有共同的进化起源(例如,起因于蛋白质的物理性质和化学性 质的结构相似性促成了某些堆积排列和链拓扑)。
如本文使用,“同源性”指序列相似或相同,优选相同。使用 在本领域已知的标准技术(参见,例如Smith和Waterman,Adv.Appl. Math.,2:482[1981];Needleman和Wunsch,J.Mol.Biol.,48:443[1970]; Pearson和Lipman,Proc.Natl.Acad.Sci.USA 85:2444[1988];在 Wisconsin Genetics Software Package (Genetics Computer Group, Madison,WI)中的程序例如GAP、BESTFIT、FASTA和TFASTA;和 Devereux等,Nucl.Acid Res.,12:387-395[1984]),确定这种同源性。
如本文使用,“类似序列(analogous sequence)”指这样的序 列,其中基因的功能与基于纤维单胞菌属菌株69B4蛋白酶的基因基本 上相同。此外,类似基因包括与纤维单胞菌属菌株69B4蛋白酶的序列 具有至少45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、 95%、97%、98%、99%或100%的序列同一性。可选地,类似序列具 有在纤维单胞菌属菌株69B4蛋白酶区域中发现的基因的70%至100% 的联配,和/或具有至少5-10个之间的基因在与纤维单胞菌属菌株69B4 染色体内的基因相联配的区域中发现。在另外的实施方式中,多于一 个的上述性质适用于该序列。类似序列是通过已知的序列比对方法确 定的。尽管如上下文所示,通常使用的比对方法是BLAST,但还有其 它在比对序列中有用的方法。
有用的算法的一个实例是PILEUP。PILEUP使用渐进 (progressive)、成对的比对从一组相关序列中产生多序列联配。它也 可以作出树图,其显示了用来产生联配的群集(clustering)关系。PILEUP 使用简化了的Feng和Doolittle渐进对比方法(Feng和Doolittle,J.Mol. Evol.,35:351-360[1987])。该方法与Higgins和Sharp描述的方法 (Higgins和Sharp,CABIOS 5:151-153[1989])相似。有用的PILEUP参 数包括缺省的空位加权(gap weight)3.00,缺省的空位长度(gap length) 加权0.10和加权的末端空位(weighted end gaps)。
有用的算法的另一个实例是Altschul等描述的BLAST算法 (Altschul等,J.Mol.Biol.,215:403-410,[1990]和Karlin等,Proc.Natl. Acad.Sci.USA 90:5873-5787[1993])。特别有用的BLAST程序是 WU-BLAST-2程序(参见,Altschul等,Meth.Enzymol.,266:460-480 [1996])。WU-BLAST-2使用几个搜索参数,其中大多数被设定为默认 值。可调整的参数按照下列数值设定:重叠范围(overlap span)=1、 重叠分数(overlap fraction)=0.125、字串阈值(word threshold)(T) =11。HSP S和HSP S2参数是动态数值,其可以根据具体序列的组成 和检索目标序列的具体数据库的组成,由程序自身确定。然而,数值 可被调整以增加灵敏度。通过匹配的相同残基的数目除以被比对区域 中“较长”序列的总残基数,确定氨基酸序列同一性的百分比数值。所 述“较长”序列是在比对区具有最多实际残基的序列(WU-BLAST-2为 了最大化比对分值而引入的空位忽略不计)。
因此,“核酸序列同一性百分数(%)”被定义为与起始序列(即 目标序列)的核苷酸残基同一的核苷酸残基在候选序列中所占的百分 数。优选的方法利用WU-BLAST-2的BLASTN模块,其被设为默认 参数,其中重叠范围和重叠分数分别设为1和0.125。
如本文使用,“重组的”包括表示这样的细胞或载体,其已经 通过引入异源核酸序列而被修饰,或者该细胞是衍生自如此修饰的细 胞。因此,例如,重组细胞表达没有在细胞的天然(非重组)形式中 以相同形式找到的基因,或者由于人类有意的干预,重组细胞表达以 另外的方式异常表达、不足表达或根本不表达的天然基因。“重组” (recombination)、“重组”(recombining)和产生“重组的”核酸通常是 将两个或多个核酸片段装配,其中所述装配产生嵌合基因。
在优选的实施方式中,突变体DNA序列用至少一个密码子中 的位点饱和诱变产生。在另一优选的实施方式中,对两个或以上的密 码子进行位点饱和诱变。在进一步的实施方式中,突变体DNA序列与 野生型序列具有大于50%、大于55%、大于60%、大于65%、大于70%、 大于75%、大于80%、大于85%、大于90%、大于95%、或大于98% 的同源性。在可选的实施方式中,突变体DNA采用已知的任何诱变方 法在体内产生,例如,举例来说,辐射、亚硝基胍等。然后将期望的 DNA序列分离并且将其用在本文提供的方法中。
如本文所使用,术语“扩增(amplification)”和“基因扩增(gene amplification)”是指,特定DNA序列不成比例地复制,以至于扩增基 因存在的拷贝数比最初在基因组中存在的拷贝数高的过程。在一些实 施方式中,通过在药物(例如,可抑制酶的抑制剂)存在的情况下的生长 对细胞进行选择,导致编码在该药物存在的情形下生长所需的基因产 物的内源性基因扩增,或编码这种基因产物的外源(即,输入的)序列的 扩增,或导致两种扩增。
“扩增(amplification)”是涉及模板特异性的特殊情形的核酸 复制。这是和非特异性模板复制(即,模板依赖性、但不依赖于特定模 板的复制)相比较而言。模板特异性在此区别于复制的保真性(即,合成 正确的多核苷酸序列)和核苷酸(核糖核苷酸或脱氧核糖核苷酸)特异 性。模板特异性通常是就“靶”特异性而进行描述的。从某种意义上 讲,目标序列是“靶”,因为它们被寻找以从其它核酸中挑选出来。扩 增技术主要是针对这种挑选而设计的。
如本文所使用,术语“引物”是指如在纯化的限制性消化中 天然存在或合成产生的寡核苷酸,当置于其中与核酸链互补的引物延 伸产物的合成被诱导的条件下时(即,在核苷酸和诱导剂例如DNA聚 合酶存在以及在合适的温度和pH条件下),所述寡核苷酸能够作为合 成的起始点起作用。为了获得最大的扩增效率,引物优选是单链的, 但可选地,可以是双链的。如果是双链,在用于制备延伸产物之前, 首先处理引物,以将它的链分开。优选地,引物是寡脱氧核糖核苷酸。 引物必须足够长,以在诱导剂存在的情况下启动延伸产物的合成。引 物的确切长度将取决于许多因素,包括温度、引物来源和方法的使用。
如本文所使用,术语“探针”是指在纯化的限制性消化中天 然存在或合成产生——重组或通过PCR扩增——的寡核苷酸(即,核 苷酸的序列),其能够与另一目标寡核苷酸杂交。探针可以是单链的或 双链的。探针可用于特定基因序列的检测、鉴定和分离。可以预期, 在本发明中使用的任何探针将用任何“报告分子”标记,以便在任何 检测系统中是可检测的,包括但不限于酶系统(例如ELISA,以及基 于酶的组织化学测定)、荧光系统、放射性系统和发光系统。本发明不 意图被限制于任何特定的检测系统或标记。
如本文所使用,当提及聚合酶链式反应而使用时,术语“靶 (target)”是指用于聚合酶链式反应的引物所结合的核酸区域。因此, “靶”被寻找,以从其它核酸序列中分选出来。“片段(segment)”被 定义为靶序列中的核酸区。
如本文所使用,术语“聚合酶链式反应”(“PCR”)是指美 国专利第4,683,195、4,683,202和4,965,188号的方法,由此并入作为 参考,其包括用于增加基因组DNA混合物中靶序列的片段浓度而不进 行克隆或纯化的方法。该扩增靶序列的过程由下列组成:向含有期望 靶序列的DNA混合物中引入大量过量的两种寡核苷酸引物,随后在 DNA聚合酶存在下进行顺序精确的热循环。两种引物与双链靶序列中 它们各自的链互补。为实现扩增,该混合物被变性,然后,将引物退 火至靶分子内它们的互补序列。退火之后,用聚合酶延伸引物,以形 成一对新的互补链。变性、引物退火和聚合酶延伸的步骤可以被重复 许多次(即,变性、退火和延伸构成一个“循环”;可以有无数个“循 环”),以获得高浓度的期望靶序列的扩增片段。期望靶序列的扩增片 段的长度由引物相互之间的相对位置决定,因此,该长度是可控的参 数。由于该过程的重复方面,本方法被称为“聚合酶链式反应”(下文 称为“PCR”)。因为靶序列的期望扩增片段在混合物中变成主要的序 列(在浓度方面),它们被描述为“PCR扩增的”。
如本文所使用,术语“扩增试剂”是指除了引物、核酸模板 和扩增酶之外扩增所需的那些试剂(脱氧核糖核苷三磷酸、缓冲液等 等)。典型地,扩增试剂和其它反应成分一起被放在和包含在反应容器 (试管、微孔等等)内。
如本文所使用,术语“RT-PCR”是指RNA序列的复制和扩 增。在该方法中,反转录与PCR联用,最通常地使用一个采用热稳定 聚合酶的酶过程进行,如美国专利第5,322,770号中所描述,该专利并 入本文作为参考。在RT-PCR中,由于聚合酶的反转录酶活性,RNA 模板被转化成cDNA,然后利用聚合酶的聚合活性进行扩增(即,如在 其它PCR方法中)。
如本文所使用,术语“限制性内切核酸酶”和“限制性酶”指细菌 酶,其每一个在特异性核苷酸序列上或在其附近切割双链DNA。
“限制性位点”指被特定限制性内切核酸酶识别和切割的核苷 酸序列,并且限制性位点通常是用于插入DNA片段的位点。在本发明 某些实施方式中,限制性位点被设计到选择标记中,以及被设计到DNA 构建物的5’和3’端。
“同源重组”指在两个DNA分子之间或成对染色体之间在同一 的或接近同一的核苷酸序列位点上交换DNA片段。在优选的实施方式 中,染色体整合是同源重组。
如本文所使用,“氨基酸”指肽或蛋白质序列或其部分。术语“蛋 白质”、“肽”和“多肽”可以互相交换使用。
如本文所使用,“目标蛋白质(protein of interest)”和“目标 多肽(polypeptide of interest)”是指期望的或正被评价的蛋白质/多肽。 在一些实施方式中,目标蛋白质在细胞内被表达,而在其它实施方式 中,它是分泌的多肽。在特别优选的实施方式中,这些酶包括本发明 的丝氨酸蛋白酶。在一些实施方式中,目标蛋白质是分泌的多肽,其 被融合到信号肽中(即在要被分泌的蛋白质上进行氨基酸末端延伸)。 几乎所有分泌蛋白质使用氨基酸末端蛋白质延伸,其在前体蛋白穿越 膜的靶向和易位中起关键作用。该延伸在膜转运期间或之后立刻,通 过信号肽酶进行蛋白水解除去。
如果多核苷酸在其天然状态下或者当通过本领域技术人员已 知的方法操纵时能被转录或翻译以产生RNA、多肽或其片段,该多核 苷酸被说成“编码”RNA或多肽。这样的核酸的反义链也被说成编码 该序列。如本领域所知,DNA可被RNA聚合酶转录以产生RNA,但 是RNA可以被反转录酶反转录以产生DNA。因此DNA可编码RNA 并且反之亦然。
“宿主菌株”或“宿主细胞”指根据本发明对于包括DNA的表达 载体来说合适的宿主。
如果酶在宿主细胞中以比其在相应的野生型细胞中表达的水 平更高的水平表达,那么该酶在所述宿主细胞中被“过量表达 (overexpressed)”。
术语“蛋白质”和“多肽”在本文中被相互交换使用。根据 IUPAC-IUB生物化学命名联合委员会(Joint Commission on Biochemical Nomenclature,JCBN)所定义的氨基酸3-字母密码在整个 本公开内容中被使用。还应当理解,由于遗传密码的简并性,多肽可 以被多于一个的核苷酸序列所编码。
“前序列(prosequence)”是位于信号序列和成熟蛋白酶之间 的氨基酸序列,其对于蛋白酶的分泌来说是必需的。前序列的切割产 生成熟活性蛋白酶。
术语“信号序列”或“信号肽”是指可以参与到成熟或前体 形式的蛋白质的分泌中的任何核苷酸和/或氨基酸序列。这种信号序列 的定义是一种功能性定义,意旨包括所有那些被蛋白质基因的N-末端 部分编码的氨基酸序列,其参与到蛋白质分泌的完成中。它们经常但 不是普遍地结合于蛋白质的N-末端部分或者前体蛋白的N-末端部分。 信号序列可以是内源的或外源的。信号序列可以是通常与蛋白质(例 如蛋白酶)连接的,或者可以来自编码另一分泌性蛋白质的基因。一 个示例性外源信号序列包括来自枯草芽胞杆菌属枯草杆菌蛋白酶 (Bacillus subtilis subtilisin)的信号序列的前七个氨基酸残基,其被融 合到来自缓慢芽胞杆菌(Bacillus lentus)(ATCC 21536)的枯草杆菌蛋 白酶的信号序列的剩余部分。
术语“杂合信号序列(hybrid signal sequence)”是指这样的信 号序列,其中部分序列是从表达宿主中获得的,被融合到要被表达的 基因的信号序列中。在一些实施方式中,利用的是合成序列。
术语“成熟”形式的蛋白质或肽是指最终功能形式的蛋白质 或肽。例如,本发明的成熟形式的蛋白酶至少包括与SEQ ID NO:2的 残基位置1-189同一的氨基酸序列。
术语“前体”形式的蛋白质或肽是指具有前序列的蛋白质成 熟形式,所述前序列被可操作连接到该蛋白质的氨基或羰基末端。该 前体还可具有可操作连接到该前序列的氨基末端的“信号”序列。该 前体还可具有另外的多核苷酸,其参与到翻译后的活动中(例如多核 苷酸从中切割以离开成熟形式的蛋白质或肽)。
“天然发生的酶”是指具有与在自然界中发现的同一的、未 修饰的氨基酸序列的酶。天然发生的酶包括天然酶,那些在特定微生 物中天然表达的或者发现的酶。
术语“衍生自”和“从……中获得”不但是指蛋白酶由正被 讨论的微生物菌株产生或者可由其产生,而且是指蛋白酶被从这样的 菌株分离出的DNA序列编码并且产生于含有这样的DNA序列的宿主 生物体。此外,该术语涉及这样的蛋白酶,其被合成的和/或cDNA起 源的DNA序列编码并且其具有正被讨论的蛋白酶的鉴别特性。作为例 子,“衍生自芽孢杆菌属(Cellulomonas)的蛋白酶”是指那些具有蛋 白水解活性的酶,其是由芽孢杆菌属天然产生的,以及丝氨酸蛋白酶, 像由芽孢杆菌属来源产生的那些,但是其在使用遗传工程技术的情况 下是由用编码所述丝氨酸蛋白酶的核酸转化的非芽孢杆菌属生物体产 生的。
在该定义范围内的“衍生物”通常保留了在野生型、天然或 亲代形式中所观察到的特征蛋白水解活性,其保留程度达到该衍生物 可作为野生型、天然或亲代形式用于类似的目的。丝氨酸蛋白酶的功 能衍生物包括天然发生的、合成地或重组地产生的肽或肽片段,其具 有本发明的丝氨酸蛋白酶的一般特性。
术语“功能衍生物”是指这样的核酸衍生物,其具有编码丝 氨酸蛋白酶的核酸的功能特性。编码本发明的丝氨酸蛋白酶的核酸的 功能衍生物包括天然发生的、合成地或重组地产生的核酸或片段并且 编码具有本发明特性的丝氨酸蛋白酶。基于本领域已知的遗传密码的 简并性,根据本发明所述的编码丝氨酸蛋白酶的野生型核酸包括天然 发生的等位基因和同系物。
在两种核酸或多肽序列的上下文中,术语“同一的”是指在 两种序列中当被比对最大对应性时相同的残基,如用下列序列比较或 分析算法之一所测定。
术语“最优比对”是指给出最高百分数同一性得分的比对。
与两种氨基酸、多核苷酸和/或基因序列(适当的话)相关的 “百分数序列同一性”、“百分数氨基酸序列同一性”、“百分数基因序 列同一性”和/或“百分数核酸和/或多核苷酸序列同一性”是指当序列 被最优比对时在两种序列中同一的残基的百分数。因此,80%氨基酸序 列同一性意味着在两种最优比对的多肽序列中80%的氨基酸是同一 的。
在两种核酸或多肽的背景下,短语“基本上同一的 (substantially identical)”因此是指这样的多核苷酸或多肽,采用标准 参数,使用程序或算法(例如BLAST、ALIGN和CLUSTAL),与参 比序列相比时,其包括至少70%的序列同一性,优选至少75%的序列 同一性,优选至少80%,优选至少85%,优选地至少90%,优选地至 少95%,优选地至少97%,优选地至少98%,和优选地至少99%的序 列同一性。两个多肽基本同一的一个暗示是第一多肽与第二多肽在免 疫学上是可交叉反应的。典型地,由于保守氨基酸取代而不同的多肽 在免疫学上是可交叉反应的。因此,例如在两种多肽仅仅由于保守取 代而不同的情况下,多肽与第二多肽是基本同一的。两种核酸序列基 本同一的另一个暗示是两个分子在严紧条件下相互杂交(例如在中到 高严紧性的范围内)。
在该上下文中,短语“等价的(equivalent)”是指被一种多 核苷酸编码的丝氨酸蛋白酶,这种多核苷酸在中等到最大严紧性的条 件下能杂交到具有如SEQ ID NO:1所示的序列的多核苷酸中。例如, 等价的意味着等价成熟丝氨酸蛋白酶包括与具有SEQ ID NO:2的氨基 酸序列的成熟芽孢杆菌属丝氨酸蛋白酶具有至少70%、至少75%、至 少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至 少94%、至少95%、至少96%、至少97%、至少98%和/或至少99%的 序列同一性。
术语“分离的(isolated)”或“纯化的(purified)”是指从 其原始环境(例如,如果它是天然发生的,则为自然环境)中去除的 材料。例如,当材料在特定组合物中以比在天然发生的或野生型生物 体中存在的浓度更高或更低的浓度存在或者与在从天然发生的或野生 型生物表达后通常不存在的成分组合存在时,该材料被说成是“纯化 的”。例如,在活动物中存在的天然发生的多核苷酸或多肽没有被分 离,但是与天然系统中的一些或全部共存材料分开的相同的多核苷酸 或多肽就是分离的。在一些实施方式中,这样的多核苷酸是载体的部 分,和/或这样的多核苷酸或多肽是组合物的部分,并且因为这样的载 体或组合物不是其天然环境的部分,所以仍要被分离。在优选的实施 方式中,例如如果核酸或蛋白质在电泳凝胶或印迹中基本产生一条带, 该核酸或蛋白质被说成是纯化的。
当提及DNA序列被使用时,术语“分离的(isolated)”是 指这样的DNA序列,其已经从其天然遗传环境中除去并且因此不含其 它外源的或不想要的编码序列,并且处于适合用在基因工程蛋白质生 产系统中的形式。这样分离的分子是与其自然环境分开的那些分子并 且包括cDNA和基因组克隆。本发明的分离DNA分子不含其它与其通 常缔合的基因,但可以包括天然发生的5′和3′未翻译的区域例如启动子 和终止子。缔合区域的鉴别对本领域普通技术人员来说将是显而易见 的(参见,例如Dynan和Tijan,Nature 316:774-78[1985])。术语“分 离的DNA序列”可选地被称为“克隆的DNA序列”。
当提及蛋白质被使用时,术语“分离的(isolated)”是指在 除了其天然环境的条件下发现的蛋白质。在优选的形式下,分离的蛋 白质基本上不含其它蛋白质,尤其是其它同源蛋白质。分离的蛋白质 10%以上纯,优选地20%以上纯,并且甚至更优选地30%以上纯,如 SDS-PAGE所测定。本发明进一步的方面包括高纯度形式的蛋白质 (即,40%以上纯,60%以上纯,80%以上纯,90%以上纯,95%以上 纯,97%以上纯,以及甚至99%以上纯),如SDS-PAGE所测定。
如本文所使用,术语“组合诱变(combinational mutagenesis)” 是指其中产生起始序列变体文库的方法。在这些文库中,变体含有一 种或多种选自预先确定的突变集的突变。此外,该方法提供引入随机 突变的手段,所述随机突变不是预先确定的突变集的成员。在一些实 施方式中,该方法包括在2000年10月26日提交的美国专利申请序列 号09/699,250中所提出的那些方法,其在此被并入作为参考。在可选 实施方式中,组合诱变方法包括商业上可得的试剂盒(例如, Multisite,Stratagene,San Diego,CA)。
如本文所使用,术语“突变体文库”是指这样的细胞群,其 大部分基因组是同一的但是包括一个或多个基因的不同同源物。这样 的文库可以被用于例如鉴别具有改进性状的基因或操纵子。
如本文所使用,术语“起始基因(starting gene)”是指编码 目标蛋白质的目标基因,该目标蛋白质采用本发明进行改进和/或改变。
如本文所使用,术语“多序列比对(multiple sequence alignment)”(“MSA”)是指采用算法(如Clustal W)比对的起始 基因多个同系物的序列。
如本文所使用,术语“共有序列”和“规范序列”是指特定 蛋白质或目标序列的所有变体与其比较的原始氨基酸序列。该术语还 指列出在目标DNA序列中最经常出现的核苷酸的序列。对于基因的每 个位置,该共有序列给出了在MSA中该位置最多的氨基酸。
如本文所使用,术语“共有突变”是指起始基因的序列与共 有序列的差别。共有突变通过比较起始基因的序列与从MSA中得到的 共有序列进行鉴别。在一些实施方式中,共有突变被引入到起始基因 中,致使它变得与共有序列更加类似。共有突变还包括这样的氨基酸 改变,其将起始基因中的氨基酸改变成与在该起始基因中该氨基酸的 频率相比在该位置在MSA中更频繁地被发现的氨基酸。因此,术语共 有突变包括所有这样的单一氨基酸改变,其把该起始基因的氨基酸替 换为在MSA中比该氨基酸更多的氨基酸。
如本文所使用,术语“原始标的(initial hit)”是指通过筛 选组合共有诱变文库鉴定的变体。在优选的实施方式中,原始标的与 起始基因相比具有改进的性能特性。
如本文所使用,术语“改进标的(improved hit)”是指通过 筛选增强的组合共有诱变文库鉴定的变体。
如本文所使用,术语“改进突变”和“性能增强突变”是指 当它被引入到起始基因时导致性能改进的突变。在一些优选实施方式 中,这些突变通过对在该方法的筛选步骤期间鉴定的标的测序进行鉴 定。在大部分实施方式中,与未筛选的组合共有诱变文库相比较,在 标的中更经常发现的突变很可能是改进突变。
如本文所使用,术语“增强的组合共有诱变文库”是指这样 的CCM文库,其是基于对来自更早一轮的CCM诱变和筛选的结果进 行筛选和/或测序而设计和构建的。在一些实施方式中,增强的CCM 文库基于从更早一轮的CCM得到的原始标的的序列。在另外的实施方 式中,增强的CCM被设计使得在原始标的中从更早一轮的诱变和筛选 中经常观察到的突变被促成。在一些优选的实施方式中,这是通过省 去编码性能降低的突变的引物或者通过增加编码与在更早的CCM文 库中使用的其它引物相比性能增强的突变的引物浓度而实现的。
如本文所使用,术语“性能降低的突变”是指与未筛选的组 合共有诱变文库比较,在组合共有诱变文库中在筛选得到的标的中更 不经常被发现的突变。在优选的实施方式中,筛选过程去除和/或降低 了包含“性能降低的突变”的变体的丰度。
如本文所使用,术语“功能分析(functional assay)”是指 提供蛋白质活性表示的分析。在特别优选的实施方式中,该术语是指 这样的分析系统,其中分析蛋白质以其通常能力起作用的能力。例如, 在酶的情况下,功能分析涉及测定酶在催化反应方面的效率。
如本文所使用,术语“靶特性”是指要被改变的起始基因的 特性。本发明没有意图限于任何特定的靶特性。然而,在一些优选的 实施方式中,靶特性是基因产物的稳定性(例如,对变性、蛋白水解 或其它降解因素的抗性),而在其它实施方式中,生产宿主的生产水 平被改变。实际上,预期起始基因的任何特性在本发明中将是有用的。
如本文所使用,在核酸的上下文中,术语“特性”或其语法 等价物是指可被选择或检测的核酸的任何特征或属性。这些特性包括 但不限于,影响与多肽结合的特性、包含特定核酸的细胞所具有的特 性、影响基因转录的特性(例如启动子强度、启动子识别、启动子调 节、增强子功能)、影响RNA加工的特性(例如RNA剪接、RNA稳 定性、RNA构象和转录后修饰)、影响翻译的特性(例如水平、调节、 mRNA与核糖体蛋白质的结合、翻译后修饰)。例如,对于转录因子、 聚合酶、调节因子等来说,核酸的结合位点可以被改变以产生期望的 特征或者鉴定出不期望的特征。
如本文所使用,在多肽(包括蛋白质)的上下文中,术语“特 性”或其语法上的等价物是指可被选择或检测的多肽的任何特征或属 性。这些特性包括但不限于,氧化稳定性、底物特异性、催化活性、 热稳定性、碱稳定性、pH活性分布、蛋白水解降解抗性、KM、kcat、 kcat/kM比值、蛋白质折叠、诱导免疫应答、与配体结合的能力、与受体 结合的能力、被分泌的能力、在细胞表面上呈现的能力、低聚能力、 发信号能力、刺激细胞增殖的能力、抑制细胞增殖的能力、诱导细胞 凋亡的能力、通过磷酸化或糖基化修饰的能力和/或治疗疾病的能力等。
如本文所使用,术语“筛选”具有其在本领域的普通含义并 且通常是多步骤过程。在第一步中,提供突变体核酸或来自其中的变 体多肽。在第二步中,测定突变体核酸或变体多肽的特性。在第三步 中,将测定的特性与相应的前体核酸的特性、与相应的天然发生的多 肽的特性、或者与用于产生突变体核酸的起始材料(例如原始序列) 的性质相比较。
对技术人员来说显而易见的是,获得具有改变的特性的核酸 或蛋白质的筛选程序取决于起始材料的性质,其改变意图有利于产生 突变体核酸。因此技术人员将理解,本发明没有限于要筛选的任何特 定特性,以及下面对特性的描述仅仅是列出了示例性的实例。筛选任 何特定特性的方法通常在本领域中描述。例如,一种方法可以测定突 变前后的结合、pH、特异性等,其中变化(change)预示着改变 (alteration)。优选地,筛选以高通量的方式进行,包括同时筛选多个 样品,包括但不限于,利用芯片、噬菌体展示以及多个底物和/或指示 剂的分析。
如本文所使用,在一些实施方式中,筛选包括选择步骤,其 中目标变体从变体群中富集。这些实施方式的实例包括选择赋予宿主 生物体生长优势的变体,以及噬菌体展示或任何其它展示方法,其中 变体可以基于它们的结合或催化特性从变体群中捕获。在优选的实施 方式中,变体文库被暴露于应力(热、蛋白酶、变性),并且随后仍 完整的变体在筛选中被鉴别或者通过选择被富集。该术语意图包括任 何适合于选择的手段。事实上本发明没有意图限于任何特定的筛选方 法。
如本文所使用,术语“靶向随机化(targeted randomization)” 是指产生多个序列的方法,其中一个或几个位置被随机化。在一些实 施方式中,随机化是彻底的(即,所有的四个核苷酸,A、T、G和C 可以出现在随机化的位置)。在可选的实施方式中,核苷酸的随机化 限于这四种核苷酸的子集。靶向随机化可适用于编码一个或几个目标 蛋白质的序列的一个或几个密码子。当被表达时,所得文库产生蛋白 质群,其中一个或多个氨基酸位置可以包含全部20个氨基酸的混合物 或者氨基酸的子集,如通过随机化密码子的随机化方案所测定。在一 些实施方式中,由于密码子的靶向或者随机插入或缺失,从靶向随机 化产生的群的各成员在氨基酸数目上不同。在进一步的实施方式中, 合成氨基酸被包括在产生的蛋白质群中。在一些优选的实施方式中, 从靶向随机化得到的群的大部分成员显示出比起始基因更大的与共同 序列的序列同源性。在一些实施方式中,该序列编码一种或以上的目 标蛋白质。在可选实施方式中,该蛋白质具有不同的生物学功能。在 一些优选的实施方式中,引入序列包括至少一个选择标记。该序列可 以编码一种或以上的目标蛋白质。它可以具有其它生物学功能。在许 多情况下该引入序列将包括选择性标记,例如赋予抗生素抗性的基因。
术语“修饰序列”和“修饰基因”在本文中可交互使用,是 指包括天然发生的核酸序列的缺失、插入或中断的序列。在一些优选 的实施方式中,修饰序列的表达产物是截短的蛋白质(例如,如果修 饰是该序列的缺失或中断的话)。在一些特别优选的实施方式中,截 短的蛋白质保留了生物学活性。在可选的实施方式中,修饰序列的表 达产物是延长的蛋白质(例如修饰包括插入到该核酸序列中)。在一 些实施方式中,插入导致截短的蛋白质(例如插入导致终止密码子的 形成时)。因此,插入可以产生截短的蛋白质或延长的蛋白质作为表 达产物。
如本文所使用,术语“突变体序列”和“突变体基因”可相 互交换使用,并且指出现在宿主细胞的野生型序列中的至少一个密码 子具有变化的序列。突变体序列的表达产物是相对于野生型具有改变 的氨基酸序列的蛋白质。该表达产物可以具有改变的功能能力(例如 提高的酶活性)。
术语“诱变引物”或“诱变寡核苷酸”(在本文中可相互交 换使用)意图指寡核苷酸组合物,其对应着模板序列的一部分并且其 能杂交到其上。关于诱变引物,引物将不精确地与模板核酸匹配,引 物中的错配或多个错配被用于将期望突变引入到核酸文库中。如本文 所使用,“非诱变引物”或“非诱变寡核苷酸”是指将与模板核酸精 确匹配的寡核苷酸组合物。在本发明的一种实施方式中,只有诱变引 物被使用。在本发明另一优选的实施方式中,引物被设计以便对于其 中包括诱变引物的至少一个区域来说还有非诱变引物被包括在寡核苷 酸混合物中。通过加入诱变引物和与诱变引物中至少一种对应的非诱 变引物的混合物,可能产生其中存在各种组合突变模式的最终核酸文 库。例如,如果期望的是突变体核酸文库的一些成员保留它们在某些 位置的前体序列而其它成员是在这样的位点上的突变体,那么非诱变 引物提供对于给定残基来说在核酸文库内获得特定水平的非突变体成 员的能力。本发明的方法利用了诱变和非诱变寡核苷酸,所述寡核苷 酸一般长度在10-50个碱基,更优选地长度在大约15-45个碱基。然而, 为了获得期望的诱变结果,使用比10个碱基更短或者比50个碱基更 长的引物可能是必要的。至于相应的诱变和非诱变引物,相应的寡核 苷酸具有相同的长度不是必需的,但是仅仅在与要被加入的突变对应 的区域中有重叠是必需的。引物可以根据本发明预先确定的比值加入。 例如,如果期望的是通过调整加入的引物的量,所得文库具有显著水 平的某一特定突变和更少量的在相同或不同位点上的不同突变,那么 产生期望的偏倚文库(biased library)是可能的。可选地,通过加入更 少或更大量的非诱变引物,调节对应的突变(一种或多种)在突变体 核酸文库中产生的频率是可能的。
如本文所使用,短语“邻接突变(contiguous mutations)” 是指在同一寡核苷酸引物内存在的突变。例如,邻接突变可以相互邻 接或者在其附近,然而它们将由同一引物引入到所得的突变体模板核 酸中。
如本文所使用,短语“非邻接突变(discontiguous mutations)” 是指存在于分开的寡核苷酸引物中的突变。例如,非邻接突变将由分 别制备的寡核苷酸引物引入到所得突变体模板核酸中。
术语“野生型序列(wild-type sequence)”和“野生型基因 (wild-type gene)”在本文中可互换使用,指代在宿主细胞中为天然 的或天然发生的序列。在一些实施方式中,野生型序列是指作为蛋白 质工程改造项目的起点的目标序列。野生型序列可以编码同源或异源 蛋白质。同源蛋白质是宿主细胞在没有干预的情况下产生的蛋白质。 异源蛋白质是宿主细胞只因干预才产生的蛋白质。
如本文所使用,术语“抗体”是指免疫球蛋白。抗体包括但 不限于从任何期望产生抗体的物种中直接得到的免疫球蛋白。此外, 本发明包括修饰抗体。该术语还指这样的抗体片段,所述抗体片段保 留了结合到完整抗体结合的表位的能力并且包括多克隆抗体、单克隆 抗体、嵌合抗体、抗独特型(anti-ID)抗体。抗体片段包括但不限于 互补决定区(CDRs)、单链片段可变区(scFv)、重链可变区(VH)、 轻链可变区(VL)。多克隆和单克隆抗体也被本发明所包括。优选地, 该抗体是单克隆抗体。
术语“氧化稳定”是指在本发明的蛋白水解、水解、清洁或 其它过程期间普遍存在的条件下,例如当暴露于或接触漂白剂或氧化 剂时,本发明的蛋白酶在给定时间内保留规定量的酶活性。在一些实 施方式中,在接触漂白剂或氧化剂给定时间后,例如至少1分钟、3 分钟、5分钟、8分钟、12分钟、16分钟、20分钟等,蛋白酶保留至 少50%、60%、70%、75%、80%、85%、90%、92%、95%、96%、97%、 98%、或99%的蛋白水解活性。在一些实施方式中,稳定性如实施例 所述测定。
术语“螯合剂稳定”是指在本发明的蛋白水解、水解、清洁 或其它过程期间普遍存在的条件下,例如当暴露于或接触螯合剂时, 本发明的蛋白酶在给定时间内保留规定量的酶活性。在一些实施方式 中,在接触螯合剂给定时间后,例如至少10分钟、20分钟、40分钟、 60分钟、100分钟等,该蛋白酶保留至少50%、60%、70%、75%、80%、 85%、90%、92%、95%、96%、97%、98%、或99%的蛋白水解活性。 在一些实施方式中,螯合剂稳定性如实施例所述测定。
术语“热稳定(thermally stable)”和“热稳定(thermostable)” 是指在本发明的蛋白水解、水解、清洁或其它过程期间普遍存在的条 件下,例如当暴露于变化的温度时,本发明的蛋白酶在暴露于确定的 温度给定的时间后保持规定量的酶活性。变化的温度包括提高的或降 低的温度。在一些实施方式中,在暴露于变化的温度给定时间后,例 如至少60分钟、120分钟、180分钟、240分钟、300分钟等,该蛋白 酶保留至少50%、60%、70%、75%、80%、85%、90%、92%、95%、 96%、97%、98%、或99%的蛋白水解活性。在一些实施方式中,该热 稳定性如实施例所述测定。
在氧化、螯合剂、热和/或pH稳定的蛋白酶的上下文中,术 语“增强的稳定性”是指与其它丝氨酸蛋白酶(例如枯草杆菌蛋白酶) 和/或野生型酶相比在一定时间内保留了更高的蛋白水解活性。
在氧化、螯合剂、热和/或pH稳定的蛋白酶的上下文中,术 语“减小的稳定性”是指与其它丝氨酸蛋白酶(例如枯草杆菌蛋白酶) 和/或野生型酶相比在一定时间内保留了更小的蛋白水解活性。
术语“清洁活性”是指在本发明的蛋白水解、水解、清洁或 其它过程期间普遍存在的条件下蛋白酶所达到的清洁性能。在一些实 施方式中,清洁性能是通过应用各种与酶敏感污渍例如草、血液、奶 或鸡蛋蛋白质相关的清洁试验测定的,如在使该污渍经历标准洗涤条 件后通过各种色谱法、分光光度法或其它定量方法所测定。示例性的 试验包括但不限于在WO 99/34011和美国专利6,605,458(两者在此被 并入作为参考)中所述的那些试验,以及实施例中所包括的那些方法。
术语蛋白酶的“清洁有效量”是指在此之前所述的蛋白酶在 具体清洁组合物中达到期望水平酶活性所需的量。这样的有效量可容 易由本领域普通技术人员确定,并且基于许多因素,例如所使用的具 体蛋白酶、清洁应用、清洁组合物的具体组成、以及是需要液体还是 干(例如颗粒、棒)的组合物等等。
如本文所使用,术语“清洁附加物质”意旨任何为期望的特 定类型清洁组合物以及产品形式(例如液体、颗粒、粉末、棒、膏、 喷射液、片、凝胶或泡沫状组合物)所选择的任何液体、固体或气体 物质,其中该物质也优选地与该组合物中所使用的蛋白酶相容。在一 些实施方式中,颗粒状组合物为“压缩”形式,而在其它实施方式中, 液体组合物为“浓缩”形式。
在清洁活性的上下文中,术语“增强的性能”是指对某些酶 敏感污渍例如鸡蛋、奶、草或血液具有增强的或更大的清洁活性,如 在标准洗涤循环和/或多个洗涤循环后通过常规评价所测定的。
在清洁活性的上下文中,术语“减小的性能”是指对某些酶 敏感污渍例如鸡蛋、奶、草或血液具有降低的或更小的清洁活性,如 在标准洗涤循环后通过常规评价所测定的。
在清洁活性的上下文中,术语“比较性性能”是指比较性枯 草杆菌蛋白酶(例如商业上可得的蛋白酶)的至少60%、至少70%、 至少80%、至少90%、至少95%的清洁活性,比较性枯草杆菌蛋白酶 包括但不限于OPTIMASETM蛋白酶(Genencor)、PURAFECT TM蛋白酶 产品(Genencor)、SAVINASE TM蛋白酶(Novozymes)、BPN′-变体(参见 例如,美国专利号Re 34,606)、RELASETM、DURAZYMETM、 EVERLASETM、KANNASE TM蛋白酶(Novozymes)、MAXACALTM、 MAXAPEMTM、PROPERASE TM蛋白酶(Genencor;也参见美国专利 号Re 34,606和美国专利号5,700,676;5,955,340;6,312,936;和 6,482,628)和缓慢芽胞杆菌变体蛋白酶产品(例如在WO 92/21760、WO 95/23221和/或WO 97/07770中描述的那些)。示例性枯草杆菌蛋白酶变 体包括但不限于在与BPN′的76、101、103、104、120、159、167、170、 194、195、217、232、235、236、245、248和/或252位置等价的残基 位置处具有取代或缺失的那些变体。清洁性能可以通过在各种与酶敏 感污渍例如草、血液或奶相关的清洁试验中比较本发明的蛋白酶与那 些枯草杆菌蛋白酶而确定,如在标准洗涤循环条件后通过常用的分光 光度计法或分析方法所测定的。
如本文所使用,“织物清洁组合物(fabric cleaning composition)”包括手洗和机洗衣物洗涤剂组合物,其包括但不限于 衣物添加组合物以及适合用于脏织物(例如衣物、亚麻布品和其它纺 织材料)的浸泡和/或预处理的组合物。
如本文所使用,“非织物清洁组合物(non-fabric cleaning compositions)”包括非纺织品(即非织物)表面清洁组合物,其包括 但不限于盘碟洗涤组合物、口腔清洁组合物、假牙清洁组合物和个人 清洁组合物。
本文“压缩”形式的清洁组合物最好通过密度反映,并且从 组成上来讲通过无机填料盐的量反映。无机填料盐是粉末形式洗涤剂 组合物的常规成分。在常规洗涤剂组合物中,填料盐以大量存在,典 型地按照重量计为总组合物的17-35%。相反,在压缩组合物中,填料 盐以不超过总组合物15%的量存在。在一些实施方式中,填料盐按重 量计以不超过组合物的10%的量存在,或更优选地不超过5%。在一些 实施方式中,无机填料盐选自碱金属和碱土金属的硫酸盐和氯化物盐。 优选的填料盐是硫酸钠。
实验
本发明在下面的实施例中被进一步详细地描述,所述实施例 绝不意图限制所要求保护的本发明的范围。附图意旨认为是本说明书 的整体部分以及是对本发明的描述。所引用的参考文献在本文被特别 并入作为参考,尽管在本文被描述。下列实施例被提供以阐明但并非 限制所要求保护的发明。
在接下来的实验公开内容中,应用了下列缩写:PI(蛋白酶 抑制剂),ppm(百万分率);M(摩尔浓度);mM(毫摩尔浓度);μM(微摩 尔浓度);nM(纳摩尔浓度);mol(摩尔);mmol(毫摩尔);μmol(微摩尔); nmol(纳摩尔);gm(克);mg(毫克);μg(微克);pg(皮克);L(升);ml和 mL(毫升);μl和μL(微升);cm(厘米);mm(毫米);μm(微米);nm(纳米); U(单位);V(伏);MW(分子量);sec(秒);min(s)(分钟/分钟(复数));h(s) 和hr(s)(小时/小时(复数));℃(摄氏度);QS(足够量);ND(未进行);NA (不适用);rpm(转/分钟);H2O(水);dH2O(去离子水);HCl(盐酸);aa(氨 基酸);bp(碱基对);kb(千碱基对);kD(千道尔顿);cDNA(拷贝或互补 DNA);DNA(脱氧核糖核酸);ssDNA(单链DNA);dsDNA(双链DNA); dNTP(脱氧核苷三磷酸);RNA(核糖核酸);MgCl2(氯化镁);NaCl(氯化 钠);w/v(重量/体积);v/v(体积/体积);g(重力);OD(光密度);Dulbecco 磷酸盐缓冲液(DPBS);SOC(2%细菌用胰化蛋白胨,0.5%细菌用酵母 抽提物,10mM NaCl,2.5mM KCl);Terrific Broth(极品肉汤)(TB;12 g/l细菌用胰化蛋白胨,24gl1甘油,2.31g/l KH2PO4,和12.54g/I K2HPO4);OD280(280nm处的光密度);OD600(600nm处的光密度);A405(405nm处的吸光度);Vmax(酶催化反应的最大初始速率);PAGE(聚 丙烯酰胺凝胶电泳);PBS(磷酸盐缓冲盐水[150mM NaCl,10mM磷酸 钠缓冲剂,pH7.2]);PBST(PBS+0.25%20);PEG(聚乙二醇); PCR(聚合酶链式反应);RT-PCR(反转录PCR);SDS(十二烷基硫酸钠); Tris(三(羟甲基)氨基甲烷);HEPES(N-[2-羟乙基]哌嗪-N-[2-乙磺酸]); HBS(HEPES缓冲盐水);Tris-HCl(三(羟甲基)氨基甲烷-盐酸);Tricine (N-[三(羟甲基)-甲基]-甘氨酸);CHES(2-(N-环己氨基)乙磺酸);TAPS (3-{[三(羟甲基)-甲基]-氨基}-丙磺酸);CAPS(3-(环己氨基)-丙磺酸; DMSO(二甲基亚砜);DTT(1,4-二硫代-DL-苏糖醇);SA(芥子酸(s,5-二 甲氧基-4-羟基肉桂酸);TCA(三氯乙酸);Glut和GSH(还原型谷胱甘 肽);GSSG(氧化型谷胱甘肽);TCEP(三[2-羧乙基]膦);Ci(居里);mCi (毫居里);μCi(微居里);HPLC(高压液相色谱);RP-HPLC(反相高压液 相色谱);TLC(薄层层析);MALDI-TOF(基质辅助激光解吸/电离-飞行 时间);Ts(甲苯磺酰基);Bn(苄基);Ph(苯基);Ms(甲磺酰基);Et(乙基), Me(甲基);Taq(水生嗜热杆菌(Thermus aquaticus)DNA聚合酶); Klenow(DNA聚合酶I大(Klenow)片段);EGTA(乙二醇-双(β-氨基乙基 醚)N,N,N′,N′-四乙酸);EDTA(乙二胺四乙酸);bla(β-内酰胺酶或氨苄 青霉素抗性基因);HDL(高密度液体);MJ Research(MJ Research,Reno, NV);Baseclear(Baseclear BV,Inc.,Leiden,荷兰);PerSeptive (PerSeptive Biosystems,Framingham,MA);ThermoFinnigan (ThermoFinnigan,San Jose,CA);Argo(Argo BioAnalytica,Morris Plains, NJ);Seitz EKS(SeitzSchenk Filtersystems GmbH,Bad Kreuznach,德国); Pall(PaIl Corp.,East Hills,NY);Spectrum(Spectrum Laboratories, Dominguez Rancho,CA);Molecular Structure(Molecular Structure Corp., Woodlands,TX);Accelrys(Accelrys,Inc.,San Diego,CA);Chemical Computing(Chemical Computing Corp.,Montreal,加拿大);New Brunswick(New Brunswick Scientific,Co.,Edison,NJ);CFT(Center for Test Materials,Vlaardingen,荷兰);Procter&Gamble(Procter&Gamble, Inc.,Cincinnati,OH);GE Healthcare(GE Healthcare,Chalfont St.Giles, 英国);DNA2.0(DNA2.0,Menlo Park,CA);OXOID(Oxoid,Basingstoke, Hampshire,UK);Megazyme(Megazyme InternationalIreland Ltd.,Bray Business Park,Bray,Co.,WickloW,爱尔兰);Finnzymes(Finnzymes Oy, Espoo,芬兰);Kelco(CP Kelco,Wilmington,DE);Corning(Corning Life Sciences,Corbing,NY);(NEN(NEN Life Science Products,Boston,MA); Pharma AS(Pharma AS,Oslo,挪威);Dynal(Dynal,Oslo,挪威); Bio-Synthesis(Bio-Synthesis,Lewisville,TX);ATCC(American Type Culture Collection,Rockville,MD);Gibco/BRL(Gibco/BRL,Grand Island,NY);Sigma(Sigma Chemical Co.,St.Louis,MO);Pharmacia (Pharmacia Biotech,Piscataway,NJ);NCBI(National Center for Biotechnology Information);Applied Biosystems(Applied Biosystems, Foster City,CA);BD Biosciences和/或Clontech(BD Biosciences CLONTECH Laboratories,Palo Alto,CA);Operon Technologies(Operon Technologies,Inc.,Alameda,CA);MWG Biotech(MWG Biotech,High Point,NC);Oligos Etc(Oligos Etc.Inc,Wilsonville,OR);Bachem (Bachem Bioscience,Inc.,King of Prussia,PA);Difco(Difco Laboratories, Detroit,MI);Mediatech(Mediatech,Herndon,VA;Santa Cruz(Santa Cruz Biotechnology,Inc.,Santa Cruz,CA);Oxoid(Oxoid Inc.,Ogdensburg, NY);Worthington(Worthington Biochemical Corp.,Freehold,NJ); GIBCO BRL or Gibco BRL(Life Technologies,Inc.,Gaithersburg,MD); Millipore(Millipore,Billerica,MA);Bio-Rad(Bio-Rad,Hercules,CA); Invitrogen(Invitrogen Corp.,San Diego,CA);NEB(New England Biolabs, Beverly,MA);Sigma(Sigma Chemical Co.,St.Louis,MO);Pierce(Pierce Biotechnology,Rockford,IL);Takara(Takara Bio Inc.Otsu,日本); Roche(Hoffmann-La Roche,Basel,瑞士);EM Science(EM Science, Gibbstown,NJ);Qiagen(Qiagen,Inc.,Valencia,CA);Biodesign (Biodesign Intl.,Saco,缅因州);Aptagen(Aptagen,Inc.,Herndon,VA); Sorvall(Sorvall brand,from Kendro Laboratory Products,Asheville,NC); Molecular Devices(Molecular Devices,Corp.,Sunnyvale,CA);R&D Systems(R&D Systems,Minneapolis,MN);Stratagene(Stratagene Cloning Systems,La Jolla,CA);Marsh(Marsh Biosciences,Rochester, NY);Geneart(Geneart GmbH,Regensburg,德国);Bio-Tek(Bio-Tek Instruments,Winooski,VT);(Biacore(Biacore,Inc.,Piscataway,NJ); PeproTech(PeproTech,Rocky Hill,NJ);SynPep(SynPep,Dublin,CA); New Objective(New Objective brand;Scientific Instrument Services,Inc., Ringoes,NJ);Waters(Waters,Inc.,Milford,MA);Matrix Science(Matrix Science,Boston,MA);Dionex(Dionex,Corp.,Sunnyvale,CA);Monsanto (Monsanto Co.,St.Louis,MO);Wintershall(Wintershall AG,Kassel,德 国);BASF(BASF Co.,Florham Park,NJ);Huntsman(Huntsman Petrochemical Corp.,Salt Lake City,UT);Enichem(Enichem Iberica, Barcelona,西班牙);Fluka Chemie AG(Fluka Chemie AG,Buchs,瑞士); Gist-Brocades(Gist-Brocades,NV,Delft,荷兰);Dow Corning(Dow Corning Corp.,Midland,MI);和Microsoft(Microsoft,Inc.,Redmond, WA)。
在下列实施例中使用的野生型丝氨酸蛋白酶被描述在 US04/39006和US04/39066中,两者通过引用以其全部内容被并入于 此。
实施例1
试验
在下列实施例中,使用了各种试验例如蛋白质测定、基于应 用的测试和基于稳定性的测试。为了便于阅读,下列实验在下面被阐 明并且在各个实施例中被涉及。在本发明的开发期间进行的任何实验 中,来自下面所提供方法的任何偏差都表示在实施例中。
A.用于在96孔微量滴定板上蛋白质含量测定的TCA试验
采用从微量滴定板过滤的培养物上清液开始试验,其在33 ℃下在230RPM下摇动并且湿润通风下生长4天。干净的96-孔平底 板被用于该实验。首先,将100μL/孔的0.25N HCl放置在孔中。然后, 将50μL过滤的培养液加入到孔中。然后为了提供“空白”读数,测 定405nm处的光散射/吸光度(在板读数器上采用5秒混合模式)。
为了测试,将100μL/孔的15%(w/v)TCA放置在板中并且在 室温下被温育5至30min。然后测定405nm处的光散射/吸光度(在板 读数器上采用5秒混合模式)。
通过从带有TCA的测试读数中减去空白(即没有TCA)进 行计算。如果期望的话,通过用已知的转化因子对克隆的AAPF试验 的TCA读数校准,可以产生标准曲线。然而,TCA结果与50至500ppm 的蛋白质浓度成线性关系,并且因此可以对酶性能直接作图用于选择 性能好的变体的目的。
B.在96孔微量滴定板上蛋白酶的suc-AAPF-pNA试验
在该试验体系中,所用的试剂溶液是: 1.100mM Tris/HCl,pH8.6,含有0.005%-80(Tris缓冲 剂) 2.100mM Tris缓冲剂,pH8.6,含有10mM CaCl2和0.005% -80(Tris缓冲剂) 3.160mM suc-AAPF-pNA的DMSO溶液(suc-AAPF-pNA贮存液) (Sigma:S-7388)
为了制备suc-AAPF-pNA工作溶液,将1ml AAPF贮存液加 入到100ml Tris缓冲液中并且充分搅拌至少10秒。
通过向每个孔中加入10μl稀释的蛋白酶溶液,接着加入(快 速)190μl 1mg/ml AAPF工作溶液,进行该试验。该溶液被混合5秒, 并且在25℃、MTP读数器上读出410nm处的吸光度变化。蛋白酶活 性被表达为AU(活性=ΔOD-min-1.ml-1)。
C.角蛋白水解试验
在该试验体系中,所使用的化学药品和试剂溶液是: 角蛋白 ICN 902111清洁剂 1.6g清洁剂被溶解在1000ml水中(pH=8.2) 还加入0.6ml 10,000gPg的CaC12/MgC12以及1190 mg HEPES,得到分别为6gPg和5mM的硬度和缓冲 强度。用NaOH调节pH至8.2。 苦基磺酸(TNBS) Sigma P-2297(5%水溶液) 试剂A 将45.4g Na2B4O7·10H2O(Merck 6308)和15ml 4N NaOH溶解在一起至最终体积1000ml(如果需要的 话通过加热) 试剂B 将35.2g NaH2PO4·1H2O(Merck 6346)和0.6g Na2SO3(Merck 6657)溶解在一起至最终体积1000ml
方法:
在温育前,角蛋白一次以小部分在100μm网筛上进行筛选。 然后,10g<100μm的角蛋白在室温下在清洁剂溶液中被搅拌至少20 分钟,其中经常地调节pH至8.2。最后该悬浮液在室温下被离心分离 20分钟(Sorvall,GSA转子,13,000rpm)。然后重复该过程。最终将 湿的沉淀悬浮在清洁剂中至总体积200ml,在移液期间该悬浮液保持 搅拌。在温育之前,用Biohit多通道移液管和1200μl枪头(6次200μl 的分配并且分配得尽可能快以避免角蛋白在枪头沉淀),将微量滴定 板(MTPs)充填200μl底物/孔。然后将10μl过滤的培养物加入到含 有底物的MTPs。该板被覆盖上胶带,放置在培养箱中并且在350rpm 下在20℃下被温育3小时(Innova 4330[New Brunswick])。温育后该板 在3000rpm下被离心分离3分钟(Sigma 6K 15离心机)。在从该培 养箱中取出第一块板之前大约15分钟,TNBS试剂通过每50ml试剂 A混合1ml TNBS溶液进行制备。
MTPs每个孔装上60μl TNBS试剂A。从温育的板上将10μl 转移至含有TNBS试剂A的MTPs上。该板被覆盖上胶带并且在室温 和500rpm下在台式摇床(BMG Thermostar)上摇动20分钟。最后,向 孔中加入200μl试剂B,在摇床上混合1分钟并且用MTP读数器测量 405nm处的吸光度。
角蛋白水解活性的计算
得到的吸光度值被校正空白值(不含酶的底物)。所得吸光 度提供对水解活性的测量。对于每个样品(变体),计算该性能指数。 该性能指数比较变体(真实值)和标准酶(理论值)在相同蛋白质浓 度下的性能。此外,理论值可以采用标准酶的Langmuir方程的参数进 行计算。大于1的性能指数(PI)(PI>1)认为是较好的变体(与标准 [例如,野生型]相比),而为1的PI(PI=1)认为表现得与该标准一样 的变体,并且小于1的PI(PI<1)认为比标准表现差的变体。因此, 该PI鉴定出优胜者以及在某种环境下的不期望使用的变体。
D.二甲基酪蛋白水解试验(96孔) 在该试验体系中,所使用的化学药品和试剂溶液为: 二甲基酪蛋白(DMC): Sigma C-9801 -80: Sigma P-8074 PIPES缓冲液(游离酸):将15.1g Sigma P-1851溶解在大约960ml 水中;pH用4N NaOH调节至7.0,加入1ml 5%-80并将体积变为1000ml。 PIPES和-80的最终浓度分别为 50mM和0.005%。 苦基磺酸(TNBS): Sigma P-2297(5%水溶液) 试剂A: 将45.4g Na2B4O7·10H2O(Merck 6308)和 15ml 4N NaOH溶解在一起至最终体积 1000ml(如果需要的话通过加热) 试剂B: 将35.2g NaH2PO4·1H2O(Merck 6346)和 0.6g Na2SO3(Merck 6657)溶解在一起至 最终体积1000ml
方法:
为了制备底物,将4g DMC溶解在400ml PIPES缓冲液中。 过滤的培养物上清液用PIPES缓冲液进行稀释;生长板上对照的最终 浓度为20ppm。然后,将10μl各个稀释的上清液加入到MTP孔中的 200μl底物中。该MTP板被覆盖上胶带,摇动几秒钟并且在没有搅动 下放置在37℃的烘箱中2小时。
在从该培养箱中取出第一块板之前大约15分钟,TNBS试剂 通过每50ml试剂A混合1ml TNBS溶液制备。MTPs每个孔装上60μl TNBS试剂A。该温育的板被摇动几秒钟,之后将10μl转移至含有 TNBS试剂A的MTPs上。该板被覆盖上胶带并且在室温和500rpm下 在台式摇床(BMG Thermostar)上被摇动20分钟。最后,向孔中加入200 μl试剂B,在摇床上混合1分钟并且用MTP读数器测量405nm处的吸 光度。
二甲基酪蛋白水解活性的计算:
得到的吸光度值被校正空白值(不含酶的底物)。所得吸光 度是水解活性的度量。样品的(任意单位)具体活性通过将吸光度与 测定的蛋白质浓度相除进行计算。
E.热稳定性试验
该试验基于在缓冲培养物上清液加热之前和之后二甲基酪 蛋白的水解。使用与在二甲基酪蛋白水解试验中所述相同的化学药品 和试剂溶液。
方法:
过滤的培养物上清液用PIPES缓冲液稀释至20ppm(基于 生长板上对照的浓度)。然后,50μl的各个稀释的上清液被置于MTP 的空孔中。MTP板在60℃和400rpm下在iEMS培养箱/摇床HT(Thermo Labsystems)上被温育90分钟。该板在冰上被冷却5分钟。然后,将10 μl该溶液加入到含有200μl二甲基酪蛋白底物/孔的干净MTP中。该 MTP被覆盖上胶带,摇动几秒钟并且在没有搅动下放置在37℃的烘箱 中2小时。采用与DMC水解试验所用相同的检测方法。
热稳定性计算:
样品的残余活性被表达为最终吸光度和初始吸光度的比值, 两者都校正了空白值。
F.LAS稳定性试验
测试蛋白酶在0.06%LAS(十二烷基苯磺酸钠)存在下温育 后,测量LAS稳定性,并且采用AAPF试验测定残余活性。 试剂: 十二烷基苯磺酸的钠盐(=LAS):Sigma D-2525 -80:Sigma P-8074 TRIS缓冲液(游离酸):将6.35g Sigma T-1378溶解在大约960 ml水中;pH用4N HCl调节至8.2。TRIS的最终浓度为52.5mM。 LAS贮存液:制备10.5%LAS的MQ水溶液(=10.5g/100ml MQ) TRIS缓冲液-100mM/pH 8.6(100mM Tris/0.005%Tween80) TRIS-Ca缓冲液,pH 8.6(100mM Tris/10mM CaC12/0.005% Tween80) 硬件: 平底MTPs:Costar(#9017) Biomek FX ASYS微移液器 Spectramax MTP读数器 iEMS培养箱/摇床 Innova 4330培养箱/摇床 Biohit多通道移液管 BMG Thermostar摇床
方法:
用52.5mM Tris缓冲液pH 8.2制备0.063%LAS溶液。AAPF 工作溶液是通过向100ml(100mM)TRIS缓冲液,pH8.6中加入1ml 100mg/ml AAPF贮存液(在DMSO中)制备的。为了稀释该上清液, 平底板被填充以稀释缓冲液并且加入等份的上清液且充分混合。稀释 比取决于生长板上ASP-对照的浓度(AAPF活性)。期望的蛋白质浓 度为80ppm。
将10μl稀释的上清液加入到190μl 0.063%LAS缓冲液/孔 中。该MTP被覆盖上胶带,摇动几秒钟并且在200rpm的搅动下在25 ℃或35℃的烘箱(Innova 4230)中放置60分钟。在温育10分钟后初始 活性(t=10分钟)通过将每个孔中10μl的混合物转移至含有190μl AAPF工作溶液的干净MTP中进行测定。这些溶液被充分混合并且 AAPF活性用MTP读数器进行测定(5分钟内并且在25℃下20个读 数)。
最终活性(t=60分钟)是通过在温育60分钟后从该温育板 上取出另外的10μl溶液而测定的。然后如上所述测定AAPF活性。如 下进行计算:%残余活性为[t-60值]*100/[t-10值]。
实施例2
从革兰氏阳性嗜碱菌69B4中生产69B4蛋白酶
该实施例提供了将纤维单胞菌属菌株69B4用于初步分离本 发明提供的新蛋白酶69B4的描述。该嗜碱微生物纤维单胞菌属菌株 69B4(DSM 16035)是在37℃下在含有酪蛋白碱性培养基(g L-1)中 被分离的(参见例如Duckworth等,FEMS Microbiol.Ecol.,19:181-191 [1996])。 葡萄糖(Merck 1.08342) 10 蛋白胨(Difco 0118) 5 酵母抽提物(Difco 0127) 5 K2HPO4 1 MgSO4·7H2O 0.2 NaCl 40 Na2CO3 10 酪蛋白 20 琼脂 20
另外的碱性培养基(Grant嗜碱培养基)也被用于培养纤维 单胞菌属菌株69B4,如下所述提供: Grant嗜碱培养基(“GAM”)溶液A(g·L-1)葡萄糖(Merck 1.08342) 10 蛋白胨(Difco 0118) 5 酵母抽提物(Difco 0127) 5 K2HPO4 1 MgSO4·7H2O 0.2 溶解在800ml蒸馏水中并且通过高压灭菌进行灭菌。 GAM溶液B(g·L-1)NaCl 40 Na2CO3 10
溶解在200ml蒸馏水中并且通过高压灭菌进行灭菌。
完全GAM培养基通过将溶液A(800ml)与溶液B(200ml) 混合而制备。固体培养基通过加入琼脂(2%w/v)制备。
生长条件
从刚刚解冻的培养物甘油小瓶中(作为冷冻的甘油被储存 (20%v/v,储存在-80℃下的贮存物)),微生物采用接种环接种在琼脂 板上的上述Grant嗜碱培养基(GAM)上,并且在37℃下生长至少2 天。一个菌落然后被用于接种500ml含有100ml pH10的GAM的摇 动烧瓶。该烧瓶然后在280rpm下的旋转摇床中于37℃被温育1-2天直 到获得好的生长(根据目测)。然后,100ml肉汤培养基随后用于接种 7L含有5升GAM的发酵罐。发酵在37℃下进行2-3天以便得到蛋白 酶的最大产量。整个过程通过以5L/min的速率将空气注入叶轮区域以 保持完全的好氧条件,所述叶轮在大约500rpm下旋转。开始时将pH 设定在pH10,但是在发酵期间没有进行控制。
69B4粗制酶样品的制备
从发酵罐中收集培养基肉汤,并且细胞在10℃下通过以 5000×g离心分离30min进行去除。所得上清液通过在Seitz EKS(SeitzSchenk Filtersystems)深度过滤进行澄清。所得无菌培养物上 清液利用10kDa截流量的超滤盒(Pall Omega 10kDa Minisette;Pall) 通过超滤进一步浓缩将近10倍。所得浓缩粗制69B4样品被冷冻并且 被储存在-20℃下直至进一步使用。
纯化
分离出细胞的培养基肉汤采用8k分子量截留量(Molecular Weight Cut Office,MWCO)的Spectra-Por7(Spectrum)透析管,相对于 20mM(2-(4-吗啉代)-乙磺酸(“MES”),pH 5.4,1mM CaCl2进行透析。 进行透析过夜或者直至样品的导电率小于或等于MES缓冲液的导电 率。透析的酶样品采用具有10×100mm(7.845mL)POROS高密度磺丙 基(High Density Sulfo-propyl)(HS)20(20微米)阳离子交换柱 (PerSeptive Biosystems)的BioCad VISION(Applied Biosystems)进行纯 化。在将酶以5mL/min装载在预先平衡的柱上之后,该柱以40mL/min 被洗涤,pH梯度在25个柱体积内从25mM MES,pH6.2,1mM CaCl2至25mM(N-[2-羟乙基]哌嗪-N′-[2-乙烷]磺酸[C8H18N2O4S,CAS# 7365-45-9])(″HEPES″)pH8.0,1mM CaCl2。在该运行期间收集级分 (8mL)。pH8.0洗脱步骤被保持5个柱体积,然后该酶用一梯度(在 35个柱体积内在同一缓冲液中0-100mM NaCl)进行洗脱。级分中的 蛋白酶活性采用pNA试验(sAAPF-pNA试验;DelMar,等,同上)进行监 测。在40mM NaCl下洗脱的蛋白酶活性被浓缩并且缓冲液被交换(采 用5K MWCO VIVA Science 20mL浓缩器)成20mM MES,pH5.8, 1mM CaCl2。该材料被用于酶的进一步表征。
实施例3
在枯草杆菌中生产ASP蛋白酶
在枯草杆菌中生产69B4蛋白酶(在本文还被称为“ASP”、 “Asp”、以及“ASP蛋白酶”和“Asp蛋白酶”)的实验被描述在美 国专利申请序列号10/576,331中,其在此被并入作为参考。
DNA序列(合成ASP DNA序列)被提供在下面,其中密码 子选择适用于芽胞杆菌种,编码野生型ASP前体蛋白: ATGACACCACGAACTGTCACAAGAGCTCTGGCTGTGGCAACAGCAGCTGCTACACT CTTGGCTGGGGGTATGGCAGCACAAGCTAACGAACCGGCTCCTCCAGGATCTGCATCAGCCCCTCCACGATTAGCTGAAAAACTTGACCCTGACTTACTTGAAGCAATGGAACGCGATCTGGGGTTAGATGCAGAGGAAGCAGCTGCAACGTTAGCTTTTCAGCATGACGCAGCTGAAACGGGAGAGGCTCTTGCTGAGGAACTCGACGAAGATTTCGCGGGCACGTGGGTTGAAGATGATGTGCTGTATGTTGCAACCACTGATGAAGATGCTGTTGAAGAAGTCGAAGGCGAAGGAGCAACTGCTGTGACTGTTGAGCATTCTCTTGCTGATTTAGAGGCGTGGAAGACGGTTTTGGATGCTGCGCTGGAGGGTCATGATGATGTGCCTACGTGGTACGTCGACGTGCCTACGAATTCGGTAGTCGTTGCTGTAAAGGCAGGAGCGCAGGATGTAGCTGCAGGACTTGTGGAAGGCGCTGATGTGCCATCAGATGCGGTCACTTTTGTAGAAACGGACGAAACGCCTAGAACGATGCTCCAGCACCTACATCATGTACAGGCTACGCAAGAACGTTCACAGGAACCCTCGCAGCAGGAAGAGCAGCAGCTCAACCGAACGGTAGCTATGTTCAGGTCAACCGGAGCGGTACACATTCCGTCTGTCTCAATGGACCTAGCGGTGCGGACTTTGATTTGTATGTGCAGCGATGGAATGGCAGTAGCTGGGTAACCGTCGCTCAATCGACATCGCCGGGAAGCAATGAAACCATTACGTACCGCGGAAATGCTGGATATTATCGCTACGTGGTTAACGCTGCGTCAGGATCAGGAGCTTACACAATGGGACTCACCCTCCCCTGA(SEQ ID NO:1)
在上述序列中,粗体表示编码成熟蛋白酶的DNA,标准字 体表示前导序列,并且下划线表示N-端和C-端前序列。
合成ASP基因的表达
合成ASP基因的表达被描述在美国专利申请序列号 10/576,331中,其在此通过引用被并入。
实施例4
组合突变体和多突变文库的生产
在该实施例中,用于构建组合突变体和多突变文库的方法被 描述。
组合突变体的构建
ASP组合突变体的构建被描述在美国专利申请序列号 10/576,331中,其在此通过引用被并入。
多突变文库构建
除了反应中所用的引物浓度之外,多突变文库如Stratagene QCMS试剂盒所述进行构建。具体地,1μL甲基化的、纯化的 pUC18-ASP质粒(约70ng)与15μL无菌蒸馏水、1.5μL dNTP、2.5μL 10x缓冲液、1μL酶混合物和1.0μL突变体引物混合物(总共100pmol 引物)混合。该引物混合物是采用18个突变体引物(100pmol/μL)各 10μL制备的;加入50ng各个Stratagene所推荐的文库引物,导致在 前一轮诱变中更少的突变。因此,该方案在目前这一轮诱变中被改变 以在每个反应中包括总共100pmol的引物。循环条件是在使用薄壁 0.2mL PCR管的MJ Research PTC2-200热循环控制装置中95℃1分 钟,接着30个循环的95℃1分钟、55℃1分钟和65℃12分钟。反 应产物通过在37℃下温育过夜、用1μL DpnI进行消化。加入另外0.5μL DpnI,并且该反应被温育1小时。
接着,文库DNA(诱变的单链pUC 18-ASP产物)被电穿孔 到电感受态大肠杆菌(E.coli)细胞(Invitrogen,目录号C4040-52,One TOP10 ElectrocompTM E.coli,dam+)上,并且在含有100mg/L 氨苄青霉素的琼脂板上选择性生长导致大肠杆菌细胞内的ASP多突变 文库。收获菌落(数以万计)并且Qiagen旋转小量制备(spin miniprep) DNA试剂盒(目录号27106)用于通过Qiagen小量制备试剂盒手册所述 的步骤制备质粒DNA。小量制备DNA用50μl该试剂盒中提供的 Qiagen缓冲液EB进行洗脱。
小量制备DNA用Pst I和HindIII DNA限制酶进行消化。ASP 文库片段混合物(Pst I x HindIII)被凝胶纯化,并且采用为黏性末端 通用克隆所推荐的Invitrogen方案,使用Invitrogen T4DNA连接酶(目 录号15224-025),通过连接酶反应,克隆在4154碱基对HindIII x Pst I pHPLT载体片段中。在另一方法中,合成ASP文库片段通过GeneArt 产生。这些ASP文库片段也用Pst I和HindIII进行消化、纯化,并且 通过连接酶反应克隆在4154碱基对HindIII x Pst I pHPLT载体片段 中。
为了将连接反应混合物直接转化到芽胞杆菌细胞中,文库 DNA(克隆在pHPLT中的ASP文库片段混合物)采用TempliPhi试剂 盒(Amersham cat.#25-6400)进行扩增。为了该目的,1μL连接反应 混合物与5μL来自TempliPhi试剂盒的样品缓冲液混合,并且在95℃ 下加热3分钟以使DNA变性。该反应被置于冰上冷却2分钟,然后暂 时停止(spin down)。接着,加入来自TempliPhi试剂盒的5μL反应 缓冲液和0.2μL phi29聚合酶,并且该反应在MJ Research PCR仪器上 30℃下温育4小时。phi29酶在反应中通过在PCR仪器上于60℃温育 10分钟被热失活。
为了将该文库转化到芽胞杆菌中,0.1μL TempliPhi扩增反 应产物与500μL感受态枯草杆菌细胞(ΔaprE,ΔnprE,oppA,Δ spoIIE,degUHy32,ΔamyE::(xylR,pxylA-comK)混合,接着在37℃下剧 烈摇动1小时,并且100和500μL在含有20ppm硫酸新霉素((Sigma, 目录号N-1876;每mg含有732μg新霉素)和0.5%脱脂乳的HI-琼脂 板上铺板。从该文库挑选95个克隆进行测序。
诱变进行得很好,因为只有14%的克隆等于骨架序列 (backbone sequence)(具有R014I-A064K-T086K-T116E-R123F的 ASP),以及大约3%的克隆具有额外突变。剩余的被测序克隆(72%) 全部是突变体,并且其中大约94%是独特的突变体。该文库的测序结 果提供在下面的表4-1中。
实施例5
对多个特性来说有害突变的相关性
在该实施例中,不管特性的相关性如何,例证了如下原则: 对任何特性的有害突变与对每个其它特性的有害突变相关。如本文所 示,只有小数目的位置(5-10%)具有对所有特性都不利的突变。这些 位置限定了折叠并且在进化中是保守的。这暗示,尽管对任何特性来 说有利突变的鉴别需要对该特性进行真正预言性的筛选,但是对任何 性质来说可能有害的突变的鉴别可以采用任何筛选来完成,包括但不 限于本文所提供的方法。
变体酶(ASP、ACT和NPRe)如本文和在美国专利申请序 列号10/576,331、10/581,014、11/581,102和11/583,334中所述生产, 所有这些专利文献通过引用以其全部内容并入本文。下面的表提供了 许多对两种特性中每一种来说具有多于5%wt活性和小于5%活性的变 体的成对比较,以及这两种特性的相关系数。在该实施例中所用的实 验体系也提供在这些应用中。本文所用的特性对于ASP来说是酪蛋白 活性(CAS)、角蛋白活性(KER)、AAPF活性(AAPF)、LAS稳 定性(LAS)和热稳定性;和对ACT来说是过酸形成(PAF)和过酸 降解(PAD)。
如下表所示,发现相关(相关系数>0.5)的特性只有对ASP来 说的CAS、KER和AAPF。其它全部是不相关的(相关系数<0.3)。 不管特性不相关这一事实,一个突变对这两种特性来说将是有害的概 率要比偶然预期的大。在表中提供的是变体的观测数目与偶然预期的 数目的计算比值。大于1的数表明正相关,并且小于1的数表明负相 关。