制备肽文库的方法及其用途.pdf

摘要
申请专利号：	CN200880008365.1	申请日：	2008.03.04
公开号：	CN101663668A	公开日：	2010.03.03
当前法律状态：	终止	有效性：	无权
法律详情：	未缴年费专利权终止IPC(主分类):G06F 19/24申请日:20080304授权公告日:20140402终止日期:20150304\|\|\|授权\|\|\|实质审查的生效IPC(主分类):G06F 19/00申请日:20080304\|\|\|公开
IPC分类号：	G06F19/00; C12Q1/68; C40B50/02	主分类号：	G06F19/00
申请人：	塞诺菲-安万特股份有限公司
发明人：	E·容; M·亨德里奇
地址：	法国巴黎
优先权：	2007.3.13 DE 102007011912.9
专利代理机构：	北京市中咨律师事务所	代理人：	黄革生;凌立
PDF下载：	PDF下载

内容摘要

在不同试验中筛选肽文库提供了同时研究细胞内信号通路、产生试剂深化对通路的了解和产生治疗的新形式的可能性。通过生长刺激作用、生长抑制作用或关键代谢通路的调节，多数(若非全部)生物活性肽(如肽类激素)在健康和疾病中都具有深远的影响。本发明涉及新的生物活性肽、鉴定这些肽的计算机模拟方法及包含这些肽的肽文库。

权利要求书

1：在基于计算机的系统中鉴定生物活性肽的方法，其使用基于二元支持向量机(SVM)的算法，所述方法包含步骤： a)训练SVM算法学会区分生物活性和非生物活性肽，所述训练包含步骤： a 1 )为一组带标签的已知生物活性肽和非生物活性肽生成49 维度向量，每一维度源于对分子描述符值的计算，其中标签分别表明肽是生物活性的或非生物活性的； a 2 )将步骤a 1 )生成的向量数据转入基于SVM的算法，所述算法计算出最优超平面，其将分别对应于生物活性肽和非生物活性肽的向量分开； b)从公开可用的人类蛋白质数据库提供蛋白质序列； c)用计算法预测步骤b)提供的蛋白质序列的二级结构和切割位点；根据所述预测步骤，计算一组7个分子描述符，导致肽片段的生成； d)计算对应于步骤c)生成的肽片段理化性质的一组42个分子描述符； e)将来自步骤c)的计算值转化为0至1之间的标度值，为每一肽片段生成49维度向量的1至7维度，将来自步骤d)的计算值转化为0到1 之间的标度值，为每一肽片段生成所述向量的8至49维度； f)将步骤e)生成的向量提交至在步骤a)中经过训练的SVM算法，测量每一向量到步骤a 2 )中计算出的超平面的距离；并 g)根据步骤f)中测量的距离，将每一肽片段分类为生物活性肽或非生物活性肽。
2：权利要求1的方法，其中步骤e)中生成的维度1至7如下：维度1： N端ProP评分；维度2：N端Hmcut评分；维度3：N端片段；维度4： C端ProP评分；维度5：C端Hmcut评分；维度6：C端Hamid评分；维度7：C端片段；步骤e)中生成的8至42维度如下：维度8：每一多肽中酸性氨基酸(E、N、Q)的百分比；维度9：每一多肽中正电荷氨基酸 (R、H)的百分比；维度10：每一多肽中芳香族氨基酸(F、Y、W)的百分比；维度11：每一多肽中脂肪族氨基酸(G、V、A、I)的百分比；维度12：每一多肽中脯氨酸的百分比；维度13：每一多肽中反应性氨基酸 (S、T)的百分比；维度14：每一多肽中丙氨酸的百分比；维度15：每一多肽中半胱氨酸的百分比；维度16：每一多肽中谷氨酸的百分比；维度 17：每一多肽中苯丙氨酸的百分比；维度18：每一多肽中甘氨酸的百分比；维度19：每一多肽中组氨酸的百分比；维度20：每一多肽中异亮氨酸的百分比；维度21：每一多肽中天冬酰胺的百分比；维度22：每一多肽中谷氨酰胺的百分比；维度23：每一多肽中精氨酸的百分比；维度24：每一多肽中丝氨酸的百分比；维度25：每一多肽中苏氨酸的百分比；维度26：每一多肽非经典氨基酸的百分比；维度27：每一多肽中缬氨酸的百分比；维度 28：每一多肽中色氨酸的百分比；维度29：每一多肽中酪氨酸的百分比；维度30：半胱氨酸含量；维度31：每一多肽中卷曲二级结构的百分比；维度32：每一多肽中螺旋二级结构的百分比；维度33：每一多肽中随机二级结构的百分比；维度34：N端切割位点附近结构的评分；维度35：C端切割位点附近结构的评分；维度36：每一多肽中螺旋区段的数目；维度37：多肽的等电点；维度38：多肽的平均分子量；维度39：多肽中每一氨基酸的范德瓦尔斯力之和；维度40：多肽中每一氨基酸的疏水性值之和；维度 41-48：根据每一多肽疏水性质、空间性质和电性质的主要组分评分向量计算的平均值；维度49：多肽的长度。
3：权利要求1和2的方法，其中来自步骤b)的蛋白质序列是只发现于人类分泌组的天然存在的蛋白质序列。
4：权利要求1至3的方法，其中所述生物活性肽是来源于前体激素的生物活性肽类激素。
5：生物活性肽，其通过使用权利要求1和2的方法选自人类分泌组。
6：权利要求5的生物活性肽，其中所述生物活性肽是生物活性肽类激素。
7：权利要求6的生物活性肽，其中所述生物活性肽类激素来源于前体蛋白质。
8：权利要求5至7的生物活性肽，其具有选自以下氨基酸序列的序列： SEQ ID NO：1、2、3、4、5、6、7、8、9、10、11、12、13、 14、15、16、17、18、19、20、21、22、23、24、25、26、27、 28、29、30、31、32、33、34、35、36、37、38、39、40、 41、42、43、44、45、46、47、48、49、50、51、52、53、54、 55、56、57、58、59、60、61、62、63、64、65、66、67、68、 69、70、71、72、73、74、75、76、77、78、79、80、81、82、 83、84、85、86、87、88、89、90、91、92、93、94、95、96、 97、98、99、100、101、102、103、104、105、106、107、108、 109、110、111、112、113、114、115、116、117、118、119、120、 121、122、123、124、125、126、127、128、129、130、131、 132、133、134、135、136、137、138、139、140、141、142、143、 144、145、146、147、148、149、150、151、152、153、154、 155、156、157、158、159、160、161、162、163、164、165、 166、167、168、169、170、171、172、173、174、175、176、 177、178、179、180、181、182、183、184、185。
9：肽文库，其包含通过权利要求1至3的方法鉴定出的生物活性肽。
10：权利要求9的肽文库，其中所述肽文库包含权利要求8的生物活性肽。
11：权利要求9的肽文库，其中所述生物活性肽是生物活性肽类激素。
12：权利要求11的肽文库，其中所述生物活性肽类激素来源于前体蛋白质。
13：计算设备，其配置为通过使用基于二元支持向量机(SVM)的方法鉴定生物活性肽，所述方法包含步骤： a)训练SVM算法学会区分生物活性和非生物活性肽，所述训练包含步骤： a 1 )为一组带标签的已知生物活性肽和非生物活性肽生成49 维度向量，每一维度源于对分子描述符值的计算，其中标签分别表明肽是生物活性的或非生物活性的； a 2 )将步骤a 1 )生成的向量数据转入基于SVM的算法，所述算法计算出最优超平面，其将分别对应于生物活性肽和非生物活性肽的向量分开； b)从公开可用的人类蛋白质数据库提供蛋白质序列； c)用计算法预测步骤b)提供的蛋白质序列的二级结构和切割位点；根据所述预测步骤，计算一组7个分子描述符，导致肽片段的生成； d)计算对应于步骤c)生成的肽片段理化性质的一组42个分子描述符； e)将来自步骤c)的计算值转化为0至1之间的标度值，为每一肽片段生成49维度向量的1至7维度，将来自步骤d)的计算值转化为0到1 之间的标度值，为每一肽片段生成所述向量的8至49维度； f)将步骤e)生成的向量提交至在步骤a)中经过训练的SVM算法，测量每一向量到步骤a 2 )中计算出的超平面的距离；并 g)根据步骤f)中测量的距离，将每一肽片段分类为生物活性肽或非生物活性肽。
14：权利要求1至4的方法的用途，所述用途为鉴定治疗性多肽、药物介入靶点、发现相关靶点的配体或监测疾病的生物标记。
15：权利要求9至12的肽文库在筛选方法中的用途，所述筛选方法用于研究细胞内信号通路、产生试剂深化对通路的了解、产生新的治疗形式及鉴定药物活性化合物、药物介入靶点、发现相关靶点的配体或监测疾病的生物标记。
16：药物组合物，其包含生物活性肽作为生物活性剂，所述生物活性肽具有选自SEQ ID NO 1-185的氨基酸序列的序列。

说明书

制备肽文库的方法及其用途
    【技术领域】

    本发明涉及计算生物化学和生物活性肽的计算机辅助设计领域。使用监督学习，本发明将生物序列分析、生物信息学数据挖掘、信息表现和分类算法中所用的方法相结合。此外，本发明还涉及肽文库的设计，以及生物活性肽在生物医学研究中的应用。

    背景技术

    当前药物发现的主要目标是鉴定具有实际临床效用的生物活性分子。通过生长刺激作用、生长抑制作用或关键代谢途径的调控，许多(若非全部)生物活性肽(例如肽类激素)在健康和疾病中都有深远的影响。

    肽类激素以前体产生于不同细胞类型和器官中，如腺体、神经元、肠、脑等。肽类激素最初以较大的前体或激素原合成，可以在转运通过内质网和高尔基体叠层中获得许多翻译后修饰。它们经加工并转运至其最终目的地作为活性物质(第一信使)起作用，通过结合细胞表面受体引发细胞应答。

    肽类激素在许多生理过程中是关键信使，所述生理过程包括生产调节；生长；水和盐代谢；温度控制；心血管、胃肠和呼吸控制；行为；记忆和激动状态。

    肽类激素在与生物医学研究的许多领域相关的生理过程中起关键作用，所述领域如糖尿病(胰岛素)、血压调控(血管紧张素)、贫血症(α促红细胞生成素)、多发性硬化(β干扰素)、肥胖症(瘦蛋白)等。

    因此，新的生物活性肽具有作为治疗性多肽、药物介入靶点、发现相关靶点的配体(例如GPCR破解(deorphaning))或监测疾病的生物标记使用的潜能。

    肽文库已成功用于鉴定生物活性肽，包括抗微生物肽、受体兴奋剂和拮抗剂、细胞表面受体的配体、蛋白激酶抑制剂和底物、T细胞表位、与MHC分子及受体结合部位的肽模拟表位结合的肽。肽文库可根据其来源分为基于基因和基于合成的文库(Falciani等人，2005)。

    在基于基因的文库中，为了引入多样性，在编码目的多肽序列的DNA水平引入多肽内的组合位点(combinatorial position)。与基于基因的文库相反，合成文库在化学合成水平实现其多样性。

    许多肽文库以一种支架结构为基础，或通过随机组合的方法生成不同的多肽一级结构。

    这两种方法的缺点均是20种天然存在的氨基酸的组合可构建具有最大可变性和数量巨大的不同结构的多肽。举个例子说明可以获得多少种不同结构，试想仅包含4个氨基酸的肽就有160,000种不同的一级结构可能性。

    需要提供一种准确的和高流量的方法，来大幅减少肽文库中结构的可能数量，以便于对大量的数据进行处理，并区分有体内活性和无体内活性的肽。

    本发明的目的是解决现有技术的问题。本发明涉及应用生物信息学策略，构建新的生物活性肽类激素文库的方法。用支持向量机(SVM)算法鉴定生物活性肽。该方法利用存在于肽类激素前体中的保守蛋白质特征和短基序，通过计算机模拟搜索人类蛋白质组，可发现潜在的生物活性肽类激素。尽管这些特征为肽类激素所共有，并负责其成熟，但令人惊讶的是，可在蛋白质序列水平单独进行数据库搜索(例如BLAST，FASTA)的肽类激素前体之间的序列相似性很小。但是，将多肽类激素前体中共有的蛋白质特征和翻译后修饰基序(例如前体的短蛋白质序列、信号肽、二硫键、酰胺化位点、硫酸盐化作用位点、糖基化位点等)相结合，可高特异性地发现新的多肽类激素。

    发明概述

    本发明的一个主题涉及鉴定生物活性肽的方法，其在基于计算机的系统中使用基于二元支持向量机(SVM)的算法，其中：

    a)训练SVM算法学会区分生物活性和非生物活性肽，所述训练包含步骤：

    a1)为一组带标签的已知生物活性肽和非生物活性肽生成49维度向量(vector)，每一维度(dimension)源于对分子描述符值的计算，其中标签分别表明肽是生物活性地或非生物活性的；

    a2)将步骤a1)生成的向量数据转入基于SVM的算法，所述算法计算出最优超平面，其将分别对应于生物活性肽和非生物活性肽的向量分开；

    b)从公开可用的人类蛋白质数据库提供蛋白质序列；

    c)用计算法预测步骤b)提供的蛋白质序列的二级结构和切割位点；根据所述预测步骤，计算一组7个分子描述符(descriptor)，导致肽片段生成；

    d)计算对应于步骤c)生成的肽片段理化性质的一组42个分子描述符；

    e)将来自步骤c)的计算值转化为0至1之间的标度值(scaled value)，为每一肽片段生成49维度向量的1至7维度，将来自步骤d)的计算值转化为0到1之间的标度值，为每一肽片段生成所述向量的8至49维度；

    f)将步骤e)生成的向量提交至在步骤a)中经过训练的SVM算法，测量每一向量到步骤a2)中计算出的超平面的距离；并

    g)根据步骤f)中测量的距离，将每一肽片段分类为生物活性肽或非生物活性肽。

    通常，步骤e)中生成的维度1至7如下：维度1：N端ProP评分；维度2：N端Hmcut评分；维度3：N端片段；维度4：C端ProP评分；维度5：C端Hmcut评分；维度6：C端Hamid评分；维度7：C端片段；步骤e)中生成的8至42维度如下：维度8：每一多肽中酸性氨基酸(E、N、Q)的百分比；维度9：每一多肽中正电荷氨基酸(R、H)的百分比；维度10：每一多肽中芳香族氨基酸(F、Y、W)的百分比；维度11：每一多肽中脂肪族氨基酸(G、V、A、I)的百分比；维度12：每一多肽中脯氨酸的百分比；维度13：每一多肽中反应性氨基酸(S、T)的百分比；维度14：每一多肽中丙氨酸的百分比；维度15：每一多肽中半胱氨酸的百分比；维度16：每一多肽中谷氨酸的百分比；维度17：每一多肽中苯丙氨酸的百分比；维度18：每一多肽中甘氨酸的百分比；维度19：每一多肽中组氨酸的百分比；维度20：每一多肽中异亮氨酸的百分比；维度21：每一多肽中天冬酰胺的百分比；维度22：每一多肽中谷氨酰胺的百分比；维度23：每一多肽中精氨酸的百分比；维度24：每一多肽中丝氨酸的百分比；维度25：每一多肽中苏氨酸的百分比；维度26：每一多肽非经典氨基酸的百分比；维度27：每一多肽中缬氨酸的百分比；维度28：每一多肽中色氨酸的百分比；维度29：每一多肽中酪氨酸的百分比；维度30：半胱氨酸含量；维度31：每一多肽中卷曲二级结构的百分比；维度32：每一多肽中螺旋二级结构的百分比；维度33：每一多肽中随机二级结构的百分比；维度34：N端切割位点附近结构的评分；维度35：C端切割位点附近结构的评分；维度36：每一多肽中螺旋区段的数目；维度37：多肽的等电点；维度38：多肽的平均分子量；维度39：多肽内每一氨基酸的范德瓦尔斯力之和；维度40：多肽中每一氨基酸的疏水性值之和；维度41-48：根据每一多肽的疏水性质、空间性质和电性质的主要组分评分向量计算的平均值；维度49：多肽的长度。

    在本发明方法的优选实施方案中，来自步骤b)的蛋白质序列仅为在人类分泌组(secretome)中发现的天然存在的蛋白质序列。

    在另一优选实施方案中，生物活性肽为来源于前体激素的生物活性肽类激素。

    本发明的另一主题涉及使用本发明的方法从人类分泌组中选择的生物活性肽。

    在优选实施方案中，生物活性肽为生物活性肽类激素。在更优选实施方案中，生物活性肽类激素来源于前体蛋白质。

    在另一优选实施方案中，生物活性肽具有选自以下氨基酸序列的序列：SEQ ID NO：1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38.39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185。

    本发明还涉及肽文库，其包含通过本发明的方法鉴定出的生物活性肽。

    在优选实施方案中，肽文库包含生物活性肽，所述生物活性肽具有从以上引用的SEQ ID NO 1-185氨基酸序列中选择的序列。

    在进一步优选的实施方案中，肽文库包含生物活性肽类激素。

    在另一进一步优选的实施方案中，肽文库包含来源于前体蛋白质的生物活性肽类激素。

    本发明的另一主题涉及配置用于通过基于二元支持向量机(SVM)的方法鉴定生物活性肽的计算设备，其中：

    a)训练SVM算法学会区分生物活性和非生物活性肽，所述训练包含步骤：

    a1)为一组带标签的已知生物活性肽和非生物活性肽生成49维度向量，每一维度源于对分子描述符值的计算，其中标签分别表明肽是生物活性的或非生物活性的；

    a2)将步骤a1)生成的向量数据转入基于SVM的算法，所述算法计算出最优超平面，其将分别对应于生物活性肽和非生物活性肽的向量分开；

    b)从公开可用的人类蛋白质数据库提供蛋白质序列；

    c)用计算法预测步骤b)提供的蛋白质序列的二级结构和切割位点；根据所述预测步骤，计算一组7个分子描述符，导致肽片段生成；

    d)计算对应于步骤c)生成的肽片段理化性质的一组42个分子描述符；

    e)将来自步骤c)的计算值转化为0至1之间的标度值，为每一肽片段生成49维度向量的1至7维度，将来自步骤d)的计算值转化为0到1之间的标度值，为每一肽片段生成所述向量的8至49维度；

    f)将步骤e)生成的向量提交至在步骤a)中经过训练的SVM算法，测量每一向量到步骤a2)中计算出的超平面的距离；并

    g)根据步骤f)中测量的距离，将每一肽片段分类为生物活性肽或非生物活性肽。

    本发明还涉及本发明的方法在鉴定治疗性多肽、药物介入靶点、发现相关靶点的配体或监测疾病的生物标记鉴定中的用途。

    本发明还涉及本发明的肽文库在筛选方法中的用途，所述筛选方法用于研究细胞内信号通路、产生试剂深化对通路的了解、产生新的治疗形式及鉴定药物活性化合物、药物介入靶点、发现相关靶点的配体或监测疾病的生物标记。

    本发明还涉及包含生物活性肽作为生物活性剂的药物组组合物，所述生物活性肽具有选自SEQ ID NO 1-185氨基酸序列的序列。

    发明详述

    本发明涉及新的生物活性多肽及鉴定这种生物活性多肽的计算机模拟方法。

    在本发明中，若多肽与人体内的任一细胞组织有相互作用或对其有影响，则认为该多肽是生物活性的。生物活性肽具有用作治疗性多肽、药物介入靶点、发现相关靶点的配体(例如GPCR破解)或检测疾病的生物标记的潜能。除其他外，生物活性肽包括生物活性肽类激素。肽类激素的特征在于其高特异性，以及极低的作用浓度。肽类激素最初以更大的前体或激素原合成。

    前体是这样的物质，其可形成通常更具活性或更成熟的物质。蛋白质前体是无活性的蛋白质(或肽)，可通过翻译后修饰转变为活性形式。一些切割位点参与了产生成熟蛋白质的前体修饰：信号序列切割位点、蛋白酶切割位点、酰胺化位点等。

    蛋白质前体的名称通常以前(pro或pre)为字首。当某种蛋白质具有潜在的危害，但又需要在短时间内和/或大量获得时，生物体常采用前体。

    术语“多肽”、“肽”和“蛋白质”在此可互换使用，意指通过共价键连接的氨基酸残基组成的聚合物。这些术语包括全长蛋白质的部分或片段，如肽、寡肽和由至少2个氨基酸组成的更短的肽序列、特别是由4-45个氨基酸组成的肽序列。

    此外，这些术语包括经修饰氨基酸(包括经翻译后修饰的氨基酸)的聚合物，如经化学修饰，其包括但不限于酰胺化、糖基化、磷酸化、乙酰化和/或硫酸化反应，这些反应有效地改变了基本的肽骨架。因此，可通过化学或酶切割从天然存在的蛋白质获得肽(特别是可从全长蛋白质获得)，可使用如CNBr的试剂等，或如胰蛋白酶或胰凝乳蛋白酶的蛋白酶。另外，可用众所周知的肽合成方法，通过化学合成获得此类多肽。

    氨基酸是任何包含氨和羧酸官能团的分子。氨基酸残基是在肽键形成中失去一分子水(来自含氮侧的H+和来自羧基侧的OH-)后氨基酸的剩余部分，肽键是蛋白质链中连接氨基酸单体的化学键。

    每一蛋白质都有其自身独特的氨基酸序列，称之为一级结构。一级结构是比较简单的，指的是蛋白质或多肽链中氨基酸的数目和顺序。在蛋白质结构的这一水平上，共价肽键是唯一的结合类型。蛋白质中的氨基酸序列由DNA中的遗传信息决定，DNA转录为RNA，RNA再翻译为蛋白质。所以蛋白质结构是遗传决定的。

    蛋白质结构的下一水平通常指多肽链采用的结构规律性或形状的数量。天然多肽链自动折叠为规则而确定的形状。已在蛋白质中发现两种主要的二级结构，即α螺旋和β折叠片。

    多肽链的三级结构是其链的α螺旋或β折叠片采用的构象或形状的下一水平。大部分蛋白质趋向于折叠为在排列上可大体上归类为球状的形状，一些蛋白质，特别是结构蛋白质则形成长纤维形状。这些是总体三级结构的主要形式。结构域是常用术语，其意指多肽链中球状结构的紧密单位。

    每种蛋白质的独特形状决定了其在体内的功能。

    “多肽”定义的范围还包括氨基酸序列变体。这些变体可以在天然存在的氨基酸序列中包含一个或多个优选的保守性氨基酸替换、缺失或插入，而不改变所述多肽的至少一种基本性质，例如其生物学活性。可通过化学多肽合成法合成这种多肽。保守性氨基酸替换为本领域公知。例如，可按此处所述，用具有相似电荷、大小或极性的氨基酸残基对天然蛋白质中的一个或多个氨基酸残基进行保守性替换，得到的多肽还保有其功能。进行这种替换的规则是众所周知的。

    更具体地，保守性氨基酸替换一般发生于侧链相关的同一氨基酸家族内。

    基因编码的氨基酸一般分为四组：(1)酸性氨基酸＝天冬氨酸、谷氨酸；(2)碱性氨基酸＝赖氨酸、精氨酸和组氨酸；(3)非极性氨基酸＝丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、蛋氨酸和色氨酸；(4)不带电荷的极性氨基酸＝甘氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、丝氨酸、苏氨酸和酪氨酸。苯丙氨酸、酪氨酸和色氨酸还共同分类为芳香族氨基酸。任一特定组内的一个或多个替换对所产生的多肽功能一般没有明显影响，如可选择用异亮氨酸或缬氨酸替换亮氨酸、用谷氨酸替换天冬氨酸或用丝氨酸替换苏氨酸、或用结构相关的氨基酸残基替换其他任一种氨基酸残基。

    术语“多肽”定义的范围包括由于其氨基酸序列对应于功能结构域，其生物学活性可预测的肽。术语“多肽”还包括不能通过对其氨基酸序列的分析预测其生物学活性的肽。

    在本发明中，支持向量机(SVM)用于区分具有体内活性的多肽和不具有体内活性的多肽。

    支持向量机(SVM)：

    支持向量机(SVM)是在训练阶段确定决定表面或“超平面”的通用学习机。通过一组选自向量训练群体的支持向量和一组对应的乘数(multiplier)确定决定超平面。决定超平面还通过核函数表征。

    John Shawe Taylor和Nello Cristianini在书中(剑桥大学出版社，2000，题为“Support Vector Machines and other kernel-based learningmethods”)、Chih-Chung Chang和Chih-Jen Lin在文章中(题为“LIBSVM-A Library for Support Vector Machines”，2001)解释了SVM的数学基础。

    训练阶段之后，SVM在测试阶段运转，在此阶段，根据之前在训练阶段确定的决定超平面，用它来分类测试向量(Noble，2006)。

    支持向量机在多种不同的领域找到应用。例如，在H.Kim和H.Park题为“Prediction of protein relative solvent accessibility with support vectormachines and long-range interaction 3d local descriptor”的文章中，为了研究大分子对接，将SVM用于预测高分辨率3D结构的问题。

    在本发明中，支持向量机算法(SVM)用于区分具有体内活性的多肽和不具有体内活性的多肽。

    出于实践的观点，在本发明中利用如个人计算机的计算设备执行SVM。

    如实施例部分(1.1.)所述，计算设备包括一个或多个执行一系列不同软件的处理器，所述软件包含执行本发明方法的指令。

    SVM训练和模型生成：

    为了训练SVM模型，用实验部分(1.1.)中常规描述并概略示意于图1中的程序，生成49维度向量。

    对SVM训练组，关于已知生物活性肽的信息可以从任一公开可用的人类蛋白质数据库提取，如Swissprot。根据其在Swissprot中的注释，从其前体提取长度在4至55个氨基酸的优选生物活性肽，并标记为用于SVM算法训练的阳性实例。生成的所有其他来源于同一已知肽类激素前体，长度在4-55个氨基酸之间，不具有指定功能的片段用作SVM训练的阴性训练组。由于SVM是二元系统，将生物活性肽标记为+1，并将非生物活性肽标记为-1。

    类似地，用长度在56至300个氨基酸的生物活性和非生物活性肽训练第二个模型，以预测更长的多肽。为了不过度表现阴性实例，通过随机从所有阴性肽中选择相同数量的阴性(实例)，校正分别用于短序列(4-55个氨基酸)和长序列(56-300个氨基酸)的最终SVM训练组，至与阳性和阴性训练数据数目相等。

    为转化生物活性和非生物活性肽隐藏的信息，定义了一组49个描述符，并用于SVM训练。SVM模型的表现强烈地依赖于选择用于描述肽的描述符质量。

    在本发明中，前7个描述符反映多肽由人体产生的可能性。对肽类激素前体序列使用一组蛋白酶预测位点工具来计算这7个维度(图1)。将每一程序输出的产生评分直接用作描述符。其余42个描述符反映产生的每一片段的重要理化性质(即生物活性或非生物活性肽)。实施例部分的第3点中列出了本发明所使用的49个描述符。

    每一肽对应于49个描述符的独特组合。不同肽可以表示为多维空间中的点，其中每一维度对应一个描述符。SVM尝试找出一个界限，该界限最优地将对应于生物活性和非生物活性肽的两组点分开。此界限称为最优超平面，它能在n维空间中最优地将两类对象分开，即分别对应于生物活性肽和非生物活性肽的向量。

    所得到的SVM模型学会区分生物活性和非生物活性肽。

    选择了最好的模型，根据生物活性和非生物活性肽的一个独立测试组的排序，该模型具有最佳的表现。为测试模型，测试了所有生成的模型的表现，选择了分别用于短肽(4-55个氨基酸)和较长多肽(56-300个氨基酸)的两个最优模型。

    鉴定生物活性肽：

    训练后，得到的经训练的SVM模型能够鉴定生物活性尚未被表征过的生物活性肽。

    图1给出了本发明所公开的方法的概要示意图，解释肽文库生成所涉及的步骤。提供自公开可用人类蛋白质数据库(如Swissprot)的蛋白质序列作为输入值使用。在步骤1中，所有潜在的蛋白酶切割位点通过使用一组预测这些事件的工具预测。保存每一前体序列的各切割位点位置。此外，推测了整个蛋白质前体序列的二级结构。根据预测的前体序列中的切割位点，生成所有潜在的片段(步骤2)，并用作步骤3的输入量。

    步骤3包含对每一肽片段理化性质的计算(在实施例部分的第3点列出)。通常，考虑关于每一片段内氨基酸的频率、每一片段的二级结构、每一片段的等电点、每一片段的平均分子量、每一片段的疏水性、片段内每一氨基酸的所有范德瓦尔斯力之和、片段内每一氨基酸的所有常用氨基酸描述符(即根据Mei等人，2005的每一氨基酸的VHSE值)之和及片段长度的信息，将生物学信息转化为数值。步骤1和3的计算值分别在步骤4a和4b中转化产生0至1之间的标度值，生成每一片段的49维度向量。步骤5中将向量提交至经训练的SVM模型，测量每一向量到超平面的距离。然后在步骤6中使用SVM输出，决定该肽是否可能是生物活性的。图3列出了对应于通过本发明的方法鉴定的生物活性肽的49维度向量。

    为了大幅减少肽文库中结构的潜在数量，在本发明中，仅将发现于人类分泌组的天然存在的蛋白质序列用作一级结构，来生成肽文库。人类分泌组是对应于所有经细胞分泌的人类蛋白质的DNA所编码的全部信息。

    实施例部分1.1.点列出了从公开可用的序列数据库中提取的潜在的分泌型人类蛋白质，其用作前体序列寻找新的生物活性肽。

    将分泌蛋白质一级序列(即蛋白质前体)的不同部分用作模板，推测新的生物活性肽。限制肽长度为4-45个氨基酸，以便于化学合成该肽。

    通过本发明的方法鉴定出新的生物活性肽之后，进行抗微生物试验测试该肽的生物活性。实施例部分的第6点详述了这些试验。

    本发明还涉及肽文库，所述肽文库包含通过上述SVM模型方法鉴定出的生物活性肽。图2列出了通过本发明的方法鉴定出、并包含于本发明的肽文库的185条生物活性肽的氨基酸序列。

    肽文库是新发展的用于蛋白质相关研究的技术。肽文库包含具有系统氨基酸组合的大量肽。通常，将肽文库合成于可制成平表面或球珠的固相上(大部分是树脂上)。肽文库为药物设计、蛋白质-蛋白质相互作用和其他生化及制药应用提供了强有力的工具。

    本发明的肽文库可以用于筛选方法，所述筛选方法用于研究细胞间信号通路、产生试剂深化对通路的了解、产生新的治疗形式及鉴定有药物活性的化合物、药物介入靶点、发现相关靶点的配体或监测疾病的生物标记。

    本发明的多肽具有激素活性。因此，本发明的多肽可用作药物(如治疗性多肽)、发现相关靶点的配体(如GPCR)、药物介入靶点(如单克隆抗体、受体片段的靶点)、监测疾病的生物标记(与工具抗体联用来检测体液中的肽片段)、蛋白激酶抑制剂及底物、T细胞表位、受体结合位点的肽模拟表位等。

    编码本发明的肽或前体的DNA是有用的，例如作为基因治疗剂，治疗或预防心血管疾病、产生激素的肿瘤、糖尿病、胃溃疡等；作为激素分泌抑制剂、肿瘤生长抑制剂、神经活性剂等。此外，本发明的DNA可用作疾病的基因诊断剂，所述疾病如心血管疾病、产生激素的肿瘤、糖尿病、胃溃疡等。

    实施例

    参考以下实施例可更容易地理解一般性描述的本发明，纳入此实施例的目的只是说明本发明的某些方面及实施方案，并非旨在限定本发明。

    1.数据库和计算机程序

    1.1.数据库

    以下公开可用的序列数据库用于提取潜在的分泌型人类蛋白质，这些蛋白质用作前体序列来寻找新的生物活性肽：

    翻译为蛋白质的人类基因组(NCBI 33汇编，2003年7月1日)，亚组；

    国际蛋白质索引，Swissprot(版本50.3，2006年7月11日)和TrEMBL(版本：2003年8月-2006年3月)；

    对基于SVM算法的训练，有关已知生物活性肽的信息提取自Swissprot。

    1.2.计算机程序

    1.1.2.0版Signal P(Nielsen等人，1997)

    目的：此程序用于检测潜在的信号序列和确定潜在的人类分泌组。使用的划界(cut off)评分为0.98。2.0版Signal P预测来自不同生物的氨基酸序列中信号肽切割位点的存在和位置：此方法基于几种人工神经网络和隐马尔科夫模型(hidden Markov model)的组合，将切割位点预测与信号肽/非信号肽预测相结合。

    1.2.1.0版ProP(Duckert等人，2004)

    目的：此程序用于检测蛋白质序列中潜在的切割位点。所用划界评分设至0.11。此程序使用神经网络总体，预测真核蛋白质序列中的精氨酸及赖氨酸前肽切割位点。默认设置是弗林蛋白酶特异的预测。其还可进行一般的前蛋白质(proprotein)转化酶(PC)预测。

    1.3.酰胺化位点预测和蛋白酶切割位点预测(Rohrer，2004)

    目的：Hamid程序预测蛋白质序列中的酰胺化位点。Hmcut程序预测蛋白质序列中的蛋白酶切割位点，这种切割发生在碱性氨基酸残基(赖氨酸，精氨酸)之前。这两种程序都基于隐马尔科夫模型，使用Hmmer 2.3.2软件版本(Durbin等人，1998)。

    1.4.支持向量机(Chang和Lin，2001)

    LIBSVM是进行支持向量分类、(C-SVC，nu-SVC)、回归(epsilon-SVR，nu-SVR)和分布估计(单值SVM)的集成软件。

    使用了以下SVM规范：SVM类型，nu-SVC；核函数类型，径向基函数。

    1.5.2.45版本PsiPred(Jone，1999)

    进行蛋白质二级结构预测的工具。该方法如Jones，1999所述使用。

    1.6.等电点的计算

    目的：多肽等电点的计算。按Gasteiger等，2005进行。

    1.7.Perl-实际提取和报告语言

    目的：Perl是Larry Wall发明的一种动态编程语言，1987年首次发布。

    2.SVM的训练

    对监督学习过程，使用以下SRS(www.expasy.org上的序列查询系统)请求指令，从诸如Swissprot的常用公共数据库提取已知生物活性肽前体：生物＝脊椎动物；序列长度＝30∶300；特征关键词＝信号；关键词＝细胞因子或激素或铃蟾肽或缓激肽或胰高血糖素或生长因子或胰岛素或神经肽或阿片样肽或速激肽或甲状腺激素或血管收缩剂或血管舒张剂。此请求产生一组已知肽类激素前体，其中的生物活性肽易于通过Swissprot数据库的注释获取。因此，这些序列可用来推测一组生物活性和非生物活性肽，进行基于SVM的模型的训练。

    3.用于建立向量的分子描述符

    SVM模型的表现主要依赖于所选用于描述肽的描述符的质量。

    在本发明中，选择了以下描述符：

    维度1-7表示肽产生于人体的可能性，通过不同的蛋白酶切割位点预测工具的组合来计算。这些工具的结果表示向量的前7个维度。

    维度1：N端ProP评分；

    维度2：N端Hmcut评分；

    维度3：N端片段(固定值0.2)；

    维度4：C端ProP评分；

    维度5：C端Hmcut评分；

    维度6：C端Hamid评分；

    维度7：C端片段(固定值2.0)；

    计算多肽的理化性质，表示向量的以下42个维度。

    维度8：每一多肽酸性氨基酸(E，N，Q)的百分比；

    维度9：每一多肽正电荷氨基酸(R，H)的百分比；

    维度10：每一多肽芳香族氨基酸(F，Y，W)的百分比；

    维度11：每一多肽脂肪族氨基酸(G，V，A，I)的百分比；

    维度12：每一多肽脯氨酸的百分比；

    维度13：每一多肽反应性氨基酸(S，T)的百分比；

    维度14：每一多肽丙氨酸的百分比；

    维度15：每一多肽半胱氨酸的百分比；

    维度16：每一多肽谷氨酸的百分比；

    维度17：每一多肽苯丙氨酸的百分比；

    维度18：每一多肽甘氨酸的百分比；

    维度19：每一多肽组氨酸的百分比；

    维度20：每一多肽异亮氨酸的百分比；

    维度21：每一多肽天冬酰胺的百分比；

    维度22：每一多肽谷氨酰胺的百分比；

    维度23：每一多肽精氨酸的百分比；

    维度24：每一多肽丝氨酸的百分比；

    维度25：每一多肽苏氨酸的百分比；

    维度26：每一多肽非经典氨基酸(未定义)的百分比；

    (请注意此维度不包含除0外的任何值作为输入)

    维度27：每一多肽缬氨酸的百分比；

    维度28：每一多肽色氨酸的百分比；

    维度29：每一多肽酪氨酸的百分比；

    维度30：半胱氨酸含量(0、偶数或奇数分别设为0.5、1或0)；

    维度31：每一多肽卷曲二级结构的百分比；

    维度32：每一多肽螺旋二级结构的百分比；

    维度33：每一多肽随机二级结构的百分比；

    维度34：N端切割位点附近结构的评分；

    维度35：C端切割位点附近结构的评分；

    维度36：每一多肽螺旋区段的数目；

    维度37：多肽的等电点；

    维度38：多肽的平均分子量；

    维度39：多肽内每一氨基酸的范德瓦尔斯力之和；

    维度40：多肽内每一氨基酸的疏水性值之和；

    维度41-48：根据每一多肽疏水性质、空间性质和电性质的主要成分评分向量计算的平均值(Mei等人，2005)；

    维度49，多肽的长度。

    在任何适用的地方，将维度1-49的值换算至0至1之间的范围。

    用于训练和预测的输入向量包含49个维度，但是由于所有片段的维度26(每一片段非经典氨基酸的百分比)都设为0，本版本中仅使用了48个维度。这是由于缺少包含非经典氨基酸的训练数据，但可在后续模型中纳入。

    4.模型的测试

    选择最优的模型，根据生物活性和非生物活性肽的独立测试组的排序，该模型具有最佳的表现。为测试模型，测试了所有生成的模型的表现，选择了分别用于短肽(4-55个氨基酸)和较长多肽(56-300个氨基酸)的两个最优模型。结果，对短肽的总体预测准确度达到90.7％，对较长的肽达到94％。使用独立的测试组，所公开的方法正确鉴定出约93％的生物活性肽和约91％的非生物活性肽。

    5.生物活性肽的鉴定

    在排序步骤中(步骤6，图1)，选择每一前体长度短于46个氨基酸、评分最高的肽。在此排序过程中，即使其是每一蛋白质前体的评分最高的肽，也将所有经SVM分类后距离大于|0，65|，且处于于阴性训练数据组(即评分为-0.65或更低)的片段舍弃。

    6.抗微生物试验测试通过本发明方法鉴定的肽的生物活性

    6.1.试验技术

    微量稀释测试是确定培养物中存活细菌或酵母细胞数目的均相方法。它依赖于活细菌或酵母在培养物中是浑浊的这一事实。浊度可用光度计测量为光吸收，它与样品中细胞的数目相关。

    6.2.材料和方法

    细菌和酵母菌株

    本实验过程中使用的菌株为大肠杆菌(Escherichia coli E.coli ATCC25922)、金黄色葡萄球菌(Staphylococcus aureus，S.aureus ATCC 29213)和白色念珠菌(Candida albicans，C.albicans FH 2173)。

    所有测试菌株的预培养

    菌株的培养起始于建立冻存贮存物(cryostock)，它可用于进行预培养物的多次接种。

    1.用接种环将细菌划线接种于Mueller Hilton(MH)琼脂板上，并将琼脂板于37℃孵育3天。对酵母采用同样的程序，但使用Sabourauddextrose(SD)琼脂。

    2.在装有30ml MH培养液的100ml摇瓶中接种入一接种环的细菌，并将摇瓶于37℃、180转/分钟孵育1天。在SD培养液中对酵母应用同样的条件。

    3.用无菌吸头从Cryobank(CRYO/G)塑料管中移去高渗的冻存液，每个塑料管含有25个绿色玻璃小珠。

    4.每管中装入2ml细菌/酵母悬液，盖上管盖，仔细混合。

    5.尽可能多地从管中去除细菌/酵母培养物上清。此时小珠表面为细菌/酵母覆盖。残留于管内的液体应尽可能少，以防止小珠凝聚。一个小珠可用于接种一瓶预培养物(30ml MH/SD培养液于100ml摇瓶内)。

    6.将Cryobank(CRYO/G)管保存于-80℃。

    7.质量/无菌检验：从冰箱取出一个Cryobank(CRYO/G)管，置于Cryoblock(CRYO/Z)内。打开管盖，取出一个小珠，并立即用小珠在MH/SBD琼脂板上划线。平板于37℃孵育3天。通过检查克隆形态，验证只有测试菌株生长。

    用MH培养液制备测试培养物

    从Cryobank中取出测试菌株管。用无菌吸头取出一个小珠，接种于100ml锥形瓶内，瓶内装有30ml分别用于细菌和酵母的MH和SD培养液。培养物于37℃、180转/分钟生长18小时。用MH培养液调节所有测试菌株的光密度至细胞密度对应于108细胞/毫升。将进行此试验的标准接种培养物1∶100稀释至终浓度为106CFU/ml(克隆形成单位/毫升)。

    肽稀释

    将化合物从125μM的标准初始浓度连续稀释(10个稀释步骤)，至终浓度为0.24μM。所有样品和对照中的初始DMSO浓度为1.4％。

    进行剂量反应曲线实验的标准抗生素稀释

    用MH培养液将化合物连续稀释(16个稀释步骤)，进行剂量反应实验。化合物终浓度范围在64μg/ml和0.002μg/ml之间。所有样品和对照中的初始DMSO浓度为1.4％。

      供应商  目录号  功能  Mueller Hinton(MH)培养液  Becton  Dickinson  275730  培养基  Sabouraud dextrose(SD)培养  液  Becton  Dickinson  238230  培养基  DMSO  Merck  102931  溶剂  制霉菌素  Cyprobay 100  Calbiochem  Bayer  475914  抗生素  Greiner，384  Greiner  781182  试验用板  SPECTRAFluor Plus  Tecan  -  吸光度读数器

    试验方案

    *在30ml MH培养液中，于37℃预培养细菌18小时(100ml锥形瓶)

    *在30ml SD培养液中，于37℃预培养酵母18小时(100ml锥形瓶)

    *用MH培养液调节细胞悬液至106CFU/ml(测试培养物)

    试验：

    *在第一个管中加入10μl DMSO中的化合物和30μl MH培养液

    *从第一个管中转移20μl至第二个装有20μl MH培养液的管中

    *将最后一步重复8次(肽，10个稀释步骤)或14次(抗生素，16个稀释步骤)

    *向每一管中加入10μl测试培养物悬液(肽为10管，抗生素为16管)

    起始细胞接种物：     5×105CFU

    起始DMSO浓度：       12.5％

    起始/最终化合物浓度：125μM-0.24μM

    起始/最终抗生素浓度：64μg/ml-0.002μg/ml

    *5％相对湿度，5％CO2，37℃孵育18小时

    *在590nm读取光吸收5次

    对照：

    *高对照：有细菌的MH培养液(生长对照，高信号)

    *低对照：无细菌的MH培养液(无菌对照，低信号)

    6.3.抗生素敏感性测试

    为了评估此试验对潜在药物鉴定的适合性，用“材料和方法”下所述的条件，测试了许多抗生素的剂量依赖效应。预期Cyprofloxacin对大肠杆菌和金黄色葡萄球菌有活性，制霉菌素对白色念珠菌有活性。图4中以μg/ml为单位给出了这些抗生素的计算IC50值。

    6.4.试验结果

    针对测试菌株大肠杆菌(ATCC 25922)、金黄色葡萄球菌(ATCC29213)和白色念珠菌(FH 2173)对多肽进行了测试。多肽A003500589和A003500548对大肠杆菌显示的IC50值分别为7.25μg/ml和6.79μg/ml。未发现针对金黄色葡萄球菌和白色念珠菌的活性。

    参考文献

    Chih-Chung Chang和Chih-Jen Lin；“LIBSVM：a library for supportvector machines”；2001

    Peter Duckert，Brunak和Nikolaj Blom；“Prediction of proproteinconvertase cleavage sites”；Protein Engineering，Design and Selection，17：107-112，2004

    Durbin R，Eddy S，Krogh A和Mitchison G；“The theory behind profileHMMs：Biological sequence analysis：probabilistic models of proteins andnucleic acids”；Cambridge University Press，1998.

    C.Falciani，L.Lozzi，A.Pini，L.Bracci；“Bioactive Peptides fromLibraries”；Chemistry & Biology，第12卷，第4期，第417-426页，2005Gasteiger E.，Hoogland C.，Gattiker A.，Duvaud S.，Wilkins M.R.，AppelR.D.，Bairoch A.；“Protein Identification and Analysis Tools on the ExPASyServer”；(In)John M.Walker(编)：The Proteomics Protocols Handbook，Humana Press，2005

    Jones，D.T.；“Protein secondary structure prediction based onposition-specific scoring matrices”；J.Mol.Biol.292：195-202，1999H.Kim和H.Park；″Prediction of protein relative solvent accessibility withsupport vector machines and long-range interaction 3d local descriptor″；Proteins，54(3)：557-62，2004

    Mei，H.，Liao，T.H.，Zhou，Y.，和Li，S.Z.；“A new set of amino aciddescriptors and its application in peptide QSARs”；Biopolymers第80卷，775-786，2005

    Henrik Nielsen，Jacob Engelbrecht，Brunak和Gunnar von Heijne；“Identification of prokaryotic and eukaryotic signal peptides andprediction of their cleavage sites”；Protein Engineering，10：1-6，1997Noble WS.；“What is a support vector machine？”；Nat.Biotechnol.24(12)：1565-7，2006

    Rohrer，S.；“Prediction of post-translational processing sites in peptidehormone precursors”；Diplomarbeit，Würzburg，2004

    John Shawe Taylor和Nello Cristianini；“Support Vector Machines andother kernel-based learning methods“；Cambridge University Press，2000

    附图描述

    图1：

    图1给出了本发明所公开的方法的概要示意图，以解释肽文库生成所涉及的步骤。

    图2：

    图2显示了根据共有理化性质选择的185条生物活性肽的氨基酸序列。

    图3：

    图3显示了通过经训练的SVM算法鉴定出的185条生物活性肽的输入向量。

    图4：

    图4以μg/ml为单位显示了抗生素的计算IC50值。