预测蛋白质之间信号流走向的方法.pdf

上传人:GAME****980 文档编号:6189713 上传时间:2019-05-18 格式:PDF 页数:11 大小:1.19MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310552227.2

申请日:

2013.11.08

公开号:

CN103577722A

公开日:

2014.02.12

当前法律状态:

终止

有效性:

无权

法律详情:

未缴年费专利权终止IPC(主分类):G06F 19/18申请日:20131108授权公告日:20160706终止日期:20171108|||授权|||实质审查的生效IPC(主分类):G06F 19/18申请日:20131108|||公开

IPC分类号:

G06F19/18(2011.01)I

主分类号:

G06F19/18

申请人:

中国人民解放军国防科学技术大学

发明人:

刘伟; 谢红卫

地址:

410073 湖南省长沙市开福区德雅路109号

优先权:

专利代理机构:

北京康信知识产权代理有限责任公司 11240

代理人:

吴贵明;张永明

PDF下载: PDF下载
内容摘要

本发明公开了一种预测蛋白质之间信号流走向的方法。该方法包括以下步骤:S1,建立蛋白质之间信号流走向的标准数据集;S2,分别将阳性数据集和阴性数据集中的上游蛋白质与下游蛋白质的第一氨基酸序列信息中的特征值进行数值运算,得到相互作用对应的第二氨基酸序列信息;S3,利用假设检验方法,计算阳性数据集和阴性数据集中的第二氨基酸序列信息的差异显著性P值;S4,将差异显著性P值小于预定阈值的序列信息作为分类特征,建立分类模型;S5,对分类模型的分类效果进行评估,如果分类模型评估满足预设标准,结束建模过程;否则,返回步骤S4,对分类模型进行校正。应用本发明的技术方案,可以不受蛋白质是否包含结构域的限制。

权利要求书

权利要求书
1.  一种预测蛋白质之间信号流走向的方法,其特征在于,包括以下步骤:
S1,从信号转导数据库中收集有向的调控关系,建立蛋白质之间信号流走向的标准数据集,从所述标准数据集中随机选择一半信号流走向的数据作为阳性数据集,剩余一半的信号流走向取反得到的数据作为阴性数据集;
S2,分别提取所述阳性数据集和所述阴性数据集中蛋白质所包含的第一氨基酸序列信息,并分别将所述阳性数据集和所述阴性数据集中的上游蛋白质与下游蛋白质的所述第一氨基酸序列信息中的特征值进行数值运算,得到所述阳性数据集和所述阴性数据集中的相互作用对应的第二氨基酸序列信息;
S3,利用假设检验方法,计算所述阳性数据集和所述阴性数据集中的所述第二氨基酸序列信息的差异显著性P值;
S4,将所述差异显著性P值小于预定阈值的序列信息作为分类特征,建立分类模型;
S5,采用交叉验证方法或独立测试集,对所述分类模型的分类效果进行评估,如果所述分类模型评估满足预设要求,则所述分类模型建立成功,结束建模过程;否则,返回所述步骤S4,对所述分类模型进行校正。

2.  根据权利要求1所述的方法,其特征在于,所述有向的调控关系包括激活、抑制、磷酸化、以及非磷酸化。

3.  根据权利要求1所述的方法,其特征在于,所述蛋白质所包含的第一氨基酸序列信息包括物理化学属性和氨基酸排列信息。

4.  根据权利要求1所述的方法,其特征在于,所述数值运算为选自加、减、乘、除、乘方、开方和取模中的一种或多种。

5.  根据权利要求1所述的方法,其特征在于,所述假设检验方法为选自T检验、U检验、卡方检验、F检验,秩和检验中的一种或多种。

6.  根据权利要求1所述的方法,其特征在于,所述预定阈值P<0.05。

7.  根据权利要求1所述的方法,其特征在于,所述分类模型为选自支持向量机、决策树、贝叶斯方法中的一种或多种。

8.  根据权利要求1所述的方法,其特征在于,所述上游蛋白质与所述下游蛋白质之间发生相互作用。

9.  根据权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:建立多个物种中蛋白质之间信号流走向的标准数据集。

说明书

说明书预测蛋白质之间信号流走向的方法
技术领域
本发明涉及生物信息技术领域,具体而言,涉及一种预测蛋白质之间信号流走向的方法。
背景技术
高通量实验技术的发展已经产出了大规模、多物种的蛋白质相互作用数据。在蛋白质相互作用网络中,通常假定相互作用是没有方向的。实际上,在信号转导、转录调控、细胞循环或者代谢途径等多种生物网络中,发生相互作用的蛋白质之间广泛存在着调控和上下游关系。然而,仅有少数蛋白质相互作用被深入研究,大部分相互作用的细节还是未知的,尤其是它们之间的信号流走向还未被揭示。
蛋白质相互作用的方向性是构成信号通路的前提,有助于从大规模的蛋白质相互作用网络中挖掘新的潜在信号通路。目前,已有一些生物信息学方法基于结构域或功能注释信息来预测蛋白质间信号流的走向。如文章Liu W,et al.Proteome-wide prediction of signal flow direction in protein interaction network based on interacting domains.Molecular&Cellular Proteomics,2009,8(9):2063-2070提出了一种基于结构域相互作用发现蛋白质之间信号流走向的方法,详细步骤如下:1)以人、小鼠、大鼠、果蝇和酵母中已知方向的蛋白质相互作用作为标准数据集,根据结构域相互作用在数据集中的相对富集程度定义打分函数,发现能够提示信号流走向的结构域相互作用;2)以第一步得到的有向结构域相互作用为基础,统计蛋白质相互作用中结构域相互作用流向的综合打分,用于预测蛋白质相互作用中信号流的方向;3)采用五倍交叉验证和物种间交叉验证对该预测方法的性能进行评估。
但是,由于现有技术中的预测方法主要是基于结构域等信息预测蛋白质对之间的信号流走向,由于部分蛋白质不包含结构域或仅包含单个的结构域,使得该方法的应用范围非常有限,如大约一半的人蛋白质相互作用无法通过该方法来预测信号流走向。
发明内容
本发明旨在提供一种预测蛋白质之间信号流走向的方法,以解决现有技术中不包含结构域或仅包含单个的结构域的蛋白质预测信号流走向困难的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了一种预测蛋白质之间信号流走向的方法,包括以下步骤:S1,从信号转导数据库中收集有向的调控关系,建立蛋白质之间信号流走向的标准数据集,从标准数据集中随机选择一半信号流走向的数据作为阳性数据集,剩余一半的信号流走向取反得到的数据作为阴性数据集;S2,分别提取阳性数据集和阴性数据集中蛋白质所包含的第一氨基酸序列信息,并分别将阳性数据集和阴性数据集中的上游蛋白质与下游蛋白质的第一氨基酸序列信息中的特征值进行数值运算,得到阳性数据集和阴性数 据集中的相互作用对应的第二氨基酸序列信息;S3,利用假设检验方法,计算阳性数据集和阴性数据集中的第二氨基酸序列信息的差异显著性P值;S4,将差异显著性P值小于预定阈值的序列信息作为分类特征,建立分类模型;S5,采用交叉验证方法或独立测试集,对分类模型的分类效果进行评估,如果分类模型评估满足预设要求,则分类模型建立成功,结束建模过程;否则,返回步骤S4,对分类模型进行校正。
进一步地,有向的调控关系包括激活、抑制、磷酸化、以及非磷酸化。
进一步地,蛋白质所包含的第一氨基酸序列信息包括物理化学属性和氨基酸排列信息。
进一步地,数值运算为选自加、减、乘、除、乘方、开方和取模中的一种或多种。
进一步地,假设检验方法为选自T检验、U检验、卡方检验、F检验,秩和检验中的一种或多种。
进一步地,预定阈值P<0.05。
进一步地,分类模型为选自支持向量机、决策树、贝叶斯方法中的一种或多种。
进一步地,上游蛋白质与下游蛋白质之间发生相互作用。
进一步地,步骤S1包括:建立多个物种中蛋白质之间信号流走向的标准数据集。
应用本发明的技术方案,通过对蛋白质中氨基酸序列信息的分析,建立合适的预测模型推断蛋白质相互作用之间的信号流走向,从而可以不受蛋白质是否包含结构域的限制,不仅能够用于含有多个结构域的蛋白质相互作用的预测,还能够用于不包含结构域或仅包含单个的结构域的蛋白质相互作用的预测。由于绝大部分蛋白质的氨基酸序列是已知的,该方法的应用范围非常广泛,可以覆盖90%以上的蛋白质相互作用;而且,还可以用于标注大规模蛋白质相互作用的信号流走向,帮助阐释信号分子作用机制,辅助实验设计,节省大量的人力物力;另外,因为信号转导数据库数据丰富,可以考虑多种,甚至上百种序列信息,可靠性更高,且方法简单实用。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明的预测蛋白质之间信号流走向的流程图;
图2示出了根据本发明一种实施方式的蛋白质序列三元组划分方法示意图;以及
图3示出了根据本发明一种实施方式的支持向量机分类超平面示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。 下面将参考附图来详细说明本发明。
针对现有技术中不包含结构域或仅包含单个的结构域的蛋白质预测信号流走向困难的技术问题,本发明提供了一种基于氨基酸序列信息的蛋白质之间信号流走向的预测方法。
根据本发明一种典型的实施方式,提供一种预测蛋白质之间信号流走向的方法。如图1所示,该方法包括以下步骤:S1,从信号转导数据库中收集有向的调控关系,建立蛋白质之间信号流走向的标准数据集,从标准数据集中随机选择一半信号流走向的数据作为阳性数据集,剩余一半的信号流走向取反作的数据为阴性数据集;S2,分别提取阳性数据集和阴性数据集中蛋白质所包含的第一氨基酸序列信息,并分别将阳性数据集和阴性数据集中的上游蛋白质与下游蛋白质的第一氨基酸序列信息中的特征值进行数值运算,得到将阳性数据集和阴性数据集中的相互作用对应的第二氨基酸序列信息;S3,利用假设检验方法,计算阳性数据集和阴性数据集中的第二氨基酸序列信息的差异显著性P值;S4,将差异显著性P值小于预定阈值的序列信息作为分类特征,建立分类模型;S5,采用交叉验证方法或独立测试集,对分类模型的分类效果进行评估,如果分类模型评估满足预设要求,则分类模型建立成功,结束建模过程;否则,返回步骤S4,对分类模型进行校正。
本发明的方法也是一种基于支持向量机模型的蛋白质之间信号流走向的预测方法,其中,信号转导数据库是指KEGG、BioCarta、STEK、NCI。取反是指调换发生相互作用的两个蛋白质的次序,即把上游的蛋白质改至下游,下游的改至上游。步骤S2具体为提取阳性数据集中蛋白质所包含的第一氨基酸序列信息,将其中上游蛋白质与下游蛋白质的第一氨基酸序列信息中的特征值进行数值运算,得到阳性数据集中的相互作用对应的第二氨基酸序列信息;提取阴性数据集中蛋白质所包含的第一氨基酸序列信息,将其中上游蛋白质与下游蛋白质的第一氨基酸序列信息中的特征值进行数值运算,得到阴性数据集中的相互作用对应的第二氨基酸序列信息。步骤S5中的预设要求可以是预测准确率达到预设目标(如80%)以上。
应用本发明的技术方案,通过对蛋白质中氨基酸序列信息的分析,建立合适的预测模型推断蛋白质相互作用之间的信号流走向,从而可以不受蛋白质是否包含结构域的限制,不仅能够用于含有多个结构域的蛋白质相互作用的预测,还能够用于不包含结构域或仅包含单个的结构域的蛋白质相互作用的预测。由于绝大部分蛋白质的氨基酸序列是已知的,该方法的应用范围非常广泛,可以覆盖90%以上的蛋白质相互作用;而且,还可以用于标注大规模蛋白质相互作用的信号流走向,帮助阐释信号分子作用机制,辅助实验设计,节省大量的人力物力;另外,因为信号转导数据库数据丰富,可以考虑多种,甚至上百种序列信息,可靠性更高,且方法简单实用。
关于步骤S1中的有向的调控关系,本领域技术人员可以根据实际需要选择,优选的,有向的调控关系包括激活、抑制、磷酸化、以及非磷酸化等,因为这些相互作用在信号网络中是有明显的方向关系的,如上游蛋白质可以激活下游蛋白质。建立蛋白质之间信号流走向的标准数据集优选为建立多个物种的蛋白质之间信号流走向,可以使预测结果更准确。
根据本发明一种典型的实施方式,蛋白质所包含的第一氨基酸序列信息包括物理化学属性和氨基酸排列信息,其中,物理化学属性包括单个氨基酸的物理化学属性。由于本发明中 最优先考虑的是两两相互作用,上游蛋白质与下游蛋白质之间优选是发生相互作用的,每个相互作用中都包含两个蛋白质,因此可获得两组对应的氨基酸序列信息。
其中,根据蛋白质的一级序列,可提取其物理化学特征,如分子量、疏水性、极性等。疏水性可通过不同氨基酸对应的疏水性值进行加合平均得到。进一步,计算每个蛋白质中氨基酸的出现频率,定义为氨基酸的数目除以蛋白质的长度。根据氨基酸的属性,可以分为微小、小、非极性、极性、带电的和基本的几种。利用Pepstats程序(http://emboss.bioinformatics.nl/cgi-bin/emboss/pepstats)可一次性提取蛋白质的多个序列特征,包括疏水性、分子量、残基数和氨基酸使用频率等。
氨基酸排列信息是指根据蛋白质序列中氨基酸的排列顺序和组成情况来提取序列信息。
首先,为了减少向量空间的维数,并且考虑到氨基酸同义替换的问题,对氨基酸进行分类。蛋白质相互作用主要包括静电(氢原子)相互作用和疏水的相互作用,这两类相互作用可以通过氨基酸边链的极性和体积规模体现。相应的,这两个参数可以通过密度泛函理论方法B3LYP/6-31G*和分子建模方法得到。根据边链的极性和体积规模,将20个氨基酸分成7类(如表1所示)。在相同分类中,氨基酸具有类似的特性,参与同义替换。
表1
序号边链的极性a体积规模b分类1--Ala,Gly,Val2-+Ile,Leu,Phe,Pro3++Tyr,Met,Thr,Ser4+++His,Asn,Gln,Tpr5++++Arg,Lys6+’+’+’+Asp,Glu7+c+Cys
a极性大小:-,极性<1.0;+,1.0<极性<2.0;++,2.0<极性<3.0;+++,极性>3.0;+'+'+',极性>3.0并且具有相反的方向。
b体积规模:-,体积<50;+,体积>50。
c Cys能够形成二硫键,因此将其从第三类中划分出来。
然后,为了描述蛋白质中氨基酸的排列信息,采用了一种三元组频数统计方法。以每三个连续的氨基酸作为一个单元,将蛋白质序列拆分成连续的三元组。在三元组中,同类的氨基酸被认为是相同的,例如氨基酸串ART和VKS是同一类,在相互作用中被认为发挥相同的作用。统计序列中三元组出现的次数,作为序列特征向量。如图2所示,蛋白质序列可以表示成向量(V,F),其中V是序列特征向量,每个特征(vi)表示一系列的三元组类型,F(fi)表示vi在蛋白质序列中出现的频数。因为氨基酸分为七类,所以V的大小为7×7×7,即i=1,2,…,343。
通常,较长的蛋白质具有更大的fi值,使得异构蛋白质的差异变得复杂。为了消除不同的蛋白质序列长度造成的影响,需要对F进行归一化,引入了一个新的参数di。
di=fi-min(f1,f2,...,f343)max(f1,f2,...,f343)---(1)]]>
归一化之后,向量D中包含的特征值为介于0到1之间的实数,使得蛋白质之间可以进行比较。固定氨基酸三元组V的排列顺序,那么每个蛋白质序列可以表示为343(7×7×7)维的向量D。
在蛋白质相互作用中,用下游蛋白质的特征向量D减去上游蛋白质的向量D,作为蛋白质相互作用的序列特征,用于预测蛋白质相互作用中信号流走向。
本发明一种实施方式中,数值运算为选自加、减、乘、除、乘方、开方和取模中的一种或多种,当然不限于哪种具体的运算方式,原则是看是否有利于后续的分类,假设检验方法为选自T检验、U检验、卡方检验、F检验,秩和检验中的一种或多种,预定阈值P<0.05,分类模型为选自支持向量机、决策树、贝叶斯方法中的一种或多种。
其中,T检验方法主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布样本。它用T分布理论来推断差异发生的概率,可用于考察单个样本均值与总体均值的差异,也可用于判定两个平均数之间差异是否显著。其基本原理是:对于同一事件的重复观测数据,如果数据分散程度(如方差或标准差)比较小,均值(或中位数)就更接近真实值。反之,重复实验的随意性很大,结果误差会比较大。
利用T检验考察两组数据的均值之间是否有显著差异,也就是考察两个均值的差值结果是否可靠。零假设为H0:ug1=ug2,即假设阳性数据集和阴性数据集中某个序列属性的均值是相等的,与之对应的备选假设是H1:ug1≠ug2。T统计量的计算公式如下:
tg=x&OverBar;g1-x&OverBar;g2sg12/n1+sg22/n2---(2)]]>
其中x&OverBar;gi=Σj=1nixgij/ni,sgi2=1ni-1Σj=1ni(xgij-x&OverBar;gi)2,]]>ni为数据集中相互作用的数目,xgij是序列属性g在第i个数据集中第j对相互作用的属性值,n1、n2分别是两组样本的数目。tg满足自由度为df=(n1-1)+(n2-1)的T分布。
T分布的概率分布密度函数为:
f(t)=1πdfΓ[(df+1)/2]Γ(df/2)(1+t2df)-df+12---(3)]]>
T分布的概率分布函数为:
Ft(df)=P(t<tg)=&Integral;-tgf(t)dt---(4)]]>
T检验分为双边检验和单边检验。对于单边检验,当t=tg时,两组数据的均值具有显著差异的概率P=1-Ft(df)。对于双边检验,由于T分布左右对称,当t=tg时,两组数据的均值具有显著差异的概率
根据统计量tg值,可以得到P值,它表示在零假设成立的情况下,出现该数据的概率。如果P值小于给定的显著性水平(如0.05),就拒绝零假设,即认为序列特征g在两组数据集中的取值是有显著差异的。
支持向量机是一种目前比较常用的构造分类模型的方法。它是由Vapnik等人基于统计学习理论,采用结构风险最小化原理提出的一种机器学习算法。该算法通过调整判别函数,最好地利用边界样本点的分类信息,从而构造出最佳分类超平面。支持向量机与样本的具体分布无关,它可以获得很好的泛化能力。
支持向量机由线性可分情况下的最优分类面发展而来,基本思想可用图3的两维情况说明。在图3中,实心点和空心点代表两类样本,H为分类线,H1、H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离称为分类间隔。所谓最优分类线要求分类线不但能将两类正确区分(训练错误率为0),而且使分类间隔最大。分类线方程为x·w+b=0,对其进行归一化,使得对线性可分的样本集(xi,yi),i=1,…,n,x∈Rn,y∈{+1,-1},满足:
yi[(w·xi+b)]-1≥0,i=1,K,n       (5)
其中w是最优解的向量参数,Rn是n维的欧式空间,n是空间维数。
此时分类间隔等于2/||w||,使间隔最大等价于使||w||2最小。满足条件5且使最小的分类面就叫做最优分类面,H1、H2上的训练样本点就称作支持向量。
利用拉格朗日优化方法可以把上述最优分类面问题转化为其对偶问题,即:在约束条件:
Σi=1nyiαi=0---(6)]]>
和αi≥0,i=1,K,n下,对αi求解下列函数的最大值:
Q(α)=Σi=1nαi-12Σi,j=1nαiαjyiyj(xi&CenterDot;xj)---(7)]]>
αi为原问题中与每个约束条件对应的拉格朗日乘子。这是一个不等式约束下二次函数寻优的问题,存在唯一解。容易证明,解中将只有一部分(通常是少部分)αi不为零,对应的样本就是支持向量。求解上述问题后得到的最优分类函数是:
f(x)=sgn{(w&CenterDot;x)+b}=sgn{Σi=1nαiyi(xi&CenterDot;x)+b}---(8)]]>
实际上,公式5中只对支持向量进行求和。b是分类阈值,可以用任一个支持向量求得,或者通过两类中任意一对支持向量取中值得到。对于非线性问题,可以通过非线性变换将其转化为某个高维空间中的线性问题,在变换空间中求解最优分类面。
核函数是支持向量机方法中少数几个能够调整的参数之一,通常使用多项式、径向基函数等。尽管一些实验结果表明核函数的具体形式对分类效果的影响不大,但是核函数的形式及其参数的确定决定了分类器的类型和复杂程度,是一种控制分类器性能的手段。其中,多项式内积函数和径向基内积函数的表示形式分别为公式9和10。
k(x,x′)=(x·x′+1)n          (9)
k(x,x′)=exp(-γ||x-x′||2),γ>0      (10)
本发明的技术方案已经过数值模拟验证,对于标准数据集中的相互作用90%以上可以用该方法进行预测,预测准确率大约在80%左右。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

预测蛋白质之间信号流走向的方法.pdf_第1页
第1页 / 共11页
预测蛋白质之间信号流走向的方法.pdf_第2页
第2页 / 共11页
预测蛋白质之间信号流走向的方法.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《预测蛋白质之间信号流走向的方法.pdf》由会员分享,可在线阅读,更多相关《预测蛋白质之间信号流走向的方法.pdf(11页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103577722 A (43)申请公布日 2014.02.12 CN 103577722 A (21)申请号 201310552227.2 (22)申请日 2013.11.08 G06F 19/18(2011.01) (71)申请人 中国人民解放军国防科学技术大学 地址 410073 湖南省长沙市开福区德雅路 109 号 (72)发明人 刘伟 谢红卫 (74)专利代理机构 北京康信知识产权代理有限 责任公司 11240 代理人 吴贵明 张永明 (54) 发明名称 预测蛋白质之间信号流走向的方法 (57) 摘要 本发明公开了一种预测蛋白质之间信号流走 向的方法。该方法。

2、包括以下步骤 : S1, 建立蛋白 质之间信号流走向的标准数据集 ; S2, 分别将阳 性数据集和阴性数据集中的上游蛋白质与下游蛋 白质的第一氨基酸序列信息中的特征值进行数值 运算, 得到相互作用对应的第二氨基酸序列信息 ; S3, 利用假设检验方法, 计算阳性数据集和阴性 数据集中的第二氨基酸序列信息的差异显著性 P 值 ; S4, 将差异显著性 P 值小于预定阈值的序列信 息作为分类特征, 建立分类模型 ; S5, 对分类模型 的分类效果进行评估, 如果分类模型评估满足预 设标准, 结束建模过程 ; 否则, 返回步骤 S4, 对分 类模型进行校正。 应用本发明的技术方案, 可以不 受蛋白质。

3、是否包含结构域的限制。 (51)Int.Cl. 权利要求书 1 页 说明书 7 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书7页 附图2页 (10)申请公布号 CN 103577722 A CN 103577722 A 1/1 页 2 1. 一种预测蛋白质之间信号流走向的方法, 其特征在于, 包括以下步骤 : S1, 从信号转导数据库中收集有向的调控关系, 建立蛋白质之间信号流走向的标准数 据集, 从所述标准数据集中随机选择一半信号流走向的数据作为阳性数据集, 剩余一半的 信号流走向取反得到的数据作为阴性数据集 ; S2, 分别提取所述阳。

4、性数据集和所述阴性数据集中蛋白质所包含的第一氨基酸序列信 息, 并分别将所述阳性数据集和所述阴性数据集中的上游蛋白质与下游蛋白质的所述第一 氨基酸序列信息中的特征值进行数值运算, 得到所述阳性数据集和所述阴性数据集中的相 互作用对应的第二氨基酸序列信息 ; S3, 利用假设检验方法, 计算所述阳性数据集和所述阴性数据集中的所述第二氨基酸 序列信息的差异显著性 P 值 ; S4, 将所述差异显著性 P 值小于预定阈值的序列信息作为分类特征, 建立分类模型 ; S5, 采用交叉验证方法或独立测试集, 对所述分类模型的分类效果进行评估, 如果所述 分类模型评估满足预设要求, 则所述分类模型建立成功,。

5、 结束建模过程 ; 否则, 返回所述步 骤 S4, 对所述分类模型进行校正。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述有向的调控关系包括激活、 抑制、 磷 酸化、 以及非磷酸化。 3. 根据权利要求 1 所述的方法, 其特征在于, 所述蛋白质所包含的第一氨基酸序列信 息包括物理化学属性和氨基酸排列信息。 4. 根据权利要求 1 所述的方法, 其特征在于, 所述数值运算为选自加、 减、 乘、 除、 乘方、 开方和取模中的一种或多种。 5. 根据权利要求 1 所述的方法, 其特征在于, 所述假设检验方法为选自 T 检验、 U 检验、 卡方检验、 F 检验, 秩和检验中的一种或多种。。

6、 6. 根据权利要求 1 所述的方法, 其特征在于, 所述预定阈值 P3.0 ; +, 极性 3.0 并且具有相反的方向。 0033 b 体积规模 :-, 体积 50。 0034 c Cys 能够形成二硫键, 因此将其从第三类中划分出来。 0035 然后, 为了描述蛋白质中氨基酸的排列信息, 采用了一种三元组频数统计方法。 以 每三个连续的氨基酸作为一个单元, 将蛋白质序列拆分成连续的三元组。 在三元组中, 同类 的氨基酸被认为是相同的, 例如氨基酸串ART和VKS是同一类, 在相互作用中被认为发挥相 同的作用。统计序列中三元组出现的次数, 作为序列特征向量。如图 2 所示, 蛋白质序列 可以。

7、表示成向量 (V,F), 其中 V 是序列特征向量, 每个特征 (vi) 表示一系列的三元组类型, F(fi)表示vi在蛋白质序列中出现的频数。 因为氨基酸分为七类, 所以V的大小为777, 即 i=1,2,343。 0036 通常, 较长的蛋白质具有更大的 fi值, 使得异构蛋白质的差异变得复杂。为了消 除不同的蛋白质序列长度造成的影响, 需要对 F 进行归一化, 引入了一个新的参数 di。 0037 0038 归一化之后, 向量 D 中包含的特征值为介于 0 到 1 之间的实数, 使得蛋白质之间 可以进行比较。固定氨基酸三元组的排列顺序, 那么每个蛋白质序列可以表示为 343 说 明 书 。

8、CN 103577722 A 6 5/7 页 7 (777) 维的向量 D。 0039 在蛋白质相互作用中, 用下游蛋白质的特征向量 D 减去上游蛋白质的向量 D, 作为 蛋白质相互作用的序列特征, 用于预测蛋白质相互作用中信号流走向。 0040 本发明一种实施方式中, 数值运算为选自加、 减、 乘、 除、 乘方、 开方和取模中的一 种或多种, 当然不限于哪种具体的运算方式, 原则是看是否有利于后续的分类, 假设检验方 法为选自 T 检验、 U 检验、 卡方检验、 F 检验, 秩和检验中的一种或多种, 预定阈值 P0 (10) 0066 本发明的技术方案已经过数值模拟验证, 对于标准数据集中的相互作用 90% 以上 可以用该方法进行预测, 预测准确率大约在 80% 左右。 0067 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于本领域的技 术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所作的任何修 说 明 书 CN 103577722 A 8 7/7 页 9 改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 说 明 书 CN 103577722 A 9 1/2 页 10 图 1 说 明 书 附 图 CN 103577722 A 10 2/2 页 11 图 2 图 3 说 明 书 附 图 CN 103577722 A 11 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1