《预测蛋白质之间信号流走向的方法.pdf》由会员分享,可在线阅读,更多相关《预测蛋白质之间信号流走向的方法.pdf(11页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103577722 A (43)申请公布日 2014.02.12 CN 103577722 A (21)申请号 201310552227.2 (22)申请日 2013.11.08 G06F 19/18(2011.01) (71)申请人 中国人民解放军国防科学技术大学 地址 410073 湖南省长沙市开福区德雅路 109 号 (72)发明人 刘伟 谢红卫 (74)专利代理机构 北京康信知识产权代理有限 责任公司 11240 代理人 吴贵明 张永明 (54) 发明名称 预测蛋白质之间信号流走向的方法 (57) 摘要 本发明公开了一种预测蛋白质之间信号流走 向的方法。该方法。
2、包括以下步骤 : S1, 建立蛋白 质之间信号流走向的标准数据集 ; S2, 分别将阳 性数据集和阴性数据集中的上游蛋白质与下游蛋 白质的第一氨基酸序列信息中的特征值进行数值 运算, 得到相互作用对应的第二氨基酸序列信息 ; S3, 利用假设检验方法, 计算阳性数据集和阴性 数据集中的第二氨基酸序列信息的差异显著性 P 值 ; S4, 将差异显著性 P 值小于预定阈值的序列信 息作为分类特征, 建立分类模型 ; S5, 对分类模型 的分类效果进行评估, 如果分类模型评估满足预 设标准, 结束建模过程 ; 否则, 返回步骤 S4, 对分 类模型进行校正。 应用本发明的技术方案, 可以不 受蛋白质。
3、是否包含结构域的限制。 (51)Int.Cl. 权利要求书 1 页 说明书 7 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书7页 附图2页 (10)申请公布号 CN 103577722 A CN 103577722 A 1/1 页 2 1. 一种预测蛋白质之间信号流走向的方法, 其特征在于, 包括以下步骤 : S1, 从信号转导数据库中收集有向的调控关系, 建立蛋白质之间信号流走向的标准数 据集, 从所述标准数据集中随机选择一半信号流走向的数据作为阳性数据集, 剩余一半的 信号流走向取反得到的数据作为阴性数据集 ; S2, 分别提取所述阳。
4、性数据集和所述阴性数据集中蛋白质所包含的第一氨基酸序列信 息, 并分别将所述阳性数据集和所述阴性数据集中的上游蛋白质与下游蛋白质的所述第一 氨基酸序列信息中的特征值进行数值运算, 得到所述阳性数据集和所述阴性数据集中的相 互作用对应的第二氨基酸序列信息 ; S3, 利用假设检验方法, 计算所述阳性数据集和所述阴性数据集中的所述第二氨基酸 序列信息的差异显著性 P 值 ; S4, 将所述差异显著性 P 值小于预定阈值的序列信息作为分类特征, 建立分类模型 ; S5, 采用交叉验证方法或独立测试集, 对所述分类模型的分类效果进行评估, 如果所述 分类模型评估满足预设要求, 则所述分类模型建立成功,。
5、 结束建模过程 ; 否则, 返回所述步 骤 S4, 对所述分类模型进行校正。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述有向的调控关系包括激活、 抑制、 磷 酸化、 以及非磷酸化。 3. 根据权利要求 1 所述的方法, 其特征在于, 所述蛋白质所包含的第一氨基酸序列信 息包括物理化学属性和氨基酸排列信息。 4. 根据权利要求 1 所述的方法, 其特征在于, 所述数值运算为选自加、 减、 乘、 除、 乘方、 开方和取模中的一种或多种。 5. 根据权利要求 1 所述的方法, 其特征在于, 所述假设检验方法为选自 T 检验、 U 检验、 卡方检验、 F 检验, 秩和检验中的一种或多种。。
6、 6. 根据权利要求 1 所述的方法, 其特征在于, 所述预定阈值 P3.0 ; +, 极性 3.0 并且具有相反的方向。 0033 b 体积规模 :-, 体积 50。 0034 c Cys 能够形成二硫键, 因此将其从第三类中划分出来。 0035 然后, 为了描述蛋白质中氨基酸的排列信息, 采用了一种三元组频数统计方法。 以 每三个连续的氨基酸作为一个单元, 将蛋白质序列拆分成连续的三元组。 在三元组中, 同类 的氨基酸被认为是相同的, 例如氨基酸串ART和VKS是同一类, 在相互作用中被认为发挥相 同的作用。统计序列中三元组出现的次数, 作为序列特征向量。如图 2 所示, 蛋白质序列 可以。
7、表示成向量 (V,F), 其中 V 是序列特征向量, 每个特征 (vi) 表示一系列的三元组类型, F(fi)表示vi在蛋白质序列中出现的频数。 因为氨基酸分为七类, 所以V的大小为777, 即 i=1,2,343。 0036 通常, 较长的蛋白质具有更大的 fi值, 使得异构蛋白质的差异变得复杂。为了消 除不同的蛋白质序列长度造成的影响, 需要对 F 进行归一化, 引入了一个新的参数 di。 0037 0038 归一化之后, 向量 D 中包含的特征值为介于 0 到 1 之间的实数, 使得蛋白质之间 可以进行比较。固定氨基酸三元组的排列顺序, 那么每个蛋白质序列可以表示为 343 说 明 书 。
8、CN 103577722 A 6 5/7 页 7 (777) 维的向量 D。 0039 在蛋白质相互作用中, 用下游蛋白质的特征向量 D 减去上游蛋白质的向量 D, 作为 蛋白质相互作用的序列特征, 用于预测蛋白质相互作用中信号流走向。 0040 本发明一种实施方式中, 数值运算为选自加、 减、 乘、 除、 乘方、 开方和取模中的一 种或多种, 当然不限于哪种具体的运算方式, 原则是看是否有利于后续的分类, 假设检验方 法为选自 T 检验、 U 检验、 卡方检验、 F 检验, 秩和检验中的一种或多种, 预定阈值 P0 (10) 0066 本发明的技术方案已经过数值模拟验证, 对于标准数据集中的相互作用 90% 以上 可以用该方法进行预测, 预测准确率大约在 80% 左右。 0067 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于本领域的技 术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所作的任何修 说 明 书 CN 103577722 A 8 7/7 页 9 改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 说 明 书 CN 103577722 A 9 1/2 页 10 图 1 说 明 书 附 图 CN 103577722 A 10 2/2 页 11 图 2 图 3 说 明 书 附 图 CN 103577722 A 11 。