一种预测细菌IV型分泌系统效应分子的方法.pdf

摘要
申请专利号：	CN201610222292.2	申请日：	2016.04.11
公开号：	CN105938522A	公开日：	2016.09.14
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 19/18申请日:20160411\|\|\|公开
IPC分类号：	G06F19/18(2011.01)I	主分类号：	G06F19/18
申请人：	中国人民解放军第三军医大学
发明人：	邹凌云; 陈抗; 钟蔚
地址：	400038 重庆市沙坪坝区高滩岩正街30号
优先权：
专利代理机构：	北京国坤专利代理事务所(普通合伙) 11491	代理人：	姜彦
PDF下载：	PDF下载

内容摘要

本发明公开一种预测细菌IV型分泌系统效应分子的方法，服务器后台通过两个模块，将前台网页中用户提交的蛋白质序列输入预测程序；调用blastpgp程序，计算蛋白质序列的位置特异性迭代打分矩阵,并计算组成特征，将这些特征转换成一个特征向量，调用libSVM程序，并导入使用训练数据集预先建立的模型，对蛋白质进行计算预测并保存，JSP网页不断查询该数据，一旦获得结果，输出到前台网页。本发明预测IVA型效应分子的准确度为76.7％，预测IVB型效应分子的准确度为89.7％，为国内外已知的第一个非基于序列同源性方法的T4SS效应分子预测软件，可应用于细菌IV型分泌系统效应分子的筛选、鉴定和功能研究。

权利要求书

1.一种预测细菌IV型分泌系统效应分子的方法，其特征在于，该预测细
菌IV型分泌系统效应分子的方法包括以下步骤：
步骤一、用户登录web服务器主页，进入预测页面，输入待预测的蛋白序
列；
步骤二、服务器JSP程序获取用户输入的蛋白序列，并在前台网页产生结
果输出链接；
步骤三、JSP程序调用blastpgp程序，将用户输入的蛋白序列与NCBI无冗
余蛋白质数据库进行两两比对，计算位置特异性得分矩阵PSSM；
步骤四、JSP程序查询结果保存目录，一旦PSSM计算完成，调用Matlab
程序计算PSSM组成特征；
步骤五、Matlab程序使用自相关函数，计算PSSM的自相关特征，同时计
算蛋白氨基酸组成特征和氨基酸对组成特征；
步骤六、Matlab程序将多类特征依据预设方式进行组合，产生一个蛋白质
特征向量；
步骤七、Matlab程序调用libSVM程序，使用事先训练好的模型，预测蛋白
质是效应分子的似然率；
步骤八、根据SVM预测结果判断其是否为IV型分泌系统效应分子，以
HTML格式保存到结果目录；
步骤九、负责结果输出的JSP程序不断查询结果保存目录，确认结果文件
是否生成；
步骤十、一旦结果生成，则服务器随时相应用户点击，将预测结果显示到
前台网页，包括判别结果和PSSM矩阵。
2.如权利要求1所述的预测细菌IV型分泌系统效应分子的方法，其特征
在于，所述步骤一采用FASTA格式在页面上的文本框内输入待预测的蛋白质序
列。
3.如权利要求1所述的预测细菌IV型分泌系统效应分子的方法，其特征
在于，所述步骤七中使用训练数据集和libSVM程序，建立训练好的SVM模型
并保存。
4.如权利要求1所述的预测细菌IV型分泌系统效应分子的方法，其特征
在于，web服务器后台通过DataInOut和SmartUpload两个JAVA模块，将前台
网页提交的蛋白质序列输入matlab程序；
JSP程序调用blastpgp程序，依据预先设定的参数，将蛋白质序列与服务器
本地安装的NCBI无冗余蛋白质数据库nr进行比对，计算位置特异性迭代打分
PSSM矩阵；
然后从PSSM矩阵计算PSSM组成特征，并同时计算序列的氨基酸组成和
氨基酸对组成特征；
将这些特征转换成一个特征向量，将该特征向量输入支持向量机SVM分类
器，SVM分类器将输出判别结果，保存到本地磁盘；
最后，JSP网页不断查询该数据保存目录，结果计算完毕，则将预测结果和
位置特异性打分矩阵，输出到前台网页。
5.如权利要求4所述的预测细菌IV型分泌系统效应分子的方法，其特征
在于，从PSSM矩阵计算PSSM组成特征，还同时计算PSSM自相关特征。
6.如权利要求4所述的预测细菌IV型分泌系统效应分子的方法，其特征
在于，所述SVM分类器为利用libSVM3.12工具箱建立的分类器，包括根据训
练数据建立的分类模型，核函数，参数。
7.如权利要求1所述的预测细菌IV型分泌系统效应分子的方法，其特征
在于，所述步骤三中的PSSM矩阵，该矩阵每行对应该蛋白质序列每一个位置，
每列对应20种氨基酸残基，每一个数值代表该数值所在行对应的序列位置上使
用的氨基酸为该数值所在列对应的氨基酸的保守性得分，若该数值越大，则表
示蛋白质序列的这一个位置在进化过程中氨基酸残基保守性越高。
8.如权利要求1所述的预测细菌IV型分泌系统效应分子的方法，其特征
在于，所述步骤四中调用Matlab程序计算PSSM组成特征，该特征计算方式为：
将矩阵所有行的同一种氨基酸残基在每一列上的数值相加，并除以序列长度，
得到一个20维向量，20种氨基酸的向量相连，得到400维的特征向量，并归一
化到[-1,1]区间内。
9.如权利要求1所述的预测细菌IV型分泌系统效应分子的方法，其特征
在于，所述步骤五中计算PSSM的自相关特征，自相关特征的计算方式如下：
首先，PSSM矩阵可以表示为下列向量形式：
PSSM＝(S1,S2,…,S20)
这里，Si(i＝1,2,…,20)表示第i种氨基酸的列向量，每一个列向量可定义如下：
Sj＝(s1,j,s2,j,,…,sL,j)T(j＝1,2,…,20)
这里，L代表蛋白质序列的长度，Sij表示序列第i个位置所对应的第j种类型的氨
基酸的得分，自相关变换函数定义如下:
$<mrow> <mi>P</mi> <mi>S</mi> <mi>S</mi> <mi>M</mi> <mo>_</mo> <msub> <mi>AC</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mi>g</mi> </mrow> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mi>g</mi> </mrow> </munderover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mi>L</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>g</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mi>L</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>$
上式中，(j＝1,2,…,20,g＝1,2,…,G)。因此，PSSM的自相关变换为一个20
×G的向量，G是一个正整数，表示自相关变换的分组数量，自相关变换将蛋
白质序列的PSSM矩阵转换为一个向量，反映的是相隔距离为G的两个氨基酸
在进化上的相关性，氨基酸组成和氨基酸对组成特征分别通过计算蛋白质序列
中20种氨基酸以及400种氨基酸对的个数除以序列长度来获得；
所述步骤六中Matlab程序将400维的PSSM组成特征、20×G维的PSSM
自相关特征、20维的氨基酸组成特征以及400维的氨基酸对组成特征，两个一
组，三个一组或者四个一组进行组合，从中选择预测性能最高的组合方式作为
最终的蛋白质序列向量表示方式。
10.如权利要求1所述的预测细菌IV型分泌系统效应分子的方法，其特征
在于，所述步骤七中模型构建过程为：首先收集样本序列，并采用
Smith-Waterman算法去除冗余序列，得到310个IVB型效应分子，30个IVA型
效应分子和1132个非效应分子作为训练数据集，去除冗余序列后的每一条蛋白
质序列之间的序列相似度不超过20％，使用步骤一到六所述方法，计算蛋白质
的序列特征向量，使用libSVM3.12建立支持向量机预测模型，支持向量机预测
模型的核函数选择RBF核函数，惩罚因子等参数使用网格搜索和十倍交叉验证
测试来确定，使用libSVM中的SVMtrain程序训练模型，使用敏感性、特异性、
总预测精度和马氏相关系数来评价预测性能，最终从测试结果中选择马氏相关
系数最优的特征组合方式和模型参数，将性能最优的模型作为最终模型输出保
存。

说明书

一种预测细菌IV型分泌系统效应分子的方法

技术领域

本发明属于预测细菌分泌系统效应分子的技术领域，尤其涉及一种预测细
菌IV型分泌系统效应分子的方法。

背景技术

IV型分泌系统(T4SS)是近年来发现的细菌的一种分泌装置，可以将蛋白
质分子分泌到宿主细胞，是维持细菌生存和致病性的一种重要的方式。通过T4SS
分泌的蛋白质也称为效应分子。众多病原菌，如嗜肺军团菌、鼠疫耶尔森菌、
布鲁氏菌、立克次体都可以利用其IV型分泌系统分泌效应分子，来攻击人体细
胞，是其危害人类健康的一种重要手段。

当前，已经在嗜肺军团菌等多种细菌中，通过实验鉴定了一些T4SS效应分
子。然而，研究人员已经发现，T4SS效应分子多种多样，序列的保守性远远低
于构成T4SS装置的组分蛋白质，这就使得仅仅依赖于序列同源性分析的方法，
很难鉴定出细菌基因组内与已知效应分子同源程度很低的新型效应分子。此外，
完全基于实验的鉴定方法需要耗费大量的人力物力和时间，随着大量细菌基因
组测序的完成，已经远远不能满足在其中鉴定这类效应分子的需求。

发明内容

本发明的目的在于提供一种预测细菌IV型分泌系统效应分子的方法，旨在
解决当前实验鉴定一些T4SS效应分子中仅仅依赖于序列同源性分析，很难鉴定
出细菌基因组内与已知效应分子同源程度很低的新型效应分子的问题。

本发明是这样实现的，一种预测细菌IV型分泌系统效应分子的方法，该预
测细菌IV型分泌系统效应分子的方法包括以下步骤：

步骤一、用户登录web服务器主页，进入预测页面，输入待预测的蛋白序
列；

步骤二、服务器JSP程序获取用户输入的蛋白序列，并在前台网页产生结
果输出链接；

步骤三、JSP程序调用blastpgp程序，将用户输入的蛋白序列与NCBI无冗
余蛋白质数据库进行两两比对，计算位置特异性得分矩阵(Position Specific
Scoring Matrix，PSSM)；

步骤四、JSP程序查询结果保存目录，一旦PSSM计算完成，调用Matlab
程序计算PSSM组成特征；

步骤五、Matlab程序使用自相关函数，计算PSSM的自相关特征，同时计
算蛋白氨基酸组成特征和氨基酸对组成特征；

步骤六、Matlab程序将多类特征依据预设方式进行组合，产生一个蛋白质
特征向量；

步骤七、Matlab程序调用libSVM程序，使用训练好的模型，预测蛋白质是
效应分子的似然率；

步骤八、根据SVM预测结果判断其是否为IV型分泌系统效应分子，以
HTML格式保存到结果目录；

步骤九、负责结果输出的JSP程序不断查询结果保存目录，确认结果文件
是否生成；

步骤十、一旦结果生成，则服务器随时相应用户点击，将预测结果显示到
前台网页，包括判别结果和PSSM矩阵。

进一步，所述步骤一采用FASTA格式在页面上的文本框内输入待预测的蛋
白质序列。

进一步，所述步骤七中使用训练数据集和libSVM程序，建立训练好的SVM
模型并保存。

进一步，所述web服务器后台通过DataInOut和SmartUpload两个JAVA模
块，将前台网页提交的蛋白质序列输入matlab程序；

JSP程序调用blastpgp程序，依据预先设定的参数，将蛋白质序列与服务器
本地安装的NCBI无冗余蛋白质数据库nr进行比对，计算位置特异性迭代打分
PSSM矩阵；

然后从这个矩阵计算PSSM组成特征，并同时计算序列的氨基酸组成和氨
基酸对组成特征；

将这些特征转换成一个特征向量，将该特征向量输入支持向量机SVM分类
器，SVM分类器将输出判别结果，保存到本地磁盘；

最后，JSP网页不断查询该数据保存目录，结果计算完毕，则将预测结果和
位置特异性打分矩阵，输出到前台网页。

进一步，从PSSM矩阵计算PSSM组成特征，还同时计算PSSM自相关特
征。

进一步，所述SVM分类器利用libSVM3.12工具箱建立的分类器，包括根
据训练数据建立的分类模型，核函数，参数。

进一步，所述步骤三中的矩阵，该矩阵每行对应该蛋白质序列每一个位置，
每列对应20种氨基酸残基，每一个数值代表其所在行对应的序列位置上使用的
氨基酸为其所在列对应的氨基酸的保守性得分，若该数值越大，则表示蛋白质
序列的这一个位置在进化过程中氨基酸残基保守性越高。

进一步，所述步骤四中调用Matlab程序计算PSSM组成特征，该特征计算
方式为：将矩阵所有行的同一种氨基酸残基在每一列上的数值相加，并除以序
列长度，得到一个20维向量，20种氨基酸的向量相连，得到400维的特征向量，
并归一化到[-1,1]区间内。

进一步，所述步骤五中计算PSSM的自相关特征，自相关特征的计算方式
如下：首先，PSSM矩阵可以表示为下列向量形式：

PSSM＝(S1,S2,…,S20)

这里，Si(i＝1,2,…,20)表示第i种氨基酸的列向量，每一个列向量可定义如下：

Sj＝(s1,j,s2,j,,…,sL,j)T(j＝1,2,…,20)

这里，L代表蛋白质序列的长度，Sij表示序列第i个位置所对应的第j种类型的氨
基酸的得分，自相关变换函数定义如下:

$<mrow> <mi>P</mi> <mi>S</mi> <mi>S</mi> <mi>M</mi> <mo>_</mo> <msub> <mi>AC</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>L</mi> <mo>-</mo> <mi>g</mi> </mrow> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mi>g</mi> </mrow> </munderover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mi>L</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>g</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mi>L</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>$

上式中，(j＝1,2,…,20,g＝1,2,…,G)。因此，PSSM的自相关变换为一
个20×G的向量，G是一个正整数，表示自相关变换的分组数量，自相关变换
将蛋白质序列的PSSM矩阵转换为一个向量，反映的是相隔距离为G的两个氨
基酸在进化上的相关性，氨基酸组成和氨基酸对组成特征分别通过计算蛋白质
序列中20种氨基酸以及400种氨基酸对的个数除以序列长度来获得；

所述步骤六中Matlab程序将400维的PSSM组成特征、20×G维的PSSM
自相关特征、20维的氨基酸组成特征以及400维的氨基酸对组成特征，两个一
组，三个一组或者四个一组进行组合，从中选择预测性能最高的组合方式作为
最终的蛋白质序列向量表示方式。

进一步，所述步骤七中Matlab程序调用libSVM程序，使用事先训练好的
模型，预测蛋白质是效应分子的似然率；该模型构建过程如下：使用数据库搜
索、序列比对和文献挖掘手段收集样本序列，并采用Smith-Waterman算法去除
冗余序列，得到310个IVB型效应分子，30个IVA型效应分子和1132个非效
应分子作为训练数据集，其中的每一条蛋白质序列之间的序列相似度不超过
20％，且均为实验所证实。使用步骤一到六所述方法，计算蛋白质的序列特征向
量，使用libSVM3.12来建立支持向量机预测模型，其中核函数为RBF核函数，
惩罚因子等参数使用网格搜索和十倍交叉验证测试来确定，使用SVMtrain训练
模型，使用敏感性、特异性、总预测精度和马氏相关系数来评价预测性能，最
终从测试结果中选择马氏相关系数最优的特征组合方式和模型参数，将性能最
优的模型作为最终模型输出保存。

本发明在深入分析已知效应分子序列特征的基础上，建立了一种计算蛋白
质序列位置特异性打分矩阵，并通过自相关函数转换为位置特异性特征的方法，
并通过建立基于支持向量机的机器学习分类器，发明了一种能够对未知功能的
细菌蛋白质序列进行预测和计算机鉴定的程序。该程序通过web服务器的方式，
接受用户输入的蛋白质序列，预测其是否为T4SS系统分泌的效应分子，并且具
有较高的预测准确度。

该发明的核心是一个预测算法，其基本思想和技术细节如下：IV型分泌系
统效应分子序列，尤其是C端序列，在氨基酸的使用类型和频率上与非效应分
子有一些差异，这一差异是进化过程中形成的；找到描述这种进化差异的精确
方法，显然有助于在未知的蛋白质序列中识别这类蛋白质。已知氨基酸位置特
异性打分矩阵能够体现蛋白质序列进化过程中，不同功能的蛋白质在不同位置
使用氨基酸的一种保守性，而机器学习算法则是对两种差异数据进行分类的一
种好的选择，因此，本发明基于上述科学思想，建立了一种基于蛋白质进化保
守信息和机器学习的效应分子预测算法，该算法首先构建了一个无冗余的数据
集，包含30条IVA型效应分子，310条IVB型效应分子，1132条非效应分子蛋
白质序列；使用blastpgp程序将蛋白质序列与NCBI无冗余的蛋白质数据库进
行比对，计算位置特异性打分矩阵(PSSM)；为了将PSSM矩阵转换为特征向量，
本发明设计了两种特征计算方法，一是从PSSM计算20种氨基酸各自在整个序
列中的特异性得分，称为PSSM组成，二是设计了一个自相关函数，计算同一类
氨基酸在序列上下游附近区域出现的相关性；此外，进一步计算序列的氨基酸
组成和氨基酸对组成；通过将不同特征进行各种组合，来寻找最能区分效应分
子和非效应分子的组合方式；为了建立分类模型，使用在高维数据分类中性能
出色的支持向量机算法来建立分类模型；使用阳性率、阴性率、总预测精度、
马氏相关系数、ROC曲线和曲线下面积等多种指标来评估预测算法的性能，在训
练数据集上使用十倍交叉验证方法进行测试，结果表明该算法预测IVA型效应
分子的阳性判别率、阴性判别率、总精度和马氏相关系数最高可以达到76.7％，
97.5％，93.3％，0.784；预测IVB型效应分子的上述指标最高可以达到89.7％，
97.6％，95.9％，0.878；此外，该算法与国际上现有的两种预测方法进行了比较，
其马氏相关系数都更好，并且是唯一可以将IVA型和IVB型效应分子进行分别
预测的算法，使用该算法在导致“猫抓热”等疾病的病原菌汉赛巴尔通体的全
基因组内进行预测，能够准确预测到7个已经证实的效应分子，同时预测到了
47个潜在的效应分子，证明该发明应用于预测革兰阴性细菌IV型分泌系统效应
分子，具有很好的敏感性。

本发明能够在基因组蛋白质中识别与已知效应分子序列同源性很低的效应
分子，为国内外已知的第一个非基于序列同源性方法的T4SS效应分子预测软件，
可以帮助细菌研究人员在一些致病菌基因组内预测到潜在的效应分子蛋白质，
得到很小规模的候选对象来进行生物学实验鉴定，从而显著加快效应分子鉴定
的进程,为揭示病原菌利用IV型分泌系统侵袭宿主细胞的机制提供有效帮助。

附图说明

图1是本发明实施例提供的预测细菌IV型分泌系统效应分子的方法流程
图；

图2是本发明实施例提供的预测算法的总体实现思路图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，
对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以
解释本发明，并不用于限定本发明。

该发明的核心是一个预测算法，其基本思想和技术细节如下：IV型分泌系
统效应分子序列，尤其是C端序列，在氨基酸的使用类型和频率上与非效应分
子有一些差异，这一差异是进化过程中形成的。找到描述这种进化差异的精确
方法，显然有助于在未知的蛋白质序列中识别这类蛋白质。已知氨基酸位置特
异性打分矩阵能够体现蛋白质序列进化过程中，不同功能的蛋白质在不同位置
使用氨基酸的一种保守性。而机器学习算法则是对两种差异数据进行分类的一
种好的选择。因此，本发明基于上述科学思想，建立了一种基于蛋白质进化保
守信息和机器学习的效应分子预测算法。该算法首先构建了一个无冗余的数据
集，包含30条IVA型效应分子，310条IVB型效应分子，1132条非效应分子蛋
白质序列。使用blastpgp程序将蛋白质序列与NCBI无冗余的蛋白质数据库进
行比对，计算位置特异性打分矩阵(PSSM)。为了将PSSM矩阵转换为特征向量，
本发明设计了两种特征计算方法，一是从PSSM计算20种氨基酸各自在整个序
列中的特异性得分，称为PSSM组成，二是设计了一个自相关函数，计算同一类
氨基酸在序列上下游附近区域出现的相关性；此外，进一步计算序列的氨基酸
组成和氨基酸对组成。通过将不同特征进行各种组合，来寻找最能区分效应分
子和非效应分子的组合方式。为了建立分类模型，使用在高维数据分类中性能
出色的支持向量机算法来建立分类模型。使用阳性率、阴性率、总预测精度、
马氏相关系数、ROC曲线和曲线下面积等多种指标来评估预测算法的性能。在训
练数据集上使用十倍交叉验证方法进行测试，结果表明该算法预测IVA型效应
分子的阳性判别率、阴性判别率、总精度和马氏相关系数最高可以达到76.7％，
97.5％，93.3％，0.784；预测IVB型效应分子的上述指标最高可以达到89.7％，
97.6％，95.9％，0.878。此外，该算法与国际上现有的两种预测方法进行了比较，
其马氏相关系数都更好，并且是唯一可以将IVA型和IVB型效应分子进行分别
预测的算法。使用该算法在导致“猫抓热”等疾病的病原菌汉赛巴尔通体的全
基因组内进行预测，能够准确预测到7个已经证实的效应分子，同时预测到了
47个潜在的效应分子，证明该发明应用于预测革兰阴性细菌IV型分泌系统效应
分子，具有很好的敏感性。

下面结合附图对本发明的应用原理作详细描述。

如图1所示：一种预测细菌IV型分泌系统效应分子的方法，该预测细菌IV
型分泌系统效应分子的方法包括以下步骤：

S101：用户登录web服务器主页，进入预测页面，输入FASTA格式的待预
测的蛋白序列；

S102：服务器JSP程序获取用户输入的蛋白序列，并在前台网页产生结果
输出链接；

S103：JSP程序调用blastpgp程序，将用户输入的蛋白序列与NCBI无冗
余蛋白质数据库进行两两比对，计算位置特异性得分矩阵PSSM；

S104：JSP程序查询结果保存目录，一旦PSSM计算完成，调用Matlab程
序计算PSSM组成特征；

S105：Matlab程序使用自相关函数，计算PSSM的自相关特征，同时计算
蛋白氨基酸组成特征和氨基酸对组成特征；

S106：Matlab程序将多类特征依据预设方式进行组合，产生一个蛋白质特
征向量；

S107：Matlab程序调用libSVM程序，使用训练好的模型，预测蛋白质是
效应分子的似然率；

S108：根据SVM预测结果判断其是否为IV型分泌系统效应分子，以HTML
格式保存到结果目录；

S109：负责结果输出的JSP程序不断查询结果保存目录，确认结果文件是
否生成；

S1010：一旦结果生成，则服务器随时相应用户点击，将预测结果显示到前
台网页，包括判别结果和PSSM矩阵。

所述S101采用FASTA格式在页面上的文本框内输入待预测的蛋白质序列。

所述S107中使用训练数据集和libSVM程序，建立训练好的SVM模型并
保存。

所述web服务器后台通过DataInOut和SmartUpload两个JAVA模块，将前
台网页提交的蛋白质序列输入matlab程序；

然后从这个矩阵计算PSSM组成特征，并同时计算序列的氨基酸组成和氨
基酸对组成特征；

将这些特征转换成一个特征向量，将该特征向量输入支持向量机SVM分类
器，SVM分类器将输出判别结果，保存到本地磁盘；

最后，JSP网页不断查询该数据保存目录，结果计算完毕，则将预测结果和
位置特异性打分矩阵，输出到前台网页。

所述从PSSM这个矩阵计算PSSM组成特征，还同时计算和PSSM自相关
特征。

所述将这些特征转换成一个特征向量，将该特征向量输入支持向量机分类
器，所述分类器利用libSVM3.12工具箱建立的分类器，包括根据训练数据建立
的分类模型，核函数，参数。

所述S103中的PSSM矩阵，该矩阵每行对应该蛋白质序列每一个位置，每
列对应20种氨基酸残基，每一个数值代表其所在行对应的序列位置上使用的氨
基酸为其所在列对应的氨基酸的保守性得分，若该数值越大，则表示蛋白质序
列的这一个位置在进化过程中氨基酸残基保守性越高。

所述S104中调用Matlab程序计算PSSM组成特征，该特征计算方式为：
将矩阵所有行的同一种氨基酸残基在每一列上的数值相加，并除以序列长度，
得到一个20维向量，20种氨基酸的向量相连，得到400维的特征向量，并归一
化到[-1,1]区间内。

所述S105中计算PSSM的自相关特征，自相关特征的计算方式如下：首先，
PSSM矩阵可以表示为下列向量形式：

PSSM＝(S1,S2,…,S20)

这里，Si(i＝1,2,…,20)表示第i种氨基酸的列向量，每一个列向量可定义如下：

Sj＝(s1,j,s2,j,,…,sL,j)T(j＝1,2,…,20)

这里，L代表蛋白质序列的长度，Sij表示序列第i个位置所对应的第j种类型的氨
基酸的得分，自相关变换函数定义如下:

所述S106中Matlab程序将400维的PSSM组成特征、20×G维的PSSM自
相关特征、20维的氨基酸组成特征以及400维的氨基酸对组成特征，两个一组，
三个一组或者四个一组进行组合并向量首尾连接，从中选择预测性能最高的组
合方式作为最终的蛋白质序列向量的表示方式。

所述S107中Matlab程序调用libSVM程序，使用事先训练好的模型，预测
蛋白质是效应分子的似然率；该模型构建过程如下：使用数据库搜索、序列比
对和文献挖掘等手段收集样本序列，并采用Smith-Waterman算法去除冗余序列，
得到310个IVB型效应分子，30个IVA型效应分子和1132个非效应分子作为
训练数据集，其中的每一条蛋白质序列之间的序列相似度不超过20％，且均为
实验所证实。使用步骤一到六所述方法，计算蛋白质的序列特征向量，使用
libSVM3.12来建立支持向量机预测模型，支持向量机预测模型的核函数为RBF
核函数，惩罚因子等参数使用网格搜索和十倍交叉验证测试来确定，使用libSVM
包中的SVMtrain程序来训练模型，使用敏感性、特异性、总预测精度和马氏相
关系数来评价预测性能，最终从测试结果中选择马氏相关系数最优的特征组合
方式和模型参数，将性能最优的模型作为最终模型输出保存。

本发明提供一种预测细菌IV型分泌系统效应分子的程序使用方法，该程序
使用方法包括以下步骤：

登陆web服务器：该程序的web服务器网址：http://202.202.232.206/T4EffPred；
或者：http://bioinfo.tmmu.edu.cn/T4EffPred；

输入FASTA格式的蛋白质序列：进入prediction页面，采用FASTA格式在
页面上的文本框内输入待预测的蛋白质序列，输入序列以后，点击“SUBMIT”
完成提交，等待服务器计算完成，预测结果将显示在该网页上；

预测结果查看：计算完成后，在网页上会自动显示预测结果的链接，点击链
接查看预测结果；

程序文件说明查看：

runpredict.jsp:后台获取蛋白质序列并发送到计算程序的JSP程序；

dispresult.jsp:后台获取预测结果发送到前台网页显示的JSP程序；

matlabcode目录：计算程序的matlab代码，计算蛋白质的序列特征并进行
机器学习预测，所述matlabcode目录内还包括计算所依赖的libSVM3.12程序
和blast程序，以及NCBI无冗余的蛋白质数据库nr；所述的data子目录包含
了SVM分类器训练所用的训练数据集；

Data目录：所述的data目录包含SVM分类器训练所用的训练数据集，训练
数据打包下载；

Userdata:保存用户提交的数据及其计算结果。

所述输入FASTA格式蛋白质序列：用户进入prediction页面，在页面上的
文本框内输入待预测的蛋白质序列，输入序列以后，点击“SUBMIT”完成提交，
等待服务器计算完成，预测结果将显示在该网页上，在等待服务器计算完成期
间网页自动刷新。

所述matlabcode目录中计算程序的matlab代码，所述matlab代码中
t4effpred为核心代码。

本发明提供一种预测细菌IV型分泌系统效应分子的web服务器，该预测细
菌IV型效应分子的web服务器包括：该服务器使用ApacheTomcat8.0.30作为
JAVA服务器环境，操作系统为CentOS5.11Linux，JDK版本为1.8.0。

该预测细菌IV型效应分子的web服务器包括下列内容：介绍web服务器的
基本功能和参考文献信息的Introduction、提供用户输入、结果输出信息的预测
页面prediction、下载程序源代码和算法所使用的训练数据集的download和提供
联系方式的contact。

下面结合总体设计和实施例对本发明的应用原理作进一步描述。

二、总体设计

2.1算法的总体设计思路：

该预测工具的总体实现思路如图2所示。

2.2web预测服务器的工作环境

该web服务器操作系统为CentOS Linux 5.11，JSP支持环境为
apache-tomcat-8.0.30。网页代码使用JSP和HTML编写，计算程序使用matlab
编写，程序内集成BLAST-2.2.26和LibSVM3.12，Matlab开发版本为R2011b。

2.3程序运行原理

服务器后台通过DataInOut和SmartUpload两个JAVA模块，将前台网页提
交的蛋白质序列输入matlab程序，该程序调用blastpgp程序，依据预先设定
的参数，将蛋白质序列与服务器本地安装的NCBI无冗余蛋白质数据库nr进行
比对，计算位置特异性迭代打分矩阵(PSSM)，然后从这个矩阵计算PSSM组成
特征和PSSM自相关特征，并同时计算序列的氨基酸组成和氨基酸对组成特征，
将这些特征转换成一个特征向量，将该特征向量输入支持向量机分类器(利用
libSVM3.12建立的分类器，包括根据训练数据建立的分类模型，核函数，参数
等)，SVM分类器将输出判别结果，保存到本地磁盘。最后，JSP网页不断查询
该数据保存目录，一旦结果计算完毕，则将预测结果和位置特异性打分矩阵，
输出到前台网页。

三、程序使用说明

3.1主要功能

该程序可以对输入的蛋白质序列，计算其序列特征，利用内置的机器学习算
法判别其是否为一个T4SS分泌的蛋白质分子，每次输入一个长度大于50个氨
基酸的蛋白质序列。

3.2预测性能

预测IVA型效应分子的准确度(阳性判别率)达到76.7％，预测IVB型效应
分子的准确度(阳性判别率)达到89.7％。能够在细菌基因组蛋白质中识别与已
知效应分子序列同源性很低的效应分子。这是国内外已知的第一个非基于序列
同源性方法的T4SS效应分子预测软件。

3.3使用方法和步骤

1)登陆web服务器。该程序的web服务器网址：http://202.202.232.206/
T4EffPred；或者：http://bioinfo.tmmu.edu.cn/T4EffPred。

主页包括四个方面功能：

1.Introduction：介绍了本工具的基本功能和参考文献信息。

2.prediction：预测页面，提供用户输入、结果输出信息。

3.download：可以下载程序源代码和算法所使用的训练数据集。

4.contact：本项目的联系方式。

2)输入FASTA格式的蛋白质序列

进入prediction页面，在页面上的文本框内输入FASTA格式的待预测蛋白
质序列。输入序列以后，点击“SUBMIT”即可完成提交。等待服务器计算完成，
预测结果将显示在该网页上。期间，网页会自动刷新。

Example sequences中提供了一个FASTA格式蛋白质序列例子，该格式如下
所示。Standalone program提供了本算法的训练数据集，以及Linux版本和
Windows版本的程序源代码下载。

输入蛋白质的序列格式：

>protein1

MIMFESFRKCLSAISMRAPYASTPGHRNAQRANAGSEVLGTTLETFDPAA
SIPTKLAQTLISIYSLFRFDTHVSEKLIHLLQGSIAATQMGLGIALLFTGTECEE
YTDADLCKAIFLLQLLYRGTLLVGWAPSEFSKDPYAEPKVVSEDKAESEEENE
DEESRNSASV。

3)预测结果查看

计算完成以后，在网页上会自动显示预测结果的链接，点击链接即可查看
预测结果。例如，输入2)中的示例蛋白质序列，预测完成以后点击网页上的链
接就可以显示该序列的预测结果。其中，“Your input sequence”显示用户输
入的蛋白质序列；Predictiontag＝1表示该蛋白质序列的预测标签为1(1表示
阳性结果，-1表示阴性结果)。如果标签为1，则下面提示“The protein is
predicted as a T4SS effector”，说明该蛋白质预测为T4SS效应分子；如果
标签为-1，则提示“The protein is predicted as NOT a T4SS effector”，
说明该蛋白质预测为非T4SS效应分子。

3.4程序文件说明

runpredict.jsp:后台获取蛋白质序列并发送给计算程序的JSP程序

dispresult.jsp:后台获取预测结果发送到前台网页显示的JSP程序。

matlabcode目录：计算程序的matlab代码，其中t4effpred为核心代码，
计算蛋白质的序列特征并进行机器学习预测，目录内还包括计算所依赖的
libSVM3.12程序和blast程序，以及NCBI无冗余的蛋白质数据库nr。其中的
data子目录包含了SVM分类器训练所用的训练数据集。

Data目录：训练数据打包下载

Userdata:保存用户提交的数据及其计算结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发
明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明
的保护范围之内。