基于最近邻算法的酶和底物相互作用分类在线预报方法 【技术领域】
本发明涉及一种基于最近邻算法(KNN)的酶和底物相互作用分类在线预报的实现方法。属于生物信息学领域。
背景技术
作为生物化学的一部分,酶和底物相互作用研究成为很热门的一个焦点。自然界中的一切生命现象都与酶的活动有关系,活细胞内全部的生物化学反应都是在酶的催化作用下进行的。如果离开了酶,新陈代谢就不能进行,生命就会停止。在大多数生化过程中,底物通过自身特定的官能团可以与酶序列中的某一部分发生反应或有分子间相互作用,这样可以参与这些生化过程的调控。底物分子和酶是否作用,会直接改变酶本身的功能或结构,从而影响各种体内生物环境。
根据酶和底物之间有无相互作用,可以把能相互作用的底物和酶,定义为可相互作用底物-酶对(networking couple),而把无法相互作用的底物和酶归类为不可相互作用底物-酶对(non-networking couple).基于上述的酶和底物相互作用分类类型,通过研究它们之间相互作用,可以预测一些未知“底物-酶对”能否相互作用,进而可以揭示底物分子的生物功能,为科学家们探索健康或病理细胞内主要成分的功能提供了新的思路。通过总结和预测底物与酶相互作用时化学变化和物理变化的规律,还可以了解分子领域的代谢机理、催化机理以及一些疾病的致病机理等。
目前,上述酶和底物相互作用分类的大多数研究以实验或生物信息学方法为主。用实验方法研究酶和底物相互作用分类,人力物力投入大,实验成本高,而且很难进行高效地批量预测。而与生物信息学有关的酶和底物相互作用分类大多是依靠已建的相关数据库或者分子动力学的模拟方法。这些方法往往预报时间长,计算复杂度高,并且一般需要配备大型的计算机工作站。而对于普通的实验者来说无法获取其有效资源。
【发明内容】
鉴于以上所述现有技术存在的问题和不足,本发明的目的是提供一种基于最近邻算法的酶和底物相互作用分类的在线预报方法。该方法能快速为实验工作者利用最近邻算法对酶和底物能否相互作用进行在线预报,使用方便,成本低。
为了达到上述目的,本发明的技术解决方案如下:上述基于最近邻算法的酶和底物相互作用分类在线预报方法包括如下步骤:
(1)、建立最近邻算法学习训练所需的酶序列和底物官能团的数据集;
(2)、酶序列和底物官能团数据集转换:将上述步骤(1)得到的酶序列和底物官能团的数据集转换成可用于模型训练的特征数据集;
(3)、用最近邻算法学习训练上述步骤(2)得到的酶序列和底物官能团特征数据集;
(4)、预报所需的酶序列和底物官能团数据的读入、其数据的转换及酶和底物相互作用分类的在线预报。
上述步骤(4)中所述的预报所需的酶序列和底物官能团数据的读入、数据的转换及酶和底物相互作用分类类型在线预报,其具体步骤如下:
(4-1)、用J2EE规范编写Servlet组件,将Web客户端要预报的酶序列和底物官能团数据读入并在线对其数据转换;
(4-2)、用户通过最近邻算法预报器组件协同酶和底物相互作用分类模型器预报酶是否与底物相互作用;
(4-3)、调用上面的Servlet组件,将步骤(4-2)获得的酶和底物相互作用分类预报结果输出到Web客户端页面上显示。
该方法与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:1.预报时间短,每一轮预报的计算时间视要预报的酶序列的长度而定,在2分钟左右。小于通过实验手段来测定酶是否与底物相互作用的时间;2.成本低。该发明需利用现有已知的明确是否作用地酶和底物作为训练集建立模型,数据通过国际上一些免费的酶和底物信息数据库获得,无须其他设备和费用;3.方便快捷。在线预报时,用户只需在预报网页界面提供要预报的酶序列和底物官能团数据。通过对酶序列和底物官能团数据的转换,完成最近邻算法的训练和目标类型的预报,就可以输出预报结果。
附图说明:
图1是本发明的基于最近邻算法的酶和底物相互作用分类在线预报方法的流程图。
【具体实施方式】
以下结合附图对本发明作进一步详细说明。
如图1所示,本发明的最近邻算法,是指用java编程语言实现的KNN算法。本发明K=1,即近邻数为1,上述基于最近邻算法的酶和底物相互作用分类在线预报方法包括如下步骤:
(1)、建立最近邻算法学习训练所需的酶序列和底物官能团数据集。该数据采集自互联网上酶数据库KEGG。数据集分别包含两类:一类是酶和底物间存在相互作用;另一类是酶和底物间不存在相互作用:
(2)、酶序列和底物官能团数据集转换:将上述步骤(1)得到的酶序列和底物官能团的数据集转换成可用于模型训练的特征数据集。即对酶序列数据集中的每个酶序列转换成由氨基酸组成和氨基酸物理化学性质所构成的132个特征集。对于每个酶序列,特征向量是由氨基酸序列位置的代码描述及计算性的取代基性质,包括憎水值、预测的二级结构、预测的溶剂可及性及标准范德华体积、极性、极化率。对底物数据集而言,分别把它们转换成所含28个官能团个数的数据,该官能团包括羟基、羰基、羧基等。最终对于每个酶序列-底物,获得160数据的特征数据集。
(3)、用最近邻算法学习训练并建模酶序列和底物特征数据集:用最近邻算法(KNN)训练的实质是对上述步骤(2)生成的酶-底物官能团特征数据集进行学习训练,得到最近邻算法的酶和底物相互作用分类类型模型。该模型能体现出所训练的酶和底物数据的作用分类关系。用最近邻算法学习训练并建模;
(4)、需要预报酶序列和底物官能团数据的读入、数据的转换及酶和底物相互作用分类类型在线预报,其具体步骤如下:
(4-1)、用J2EE规范编写Servlet组件,将Web客户端要预报的酶序列和底物官能团数据读入并在线对其数据转换:
Web用户端提交酶序列和底物官能团数据后,Servlet组件调用验证组件对用户提交酶序列和底物官能团数据进行检测,确定是否为有效数据。若为无效数据,告知原因。若为有效数据,调用预报器组件并使其完成初始化,再从Servlet组件调用数据转换器组件对酶序列和底物官能团的数据转换为160维的向量表示。该160维的向量分别由酶中的氨基酸组成和物理化学性质构成以及底物的官能团信息。然后读入到预报器组件在线进行预报,最后,Servlet组件返回给Web客户端预报结果。
(4-2)、用户通过最近邻预报器组件协同酶与底物相互作用分类模型器预报酶和底物之间是否存在相互作用:
进行酶与底物相互作用的分类预报时,预报器从磁盘介质中读取步骤(3)中获得的酶和底物相互作用分类模型文件,载入模型完成初始化。该模型对(4-1)中产生的酶和底物预报数据进行评价和预测,并获取预测的结果,既该酶和底物之间是否存在相互作用。
(4-3)、调用上面的Servlet组件,将步骤(4-2)获得的酶和底物相互作用分类类型预报结果,并且输出到Web客户端在线页面上显示。