一种MIRNA调控蛋白质相互作用网络的MIRNA靶蛋白预测方法.pdf

上传人:Y948****062 文档编号:1276865 上传时间:2018-04-12 格式:PDF 页数:17 大小:1.16MB
返回 下载 相关 举报
摘要
申请专利号:

CN201611192397.4

申请日:

2016.12.21

公开号:

CN106529203A

公开日:

2017.03.22

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 19/12申请日:20161221|||公开

IPC分类号:

G06F19/12(2011.01)I; G06F19/26(2011.01)I

主分类号:

G06F19/12

申请人:

广东顺德中山大学卡内基梅隆大学国际联合研究院; 中山大学; 广东药科大学

发明人:

邹小勇; 钟文倩; 李占潮; 戴宗

地址:

528300 广东省佛山市顺德区大良街道办事处云路社区居民委员会南国东路9号

优先权:

专利代理机构:

广州粤高专利商标代理有限公司 44102

代理人:

林丽明

PDF下载: PDF下载
内容摘要

本发明公开了一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法,包括如下步骤:首先构建三个子网络:基于HIPPIE的人类蛋白质‑蛋白质相互作用网络、基于mirTARbase的miRNA‑靶蛋白网络和基于靶蛋白重叠构造的miRNA‑miRNA网络;然后根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,构建融合的miRNA‑靶蛋白关联关系网络;最后基于牵连犯罪原则,表征miRNA‑靶蛋白的关联特征,使用随机森林构建分类预测模型,预测潜在miRNA与靶蛋白相互作用关联关系。本发明方法能更好地研究miRNA调控靶蛋白的多对多关系,具有较好的应用价值。

权利要求书

1.一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法,其特征在于,包括如
下步骤:
S1.分别构建以下三个子网络:
基于HIPPIE的人类蛋白质-蛋白质相互作用网络、基于mirTARbase的miRNA-靶蛋白网
络和基于靶蛋白重叠构造的miRNA-miRNA网络;
S2.构建融合的miRNA-靶蛋白关联关系网络:
根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,构建
融合的miRNA-靶蛋白关联关系网络,包含163739条边和14265个节点;其中,153749条边表
示蛋白质-蛋白质相互作用,4634条边表示miRNA-miRNA关系,5356条边表示miRNA-靶蛋白
相互作用;在所有的节点中,14086个是蛋白质,179个是miRNA;
S3.表征miRNA-靶蛋白的关联特征,预测潜在miRNA与靶蛋白相互作用关联关系
S31.基于牵连犯罪原则,计算miRNA与人类蛋白的网络拓扑特征
采用公式(1)计算miRNA(r)的网络拓扑结构特征、采用公式(2)计算靶蛋白p的网络拓
扑结构特征、通过公式(3)得到一个1960维的网络拓扑特征向量来描述miRNA和其靶蛋白的
关联关系:
<mrow> <msub> <mi>RNTF</mi> <mi>r</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>R</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>E</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>......</mn> <mo>,</mo> <mn>193</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>PNTF</mi> <mi>p</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>P</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>E</mi> <mrow> <mi>p</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>P</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>......</mn> <mo>,</mo> <mn>1767</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>RPNTF</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>p</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>RNTF</mi> <mi>r</mi> </msub> <mo>&CirclePlus;</mo> <msub> <mi>PNTF</mi> <mi>p</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
S32.使用随机森林构建分类预测模型,预测潜在的miRNA与人类蛋白的相互作用关系。
2.根据权利要求1所述的方法,其特征在于,步骤S1中所述基于HIPPIE的人类蛋白质-
蛋白质相互作用网络的构建方法如下:
从HIPPIE数据库下载整个人类蛋白质-蛋白质相互作用数据,去除自相互作用、重复相
互作用以及相互作用得分为0的相互作用;根据蛋白质获得号,从UniprotKB/Swiss-Prot数
据库获取蛋白质序列信息,计算氨基酸组成、二肽组成、自相关描述符和组成、转变和分布
共1767维蛋白质一级结构描述符;
基于收集的信息,构建节点和边加权的人类蛋白质-蛋白质相互作用子网络;蛋白质网
络中节点权重是蛋白质1767维蛋白质一级结构描述符,边权重是蛋白质相互作用信任得
分;其中相互作用信任得分是蛋白质之间相互作用程度,数值介于0~1之间,数值越大,作
用程度越高,数值越小,作用程度越小。
3.根据权利要求1所述的方法,其特征在于,步骤S1中所述基于mirTARbase的miRNA-靶
蛋白网络的构建方法如下:
从mirTARbase中搜集并整理miRNA-靶蛋白相互作用数据,根据miRNA的序列和结构信
息,计算核酸序列的组成、二核苷酸序列组成、三核苷酸序列组成、基于K-mer分类的组成和
伪二核苷酸组成,得到193个miRNA序列结构描述符;基于收集的数据构建miRNA-靶蛋白互
作网络;
在miRNA-靶蛋白互作网络中,miRNA节点权重是193维miRNA序列的结构描述符,靶蛋白
节点权重是1767维蛋白质一级结构描述符;如果miRNA和靶蛋白发生相互作用,则用一条边
连接,且边的权重为1。
4.根据权利要求1所述的方法,其特征在于,步骤S1中所述基于靶蛋白重叠构造的
miRNA-miRNA网络的构建方法如下:
根据miRNA-靶蛋白相互作用数据,利用靶蛋白重叠的显著性来确定miRNA之间的关联
关系,构建miRNA-miRNA网络。
5.根据权利要求4所述的方法,其特征在于,所述靶蛋白重叠的显著性的计算方法为:
如果两个miRNA具有共同的靶蛋白,则这miRNA相互之间用一条边连接,且边权重为
并介于[0,1]之间;其中|A|和|B|分别表示miRNA1和miRNA2的靶蛋白集的
数目,|C|表示它们共同靶蛋白数目,min(|A|,|B|)表示靶蛋白集A和B之间的最小数;节点
权重是193维的miRNA序列结构描述符。
6.根据权利要求1所述的方法,其特征在于,S31所述基于牵连犯罪原则计算miRNA与人
类蛋白的网络拓扑特征的具体方法如下:
首先,查找miRNA-miRNA网络中,节点为r的miRNA,表示为miRNA(r),其邻接miRNA总数
为N;考虑miRNA(r)的节点权重,与邻接miRNA的边权重和节点权重信息,采用公式(1)计算
miRNA(r)的网络拓扑结构特征;公式(1)中,Rr(i)和Rj(i)分别代表miRNA-miRNA网络中
miRNA(r)及其邻接点miRNA(j)的节点权重。Er,j代表miRNA(r)与其邻接点miRNA(j)之间的
边权重。根据这个公式可知,RNTFr是一个具有193维的特征向量。如果网络中的miRNA无邻
接点,则定义RNTFr=Rr
其次,从人类蛋白质-蛋白质相互作用网络中查找靶蛋白p的邻接蛋白质,考虑靶蛋白p
的节点权重,与邻接蛋白的边权重和节点权重,采用公式(2)计算靶蛋白p的网络拓扑结构
特征;公式(2)中,Pp(i)和Pj(i)分别代表人类蛋白质-蛋白质网络中靶蛋白p和其邻接蛋白j
的节点权重;Ep,j代表靶蛋白p与其邻接蛋白j之间的边权重。N是邻接点的数目。根据这个公
式可知,PNTFp是一个具有1767维的特征向量。如果网络中靶蛋白p无邻接点,则定义PNTFp
Pp
最后,同时考虑miRNA和靶蛋白的网络拓扑结构信息,通过公式(3)得到一个1960维的
网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系。

说明书

一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法

技术领域

本发明属于生物信息学及分子生物学技术领域。更具体地,涉及一种miRNA调控蛋
白质相互作用网络的miRNA靶蛋白预测方法。

背景技术

microRNA(miRNA)是一种长度仅为20~24nt的非编码单链小分子RNA,具有高度保
守性,时序性和组织特异性。成熟的miRNA 5′端有一个磷酸基团,3′端为羟基,由具有发夹
状结构的约70~90nt的单链RNA前体经过Dicer酶加工后形成。成熟的miRNA形成RNA诱导的
基因沉默复合体(RNA-induced silencingcomplex,RISC)作用于靶点mRNA,通过对靶mRNA
剪切或抑制其翻译过程而调控基因的表达。

miRNA功能的获得或缺失,与各种疾病的发生、发展都有着密切的关系。蛋白质功
能既可以直接、也可以间接地受miRNA分子的调控。miRNA网络较于其它生物网络有以下几
个优势:miRNA位于基因信号传导的上游,因而miRNA的表达变化更灵敏,且发生在蛋白质的
表达变化之前。此外,miRNA可以较方便地在血液循环中检测到,因而适合于作为疾病诊断
的灵敏指标,具有现实意义。因此,在miRNA调控蛋白质互作网络层面上识别miRNA和蛋白质
之间关系,有助于我们更好地理解致病机理。

miRNA与靶蛋白的关联性,可以采用以下实验方法,包括:基于交联免疫沉淀的高
通量测序分析交联免疫沉淀(HITS-CLIP)技术、光活性增强的核糖核苷交联免疫沉淀(PAR-
CLIP)技术和CLASH(crosslinking ligation and sequencing of hybrids)技术,这些方
法能得出miRNA-mRNA结合位点及与已知miRNA相互作用的mRNA。生物信息学的预测方法是
分析miRNA的靶标mRNA的热力学参数及进化保守性,达到预测miRNA靶标目的,如
TargetScan、PicTar、PITA、miRanda、DIANA-microT-CDS等。这些方法各有各的优缺点。实验
方法可以给出miRNA与靶mRNA的调控关系,但实验价格昂贵且只能得出单个分子与单个分
子的相互作用。计算方法快速且便宜,可提供大量可能的相互作用,但假阳性高且缺乏
miRNA在特定的细胞或组织中对靶mRNA动态调控关系。

发明内容

本发明要解决的技术问题是克服上述现有技术的缺陷和不足,为了更好地理解
miRNA与靶蛋白的“多对多”关系,从生物网络的层面,通过构建miRNA-miRNA网络、miRNA-蛋
白质网络和蛋白质-蛋白质互作网络三个网络,预测miRNA的靶蛋白。

本发明的目的是提供一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方
法。

本发明上述目的通过以下技术方案实现:

在miRNA-蛋白质互作关系的预测模型的构建当中,如何判定miRNA与蛋白质的关
联关系是关键。

本发明提出了预测miRNA与蛋白质潜在关联关系的方法,基于拓扑特征和牵连犯
罪(guilt-by-association)构建人类蛋白质-蛋白质互作网络、miRNA-miRNA网络、miRNA-
蛋白质网络这三个互作网络,结合随机森林算法,建立模型对特征属性进行分类判别,预测
潜在的miRNA与蛋白质的关联关系。

即本发明提出了一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法,该
方法的具体步骤如下:

S1.分别构建以下三个子网络:

基于HIPPIE的人类蛋白质-蛋白质相互作用网络(PPIN)、基于mirTARbase的
miRNA-靶蛋白网络(miRNATarN)和基于靶蛋白重叠构造的miRNA-miRNA网络(miRNAIN);

S2.构建融合的miRNA-靶蛋白关联关系网络:

根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,
构建融合的miRNA-靶蛋白关联关系网络,包含163739条边和14265个节点;其中,153749条
边表示蛋白质-蛋白质相互作用,4634条边表示miRNA-miRNA关系,5356条边表示miRNA-靶
蛋白相互作用;在所有的节点中,14086个是蛋白质,179个是miRNA;

S3.表征miRNA-靶蛋白的关联特征,预测潜在miRNA与靶蛋白相互作用关联关系
(使用牵连犯罪原则来描述miRNA与蛋白质的关联情况)

S31.基于牵连犯罪原则,计算miRNA与人类蛋白的网络拓扑特征

采用公式(1)计算miRNA(r)的网络拓扑结构特征、采用公式(2)计算靶蛋白p的网
络拓扑结构特征、通过公式(3)得到一个1960(193+1767)维的网络拓扑特征向量来描述
miRNA和其靶蛋白的关联关系:




S32.使用随机森林(RF)构建分类预测模型,预测潜在的miRNA与人类蛋白的相互
作用关系。

具体所述牵连犯罪原则如图3所示,牵连犯罪原则表明,若蛋白质的邻居蛋白质大
部分都与某种miRNA相互作用,那么该蛋白质更倾向于与该miRNA相互作用。在图3的PPIN
中,P2蛋白质的邻居P1和P3均与mir-3相互作用(黄色实线表示),那么根据牵连犯罪原则,
P2蛋白质很可能与mir-3相互作用(蓝色虚线表示)。miRNAIN代表miRNA-miRNA网络,红色实
线表示miRNA间的相互作用。miRNATarN代表miRNA-靶蛋白网络,黄色实线表示实验验证的
miRNA与靶蛋白之间的相互作用。

另外,优选地,步骤S1中所述基于HIPPIE的人类蛋白质-蛋白质相互作用网络
(PPIN)的构建方法如下:

从HIPPIE数据库下载整个人类蛋白质-蛋白质相互作用数据,去除自相互作用、重
复相互作用以及相互作用得分为0的相互作用;根据蛋白质获得号,从UniprotKB/Swiss-
Prot数据库获取蛋白质序列信息(序列信息即一级结构数据),计算氨基酸组成(20维)、二
肽组成(400维)、自相关描述符和组成(1221维)、转变(21维)和分布(105维)等共1767维蛋
白质一级结构描述符(一级结构描述符即一级结构特征);

基于收集的信息,构建节点和边加权的人类蛋白质-蛋白质相互作用子网络;蛋白
质网络中节点权重是蛋白质1767维蛋白质一级结构描述符,边权重是蛋白质相互作用信任
得分;其中相互作用信任得分是蛋白质之间相互作用程度,数值介于0~1之间,数值越大,
作用程度越高,数值越小,作用程度越小。

优选地,步骤S1中所述基于mirTARbase的miRNA-靶蛋白网络(miRNATarN)的构建
方法如下:

从mirTARbase中搜集并整理miRNA-靶蛋白相互作用数据,根据miRNA的序列和结
构信息,计算核酸序列的组成(4维)、二核苷酸序列组成(16维)、三核苷酸序列组成(64维)、
基于K-mer分类的组成(90维)和伪二核苷酸组成(19维),得到193个miRNA序列结构描述符;
基于收集的数据构建miRNA-靶蛋白互作网络;

在miRNA-靶蛋白互作网络中,miRNA节点权重是193维miRNA序列的结构描述符,靶
蛋白节点权重是1767维蛋白质一级结构描述符;如果miRNA和靶蛋白发生相互作用,则用一
条边连接,且边的权重为1。

优选地,步骤S1中所述基于靶蛋白重叠构造的miRNA-miRNA网络(miRNAIN)的构建
方法如下:

大量研究表明,miRNA之间有协同调控作用,如mir-375、mir-124、let-7b共同调控
Mtpn(肌侵蛋白);因此,根据miRNA-靶蛋白相互作用数据,利用靶蛋白重叠的显著性来确定
miRNA之间的关联关系,构建miRNA-miRNA网络。

所述靶蛋白重叠的显著性的计算方法为:如图2所示,如果两个miRNA具有共同的
靶蛋白,则这miRNA相互之间用一条边连接,且边权重为并介于[0,1]之间;
其中|A|和|B|分别表示miRNA1和miRNA2的靶蛋白集的数目,|C|表示它们共同靶蛋白数目,
min(|A|,|B|)表示靶蛋白集A和B之间的最小数;节点权重是193维的miRNA序列结构描述
符。

优选地,S31所述基于牵连犯罪原则计算miRNA与人类蛋白的网络拓扑特征的具体
方法如下:

首先,查找miRNA-miRNA网络中,节点为r的miRNA,表示为miRNA(r),其邻接miRNA
总数为N;考虑miRNA(r)的节点权重,与邻接miRNA的边权重和节点权重信息,采用公式(1)
计算miRNA(r)的网络拓扑结构特征;公式(1)中,Rr(i)和Rj(i)分别代表miRNA-miRNA网络中
miRNA(r)及其邻接点miRNA(j)的节点权重。Er,j代表miRNA(r)与其邻接点miRNA(j)之间的
边权重。根据这个公式可知,RNTFr是一个具有193维的特征向量。如果网络中的miRNA无邻
接点,则定义RNTFr=Rr

其次,从人类蛋白质-蛋白质相互作用网络中查找靶蛋白p的邻接蛋白质,考虑靶
蛋白p的节点权重,与邻接蛋白的边权重和节点权重,采用公式(2)计算靶蛋白p的网络拓扑
结构特征;公式(2)中,Pp(i)和Pj(i)分别代表人类蛋白质-蛋白质网络中靶蛋白p和其邻接
蛋白j的节点权重;Ep,j代表靶蛋白p与其邻接蛋白j之间的边权重。N是邻接点的数目。根据
这个公式可知,PNTFp是一个具有1767维的特征向量。如果网络中靶蛋白p无邻接点,则定义
PNTFp=Pp

最后,同时考虑miRNA和靶蛋白的网络拓扑结构信息,通过公式(3)得到一个1960
(193+1767)维的网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系。

另外,随机森林是一种组合方法,由许多的决策树组成,因为这些决策树的形成采
用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的,当测试数据
进入随机森林时,让每一棵决策树进行分类,最后取所有决策树中分类结果最多的那类为
最终的结果。步骤S32所述使用随机森林(RF)构建分类预测模型预测潜在的miRNA与人类蛋
白的相互作用关系的具体方法为(即模型构建与性能评价):

本方法使用随机森林机器学习方法作为训练模型,算法来源于scikit-learn
(http://scikit-learn.org/stable/)工具包,整个程序使用python开发,采用随机森林构
建分类预测模型对miRNA-蛋白质关联关系进行分类研究,10-折交叉验证评估模型精度。样
本随机平均分成10份,其中1份用作测试集,剩余9份用作训练集。重复10次,使得10份中的
每一份都被作为测试集。最后,整合10次重复的结果,评估模型性能。具体步骤如下:

(1)装载正负样本数据;

(2)将正负样本数据随机平均分为10等分;

(3)运行随机森林;

(4)基于10折交叉验证评估模型性能;

(5)输出结果。

识别新的miRNA-蛋白质关联关系可看做是一个网络中缺失边的预测问题,即
miRNA-蛋白质网络是一个缺失了一些边的不完整的网络。本发明的目的是利用已有的关联
关系中构建分类器来预测miRNA与蛋白质之间是否存在关联关系,是个二分类问题。因此,
我们采用精确度(Accuracy,Acc)、敏感性(Sensitivity,Sen)、特异性(Specificity,Spe)、
准确率(Precision,Pre)、马氏相关系数(Matthew'scorrelation coefficient,Mcc)以及
受试者工作特征曲线(receiver operatingcharacteristic curve,ROC)和准确率-召回率
曲线(precision-recall curve,PRC)评估模型性能,其定义如下:






其中,TP表示模型正确预测出的正样本数目,TN表示模型正确预测出的负样本的
数目。FP表示错误预测的正样本数目。FN表示模型错误预测的负样本数目。通过改变阈值,
可以获得一系列的敏感性、特异性和准确率,分别以1-特异性和敏感性为横坐标,以敏感性
和准确率为纵坐标即可绘制ROC和PRC曲线,曲线下面积可用于衡量模型预测性能,面积值
越接近1表示模型性能越好,0.5表示随机预测。马氏相关系数是一个以测量两类分类质量
的常用的机器学习评估指标。这个系数的取值范围在-1到+1之间,系数越接近+1表示预测
接近完美,但是越接近-1表示预测结果与事实毫无一致性。

本发明具有以下有益效果:

本方法提出了基于miRNA-蛋白质网络的miRNA靶蛋白预测方法,运用牵连犯罪原
则,提取miRNA-蛋白质关联关系的特征,并与随机森林算法结合,建立了miRNA-靶蛋白预测
方法,具有以下优势:

(1)构建miRNA-蛋白质关联关系网络:整合miRNA-miRNA网络、miRNA-靶蛋白网络、
人类蛋白质-蛋白质互作网络,构建miRNA-蛋白质网络,能更好地研究miRNA调控靶蛋白的
多对多关系。

(2)研究具有网络拓扑结构特征的描述符:采用牵连犯罪原则,构建了miRNA与靶
蛋白关联关系的网络拓扑特征。

(3)研究了基于生物网络的分析框架:基于生物网络,研究了心脑血管疾病的相关
数据集,采用机器学习方法,预测miRNA靶蛋白。该技术可推广到其他疾病中,具有较好的应
用价值。

附图说明

图1为miRNA-蛋白质关联性预测方法示意图(即预测模型的结构)。

图2表示miRNA靶蛋白重叠显著性的计算方法。

图3为牵连犯罪原则示意图。

图4为实施例2中受试者操作特征曲线和精度-召回曲线(ROC和PRE曲线)。

图5为本发明方法与其它算法对比的ROC曲线。

图6为本发明方法与其它算法比较的PRC曲线。

具体实施方式

以下结合说明书附图和具体实施例来进一步说明本发明,但实施例并不对本发明
做任何形式的限定。除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试
剂、方法和设备。

除非特别说明,本发明所用试剂和材料均为市购。

实施例1 miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法

一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法,包括如下步骤:

1、分别构建以下三个子网络:

(1)构建基于HIPPIE的人类蛋白质-蛋白质相互作用网络(PPIN)

从HIPPIE数据库下载整个人类蛋白质-蛋白质相互作用数据,去除自相互作用、重
复相互作用以及相互作用得分为0的相互作用;根据蛋白质获得号,从UniprotKB/Swiss-
Prot数据库获取蛋白质序列信息(序列信息即一级结构数据),计算氨基酸组成(20维)、二
肽组成(400维)、自相关描述符和组成(1221维)、转变(21维)和分布(105维)等共1767维蛋
白质一级结构描述符(一级结构描述符即一级结构特征);

基于收集的信息,构建节点和边加权的人类蛋白质-蛋白质相互作用子网络;蛋白
质网络中节点权重是蛋白质1767维蛋白质一级结构描述符,边权重是蛋白质相互作用信任
得分;其中相互作用信任得分是蛋白质之间相互作用程度,数值介于0~1之间,数值越大,
作用程度越高,数值越小,作用程度越小。

(2)构建基于mirTARbase的miRNA-靶蛋白网络(miRNATarN)

从mirTARbase中搜集并整理miRNA-靶蛋白相互作用数据,根据miRNA的序列和结
构信息,计算核酸序列的组成(4维)、二核苷酸序列组成(16维)、三核苷酸序列组成(64维)、
基于K-mer分类的组成(90维)和伪二核苷酸组成(19维),得到193个miRNA序列结构描述符;
基于收集的数据构建miRNA-靶蛋白互作网络;

在miRNA-靶蛋白互作网络中,miRNA节点权重是193维miRNA序列的结构描述符,靶
蛋白节点权重是1767维蛋白质一级结构描述符;如果miRNA和靶蛋白发生相互作用,则用一
条边连接,且边的权重为1。

(3)构建基于靶蛋白重叠构造的miRNA-miRNA网络(miRNAIN)

大量研究表明,miRNA之间有协同调控作用,如mir-375、mir-124、let-7b共同调控
Mtpn(肌侵蛋白);因此,根据miRNA-靶蛋白相互作用数据,利用靶蛋白重叠的显著性来确定
miRNA之间的关联关系,构建miRNA-miRNA网络。

所述靶蛋白重叠的显著性的计算方法为:如图2所示,如果两个miRNA具有共同的
靶蛋白,则这miRNA相互之间用一条边连接,且边权重为并介于[0,1]之间;
其中|A|和|B|分别表示miRNA1和miRNA2的靶蛋白集的数目,|C|表示它们共同靶蛋白数目,
min(|A|,|B|)表示靶蛋白集A和B之间的最小数;节点权重是193维的miRNA序列结构描述
符。

2、构建融合的miRNA-靶蛋白关联关系网络:

根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,
构建融合的miRNA-靶蛋白关联关系网络,包含163739条边和14265个节点;其中,153749条
边表示蛋白质-蛋白质相互作用,4634条边表示miRNA-miRNA关系,5356条边表示miRNA-靶
蛋白相互作用;在所有的节点中,14086个是蛋白质,179个是miRNA;

3、使用牵连犯罪原则来描述miRNA与蛋白质的关联情况

表征miRNA-靶蛋白的关联特征,预测潜在miRNA与靶蛋白相互作用关联关系。

(1)首先基于牵连犯罪原则,计算miRNA与人类蛋白的网络拓扑特征

首先,采用公式(1)计算miRNA(r)的网络拓扑结构特征、采用公式(2)计算靶蛋白p
的网络拓扑结构特征、通过公式(3)得到一个1960(193+1767)维的网络拓扑特征向量来描
述miRNA和其靶蛋白的关联关系:




具体方法如下:

查找miRNA-miRNA网络中,节点为r的miRNA,表示为miRNA(r),其邻接miRNA总数为
N;考虑miRNA(r)的节点权重,与邻接miRNA的边权重和节点权重信息,采用公式(1)计算
miRNA(r)的网络拓扑结构特征;公式(1)中,Rr(i)和Rj(i)分别代表miRNA-miRNA网络中
miRNA(r)及其邻接点miRNA(j)的节点权重。Er,j代表miRNA(r)与其邻接点miRNA(j)之间的
边权重。根据这个公式可知,RNTFr是一个具有193维的特征向量。如果网络中的miRNA无邻
接点,则定义RNTFr=Rr

其次,从人类蛋白质-蛋白质相互作用网络中查找靶蛋白p的邻接蛋白质,考虑靶
蛋白p的节点权重,与邻接蛋白的边权重和节点权重,采用公式(2)计算靶蛋白p的网络拓扑
结构特征;公式(2)中,Pp(i)和Pj(i)分别代表人类蛋白质-蛋白质网络中靶蛋白p和其邻接
蛋白j的节点权重;Ep,j代表靶蛋白p与其邻接蛋白j之间的边权重。N是邻接点的数目。根据
这个公式可知,PNTFp是一个具有1767维的特征向量。如果网络中靶蛋白p无邻接点,则定义
PNTFp=Pp

最后,同时考虑miRNA和靶蛋白的网络拓扑结构信息,通过公式(3)得到一个1960
(193+1767)维的网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系。

其中,具体所述牵连犯罪原则如图3所示,牵连犯罪原则表明,若蛋白质的邻居蛋
白质大部分都与某种miRNA相互作用,那么该蛋白质更倾向于与该miRNA相互作用。在图3的
PPIN中,P2蛋白质的邻居P1和P3均与mir-3相互作用(黄色实线表示),那么根据牵连犯罪原
则,P2蛋白质很可能与mir-3相互作用(蓝色虚线表示)。miRNAIN代表miRNA-miRNA网络,红
色实线表示miRNA间的相互作用。miRNATarN代表miRNA-靶蛋白网络,黄色实线表示实验验
证的miRNA与靶蛋白之间的相互作用。

(2)使用随机森林(RF)构建分类预测模型,预测潜在的miRNA与人类蛋白的相互作
用关系。

随机森林是一种组合方法,由许多的决策树组成,因为这些决策树的形成采用了
随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的,当测试数据进入
随机森林时,让每一棵决策树进行分类,最后取所有决策树中分类结果最多的那类为最终
的结果。步骤S32所述使用随机森林(RF)构建分类预测模型预测潜在的miRNA与人类蛋白的
相互作用关系的具体方法为(即模型构建与性能评价):

本方法使用随机森林机器学习方法作为训练模型,算法来源于scikit-learn
(http://scikit-learn.org/stable/)工具包,整个程序使用python开发,采用随机森林构
建分类预测模型对miRNA-蛋白质关联关系进行分类研究,10-折交叉验证评估模型精度。样
本随机平均分成10份,其中1份用作测试集,剩余9份用作训练集。重复10次,使得10份中的
每一份都被作为测试集。最后,整合10次重复的结果,评估模型性能。具体步骤如下:

(1)装载正负样本数据;

(2)将正负样本数据随机平均分为10等分;

(3)运行随机森林;

(4)基于10折交叉验证评估模型性能;

(5)输出结果。

实施例2 以心脑血管疾病相关miRNA网络为例验证本发明的miRNA靶蛋白预测方

1、收集数据集,构建节点和边加权的miRNA-蛋白质相互作用网络

从HIPPIE数据库收集人类蛋白质-蛋白质相互作用数据,去除自相互作用、重复相
互作用以及相互作用得分为0的相互作用。根据蛋白质获得号,从UniprotKB/Swiss-Prot数
据库获取蛋白质一级结构数据,计算氨基酸组成、二肽组成、自相关描述符和组成、转变和
分布等蛋白质一级结构描述符。蛋白质网络中节点权重是1767维蛋白质一级结构特征,边
权重是相互作用信任得分。

从mirTARbase中搜集整理了miRNA与靶蛋白相互作用数据。在miRNA-靶蛋白相互
作用子网络中,miRNA节点权重是193维miRNA序列的结构描述符,靶蛋白节点权重是1767维
蛋白质一级结构描述符。如果miRNA和靶蛋白发生相互作用,则用一条边连接,且边的权重
为1。

从mir2Disease及Elsa Bronze-da-Rocha(Elsa Bronze-da-Rocha,MicroRNAs
Expression Profiles in Cardiovascular Diseases,BioMed Research International,
2014,Article ID 985408,23)收集的数据,得到与心脑血管疾病相关的200个miRNA,根据
miRNA与靶蛋白相互作用数据。基于靶蛋白重叠的显著性来确定miRNA之间的关联关系。
miRNA-miRNA网络中节点权重是193维miRNA序列的结构描述符,边权重为

2、基于牵连犯罪原则表征miRNA和蛋白质的网络拓扑结构特征

查找miRNA-miRNA网络中,节点为r的miRNA(表示为miRNA(r)),其邻接miRNA总数
为N。考虑miRNA(r)的节点权重,与邻接miRNA的边权重和节点权重信息,计算miRNA(r)的网
络拓扑结构特征。


公式中,Rr(i)和Rj(i)分别代表miRNA-miRNA网络中miRNA(r)及其邻接点miRNA(j)
的节点权重。Er,j代表miRNA(r)与其邻接点miRNA(j)之间的边权重。根据这个公式可知,
RNTFr是一个具有193维的特征向量。如果网络中的miRNA无邻接点,则定义RNTFr=Rr

然后我们从人类蛋白质-蛋白质互作网络中查找靶蛋白p的邻接蛋白质,考虑靶蛋
白p的节点权重,与邻接蛋白的边权重和节点权重,计算靶蛋白p的网络拓扑结构特征。


公式中,Pp(i)和Pj(i)分别代表人类蛋白质-蛋白质网络中靶蛋白p和其邻接蛋白j
的节点权重;Ep,j代表靶蛋白p与其邻接蛋白j之间的边权重。N是邻接点的数目。根据这个公
式可知,PNTFp是一个具有1767维的特征向量。如果网络中靶蛋白p无邻接点,则定义PNTFp
Pp

最后,同时考虑miRNA和靶蛋白的网络拓扑结构信息,通过下式,得到一个1960
(193+1767)维的网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系:


根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,
构建融合的miRNA-靶蛋白关联关系网络,包含163739条边和14265个节点。其中,153749条
边表示蛋白质-蛋白质相互作用,4634条边表示miRNA-miRNA关系,5356条表示miRNA-靶蛋
白相互作用。在所有的节点中,14086个是蛋白质,179个是miRNA。

3、模型构建与性能评价

采用随机森林算法,构建模型并预测潜在miRNA-靶蛋白关联关系。训练集为从
mirTARbase下载的3932条实验验证的miRNA-靶蛋白相互作用数据和1238条实验验证的非
miRNA-靶蛋白相互作用数据。利用预测准确度、敏感性、特异性、精确度、马氏相关系数、受
试者操作特征曲线和精度-召回曲线评估模型预测性能。

4、结果

(1)模型性能

在采用随机算法构建预测模型中,树的数目按照步长100从100到1000取整数值,
每一个叶节点选择变量的数目分别按照步长21从20到27改变。采用格点搜索寻找两者的最
优组合。三分之二的样本考虑为袋内样本,三分之一考虑为袋外样本。随机产生10个负样本
数据集,10次统计平均结果如表1所示、最优模型的受试者操作特征曲线和精度-召回曲线
如图4所示。

表1 十折交叉验证结果


本方法的准确率、敏感性、特异性、精确度分别为91.38%,93.69%,88.71%,
94.04%,且ROC曲线下面积为0.9529,PRC曲线下面积为0.9656。

由以上实验结果可知,本方法基于miRNA-蛋白质网络上成功的采用牵连犯罪原
则,得到较高的预测精度。

(2)模型的鲁棒性

由于网络中的一些互作关系可能不是真实存在,故而网络中的每条边都有一个在
0~1之间的互作得分,分别选取蛋白质相互作用数高于0.1,0.2,……,0.8的8个数据集,输
入模型,并进行10折交叉验证,结果如表2所示。

表2 蛋白质相互作用数分别高于0.1,0.2,……,0.8的8个数据集的十折交叉验证
结果


由表2可以看出,当蛋白质相互作用得分阈值从0.1到0.8变化时,预测准确度高于
88%,并且得到准确率,敏感度,特异性,精确度的波动范围分别是[91.17,86.69],[92.68,
88.68],[88.91,83.98],[93.16,88.32],[0.8162,0.7272],模型的波动性小,抗扰动。结果
表明,本方法所建立的模型对假阳性蛋白质相互作用具有很强的鲁棒性。

实施例3 与其他方法比较

目前现有技术中普遍使用的四种靶标预测方法,分别是PITA、miRanda、rna22和
targetspy,这些方法只是基于序列信息进行预测,例如匹配分析,二级结构预测,遗传保守
性分析等,而对于诸如基因表达、基因间相互调控的信息(如作用通路、蛋白质网络)等数据
没有合理的运用。

为此,使用Mark Menor(Mark Menor,Travers Ching,Xun Zhu,et al.mirMark:a
site-level and UTR-level classifier for miRNA target prediction[J].Genome
Biology,2014,15:500)等人所收集的数据集,取其中正样本253个,负样本362个作为一个
独立测试集。

将本发明的方法、PITA、miRanda、rna22和targetspy分别对此数据集进行分析,结
果如表3所示,ROC曲线和PRC曲线如图5及图6所示。

表3 各算法的ROC曲线下的面积


结果显示,对于现有技术中的独立测试集,本发明方法的准确率、敏感性、特异性、
精确度分别是92.20%,93.99%,91.10%和86.56%,比其它四种方法高了大约30%。马氏
相关系数是0.8370,比PITA高了约0.7,比miRanda高了约0.6,比rna22和targetspy高了约
0.8。从表3可知,文献中的四种方法的ROC曲线下面积在0.5-0.7之间,模型的预测性能接近
于随机预测,本方法曲线下的面积达到0.9以上。并且本方法PRC曲线下面积比其他四种方
法大0.4,可见本方法的预测性能优越。

一种MIRNA调控蛋白质相互作用网络的MIRNA靶蛋白预测方法.pdf_第1页
第1页 / 共17页
一种MIRNA调控蛋白质相互作用网络的MIRNA靶蛋白预测方法.pdf_第2页
第2页 / 共17页
一种MIRNA调控蛋白质相互作用网络的MIRNA靶蛋白预测方法.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《一种MIRNA调控蛋白质相互作用网络的MIRNA靶蛋白预测方法.pdf》由会员分享,可在线阅读,更多相关《一种MIRNA调控蛋白质相互作用网络的MIRNA靶蛋白预测方法.pdf(17页珍藏版)》请在专利查询网上搜索。

本发明公开了一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法,包括如下步骤:首先构建三个子网络:基于HIPPIE的人类蛋白质蛋白质相互作用网络、基于mirTARbase的miRNA靶蛋白网络和基于靶蛋白重叠构造的miRNAmiRNA网络;然后根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,构建融合的miRNA靶蛋白关联关系网络;最后基于牵连犯罪原则。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1