一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法.pdf

上传人:e2 文档编号:971386 上传时间:2018-03-22 格式:PDF 页数:9 大小:422.08KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110302532.7

申请日:

2011.10.09

公开号:

CN102346817A

公开日:

2012.02.08

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 19/24申请日:20111009|||公开

IPC分类号:

G06F19/24(2011.01)I

主分类号:

G06F19/24

申请人:

广州医学院第二附属医院

发明人:

陶爱林; 张利达; 邹泽红; 黄于艺

地址:

510260 广东省广州市海珠区昌岗东路250号

优先权:

专利代理机构:

广州粤高专利商标代理有限公司 44102

代理人:

陈卫

PDF下载: PDF下载
内容摘要

本发明属于生物信息学技术领域,更确切的是涉及一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法。该预测方法包括建立过敏原数据库;形成过敏原聚类与家族;提取过敏原家族代表肽;建立支持向量机模型;模型性能参数的优化训练及大规模过敏原数据的测试。本发明优点是:建立在优先淘选过敏原家族特征肽基础上,该特征肽不仅对过敏原的典型特征作了精细描述,而且将过敏原与非过敏原做了严格区分,避免了过敏原判别过程中假阳性和假阴性的产生,从而在过敏原判别的准确性与灵敏度上取得了高水平的平衡而具有明显优势。在蛋白序列过敏原性的生物信息学分析方面具有广阔的应用前景。

权利要求书

1: 一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法, 其特征在于 : 包 括以下步骤 : 步骤 1: 数据库的建立, 从各过敏原数据库经过筛选得到的过敏原序列和非过敏原序列作为数据库 ; 步骤 2: 过敏原家族特征肽的提取, 针对过敏原序列进行聚类分析, 在形成的每一过敏原家族中, 过敏原序列按照每相隔 1-10 个碱基用滑动窗口分成 6-32 个碱基长度的肽段, 然后用所得肽段和非过敏原序列进 行 BLAST (Basic Local Alignment Search Tool, 序列基本对齐本地搜索工具 ), 剔除那 些与非过敏原相同或相似的片段, 而那些和非过敏原序列没配对的肽段, 并且采用 BLAST -7 -1 所得的 E 值低于 10 ~10 时, 即是过敏原特征肽 (Allergen Featured Peptides, AFPs), 而落在同一过敏原上且相邻的过敏原特征肽拼接后形成由 2-30 个小的特征肽构成的过敏 原家族特征肽 (Allergen Family Featured Peptides, AFFPs) ; 步骤 3: 建立支持向量机模型, 对于一个查询蛋白 X 建立特征向量 FX = fx1, fx2, … , fxn , n 代表过敏原家族特 征肽库的片段数量, fxi 为蛋白 X 和第 i 个 AFFP 进行 BLAST 后 E 值均一化的值作为矢量, 并转换为径向基函数 (Radial Basis Function, RBF) ; 步骤 4: 支持向量机模型的性能测定, 采用交叉验证方法进行测定, 即将训练集随机均分成 n 个互不相交的子集, 利用 n-1 个 训练子集, 对给定的一组参数建立模型, 利用剩下一个子集做测试评估参数性能, 即为 n 倍 的内在交叉效度。
2: 根据权利要求 1 所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方 法: 步骤 3 所述对 BLAST 比对所得的 E 值 x 进行均一化, 均一化的公式如下 : 或 , 其中 C 为 0~20 的常数。
3: 根据权利要求 1 所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方 法, 其特征在于 : 步骤 3 所述支持向量机是基于结构风险最小化原则的统计, 其使用核函数 将输进去的矢量投射到高维特征空间, 在空间形成一个超平面, 使过敏原和非过敏原得以 在超平面两边分开, 支持向量机的核函数首先经过标准化, 以使每个向量在特征空间拥有 长度单位 1, 核函数标准化的公式如下 : 。
4: 根据权利要求 3 所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方 法, 其特征在于 : 所述核函数 y(X, Y) 转换为径向基函数 RBF (Radial Basis Function) 以 使形成的平面通过原点, 由核函数转换为径向基函数 RBF 的公式如下 : 其中, σ 是特征空间里阳性的训练矢量到阴性矢量的欧几里德距离中值。 2
5: 根据权利要求 1 所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方 法, 其特征在于 : 步骤 4 所述支持向量机模型的性能测定采用十倍的内在的交叉效度方法 进行测定, 计算模型的敏感性 (SE) 、 特异性 (SP) 、 精确度 (ACC) , 马太相关系数 (MCC) , 而这 四个参数的计算公式如下 : 其中, 真阳性 TP 代表确定的过敏群体中被程序判定为过敏原的数目 ; 真阴性 TN 代表确 定的非过敏群体中被程序判定为非过敏原的数目 ; 假阴性 FN 代表确定的过敏群体中被程 序判定为非过敏原的数目 ; 假阳性 FP 确定的非过敏群体中被程序判定为过敏原的数目。
6: 根据权利要求 1 所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方 法, 其特征在于 : 步骤 1 所述数据库的建立中过敏原序列是从各过敏原数据库收集过敏原 序列, 并移除序列同源性达到 80-90% 的过敏原后得到的 ; 非过敏原序列是以大米, 苹果, 胡 萝卜和人类自身蛋白并经过过敏原筛选后得到的。

说明书


一种借助支持向量机建立过敏原家族特征肽的过敏原的预 测方法

    技术领域 本发明属于生物信息学技术领域, 更确切的是涉及一种借助支持向量机建立过敏 原家族特征肽的过敏原的预测方法。
     背景技术
     近年来, 随着一些农艺性状得到遗传改良的食物增多及基因工程药物的应用增 加, 一些对人类具有潜在过敏的蛋白可能引入这些食品和药品中, 由此将导致过敏性体质 人群的生活压力和整个社会的生活成本增加。 在这些新蛋白基因遗传转化之前及与人体的 产生接触之前, 先期进行过敏原性评价, 显得十分迫切。 而应用软件对蛋白的过敏原性进行 精确预测是过敏原性评价的最经济有效的首选方案。过敏原性的精确评估, 既可避免高过 敏原性蛋白基因的应用所带来的前期巨额投入, 又可避免这类蛋白对人体的伤害, 使风险 成本得到降低。目前, 国内尚没有一款可以评价过敏原的软件, 而国际上, 过敏原性预测软件可 以概括为如下几类方法进行过敏原检测, 包话 : (1) 通常的序列比对 ; (2) 基于滑动肽窗 口原理的过敏原 IgE 表位和基序的检测 ; (3) 以支持向量机 (Support Vector Machine, SVM) 为支持算法的分类器来区分过敏原和非过敏原 ; (4) 基于过敏原代表肽段 (Allergen Representative Peptides, ARPs)或 经 过 长 度 调 整 后 的 过 敏 原 肽 段 构 建 的 描 述 器 (Detection based on Filtered Length-adjusted Allergen Peptides, DFLAPs) 。当待 查询序列或其片段与已知过敏原完全相同、 或者同源、 或者具有匹配的基序时, 这些软件就 非常有效, 而对于那些跟已知过敏原相似性低的新型蛋白质, 这些软件的预测准确性就不 佳了。 因此, 为了从随机的序列数据、 特别是从那些农艺性状优良而尚未开发的外源基因里 甄别过敏原, 以避免将从未被人类作为食物的外源基因通过遗传工程等方法引入食品中, 需要在准确性、 特异性和敏感性等方面对过敏原预测软件进行大幅度的改良提高。
     发明内容
     本发明要解决的技术问题是克服现有技术的不足而提供一种能提高过敏原预测 的敏感性、 特异性和精确性的基于支持向量机的过敏原的预测方法。
     为解决上述技术问题, 本发明的技术方案是 : 一种借助支持向量机建立过敏原家 族特征肽的过敏原的预测方法, 包括以下步骤 : 步骤 1: 数据库的建立, 从各过敏原数据库经过筛选得到的过敏原序列和非过敏原序列作为数据库 ; 步骤 2: 过敏原家族特征肽的提取, 针对过敏原序列进行聚类分析, 在形成的每一过敏原家族中, 过敏原序列按照每相隔 1-10 个碱基用滑动窗口分成 6-32 个碱基长度的肽段, 然后用所得肽段和非过敏原序列进 行 BLAST (Basic Local Alignment Search Tool, 序列基本对齐本地搜索工具 ) 比对后, 剔除那些与非过敏原相同或相似的片段, 而那些和非过敏原序列没配对的肽段, 并且 E 值低 -7 -1 于 10 ~10 时, 即是过敏原特征肽 (Allergen Featured Peptides, AFPs), 而落在同一过 敏原上且相邻的过敏原特征肽拼接后形成由 2-30 个小的特征肽构成的过敏原家族特征肽 (Allergen Family Featured Peptides, AFFPs) ; 步骤 3: 建立支持向量机模型, 对于一个查询蛋白 X 建立特征向量 FX = fx1, fx2, … , fxn , n 代表过敏原家族 特征肽库的片段数量, fxi 为蛋白 X 和第 i 个 AFFP 进行 BLAST (Basic Local Alignment Search Tool, 序列基本对齐本地搜索工具 ) 后 E 值均一化的值作为矢量, 并转换为径向基 函数 (Radial Basis Function, RBF) ; 步骤 4: 支持向量机模型的性能测定, 采用交叉验证方法进行测定, 即将训练集随机均分成 n 个互不相交的子集, 利用 n-1 个 训练子集, 对给定的一组参数建立模型, 利用剩下一个子集做测试评估参数性能, 即为 n 倍 的内在交叉效度。
     进一步的, 上述方案中步骤 3 所述对 BLAST (Basic Local Alignment Search Tool, 序列基本对齐本地搜索工具 ) 比对所得的 E 值 x 进行均一化, 均一化的公式如下 : 或
     , 其中 C 为 0~20 的常数。进一步的, 上述方案中步骤 3 所述支持向量机是基于结构风险最小化原则的统 计, 其使用核函数将输进去的矢量投射到高维特征空间, 在空间形成一个超平面, 使过敏原 和非过敏原得以在超平面两边分开, 支持向量机的核函数首先经过标准化, 以使每个向量 在特征空间拥有长度单位 1, 核函数标准化的公式如下 : 。更进一步的, 所述核函数 y(X, Y) 转换为径向基函数 (RBF) , 以使形成的平面通过 原点 , 由核函数转换为径向基函数的公式如下 :
     其中, σ 是特征空间里阳性的训练矢量到阴性矢量的欧几里德距离中值。
     优选的, 上述方案中步骤 4 所述支持向量机模型的性能测定采用十倍的内在的交 叉效度方法进行测定, 计算模型的敏感性 (Sensitivity, SE) , 特异性 (Specificity, SP) , 精确度 (Accuracy, ACC) , Matthews 相 关 系 数 (Matthews Correlation Coefficients, MCC) , 而这四个参数的计算公式如下 :其中, 真阳性 TP 代表确定的过敏群体中被程序判定为过敏原的数目 ; 真阴性 TN 代表确 定的非过敏群体中被程序判定为非过敏原的数目 ; 假阴性 FN 代表确定的过敏群体中被程 序判定为非过敏原的数目 ; 假阳性 FP 确定的非过敏群体中被程序判定为过敏原的数目。
     优选的, 上述方案中步骤 1 所述数据库的建立中过敏原序列是从各过敏原数据 库收集过敏原序列, 并移除序列同源性达到 80-90% 的过敏原后得到的 ; 非过敏原序列是以 大米, 苹果, 胡萝卜等常见食物和人类自身蛋白并经过过敏原筛选后得到的。
     与现有技术相比, 本发明相对于现有技术的有益效果是 : 本发明基于支持向量机的过敏原的预测方法对过敏原预测的敏感性、 特异性和精确性 高。与国际上最新的过敏原预测软件比较, 采用本发明方法进行预测的结果与文献数据一 致性最好。 附图说明
     下面结合附图和具体实施方式对本发明作进一步详细的说明。 图 1 是本发明基于支持向量机的过敏原的预测方法具体实现框图。具体实施方式
     图 1 为本发明基于支持向量机的过敏原的预测方法具体实现框图。本发明公开了 一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法, 包括以下步骤 : 步骤一 : 过敏原和非过敏原数据库的建立, 从各过敏原数据库收集过敏原序列, 并移除 序列同源性达到 80-90% 的过敏原后作为过敏原库。以大米、 苹果、 胡萝卜等常见食物和人 类自身蛋白, 并经过过敏原筛选, 再被选为非过敏原库。
     步骤二 : 过敏原家族特征肽的提取 : 所有过敏原序列按照每相隔一定碱基数用滑 动窗口分成一定长度的肽段, 然后用所得肽段和非过敏原序列进行 BLAST (Basic Local Alignment Search Tool, 序列基本对齐本地搜索工具 ), 那些和非过敏原序列没配对的 -7 -1 肽段, 并且 E 值低于 10 ~10 时, 确定是过敏原家族特征肽 (Allergen Family Featured Peptides, AFFPs) 。然后将邻近的 AFFPs 合并, 并选取每一过敏原序列上最长的 AFFPs 作 为代替相应的过敏原家族特征肽, 以代替相应的过敏原家族。
     步骤三 : 建立支持向量机模型 : 对于一个蛋白 X 的特征向量 FX = fx1, fx2, …, fxn , n 代表过敏原家族特征肽库的片段数量, fxi 为蛋白 X 和第 i 个 AFFP 进行 BLAST (Basic Local Alignment Search Tool, 序列基本对齐本地搜索工具 ) 后 E 值均一化的值 作为矢量, 并转换为径向基函数 (Radial Basis Function, RBF) , 训练支持向量机。
     对 BLAST (Basic Local Alignment Search Tool, 序列基本对齐本地搜索工具 ) 比对所得的 E 值 x 进行均一化, 均一化的公式如下 :6102346817 A CN 102346837说或明书4/5 页, 其中 C 为 0~20 的常数。支持向量机是基于结构风险最小化原则的统计原理, 这个原理可以使用核函数将 输进去的矢量投射到高维特征空间, 在空间形成一个超平面, 使过敏原和非过敏原得以在 超平面两边分开。支持向量机的核函数首先经过标准化, 以致使每个向量在特征空间拥有 长度单位 1。标准化的公式如下 :
     然后将这个核函数 y(X, Y) 转换为径向基函数 (RBF) , 以使形成的平面通过原点。由核 函数转换为径向基函数的公式如下 :这里的 σ 是特征空间里阳性的训练矢量到阴性矢量的欧几里德距离中值, 核函数常 数 1 的增加是为了转换数据, 使超平面通过原点。这个方法可以对由一个待测序列形成的 未知矢量进行分类, 使其在特征空间落到超平面的一边, 进而判断是否过敏原。 步骤四 : 模型性能采用交叉验证 (cross-validation) 方法进行测定, 即将训练集 随机均分成 n 个互不相交的子集。利用 n-1 个训练子集, 对给定的一组参数建立模型, 利用 剩下一个子集做测试评估参数性能。采用十倍的内在的交叉效度分析评估向量模型, 同时 计算了模型的敏感性 (Sensitivity, SE) , 特异性 (Specificity, SP) , 精确度 (Accuracy, ACC) , Matthews 相关系数 (Matthews Correlation Coefficients, MCC) 。
            TP(真阳性) 代表已知过敏原被预测为过敏原, TN(真阴性) 代表非过敏原被预测为非 过敏原, FN(假阴性) 代表已知过敏原被预测为非过敏原, FP(假阳性) 代表非过敏原被预 测为过敏原。MCC 的范围是从- 1 到 1。MCC 的值为 1 指示预测结果最好, 为- 1 时代表预 测的结果最差, MCC 为 0 时代表预测的随意性大。
     本发明的应用实例 1 : 与已经发表的过敏原预测软件的比较。
     采用 500 个已经确认的过敏原和 500 个已经确认的非过敏原作为待测数据, 用国 际上最近 5 年来发表的过敏原软件 AlgPred, EVALLER, AllerHunter 以及国际粮农组织和 世界卫生组织联合提议的指南方法及本发明预测方法的软件 SORTALLER 对这些序列数据进行预测, 所得结果见表 1。
     表 1. 不同软件和方法的准确性比较 .Methods FAO/WHO EVALLER AlgPred AllerHunter SORTALLER SE(%) 99.2 86.6 88.0 77.4 98.4 SP(%) 8.8 98.0 88.2 82.6 98.4 ACC(%) 54.0 92.3 88.1 80.0 98.4 MCC 0.187 0.870 0.762 0.827 0.968从表 1 可以看出 : 采用发明预测方法的软件 SORTALLER 在较高水平上同时使敏感性和 特异性都达到最高水平, 因此准确性显著比其他软件高。
     本发明的应用实例 2 : 不同软件对 13 个蛋白分析的结果比较。
     针对目前本身比较难进行分类的 13 个蛋白, 但都有文献支持认为 : 这 13 个蛋白是 过敏原, 采用发明预测方法的软件 SORTALLER 和国际上最新的 5 个过敏原预测软件进行分 析, 结果见表 2。
     表 2 查询序列 (Swiss-Prot 登录号 ) 小麦钙调蛋白 (P04464) 水稻钙调蛋白 (Q0JNS6) 油菜钙调蛋白 (Q6LD03) 小鼠钙调蛋白 (P62204) 人钙调蛋白 -like(P27482) 人钙调蛋白 (P62158) 拟南芥类钙调蛋白 (Q9SVG9) 苹果钙调蛋白 (P48976) 人血清白蛋白 (P02768) 毛头鬼伞蛋白 (Q9UVZ9) 艾蒿蛋白 (Q84ZX5) 人源膜蛋白 (Q13845) 合轴马拉色菌蛋白 (O93972) Allermatch 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 非过敏原 过敏原 AlgPred 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 非过敏原 过敏原 过敏原 过敏原 EVALLER 非过敏原 非过敏原 非过敏原 非过敏原 非过敏原 非过敏原 过敏原 非过敏原 过敏原 非过敏原 过敏原 非过敏原 过敏原 APPEL 非过敏原 非过敏原 非过敏原 非过敏原 非过敏原 非过敏原 非过敏原 非过敏原 过敏原 非过敏原 非过敏原 非过敏原 非过敏原 AllerHunter 非过敏原 非过敏原 非过敏原 非过敏原 非过敏原 非过敏原 非过敏原 非过敏原 过敏原 过敏原 过敏原 非过敏原 过敏原 SORTALLER 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原 过敏原从表 2 中可以看出, 本发明预测方法的软件与文献数据一致性最好, 都认为这些蛋白 是过敏原, 而其他软件则预测性能较低因而一致性差, 认为有些蛋白是非过敏原。

一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法.pdf_第1页
第1页 / 共9页
一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法.pdf_第2页
第2页 / 共9页
一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法.pdf》由会员分享,可在线阅读,更多相关《一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法.pdf(9页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN102346817A43申请公布日20120208CN102346817ACN102346817A21申请号201110302532722申请日20111009G06F19/2420110171申请人广州医学院第二附属医院地址510260广东省广州市海珠区昌岗东路250号72发明人陶爱林张利达邹泽红黄于艺74专利代理机构广州粤高专利商标代理有限公司44102代理人陈卫54发明名称一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法57摘要本发明属于生物信息学技术领域,更确切的是涉及一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法。该预测方法包括建立过敏原数据库;形。

2、成过敏原聚类与家族;提取过敏原家族代表肽;建立支持向量机模型;模型性能参数的优化训练及大规模过敏原数据的测试。本发明优点是建立在优先淘选过敏原家族特征肽基础上,该特征肽不仅对过敏原的典型特征作了精细描述,而且将过敏原与非过敏原做了严格区分,避免了过敏原判别过程中假阳性和假阴性的产生,从而在过敏原判别的准确性与灵敏度上取得了高水平的平衡而具有明显优势。在蛋白序列过敏原性的生物信息学分析方面具有广阔的应用前景。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书5页附图1页CN102346837A1/2页21一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其。

3、特征在于包括以下步骤步骤1数据库的建立,从各过敏原数据库经过筛选得到的过敏原序列和非过敏原序列作为数据库;步骤2过敏原家族特征肽的提取,针对过敏原序列进行聚类分析,在形成的每一过敏原家族中,过敏原序列按照每相隔110个碱基用滑动窗口分成632个碱基长度的肽段,然后用所得肽段和非过敏原序列进行BLASTBASICLOCALALIGNMENTSEARCHTOOL,序列基本对齐本地搜索工具,剔除那些与非过敏原相同或相似的片段,而那些和非过敏原序列没配对的肽段,并且采用BLAST所得的E值低于107101时,即是过敏原特征肽ALLERGENFEATUREDPEPTIDES,AFPS,而落在同一过敏原上。

4、且相邻的过敏原特征肽拼接后形成由230个小的特征肽构成的过敏原家族特征肽(ALLERGENFAMILYFEATUREDPEPTIDES,AFFPS);步骤3建立支持向量机模型,对于一个查询蛋白X建立特征向量FXFX1,FX2,FXN,N代表过敏原家族特征肽库的片段数量,FXI为蛋白X和第I个AFFP进行BLAST后E值均一化的值作为矢量,并转换为径向基函数(RADIALBASISFUNCTION,RBF);步骤4支持向量机模型的性能测定,采用交叉验证方法进行测定,即将训练集随机均分成N个互不相交的子集,利用N1个训练子集,对给定的一组参数建立模型,利用剩下一个子集做测试评估参数性能,即为N倍的。

5、内在交叉效度。2根据权利要求1所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方法步骤3所述对BLAST比对所得的E值X进行均一化,均一化的公式如下或,其中C为020的常数。3根据权利要求1所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其特征在于步骤3所述支持向量机是基于结构风险最小化原则的统计,其使用核函数将输进去的矢量投射到高维特征空间,在空间形成一个超平面,使过敏原和非过敏原得以在超平面两边分开,支持向量机的核函数首先经过标准化,以使每个向量在特征空间拥有长度单位1,核函数标准化的公式如下。4根据权利要求3所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其。

6、特征在于所述核函数Y(X,Y)转换为径向基函数RBFRADIALBASISFUNCTION以使形成的平面通过原点,由核函数转换为径向基函数RBF的公式如下其中,是特征空间里阳性的训练矢量到阴性矢量的欧几里德距离中值。权利要求书CN102346817ACN102346837A2/2页35根据权利要求1所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其特征在于步骤4所述支持向量机模型的性能测定采用十倍的内在的交叉效度方法进行测定,计算模型的敏感性(SE)、特异性(SP)、精确度(ACC),马太相关系数(MCC),而这四个参数的计算公式如下其中,真阳性TP代表确定的过敏群体中被程序判定为。

7、过敏原的数目;真阴性TN代表确定的非过敏群体中被程序判定为非过敏原的数目;假阴性FN代表确定的过敏群体中被程序判定为非过敏原的数目;假阳性FP确定的非过敏群体中被程序判定为过敏原的数目。6根据权利要求1所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其特征在于步骤1所述数据库的建立中过敏原序列是从各过敏原数据库收集过敏原序列,并移除序列同源性达到8090的过敏原后得到的;非过敏原序列是以大米,苹果,胡萝卜和人类自身蛋白并经过过敏原筛选后得到的。权利要求书CN102346817ACN102346837A1/5页4一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法技术领域0001。

8、本发明属于生物信息学技术领域,更确切的是涉及一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法。背景技术0002近年来,随着一些农艺性状得到遗传改良的食物增多及基因工程药物的应用增加,一些对人类具有潜在过敏的蛋白可能引入这些食品和药品中,由此将导致过敏性体质人群的生活压力和整个社会的生活成本增加。在这些新蛋白基因遗传转化之前及与人体的产生接触之前,先期进行过敏原性评价,显得十分迫切。而应用软件对蛋白的过敏原性进行精确预测是过敏原性评价的最经济有效的首选方案。过敏原性的精确评估,既可避免高过敏原性蛋白基因的应用所带来的前期巨额投入,又可避免这类蛋白对人体的伤害,使风险成本得到降低。0003。

9、目前,国内尚没有一款可以评价过敏原的软件,而国际上,过敏原性预测软件可以概括为如下几类方法进行过敏原检测,包话(1)通常的序列比对;(2)基于滑动肽窗口原理的过敏原IGE表位和基序的检测;(3)以支持向量机(SUPPORTVECTORMACHINE,SVM)为支持算法的分类器来区分过敏原和非过敏原;(4)基于过敏原代表肽段(ALLERGENREPRESENTATIVEPEPTIDES,ARPS)或经过长度调整后的过敏原肽段构建的描述器(DETECTIONBASEDONFILTEREDLENGTHADJUSTEDALLERGENPEPTIDES,DFLAPS)。当待查询序列或其片段与已知过敏原完。

10、全相同、或者同源、或者具有匹配的基序时,这些软件就非常有效,而对于那些跟已知过敏原相似性低的新型蛋白质,这些软件的预测准确性就不佳了。因此,为了从随机的序列数据、特别是从那些农艺性状优良而尚未开发的外源基因里甄别过敏原,以避免将从未被人类作为食物的外源基因通过遗传工程等方法引入食品中,需要在准确性、特异性和敏感性等方面对过敏原预测软件进行大幅度的改良提高。发明内容0004本发明要解决的技术问题是克服现有技术的不足而提供一种能提高过敏原预测的敏感性、特异性和精确性的基于支持向量机的过敏原的预测方法。0005为解决上述技术问题,本发明的技术方案是一种借助支持向量机建立过敏原家族特征肽的过敏原的预测。

11、方法,包括以下步骤步骤1数据库的建立,从各过敏原数据库经过筛选得到的过敏原序列和非过敏原序列作为数据库;步骤2过敏原家族特征肽的提取,针对过敏原序列进行聚类分析,在形成的每一过敏原家族中,过敏原序列按照每相隔110个碱基用滑动窗口分成632个碱基长度的肽段,然后用所得肽段和非过敏原序列进行BLASTBASICLOCALALIGNMENTSEARCHTOOL,序列基本对齐本地搜索工具比对后,剔说明书CN102346817ACN102346837A2/5页5除那些与非过敏原相同或相似的片段,而那些和非过敏原序列没配对的肽段,并且E值低于107101时,即是过敏原特征肽ALLERGENFEATURE。

12、DPEPTIDES,AFPS,而落在同一过敏原上且相邻的过敏原特征肽拼接后形成由230个小的特征肽构成的过敏原家族特征肽(ALLERGENFAMILYFEATUREDPEPTIDES,AFFPS);步骤3建立支持向量机模型,对于一个查询蛋白X建立特征向量FXFX1,FX2,FXN,N代表过敏原家族特征肽库的片段数量,FXI为蛋白X和第I个AFFP进行BLASTBASICLOCALALIGNMENTSEARCHTOOL,序列基本对齐本地搜索工具后E值均一化的值作为矢量,并转换为径向基函数(RADIALBASISFUNCTION,RBF);步骤4支持向量机模型的性能测定,采用交叉验证方法进行测定,。

13、即将训练集随机均分成N个互不相交的子集,利用N1个训练子集,对给定的一组参数建立模型,利用剩下一个子集做测试评估参数性能,即为N倍的内在交叉效度。0006进一步的,上述方案中步骤3所述对BLASTBASICLOCALALIGNMENTSEARCHTOOL,序列基本对齐本地搜索工具比对所得的E值X进行均一化,均一化的公式如下或,其中C为020的常数。0007进一步的,上述方案中步骤3所述支持向量机是基于结构风险最小化原则的统计,其使用核函数将输进去的矢量投射到高维特征空间,在空间形成一个超平面,使过敏原和非过敏原得以在超平面两边分开,支持向量机的核函数首先经过标准化,以使每个向量在特征空间拥有长。

14、度单位1,核函数标准化的公式如下。0008更进一步的,所述核函数Y(X,Y)转换为径向基函数(RBF),以使形成的平面通过原点,由核函数转换为径向基函数的公式如下其中,是特征空间里阳性的训练矢量到阴性矢量的欧几里德距离中值。0009优选的,上述方案中步骤4所述支持向量机模型的性能测定采用十倍的内在的交叉效度方法进行测定,计算模型的敏感性(SENSITIVITY,SE),特异性(SPECIFICITY,SP),精确度(ACCURACY,ACC),MATTHEWS相关系数(MATTHEWSCORRELATIONCOEFFICIENTS,MCC),而这四个参数的计算公式如下说明书CN10234681。

15、7ACN102346837A3/5页6其中,真阳性TP代表确定的过敏群体中被程序判定为过敏原的数目;真阴性TN代表确定的非过敏群体中被程序判定为非过敏原的数目;假阴性FN代表确定的过敏群体中被程序判定为非过敏原的数目;假阳性FP确定的非过敏群体中被程序判定为过敏原的数目。0010优选的,上述方案中步骤1所述数据库的建立中过敏原序列是从各过敏原数据库收集过敏原序列,并移除序列同源性达到8090的过敏原后得到的;非过敏原序列是以大米,苹果,胡萝卜等常见食物和人类自身蛋白并经过过敏原筛选后得到的。0011与现有技术相比,本发明相对于现有技术的有益效果是本发明基于支持向量机的过敏原的预测方法对过敏原预。

16、测的敏感性、特异性和精确性高。与国际上最新的过敏原预测软件比较,采用本发明方法进行预测的结果与文献数据一致性最好。附图说明0012下面结合附图和具体实施方式对本发明作进一步详细的说明。0013图1是本发明基于支持向量机的过敏原的预测方法具体实现框图。具体实施方式0014图1为本发明基于支持向量机的过敏原的预测方法具体实现框图。本发明公开了一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,包括以下步骤步骤一过敏原和非过敏原数据库的建立,从各过敏原数据库收集过敏原序列,并移除序列同源性达到8090的过敏原后作为过敏原库。以大米、苹果、胡萝卜等常见食物和人类自身蛋白,并经过过敏原筛选,再被选。

17、为非过敏原库。0015步骤二过敏原家族特征肽的提取所有过敏原序列按照每相隔一定碱基数用滑动窗口分成一定长度的肽段,然后用所得肽段和非过敏原序列进行BLASTBASICLOCALALIGNMENTSEARCHTOOL,序列基本对齐本地搜索工具,那些和非过敏原序列没配对的肽段,并且E值低于107101时,确定是过敏原家族特征肽(ALLERGENFAMILYFEATUREDPEPTIDES,AFFPS)。然后将邻近的AFFPS合并,并选取每一过敏原序列上最长的AFFPS作为代替相应的过敏原家族特征肽,以代替相应的过敏原家族。0016步骤三建立支持向量机模型对于一个蛋白X的特征向量FXFX1,FX2,。

18、FXN,N代表过敏原家族特征肽库的片段数量,FXI为蛋白X和第I个AFFP进行BLASTBASICLOCALALIGNMENTSEARCHTOOL,序列基本对齐本地搜索工具后E值均一化的值作为矢量,并转换为径向基函数(RADIALBASISFUNCTION,RBF),训练支持向量机。0017对BLASTBASICLOCALALIGNMENTSEARCHTOOL,序列基本对齐本地搜索工具比对所得的E值X进行均一化,均一化的公式如下说明书CN102346817ACN102346837A4/5页7或,其中C为020的常数。0018支持向量机是基于结构风险最小化原则的统计原理,这个原理可以使用核函数将。

19、输进去的矢量投射到高维特征空间,在空间形成一个超平面,使过敏原和非过敏原得以在超平面两边分开。支持向量机的核函数首先经过标准化,以致使每个向量在特征空间拥有长度单位1。标准化的公式如下然后将这个核函数Y(X,Y)转换为径向基函数(RBF),以使形成的平面通过原点。由核函数转换为径向基函数的公式如下这里的是特征空间里阳性的训练矢量到阴性矢量的欧几里德距离中值,核函数常数1的增加是为了转换数据,使超平面通过原点。这个方法可以对由一个待测序列形成的未知矢量进行分类,使其在特征空间落到超平面的一边,进而判断是否过敏原。0019步骤四模型性能采用交叉验证(CROSSVALIDATION)方法进行测定,即。

20、将训练集随机均分成N个互不相交的子集。利用N1个训练子集,对给定的一组参数建立模型,利用剩下一个子集做测试评估参数性能。采用十倍的内在的交叉效度分析评估向量模型,同时计算了模型的敏感性(SENSITIVITY,SE),特异性(SPECIFICITY,SP),精确度(ACCURACY,ACC),MATTHEWS相关系数(MATTHEWSCORRELATIONCOEFFICIENTS,MCC)。0020TP(真阳性)代表已知过敏原被预测为过敏原,TN(真阴性)代表非过敏原被预测为非过敏原,FN(假阴性)代表已知过敏原被预测为非过敏原,FP(假阳性)代表非过敏原被预测为过敏原。MCC的范围是从1到1。

21、。MCC的值为1指示预测结果最好,为1时代表预测的结果最差,MCC为0时代表预测的随意性大。0021本发明的应用实例1与已经发表的过敏原预测软件的比较。0022采用500个已经确认的过敏原和500个已经确认的非过敏原作为待测数据,用国际上最近5年来发表的过敏原软件ALGPRED,EVALLER,ALLERHUNTER以及国际粮农组织和世界卫生组织联合提议的指南方法及本发明预测方法的软件SORTALLER对这些序列数据说明书CN102346817ACN102346837A5/5页8进行预测,所得结果见表1。0023表1不同软件和方法的准确性比较METHODSSESPACCMCCFAO/WHO99。

22、2885400187EVALLER8669809230870ALGPRED8808828810762ALLERHUNTER7748268000827SORTALLER9849849840968从表1可以看出采用发明预测方法的软件SORTALLER在较高水平上同时使敏感性和特异性都达到最高水平,因此准确性显著比其他软件高。0024本发明的应用实例2不同软件对13个蛋白分析的结果比较。0025针对目前本身比较难进行分类的13个蛋白,但都有文献支持认为这13个蛋白是过敏原,采用发明预测方法的软件SORTALLER和国际上最新的5个过敏原预测软件进行分析,结果见表2。0026表2查询序列SWISSPR。

23、OT登录号ALLERMATCHALGPREDEVALLERAPPELALLERHUNTERSORTALLER小麦钙调蛋白P04464过敏原过敏原非过敏原非过敏原非过敏原过敏原水稻钙调蛋白Q0JNS6过敏原过敏原非过敏原非过敏原非过敏原过敏原油菜钙调蛋白Q6LD03过敏原过敏原非过敏原非过敏原非过敏原过敏原小鼠钙调蛋白P62204过敏原过敏原非过敏原非过敏原非过敏原过敏原人钙调蛋白LIKEP27482过敏原过敏原非过敏原非过敏原非过敏原过敏原人钙调蛋白P62158过敏原过敏原非过敏原非过敏原非过敏原过敏原拟南芥类钙调蛋白Q9SVG9过敏原过敏原过敏原非过敏原非过敏原过敏原苹果钙调蛋白P48976。

24、过敏原过敏原非过敏原非过敏原非过敏原过敏原人血清白蛋白P02768过敏原过敏原过敏原过敏原过敏原过敏原毛头鬼伞蛋白Q9UVZ9过敏原非过敏原非过敏原非过敏原过敏原过敏原艾蒿蛋白Q84ZX5过敏原过敏原过敏原非过敏原过敏原过敏原人源膜蛋白Q13845非过敏原过敏原非过敏原非过敏原非过敏原过敏原合轴马拉色菌蛋白O93972过敏原过敏原过敏原非过敏原过敏原过敏原从表2中可以看出,本发明预测方法的软件与文献数据一致性最好,都认为这些蛋白是过敏原,而其他软件则预测性能较低因而一致性差,认为有些蛋白是非过敏原。说明书CN102346817ACN102346837A1/1页9图1说明书附图CN102346817A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1