《酚对发光菌毒性预测及评估的新型非线性高效模型构建方法及应用.pdf》由会员分享,可在线阅读,更多相关《酚对发光菌毒性预测及评估的新型非线性高效模型构建方法及应用.pdf(12页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103077313 A(43)申请公布日 2013.05.01CN103077313A*CN103077313A*(21)申请号 201310007830.2(22)申请日 2013.01.09G06F 19/00(2006.01)(71)申请人湖南农业大学地址 410128 湖南省长沙市芙蓉区湖南农业大学生安院(72)发明人周玮 袁哲明 吴树波 代志军陈渊 韩娜(74)专利代理机构北京科亿知识产权代理事务所(普通合伙) 11350代理人汤东凤(54) 发明名称酚对发光菌毒性预测及评估的新型非线性高效模型构建方法及应用(57) 摘要本发明公开了一种酚对发光菌毒性预测及。
2、评估的新型非线性高效模型的构建方法及应用,利用非线性SVR技术对源自现有技术的18个酚类化合物对发光菌的毒性表示为log EC50进行QSAR研究。这项工作的目的是基于低维特征数据和高维特征数据,通过非线性化学计量学工具寻找更合理的特征和更可靠的QSAR模型,并详细分析与毒性相关的最有价值模型及其最关键的分子特征。本发明将为设计对发光菌毒性增强或减弱的酚类似物提供有效的理论参考。(51)Int.Cl.权利要求书1页 说明书9页 附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书9页 附图1页(10)申请公布号 CN 103077313 ACN 1030773。
3、13 A1/1页21.一种酚对发光菌毒性预测及评估的新型非线性高效模型的构建方法,其特征在于,1)构建信息全面的数据集:包括因变量Log EC50 (expt.)、高维自变量、低维因变量log Kow、和q-、高维自变量通过PCLIENT软件计算而来;2)特征的非线性筛选:高维数据利用HDSN方法筛选特征,将高维数据变成低维数据,低维数据进一步利用WDEM方法筛选特征,最后保留的特征用来建模;3)非线性模型的构建和评估:基于包含关键特征的低维数据集和非线性的SVR方法,构建出20个高预测精度的非线性评估模型, SVR2模型MSE=0.017;=0.921;特征数目=10最优,所述模型中的10个。
4、特征及其效应如下:PJI2差异显著, MATS3v差异显著, H1p差异显著, Mor02v差异显著, Mor14p差异显著, Mor02u差异显著, RDF040v差异显著, Mor23v差异显著和MATS1m差异。2.权利要求1所述酚对发光菌毒性预测及评估的新型非线性高效模型在预测未知化合物的毒性中的应用。权 利 要 求 书CN 103077313 A1/9页3酚对发光菌毒性预测及评估的新型非线性高效模型构建方法及应用技术领域0001 本发明属于化学技术领域,涉及一种酚对发光菌毒性预测及评估的新型非线性高效模型的构建方法及应用。背景技术0002 随着经济的飞速发展,与化学品相关的环境问题日。
5、益突出。因此,有关有机污染物的毒性风险评估显得非常重要. 苯酚是一种最常见的环境污染物,特别是在废水中。由于在环境中的毒性和持久性,苯酚被视为优先关注的环境污染物. 明亮发光细菌 (Photobacterium phosphoreum)是一种海水中的发光细菌, 其光强随有毒物质抑制细菌生长(即细胞密度)而变化,使其成为化学品毒性测量和水质监测的重要指标。0003 定量构效关系(QSAR)建模是一种用于研究苯酚分子结构与毒性关系的有效方法,它有助于解释结构特征如何决定毒性。尤其在化学品的毒性评估中,一个好的QSAR模型相对于实验测试具有更快速、更低成本比的巨大优势。近日报道了一项研究18个酚类似。
6、物与毒性(表现为作用于发光菌的EC50)定量构效关系模型,该模型具有3个特征,分别由软件ChemDraw Ultra(版本11.0)、半经验量子化学方法AM1哈密尔顿和EPI Suite(版本4.0,US-EPA)计算而来,其独立预测能力较低(= 0.485)。此外,因为模型在特征选择和建模方法采用逐步线性回归(SLR)上有明显缺陷。由于化学毒性和相关特征之间的关系通常是非线性的,构建线性模型从而显得不合逻辑。所以目前的酚类似物毒性QSAR研究仍面临诸多不解。因此,基于高维特征数据、非线性特征筛选和非线性建模的模型一定会为设计新的化学品提供更有用信息。0004 考虑到特征矩阵的高维性,如果从中。
7、非线性选择最有用的子集特征用于建模变得越来越重要。为选择更合理的QSAR回归特征,我们采用两类基于支持向量回归(SVR)自行开发的方法:多轮末尾汰选(WDEM)和高维特征快速非线性汰选(HDSN)方法。为构建可靠的QSAR模型,我们采用非线性是SVR方法。SVR是一类基于结构风险最小化原则的机器学习方法,它能克服小样本问题、过拟合、维数灾和局部极小的难题,广泛应用于非线性建模的QASR研究中。发明内容0005 为了解决上述技术问题,本发明提供一种酚对发光菌毒性预测及评估的新型非线性高效模型的构建方法及应用,利用非线性SVR技术对源自现有技术的18个酚类化合物对发光菌的毒性(表示为log EC5。
8、0)进行QSAR研究。这项工作的目的是基于低维特征数据和高维特征数据,通过非线性化学计量学工具寻找更合理的特征和更可靠的QSAR模型,并详细分析与毒性相关的最有价值模型及其最关键的分子特征。本发明将为设计对发光菌毒性增强或减弱的酚类似物提供有效的理论参考。说 明 书CN 103077313 A2/9页40006 具体技术方案为: 0007 一种酚对发光菌毒性预测及评估的新型非线性高效模型的构建方法,0008 1)构建信息全面的数据集:包括因变量Log EC50 (expt.)、高维自变量、低维自变量(log Kow、和q-)、高维自变量通过PCLIENT软件)计算而来;0009 2)特征的非线。
9、性筛选:高维数据利用HDSN方法筛选特征,将高维数据变成低维数据,低维数据进一步利用WDEM方法筛选特征,最后保留的特征用来建模;0010 3)非线性模型的构建和评估:基于包含关键特征的低维数据集和非线性的SVR方法,构建出20个高预测精度的非线性评估模型,SVR2模型(MSE=0.017;=0.921;特征数目=10)最优,由于SVR缺乏解释性,我们基于实验室自主开发的SVR解释性体系,对最优的SVR2模型进行了一系列分析,结果显示SVR2模型具有显著的非线性(F-测验= 65.963;p = 5.363E-04),该模型中的10个特征及其效应如下:PJI2 (差异显著)、MATS3v (差。
10、异显著)、H1p (差异显著)、Mor02v (差异显著)、Mor14p (差异显著)、Mor02u (差异显著)、RDF040v (差异显著)、Mor23v (差异显著)和MATS1m (差异)。0011 本发明所述酚对发光菌毒性预测及评估的新型非线性高效模型在预测未知化合物的毒性中的应用。我们根据实验化合物的取代基规律虚拟了13个酚类似物。根据前面的介绍进行特征提取和活性预测,演示了整个模型推广应用的流程。0012 本发明的有益效果:0013 本发明所述技术方案预测精度均优于现有模型精度,其中推广能力最好的模型SVR1(高维特征删选后的数据+优化SVR)比现有模型(现有技术数据+SLR)在。
11、MSE指标上降低了97.107% 、在指标上提升了102.925%,甚至比改进的现有模型(现有技术数据+优化SVR)也在MSE指标上降低了95.315% 、在指标上提升了44.365%;即使推广能力最差的模型SVR20(高维特征删选后的数据+优化SVR)比现有模型(现有技术数据+SLR)在MSE指标上降低了43.219% 、在指标上提升了45.818%,甚至比改进的现有模型(现有技术数据+优化SVR)也在MSE指标上降低了8.053% 、在指标上提升了3.737%。附图说明0014 图1为基于现有技术数据的QSAR模型在内部(a)和外部(b)预测能力的比较;0015 图2为SVR2模型描述符的。
12、单因子效应。具体实施方式0016 下面结合附图和具体实施方式对本发明的方法作进一步详细地说明。0017 材料和方法0018 数据集0019 根据现有技术报道的18个实验测定的酚类的取代基类型,我们设计了13个虚拟的酚类用于评估。18个实验酚类和13个虚拟酚类列于表1。细菌暴露于被测试的酚(在3NaCl溶液中)15分钟,由MICROTOX测试仪测定其毒性值。计算EC50值并转换为对数EC50 (log EC50, mol L-1)用于QSAR研究。收集的18个log EC50实验值Log EC50 (expt.)介于说 明 书CN 103077313 A3/9页52.220到5.870之间。为了。
13、获得统计学鲁棒的QSAR模型,并比较与SLR和SVR的结果,按现有技术中80:20的比率将表1中的18个实验酚类分成训练集(15个化合物)和测试集(3个化合物)。训练集用来构建QSAR模型并验证其内部预测能力,测试集用来验证其外部预测能力。基于构建的QSAR模型,虚拟酚类用于评估理论设计的有效毒性Log EC50 (pred.)。0020 表 1 18个实验酚类和13个虚拟酚类化合物毒性0021 0022 a测试集.0023 b通过SVR2模型得到的预测毒性.0024 分子描述符0025 低维现有技术数据:为了比较非线性SVR技术在18个酚类的QSAR低维描述符建模上的预测能力,3个现有技术描。
14、述符辛醇/水分配系数的对数(log Kow),偶极矩()和最负原子电荷(q-)用于发展模型。低维描述符数的计算涉及以下步骤:用ChemDraw Ultra (版本11.0)构建酚类结构,然后使用MOPAC软件(版本6.0)中的半经验量子化学方法AM1哈密顿优化分子结构,产生能量最小化的构象,得到14个常用的理化描述符(包括1个疏水性的,9个电子的,2个热力学的和两个空间性能的描述符)。采用SLR分析找出对化学品毒性而言最重要的描述符。0026 高维现有技术数据:为了利用更有效的结构信息来开发出更好的QSAR模型,31个酚类化合物的高维描述符通过PCLIENT软件 (http:/www.vccl。
15、ab.org/lab/pclient/)计算,并分成24组。该软件能免费并快速地为每一个提交的化合物计算约3000个描述符。高维描述符的计算过程包括以下步骤:使用JME编辑器绘制化合物的结构并保存为SMILES文件,然后SMILES文件作为一个任务输入到软件PCLIENT中计算所有描述符(默认状态)。说 明 书CN 103077313 A4/9页60027 模型发展0028 对于低维现有技术描述符,三个描述符使用SVR进行建模。0029 对于高维描述符,利用HDSN方法将高维描述符降维成低维描述符。冗余描述符进一步通过WDEM方法进行删除。最终保留的描述符用于建模。0030 特征选择方法003。
16、1 高维数据集的特征选择方法0032 建立一个好模型并非需要所有描述符参与,首选是模型描述符少但精度同等或更好。来自高维数据集的所有冗余描述符均可以用HDSN方法进行非线性汰选。经过多轮选择,直至没有多余描述符可被删除。0033 低维数据集的特征选择方法0034 对于低维数据集,冗余描述符可以进一步用WDEM方法进行汰选。保留下来的数据集用于建模。0035 模型评估0036 基于均方误差(MSE)值,高维描述符汰选采用10次交叉验证,低维描述符汰选和核函数参数的优化采用留一法(LOO)交叉验证。模型的内部和外部预测能力通过公式(1)和(2)的MSE和预测相关系数()值进行评估:0037 003。
17、8 0039 yi= 测试集的实验值0040 = 测试集的预测值0041 n = 测试集的数目0042 = 训练集的活性均值0043 一般认为,一个好的QSAR模型应该在独立测试时具有更低的MSE值和更高的 (至少0.6)值。0044 结果和讨论0045 利用SLR和SVR方法构建低维数据集QSAR模型的比较0046 现有技术报道利用SLR构建的QSAR模型有三种类型描述符,即log Kow(疏水性描述符)、(电子描述符)和(电子描述符)。这三个参数被认为是对酚类化合物毒性(表示为log EC50)最关键的因素。为了比较SLR和SVR在QSAR研究中的内部和外部预测能力,包含这三个分子描述符的。
18、相同现有技术数据集分别用于建模。此外,SVR模型分别用5个核函数(t = 0; t = 1, d = 2; t = 1, d = 3; t = 2; t = 3)来构建。比较结果表明:(1)采用这四个核函数(t = 0; t = 1, d = 3; t = 2; t = 3)构建的SVR模型与现有技术SLR模型(log EC50 = -4.264 + 1.130 log Kow + 0.095 - 14.885 )有相似的内部说 明 书CN 103077313 A5/9页7预测能力(图1a);(2)采用这三个核函数(t = 0; t = 1, d = 2; t = 2)构建的SVR模型比现有技。
19、术SLR模型(MSE= 0.111, = 0.485)具有更好的外部预测能力(图1b);(3)采用核函数(t = 2)构建的SVR模型具有最高的预测能力(MSE= 0.068, = 0.682),独立测试结果显示该非线性SVR模型的泛化推广能力比现有技术模型提高了40%。这些结果表明,对于给定的低维数据集而言,具有合适核函数的SVR是一个更强大的建模技术。0047 考虑到非线性、预测能力和计算耗时,我们发现以下几个特性有助于低维数据集的建模。这些属性将被用来构建高维数据集的模型。因此,在接下来的高维数据中,高维描述符汰选采用径向基函数(t=2)和10次交叉验证,低维描述符汰选采用的径向基函数(。
20、t=2)和LOO交叉验证,独立测试建模时采用所有五个核函数和LOO交叉验证进行训练。0048 利用非线性SVR方法构建高维数据集QSAR模型的比较0049 为了获得更高预测能力的QSAR模型,高维描述符因能提供更多更有效的信息而被考虑。因此,我们利用PCLIENT软件计算出2835个分子描述符。为了满足SVR建模,1649个具有缺省值的分子描述符被删除。这样,由自变量(1186个描述符)和因变量log EC50 (expt.)值组成高维数据集用于建模。由于高维数据集含有较多的冗余信息,我们已经基于SVR开发了两个新方法(HDSN方法和WDEM的方法)去非线性筛选更关键的描述符。根据前面的建议,。
21、采用径向基函数(t=2)和10次交叉验证进行高维描述符汰选。使用HDSN方法,描述这个高维的培训5-9轮在20 SVR模型的非线性选择,分别从。使用HDSN方法,经过5-9轮的非线性汰选,15个酚类的20个SVR模型描述符分别从1186减少到12-30。使用WDEM方法进一步除去冗余描述符,又经过了0-15轮非线性选择(表2和表3)。通过非线性选择,能使模型具有最小MSE值的描述符得以保留。最后,由保留的20组描述符组成的数据集用于构建20个非线性模型。由于外部预测时值对建模更重要,所有20个SVR模型根据外推时的值大小进行编号(表2和表3)。0050 表 2 排名前十名的模型的特征汰选和预测。
22、能力评估0051 0052 Num_del:汰选掉的描述符数目说 明 书CN 103077313 A6/9页80053 Num_obt:保留的描述符数目0054 表 3排名后十名的模型的特征汰选和预测能力评估0055 0056 在独立测试中,训练和建模均用5个核函数和LOO交叉验证。独立测试的结果(图1,表2和表3)表明:(1)基于最优的核函数和我们从高维数据中筛选的描述符构建的所有20个SVR模型,均具有更强的预测能力(更低的MSE和更高的),内部预测时MSE值介于1.550E-05至0.038而值介于0.937至1,外部预测时MSE值介于0.003至0.063而值范围从0.708至0.98。
23、5;(2)具有最好泛化能力的SVR1模型不仅优于现有技术SLR模型(内部预测MSE值降低80.048和值提高12.821;外部预测MSE值降低97.107和值提高102.925),也优于基于现有技术描述符构建的SVR模型(内部预测MSE值降低83.689和值提高17.016;外部预测MSE值降低95.315和值提高44.365);(3)具有最差泛化能力的SVR20模型仍然优于现有技术SLR模型(内部预测MSE值降低99.981和值提高16.023;外部预测MSE值降低43.219和值提高45.818),也优于基于现有技术描述符构建的SVR模型(内部预测MSE值降低99.985和值提高20.33。
24、7;外部预测MSE值降低8.053和值提高3.737)。比较表明:(1)我们从酚类高维描述符汰选出的描述符,能更有效地表征酚的毒性和分子结构之间的非线性关系;(2)在我们文章中,非线性SVR技术更适合非线性数据集如酚数据集的建模。0057 考虑到预测能力和计算时间,具有较高泛化能力且较少描述符的SVR2模型为最优模型,该模型用来预测我们所设计的虚拟化学物质毒性。基于SVR2模型及其描述符(表4),13个虚拟酚的Log EC50 (pred.)值被预测用于毒性评估(表1)。总体而言,在化学毒性上有一些有趣的规律。毒性规律(表1和表5)主要表现在(1)对甲酚、对硝基苯酚、对氨基苯酚和对氯苯酚具有较。
25、高的毒性,而间甲酚、间硝基苯酚、间氨基苯酚和间氯苯酚毒性较低;说 明 书CN 103077313 A7/9页9(2)对于两类异构体,2,5-二甲基苯酚、3,4-二甲基苯酚比2,3-二甲基苯酚和2,6-二甲基苯酚毒性高,2,5-二氯苯酚、3,4-二氯苯酚也比2,3-二氯苯酚和2,6-二氯苯酚毒性高;(3)4-叔丁基邻苯二酚和叔丁基对苯二酚在所有化合物中毒性最高。我们设计的苯酚化合物的预测毒性均没有高于18个实验化合物的最高值也没有低于18个实验化合物的最低值,但这些验证模型和毒性规律有助于通过找到合适取代基和合适位置来设计潜在酚类化合物。这有利于指导基于我们的非线性描述符和非线性模型进行化学毒性。
26、设计。0058 表 4 SVR2模型的关键描述符0059 0060 表 5 酚类化合物的毒性规律0061 说 明 书CN 103077313 A8/9页100062 在定量构效关系研究中,对最优的SVR2模型进行了详细分析。SVR2模型提示酚类化合物对发光菌的毒性很大程度上取决于10个分子因素。SVR在非线性领域具有较高泛化推广能力,但缺乏解释性。所以,在我们以前的研究中,基于F-test建立了一套完整的SVR解释性系统。根据SVR模型的解释性分析,我们分析了SVR2模型的回归显著性和单因子重要性。结果显示SVR2模型具有显著的非线性(F-测验= 65.963;p = 5.363E-04)。单。
27、因子效应分析结果显示,该模型中的9个描述符具有统计学差异:PJI2 (差异极显著)、MATS3v (差异极显著)、H1p (差异极显著)、Mor02v (差异极显著)、Mor14p (差异极显著)、Mor02u (差异极显著)、RDF040v (差异极显著)、Mor23v (差异极显著)和MATS1m (差异显著) (表6)。这表明9个描述符在描述此类化合物的抗癌活性中扮演最重要的角色。前人研究中,描述符PJI2、RDF040v和BELv3都曾作为模型描述符出现在建模中,但本实验发现的这种描述符组合无人报道过。0063 表 6 SVR2模型中关键描述符的定义和重要性分析0064 .0065 0。
28、066 SVR2模型中,PJI2属于拓扑描述符且是模型最重要的描述符,拓扑描述符相关性表明较少的扩展或紧凑的饱和结构模板会更有利于2-(2,6-二卤代苯基)-3-(取代吡啶-2-基)-噻唑烷-4-酮的HIV-1逆转录酶的抑制活性。MATS3v属于二维自相关描述符且是模型第二个重要描述符,其理化特性是原子的范德华体积。H1p属于GETAWAY描述符且是模型第三个重要描述符,苯基苯并恶唑的QASR模型表示,H1P描述符在雌激素受体-的结合中发挥了重要作用。PJI2、MATS3v和H1P描述符的单因子效应为正相关(图2),因此,通过增加这些描述符的值,能导致毒性值的增加。这些结果可能有助于解释,最重要的描述符如何决定酚类化合物对发光菌的毒性,以及促进新酚类化合物的设计。对于所有的描述符,SVR2模型的单因子效应结果表明(图2),酚类毒性与9个描述符呈正相关,这些描述符是PJI2、 MATS3v、MATS1m、H1p、Mor02v、Mor14p、Mor02u、RDF040v和BELv3。相反的是,Mor23v值越低酚类毒性越高。0067 如图2所示,结果表明,我们可以构建一些理想的QSAR模型,这类模型应该能够精确地预测新合成的或假设的化合物分子的属性。此外,我们工作的描述符汰选方法和建模说 明 书CN 103077313 A10。