说明书基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
技术领域
本发明属于生物信息学领域,涉及一种基于随机行走模型的癌症复发转移标志物筛选方法,更具体地说是涉及一种基于子网的随机森林分类器构建,可以用于改进癌症化疗敏感性预测。
背景技术
化疗敏感性是指癌症患者对化疗药物的反应敏感程度。癌症患者个体间对化疗药物敏感性存在着很大的差异,某些癌症对药物存在着耐药性。并且,某些药物对治疗癌症的选择性不高,这些情况均影响化疗的效果。
在癌症患者的治疗中,由于化疗敏感性的存在,无论其是否发生复发转移,是否采用术后辅助化疗一直存在较大的争议,成为癌症研究中的一个重要问题。非小细胞肺癌Ⅰ期与Ⅱ期患者在经过联合化疗后可以提高其三年生存率。但是,在与未经过联合化疗的对照组比较中,仅有4%–15%的患者改善了生存率,30%-40%的Ⅰ期患者在经过联合化疗后仍然复发。对于乳腺癌患者,有相当比率的患者在经过联合化疗后仍然会转移复发。对于结直肠癌Ⅱ期患者,其中75%-78%的病人无论是否经过联合化疗,五年内都没有复发,这说明只有25%左右的患者从联合化疗中受益。同时,结直肠癌Ⅲ期患者在经过联合化疗后可以提高其五年生存率,但是在未经过联合化疗的对照组中,仍有42%–44%的患者五年内并未复发。
传统的肿瘤TNM分期仍然是癌症患者是否化疗的标准,但是TNM分期相同的患者其预后往往相差悬殊。由于不同的癌症患者使用化疗药物治疗结果存在较大差异,因此在化疗前预筛选出化疗有效的患者对于癌症治疗具有重要的意义。
发明内容
本发明是为避免上述现有技术所存在的不足,提供一种基于分子子网与随机森林分类器的癌症化疗敏感性预测方法,以便能够有效区分化疗敏感与化疗不敏感两类癌症患者,识别从化疗中能够受益的癌症患者,减轻无需化疗患者的治疗与经济负担。
本发明为解决技术问题采用如下技术方案:
本发明基于分子子网与随机森林分类器的癌症化疗敏感性预测方法的特点是:
融合肿瘤基因表达谱数据、肿瘤突变基因组信息以及蛋白质相互作用组信息,基于重启的随机行走模型,挖掘致癌抑癌基因分子子网,实现特征提取;
以所述分子子网作为输入特征,基于癌症患者的生物表达谱数据,设计基于随机森林算法的训练模型,将所述训练模型用于独立测试集的测试,得到患者化疗敏感性评价结果;
所述肿瘤基因表达谱数据是指:利用基因表达谱数据平台得到的肿瘤基因表达谱数据;
所述肿瘤突变基因组信息是指:基于已知的肿瘤突变基因数据库得到引起细胞癌变的原癌基因和抑癌基因;
所述蛋白质相互作用组信息,是指利用已知的蛋白质相互作用数据集筛选出已经被实验证实的蛋白质相互作用对。
本发明基于分子子网与随机森林分类器的癌症化疗敏感性预测方法的特点也在于:实现特征提取是按如下过程进行:
(1)构建蛋白质相互作用网络
蛋白质相互作用网络记作为随机游走图G,G=(V,E);所述随机游走图G的节点V={vi|1≤i≤n},vi是基因,n是出现在蛋白质相互作用网络中的基因个数;随机游走图G的边为E,E={(vi,vj)|1≤i≤n,1≤j≤n},当基因vi与基因vj存在相互作用关系时,(vi,vj)=1,否则(vi,vj)=0;
(2)将肿瘤突变基因组信息作为初始节点映射到随机游走图G;
(3)基于重启的随机行走模型,计算基因的概率分布
利用式(1)经过多次迭代计算获得基因的输出概率分布向量:
pt+1=(1-r)wpt+rp0 (1)
式(1)中,r是跳转发生概率,w是邻接矩阵,p0是初始概率分布向量,pt是在时刻t发生跳转时,跳转到随机游走图G中每个节点的概率分布向量,pt+1是每次游走过程后的输出概率分布向量;p0定义为:其中mi是指基因vi出现在不同种类癌症中的突变次数之和;邻接矩阵w定义为:
当时,随机行走模型迭代计算结束;
(4)计算基因的局部评价指标pl与全局评价指标pg
所述局部评价指标pl是指每个节点的局部零分布得分,是从同一节点的所有随机分数计算得到;所述全局评价指标pg是指每个节点的全局零分布得分,是从所有节点的随机分数计算得到;筛选出局部评价指标pl与全局评价指标pg均小于设定的阈值的基因,将所有筛选到的基因构建分子子网,实现特征提取。
本发明基于分子子网与随机森林分类器的癌症化疗敏感性预测方法的特点也在于:以所述分子子网作为输入特征,按如下方法获得患者化疗敏感性评价结果:
(1)以分子子网作为输入特征,设计基于训练集的随机森林模型
随机森林模型包括分类器个数ntree和各分离点基因的选择个数mtry,所述分类器个数ntree的选择范围是{101,102,103,104},所述各分离点基因的选择个数mtry的选择范围是{21,22,23,24,25,26,27},通过选择不同的分类器个数ntree和各分离点基因的选择个数mtry构成28种不同参数组合的待选随机森林模型;
(2)对于所述各待选随机森林模型,基于分层取样方法设计五折交叉验证算法,把训练集分为化疗敏感与化疗不敏感两类,并分别得到各待选随机森林模型的ROC曲线,以所述各ROC曲线的面积AUC值作为评价指标;
(3)以面积AUC值最大所对应的待选随机森林模型作为训练模型,将所述训练模型用于独立测试集的测试,从而将癌症患者分为化疗敏感和化疗不敏感两类。
与已有技术相比,本发明有益效果体现在:
1、本发明方法中基于重启的随机行走模型,挖掘癌易感基因,构建癌基因分子子网,识别出癌基因所在的信号通路,发现与癌症复发转移密切相关的分子子网,挖掘出的分子子网具有明确的生物学功能,对于提高癌症复发判断的准确率和预后判断的精确度具有重要意义。
2、本发明方法中以随机森林模型作为训练模型,可以明确识别癌症患者个体是否属于化疗敏感类,具有实际应用价值。
3、对于癌症患者是否需要化疗的传统判别手段是TNM分期,预后效果欠佳。本发明将所述训练模型用于独立测试集的测试,能够有效地把癌症患者区分为化疗敏感与化疗不敏感两类,识别出通过化疗能够受益的癌症患者。
附图说明
图1为利用本发明方法预测得到的独立测试集中化疗敏感样本生存分析曲线。
图2为利用本发明方法预测得到的独立测试集中化疗不敏感样本生存分析曲线。
具体实施方式
本发明基于分子子网与随机森林分类器的癌症化疗敏感性预测方法是:
融合肿瘤基因表达谱数据、肿瘤突变基因组信息以及蛋白质相互作用组信息,基于重启的随机行走模型,挖掘致癌抑癌基因分子子网,实现特征提取;
以分子子网作为输入特征,基于癌症患者的生物表达谱数据,设计基于随机森林算法的训练模型,将所述训练模型用于独立测试集的测试,得到患者化疗敏感性评价结果;
肿瘤基因表达谱数据是指:利用基因表达谱数据平台得到的肿瘤基因表达谱数据;
肿瘤突变基因组信息是指:基于已知的肿瘤突变基因数据库得到引起细胞癌变的原癌基因和抑癌基因。
蛋白质相互作用组信息,是指利用已知的蛋白质相互作用数据集筛选出已经被实验证实的蛋白质相互作用对。
本实施例基于分子子网与随机森林分类器的癌症化疗敏感性预测方法按如下步骤进行:
步骤1:特征提取
(1)、构建蛋白质相互作用网络
蛋白质相互作用网络记作随机游走图G,G=(V,E);所述随机游走图G的节点V={vi|1≤i≤n},vi是基因,n是出现在蛋白质相互作用网络中的基因个数;随机游走图G的边为E,E={(vi,vj)|1≤i≤n,1≤j≤n},当基因vi与基因vj存在相互作用关系时,(vi,vj)=1,否则(vi,vj)=0。
(2)、将肿瘤突变基因组信息作为初始节点映射到随机游走图G。
(3)、基于重启的随机行走模型,计算基因的概率分布
利用式(1)经过多次迭代计算获得基因的输出概率分布向量:
pt+1=(1-r)wpt+rp0 (1)
式(1)中,r是跳转发生概率,w是邻接矩阵,p0是初始概率分布向量,pt是在时刻t发生跳转时,跳转到随机游走图G中每个节点的概率分布向量,pt+1是每次游走过程后的输出概率分布向量;p0定义为:其中mi是指基因vi出现在不同种类癌症中的突变次数之和;邻接矩阵w定义为:
当时,随机行走模型迭代计算结束。
(4)、计算基因的局部评价指标pl与全局评价指标pg
局部评价指标pl是指每个节点的局部零分布得分,是从同一节点的所有随机分数计算得到;所述全局评价指标pg是指每个节点的全局零分布得分,是从所有节点的随机分数计算得到;筛选出局部评价指标pl与全局评价指标pg均小于设定的阈值的基因,将所有筛选到的基因构建分子子网,实现特征提取。
步骤2:按如下方式获得患者化疗敏感性评价结果
(1)以分子子网作为输入特征,设计基于训练集的随机森林模型
随机森林模型包括分类器个数ntree和各分离点基因的选择个数mtry,所述分类器个数ntree的选择范围是{101,102,103,104},所述各分离点基因的选择个数mtry的选择范围是 {21,22,23,24,25,26,27},通过选择不同的分类器个数ntree和各分离点基因的选择个数mtry构成28种不同参数组合的待选随机森林模型。
(2)对于所述各待选随机森林模型,基于分层取样方法设计五折交叉验证算法,把训练集分为化疗敏感与化疗不敏感两类,并分别得到各待选随机森林模型的ROC曲线,以所述各ROC曲线的面积AUC值作为评价指标。
(3)以面积AUC值最大所对应的待选随机森林模型作为训练模型,将所述训练模型用于独立测试集的测试,从而将癌症患者分为化疗敏感和化疗不敏感两类。
下面给出基于分子子网与随机森林分类器的肺癌化疗敏感性预测方法:
1、收集癌症突变基因。通过癌症突变基因数据库Canprovar,挖掘关键词是"lung adenocarcinoma",共收集到803个肺癌突变基因。
2、构建蛋白质相互作用网络。目前,酵母双杂交技术和质谱分析技术等高通量技术使蛋白质相互作用数据得以迅速扩充,已经有多种数据库专门收集整理蛋白质相互作用数据,如HPRD、MINT、DIP与BioGRID。从以上数据库的最新版本中,筛选出已经被实验证实的蛋白质相互作用对,其中包括11521种蛋白以及94066个蛋白相互作用对。
3、收集基因芯片表达数据。利用基因表达谱数据平台,收集到的肺癌基因表达数据集包括NCI Director’s Challenge Consortium(DCC)(样本数n=142)与GEO数据集GSE14814(样本数n=90)。以上数据来源于平台为Affymetrix的U133plus2.0基因芯片,分别对每一个数据集进行独立处理。我们把原始的CEL文件用MAS5进行归一化并计算基因的原始表达值,然后将各基因的表达值经过Log2转化。进一步删除基因表达值均值与方差均小于0.3的基因,再进行标准化处理,使得各基因在样本中表达值的均值为0,标准差为1。
4、设定数据标签。以癌症患者生存三年作为数据分类的标准,如果三年内发生复发转移记为化疗敏感(+1),否则记为化疗不敏感(-1)。NCI DCC数据包括60个化疗敏感样本与82个化疗不敏感样本。GSE14814数据包括33个化疗敏感样本与57个化疗不敏感样本。
5、构建随机游走图G。基于11521种蛋白与94066个蛋白相互作用对,构造得到随机游走图G的节点V有11521个,边E共有94066条,构成的矩阵行数与列数均为11521。
6、随机行走模型建模。采用的建模公式为pt+1=(1-r)wpt+rp0,r=0.5,p0定义为mi是指基因vi出现在突变基因数据库Canprovar中的突变次数,例如KRAS基因的mkras=1,如果基因vi没有出现在Canprovar中,mi=0;n是出现在蛋白质相互作用网络中的基因个数,n=11521;通过矩阵按列计算得到邻接矩阵当 基因vi与基因vj存在相互作用时(vi,vj)=1,否则是指矩阵按照基因vj的列求和,1≤i,j≤11521。
7、选择评价指标。分别计算基因的局部评价指标与全局评价指标,并且迭代次数小于1000次。选择局部评价指标pl≤0.05且全局评价指标pg≤0.05的基因,最终得到551个肺癌易感基因。以上过程通过R语言编程实现。
8、551个肺癌易感基因作为随机森林模型的输入特征建模。训练集DCC每个样本有551个特征的列,矩阵的行与列为142*551。基于随机森林算法与训练集DCC,经过五折交叉验证,选择AUC(ROC曲线面积)最大值对应的一组参数,得到ntree=1000与mtry=8。此时,得到的AUC=0.99。随机森林算法采用R语言软件包randomForest编程实现,ROC曲线采用R语言软件包ROCR编程实现。
9、对独立测试集GSE14814进行验证。仍然采用551个肺癌易感基因作为输入特征,GSE14814对应矩阵的行与列为90*551,将所述训练模型用于独立测试集的测试,对分类结果为+1的样本记为化疗敏感,对分类结果为-1的样本记为化疗不敏感,此时得到的AUC=0.65。
10、本发明的效果通过以下仿真结果进一步说明。对测试集GSE14814,基于第九步得到的化疗敏感样本(n=20)与化疗不敏感样本(n=70)进行生存分析,分别得到化疗敏感样本的生存曲线与化疗不敏感样本的生存曲线。
图1为利用本发明方法预测得到的独立测试集中化疗敏感样本生存分析曲线,图1中曲线a为实际没有经过化疗的肺癌样本,曲线b为实际经过化疗的肺癌样本。
图2为利用本发明方法预测得到的独立测试集中化疗不敏感样本生存分析曲线,图2中曲线a为实际没有经过化疗的肺癌样本,曲线b为实际经过化疗的肺癌样本。
如图1所示,对化疗敏感样本进行生存分析,分别得到风险比hazard ratio[HR]=0.151,95%置信区间confidence interval[CI]=0.031-0.732与P=0.008。如图2所示,对化疗不敏感样本进行生存分析,分别得到风险比hazard ratio[HR]=0.845,95%置信区间confidence interval[CI]=0.401-1.78与P=0.657。对化疗敏感样本,10个经过化疗治疗的样本3年生存率为90%,如图1中曲线b,而10个没有经过化疗治疗的样本3年生存率仅为20%,如图1中的曲线a。对化疗不敏感样本,40个经过化疗治疗的样本3年生存率为75%,如图2中曲线b,而30个没有经过化疗治疗的样本3年生存率仅为66%,如图2中曲线a。因此,基于随机行走模型的癌症复发转移标志物筛选方法,能够有效地区分癌症化疗敏感与化疗不敏感两类患者,改进化疗敏感性预测结果。生存分析采用R语言软件包Survival编程实现。