融合关键词学习的支持向量机文本分类增量训练学习方法 【技术领域】
本发明属于智能信息处理技术,更进一步是关于文本的分类处理的技术,具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。背景技术
随着网络、信息化技术的快速发展,数字化文档信息的极大丰富,对文本、资料、网页等的分类处理已成为信息处理的在重要技术手段。对于文本分类来说,支持向量机方法(support vector machine,SVM)是目前最有效的方法之一,1998年Joachims在文献“Text Categorization with Support VectorMachines:Learning with Many Relevant Features”(In Proceedings of theEuropean Conference on Machine Learning,Berlin,Springer,1998)中验证了其在文本分类中的优异性能,对于支持向量机这一新的机器学习方法来说,相对于其性能的有效性同时,也具有训练过程复杂,对内存等资源占用大等缺点,因此,从其提出开始,人们就研究各种不同改进训练算法来改进其训练过程。
相对于传统一次性训练来说,增量训练技术是对其在应用中地进一步发展,正逐步受到更广泛的研究与关注,增量训练方法将传统的一次性集中训练转化为增量式、渐进式的训练学习,克服了一次性训练对内存资源占用大、没有持续训练学习能力等缺点,因而,增量训练学习方法大大扩展了分类模型的能力,提高了训练的灵活性与适应性,以及在实际应用中的学习能力。并且,相比于其它机器学习技术,支持向量机方法具有更良好的扩展性,及一般模型所不具备的优秀的增量学习的能力,这为支持向量机增量训练技术的研究应用提供了巨大的前景。1999年,Nadeem等在“Incremental Learningwith Support Vector Machines.(In Proc.of the Int.Joint Conf.on ArtificialIntelligence(IJCAI),1999)中采用增量学习方法对两类支持向量机分类进行了研究,在每次增量时将上一次训练获得的支持向量与新增训练文档一起进行训练优化,实验获得了与非增量训练基本相近但略低的分类精度,2001年Cauwenberghs等在“Incremental and Decremental Support Vector MachineLearning,”(Adv.Neural Information Processing Systems,Cambridge MA:MIT Press,Vol.13,2001)从理论上分析了进行增量训练时支持向量全局优化的方法,同年,Ralaivola在“Incremental Support Vector Machine Learning”(a Local Approach.In Proceedings of ICANN′01,Springer,2001)中探讨了一种采用径向基函数(RBF)为核函数的支持向量机进行局部增量训练的优化策略,在该研究中仅仅采用新增训练数据周围数据作为工作子集的方法来进行优化训练,避免对全部数据参数的再学习,以上研究的重点都是集中在支持向量重新优化的问题上,是基于SVM本身的增量训练特性的研究。发明内容
本方法是针对目前SVM文本分类增量训练中,由于仅仅考虑支持向量本身优化的问题,而导致增量训练效果比一次性训练分类精度略低这一现象,结合增量训练与一次性训练在分类关键词上所存在的差异,提出在增量学习过程中,同时进行文档关键词“增量”学习的方法,以达到消除二者的差异,从而使增量训练达到与一次性训练相一致的分类精度的目的。
为达到以上发明目的,本发明采用的技术内容是:一种融合关键词学习的支持向量机文本分类增量训练学习方法,包括以下步骤:
第一、类别关键词的学习与调整。
将增量训练学习分为分类关键词学习与支持向量优化训练两个方面。在获得用于增量训练的文档后,对它们进行文档切分、关键词提取,然后读取以前的关键词集合,进行相应的关键词学习与调整,步骤如下:
1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键词对应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到关键词集合中,并将其相应的所出现的训练文档数置为1。
2)所有用于增量训练文档进行步骤1)的关键词调整完成后,将新增的训练文档数与原总训练文档数相加,作为新的总训练文档数N。
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算。
第二、支持向量的权重调整
关键词的学习完毕后,接下来在进行支持向量的优化调整前还需要进行原支持向量的权重调整。其原因在于:经过了关键词的学习后,关键词的倒排文档频率(idf)已发生了变化,而支持向量中的关键词权重是通过tf*idf方式获得,因此,也需要进行调整,具体方法是用新的关键词idf′替换旧的关键词idf:wj′=wj*idfj′idfj]]>
其中,wj代表关键词tj的权重。
第三、支持向量机优化训练
将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量进行合并,重新进行SVM的二次规划优化训练,以获得新的分类模型及新的支持向量集合,用于新的分类处理。
上述第一步中,根据增量训练文档及其关键词调整分类关键词及其特征,该特征包括关键词的倒排文档频率、训练文档总数,其中,相应的关键词倒排文档频率(idf)进行计算的方法可以为idfk=logNnk,]]>也可以采用其它不同形式的倒排文档频率计算方法,该计算式中,N为增加了新增量训练文档数的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。
该方法还可以通过对分类关键词进行一定形式的特征词提取后,用提取后的特征词进行学习调整及分类处理。
本发明的效果在于:通过本方法,使增量训练与一次性训练在分类关键词上保持了一致性,因此也就消除了因关键词的不同或关键词特性的不一致而造成的分类精度上的差异。根据采用本方法所进行的实验也表明:本发明所提出的方法在进行文本分类时,达到了与一次性训练相一致的分类精度,而优于不进行关键词学习的方法。附图说明图1融合关键词学习的SVM增量分类训练学习流程图;图2实验数据集1的实验结果比较示意图;图3实验数据集2的实验结果比较示意图。具体实施方式
下面以实施例的方式并结合附图对本发明作进一步的描述:
如图1所示,一种融合关键词学习的支持向量机文本分类增量训练学习方法,包括以下步骤:
第一、通过计算机及相关软件读入增量训练文档,并对文档进行文档切分处理。
第二、根据文档中的词频特性,提取文档的关键词。
第三、进行关键词的学习与调整,对每篇新的增量训练文档,根据新的增量文档中的关键词更新原关键词集合,步骤如下:1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键词对应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到关键词集合中,并将其相应的所出现的训练文档数置为1。2)所有用于增量训练文档进行步骤1)的关键词调整完成后,将新增的训练文档数与原总训练文档数相加,作为新的总训练文档数N。3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算,本实施例采取的计算形式为:idfk=logNnk,]]>其中,N为增加了新增量训练文档数后的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。当然,还可以采取其他的计算形式来计算。
第四、据更新后的新的关键词集合,生成新的增量训练文档向量。
第五、支持向量权重调整,从分类模型中读取原支持向量,并根据新的关键词的倒排文档频率(idf)进行支持向量权重的更新。
第六、将增量文档向量与进行了权重更新后的支持向量进行合并,作为新的增量训练文档向量集。
第七、在多类分类处理时,需要进行多类两类的转换;
第八、进行两类SVM支持向量优化训练,获得新的分类训练模型。本实施例中实验数据的来源为人民网2001年、2002年新闻分类语料,共一万多篇,分为体育、信息技术、军事、文娱、科教、环保、经济共七大类别,为实验的充分性,分别从中随机抽取2800篇和7700篇分别组成实验数据集1和数据集2;并且,数据在各个类别中均匀分布,通过随机抽取,每个集合内又分为训练集合与测试集合,同时,为了进行增量训练的需要,训练集合部分又随机分别等分成12和9部分,用于增量训练,具体划分情况见表1、表2。
表1实验数据集体育信息技术军事文娱科教环保 经济总计数据集1训练集300 300 300 300 300 300 3002800测试集100 100 100 100 100 100 100数据集2训练集900 900 900 900 900 900 9007700测试集200 200 200 200 200 200 200
表2增量实验训练数据分配初始训练集增量1增量2增量3增量4增量5增量6增量7增量8增量9增量10增量11数据集1175175175175175175175175175175175175数据集2700700700700700700700700700为了验证本发明所提出方法的在实际分类中的效果,分别将本文提出的有关键词学习的增量训练学习与无关键词学习的增量训练以及非增量的一次性训练进行实验比较,为表述方便,将本文提出的具有关键词学习的增量学习方法记为I-SVM-KL(Incremental SVM with Keyword Learning)方法,而无关键词学习的增量训练学习方法,即普通的增量训练方法记作I-SVM,非增量的一次性训练方法记作batch-SVM具体实验数据结果分别见表3、表4,图2、图3分别是上述实验结果的实验数据曲线,其中分类精度为各个类别精度的平均值。
表3数据集1的实验数据结果分类精度 I-SVM-KL I-SVM batch-SVM初始集 79.571 79.571 79.571增量1增量2增量3增量4增量5增量6增量7增量8增量9增量10增量11 85.429 85.714 86.571 87.429 87.429 88.143 88 88 88.143 88.714 88.714 84.429 85.714 86.286 87.143 87.429 88.143 87.571 86.714 87 87.571 87.286 85 85.571 86.429 87.857 87.571 88.286 88 87.857 88.429 88.429 88.714
表4数据集2的实验结果分类精度 I-SVM-KL I-SVM batch-SVM初始集增量1增量2增量3增量4增量5增量6增量7增量8 88.643 90.857 91.071 91.857 91.643 91.857 92.357 92.286 92.357 88.643 89.714 90.786 90.857 90.786 91.286 91.786 91.857 91.643 88.643 90.571 91.143 92.071 91.786 91.857 92.214 92.286 92.5由以上数据可以看出,本发明的效果在于:
1、本发明所提出的融合关键词学习与调整的增量学习方法确实进一步提高了增量训练的性能,大大优于不进行关键词学习而仅仅进行支持向量优化选择的方法。
2、本发明与以前研究者的研究结果相一致,即不进行关键词学习的增量训练学习方法,则只获得了略低的性能,并且,随着增量数据集的增加,其局限性逐渐明显。
3、从实验可以看出,在多数实验数据点,本发明所提出的方法与一次性训练获得了完全相同或基本相同的结果;并且,从二者的实验数据及性能曲线中可以明显看出,本文提出的改进的增量训练方法在分类精度上达到了与一次性训练相一致的效果,实现了一次性训练的增量式实现。