一种基于改进的SVM中文文本分类方法.pdf

上传人:1****2 文档编号:1301913 上传时间:2018-04-14 格式:PDF 页数:9 大小:445KB
返回 下载 相关 举报
摘要
申请专利号:

CN201710026144.8

申请日:

2017.01.13

公开号:

CN106844596A

公开日:

2017.06.13

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20170113|||公开

IPC分类号:

G06F17/30; G06F17/27

主分类号:

G06F17/30

申请人:

厦门天锐科技股份有限公司

发明人:

邱志斌; 向靓; 涂高元; 郭永兴; 陆云燕; 陈雅贤

地址:

361000 福建省厦门市厦门火炬高新区软件园创新大厦B区7FA单元

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明公开一种基于改进的SVM中文文本分类方法,包括如下步骤:步骤1,对中文文本预处理,得到特征项集合;步骤2,对特征项集合进行特征选择,得到精简后的特征项集合;步骤3,对精简后的特征项集合计算权重;步骤4,构建文本向量,将文本中的每个关键词语作为向量空间中的一个维度,而维度上的值是该关键词语的权重;步骤5,采用加权支持向量机构建分类器;步骤6,对待分类文本采用步骤1??4进行处理,得到文本向量,将文本向量输入步骤5构建的分类器,得到分类结果。此种分类方法可提高文本分类精度。

权利要求书

1.一种基于改进的SVM中文文本分类方法,其特征在于包括如下步骤:
步骤1,对中文文本预处理,得到特征项集合;
步骤2,对特征项集合进行特征选择,得到精简后的特征项集合;
步骤3,对精简后的特征项集合计算权重;
步骤4,构建文本向量,将文本中的每个关键词语作为向量空间中的一个维度,而维度
上的值是该关键词语的权重;
步骤5,采用加权支持向量机构建分类器;
步骤6,对待分类文本采用步骤1-4进行处理,得到文本向量,将文本向量输入步骤5构
建的分类器,得到分类结果。
2.如权利要求1所述的一种基于改进的SVM中文文本分类方法,其特征在于:所述步骤1
中,对中文文本预处理包括中文分词和去停用词两个过程。
3.如权利要求1所述的一种基于改进的SVM中文文本分类方法,其特征在于:所述步骤2
的具体内容是:构造一个评估函数对特征项集合中的所有特征项进行评估,然后按照评估
值降序排序,根据设定的阈值或特征项数目的要求选择前面的那些特征项,得到精简后的
特征项集合。
4.如权利要求3所述的一种基于改进的SVM中文文本分类方法,其特征在于:所述评估
函数采用开方检验函数,假设特征项t和类别Ci之间符合一阶自由度的x2分布,其计算公式
如下:
<mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <msup> <mrow> <mo>(</mo> <mi>A</mi> <mi>D</mi> <mo>-</mo> <mi>B</mi> <mi>C</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>C</mi> <mo>)</mo> <mo>(</mo> <mi>B</mi> <mo>+</mo> <mi>D</mi> <mo>)</mo> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>B</mi> <mo>)</mo> <mo>(</mo> <mi>C</mi> <mo>+</mo> <mi>D</mi> <mo>)</mo> </mrow> </mfrac> </mrow>
其中,N为所有的文本数,A为包含特征项t且属于类别Ci的文本数目,B为包含特征项t且
不属于类别Ci的文本数目,C为不包含特征项t且属于类别Ci的文本数目,D为不包含特征项t
且不属于类别Ci的文本数目;
然后,将每个特征项t的x2统计值从大到小排个序,选取前若干个作为精简后的特征项
集合。
5.如权利要求1所述的一种基于改进的SVM中文文本分类方法,其特征在于:所述步骤3
中,采用反比文档频率进行权重计算,权重IDF的计算公式是:
IDF=log(Dall/Dt)
其中,Dall为文章总数,Dt为该词出现的文章数量。
6.如权利要求1所述的一种基于改进的SVM中文文本分类方法,其特征在于:所述步骤5
的详细内容是:
设有训练样本集表示为其中,i=1,2,…,m,yi
{0,1,2,3,4,5,6,7,8,9},表示第i个文本的向量,yi为分类标记;基于加权支持向量机的
文本分类模型表示如下:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mi>min</mi> </mtd> <mtd> <mrow> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>C</mi> <mi>&sigma;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>S</mi> <mi>i</mi> </msub> <msub> <mi>&zeta;</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mi>T</mi> </msup> <mi>&Phi;</mi> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&zeta;</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,ζi≥0,i=1,2,…,l,l表示样本个数,为核函数;Si>0表示样本重要性权
值,如果0<Si<1表示样本不重要;Si=1表示一般重要;如果Si>1表示很重要;样本
类别权值为σ≥1,属于相同类别的样本具有相同的类别权值;
对权重IDF值的计算公式构造拉格朗日函数如下:
<mrow> <mi>&Phi;</mi> <mrow> <mo>(</mo> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mi>b</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>C</mi> <mi>&sigma;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msup> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mi>T</mi> </msup> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> </mrow> <mo>)</mo> <mo>-</mo> <mn>1</mn> <mo>+</mo> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> </mrow>
其中,αi,βi为拉格朗日乘子,i=1,2,…,l;
最终得到最优分类器:
<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msubsup> <mi>a</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mi>K</mi> <mo>(</mo> <mrow> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>,</mo> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msup> <mi>b</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> </mrow>
其中,为径向基
核函数。

说明书

一种基于改进的SVM中文文本分类方法

技术领域

本发明属于数据挖掘技术领域,特别涉及一种基于改进的SVM中文文本分类方法。

背景技术

文本分类方法是一种有指导的分类方法,它用一个已标好类别的文本数据集(即
训练集)来训练分类器,然后用训练好的分类器对未标识类别的文本进行分类,现有的分类
方法及缺陷是:

(1)贝叶斯方法和K邻近算法等传统的机器学习方法都是基于经验风险最小化而
实现,推广性能不够理想;

(2)传统的支持向量机(SVM,Support Vector Machine)方法是基于结构风险最小
化原理的一种新的模式识别方法,具有小样本,良好的推广性能,全局最优等特点,但是在
现实操作中,普遍存在样本不平衡的分类问题,此时,传统的支持向量机方法会存在较高的
误判率,有待改进。

发明内容

本发明的目的,在于提供一种基于改进的SVM中文文本分类方法,其可提高文本分
类精度。

为了达成上述目的,本发明的解决方案是:

一种基于改进的SVM中文文本分类方法,包括如下步骤:

步骤1,对中文文本预处理,得到特征项集合;

步骤2,对特征项集合进行特征选择,得到精简后的特征项集合;

步骤3,对精简后的特征项集合计算权重;

步骤4,构建文本向量,将文本中的每个关键词语作为向量空间中的一个维度,而
维度上的值是该关键词语的权重;

步骤5,采用加权支持向量机构建分类器;

步骤6,对待分类文本采用步骤1-4进行处理,得到文本向量,将文本向量输入步骤
5构建的分类器,得到分类结果。

上述步骤1中,对中文文本预处理包括中文分词和去停用词两个过程。

上述步骤2的具体内容是:构造一个评估函数对特征项集合中的所有特征项进行
评估,然后按照评估值降序排序,根据设定的阈值或特征项数目的要求选择前面的那些特
征项,得到精简后的特征项集合。

上述评估函数采用开方检验函数,假设特征项t和类别Ci之间符合一阶自由度的x2
分布,其计算公式如下:


其中,N为所有的文本数,A为包含特征项t且属于类别Ci的文本数目,B为包含特征
项t且不属于类别Ci的文本数目,C为不包含特征项t且属于类别Ci的文本数目,D为不包含特
征项t且不属于类别Ci的文本数目;

然后,将每个特征项t的x2统计值从大到小排个序,选取前若干个作为精简后的特
征项集合。

上述步骤3中,采用反比文档频率进行权重计算,权重IDF的计算公式是:

IDF=log(Dall/Dt)

其中,Dall为文章总数,Dt为该词出现的文章数量。

上述步骤5的详细内容是:

设有训练样本集表示为其中,i=1,2,…,m,yi
∈{0,1,2,3,4,5,6,7,8,9},表示第i个文本的向量,yi为分类标记;基于加权支持向量机
的文本分类模型表示如下:



其中,ζi≥0,i=1,2,…,l,l表示样本个数,为核函数;Si>0表示样本重要性
权值,如果0<Si<1表示样本不重要;Si=1表示一般重要;如果Si>1表示很重要;样
本类别权值为σ≥1,属于相同类别的样本具有相同的类别权值;

对权重IDF值的计算公式构造拉格朗日函数如下:


其中,αi,βi为拉格朗日乘子,i=1,2,…,l;

最终得到最优分类器:


其中,为径
向基核函数。

采用上述方案后,本发明通过在传统基于向量机的文本分类方法上增加了加权步
骤,能够有效改善目前多类中文文本分类中样本不平衡的情况,将改进后的加权支持向量
机文本分类方法应用于企事业单位的日常文件分类中,提高了分类精度,确保某些重要类
别文件(如财务类别文件)不外泄,在一定程度上保障了数据安全。

附图说明

图1是本发明训练阶段的流程图;

图2是本发明分类阶段的流程图。

具体实施方式

以下将结合附图,对本发明的技术方案进行详细说明。

本发明提供一种基于改进的SVM中文文本分类方法,文本分类是将文本文档与规
定好的类别进行匹配的过程,包含有训练和分类两个阶段,其中,训练阶段的流程图如图1
所示,分类阶段的流程图如图2所示,这两个阶段的处理除了最后一步不相同,其它的处理
步骤完全相同,最后一个步骤,在训练阶段是分类算法利用输入的数据进行分类器的构建,
在分类阶段是利用训练好的分类器进行分类处理;所述分类方法包括如下步骤:

(一)训练阶段

步骤1,中文文本预处理,包括中文分词和去停用词两个过程。

中文分词,指的是对一个用汉语表达的语句,分析其包含的有意义的词或词组,最
后把这些词从中文语句中提取出来,这样原来的中文语句变成一个个单独的词;

去停用词,一般是指去除文本中出现频率很高,但实际意义又不大的词,如常见的
“的”、“在”、“和”、“接着”之类,还有一些是使用过于频繁的单词,如“我”、“就”、“啊”和“吧”
等等,以及各种的标点符号,避免分词后有过多的干扰。

该步骤可以使用中科院的ICTCLAS(Institute of Computing Technology,
Chinese Lexical Analysis System)分词系统,ICTCLAS分词系统充分利用了词典匹配、统
计分析这两种分词方法的优点,既能发挥词典匹配法分词速度快、效率高的特点,又能利用
统计分析法结合上下文识别新词、消除歧义的优点。

步骤2,特征选择

文本预处理后以特征项集合的形式存在,此时特征项集合中的特征项数量非常的
多,需要对特征项集合进行降维处理,即特征选择。通过构造一个评估函数(本实施例采用
开方检验函数)对特征项集合中的所有特征项进行评估,然后按照评估值降序排序,根据设
定的阈值或特征项数目的要求选择前面的那些特征项。

开方检验:假设特征项t和类别Ci之间符合一阶自由度的x2分布,特征项t对于类别
Ci的x2统计值越高,特征项t和类别Ci的相关性越强,类别区分度越大,反之的类别区分度越
小,其计算公式如下:


其中,N为所有的文本数,A为包含特征项t且属于类别Ci的文本数目,B为包含特征
项t且不属于类别Ci的文本数目,C为不包含特征项t且属于类别Ci的文本数目,D为不包含特
征项t且不属于类别Ci的文本数目。

然后,将每个特征项t的x2统计值从大到小排个序,选取前若干个作为精简后的特
征项集合。

步骤3,权重计算

本发明采用反比文档频率(inverse document frequency,IDF)来进行权重计算,
某一特定词的IDF值,是一个词普遍重要性的度量,用总文件数除以包含该词的文章数量,
再将得到的商取对数(log)。IDF值的计算公式是:

IDF=log(Dall/Dt)

其中,Dall为文章总数,Dt为该词出现的文章数量。

步骤4,文本表示

为了便于计算机处理文本,采用向量空间模型将文本表示成计算机方便处理的形
式。在文本向量空间中,每个关键词语即为向量空间中的一个维度,而维度上的值是该关键
词语的权重,权重代表了该关键词语的重要程度。

步骤5,构建分类器

本发明中采用改进后的支持向量机方法——加权支持向量机作为构建分类器的
方法,用于解决样本不平衡情形下的分类问题。除了各类别样本数量的悬殊,类别的重要程
度不同也会导致样本的不平衡。例如:针对公司单位的文本的分类问题,“财务文件”的重要
程度显然比“运动会文件”重要程度高。在保证分类精度的同时,应尽量避免对重要类别的
误判。

步骤如下:

①加权支持向量机给训练样本加以类别权值,体现不同类别的重要性。通过增加
重要文件类别权重,可以有效地减少该类别中被错分的样本数。

②另外,考虑到每个文本的重要程度也不尽相同,即它们对分类的贡献也不相同,
通过给个文本加以样本权重,提高了每个文本被正确分类可能性,减少了重要文本被误分
类的可能性,从而提高了分类精度。

具体算法及推导如下:

设有训练样本集表示为其中,i=1,2,…,m,
yi∈{0,1,2,3,4,5,6,7,8,9},表示第i个文本的向量,yi为分类标记(本实施例中类别个
数为10),例如yi=1表示第i个文本属于第2个类别。基于加权支持向量机的文本分类模型
表示如下:



其中,ζi≥0,i=1,2,…,l,l表示样本个数,为核函数。Si>0表示样本重要性
权值,如果0<Si<1表示样本不重要;Si=1表示一般重要;如果Si>1表示很重要。样
本类别权值为σ≥1,属于相同类别的样本具有相同的类别权值。加权支持向量机与标准支
持向量机相比,最突出的优点是它模糊化了对样本错分的惩罚,即对每个样本的松弛变量
乘以样本对应的重要性权值和类别权值。

对IDF值的计算公式构造拉格朗日函数如下:


其中,αi,βi为拉格朗日乘子,i=1,2,…,l。

最终得到最优分类器:


其中,为径
向基核函数。

(二)分类阶段

对一个待分类的文本,首先利用训练阶段中的步骤1-4对文本进行处理,得到一个
相应的文本向量X,然后将X输入到步骤5所构建的分类器f()中,就能得到X所对应的分类
结果f(X),从而得到文本的类别。

以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是
按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围
之内。

一种基于改进的SVM中文文本分类方法.pdf_第1页
第1页 / 共9页
一种基于改进的SVM中文文本分类方法.pdf_第2页
第2页 / 共9页
一种基于改进的SVM中文文本分类方法.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《一种基于改进的SVM中文文本分类方法.pdf》由会员分享,可在线阅读,更多相关《一种基于改进的SVM中文文本分类方法.pdf(9页珍藏版)》请在专利查询网上搜索。

本发明公开一种基于改进的SVM中文文本分类方法,包括如下步骤:步骤1,对中文文本预处理,得到特征项集合;步骤2,对特征项集合进行特征选择,得到精简后的特征项集合;步骤3,对精简后的特征项集合计算权重;步骤4,构建文本向量,将文本中的每个关键词语作为向量空间中的一个维度,而维度上的值是该关键词语的权重;步骤5,采用加权支持向量机构建分类器;步骤6,对待分类文本采用步骤1?4进行处理,得到文本向量,将。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1