一种基于改进互信息和熵的文本分类特征提取方法.pdf

上传人:1520****312 文档编号:6182044 上传时间:2019-05-17 格式:PDF 页数:9 大小:499.85KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310129008.3

申请日:

2013.04.15

公开号:

CN103678274A

公开日:

2014.03.26

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/27申请公布日:20140326|||实质审查的生效IPC(主分类):G06F 17/27申请日:20130415|||公开

IPC分类号:

G06F17/27

主分类号:

G06F17/27

申请人:

南京邮电大学

发明人:

成卫青; 唐旋; 范恒亮; 杨庚; 梁胜

地址:

210003 江苏省南京市鼓楼区新模范马路66号

优先权:

专利代理机构:

南京知识律师事务所 32207

代理人:

汪旭东

PDF下载: PDF下载
内容摘要

本发明提供一种用于文本分类的特征提取方法,用于解决文本分类存在的准确率和召回率有待进一步提高的问题。本发明是一种策略性方法。考虑到统计热力学中熵的概念,熵用来描述体系的混乱程度,它在控制论、概率论、数论、天体物理、生命科学、信息论等领域都有重要应用。本发明认为熵同样可以用在文本分类中,可以将特征看成是一个事件,文本的类集就是一个系统,这样熵就可以衡量特征和类别的混乱程度,进而转化为它们之间关系的紧密程度。本发明在改进互信息的基础上,结合熵的概念,提出一种新的特征评估函数,并基于该函数进行特征提取,能选取更优特征子集,用以表示文本和构建分类器,以提高文本分类的准确率与召回率。

权利要求书

权利要求书
1.  一种基于改进互信息和熵的文本分类特征提取方法,其特征在于,包含如下步骤:
步骤1) 将数据集中的训练文本进行预处理,分词后去掉一些停用词,得到特征词,计算每个特征词在文档中出现的频度,统计全部的文档数,包含每个特征词的文档数,根据公式(5)计算每个特征的权重,并将文本表示为向量:                                                ,公式(5)为:,其中为特征(词条)ti在文档d中的频度,N为全部的文档数量,为包含词条ti的文档数,为一常量,其值通常取0.01,为反文档频率,分母是归一化因子;
步骤2) 基于训练文本集,利用特征评估函数TFMIIE对每个特征词t进行评分;
步骤21) 计算含有特征t的文档数,及其与整个训练集文档数的比值;
步骤22) 对每个类别ci,分别计算训练文本集中ci 类文档数、含有特征tci类文档数与整个训练集文档数的比值,计算训练文本集中含有特征tci类文档数与含有特征t 的文档数的比值;
步骤23) 按公式(8)计算特征词t的评分,公式(8)为:,其中,t为特征词,简称特征,C为训练文本的类别集合,m是文本分类类别的个数,, p(ci)、p(t)、p(tci)分别是训练文本集中ci 类文档数、含有特征t 的文档数、含有特征tci类文档数与整个训练集文档数的比值,是训练文本集中含有特征tci类文档数与含有特征t 的文档数的比值;
步骤3) 按照评分值从高到低的顺序对特征词进行排序;
步骤4) 根据需要,选取前若干个特征词组成特征子集,用以构建文本的向量和文本分类器;根据得到的特征子集,压缩所有训练集文本向量的维数,并将特征权重再进行归一化。

2.  根据权利要求1所述的一种基于改进互信息和熵的文本分类特征提取方法,其特征在于:该方法将改进的互信息和熵结合起来,用于文本分类的特征评估函数。

3.  一种基于改进互信息和熵的文本分类特征提取方法,其特征在于:该方法基于训练文本集,利用特征评估函数TFMIIE对每个特征词t进行评分;
计算含有特征t的文档数,及其与整个训练集文档数的比值;
对每个类别ci,分别计算训练文本集中ci 类文档数、含有特征tci类文档数与整个训练集文档数的比值,计算训练文本集中含有特征tci类文档数与含有特征t 的文档数的比值;
按公式(8)计算特征词t的评分,公式(8)为:,其中,t为特征词,简称特征,C为训练文本的类别集合,m是文本分类类别的个数,, p(ci)、p(t)、p(tci)分别是训练文本集中ci 类文档数、含有特征t 的文档数、含有特征tci类文档数与整个训练集文档数的比值,是训练文本集中含有特征tci类文档数与含有特征t 的文档数的比值。

说明书

说明书一种基于改进互信息和熵的文本分类特征提取方法
技术领域
本发明涉及文本挖掘技术领域,特别涉及一种基于改进互信息和熵的文本分类特征提取方法。
背景技术
随着计算机技术的发展以及网络的普及,我们处在一个信息化的时代,网络文本的数量在急剧增长,以前人工方法筛选文本进行分类的方法已经不适合了,迫切地需要一种快速高效的收集资料并整理所需信息的技术,这样就产生了文本分类技术。文本分类是指在给定分类体系下,根据文本的内容将其分到相应预定义类别中的过程。文本分类过程实际上是对文本的模式特征进行识别,其中的关键技术包括文本预处理、特征提取、分类模型等。文本特征提取是文本分类的基本步骤,过大的文本空间将导致此后文本分类过程耗费更多的时间和空间资源,因此从原始的特征集中选取最具代表性的特征是十分必要的。
文本分类中的特征选择一般是利用评估函数对原始的特征进行评估并计算得分,并对得分的大小进行排序,选取一定数目的高分值特征组成特征子集,以此来代替原特征。目前常见的几种特征评估函数是来自信息论与统计学原理的,有信息增益、互信息、期望交叉熵、                                                统计、文本证据权等。虽然互信息是一种常用的特征评估函数,在实际的应用中也很广泛,但其文本的分类准确率和召回率一直比较低,本发明就是在互信息的改进基础上提出一种新的特征评估函数,提高文本分类的准确率和召回率。
互信息是信息论中的一种信息度量,它度量两个事件间的相关性。两个事件的互信息定义为:
                  (1)
其中的是联合熵,定义为:
                  (2)
在特征提取领域中,特征和类别的互信息体现了特征和类别的相关程度。特征和类别的互信息MI可以表示:
                        (3)
其中p(t)表示特征t在整个训练文本集中出现的概率,表示含有特征tci类文档数与整个训练集文档数的比值。考虑到分类类别有m个,为了得到特征t与各个类别的平均关联程度,可以计算特征的平均互信息:
                  (4)
互信息的一个明显的不足是没有考虑到单词发生的频度,它经常倾向于选取稀有词。分析公式(3),当时,如果,那么有,低频词的互信息值反而大,这种情况下,我们提取的特征中含有很多的低频稀有词,会引起过学习。虽然低频词会含有类别信息,但是在语料库达到一定规模时,低频词多数为一些生僻词,对分类准确性并没有很大的贡献。
因此,针对互信息没有考虑到单词频度的不足,本发明在改进互信息公式的基础上结合熵的概念,提出了一种文本分类中的特征提取方法,能很好地解决以上的这些问题。
发明内容
本发明目的在于提供一种基于改进互信息和熵的文本分类特征提取方法,用于解决文本分类存在的准确率和召回率有待进一步提高的问题。
本发明解决其技术问题所采用的技术方案是:本发明是一种策略性方法。考虑到统计热力学中熵的概念,熵用来描述体系的混乱程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,后来香农成功地将熵的概念引入到信息论中。本发明认为熵同样可以用在文本分类中,可以将特征看成是一个事件,文本的类集就是一个系统,这样熵就可以衡量特征和类别的混乱程度,进而转化为它们之间关系的紧密程度。本发明在改进互信息的基础上,结合熵的概念,提出一种新的特征评估函数,并基于该函数进行特征提取,以提高文本分类的准确率和召回率。
中文文本的内容是人类使用的而自然语言,计算机不能理解,所以必须将文本进行预处理,表示为能被处理的模式。现在最常用的是向量空间模型,对文本进行分词,将文本看成是由一个个词条组成,我们给每个词条赋予一定的权值,将词条和权值组成对,将文本表示成词条和权值的向量模型。
本发明中使用如下的定义和计算公式:
(1)词条的权值计算通常采用的是词频—反文档频率(TF-IDF)。TF-IDF(term frequency – inverse document frequency)是一种统计方法,用以评估一个词对于一个文档集或一个语料库中的其中一份文档的重要程度。主要考虑两个因素:词语在文档中出现的频度(TF)、反文档频度(IDF)。如果某个词语在一个文档中的频度(TF)很高而在其他文档中很少出现,则认为该词语具有好的分类能力。TF-IDF权重计算公式如下:
                 (5)
其中为特征(词条)ti在文档d中的频度,N为全部的文档数量,为包含词条ti的文档数,为一常量,其值通常取0.01,为反文档频率,分母是归一化因子。
(2)假设代表的是一组随机事件的集合,是xi出现的概率,而且。信息熵定义如下:
            (6)
(3)在文本分类中,训练文本的分类集为,m是文本分类类别的个数。特征t在类别C中的信息熵为: 
                (7)
这里的是特征t出现在类别的数目与特征t出现在训练集的数目的比值。如果把特征t看成一个事件,那么类集C就是一个系统,就是特征t出现时系统C的条件熵,它描述的是文本分类的平均不确定性,特征熵愈小,系统的确定性愈大,对文本分类的影响也就愈大。
在改进互信息的基础上结合熵的原理,本发明提出一个新的用于文本分类特征提取的特征评估函数TFMIIE
      (8)
其中,t为特征词,简称特征,C为训练文本的类别集合,m是文本分类类别的个数,, p(ci)、p(t)、p(tci)分别是训练文本集中ci 类文档数、含有特征t 的文档数、含有特征tci类文档数与整个训练集文档数的比值,是训练文本集中含有特征tci类文档数与含有特征t 的文档数的比值。
采用公式(8)选择特征,选出的特征与文本类别紧密相关,同时特征间的冗余信息更少,因此,文本的分类准确率和召回率会得到提高。基于特征评估函数的文本分类特征提取包括如图1所示的过程。
方法流程:
本发明提出一种基于改进互信息和熵的文本分类特征提取方法,包括如下步骤:
步骤1) 将数据集中的训练文本进行预处理,分词后去掉一些停用词,得到特征词,计算每个特征词在文档中出现的频度,统计全部的文档数,包含每个特征词的文档数,根据公式(5)计算每个特征的权重,并将文本表示为向量:,公式(5)为:,其中为特征(词条)ti在文档d中的频度,N为全部的文档数量,为包含词条ti的文档数,为一常量,其值通常取0.01,为反文档频率,分母是归一化因子;
步骤2) 基于训练文本集,利用特征评估函数TFMIIE对每个特征词t进行评分;
步骤21) 计算含有特征t的文档数,及其与整个训练集文档数的比值;
步骤22) 对每个类别ci,分别计算训练文本集中ci 类文档数、含有特征tci类文档数与整个训练集文档数的比值,计算训练文本集中含有特征tci类文档数与含有特征t 的文档数的比值;
步骤23) 按公式(8)计算特征词t的评分,公式(8)为:,其中,t为特征词,简称特征,C为训练文本的类别集合,m是文本分类类别的个数,, p(ci)、p(t)、p(tci)分别是训练文本集中ci 类文档数、含有特征t 的文档数、含有特征tci类文档数与整个训练集文档数的比值,是训练文本集中含有特征tci类文档数与含有特征t 的文档数的比值;
步骤3) 按照评分值从高到低的顺序对特征词进行排序;
步骤4) 根据需要,选取前若干个特征词组成特征子集,用以构建文本的向量和文本分类器;根据得到的特征子集,压缩所有训练集文本向量的维数,并将特征权重再进行归一化。
本发明有益效果:
1、本发明将特征词的词频信息加入到原始互信息公式中,解决了互信息特征评估函数倾向于选取稀有词的问题。
2、本发明用熵来表示特征词与分类集的混乱程度,将改进的互信息和熵相结合用于文本分类的特征评分,从而能够选取更优的特征构成特征子集,进而更准确地表示文本内容,且经过分类器后,可以得到更准确的分类效果,提高了文本分类的准确率和召回率。
附图说明
图1本发明基于特征评估函数的文本分类特征提取过程图。
具体实施方式
为了方便描述,我们假定有如下应用实例:现在每天网络上的新闻铺天盖地地出现,我们想确定一个网络新闻文档主要讲述的是哪方面的内容,也即确定文档的类别。文档分类过程中可以应用本发明提出的特征提取方法提取特征及确定文本向量,之后可以应用分类器进行文本分类。
本发明的具体实施方案为:
(1)    从互联网上人工地找到一定数目的各个类别的文章作为文本分类系统的训练数据集;
(2)    对这些文章进行预处理,分词后去掉停用词,得到特征词,统计词的频度和反文档频率,根据TF-IDF计算特征词的权值,将每篇文章表示为以<特征词,权重>二元组作为分量的多维向量;
(3)    利用本发明提出的文本特征提取评估函数对所有特征词进行评分;
(4)    将特征词按照评分值进行排序;根据需要选取前若干个特征组成特征子集,用以构建文本的向量和文本分类器,达到简化文本向量表示和提高文本分类准确率和召回率的作用;
(5)    例如,可以根据特征子集,选取合适的K值,使用KNN(K近邻)分类方法构建文本分类器;
(6)    将待分类的网络新闻文本分词后去掉停用词,得到特征词,再将属于特征子集的特征(词条)在文本中的频度作为特征词的权值,并将权值归一化,将文本表示为降维后的以<特征词,权重>为分量的文本向量;
(7)    利用构建好的分类器对待分类的文本进行分类,过程如下:
71) 计算出在训练集中与待分类文本最相似的K个文本,即是找出待分类文本的K个最近邻居,文本的相似性的计算公式为:

72) 对从上步得到的K个文本邻居,依次计算属于训练集中每个类别的权重,计算公式如下:
 
其中 为相似性函数;
73) 比较每类所得到的权重,选取权重最大的类别,作为待分类文本的类别。

一种基于改进互信息和熵的文本分类特征提取方法.pdf_第1页
第1页 / 共9页
一种基于改进互信息和熵的文本分类特征提取方法.pdf_第2页
第2页 / 共9页
一种基于改进互信息和熵的文本分类特征提取方法.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《一种基于改进互信息和熵的文本分类特征提取方法.pdf》由会员分享,可在线阅读,更多相关《一种基于改进互信息和熵的文本分类特征提取方法.pdf(9页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103678274 A (43)申请公布日 2014.03.26 CN 103678274 A (21)申请号 201310129008.3 (22)申请日 2013.04.15 G06F 17/27(2006.01) (71)申请人 南京邮电大学 地址 210003 江苏省南京市鼓楼区新模范马 路 66 号 (72)发明人 成卫青 唐旋 范恒亮 杨庚 梁胜 (74)专利代理机构 南京知识律师事务所 32207 代理人 汪旭东 (54) 发明名称 一种基于改进互信息和熵的文本分类特征提 取方法 (57) 摘要 本发明提供一种用于文本分类的特征提取方 法, 用于解决文本。

2、分类存在的准确率和召回率有 待进一步提高的问题。本发明是一种策略性方 法。 考虑到统计热力学中熵的概念, 熵用来描述体 系的混乱程度, 它在控制论、 概率论、 数论、 天体物 理、 生命科学、 信息论等领域都有重要应用。本发 明认为熵同样可以用在文本分类中, 可以将特征 看成是一个事件, 文本的类集就是一个系统, 这样 熵就可以衡量特征和类别的混乱程度, 进而转化 为它们之间关系的紧密程度。本发明在改进互信 息的基础上, 结合熵的概念, 提出一种新的特征评 估函数, 并基于该函数进行特征提取, 能选取更优 特征子集, 用以表示文本和构建分类器, 以提高文 本分类的准确率与召回率。 (51)In。

3、t.Cl. 权利要求书 2 页 说明书 5 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书5页 附图1页 (10)申请公布号 CN 103678274 A CN 103678274 A 1/2 页 2 1. 一种基于改进互信息和熵的文本分类特征提取方法, 其特征在于, 包含如下步骤 : 步骤 1) 将数据集中的训练文本进行预处理, 分词后去掉一些停用词, 得到特征词, 计 算每个特征词在文档中出现的频度, 统计全部的文档数, 包含每个特征词的文档数, 根据公 式 (5) 计算每个特征的权重, 并将文本表示为向量 : , 公 式 (5) 为 。

4、:, 其中为特征 ( 词条 )ti在文档d中的频度,N为全部的文档数量,为包含词 条ti的文档数, 为一常量, 其值通常取 0.01,为反文档频率, 分母是归一化 因子 ; 步骤 2) 基于训练文本集, 利用特征评估函数 TFMIIE 对每个特征词 t 进行评分 ; 步骤 21) 计算含有特征t的文档数, 及其与整个训练集文档数的比值 ; 步骤22) 对每个类别ci, 分别计算训练文本集中ci 类文档数、 含有特征t的ci类文档 数与整个训练集文档数的比值, 计算训练文本集中含有特征t的ci类文档数与含有特征t 的文档数的比值 ; 步骤 23) 按公式 (8) 计算特征词t的评分, 公式 (8。

5、) 为 : , 其中,t为特征词, 简称特征,C为训 练文本的类别集合,m是文本分类类别的个数, p(ci)、p(t)、p(t, ci) 分 别是训练文本集中ci 类文档数、 含有特征t 的文档数、 含有特征t的ci类文档数与整个训 练集文档数的比值,是训练文本集中含有特征t的ci类文档数与含有特征t 的文 档数的比值 ; 步骤 3) 按照评分值从高到低的顺序对特征词进行排序 ; 步骤 4) 根据需要, 选取前若干个特征词组成特征子集, 用以构建文本的向量和文本 分类器 ; 根据得到的特征子集, 压缩所有训练集文本向量的维数, 并将特征权重再进行归一 化。 2. 根据权利要求 1 所述的一种基。

6、于改进互信息和熵的文本分类特征提取方法, 其特征 在于 : 该方法将改进的互信息和熵结合起来, 用于文本分类的特征评估函数。 3. 一种基于改进互信息和熵的文本分类特征提取方法, 其特征在于 : 该方法基于训练 文本集, 利用特征评估函数 TFMIIE 对每个特征词 t 进行评分 ; 计算含有特征t的文档数, 及其与整个训练集文档数的比值 ; 对每个类别ci, 分别计算训练文本集中ci 类文档数、 含有特征t的ci类文档数与整个 训练集文档数的比值, 计算训练文本集中含有特征t的ci类文档数与含有特征t 的文档数 的比值 ; 按公式 (8) 计算特征词t的评分, 公式 (8) 为 : 权 利 。

7、要 求 书 CN 103678274 A 2 2/2 页 3 , 其中,t为特征词, 简称特征, C为训练文本的类别集合,m是文本分类类别的个数, p(ci)、p(t)、p(t, ci) 分别是训练文本集中ci 类文档数、 含有特征t 的文档数、 含有特征t的ci类文档数与 整个训练集文档数的比值,是训练文本集中含有特征t的ci类文档数与含有特征t 的文档数的比值。 权 利 要 求 书 CN 103678274 A 3 1/5 页 4 一种基于改进互信息和熵的文本分类特征提取方法 技术领域 0001 本发明涉及文本挖掘技术领域, 特别涉及一种基于改进互信息和熵的文本分类特 征提取方法。 背景技。

8、术 0002 随着计算机技术的发展以及网络的普及, 我们处在一个信息化的时代, 网络文本 的数量在急剧增长, 以前人工方法筛选文本进行分类的方法已经不适合了, 迫切地需要一 种快速高效的收集资料并整理所需信息的技术, 这样就产生了文本分类技术。文本分类是 指在给定分类体系下, 根据文本的内容将其分到相应预定义类别中的过程。文本分类过程 实际上是对文本的模式特征进行识别, 其中的关键技术包括文本预处理、 特征提取、 分类模 型等。文本特征提取是文本分类的基本步骤, 过大的文本空间将导致此后文本分类过程耗 费更多的时间和空间资源, 因此从原始的特征集中选取最具代表性的特征是十分必要的。 0003 。

9、文本分类中的特征选择一般是利用评估函数对原始的特征进行评估并计算得分, 并对得分的大小进行排序, 选取一定数目的高分值特征组成特征子集, 以此来代替原特征。 目前常见的几种特征评估函数是来自信息论与统计学原理的, 有信息增益、 互信息、 期望交 叉熵、统计、 文本证据权等。 虽然互信息是一种常用的特征评估函数, 在实际的应用中也 很广泛, 但其文本的分类准确率和召回率一直比较低, 本发明就是在互信息的改进基础上 提出一种新的特征评估函数, 提高文本分类的准确率和召回率。 0004 互信息是信息论中的一种信息度量, 它度量两个事件间的相关性。两个事件的互 信息定义为 : (1) 其中的是联合熵,。

10、 定义为 : (2) 在特征提取领域中, 特征 和类别的互信息体现了特征和类别的相关程度。特征 和 类别的互信息 MI 可以表示 : (3) 其中p(t)表示特征t在整个训练文本集中出现的概率,表示含有特征t的ci类 文档数与整个训练集文档数的比值。考虑到分类类别有m个, 为了得到特征t与各个类别 的平均关联程度, 可以计算特征的平均互信息 : (4) 互信息的一个明显的不足是没有考虑到单词发生的频度, 它经常倾向于选取稀有词。 说 明 书 CN 103678274 A 4 2/5 页 5 分析公式 (3) , 当时, 如果, 那么有, 低频 词的互信息值反而大, 这种情况下, 我们提取的特征。

11、中含有很多的低频稀有词, 会引起过学 习。虽然低频词会含有类别信息, 但是在语料库达到一定规模时, 低频词多数为一些生僻 词, 对分类准确性并没有很大的贡献。 0005 因此, 针对互信息没有考虑到单词频度的不足, 本发明在改进互信息公式的基础 上结合熵的概念, 提出了一种文本分类中的特征提取方法, 能很好地解决以上的这些问题。 发明内容 0006 本发明目的在于提供一种基于改进互信息和熵的文本分类特征提取方法, 用于解 决文本分类存在的准确率和召回率有待进一步提高的问题。 0007 本发明解决其技术问题所采用的技术方案是 : 本发明是一种策略性方法。考虑 到统计热力学中熵的概念, 熵用来描述。

12、体系的混乱程度, 它在控制论、 概率论、 数论、 天体物 理、 生命科学等领域都有重要应用, 后来香农成功地将熵的概念引入到信息论中。 本发明认 为熵同样可以用在文本分类中, 可以将特征看成是一个事件, 文本的类集就是一个系统, 这 样熵就可以衡量特征和类别的混乱程度, 进而转化为它们之间关系的紧密程度。本发明在 改进互信息的基础上, 结合熵的概念, 提出一种新的特征评估函数, 并基于该函数进行特征 提取, 以提高文本分类的准确率和召回率。 0008 中文文本的内容是人类使用的而自然语言, 计算机不能理解, 所以必须将文本进 行预处理, 表示为能被处理的模式。现在最常用的是向量空间模型, 对文。

13、本进行分词, 将文 本看成是由一个个词条组成, 我们给每个词条赋予一定的权值, 将词条和权值组成对, 将文 本表示成词条和权值的向量模型。 0009 本发明中使用如下的定义和计算公式 : (1)词条的权值计算通常采用的是词频反文档频率 (TF-IDF) 。TF-IDF(term frequency inverse document frequency) 是一种统计方法, 用以评估一个词对于一个 文档集或一个语料库中的其中一份文档的重要程度。主要考虑两个因素 : 词语在文档中出 现的频度 (TF) 、 反文档频度 (IDF) 。如果某个词语在一个文档中的频度 (TF) 很高而在其他 文档中很少出。

14、现, 则认为该词语具有好的分类能力。TF-IDF 权重计算公式如下 : (5) 其中为特征 ( 词条 )ti在文档d中的频度,N为全部的文档数量,为包含词 条ti的文档数, 为一常量, 其值通常取 0.01,为反文档频率, 分母是归一化 因子。 0010 (2) 假设代表的是一组随机事件的集合,是xi 出现的概率, 而且。信息熵定义如下 : 说 明 书 CN 103678274 A 5 3/5 页 6 (6) (3) 在文本分类中, 训练文本的分类集为,m是文本分类类别的个数。 特征t在类别C中的信息熵为 : (7) 这里的是特征t出现在类别的数目与特征t出现在训练集的数目的比值。 如 果把特。

15、征t看成一个事件, 那么类集C就是一个系统,就是特征t出现时系统C的 条件熵, 它描述的是文本分类的平均不确定性, 特征熵愈小, 系统的确定性愈大, 对文本分 类的影响也就愈大。 0011 在改进互信息的基础上结合熵的原理, 本发明提出一个新的用于文本分类特征提 取的特征评估函数TFMIIE: (8) 其中,t为特征词, 简称特征,C为训练文本的类别集合,m是文本分类类别的个数, , p(ci)、p(t)、p(t, ci)分别是训练文本集中ci 类文档数、 含有特征t 的 文档数、 含有特征t的ci类文档数与整个训练集文档数的比值,是训练文本集中含 有特征t的ci类文档数与含有特征t 的文档数。

16、的比值。 0012 采用公式 (8) 选择特征, 选出的特征与文本类别紧密相关, 同时特征间的冗余信息 更少, 因此, 文本的分类准确率和召回率会得到提高。 基于特征评估函数的文本分类特征提 取包括如图 1 所示的过程。 0013 方法流程 : 本发明提出一种基于改进互信息和熵的文本分类特征提取方法, 包括如下步骤 : 步骤 1) 将数据集中的训练文本进行预处理, 分词后去掉一些停用词, 得到特征词, 计 算每个特征词在文档中出现的频度, 统计全部的文档数, 包含每个特征词的文档数, 根据公 式 (5) 计算每个特征的权重, 并将文本表示为向量 :, 公式 (5) 为 :, 其中 为特征 ( 。

17、词条 )ti在文 档d中的频度,N为全部的文档数量,为包含词条ti的文档数, 为一常量, 其值通常取 0.01,为反文档频率, 分母是归一化因子 ; 步骤 2) 基于训练文本集, 利用特征评估函数 TFMIIE 对每个特征词t进行评分 ; 步骤 21) 计算含有特征t的文档数, 及其与整个训练集文档数的比值 ; 说 明 书 CN 103678274 A 6 4/5 页 7 步骤22) 对每个类别ci, 分别计算训练文本集中ci 类文档数、 含有特征t的ci类文档 数与整个训练集文档数的比值, 计算训练文本集中含有特征t的ci类文档数与含有特征t 的文档数的比值 ; 步骤 23) 按公式 (8)。

18、 计算特征词t的评分, 公式 (8) 为 : , 其中,t为特征词, 简称特征,C为训 练文本的类别集合,m是文本分类类别的个数, p(ci)、p(t)、p(t, ci) 分 别是训练文本集中ci 类文档数、 含有特征t 的文档数、 含有特征t的ci类文档数与整个训 练集文档数的比值,是训练文本集中含有特征t的ci类文档数与含有特征t 的文 档数的比值 ; 步骤 3) 按照评分值从高到低的顺序对特征词进行排序 ; 步骤 4) 根据需要, 选取前若干个特征词组成特征子集, 用以构建文本的向量和文本 分类器 ; 根据得到的特征子集, 压缩所有训练集文本向量的维数, 并将特征权重再进行归一 化。 0。

19、014 本发明有益效果 : 1、 本发明将特征词的词频信息加入到原始互信息公式中, 解决了互信息特征评估函数 倾向于选取稀有词的问题。 0015 2、 本发明用熵来表示特征词与分类集的混乱程度, 将改进的互信息和熵相结合用 于文本分类的特征评分, 从而能够选取更优的特征构成特征子集, 进而更准确地表示文本 内容, 且经过分类器后, 可以得到更准确的分类效果, 提高了文本分类的准确率和召回率。 附图说明 0016 图 1 本发明基于特征评估函数的文本分类特征提取过程图。 具体实施方式 0017 为了方便描述, 我们假定有如下应用实例 : 现在每天网络上的新闻铺天盖地地出 现, 我们想确定一个网络。

20、新闻文档主要讲述的是哪方面的内容, 也即确定文档的类别。 文档 分类过程中可以应用本发明提出的特征提取方法提取特征及确定文本向量, 之后可以应用 分类器进行文本分类。 0018 本发明的具体实施方案为 : (1) 从互联网上人工地找到一定数目的各个类别的文章作为文本分类系统的训练数据 集 ; (2) 对这些文章进行预处理, 分词后去掉停用词, 得到特征词, 统计词的频度和反文档 频率, 根据 TF-IDF 计算特征词的权值, 将每篇文章表示为以 二元组作为 分量的多维向量 ; (3) 利用本发明提出的文本特征提取评估函数对所有特征词进行评分 ; (4) 将特征词按照评分值进行排序 ; 根据需要。

21、选取前若干个特征组成特征子集, 用以构 建文本的向量和文本分类器, 达到简化文本向量表示和提高文本分类准确率和召回率的作 说 明 书 CN 103678274 A 7 5/5 页 8 用 ; (5) 例如, 可以根据特征子集, 选取合适的 K 值, 使用 KNN(K 近邻) 分类方法构建文本 分类器 ; (6) 将待分类的网络新闻文本分词后去掉停用词, 得到特征词, 再将属于特征子集的特 征(词条)在文本中的频度作为特征词的权值, 并将权值归一化, 将文本表示为降维后的以 为分量的文本向量 ; (7) 利用构建好的分类器对待分类的文本进行分类, 过程如下 : 71) 计算出在训练集中与待分类文本最相似的 K 个文本, 即是找出待分类文本的 K 个 最近邻居, 文本的相似性的计算公式为 : 72) 对从上步得到的 K 个文本邻居, 依次计算属于训练集中每个类别的权重, 计算公 式如下 : 其中 为相似性函数 ; 73) 比较每类所得到的权重, 选取权重最大的类别, 作为待分类文本的类别。 说 明 书 CN 103678274 A 8 1/1 页 9 图 1 说 明 书 附 图 CN 103678274 A 9 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1