一种特征提取方法及装置.pdf

上传人:b*** 文档编号:1306010 上传时间:2018-04-14 格式:PDF 页数:14 大小:960.60KB
返回 下载 相关 举报
摘要
申请专利号:

CN201611192135.8

申请日:

2016.12.21

公开号:

CN106708803A

公开日:

2017.05.24

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/27申请日:20161221|||公开

IPC分类号:

G06F17/27

主分类号:

G06F17/27

申请人:

东软集团股份有限公司

发明人:

董超

地址:

110179 辽宁省沈阳市浑南新区新秀街2号

优先权:

专利代理机构:

北京集佳知识产权代理有限公司 11227

代理人:

李金;王宝筠

PDF下载: PDF下载
内容摘要

本发明提供一种特征提取方法及装置,可以从待处理文本中提取各个词,并从待处理文本包含的各个主题中选取至少一个目标主题,根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的相关度,选取与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作为待处理文本的特征,使得选取的特征与待处理文本的主要内容相关,也就是说在提取待处理文本的特征时,不仅考虑词自身的重要性还考虑词与待处理文本的主要内容的相关度,从而从提取的词中过滤掉与主要内容无关的词,提高特征提取的准确度。

权利要求书

1.一种特征提取方法,其特征在于,所述方法:
从待处理文本中提取各个词;
获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;
计算所述各个词与各个目标主题的相关度;
根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关
度;
根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所
述待处理文本的特征。
2.根据权利要求1所述的方法,其特征在于,所述计算所述各个词与各个目标主题的相
关度,包括:
计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;
计算所述各个目标主题在所述待处理文本中出现的频率;
计算所述各个词在所述待处理文本中出现的频率;
计算所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文
本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的
概率,计算所述各个词与各个目标主题的相关度。
3.根据权利要求2所述的方法,其特征在于,所述计算所述各个目标主题在所述待处理
文本中出现的频率,包括:
计算所述待处理文本出现的频率;
根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述
各个目标主题在所述待处理文本中出现的频率。
4.根据权利要求2所述的方法,其特征在于,所述计算所述各个词在所述待处理文本中
出现的频率,包括:
计算所述各个词的词频和从所述待处理文本中提取的词的总数;
根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所
述待处理文本中出现的频率。
5.根据权利要求1所述的方法,其特征在于,所述从所包含的各个主题中选取至少一个
目标主题,包括:
根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排
序;
选取排序在其他主题前的预设数量的主题分别作为目标主题。
6.一种特征提取装置,其特征在于,所述装置:
提取单元,用于从待处理文本中提取各个词;
主题获取单元,用于获取所述待处理文本包含的各个主题,并从所述各个主题中选取
至少一个目标主题;
主题相关度计算单元,用于计算所述各个词与各个目标主题的相关度;
文本相关度计算单元,用于根据所述各个词与各个目标主题的相关度,得到所述各个
词与所述待处理文本的相关度;
特征选取单元,用于根据所述各个词与所述待处理文本的相关度,从所述各个词中选
取至少一个词作为所述待处理文本的特征。
7.根据权利要求6所述的装置,其特征在于,所述主题相关度计算单元,包括:
第一计算子单元,用于计算各个目标主题中各个词的概率和所述待处理文本中各个目
标主题的概率;
第二计算子单元,用于计算所述各个目标主题在所述待处理文本中出现的频率;
第三计算子单元,用于计算所述各个词在所述待处理文本中出现的频率;
相关度计算子单元,用于根据所述各个目标主题在所述待处理文本中出现的频率、所
述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处
理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。
8.根据权利要求7所述的装置,其特征在于,所述第二计算子单元,具体用于计算所述
待处理文本出现的频率,并根据所述待处理文本中各个目标主题的概率和所述待处理文本
出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。
9.根据权利要求7所述的装置,其特征在于,所述第三计算子单元,具体用于计算所述
各个词的词频和从所述待处理文本中提取的词的总数,并根据所述各个词的词频和从所述
待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。
10.根据权利要求6所述的装置,其特征在于,所述主题获取单元,具体用于根据所述待
处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,并选取排序
在其他主题前的预设数量的主题分别作为目标主题。

说明书

一种特征提取方法及装置

技术领域

本发明属于文本挖掘技术领域,更具体的说,尤其涉及一种特征提取方法及装置。

背景技术

随着互联网的日益普及,文本信息迅速膨胀。例如,在Internet(网络)上每天有数
十万的网页更新,数百万新的网页加入,使得Internet上的信息丰富而又复杂。如何有效地
组织和管理这些信息,并快速、准确、全面地从众多文本信息中挖掘出用户所需要的信息是
当前文本挖掘领域面临的一大挑战。

在文本挖掘领域中,文本特征提取是文本挖掘领域中的关键环节,而词作为自然
语言的理解单元,会作为文本特征被提取出来。目前文本特征的提取方式是基于词频的方
式,即根据词在文本中出现的频率来提取,这种提取方式仅考虑文本中单个词的重要性,从
而降低特征提取的准确度。

发明内容

有鉴于此,本发明的目的在于提供一种特征提取方法及装置,用于提高特征提取
的准确度。具体的,技术方案如下:

本发明提供一种特征提取方法,所述方法:

从待处理文本中提取各个词;

获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主
题;

计算所述各个词与各个目标主题的相关度;

根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的
相关度;

根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作
为所述待处理文本的特征。

优选地,所述计算所述各个词与各个目标主题的相关度,包括:

计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;

计算所述各个目标主题在所述待处理文本中出现的频率;

计算所述各个词在所述待处理文本中出现的频率;

根据所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处
理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主
题的概率,计算所述各个词与各个目标主题的相关度。

优选地,所述计算所述各个目标主题在所述待处理文本中出现的频率,包括:

计算所述待处理文本出现的频率;

根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算
所述各个目标主题在所述待处理文本中出现的频率。

优选地,所述计算所述各个词在所述待处理文本中出现的频率,包括:

计算所述各个词的词频和从所述待处理文本中提取的词的总数;

根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词
在所述待处理文本中出现的频率。

优选地,所述从所包含的各个主题中选取至少一个目标主题,包括:

根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进
行排序;

选取排序在其他主题前的预设数量的主题分别作为目标主题。

本发明还提供一种特征提取装置,所述装置:

提取单元,用于从待处理文本中提取各个词;

主题获取单元,用于获取所述待处理文本包含的各个主题,并从所述各个主题中
选取至少一个目标主题;

主题相关度计算单元,用于计算所述各个词与各个目标主题的相关度;

文本相关度计算单元,用于根据所述各个词与各个目标主题的相关度,得到所述
各个词与所述待处理文本的相关度;

特征选取单元,用于根据所述各个词与所述待处理文本的相关度,从所述各个词
中选取至少一个词作为所述待处理文本的特征。

优选地,所述主题相关度计算单元,包括:

第一计算子单元,用于计算各个目标主题中各个词的概率和所述待处理文本中各
个目标主题的概率;

第二计算子单元,用于计算所述各个目标主题在所述待处理文本中出现的频率;

第三计算子单元,用于计算所述各个词在所述待处理文本中出现的频率;

相关度计算子单元,用于根据所述各个目标主题在所述待处理文本中出现的频
率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所
述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。

优选地,所述第二计算子单元,具体用于计算所述待处理文本出现的频率,并根据
所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标
主题在所述待处理文本中出现的频率。

优选地,所述第三计算子单元,具体用于计算所述各个词的词频和从所述待处理
文本中提取的词的总数,并根据所述各个词的词频和从所述待处理文本中提取的词的总
数,计算所述各个词在所述待处理文本中出现的频率。

优选地,所述主题获取单元,具体用于根据所述待处理文本中各个主题的概率,对
各个主题按照概率由大到小的方式进行排序,并选取排序在其他主题前的预设数量的主题
分别作为目标主题。

与现有技术相比,本发明提供的上述技术方案具有如下优点:

通过上述技术方案,对于任一待处理文本,可以从待处理文本中提取各个词,并从
待处理文本包含的各个主题中选取至少一个目标主题,根据各个词与各个目标主题的相关
度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关度,从各个词
中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的相关度,选取
与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作为待处理文
本的特征,使得选取的特征与待处理文本的主要内容相关,也就是说在提取待处理文本的
特征时,不仅考虑词自身的重要性还考虑词与待处理文本的主要内容的相关度,从而从提
取的词中过滤掉与主要内容无关的词,提高特征提取的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明
的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
这些附图获得其他的附图。

图1是本发明实施例提供的特征提取方法的流程图;

图2是本发明实施例提供的获取词与目标主题的相关度的流程图;

图3是本发明实施例提供的特征提取装置的结构示意图;

图4是本发明实施例提供的特征提取装置中主题相关度获取单元的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,其示出了本发明实施例提供的特征提取方法的一种流程图,用于提取
与目标主题相关的词作为待处理文本的特征,以提供特征提取的准确度。具体的,本发明实
施例提供的特征提取方法可以包括以下步骤:

101:从待处理文本中提取各个词。可以理解的是:待处理文本是当前需要进行特
征提取的文本,其可以是由至少一条句子组成,而词是待处理文本中组成句子的最小单位,
在获取到待处理文本后,可以从待处理文本中提取出每条句子中的每个词。在本发明实施
例中,可以通过分词技术对每条句子进行分词处理,以从每条句子中提取到对应的词。

102:获取待处理文本包含的各个主题,并从各个主题中选取至少一个目标主题。
其中主题是待处理文本表现的内容,一篇待处理文本包含多个主题,但是并不是每个主题
表现的内容是待处理文本的主要内容,因此在获取到各个主题后需要从中选取出表现待处
理文本的主要内容的目标主题。

在本发明实施例中,选取目标主题的一种可行方式是:根据待处理文本中各个主
题的概率,对各个主题按照概率由大到小的方式进行排序,选取排序在其他主题前的预设
数量的主题分别作为目标主题。

其中待处理文本中各个主题的概率可以通过主题模型来得到,如LDA(Latent
Dirichlet Allocation,文档主题生成模型)作为一个主题模型,其可以输出两个概率,分
别是文本中各个主题的概率P(t|d)以及主题中各个词的概率P(w|t),因此通过LDA可以得
到待处理文本中各个主题的概率,其中t是主题,d是待处理文本,w是词。

在训练LDA过程中,为LDA设置的主题数K较大,一般是几十,甚至几百,而一篇待处
理文本中表示主要内容的目标主题的数量远远小于主题数K,因此获取到的各个主题中冗
余主题的数量比较多,为此本发明实施例需要根据待处理文本中各个主题的概率来从各个
主题中选取目标主题。

发明人经过多次实践发现,一篇待处理文本中表示主要内容的目标主题的预设数
量小于等于5个,因此在获取到待处理文本中各个主题的概率后,根据待处理文本中各个主
题的概率,对各个主题按照概率由大到小的方式进行排序,选取排序在其他主题前的5个主
题分别作为目标主题。

103:计算各个词与各个目标主题的相关度。可以理解的是:相关度是指词与目标
主题之间存在相互联系的百分比,如果词能够反映出目标主题表达的含义,则说明词与目
标主题相关,词与目标主题的相关度较高,如果词不能够反映出目标主题表达的含义,则说
明词与目标主题无关,词与目标主题的相关度较低,甚至可以将词与目标主题的相关度设
为0。

下面从待处理文本中目标主题的概率来说明如何获取各个词与各个目标主题的
相关度,待处理文本中目标主题的概率可以表示为:


wi是提取的第i个词,并且从上述待处理文本中目标主题的概率的表示公式可知:
待处理文本中目标主题的概率可以看做是提取的各个词对目标主题的共同贡献的结果,而
不同词对目标主题的贡献度(词可体现出目标主题表达的含义的程度)大小不同,为此需要
获取对目标主题贡献度较大的词,即找到取值较大的P(t|wi)。然而,待处理文本中目标主
题的概率也不同,因此本发明实施例中定义词与目标主题的相关度为:

ScCre(w)=P(t|d)*P(t|w)

通过主题模型——LDA可以得到P(t|d)以及P(w|t),因此相关度的计算公式中的P
(t|w)是未知的,但是根据贝叶斯定理可知:


因此获取词与目标主题的相关度被转换成求P(t)和P(w),P(w)表示词在待处理文
本中出现的频率,其计算公式为:


至此获取词与目标主题的相关度被转换成求P(t),P(t)为目标主题在待处理文本
中出现的频率。同样,根据贝叶斯定理可知:

P(t)=∑d∈DP(t|d)P(d)

其中,P(t|d)已知,P(d)表示待处理文本出现的概率,而对于任一待处理文本来
说,可以认为其出现的概率都是独立的,因此P(d)等于1。

通过上述分析,可以得出词与目标概率的相关度的计算公式如下:


相对应的,计算各个词与各个目标主题的相关度的过程如图2所示,可以包括以下
步骤:

201:计算各个目标主题中各个词的概率P(w|t)和待处理文本中各个目标主题的
概率P(t|d)。

202:计算各个目标主题在待处理文本中出现的频率。

可选的,计算各个目标主题在待处理文本中出现的频率包括:计算待处理文本出
现的频率P(d),根据待处理文本中各个目标主题的概率P(t|d)和待处理文本出现的频率P
(d),计算各个目标主题在待处理文本中出现的频率P(t),对应的计算公式为:P(t)=∑d∈DP
(t|d)P(d)。

203:计算各个词在待处理文本中出现的频率。可选的,计算各个词在待处理文本
中出现的频率包括:计算各个词的词频Count(w)和从待处理文本中提取的词的总数
TotalCount,根据各个词的词频Count(w)和从待处理文本中提取的词的总数TotalCount,
计算各个词在待处理文本中出现的频率P(w),对应的计算公式为:

204:根据各个目标主题在待处理文本中出现的频率、各个词在待处理文本中出现
的频率、各个目标主题中各个词的概率和待处理文本中各个目标主题的概率,计算各个词
与各个目标主题的相关度。

对应的计算公式是:

在这里需要说明的一点是:上述步骤201至步骤203的执行顺序可以是:顺次执行,
如按照步骤201——步骤202——步骤203或者按照步骤202——步骤201——步骤203来执
行,即在顺次执行时可以对步骤201至步骤203任意排列,按照排列后的顺序顺次执行,当然
上述步骤201至步骤203也可以并列执行,因此本发明实施例并不因步骤标号而限定各个步
骤的执行顺序。

104:根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度。
其中词与待处理文本的相关度是对应词在各个目标主题的相关度之和,如选取的目标主题
有5个,则通过上述计算公式可以得到词分别对
这5个目标主题的相关度,然后将词分别对这5个目标主题的相关度求和,得到词与待处理
文本的相关度,通过词与待处理文本的相关度,可以指示出词是否能够反映出待处理文本
的主要内容,如果词与待处理文本的相关度较高,说明词能够反映出待处理文本的主要内
容,如果词与待处理文本的相关度较低,则说明词反映出待处理文本的主要内容的可能性
较低。

105:根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理
文本的特征。

在本发明实施例中,选取词的一种可行方式是:根据各个词与待处理文本的相关
度,对各个词按照相关度由大到小的方式进行排序,选取排序在其他词前的预设个数的词
作为待处理文本的特征,其中预设个数可以根据实际应用而定,本发明实施例不限定其取
值。

从上述技术方案可知,本发明实施例提供的特征提取方法根据各个词与各个目标
主题的相关度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关
度,从各个词中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的
相关度,选取与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作
为待处理文本的特征,使得选取的特征与待处理文本的主要内容相关,也就是说在提取待
处理文本的特征时,不仅考虑词自身的重要性还考虑词与待处理文本的主要内容的相关
度,使得作为特征的词在主题方面更能反映待处理文本的主要内容,进而提高特征提取的
准确度。并且通过本发明实施例提供的特征提取方法,可以从提取的词中过滤掉噪声词(即
与主要内容无关的词),减少噪声词对后续处理过程的影响。

下面通过实例来说明本发明实施例提供的特征提取方法可提高特征提取的准确
度,实例是标题为“美大选日加移民网站被挤爆加官员:美国人占一半”的一篇新闻,部分内
容如下:

【观察者网综合】美国当地时间8日晚11时左右,近20万人涌入加拿大移民网站,导
致该网站陷入瘫痪。而同一时段,美国大选开票显示特朗普领先希拉里,并逐渐扩大优势。
外界此前普遍认为美国民众导致了这一事件。据赫芬顿邮报9日报道,加拿大政府移民部发
言人勒萨热(SoniaLesage)证实,当日近半数IP来自美国,是正常访问量5倍之多。11月8日
晚,美国总统大选开票显示特朗普领先时,瞬间有大量美国人登录加拿大移民部网站,导致
网站崩溃。加拿大电视台CTV报道称,当晚11点加拿大移民部官网陷入崩溃,两个小时后依
旧没有恢复。即使宣布特朗普获胜后,依旧无法打开网页,直到9日早晨才恢复正常。

……据悉,美国互联网用户到访移民部网站的次数从美国大选开始阶段就稳步上
升,今年3月达至总数170万点击率的高位,上月也有106万次点击,比去年同期的88万次上
升21%。9日,加拿大政府对此还“适时地”发布了一条推文称,“在加拿大,我们鼓励所有的
移民带来他们自己的文化传统,并且分享给加拿大市民”。Mainstreet公司总裁马奇(Quito
Maggi)表示,申请加拿大的过程复杂、繁琐,唯一的例外就是“难民”,例如先前的叙利亚难
民危机,加拿大破例接受了大批难民,但“沮丧的美国民主党人并不符合难民资格”。

应用本发明实施例提供的特征提取方法从上述新闻内容(视为待处理文本并)中
提取特征的过程如下:

(1)、对上述新闻内容进行中文分词处理,以从上述新闻内容中提取出各个词,得
到包括各个词的词序列{用户、报道、搜索、难民、美国、……、移民、领先、网站、日、……、加
拿大、大选、官员、特朗普和上升……};

(2)、在对上述新闻内容分析后,得到上述新闻内容包含的主题数量为10个,其中
这10个主题分别是{美国总统大选、网站崩溃、叙利亚难民、前往加拿大、访问量上升、希拉
里、移民、搜索量、emigrate和调查},根据主题模型得到各个主题的概率,记为P={0.21,
0.06,0.14,0.11,0.09,0.05,0.19,0.04,0.06,0.05},0.21表示第1个主题t1的概率P(t1|
d);

(3)、在本发明实施例中,预设数量的主题为5个,即可以从上述10个主题中选取5
个主题来作为目标主题,则选取目标主题的过程是:将10个主题按照概率由大到小排序,得
到排序后的概率为P'={0.21,0.19,0.14,0.11,0.09,0.06,0.06,0.05,0.05,0.04},选取
概率最大的前5个主题分别作为目标主题,对于上述新闻内容来说,选取的目标主题上述10
个主题中的是第1个、第3个、第4个、第5个和第7个主题,即目标主题分别是{美国总统大选、
叙利亚难民、前往加拿大、访问量上升、移民};

(4)、根据公式得到词序列中各个词的P(t|w),以词序列中的词“移民”为例,得到
的词“移民”对5个目标主题的P(t|w)分别是P(t1|移民)=0.085,P(t3|移民)=0.013,P(t4
|移民)=0.022,P(t5|移民)=0.009,P(t7|移民)=0.017,P(t1|移民)是第1个主题作为目
标主题时,词“移民”与其的P(t|w);

(5)、在得到词序列中每个词与上述5个目标主题的P(t|w)后,根据公式Score(移
民)=P(t|d)*P(t|w)计算每个词分别与这5个目标主题的相关度,然后计算每个词与这5个
目标主题的相关度之和,每个词与这5个目标主题的相关度之和即是每个词与新闻内容的
相关度,上述词“移民”与新闻内容的相关度是0.02613;

(6)、在本发明实施例中,预设个数的词为10个,对词序列中的每个词按照相关度
由大到小的方式进行排序,选取词序列中相关度排序在其他词前的10个词作为新闻内容的
特征,在上述新闻内容中,选取的作为特征的词为美国、移民、加拿大、网站、大选、官员、特
朗普、搜索、上升和难民。

对上述新闻内容通过现有TF-IDF(Term Frequency–Inverse Document
Frequency,特征性频率-倒排文档频率加权法)特征提取方法提取的特征有:用户、报道、搜
索、难民、美国、移民、领先、网站、日和加拿大,相对于现有TF-IDF特征提取方法提取的特征
来说,本发明实施例提供的特征更贴合上述目标主题,因此通过提取的特征更能反映新闻
内容的主要内容,进而提高特征提取的准确度。

请参阅图3,其示出了本发明实施例提供的特征提取装置,用于提取与目标主题相
关的词作为待处理文本的特征,以提供特征提取的准确度。具体的,本发明实施例提供的特
征提取装置可以包括:提取单元11、主题获取单元12、主题相关度计算单元13、文本相关度
计算单元14和特征选取单元15。

提取单元11,用于从待处理文本中提取各个词。可以理解的是:待处理文本是当前
需要进行特征提取的文本,其可以是由至少一条句子组成,而词是待处理文本中组成句子
的最小单位,在获取到待处理文本后,可以从待处理文本中提取出每条句子中的每个词。在
本发明实施例中,可以通过分词技术对每条句子进行分词处理,以从每条句子中提取到对
应的词。

主题获取单元12,用于获取待处理文本包含的各个主题,并从各个主题中选取至
少一个目标主题。其中主题是待处理文本表现的内容,一篇待处理文本包含多个主题,但是
并不是每个主题表现的内容是待处理文本的主要内容,因此在获取到各个主题后需要从中
选取出表现待处理文本的主要内容的目标主题。

在本发明实施例中,主题获取单元12选取目标主题的一种可行方式是:根据待处
理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,选取排序在其
他主题前的预设数量的主题分别作为目标主题。

发明人经过多次实践发现,一篇待处理文本中表示主要内容的目标主题的预设数
量小于等于5个,因此在获取到待处理文本中各个主题的概率后,根据待处理文本中各个主
题的概率,对各个主题按照概率由大到小的方式进行排序,选取排序在其他主题前的5个主
题分别作为目标主题。

主题相关度计算单元13,用于计算各个词与各个目标主题的相关度。可以理解的
是:相关度是指词与目标主题之间存在相互联系的百分比,如果词能够反映出目标主题表
达的含义,则说明词与目标主题相关,词与目标主题的相关度较高,如果词不能够反映出目
标主题表达的含义,则说明词与目标主题无关,词与目标主题的相关度较低,甚至可以将词
与目标主题的相关度设为0。

在本发明实施例中,主题相关度计算单元13的结构如图4所示,可以包括:第一计
算子单元131、第二计算子单元132、第三计算子单元133和相关度计算子单元134。

第一计算子单元131,用于计算各个目标主题中各个词的概率和待处理文本中各
个目标主题的概率。其中各个目标主题中各个词的概率和待处理文本中各个目标主题的概
率可以通过主题模型来计算,具体请参阅方法实施例中的相关说明。

第二计算子单元132,用于计算各个目标主题在待处理文本中出现的频率。可选
的,计算各个目标主题在待处理文本中出现的频率包括:计算待处理文本出现的频率P(d),
根据待处理文本中各个目标主题的概率P(t|d)和待处理文本出现的频率P(d),计算各个目
标主题在待处理文本中出现的频率P(t),对应的计算公式为:P(t)=∑d∈DP(t|d)P(d)。

第三计算子单元133,用于计算各个词在待处理文本中出现的频率。可选的,计算
各个词在待处理文本中出现的频率包括:计算各个词的词频Count(w)和从待处理文本中提
取的词的总数TotalCount,根据各个词的词频Count(w)和从待处理文本中提取的词的总数
TotalCount,计算各个词在待处理文本中出现的频率P(w),对应的计算公式为:

相关度计算子单元134,用于根据各个目标主题在待处理文本中出现的频率、各个
词在待处理文本中出现的频率、各个目标主题中各个词的概率和待处理文本中各个目标主
题的概率,计算各个词与各个目标主题的相关度。对应的计算公式如下:


文本相关度计算单元14,用于根据各个词与各个目标主题的相关度,得到各个词
与待处理文本的相关度。其中词与待处理文本的相关度是对应词在各个目标主题的相关度
之和,如选取的目标主题有5个,则通过上述计算公式
可以得到词分别对这5个目标主题的相关度,然后将词分别对这5个目标主题的相关度求
和,得到词与待处理文本的相关度,通过词与待处理文本的相关度,可以指示出词是否能够
反映出待处理文本的主要内容,如果词与待处理文本的相关度较高,说明词能够反映出待
处理文本的主要内容,如果词与待处理文本的相关度较低,则说明词反映出待处理文本的
主要内容的可能性较低。

特征选取单元15,用于根据各个词与待处理文本的相关度,从各个词中选取至少
一个词作为待处理文本的特征。

在本发明实施例中,选取词的一种可行方式是:根据各个词与待处理文本的相关
度,对各个词按照相关度由大到小的方式进行排序,选取排序在其他词前的预设个数的词
作为待处理文本的特征,其中预设个数可以根据实际应用而定,本发明实施例不限定其取
值。

从上述技术方案可知,本发明实施例提供的特征提取装置根据各个词与各个目标
主题的相关度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关
度,从各个词中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的
相关度,选取与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作
为待处理文本的特征,使得选取的特征与待处理文本的主要内容相关,也就是说在提取待
处理文本的特征时,不仅考虑词自身的重要性还考虑词与待处理文本的主要内容的相关
度,使得作为特征的词在主题方面更能反映待处理文本的主要内容,进而提高特征提取的
准确度。并且通过本发明实施例提供的特征提取装置,可以从提取的词中过滤掉噪声词(即
与主要内容无关的词),减少噪声词对后续处理过程的影响。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重
点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参
见方法实施例的部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将
一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意
在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那
些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者
设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排
除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这
些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可
以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限
制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的
范围。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人
员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
视为本发明的保护范围。

一种特征提取方法及装置.pdf_第1页
第1页 / 共14页
一种特征提取方法及装置.pdf_第2页
第2页 / 共14页
一种特征提取方法及装置.pdf_第3页
第3页 / 共14页
点击查看更多>>
资源描述

《一种特征提取方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种特征提取方法及装置.pdf(14页珍藏版)》请在专利查询网上搜索。

本发明提供一种特征提取方法及装置,可以从待处理文本中提取各个词,并从待处理文本包含的各个主题中选取至少一个目标主题,根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的相关度,选取与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作为待处理文本的特征,使得选取的。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1