词语提取方法及提取装置.pdf

上传人:a3 文档编号:4557447 上传时间:2018-10-20 格式:PDF 页数:16 大小:1.22MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410738661.4

申请日:

2014.12.05

公开号:

CN104462061A

公开日:

2015.03.25

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F17/27申请日:20141205|||公开

IPC分类号:

G06F17/27

主分类号:

G06F17/27

申请人:

北京国双科技有限公司

发明人:

侯明午

地址:

100086北京市海淀区双榆树小区知春路76号翠宫饭店8层A间

优先权:

专利代理机构:

北京康信知识产权代理有限责任公司11240

代理人:

吴贵明; 张永明

PDF下载: PDF下载
内容摘要

本发明公开了一种词语提取方法及提取装置。其中,该词语提取方法包括:对待处理语料进行字频计算,得到待处理语料中的每个字在待处理语料中出现的第一概率;接收预设词长,并计算长度小于或等于预设词长的每个候选串在待处理语料中出现的第二概率,以及记录每个候选串的边界;根据第一概率和第二概率计算每个候选串的第一指标,并根据记录每个候选串的边界计算每个候选串的第二指标;提取第一指标大于第一预设阈值,并且第二指标大于第二预设阈值的候选串,得到待处理语料的词语集合。通过本发明,解决了现有技术中词语提取方式的准确度低的问题,进而达到了提高词语提取准确度的效果。

权利要求书

权利要求书
1.  一种词语提取方法,其特征在于,包括:
对待处理语料进行字频计算,得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率;
接收预设词长,并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率,以及记录每个所述候选串的边界;
根据所述第一概率和所述第二概率计算每个所述候选串的第一指标,并根据记录每个所述候选串的边界计算每个所述候选串的第二指标;以及
提取所述第一指标大于第一预设阈值,并且所述第二指标大于第二预设阈值的所述候选串,得到所述待处理语料的词语集合。

2.  根据权利要求1所述的提取方法,其特征在于,根据所述第一概率和所述第二概率计算每个所述候选串的第一指标包括:
获取属于候选串Sj的字Cjk的第一概率P(Ck),其中,j依次取1至m,k依次取j1至jn,m为所述待处理语料中长度等于所述预设词长的候选串的个数,jn为所述候选串Sj中字的个数;以及
根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的第一指标I(Sj)。

3.  根据权利要求2所述的提取方法,其特征在于,根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的所述第一指标包括:
按照公式计算所述第一指标I(Sj)。

4.  根据权利要求1所述的提取方法,其特征在于,根据记录每个所述候选串的边界计算每个所述候选串的第二指标包括:
根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值,其中,所述第一熵值为与字CjL相邻的字的熵值,所述第二熵值为与字CjR相邻的字的熵值,所述字CjL为位于所述候选串Sj的第一边界的字,所述字CjR为位于所述候选串Sj的第二边界的字,j依次取1至m,m为所述待处理语料中长度等于所述预设词长的候选串的个数;以及
确定所述候选串Sj的第二指标为所述候选串Sj的所述第一熵值和所述第二熵值。

5.  根据权利要求4所述的提取方法,其特征在于,根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值包括:
从记录每个所述候选串的边界中获取与所述字CjL相邻的字的第一集合Sj(L),并获取与所述字CjR相邻的字的第二集合Sj(R);
计算所述第一集合Sj(L)中的每个第一元素在所述第一集合Sj(L)中出现的概率P(L),并计算所述第二集合Sj(R)中的每个第二元素在所述第二集合Sj(R)中出现的概率P(R);以及
按照公式计算所述候选串Sj的第一熵值L(Sj),并按照公式计算所述候选串Sj的第二熵值R(Sj)。

6.  根据权利要求1所述的提取方法,其特征在于,在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串,得到所述待处理语料的词语集合之后,所述提取方法还包括:
比较所述词语集合与预设词典,得到非目标词语,其中,所述非目标词语为所述词语集合和所述预设词典中相同的词语;以及
从所述词语集合中删除所述非目标词语。

7.  一种词语提取装置,其特征在于,包括:
第一计算单元,用于对待处理语料进行字频计算,得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率;
处理单元,用于接收预设词长,并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率,以及记录每个所述候选串的边界;
第二计算单元,用于根据所述第一概率和所述第二概率计算每个所述候选串的第一指标,并根据记录每个所述候选串的边界计算每个所述候选串的第二指标;以及
提取单元,用于提取所述第一指标大于第一预设阈值,并且所述第二指标大于第二预设阈值的所述候选串,得到所述待处理语料的词语集合。

8.  根据权利要求7所述的提取装置,其特征在于,所述第二计算单元包括:
第一获取模块,用于获取属于候选串Sj的字Cjk的第一概率P(Ck),其中,j依次取1至m,k依次取j1至jn,m为所述待处理语料中长度等于所述预设词长的候选串的个数,jn为所述候选串Sj中字的个数;以及
第一计算模块,用于根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的第一指标I(Sj)。

9.  根据权利要求8所述的提取装置,其特征在于,所述第一计算模块包括:
计算子模块,用于按照公式计算所述第一指标I(Sj)。

10.  根据权利要求7所述的提取装置,其特征在于,所述第二计算单元包括:
第二计算模块,用于根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值,其中,所述第一熵值为与字CjL相邻的字的熵值,所述第二熵值为与字CjR相邻的字的熵值,所述字CjL为位于所述候选串Sj的第一边界的字,所述字CjR为位于所述候选串Sj的第二边界的字,j依次取1至m,m为所述待处理语料中长度等于所述预设词长的候选串的个数;以及
确定模块,用于确定所述候选串Sj的第二指标为所述候选串Sj的所述第一熵值和所述第二熵值。

11.  根据权利要求10所述的提取装置,其特征在于,所述第二计算模块包括:
第二获取模块,用于从记录每个所述候选串的边界中获取与所述字CjL相邻的字的第一集合Sj(L),并获取与所述字CjR相邻的字的第二集合Sj(R);
第三计算模块,用于计算所述第一集合Sj(L)中的每个第一元素在所述第一集合Sj(L)中出现的概率P(L),并计算所述第二集合Sj(R)中的每个第二元素在所述第二集合Sj(R)中出现的概率P(R);以及
第四计算模块,用于按照公式计算所述候选串Sj的第一熵值L(Sj),并按照公式计算所述候选串Sj的第二熵值R(Sj)。

12.  根据权利要求7所述的提取装置,其特征在于,所述提取装置还包括:
比较单元,用于在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串,得到所述待处理语料的词语集合之后,比较所述词语集合与预设词典,得到非目标词语,其中,所述非目标词语为所述词语集合和所述预设词典中相同的词语;以及
删除单元,用于从所述词语集合中删除所述非目标词语。

说明书

说明书词语提取方法及提取装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种词语提取方法及提取装置。
背景技术
互联网技术的发展推进了语言的多样性,大量的新词为自然语言处理和大数据分析带来了困难,目前尚无一种可以完全覆盖所有新词语的词典供分析使用,现有研究中有多种新词语技术,其中主要的有两种,一种是基于全切分的,另一种是基于分词的。
基于全切分的方法是指以字符为单位,对所有的可能组合进行统计,统计组合的使用率并对比背景使用率,提取出所有新出现的候选串,使用字符串合并,将使用率相同,相互紧密联系的候选串合并;使用其它规则过滤,去除噪声,最终得到新词语。
基于全切分的方法不拘泥于词典,考虑到所有词语组合,但该方案运算消耗量大,分析结果存在大量垃圾串,剔除垃圾信息的规则繁复,准确率和效率均较低。
基于分词的方案首先对语料进行分词,由于新词不存在词典当中,故会被切分为连续的单字。基于统计模型,对连续单字的搭配关系进行最优路径分析,最终得到新词语。
分词错误往往产生连锁效应,未登录词在分词中造成的影响大多会超过自身,甚至影响整个句子。因此分词后对连续单字的组合不能完全解决新词语问题,准确度较低。
针对相关技术中词语提取方式的准确度低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种词语提取方法及提取装置,以解决现有技术中词语提取方式的准确度低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种词语提取方法。
根据本发明的词语提取方法包括:对待处理语料进行字频计算,得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率;接收预设词长,并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率,以及记录 每个所述候选串的边界;根据所述第一概率和所述第二概率计算每个所述候选串的第一指标,并根据记录每个所述候选串的边界计算每个所述候选串的第二指标;以及提取所述第一指标大于第一预设阈值,并且所述第二指标大于第二预设阈值的所述候选串,得到所述待处理语料的词语集合。
进一步地,根据所述第一概率和所述第二概率计算每个所述候选串的第一指标包括:获取属于候选串Sj的字Cjk的第一概率P(Ck),其中,j依次取1至m,k依次取j1至jn,m为所述待处理语料中长度等于所述预设词长的候选串的个数,jn为所述候选串Sj中字的个数;以及根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的第一指标I(Sj)。
进一步地,根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的所述第一指标包括:按照公式计算所述第一指标I(Sj)。
进一步地,根据记录每个所述候选串的边界计算每个所述候选串的第二指标包括:根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值,其中,所述第一熵值为与字CjL相邻的字的熵值,所述第二熵值为与字CjR相邻的字的熵值,所述字CjL为位于所述候选串Sj的第一边界的字,所述字CjR为位于所述候选串Sj的第二边界的字,j依次取1至m,m为所述待处理语料中长度等于所述预设词长的候选串的个数;以及确定所述候选串Sj的第二指标为所述候选串Sj的所述第一熵值和所述第二熵值。
进一步地,根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值包括:从记录每个所述候选串的边界中获取与所述字CjL相邻的字的第一集合Sj(L),并获取与所述字CjR相邻的字的第二集合Sj(R);计算所述第一集合Sj(L)中的每个第一元素在所述第一集合Sj(L)中出现的概率P(L),并计算所述第二集合Sj(R)中的每个第二元素在所述第二集合Sj(R)中出现的概率P(R);以及按照公式计算所述候选串Sj的第一熵值L(Sj),并按照公式计算所述候选串Sj的第二熵值R(Sj)。
进一步地,在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串,得到所述待处理语料的词语集合之后,所述提取方法还包括:比较所述词语集合与预设词典,得到非目标词语,其中,所述非目标词语为所述词语集合和所述预设词典中 相同的词语;以及从所述词语集合中删除所述非目标词语。
为了实现上述目的,根据本发明的另一方面,提供了一种词语提取装置。
根据本发明的词语提取装置包括:第一计算单元,用于对待处理语料进行字频计算,得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率;处理单元,用于接收预设词长,并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率,以及记录每个所述候选串的边界;第二计算单元,用于根据所述第一概率和所述第二概率计算每个所述候选串的第一指标,并根据记录每个所述候选串的边界计算每个所述候选串的第二指标;以及提取单元,用于提取所述第一指标大于第一预设阈值,并且所述第二指标大于第二预设阈值的所述候选串,得到所述待处理语料的词语集合。
进一步地,所述第二计算单元包括:第一获取模块,用于获取属于候选串Sj的字Cjk的第一概率P(Ck),其中,j依次取1至m,k依次取j1至jn,m为所述待处理语料中长度等于所述预设词长的候选串的个数,jn为所述候选串Sj中字的个数;以及第一计算模块,用于根据第一概率P(Cj1)至第一概率P(Cjn)和所述候选串Sj的第二概率P(Sj)计算所述候选串Sj的第一指标I(Sj)。
进一步地,所述第一计算模块包括:计算子模块,用于按照公式计算所述第一指标I(Sj)。
进一步地,所述第二计算单元包括:第二计算模块,用于根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值,其中,所述第一熵值为与字CjL相邻的字的熵值,所述第二熵值为与字CjR相邻的字的熵值,所述字CjL为位于所述候选串Sj的第一边界的字,所述字CjR为位于所述候选串Sj的第二边界的字,j依次取1至m,m为所述待处理语料中长度等于所述预设词长的候选串的个数;以及确定模块,用于确定所述候选串Sj的第二指标为所述候选串Sj的所述第一熵值和所述第二熵值。
进一步地,所述第二计算模块包括:第二获取模块,用于从记录每个所述候选串的边界中获取与所述字CjL相邻的字的第一集合Sj(L),并获取与所述字CjR相邻的字的第二集合Sj(R);第三计算模块,用于计算所述第一集合Sj(L)中的每个第一元素在所述第一集合Sj(L)中出现的概率P(L),并计算所述第二集合Sj(R)中的每个第二元素在所述第二集合Sj(R)中出现的概率P(R);以及第四计算模块,用于按照公式计算所述候选串Sj的第一熵值L(Sj),并按照公式计算所述候选串Sj的第二熵值R(Sj)。
进一步地,所述提取装置还包括:比较单元,用于在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串,得到所述待处理语料的词语集合之后,比较所述词语集合与预设词典,得到非目标词语,其中,所述非目标词语为所述词语集合和所述预设词典中相同的词语;以及删除单元,用于从所述词语集合中删除所述非目标词语。
通过本发明,采用对待处理语料进行字频计算,得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率;接收预设词长,并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率,以及记录每个所述候选串的边界;根据所述第一概率和所述第二概率计算每个所述候选串的第一指标,并根据记录每个所述候选串的边界计算每个所述候选串的第二指标;以及提取所述第一指标大于第一预设阈值,并且所述第二指标均大于第二预设阈值的所述候选串,得到所述待处理语料的词语集合。通过以字和候选串为基础进行相关概率的计算,实现了以词语语言学的定义为基点来计算概率,进而计算基于字的第一概率和候选串的第二概率的第一指标,以及基于边界的第二指标,实现了以候选串的表征特性为衡量指标进行词的筛选。此种从待处理语料中提取词语的方式,以词语语言学的定义为基点,不依赖词典,解决了现有技术中词语提取方式的准确度低的问题,进而达到了提高词语提取准确度的效果。并且,此种提取方式逻辑简单,达到了提高提取效率和减少运算消耗量的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的词语提取方法的流程图;以及
图2是根据本发明实施例的词语提取装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例 仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种用于编译的文件路径的确定方法,图1是根据本发明实施例的词语提取方法的流程图,如图1所示,该方法包括如下的步骤S102至步骤S108:
S102:对待处理语料进行字频计算,得到待处理语料中的每个字在待处理语料中出现的第一概率,通过待处理语料确定了词语提取的范围,具体范围可以根据需求设置,如:某段话或者某篇文章等,字频即为待处理语料所包含的每个字在待处理语料中出现的频率,该频率即为第一概率。例如:待处理语料中包含100个字,其中,“的”字出现了20次,那么“的”字的第一概率为25%。
S104:接收预设词长,并计算长度小于或等于预设词长的每个候选串在待处理语料中出现的第二概率,以及记录每个候选串的边界,具体地,在本发明实施例中,根据接收的预设词长,利用N-Gram对语料进行处理,并计算每个候选串在待处理语料中出现的概率,该概率即为第二概率,比如:待处理语料为“权利要求书”,使用3Gram对“权利要求书”进行处理,会得到多个候选串,依次分别为:“权利要”、“权利”、“权”、“利要求”、“利要”、“利”、“要求书”、“要求”、“要”、“求书”、“求”和“书”。预设词长可以根据需求设置,通常设置的是最大词长;候选串的边界分为左边界和右边界,将候选串看作一个整体,左边界就是在该候选串中最左边的一个字,右边界就是在该候选串最右边的一个字。例如:对于候选串“北京”,则“北”和“京”为候选串“北京”的边界,其中,“北”为左边界,“京”为右边界。
S106:根据第一概率和第二概率计算每个候选串的第一指标,并根据记录每个候选串的边界计算每个候选串的第二指标,其中,第一指标为凝固度,第二指标为自由度。
S108:提取第一指标大于第一预设阈值,并且第二指标大于第二预设阈值的候选串,得到待处理语料的词语集合,即,只有既满足第一指标大于第一预设阈值,又满足第二指标大于第二预设阈值的候选串,才会被提取出来,将被提取出来的候选串汇总,得到待处理语料的词语的集合,也就是提取凝固度高于第一预设阈值,并且自由度高于第二预设阈值的候选串,得到待处理语料的词语的集合,其中,第一预设阈值和第二预设阈值可以根据需求设置。
在本发明实施例中,通过以字和候选串为基础进行相关概率的计算,实现了以词语语言学的定义为基点来计算概率,进而计算基于字的第一概率和候选串的第二概率的第一指标,以及基于边界的第二指标,实现了以候选串的表征特性为衡量指标进行词的筛选。此种从待处理语料中提取词语的方式,以词语语言学的定义为基点,不依赖词典,解决了现有技术中词语提取方式的准确度低的问题,进而达到了提高词语提取准确度的效果。并且,此种提取方式逻辑简单,达到了提高提取效率和减少运算消耗量的效果。
具体地,在本发明实施例中,第一指标可以通过步骤1-1至步骤1-2计算得出,步骤1-1至步骤1-2具体如下:
步骤1-1:获取属于候选串Sj的字Cjk的第一概率P(Ck),其中,j依次取1至m,k依次取j1至jn,m为待处理语料中长度等于预设词长的候选串的个数,jn为候选串Sj中字的个数,也就是获取每个候选串中包含的每个字在待处理语料中出现的概率,从而得到多个第一概率。例如:候选串“北京”中包括两个字,分别是“北”和“京”,假设“北”字在待处理语料中出现的概率为5%,“京”字在待处理语料中出现的概率为3%,那么关于候选串“北京”中的字得到两个第一概率,分别是5%和3%。
步骤1-2:根据第一概率P(Cj1)至第一概率P(Cjn)和候选串Sj的第二概率P(Sj)计算候选串Sj的第一指标I(Sj),也即,根据每个候选串的全部第一概率和全部第二概率共同计算出第一指标I(Sj)。具体地,第一指标I(Sj)可以按照公式I(Sj)=P(Sj)Πk=j1jnP(Ck)]]>计算得出。
具体地,在本发明实施例中,根据记录每个候选串的边界计算每个候选串的第二指标包括:
根据记录每个候选串的边界计算候选串Sj的第一熵值和第二熵值,其中,第一熵值为与字CjL相邻的字的熵值,第二熵值为与字CjR相邻的字的熵值,字CjL为位于 候选串Sj的第一边界的字,字CjR为位于候选串Sj的第二边界的字,j依次取1至m,m为待处理语料中长度等于预设词长的候选串的个数。具体地,候选串的第一边界可以称为该候选串的左边界,第二边界可以称为该候选串的右边界,也就是根据与每个候选串的左边界的字相邻的字计算出该候选串的第一熵值,根据与每个候选串的右边界的字相邻的字计算出该候选串的第二熵值,其中,第一熵值可以称为左边界熵值,第二熵值可以称为右边界熵值。
确定候选串Sj的第二指标为候选串Sj的第一熵值和第二熵值,即,根据计算出的每个候选串的第一熵值和第二熵值确定出该候选串的第二指标。
具体地,在本发明实施例中,可以利用每个候选串的边界通过步骤2-1至步骤2-3计算出每个候选串的第一熵值和第二熵值,其中,步骤2-1至步骤2-3具体如下:
步骤2-1:从记录每个候选串的边界中获取与字CjL相邻的字的第一集合Sj(L),并获取与字CjR相邻的字的第二集合Sj(R),也就是,分别获取与候选串的左边界(即,第一边界)的字相邻的字,组成第一集合Sj(L),以及与候选串的右边界(即,第二边界)的字相邻的字,组成第二集合Sj(R)。例如:在待处理语料中,出现多次候选串“北京”,根据上述说明可知,候选串“北京”的左边界的字为“北”,与“北”相邻的字有“在”和“去”,候选串“北京”的右边界的字为“京”,与“京”相邻的字有“工”和“玩”,那么“在”和“去”组成第一集合,“工”和“玩”组成第二集合。
步骤2-2:计算第一集合Sj(L)中的每个第一元素在第一集合Sj(L)中出现的概率P(L),并计算第二集合Sj(R)中的每个第二元素在第二集合Sj(R)中出现的概率P(R)。具体地,第一元素为第一集合中的字,一个第一集合中的字就是一个第一元素,同样的,第二元素为第二集合中的字,一个第二集合中的字就是一个第二元素。本步骤也就是计算第一集合中的每个字在第一集合中出现的概率和第二集合中的每个字在第二集合中出现的概率,具体可以通过第一集合中的每个字在该集合中出现的次数与第一集合中所有的字出现的总次数的比值,得出第一集合中每个字的概率,通过第二集合中的每个字在该集合中出现的次数与第二集合中所有的字出现的总次数的比值,得出第二集合中每个字的概率。继续采用步骤2-1中的举例进行说明,在第一集合中,“在”出现了2次,“去”出现了三次,那么“在”的概率为2/5,“去”的概率为3/5,依照上述过程,可以计算出第二集合中的每个字出现的概率。
步骤2-3:按照公式计算候选串Sj的第一熵值L(Sj),也就是,首先将第一集合Sj(L)中的每个字出现的概率P(L)与该概率P(L)的对数相乘,然后将上个步骤中得到的所有结果求和,最后得到第一熵值;并按照公 式计算候选串Sj的第二熵值R(Sj),同样的,首先对第二集合Sj(R)中的每个字出现的概率P(R)与该概率P(R)的对数相乘,然后将上个步骤中得到的所有结果求和,最后得到第二熵值。
优选地,在提取第一指标和第二指标均大于预设阈值的候选串,得到待处理语料的词语集合之后,本发明实施例所提供的提取方法还包括:比较词语集合与预设词典,得到非目标词语,其中,非目标词语为词语集合和预设词典中相同的词语,即,找出词语集合和预设词典中都共同包含的词语,该词语即为目标词语;从词语集合中删除非目标词语,在词语集合中将词语集合和预设词典中都共同包含的词语删除,得到新词语的集合。
在本发明实施例中,通过将得到的词语集合与预设词典进行比较之后,再得到新词语的集合,达到了进一步提高提取词语的精确度的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述词语提取方法的词语提取装置,该词语提取装置主要用于执行本发明实施例上述内容所提供的词语提取方法,以下对本发明实施例所提供的词语提取装置做具体介绍:
根据本发明实施例,提供了一种词语提取装置,图2是根据本发明实施例的词语提取装置的示意图,如图2所示,该装置主要包括第一计算单元10、处理单元20、第二计算单元30和提取单元40,其中:
第一计算单元10用于对待处理语料进行字频计算,得到待处理语料中的每个字在待处理语料中出现的第一概率,通过待处理语料确定了词语提取的范围,具体范围可以根据需求设置,如:某段话或者某篇文章等,字频即为待处理语料所包含的每个字在待处理语料中出现的频率,该频率即为第一概率。例如:待处理语料中包含100个字,其中,“的”字出现了20次,那么“的”字的第一概率为25%。
处理单元20用于接收预设词长,并计算长度等于预设词长的每个候选串在待处理语料中出现的第二概率,以及记录每个候选串的边界,具体地,在本发明实施例中,根据接收的预设词长,利用N-Gram对语料进行处理,并计算每个候选串在待处理语料中出现的概率,该概率即为第二概率,比如:待处理语料为“权利要求书”,使用3Gram对“权利要求书”进行处理,会得到多个候选串,依次分别为:“权利要”、“权利”、“权”、“利要求”、“利要”、“利”、“要求书”、“要求”、“要”、“求书”、“求”和“书”。预设词长可以根据需求设置,通常设置的是最大词长;候选串的边界分为左边界和右边界,将候选串看作一个整体,左边界就是在该候选串中最左边的一个字,右边界就是在该候选串最右边的一个字。例如:对于候选串“北京”,则“北”和“京”为候选串“北京”的边界,其中,“北”为左边界,“京”为右边界。
第二计算单元30用于根据第一概率和第二概率计算每个候选串的第一指标,并根据记录每个候选串的边界计算每个候选串的第二指标,其中,第一指标为凝固度,第二指标为自由度。
提取单元40用于提取第一指标大于第一预设阈值,并且第二指标大于第二预设阈值的候选串,得到待处理语料的词语集合,即,只有既满足第一指标大于第一预设阈值,又满足第二指标大于第二预设阈值的候选串,才会被提取出来,将被提取出来的候选串汇总,得到待处理语料的词语的集合,也就是提取凝固度高于第一预设阈值,并且自由度高于第二预设阈值的候选串,得到待处理语料的词语的集合,其中,第一预设阈值和第二预设阈值可以根据需求设置。
在本发明实施例中,通过以字和候选串为基础进行相关概率的计算,实现了以词语语言学的定义为基点来计算概率,进而计算基于字的第一概率和候选串的第二概率的第一指标,以及基于边界的第二指标,实现了以候选串的表征特性为衡量指标进行词的筛选。此种从待处理语料中提取词语的方式,以词语语言学的定义为基点,不依赖词典,解决了现有技术中词语提取方式的准确度低的问题,进而达到了提高词语提取准确度的效果。并且,此种提取方式逻辑简单,达到了提高提取效率和减少运算消耗量的效果。
具体地,在本发明实施例中,第二计算单元30包括第一获取模块和第一计算模块,其中:
第一获取模块用于获取属于候选串Sj的字Cjk的第一概率P(Ck),其中,j依次取1至m,k依次取j1至jn,m为待处理语料中长度等于预设词长的候选串的个数,jn为候选串Sj中字的个数,也就是获取每个候选串中包含的每个字在待处理语料中出现的概率,从而得到多个第一概率。例如:候选串“北京”中包括两个字,分别是“北”和“京”,假设“北”字在待处理语料中出现的概率为5%,“京”字在待处理语料中出现的概率为3%,那么关于候选串“北京”中的字得到两个第一概率,分别是5%和3%。
第一计算模块,用于根据第一概率P(Cj1)至第一概率P(Cjn)和候选串Sj的第二概率P(Sj)计算候选串Sj的第一指标I(Sj)也即,根据每个候选串的全部第一概率和全部第二概率共同计算出第一指标I(Sj)。具体地,第一计算模块包括计算子模块,计算子模块用于按照公式计算第一指标I(Sj)。
具体地,在本发明实施例中,第二计算单元30包括第二计算模块和确定模块,其中:
第二计算模块用于根据记录每个候选串的边界计算候选串Sj的第一熵值和第二熵值,其中,第一熵值为与字CjL相邻的字的熵值,第二熵值为与字CjR相邻的字的熵值,字CjL为位于候选串Sj的第一边界的字,字CjR为位于候选串Sj的第二边界的字,j依次取1至m,m为待处理语料中长度等于预设词长的候选串的个数。具体地,候选串的第一边界可以称为该候选串的左边界,第二边界可以称为该候选串的右边界,也就是根据与每个候选串的左边界的字相邻的字计算出该候选串的第一熵值,根据与每个候选串的右边界的字相邻的字计算出该候选串的第二熵值,其中,第一熵值可以称为左边界熵值,第二熵值可以称为右边界熵值。
确定模块用于确定候选串Sj的第二指标为候选串Sj的第一熵值和第二熵值,即,根据计算出的每个候选串的第一熵值和第二熵值确定出该候选串的第二指标。
具体地,在本发明实施例中,第二计算模块包括第二获取模块、第三计算模块和第四计算模块,其中:
第二获取模块用于从记录每个候选串的边界中获取与字CjL相邻的字的第一集合Sj(L),并获取与字CjR相邻的字的第二集合Sj(R),也就是,分别获取与候选串的左 边界(即,第一边界)的字相邻的字,组成第一集合Sj(L),以及与候选串的右边界(即,第二边界)的字相邻的字,组成第二集合Sj(R)。例如:在待处理语料中,出现多次候选串“北京”,根据上述说明可知,候选串“北京”的左边界的字为“北”,与“北”相邻的字有“在”和“去”,候选串“北京”的右边界的字为“京”,与“京”相邻的字有“工”和“玩”,那么“在”和“去”组成第一集合,“工”和“玩”组成第二集合。
第三计算模块用于计算第一集合Sj(L)中的每个第一元素在第一集合Sj(L)中出现的概率P(L),并计算第二集合Sj(R)中的每个第二元素在第二集合Sj(R)中出现的概率P(R)。具体地,第一元素为第一集合中的字,一个第一集合中的字就是一个第一元素,同样的,第二元素为第二集合中的字,一个第二集合中的字就是一个第二元素。本模块也就是计算第一集合中的每个字在第一集合中出现的概率和第二集合中的每个字在第二集合中出现的概率,具体可以通过第一集合中的每个字在该集合中出现的次数与第一集合中所有的字出现的总次数的比值,得出第一集合中每个字的概率,通过第二集合中的每个字在该集合中出现的次数与第二集合中所有的字出现的总次数的比值,得出第二集合中每个字的概率。继续采用第二获取模块中的举例进行说明,在第一集合中,“在”出现了2次,“去”出现了三次,那么“在”的概率为2/5,“去”的概率为3/5,依照上述过程,可以计算出第二集合中的每个字出现的概率。
第四计算模块用于按照公式计算候选串Sj的第一熵值L(Sj),也就是,首先将第一集合Sj(L)中的每个字出现的概率P(L)与该概率P(L)的对数相乘,然后将上个步骤中得到的所有结果求和,最后得到第一熵值;并按照公式计算候选串Sj的第二熵值R(Sj),同样的,首先对第二集合Sj(R)中的每个字出现的概率P(R)与该概率P(R)的对数相乘,然后将上个步骤中得到的所有结果求和,最后得到第二熵值。
优选地,本发明实施例所提供的提取装置还包括比较单元和删除单元,其中,比较单元用于在提取第一指标和第二指标均大于预设阈值的候选串,得到待处理语料的词语集合之后,比较词语集合与预设词典,得到非目标词语,其中,非目标词语为词语集合和预设词典中相同的词语,即,找出词语集合和预设词典中都共同包含的词语,该词语即为目标词语;删除单元用于从词语集合中删除非目标词语,在词语集合中将词语集合和预设词典中都共同包含的词语删除,得到新词语的集合。
在本发明实施例中,通过将得到的词语集合与预设词典进行比较之后,再得到新词语的集合,达到了进一步提高提取词语的精确度的效果。
从以上的描述中,可以看出,本发明解决了现有技术中词语提取方式的准确度低的问题,进而达到了提高词语提取准确度的效果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

词语提取方法及提取装置.pdf_第1页
第1页 / 共16页
词语提取方法及提取装置.pdf_第2页
第2页 / 共16页
词语提取方法及提取装置.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《词语提取方法及提取装置.pdf》由会员分享,可在线阅读,更多相关《词语提取方法及提取装置.pdf(16页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410738661.4 (22)申请日 2014.12.05 G06F 17/27(2006.01) (71)申请人 北京国双科技有限公司 地址 100086 北京市海淀区双榆树小区知春 路 76 号翠宫饭店 8 层 A 间 (72)发明人 侯明午 (74)专利代理机构 北京康信知识产权代理有限 责任公司 11240 代理人 吴贵明 张永明 (54) 发明名称 词语提取方法及提取装置 (57) 摘要 本发明公开了一种词语提取方法及提取装 置。其中, 该词语提取方法包括 : 对待处理语料进 行字频计算, 得到待处理语料中的每个字在待处。

2、 理语料中出现的第一概率 ; 接收预设词长, 并计 算长度小于或等于预设词长的每个候选串在待处 理语料中出现的第二概率, 以及记录每个候选串 的边界 ; 根据第一概率和第二概率计算每个候选 串的第一指标, 并根据记录每个候选串的边界计 算每个候选串的第二指标 ; 提取第一指标大于第 一预设阈值, 并且第二指标大于第二预设阈值的 候选串, 得到待处理语料的词语集合。通过本发 明, 解决了现有技术中词语提取方式的准确度低 的问题, 进而达到了提高词语提取准确度的效果。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书10页 附图2页 (10。

3、)申请公布号 CN 104462061 A (43)申请公布日 2015.03.25 CN 104462061 A 1/3 页 2 1. 一种词语提取方法, 其特征在于, 包括 : 对待处理语料进行字频计算, 得到所述待处理语料中的每个字在所述待处理语料中出 现的第一概率 ; 接收预设词长, 并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料 中出现的第二概率, 以及记录每个所述候选串的边界 ; 根据所述第一概率和所述第二概率计算每个所述候选串的第一指标, 并根据记录每个 所述候选串的边界计算每个所述候选串的第二指标 ; 以及 提取所述第一指标大于第一预设阈值, 并且所述第二指标大于。

4、第二预设阈值的所述候 选串, 得到所述待处理语料的词语集合。 2. 根据权利要求 1 所述的提取方法, 其特征在于, 根据所述第一概率和所述第二概率 计算每个所述候选串的第一指标包括 : 获取属于候选串 Sj 的字 Cjk 的第一概率 P(Ck), 其中, j 依次取 1 至 m, k 依次取 j1 至 jn, m 为所述待处理语料中长度等于所述预设词长的候选串的个数, jn 为所述候选串 Sj 中 字的个数 ; 以及 根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二概率 P(Sj) 计算所 述候选串 Sj 的第一指标 I(Sj)。 3. 根据权利要求 2 所述。

5、的提取方法, 其特征在于, 根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二概率 P(Sj) 计算所述候选串 Sj 的所述第一指标包括 : 按照公式计算所述第一指标 I(Sj)。 4. 根据权利要求 1 所述的提取方法, 其特征在于, 根据记录每个所述候选串的边界计 算每个所述候选串的第二指标包括 : 根据记录每个所述候选串的边界计算候选串 Sj 的第一熵值和第二熵值, 其中, 所述第 一熵值为与字 CjL 相邻的字的熵值, 所述第二熵值为与字 CjR 相邻的字的熵值, 所述字 CjL 为位于所述候选串 Sj 的第一边界的字, 所述字 CjR 为位于所述候选串 。

6、Sj 的第二边界的字, j 依次取 1 至 m, m 为所述待处理语料中长度等于所述预设词长的候选串的个数 ; 以及 确定所述候选串 Sj 的第二指标为所述候选串 Sj 的所述第一熵值和所述第二熵值。 5. 根据权利要求 4 所述的提取方法, 其特征在于, 根据记录每个所述候选串的边界计 算候选串 Sj 的第一熵值和第二熵值包括 : 从记录每个所述候选串的边界中获取与所述字 CjL 相邻的字的第一集合 Sj(L), 并获 取与所述字 CjR 相邻的字的第二集合 Sj(R) ; 计算所述第一集合 Sj(L) 中的每个第一元素在所述第一集合 Sj(L) 中出现的概率 P(L), 并计算所述第二集合。

7、 Sj(R) 中的每个第二元素在所述第二集合 Sj(R) 中出现的概率 P(R) ; 以及 按照公式计算所述候选串 Sj 的第一熵值 L(Sj), 并按照 权 利 要 求 书 CN 104462061 A 2 2/3 页 3 公式计算所述候选串 Sj 的第二熵值 R(Sj)。 6. 根据权利要求 1 所述的提取方法, 其特征在于, 在提取所述第一指标和所述第二指 标均大于预设阈值的所述候选串, 得到所述待处理语料的词语集合之后, 所述提取方法还 包括 : 比较所述词语集合与预设词典, 得到非目标词语, 其中, 所述非目标词语为所述词语集 合和所述预设词典中相同的词语 ; 以及 从所述词语集合中。

8、删除所述非目标词语。 7. 一种词语提取装置, 其特征在于, 包括 : 第一计算单元, 用于对待处理语料进行字频计算, 得到所述待处理语料中的每个字在 所述待处理语料中出现的第一概率 ; 处理单元, 用于接收预设词长, 并计算长度小于或等于所述预设词长的每个候选串在 所述待处理语料中出现的第二概率, 以及记录每个所述候选串的边界 ; 第二计算单元, 用于根据所述第一概率和所述第二概率计算每个所述候选串的第一指 标, 并根据记录每个所述候选串的边界计算每个所述候选串的第二指标 ; 以及 提取单元, 用于提取所述第一指标大于第一预设阈值, 并且所述第二指标大于第二预 设阈值的所述候选串, 得到所述。

9、待处理语料的词语集合。 8. 根据权利要求 7 所述的提取装置, 其特征在于, 所述第二计算单元包括 : 第一获取模块, 用于获取属于候选串 Sj 的字 Cjk 的第一概率 P(Ck), 其中, j 依次取 1 至 m, k 依次取 j1 至 jn, m 为所述待处理语料中长度等于所述预设词长的候选串的个数, jn 为所述候选串 Sj 中字的个数 ; 以及 第一计算模块, 用于根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二 概率 P(Sj) 计算所述候选串 Sj 的第一指标 I(Sj)。 9. 根据权利要求 8 所述的提取装置, 其特征在于, 所述第一计算模块。

10、包括 : 计算子模块, 用于按照公式计算所述第一指标 I(Sj)。 10. 根据权利要求 7 所述的提取装置, 其特征在于, 所述第二计算单元包括 : 第二计算模块, 用于根据记录每个所述候选串的边界计算候选串 Sj 的第一熵值和第 二熵值, 其中, 所述第一熵值为与字 CjL 相邻的字的熵值, 所述第二熵值为与字 CjR 相邻的 字的熵值, 所述字 CjL 为位于所述候选串 Sj 的第一边界的字, 所述字 CjR 为位于所述候选 串 Sj 的第二边界的字, j 依次取 1 至 m, m 为所述待处理语料中长度等于所述预设词长的候 选串的个数 ; 以及 确定模块, 用于确定所述候选串 Sj 的。

11、第二指标为所述候选串 Sj 的所述第一熵值和所 述第二熵值。 11. 根据权利要求 10 所述的提取装置, 其特征在于, 所述第二计算模块包括 : 第二获取模块, 用于从记录每个所述候选串的边界中获取与所述字 CjL 相邻的字的第 一集合 Sj(L), 并获取与所述字 CjR 相邻的字的第二集合 Sj(R) ; 第三计算模块, 用于计算所述第一集合 Sj(L) 中的每个第一元素在所述第一集合 权 利 要 求 书 CN 104462061 A 3 3/3 页 4 Sj(L) 中出现的概率 P(L), 并计算所述第二集合 Sj(R) 中的每个第二元素在所述第二集合 Sj(R) 中出现的概率 P(R。

12、) ; 以及 第四计算模块, 用于按照公式计算所述候选串 Sj 的第 一熵值 L(Sj), 并按照公式计算所述候选串 Sj 的第二熵值 R(Sj)。 12. 根据权利要求 7 所述的提取装置, 其特征在于, 所述提取装置还包括 : 比较单元, 用于在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串, 得到所述待处理语料的词语集合之后, 比较所述词语集合与预设词典, 得到非目标词语, 其 中, 所述非目标词语为所述词语集合和所述预设词典中相同的词语 ; 以及 删除单元, 用于从所述词语集合中删除所述非目标词语。 权 利 要 求 书 CN 104462061 A 4 1/10 页 5 词语。

13、提取方法及提取装置 技术领域 0001 本发明涉及数据处理领域, 具体而言, 涉及一种词语提取方法及提取装置。 背景技术 0002 互联网技术的发展推进了语言的多样性, 大量的新词为自然语言处理和大数据分 析带来了困难, 目前尚无一种可以完全覆盖所有新词语的词典供分析使用, 现有研究中有 多种新词语技术, 其中主要的有两种, 一种是基于全切分的, 另一种是基于分词的。 0003 基于全切分的方法是指以字符为单位, 对所有的可能组合进行统计, 统计组合的 使用率并对比背景使用率, 提取出所有新出现的候选串, 使用字符串合并, 将使用率相同, 相互紧密联系的候选串合并 ; 使用其它规则过滤, 去除。

14、噪声, 最终得到新词语。 0004 基于全切分的方法不拘泥于词典, 考虑到所有词语组合, 但该方案运算消耗量大, 分析结果存在大量垃圾串, 剔除垃圾信息的规则繁复, 准确率和效率均较低。 0005 基于分词的方案首先对语料进行分词, 由于新词不存在词典当中, 故会被切分为 连续的单字。基于统计模型, 对连续单字的搭配关系进行最优路径分析, 最终得到新词语。 0006 分词错误往往产生连锁效应, 未登录词在分词中造成的影响大多会超过自身, 甚 至影响整个句子。因此分词后对连续单字的组合不能完全解决新词语问题, 准确度较低。 0007 针对相关技术中词语提取方式的准确度低的问题, 目前尚未提出有效。

15、的解决方 案。 发明内容 0008 本发明的主要目的在于提供一种词语提取方法及提取装置, 以解决现有技术中词 语提取方式的准确度低的问题。 0009 为了实现上述目的, 根据本发明的一个方面, 提供了一种词语提取方法。 0010 根据本发明的词语提取方法包括 : 对待处理语料进行字频计算, 得到所述待处理 语料中的每个字在所述待处理语料中出现的第一概率 ; 接收预设词长, 并计算长度小于或 等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率, 以及记录每个所述 候选串的边界 ; 根据所述第一概率和所述第二概率计算每个所述候选串的第一指标, 并根 据记录每个所述候选串的边界计算每个所述。

16、候选串的第二指标 ; 以及提取所述第一指标大 于第一预设阈值, 并且所述第二指标大于第二预设阈值的所述候选串, 得到所述待处理语 料的词语集合。 0011 进一步地, 根据所述第一概率和所述第二概率计算每个所述候选串的第一指标包 括 : 获取属于候选串Sj的字Cjk的第一概率P(Ck), 其中, j依次取1至m, k依次取j1至jn, m为所述待处理语料中长度等于所述预设词长的候选串的个数, jn为所述候选串Sj中字的 个数 ; 以及根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二概率 P(Sj) 计 算所述候选串 Sj 的第一指标 I(Sj)。 0012 进一。

17、步地, 根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二概率 说 明 书 CN 104462061 A 5 2/10 页 6 P(Sj) 计算所述候选串 Sj 的所述第一指标包括 : 按照公式计算所述第一 指标 I(Sj)。 0013 进一步地, 根据记录每个所述候选串的边界计算每个所述候选串的第二指标包 括 : 根据记录每个所述候选串的边界计算候选串 Sj 的第一熵值和第二熵值, 其中, 所述第 一熵值为与字 CjL 相邻的字的熵值, 所述第二熵值为与字 CjR 相邻的字的熵值, 所述字 CjL 为位于所述候选串 Sj 的第一边界的字, 所述字 CjR 为位于。

18、所述候选串 Sj 的第二边界的字, j 依次取 1 至 m, m 为所述待处理语料中长度等于所述预设词长的候选串的个数 ; 以及确定 所述候选串 Sj 的第二指标为所述候选串 Sj 的所述第一熵值和所述第二熵值。 0014 进一步地, 根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值 包括 : 从记录每个所述候选串的边界中获取与所述字 CjL 相邻的字的第一集合 Sj(L), 并获 取与所述字 CjR 相邻的字的第二集合 Sj(R) ; 计算所述第一集合 Sj(L) 中的每个第一元素 在所述第一集合 Sj(L) 中出现的概率 P(L), 并计算所述第二集合 Sj(R) 中的每个第。

19、二元素 在所述第二集合 Sj(R) 中出现的概率 P(R) ; 以及按照公式 计算所述候选串Sj的第一熵值L(Sj), 并按照公式计算所述 候选串 Sj 的第二熵值 R(Sj)。 0015 进一步地, 在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串, 得到所述待处理语料的词语集合之后, 所述提取方法还包括 : 比较所述词语集合与预设词 典, 得到非目标词语, 其中, 所述非目标词语为所述词语集合和所述预设词典中相同的词 语 ; 以及从所述词语集合中删除所述非目标词语。 0016 为了实现上述目的, 根据本发明的另一方面, 提供了一种词语提取装置。 0017 根据本发明的词语提取装置。

20、包括 : 第一计算单元, 用于对待处理语料进行字频计 算, 得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率 ; 处理单元, 用于 接收预设词长, 并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出 现的第二概率, 以及记录每个所述候选串的边界 ; 第二计算单元, 用于根据所述第一概率和 所述第二概率计算每个所述候选串的第一指标, 并根据记录每个所述候选串的边界计算每 个所述候选串的第二指标 ; 以及提取单元, 用于提取所述第一指标大于第一预设阈值, 并且 所述第二指标大于第二预设阈值的所述候选串, 得到所述待处理语料的词语集合。 0018 进一步地, 所述第二计算单。

21、元包括 : 第一获取模块, 用于获取属于候选串 Sj 的字 Cjk 的第一概率 P(Ck), 其中, j 依次取 1 至 m, k 依次取 j1 至 jn, m 为所述待处理语料中长 度等于所述预设词长的候选串的个数, jn 为所述候选串 Sj 中字的个数 ; 以及第一计算模 块, 用于根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二概率 P(Sj) 计算 所述候选串 Sj 的第一指标 I(Sj)。 0019 进一步地, 所述第一计算模块包括 : 计算子模块, 用于按照公式 说 明 书 CN 104462061 A 6 3/10 页 7 计算所述第一指标 I(S。

22、j)。 0020 进一步地, 所述第二计算单元包括 : 第二计算模块, 用于根据记录每个所述候选串 的边界计算候选串 Sj 的第一熵值和第二熵值, 其中, 所述第一熵值为与字 CjL 相邻的字的 熵值, 所述第二熵值为与字 CjR 相邻的字的熵值, 所述字 CjL 为位于所述候选串 Sj 的第一 边界的字, 所述字 CjR 为位于所述候选串 Sj 的第二边界的字, j 依次取 1 至 m, m 为所述待 处理语料中长度等于所述预设词长的候选串的个数 ; 以及确定模块, 用于确定所述候选串 Sj 的第二指标为所述候选串 Sj 的所述第一熵值和所述第二熵值。 0021 进一步地, 所述第二计算模块。

23、包括 : 第二获取模块, 用于从记录每个所述候选 串的边界中获取与所述字 CjL 相邻的字的第一集合 Sj(L), 并获取与所述字 CjR 相邻 的字的第二集合 Sj(R) ; 第三计算模块, 用于计算所述第一集合 Sj(L) 中的每个第一 元素在所述第一集合 Sj(L) 中出现的概率 P(L), 并计算所述第二集合 Sj(R) 中的每个 第二元素在所述第二集合 Sj(R) 中出现的概率 P(R) ; 以及第四计算模块, 用于按照公 式计算所述候选串 Sj 的第一熵值 L(Sj), 并按照公式 计算所述候选串 Sj 的第二熵值 R(Sj)。 0022 进一步地, 所述提取装置还包括 : 比较单。

24、元, 用于在提取所述第一指标和所述第二 指标均大于预设阈值的所述候选串, 得到所述待处理语料的词语集合之后, 比较所述词语 集合与预设词典, 得到非目标词语, 其中, 所述非目标词语为所述词语集合和所述预设词典 中相同的词语 ; 以及删除单元, 用于从所述词语集合中删除所述非目标词语。 0023 通过本发明, 采用对待处理语料进行字频计算, 得到所述待处理语料中的每个字 在所述待处理语料中出现的第一概率 ; 接收预设词长, 并计算长度小于或等于所述预设词 长的每个候选串在所述待处理语料中出现的第二概率, 以及记录每个所述候选串的边界 ; 根据所述第一概率和所述第二概率计算每个所述候选串的第一指。

25、标, 并根据记录每个所述 候选串的边界计算每个所述候选串的第二指标 ; 以及提取所述第一指标大于第一预设阈 值, 并且所述第二指标均大于第二预设阈值的所述候选串, 得到所述待处理语料的词语集 合。通过以字和候选串为基础进行相关概率的计算, 实现了以词语语言学的定义为基点来 计算概率, 进而计算基于字的第一概率和候选串的第二概率的第一指标, 以及基于边界的 第二指标, 实现了以候选串的表征特性为衡量指标进行词的筛选。此种从待处理语料中提 取词语的方式, 以词语语言学的定义为基点, 不依赖词典, 解决了现有技术中词语提取方式 的准确度低的问题, 进而达到了提高词语提取准确度的效果。并且, 此种提取。

26、方式逻辑简 单, 达到了提高提取效率和减少运算消耗量的效果。 附图说明 0024 构成本申请的一部分的附图用来提供对本发明的进一步理解, 本发明的示意性实 施例及其说明用于解释本发明, 并不构成对本发明的不当限定。在附图中 : 0025 图 1 是根据本发明实施例的词语提取方法的流程图 ; 以及 0026 图 2 是根据本发明实施例的词语提取装置的示意图。 说 明 书 CN 104462061 A 7 4/10 页 8 具体实施方式 0027 需要说明的是, 在不冲突的情况下, 本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。 0028 为了使本技术。

27、领域的人员更好地理解本发明方案, 下面将结合本发明实施例中的 附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例仅仅是 本发明一部分的实施例, 而不是全部的实施例。基于本发明中的实施例, 本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都应当属于本发明保护的范 围。 0029 需要说明的是, 本发明的说明书和权利要求书及上述附图中的术语 “第一” 、“第 二” 等是用于区别类似的对象, 而不必用于描述特定的顺序或先后次序。应该理解这样使 用的数据在适当情况下可以互换, 以便这里描述的本发明的实施例。此外, 术语 “包括” 和 “具有” 以。

28、及他们的任何变形, 意图在于覆盖不排他的包含, 例如, 包含了一系列步骤或单元 的过程、 方法、 系统、 产品或设备不必限于清楚地列出的那些步骤或单元, 而是可包括没有 清楚地列出的或对于这些过程、 方法、 产品或设备固有的其它步骤或单元。 0030 根据本发明实施例, 提供了一种用于编译的文件路径的确定方法, 图 1 是根据本 发明实施例的词语提取方法的流程图, 如图 1 所示, 该方法包括如下的步骤 S102 至步骤 S108 : 0031 S102 : 对待处理语料进行字频计算, 得到待处理语料中的每个字在待处理语料中 出现的第一概率, 通过待处理语料确定了词语提取的范围, 具体范围可以。

29、根据需求设置, 如 : 某段话或者某篇文章等, 字频即为待处理语料所包含的每个字在待处理语料中出现的 频率, 该频率即为第一概率。例如 : 待处理语料中包含 100 个字, 其中,“的” 字出现了 20 次, 那么 “的” 字的第一概率为 25。 0032 S104 : 接收预设词长, 并计算长度小于或等于预设词长的每个候选串在待处理语 料中出现的第二概率, 以及记录每个候选串的边界, 具体地, 在本发明实施例中, 根据接收 的预设词长, 利用 N-Gram 对语料进行处理, 并计算每个候选串在待处理语料中出现的概 率, 该概率即为第二概率, 比如 : 待处理语料为 “权利要求书” , 使用 。

30、3Gram 对 “权利要求书” 进行处理, 会得到多个候选串, 依次分别为 :“权利要” 、“权利” 、“权” 、“利要求” 、“利要” 、 “利” 、“要求书” 、“要求” 、“要” 、“求书” 、“求” 和 “书” 。预设词长可以根据需求设置, 通常设 置的是最大词长 ; 候选串的边界分为左边界和右边界, 将候选串看作一个整体, 左边界就是 在该候选串中最左边的一个字, 右边界就是在该候选串最右边的一个字。 例如 : 对于候选串 “北京” , 则 “北” 和 “京” 为候选串 “北京” 的边界, 其中,“北” 为左边界,“京” 为右边界。 0033 S106 : 根据第一概率和第二概率计算。

31、每个候选串的第一指标, 并根据记录每个候 选串的边界计算每个候选串的第二指标, 其中, 第一指标为凝固度, 第二指标为自由度。 0034 S108 : 提取第一指标大于第一预设阈值, 并且第二指标大于第二预设阈值的候选 串, 得到待处理语料的词语集合, 即, 只有既满足第一指标大于第一预设阈值, 又满足第二 指标大于第二预设阈值的候选串, 才会被提取出来, 将被提取出来的候选串汇总, 得到待处 理语料的词语的集合, 也就是提取凝固度高于第一预设阈值, 并且自由度高于第二预设阈 值的候选串, 得到待处理语料的词语的集合, 其中, 第一预设阈值和第二预设阈值可以根据 需求设置。 说 明 书 CN 。

32、104462061 A 8 5/10 页 9 0035 在本发明实施例中, 通过以字和候选串为基础进行相关概率的计算, 实现了以词 语语言学的定义为基点来计算概率, 进而计算基于字的第一概率和候选串的第二概率的第 一指标, 以及基于边界的第二指标, 实现了以候选串的表征特性为衡量指标进行词的筛选。 此种从待处理语料中提取词语的方式, 以词语语言学的定义为基点, 不依赖词典, 解决了现 有技术中词语提取方式的准确度低的问题, 进而达到了提高词语提取准确度的效果。 并且, 此种提取方式逻辑简单, 达到了提高提取效率和减少运算消耗量的效果。 0036 具体地, 在本发明实施例中, 第一指标可以通过步。

33、骤 1-1 至步骤 1-2 计算得出, 步 骤 1-1 至步骤 1-2 具体如下 : 0037 步骤 1-1 : 获取属于候选串 Sj 的字 Cjk 的第一概率 P(Ck), 其中, j 依次取 1 至 m, k 依次取 j1 至 jn, m 为待处理语料中长度等于预设词长的候选串的个数, jn 为候选串 Sj 中 字的个数, 也就是获取每个候选串中包含的每个字在待处理语料中出现的概率, 从而得到 多个第一概率。例如 : 候选串 “北京” 中包括两个字, 分别是 “北” 和 “京” , 假设 “北” 字在待 处理语料中出现的概率为 5,“京” 字在待处理语料中出现的概率为 3, 那么关于候选串。

34、 “北京” 中的字得到两个第一概率, 分别是 5和 3。 0038 步骤1-2 : 根据第一概率P(Cj1)至第一概率P(Cjn)和候选串Sj的第二概率P(Sj) 计算候选串Sj的第一指标I(Sj), 也即, 根据每个候选串的全部第一概率和全部第二概率共 同计算出第一指标 I(Sj)。具体地, 第一指标 I(Sj) 可以按照公式计算得 出。 0039 具体地, 在本发明实施例中, 根据记录每个候选串的边界计算每个候选串的第二 指标包括 : 0040 根据记录每个候选串的边界计算候选串 Sj 的第一熵值和第二熵值, 其中, 第一熵 值为与字 CjL 相邻的字的熵值, 第二熵值为与字 CjR 相邻。

35、的字的熵值, 字 CjL 为位于候选串 Sj 的第一边界的字, 字 CjR 为位于候选串 Sj 的第二边界的字, j 依次取 1 至 m, m 为待处理 语料中长度等于预设词长的候选串的个数。具体地, 候选串的第一边界可以称为该候选串 的左边界, 第二边界可以称为该候选串的右边界, 也就是根据与每个候选串的左边界的字 相邻的字计算出该候选串的第一熵值, 根据与每个候选串的右边界的字相邻的字计算出该 候选串的第二熵值, 其中, 第一熵值可以称为左边界熵值, 第二熵值可以称为右边界熵值。 0041 确定候选串Sj的第二指标为候选串Sj的第一熵值和第二熵值, 即, 根据计算出的 每个候选串的第一熵值。

36、和第二熵值确定出该候选串的第二指标。 0042 具体地, 在本发明实施例中, 可以利用每个候选串的边界通过步骤 2-1 至步骤 2-3 计算出每个候选串的第一熵值和第二熵值, 其中, 步骤 2-1 至步骤 2-3 具体如下 : 0043 步骤 2-1 : 从记录每个候选串的边界中获取与字 CjL 相邻的字的第一集合 Sj(L), 并获取与字CjR相邻的字的第二集合Sj(R), 也就是, 分别获取与候选串的左边界(即, 第一 边界)的字相邻的字, 组成第一集合Sj(L), 以及与候选串的右边界(即, 第二边界)的字相 邻的字, 组成第二集合 Sj(R)。例如 : 在待处理语料中, 出现多次候选串。

37、 “北京” , 根据上述说 明可知, 候选串 “北京” 的左边界的字为 “北” , 与 “北” 相邻的字有 “在” 和 “去” , 候选串 “北 京” 的右边界的字为 “京” , 与 “京” 相邻的字有 “工” 和 “玩” , 那么 “在” 和 “去” 组成第一集 说 明 书 CN 104462061 A 9 6/10 页 10 合,“工” 和 “玩” 组成第二集合。 0044 步骤 2-2 : 计算第一集合 Sj(L) 中的每个第一元素在第一集合 Sj(L) 中出现的概 率 P(L), 并计算第二集合 Sj(R) 中的每个第二元素在第二集合 Sj(R) 中出现的概率 P(R)。 具体地, 第。

38、一元素为第一集合中的字, 一个第一集合中的字就是一个第一元素, 同样的, 第 二元素为第二集合中的字, 一个第二集合中的字就是一个第二元素。本步骤也就是计算第 一集合中的每个字在第一集合中出现的概率和第二集合中的每个字在第二集合中出现的 概率, 具体可以通过第一集合中的每个字在该集合中出现的次数与第一集合中所有的字出 现的总次数的比值, 得出第一集合中每个字的概率, 通过第二集合中的每个字在该集合中 出现的次数与第二集合中所有的字出现的总次数的比值, 得出第二集合中每个字的概率。 继续采用步骤 2-1 中的举例进行说明, 在第一集合中,“在” 出现了 2 次,“去” 出现了三次, 那么 “在”。

39、 的概率为 2/5,“去” 的概率为 3/5, 依照上述过程, 可以计算出第二集合中的每个 字出现的概率。 0045 步骤 2-3 : 按照公式计算候选串 Sj 的第一熵 值 L(Sj), 也就是, 首先将第一集合 Sj(L) 中的每个字出现的概率 P(L) 与该概率 P(L) 的对数相乘, 然后将上个步骤中得到的所有结果求和, 最后得到第一熵值 ; 并按照公式 计算候选串 Sj 的第二熵值 R(Sj), 同样的, 首先对第二集合 Sj(R)中的每个字出现的概率P(R)与该概率P(R)的对数相乘, 然后将上个步骤中得到的所 有结果求和, 最后得到第二熵值。 0046 优选地, 在提取第一指标和。

40、第二指标均大于预设阈值的候选串, 得到待处理语料 的词语集合之后, 本发明实施例所提供的提取方法还包括 : 比较词语集合与预设词典, 得到 非目标词语, 其中, 非目标词语为词语集合和预设词典中相同的词语, 即, 找出词语集合和 预设词典中都共同包含的词语, 该词语即为目标词语 ; 从词语集合中删除非目标词语, 在词 语集合中将词语集合和预设词典中都共同包含的词语删除, 得到新词语的集合。 0047 在本发明实施例中, 通过将得到的词语集合与预设词典进行比较之后, 再得到新 词语的集合, 达到了进一步提高提取词语的精确度的效果。 0048 需要说明的是, 对于前述的各方法实施例, 为了简单描述。

41、, 故将其都表述为一系列 的动作组合, 但是本领域技术人员应该知悉, 本发明并不受所描述的动作顺序的限制, 因为 依据本发明, 某些步骤可以采用其他顺序或者同时进行。其次, 本领域技术人员也应该知 悉, 说明书中所描述的实施例均属于优选实施例, 所涉及的动作和模块并不一定是本发明 所必须的。 0049 通过以上的实施方式的描述, 本领域的技术人员可以清楚地了解到根据上述实施 例的方法可借助软件加必需的通用硬件平台的方式来实现, 当然也可以通过硬件, 但很多 情况下前者是更佳的实施方式。基于这样的理解, 本发明的技术方案本质上或者说对现有 技术做出贡献的部分可以以软件产品的形式体现出来, 该计算。

42、机软件产品存储在一个存储 介质 ( 如 ROM/RAM、 磁碟、 光盘 ) 中, 包括若干指令用以使得一台终端设备 ( 可以是手机, 计 算机, 服务器, 或者网络设备等 ) 执行本发明各个实施例所述的方法。 0050 实施例 2 说 明 书 CN 104462061 A 10 7/10 页 11 0051 根据本发明实施例, 还提供了一种用于实施上述词语提取方法的词语提取装置, 该词语提取装置主要用于执行本发明实施例上述内容所提供的词语提取方法, 以下对本发 明实施例所提供的词语提取装置做具体介绍 : 0052 根据本发明实施例, 提供了一种词语提取装置, 图 2 是根据本发明实施例的词语 。

43、提取装置的示意图, 如图 2 所示, 该装置主要包括第一计算单元 10、 处理单元 20、 第二计算 单元 30 和提取单元 40, 其中 : 0053 第一计算单元 10 用于对待处理语料进行字频计算, 得到待处理语料中的每个字 在待处理语料中出现的第一概率, 通过待处理语料确定了词语提取的范围, 具体范围可以 根据需求设置, 如 : 某段话或者某篇文章等, 字频即为待处理语料所包含的每个字在待处理 语料中出现的频率, 该频率即为第一概率。例如 : 待处理语料中包含 100 个字, 其中,“的” 字 出现了 20 次, 那么 “的” 字的第一概率为 25。 0054 处理单元 20 用于接收。

44、预设词长, 并计算长度等于预设词长的每个候选串在待处 理语料中出现的第二概率, 以及记录每个候选串的边界, 具体地, 在本发明实施例中, 根据 接收的预设词长, 利用 N-Gram 对语料进行处理, 并计算每个候选串在待处理语料中出现的 概率, 该概率即为第二概率, 比如 : 待处理语料为 “权利要求书” , 使用 3Gram 对 “权利要求 书” 进行处理, 会得到多个候选串, 依次分别为 :“权利要” 、“权利” 、“权” 、“利要求” 、“利要” 、 “利” 、“要求书” 、“要求” 、“要” 、“求书” 、“求” 和 “书” 。预设词长可以根据需求设置, 通常设 置的是最大词长 ; 候。

45、选串的边界分为左边界和右边界, 将候选串看作一个整体, 左边界就是 在该候选串中最左边的一个字, 右边界就是在该候选串最右边的一个字。 例如 : 对于候选串 “北京” , 则 “北” 和 “京” 为候选串 “北京” 的边界, 其中,“北” 为左边界,“京” 为右边界。 0055 第二计算单元 30 用于根据第一概率和第二概率计算每个候选串的第一指标, 并 根据记录每个候选串的边界计算每个候选串的第二指标, 其中, 第一指标为凝固度, 第二指 标为自由度。 0056 提取单元 40 用于提取第一指标大于第一预设阈值, 并且第二指标大于第二预设 阈值的候选串, 得到待处理语料的词语集合, 即, 只。

46、有既满足第一指标大于第一预设阈值, 又满足第二指标大于第二预设阈值的候选串, 才会被提取出来, 将被提取出来的候选串汇 总, 得到待处理语料的词语的集合, 也就是提取凝固度高于第一预设阈值, 并且自由度高于 第二预设阈值的候选串, 得到待处理语料的词语的集合, 其中, 第一预设阈值和第二预设阈 值可以根据需求设置。 0057 在本发明实施例中, 通过以字和候选串为基础进行相关概率的计算, 实现了以词 语语言学的定义为基点来计算概率, 进而计算基于字的第一概率和候选串的第二概率的第 一指标, 以及基于边界的第二指标, 实现了以候选串的表征特性为衡量指标进行词的筛选。 此种从待处理语料中提取词语的。

47、方式, 以词语语言学的定义为基点, 不依赖词典, 解决了现 有技术中词语提取方式的准确度低的问题, 进而达到了提高词语提取准确度的效果。 并且, 此种提取方式逻辑简单, 达到了提高提取效率和减少运算消耗量的效果。 0058 具体地, 在本发明实施例中, 第二计算单元 30 包括第一获取模块和第一计算模 块, 其中 : 0059 第一获取模块用于获取属于候选串 Sj 的字 Cjk 的第一概率 P(Ck), 其中, j 依次取 1 至 m, k 依次取 j1 至 jn, m 为待处理语料中长度等于预设词长的候选串的个数, jn 为候选 说 明 书 CN 104462061 A 11 8/10 页 。

48、12 串 Sj 中字的个数, 也就是获取每个候选串中包含的每个字在待处理语料中出现的概率, 从 而得到多个第一概率。例如 : 候选串 “北京” 中包括两个字, 分别是 “北” 和 “京” , 假设 “北” 字在待处理语料中出现的概率为 5,“京” 字在待处理语料中出现的概率为 3, 那么关于 候选串 “北京” 中的字得到两个第一概率, 分别是 5和 3。 0060 第一计算模块, 用于根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和候选串 Sj 的第二 概率 P(Sj) 计算候选串 Sj 的第一指标 I(Sj) 也即, 根据每个候选串的全部第一概率和全部 第二概率共同计算出第一指标 I。

49、(Sj)。具体地, 第一计算模块包括计算子模块, 计算子模块 用于按照公式计算第一指标 I(Sj)。 0061 具体地, 在本发明实施例中, 第二计算单元 30 包括第二计算模块和确定模块, 其 中 : 0062 第二计算模块用于根据记录每个候选串的边界计算候选串 Sj 的第一熵值和第二 熵值, 其中, 第一熵值为与字CjL相邻的字的熵值, 第二熵值为与字CjR相邻的字的熵值, 字 CjL 为位于候选串 Sj 的第一边界的字, 字 CjR 为位于候选串 Sj 的第二边界的字, j 依次取 1 至 m, m 为待处理语料中长度等于预设词长的候选串的个数。具体地, 候选串的第一边界 可以称为该候选串的左边界, 第二边界可以称为该候选串的右边界, 也就是根据与每个候 选串的左边界的字相邻的字计算出该候选串的第一熵值, 根据与每个候选串的右边界的字 相邻的字计算出该候选串的第二熵值, 其中, 第一熵值可以称为左边界熵值, 第二熵值可以 称为右边界熵值。 0063 确定模块用于确定候选串Sj的第二指标为候选串S。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1