《词语提取方法及提取装置.pdf》由会员分享,可在线阅读,更多相关《词语提取方法及提取装置.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410738661.4 (22)申请日 2014.12.05 G06F 17/27(2006.01) (71)申请人 北京国双科技有限公司 地址 100086 北京市海淀区双榆树小区知春 路 76 号翠宫饭店 8 层 A 间 (72)发明人 侯明午 (74)专利代理机构 北京康信知识产权代理有限 责任公司 11240 代理人 吴贵明 张永明 (54) 发明名称 词语提取方法及提取装置 (57) 摘要 本发明公开了一种词语提取方法及提取装 置。其中, 该词语提取方法包括 : 对待处理语料进 行字频计算, 得到待处理语料中的每个字在待处。
2、 理语料中出现的第一概率 ; 接收预设词长, 并计 算长度小于或等于预设词长的每个候选串在待处 理语料中出现的第二概率, 以及记录每个候选串 的边界 ; 根据第一概率和第二概率计算每个候选 串的第一指标, 并根据记录每个候选串的边界计 算每个候选串的第二指标 ; 提取第一指标大于第 一预设阈值, 并且第二指标大于第二预设阈值的 候选串, 得到待处理语料的词语集合。通过本发 明, 解决了现有技术中词语提取方式的准确度低 的问题, 进而达到了提高词语提取准确度的效果。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书10页 附图2页 (10。
3、)申请公布号 CN 104462061 A (43)申请公布日 2015.03.25 CN 104462061 A 1/3 页 2 1. 一种词语提取方法, 其特征在于, 包括 : 对待处理语料进行字频计算, 得到所述待处理语料中的每个字在所述待处理语料中出 现的第一概率 ; 接收预设词长, 并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料 中出现的第二概率, 以及记录每个所述候选串的边界 ; 根据所述第一概率和所述第二概率计算每个所述候选串的第一指标, 并根据记录每个 所述候选串的边界计算每个所述候选串的第二指标 ; 以及 提取所述第一指标大于第一预设阈值, 并且所述第二指标大于。
4、第二预设阈值的所述候 选串, 得到所述待处理语料的词语集合。 2. 根据权利要求 1 所述的提取方法, 其特征在于, 根据所述第一概率和所述第二概率 计算每个所述候选串的第一指标包括 : 获取属于候选串 Sj 的字 Cjk 的第一概率 P(Ck), 其中, j 依次取 1 至 m, k 依次取 j1 至 jn, m 为所述待处理语料中长度等于所述预设词长的候选串的个数, jn 为所述候选串 Sj 中 字的个数 ; 以及 根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二概率 P(Sj) 计算所 述候选串 Sj 的第一指标 I(Sj)。 3. 根据权利要求 2 所述。
5、的提取方法, 其特征在于, 根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二概率 P(Sj) 计算所述候选串 Sj 的所述第一指标包括 : 按照公式计算所述第一指标 I(Sj)。 4. 根据权利要求 1 所述的提取方法, 其特征在于, 根据记录每个所述候选串的边界计 算每个所述候选串的第二指标包括 : 根据记录每个所述候选串的边界计算候选串 Sj 的第一熵值和第二熵值, 其中, 所述第 一熵值为与字 CjL 相邻的字的熵值, 所述第二熵值为与字 CjR 相邻的字的熵值, 所述字 CjL 为位于所述候选串 Sj 的第一边界的字, 所述字 CjR 为位于所述候选串 。
6、Sj 的第二边界的字, j 依次取 1 至 m, m 为所述待处理语料中长度等于所述预设词长的候选串的个数 ; 以及 确定所述候选串 Sj 的第二指标为所述候选串 Sj 的所述第一熵值和所述第二熵值。 5. 根据权利要求 4 所述的提取方法, 其特征在于, 根据记录每个所述候选串的边界计 算候选串 Sj 的第一熵值和第二熵值包括 : 从记录每个所述候选串的边界中获取与所述字 CjL 相邻的字的第一集合 Sj(L), 并获 取与所述字 CjR 相邻的字的第二集合 Sj(R) ; 计算所述第一集合 Sj(L) 中的每个第一元素在所述第一集合 Sj(L) 中出现的概率 P(L), 并计算所述第二集合。
7、 Sj(R) 中的每个第二元素在所述第二集合 Sj(R) 中出现的概率 P(R) ; 以及 按照公式计算所述候选串 Sj 的第一熵值 L(Sj), 并按照 权 利 要 求 书 CN 104462061 A 2 2/3 页 3 公式计算所述候选串 Sj 的第二熵值 R(Sj)。 6. 根据权利要求 1 所述的提取方法, 其特征在于, 在提取所述第一指标和所述第二指 标均大于预设阈值的所述候选串, 得到所述待处理语料的词语集合之后, 所述提取方法还 包括 : 比较所述词语集合与预设词典, 得到非目标词语, 其中, 所述非目标词语为所述词语集 合和所述预设词典中相同的词语 ; 以及 从所述词语集合中。
8、删除所述非目标词语。 7. 一种词语提取装置, 其特征在于, 包括 : 第一计算单元, 用于对待处理语料进行字频计算, 得到所述待处理语料中的每个字在 所述待处理语料中出现的第一概率 ; 处理单元, 用于接收预设词长, 并计算长度小于或等于所述预设词长的每个候选串在 所述待处理语料中出现的第二概率, 以及记录每个所述候选串的边界 ; 第二计算单元, 用于根据所述第一概率和所述第二概率计算每个所述候选串的第一指 标, 并根据记录每个所述候选串的边界计算每个所述候选串的第二指标 ; 以及 提取单元, 用于提取所述第一指标大于第一预设阈值, 并且所述第二指标大于第二预 设阈值的所述候选串, 得到所述。
9、待处理语料的词语集合。 8. 根据权利要求 7 所述的提取装置, 其特征在于, 所述第二计算单元包括 : 第一获取模块, 用于获取属于候选串 Sj 的字 Cjk 的第一概率 P(Ck), 其中, j 依次取 1 至 m, k 依次取 j1 至 jn, m 为所述待处理语料中长度等于所述预设词长的候选串的个数, jn 为所述候选串 Sj 中字的个数 ; 以及 第一计算模块, 用于根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二 概率 P(Sj) 计算所述候选串 Sj 的第一指标 I(Sj)。 9. 根据权利要求 8 所述的提取装置, 其特征在于, 所述第一计算模块。
10、包括 : 计算子模块, 用于按照公式计算所述第一指标 I(Sj)。 10. 根据权利要求 7 所述的提取装置, 其特征在于, 所述第二计算单元包括 : 第二计算模块, 用于根据记录每个所述候选串的边界计算候选串 Sj 的第一熵值和第 二熵值, 其中, 所述第一熵值为与字 CjL 相邻的字的熵值, 所述第二熵值为与字 CjR 相邻的 字的熵值, 所述字 CjL 为位于所述候选串 Sj 的第一边界的字, 所述字 CjR 为位于所述候选 串 Sj 的第二边界的字, j 依次取 1 至 m, m 为所述待处理语料中长度等于所述预设词长的候 选串的个数 ; 以及 确定模块, 用于确定所述候选串 Sj 的。
11、第二指标为所述候选串 Sj 的所述第一熵值和所 述第二熵值。 11. 根据权利要求 10 所述的提取装置, 其特征在于, 所述第二计算模块包括 : 第二获取模块, 用于从记录每个所述候选串的边界中获取与所述字 CjL 相邻的字的第 一集合 Sj(L), 并获取与所述字 CjR 相邻的字的第二集合 Sj(R) ; 第三计算模块, 用于计算所述第一集合 Sj(L) 中的每个第一元素在所述第一集合 权 利 要 求 书 CN 104462061 A 3 3/3 页 4 Sj(L) 中出现的概率 P(L), 并计算所述第二集合 Sj(R) 中的每个第二元素在所述第二集合 Sj(R) 中出现的概率 P(R。
12、) ; 以及 第四计算模块, 用于按照公式计算所述候选串 Sj 的第 一熵值 L(Sj), 并按照公式计算所述候选串 Sj 的第二熵值 R(Sj)。 12. 根据权利要求 7 所述的提取装置, 其特征在于, 所述提取装置还包括 : 比较单元, 用于在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串, 得到所述待处理语料的词语集合之后, 比较所述词语集合与预设词典, 得到非目标词语, 其 中, 所述非目标词语为所述词语集合和所述预设词典中相同的词语 ; 以及 删除单元, 用于从所述词语集合中删除所述非目标词语。 权 利 要 求 书 CN 104462061 A 4 1/10 页 5 词语。
13、提取方法及提取装置 技术领域 0001 本发明涉及数据处理领域, 具体而言, 涉及一种词语提取方法及提取装置。 背景技术 0002 互联网技术的发展推进了语言的多样性, 大量的新词为自然语言处理和大数据分 析带来了困难, 目前尚无一种可以完全覆盖所有新词语的词典供分析使用, 现有研究中有 多种新词语技术, 其中主要的有两种, 一种是基于全切分的, 另一种是基于分词的。 0003 基于全切分的方法是指以字符为单位, 对所有的可能组合进行统计, 统计组合的 使用率并对比背景使用率, 提取出所有新出现的候选串, 使用字符串合并, 将使用率相同, 相互紧密联系的候选串合并 ; 使用其它规则过滤, 去除。
14、噪声, 最终得到新词语。 0004 基于全切分的方法不拘泥于词典, 考虑到所有词语组合, 但该方案运算消耗量大, 分析结果存在大量垃圾串, 剔除垃圾信息的规则繁复, 准确率和效率均较低。 0005 基于分词的方案首先对语料进行分词, 由于新词不存在词典当中, 故会被切分为 连续的单字。基于统计模型, 对连续单字的搭配关系进行最优路径分析, 最终得到新词语。 0006 分词错误往往产生连锁效应, 未登录词在分词中造成的影响大多会超过自身, 甚 至影响整个句子。因此分词后对连续单字的组合不能完全解决新词语问题, 准确度较低。 0007 针对相关技术中词语提取方式的准确度低的问题, 目前尚未提出有效。
15、的解决方 案。 发明内容 0008 本发明的主要目的在于提供一种词语提取方法及提取装置, 以解决现有技术中词 语提取方式的准确度低的问题。 0009 为了实现上述目的, 根据本发明的一个方面, 提供了一种词语提取方法。 0010 根据本发明的词语提取方法包括 : 对待处理语料进行字频计算, 得到所述待处理 语料中的每个字在所述待处理语料中出现的第一概率 ; 接收预设词长, 并计算长度小于或 等于所述预设词长的每个候选串在所述待处理语料中出现的第二概率, 以及记录每个所述 候选串的边界 ; 根据所述第一概率和所述第二概率计算每个所述候选串的第一指标, 并根 据记录每个所述候选串的边界计算每个所述。
16、候选串的第二指标 ; 以及提取所述第一指标大 于第一预设阈值, 并且所述第二指标大于第二预设阈值的所述候选串, 得到所述待处理语 料的词语集合。 0011 进一步地, 根据所述第一概率和所述第二概率计算每个所述候选串的第一指标包 括 : 获取属于候选串Sj的字Cjk的第一概率P(Ck), 其中, j依次取1至m, k依次取j1至jn, m为所述待处理语料中长度等于所述预设词长的候选串的个数, jn为所述候选串Sj中字的 个数 ; 以及根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二概率 P(Sj) 计 算所述候选串 Sj 的第一指标 I(Sj)。 0012 进一。
17、步地, 根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二概率 说 明 书 CN 104462061 A 5 2/10 页 6 P(Sj) 计算所述候选串 Sj 的所述第一指标包括 : 按照公式计算所述第一 指标 I(Sj)。 0013 进一步地, 根据记录每个所述候选串的边界计算每个所述候选串的第二指标包 括 : 根据记录每个所述候选串的边界计算候选串 Sj 的第一熵值和第二熵值, 其中, 所述第 一熵值为与字 CjL 相邻的字的熵值, 所述第二熵值为与字 CjR 相邻的字的熵值, 所述字 CjL 为位于所述候选串 Sj 的第一边界的字, 所述字 CjR 为位于。
18、所述候选串 Sj 的第二边界的字, j 依次取 1 至 m, m 为所述待处理语料中长度等于所述预设词长的候选串的个数 ; 以及确定 所述候选串 Sj 的第二指标为所述候选串 Sj 的所述第一熵值和所述第二熵值。 0014 进一步地, 根据记录每个所述候选串的边界计算候选串Sj的第一熵值和第二熵值 包括 : 从记录每个所述候选串的边界中获取与所述字 CjL 相邻的字的第一集合 Sj(L), 并获 取与所述字 CjR 相邻的字的第二集合 Sj(R) ; 计算所述第一集合 Sj(L) 中的每个第一元素 在所述第一集合 Sj(L) 中出现的概率 P(L), 并计算所述第二集合 Sj(R) 中的每个第。
19、二元素 在所述第二集合 Sj(R) 中出现的概率 P(R) ; 以及按照公式 计算所述候选串Sj的第一熵值L(Sj), 并按照公式计算所述 候选串 Sj 的第二熵值 R(Sj)。 0015 进一步地, 在提取所述第一指标和所述第二指标均大于预设阈值的所述候选串, 得到所述待处理语料的词语集合之后, 所述提取方法还包括 : 比较所述词语集合与预设词 典, 得到非目标词语, 其中, 所述非目标词语为所述词语集合和所述预设词典中相同的词 语 ; 以及从所述词语集合中删除所述非目标词语。 0016 为了实现上述目的, 根据本发明的另一方面, 提供了一种词语提取装置。 0017 根据本发明的词语提取装置。
20、包括 : 第一计算单元, 用于对待处理语料进行字频计 算, 得到所述待处理语料中的每个字在所述待处理语料中出现的第一概率 ; 处理单元, 用于 接收预设词长, 并计算长度小于或等于所述预设词长的每个候选串在所述待处理语料中出 现的第二概率, 以及记录每个所述候选串的边界 ; 第二计算单元, 用于根据所述第一概率和 所述第二概率计算每个所述候选串的第一指标, 并根据记录每个所述候选串的边界计算每 个所述候选串的第二指标 ; 以及提取单元, 用于提取所述第一指标大于第一预设阈值, 并且 所述第二指标大于第二预设阈值的所述候选串, 得到所述待处理语料的词语集合。 0018 进一步地, 所述第二计算单。
21、元包括 : 第一获取模块, 用于获取属于候选串 Sj 的字 Cjk 的第一概率 P(Ck), 其中, j 依次取 1 至 m, k 依次取 j1 至 jn, m 为所述待处理语料中长 度等于所述预设词长的候选串的个数, jn 为所述候选串 Sj 中字的个数 ; 以及第一计算模 块, 用于根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和所述候选串 Sj 的第二概率 P(Sj) 计算 所述候选串 Sj 的第一指标 I(Sj)。 0019 进一步地, 所述第一计算模块包括 : 计算子模块, 用于按照公式 说 明 书 CN 104462061 A 6 3/10 页 7 计算所述第一指标 I(S。
22、j)。 0020 进一步地, 所述第二计算单元包括 : 第二计算模块, 用于根据记录每个所述候选串 的边界计算候选串 Sj 的第一熵值和第二熵值, 其中, 所述第一熵值为与字 CjL 相邻的字的 熵值, 所述第二熵值为与字 CjR 相邻的字的熵值, 所述字 CjL 为位于所述候选串 Sj 的第一 边界的字, 所述字 CjR 为位于所述候选串 Sj 的第二边界的字, j 依次取 1 至 m, m 为所述待 处理语料中长度等于所述预设词长的候选串的个数 ; 以及确定模块, 用于确定所述候选串 Sj 的第二指标为所述候选串 Sj 的所述第一熵值和所述第二熵值。 0021 进一步地, 所述第二计算模块。
23、包括 : 第二获取模块, 用于从记录每个所述候选 串的边界中获取与所述字 CjL 相邻的字的第一集合 Sj(L), 并获取与所述字 CjR 相邻 的字的第二集合 Sj(R) ; 第三计算模块, 用于计算所述第一集合 Sj(L) 中的每个第一 元素在所述第一集合 Sj(L) 中出现的概率 P(L), 并计算所述第二集合 Sj(R) 中的每个 第二元素在所述第二集合 Sj(R) 中出现的概率 P(R) ; 以及第四计算模块, 用于按照公 式计算所述候选串 Sj 的第一熵值 L(Sj), 并按照公式 计算所述候选串 Sj 的第二熵值 R(Sj)。 0022 进一步地, 所述提取装置还包括 : 比较单。
24、元, 用于在提取所述第一指标和所述第二 指标均大于预设阈值的所述候选串, 得到所述待处理语料的词语集合之后, 比较所述词语 集合与预设词典, 得到非目标词语, 其中, 所述非目标词语为所述词语集合和所述预设词典 中相同的词语 ; 以及删除单元, 用于从所述词语集合中删除所述非目标词语。 0023 通过本发明, 采用对待处理语料进行字频计算, 得到所述待处理语料中的每个字 在所述待处理语料中出现的第一概率 ; 接收预设词长, 并计算长度小于或等于所述预设词 长的每个候选串在所述待处理语料中出现的第二概率, 以及记录每个所述候选串的边界 ; 根据所述第一概率和所述第二概率计算每个所述候选串的第一指。
25、标, 并根据记录每个所述 候选串的边界计算每个所述候选串的第二指标 ; 以及提取所述第一指标大于第一预设阈 值, 并且所述第二指标均大于第二预设阈值的所述候选串, 得到所述待处理语料的词语集 合。通过以字和候选串为基础进行相关概率的计算, 实现了以词语语言学的定义为基点来 计算概率, 进而计算基于字的第一概率和候选串的第二概率的第一指标, 以及基于边界的 第二指标, 实现了以候选串的表征特性为衡量指标进行词的筛选。此种从待处理语料中提 取词语的方式, 以词语语言学的定义为基点, 不依赖词典, 解决了现有技术中词语提取方式 的准确度低的问题, 进而达到了提高词语提取准确度的效果。并且, 此种提取。
26、方式逻辑简 单, 达到了提高提取效率和减少运算消耗量的效果。 附图说明 0024 构成本申请的一部分的附图用来提供对本发明的进一步理解, 本发明的示意性实 施例及其说明用于解释本发明, 并不构成对本发明的不当限定。在附图中 : 0025 图 1 是根据本发明实施例的词语提取方法的流程图 ; 以及 0026 图 2 是根据本发明实施例的词语提取装置的示意图。 说 明 书 CN 104462061 A 7 4/10 页 8 具体实施方式 0027 需要说明的是, 在不冲突的情况下, 本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。 0028 为了使本技术。
27、领域的人员更好地理解本发明方案, 下面将结合本发明实施例中的 附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例仅仅是 本发明一部分的实施例, 而不是全部的实施例。基于本发明中的实施例, 本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都应当属于本发明保护的范 围。 0029 需要说明的是, 本发明的说明书和权利要求书及上述附图中的术语 “第一” 、“第 二” 等是用于区别类似的对象, 而不必用于描述特定的顺序或先后次序。应该理解这样使 用的数据在适当情况下可以互换, 以便这里描述的本发明的实施例。此外, 术语 “包括” 和 “具有” 以。
28、及他们的任何变形, 意图在于覆盖不排他的包含, 例如, 包含了一系列步骤或单元 的过程、 方法、 系统、 产品或设备不必限于清楚地列出的那些步骤或单元, 而是可包括没有 清楚地列出的或对于这些过程、 方法、 产品或设备固有的其它步骤或单元。 0030 根据本发明实施例, 提供了一种用于编译的文件路径的确定方法, 图 1 是根据本 发明实施例的词语提取方法的流程图, 如图 1 所示, 该方法包括如下的步骤 S102 至步骤 S108 : 0031 S102 : 对待处理语料进行字频计算, 得到待处理语料中的每个字在待处理语料中 出现的第一概率, 通过待处理语料确定了词语提取的范围, 具体范围可以。
29、根据需求设置, 如 : 某段话或者某篇文章等, 字频即为待处理语料所包含的每个字在待处理语料中出现的 频率, 该频率即为第一概率。例如 : 待处理语料中包含 100 个字, 其中,“的” 字出现了 20 次, 那么 “的” 字的第一概率为 25。 0032 S104 : 接收预设词长, 并计算长度小于或等于预设词长的每个候选串在待处理语 料中出现的第二概率, 以及记录每个候选串的边界, 具体地, 在本发明实施例中, 根据接收 的预设词长, 利用 N-Gram 对语料进行处理, 并计算每个候选串在待处理语料中出现的概 率, 该概率即为第二概率, 比如 : 待处理语料为 “权利要求书” , 使用 。
30、3Gram 对 “权利要求书” 进行处理, 会得到多个候选串, 依次分别为 :“权利要” 、“权利” 、“权” 、“利要求” 、“利要” 、 “利” 、“要求书” 、“要求” 、“要” 、“求书” 、“求” 和 “书” 。预设词长可以根据需求设置, 通常设 置的是最大词长 ; 候选串的边界分为左边界和右边界, 将候选串看作一个整体, 左边界就是 在该候选串中最左边的一个字, 右边界就是在该候选串最右边的一个字。 例如 : 对于候选串 “北京” , 则 “北” 和 “京” 为候选串 “北京” 的边界, 其中,“北” 为左边界,“京” 为右边界。 0033 S106 : 根据第一概率和第二概率计算。
31、每个候选串的第一指标, 并根据记录每个候 选串的边界计算每个候选串的第二指标, 其中, 第一指标为凝固度, 第二指标为自由度。 0034 S108 : 提取第一指标大于第一预设阈值, 并且第二指标大于第二预设阈值的候选 串, 得到待处理语料的词语集合, 即, 只有既满足第一指标大于第一预设阈值, 又满足第二 指标大于第二预设阈值的候选串, 才会被提取出来, 将被提取出来的候选串汇总, 得到待处 理语料的词语的集合, 也就是提取凝固度高于第一预设阈值, 并且自由度高于第二预设阈 值的候选串, 得到待处理语料的词语的集合, 其中, 第一预设阈值和第二预设阈值可以根据 需求设置。 说 明 书 CN 。
32、104462061 A 8 5/10 页 9 0035 在本发明实施例中, 通过以字和候选串为基础进行相关概率的计算, 实现了以词 语语言学的定义为基点来计算概率, 进而计算基于字的第一概率和候选串的第二概率的第 一指标, 以及基于边界的第二指标, 实现了以候选串的表征特性为衡量指标进行词的筛选。 此种从待处理语料中提取词语的方式, 以词语语言学的定义为基点, 不依赖词典, 解决了现 有技术中词语提取方式的准确度低的问题, 进而达到了提高词语提取准确度的效果。 并且, 此种提取方式逻辑简单, 达到了提高提取效率和减少运算消耗量的效果。 0036 具体地, 在本发明实施例中, 第一指标可以通过步。
33、骤 1-1 至步骤 1-2 计算得出, 步 骤 1-1 至步骤 1-2 具体如下 : 0037 步骤 1-1 : 获取属于候选串 Sj 的字 Cjk 的第一概率 P(Ck), 其中, j 依次取 1 至 m, k 依次取 j1 至 jn, m 为待处理语料中长度等于预设词长的候选串的个数, jn 为候选串 Sj 中 字的个数, 也就是获取每个候选串中包含的每个字在待处理语料中出现的概率, 从而得到 多个第一概率。例如 : 候选串 “北京” 中包括两个字, 分别是 “北” 和 “京” , 假设 “北” 字在待 处理语料中出现的概率为 5,“京” 字在待处理语料中出现的概率为 3, 那么关于候选串。
34、 “北京” 中的字得到两个第一概率, 分别是 5和 3。 0038 步骤1-2 : 根据第一概率P(Cj1)至第一概率P(Cjn)和候选串Sj的第二概率P(Sj) 计算候选串Sj的第一指标I(Sj), 也即, 根据每个候选串的全部第一概率和全部第二概率共 同计算出第一指标 I(Sj)。具体地, 第一指标 I(Sj) 可以按照公式计算得 出。 0039 具体地, 在本发明实施例中, 根据记录每个候选串的边界计算每个候选串的第二 指标包括 : 0040 根据记录每个候选串的边界计算候选串 Sj 的第一熵值和第二熵值, 其中, 第一熵 值为与字 CjL 相邻的字的熵值, 第二熵值为与字 CjR 相邻。
35、的字的熵值, 字 CjL 为位于候选串 Sj 的第一边界的字, 字 CjR 为位于候选串 Sj 的第二边界的字, j 依次取 1 至 m, m 为待处理 语料中长度等于预设词长的候选串的个数。具体地, 候选串的第一边界可以称为该候选串 的左边界, 第二边界可以称为该候选串的右边界, 也就是根据与每个候选串的左边界的字 相邻的字计算出该候选串的第一熵值, 根据与每个候选串的右边界的字相邻的字计算出该 候选串的第二熵值, 其中, 第一熵值可以称为左边界熵值, 第二熵值可以称为右边界熵值。 0041 确定候选串Sj的第二指标为候选串Sj的第一熵值和第二熵值, 即, 根据计算出的 每个候选串的第一熵值。
36、和第二熵值确定出该候选串的第二指标。 0042 具体地, 在本发明实施例中, 可以利用每个候选串的边界通过步骤 2-1 至步骤 2-3 计算出每个候选串的第一熵值和第二熵值, 其中, 步骤 2-1 至步骤 2-3 具体如下 : 0043 步骤 2-1 : 从记录每个候选串的边界中获取与字 CjL 相邻的字的第一集合 Sj(L), 并获取与字CjR相邻的字的第二集合Sj(R), 也就是, 分别获取与候选串的左边界(即, 第一 边界)的字相邻的字, 组成第一集合Sj(L), 以及与候选串的右边界(即, 第二边界)的字相 邻的字, 组成第二集合 Sj(R)。例如 : 在待处理语料中, 出现多次候选串。
37、 “北京” , 根据上述说 明可知, 候选串 “北京” 的左边界的字为 “北” , 与 “北” 相邻的字有 “在” 和 “去” , 候选串 “北 京” 的右边界的字为 “京” , 与 “京” 相邻的字有 “工” 和 “玩” , 那么 “在” 和 “去” 组成第一集 说 明 书 CN 104462061 A 9 6/10 页 10 合,“工” 和 “玩” 组成第二集合。 0044 步骤 2-2 : 计算第一集合 Sj(L) 中的每个第一元素在第一集合 Sj(L) 中出现的概 率 P(L), 并计算第二集合 Sj(R) 中的每个第二元素在第二集合 Sj(R) 中出现的概率 P(R)。 具体地, 第。
38、一元素为第一集合中的字, 一个第一集合中的字就是一个第一元素, 同样的, 第 二元素为第二集合中的字, 一个第二集合中的字就是一个第二元素。本步骤也就是计算第 一集合中的每个字在第一集合中出现的概率和第二集合中的每个字在第二集合中出现的 概率, 具体可以通过第一集合中的每个字在该集合中出现的次数与第一集合中所有的字出 现的总次数的比值, 得出第一集合中每个字的概率, 通过第二集合中的每个字在该集合中 出现的次数与第二集合中所有的字出现的总次数的比值, 得出第二集合中每个字的概率。 继续采用步骤 2-1 中的举例进行说明, 在第一集合中,“在” 出现了 2 次,“去” 出现了三次, 那么 “在”。
39、 的概率为 2/5,“去” 的概率为 3/5, 依照上述过程, 可以计算出第二集合中的每个 字出现的概率。 0045 步骤 2-3 : 按照公式计算候选串 Sj 的第一熵 值 L(Sj), 也就是, 首先将第一集合 Sj(L) 中的每个字出现的概率 P(L) 与该概率 P(L) 的对数相乘, 然后将上个步骤中得到的所有结果求和, 最后得到第一熵值 ; 并按照公式 计算候选串 Sj 的第二熵值 R(Sj), 同样的, 首先对第二集合 Sj(R)中的每个字出现的概率P(R)与该概率P(R)的对数相乘, 然后将上个步骤中得到的所 有结果求和, 最后得到第二熵值。 0046 优选地, 在提取第一指标和。
40、第二指标均大于预设阈值的候选串, 得到待处理语料 的词语集合之后, 本发明实施例所提供的提取方法还包括 : 比较词语集合与预设词典, 得到 非目标词语, 其中, 非目标词语为词语集合和预设词典中相同的词语, 即, 找出词语集合和 预设词典中都共同包含的词语, 该词语即为目标词语 ; 从词语集合中删除非目标词语, 在词 语集合中将词语集合和预设词典中都共同包含的词语删除, 得到新词语的集合。 0047 在本发明实施例中, 通过将得到的词语集合与预设词典进行比较之后, 再得到新 词语的集合, 达到了进一步提高提取词语的精确度的效果。 0048 需要说明的是, 对于前述的各方法实施例, 为了简单描述。
41、, 故将其都表述为一系列 的动作组合, 但是本领域技术人员应该知悉, 本发明并不受所描述的动作顺序的限制, 因为 依据本发明, 某些步骤可以采用其他顺序或者同时进行。其次, 本领域技术人员也应该知 悉, 说明书中所描述的实施例均属于优选实施例, 所涉及的动作和模块并不一定是本发明 所必须的。 0049 通过以上的实施方式的描述, 本领域的技术人员可以清楚地了解到根据上述实施 例的方法可借助软件加必需的通用硬件平台的方式来实现, 当然也可以通过硬件, 但很多 情况下前者是更佳的实施方式。基于这样的理解, 本发明的技术方案本质上或者说对现有 技术做出贡献的部分可以以软件产品的形式体现出来, 该计算。
42、机软件产品存储在一个存储 介质 ( 如 ROM/RAM、 磁碟、 光盘 ) 中, 包括若干指令用以使得一台终端设备 ( 可以是手机, 计 算机, 服务器, 或者网络设备等 ) 执行本发明各个实施例所述的方法。 0050 实施例 2 说 明 书 CN 104462061 A 10 7/10 页 11 0051 根据本发明实施例, 还提供了一种用于实施上述词语提取方法的词语提取装置, 该词语提取装置主要用于执行本发明实施例上述内容所提供的词语提取方法, 以下对本发 明实施例所提供的词语提取装置做具体介绍 : 0052 根据本发明实施例, 提供了一种词语提取装置, 图 2 是根据本发明实施例的词语 。
43、提取装置的示意图, 如图 2 所示, 该装置主要包括第一计算单元 10、 处理单元 20、 第二计算 单元 30 和提取单元 40, 其中 : 0053 第一计算单元 10 用于对待处理语料进行字频计算, 得到待处理语料中的每个字 在待处理语料中出现的第一概率, 通过待处理语料确定了词语提取的范围, 具体范围可以 根据需求设置, 如 : 某段话或者某篇文章等, 字频即为待处理语料所包含的每个字在待处理 语料中出现的频率, 该频率即为第一概率。例如 : 待处理语料中包含 100 个字, 其中,“的” 字 出现了 20 次, 那么 “的” 字的第一概率为 25。 0054 处理单元 20 用于接收。
44、预设词长, 并计算长度等于预设词长的每个候选串在待处 理语料中出现的第二概率, 以及记录每个候选串的边界, 具体地, 在本发明实施例中, 根据 接收的预设词长, 利用 N-Gram 对语料进行处理, 并计算每个候选串在待处理语料中出现的 概率, 该概率即为第二概率, 比如 : 待处理语料为 “权利要求书” , 使用 3Gram 对 “权利要求 书” 进行处理, 会得到多个候选串, 依次分别为 :“权利要” 、“权利” 、“权” 、“利要求” 、“利要” 、 “利” 、“要求书” 、“要求” 、“要” 、“求书” 、“求” 和 “书” 。预设词长可以根据需求设置, 通常设 置的是最大词长 ; 候。
45、选串的边界分为左边界和右边界, 将候选串看作一个整体, 左边界就是 在该候选串中最左边的一个字, 右边界就是在该候选串最右边的一个字。 例如 : 对于候选串 “北京” , 则 “北” 和 “京” 为候选串 “北京” 的边界, 其中,“北” 为左边界,“京” 为右边界。 0055 第二计算单元 30 用于根据第一概率和第二概率计算每个候选串的第一指标, 并 根据记录每个候选串的边界计算每个候选串的第二指标, 其中, 第一指标为凝固度, 第二指 标为自由度。 0056 提取单元 40 用于提取第一指标大于第一预设阈值, 并且第二指标大于第二预设 阈值的候选串, 得到待处理语料的词语集合, 即, 只。
46、有既满足第一指标大于第一预设阈值, 又满足第二指标大于第二预设阈值的候选串, 才会被提取出来, 将被提取出来的候选串汇 总, 得到待处理语料的词语的集合, 也就是提取凝固度高于第一预设阈值, 并且自由度高于 第二预设阈值的候选串, 得到待处理语料的词语的集合, 其中, 第一预设阈值和第二预设阈 值可以根据需求设置。 0057 在本发明实施例中, 通过以字和候选串为基础进行相关概率的计算, 实现了以词 语语言学的定义为基点来计算概率, 进而计算基于字的第一概率和候选串的第二概率的第 一指标, 以及基于边界的第二指标, 实现了以候选串的表征特性为衡量指标进行词的筛选。 此种从待处理语料中提取词语的。
47、方式, 以词语语言学的定义为基点, 不依赖词典, 解决了现 有技术中词语提取方式的准确度低的问题, 进而达到了提高词语提取准确度的效果。 并且, 此种提取方式逻辑简单, 达到了提高提取效率和减少运算消耗量的效果。 0058 具体地, 在本发明实施例中, 第二计算单元 30 包括第一获取模块和第一计算模 块, 其中 : 0059 第一获取模块用于获取属于候选串 Sj 的字 Cjk 的第一概率 P(Ck), 其中, j 依次取 1 至 m, k 依次取 j1 至 jn, m 为待处理语料中长度等于预设词长的候选串的个数, jn 为候选 说 明 书 CN 104462061 A 11 8/10 页 。
48、12 串 Sj 中字的个数, 也就是获取每个候选串中包含的每个字在待处理语料中出现的概率, 从 而得到多个第一概率。例如 : 候选串 “北京” 中包括两个字, 分别是 “北” 和 “京” , 假设 “北” 字在待处理语料中出现的概率为 5,“京” 字在待处理语料中出现的概率为 3, 那么关于 候选串 “北京” 中的字得到两个第一概率, 分别是 5和 3。 0060 第一计算模块, 用于根据第一概率 P(Cj1) 至第一概率 P(Cjn) 和候选串 Sj 的第二 概率 P(Sj) 计算候选串 Sj 的第一指标 I(Sj) 也即, 根据每个候选串的全部第一概率和全部 第二概率共同计算出第一指标 I。
49、(Sj)。具体地, 第一计算模块包括计算子模块, 计算子模块 用于按照公式计算第一指标 I(Sj)。 0061 具体地, 在本发明实施例中, 第二计算单元 30 包括第二计算模块和确定模块, 其 中 : 0062 第二计算模块用于根据记录每个候选串的边界计算候选串 Sj 的第一熵值和第二 熵值, 其中, 第一熵值为与字CjL相邻的字的熵值, 第二熵值为与字CjR相邻的字的熵值, 字 CjL 为位于候选串 Sj 的第一边界的字, 字 CjR 为位于候选串 Sj 的第二边界的字, j 依次取 1 至 m, m 为待处理语料中长度等于预设词长的候选串的个数。具体地, 候选串的第一边界 可以称为该候选串的左边界, 第二边界可以称为该候选串的右边界, 也就是根据与每个候 选串的左边界的字相邻的字计算出该候选串的第一熵值, 根据与每个候选串的右边界的字 相邻的字计算出该候选串的第二熵值, 其中, 第一熵值可以称为左边界熵值, 第二熵值可以 称为右边界熵值。 0063 确定模块用于确定候选串Sj的第二指标为候选串S。