《一种基于词库的动态规划中文分词方法.pdf》由会员分享,可在线阅读,更多相关《一种基于词库的动态规划中文分词方法.pdf(7页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104252542 A (43)申请公布日 2014.12.31 CN 104252542 A (21)申请号 201410507974.9 (22)申请日 2014.09.29 G06F 17/30(2006.01) G06F 17/27(2006.01) (71)申请人 南京航空航天大学 地址 210000 江苏省南京市南京航空航天大 学将军路校区 (72)发明人 孙珂 田冰川 张道强 (74)专利代理机构 南京钟山专利代理有限公司 32252 代理人 戴朝荣 (54) 发明名称 一种基于词库的动态规划中文分词方法 (57) 摘要 一种基于词库的动态规划中文分词方。
2、法, 其 特征在于, 包括如下步骤 :(1)加载常用中文词 库 ;(2) 加载非常用中文词库 ;(3) 读入中文文本, 获得当前中文文本内容 ;(4) 对于中文文本进行 分句, 将中文文本分成一个个短句 ;(5) 进行动态 规划中文自动分词 ;(6) 从最后一个词开始扫描, 得到分词结果进行词性分析加入词性标注, 输出 结果 ;(7) 将未登录词存入非常用中文词库 ;(8) 判断文本是否结束 ; 若否, 转入步骤 (4) , 进行循 环处理。本发明的有益效果为 : 准确率高、 效率 快, 分词精度可达到与人类类似的水平, 分词速度 可达到每秒 2MB 以上。 (51)Int.Cl. 权利要求书。
3、 1 页 说明书 3 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书3页 附图2页 (10)申请公布号 CN 104252542 A CN 104252542 A 1/1 页 2 1. 一种基于词库的动态规划中文分词方法, 其特征在于, 包括如下步骤 :(1) 加载常用 中文词库 ;(2) 加载非常用中文词库 ;(3) 读入中文文本, 获得当前中文文本内容 ;(4) 对于 中文文本进行分句, 将中文文本分成一个个短句 ;(5) 进行动态规划中文自动分词 ; 寻找第 一个词的可能位置, 记Fi表示当前分到第i个字分到的最少词数 ; 对于每个字。
4、开始转移, 从当前字开始寻找转移, 寻找他前一个词 ; 当 FiFj+1, 算法一定保证整个 句子分出的是最小词数。基于词库的动态规划中文分词方法将两种方法结合到一起, 有效 的提升了中文分词的效率。 0016 如图 2 所示, 为双数组字典树。双数组字典树是一种特殊的字典树, 相较字典树而 言, 它的空间利用率更高, 消耗的内存更小, 查询的效率与普通字典树相同。双数组字典树 的数据结构由两个整数数组构成, 一个是 base, 为词语的地址, 一个是 check, 为字的 hash 值。设数组下标为 i, 如果 basei、 checki 均为 0, 表示该位置为空。如果 basei 说 明。
5、 书 CN 104252542 A 4 3/3 页 5 为负值, 表示该状态为词语, checki 表示该状态的前一状态。 0017 双数组字典树构造分词算法词典, 假定词表中只有 “啊, 阿根廷, 阿胶, 阿拉伯, 阿 拉伯人, 埃及” 这几个词。 首先对此表中所有出现的10个汉字进行编码, 啊-1、 阿-2、 唉-3、 根 -4、 胶 -5、 拉 -6、 及 -7、 廷 -8、 伯 -9、 人 -10。对于每一个汉字, 需要确定一个 base 值, 使 得对于所有以该汉字开头的词, 在双数组中都能放下。例如, 现在要确定 “阿” 字的 base 值, 假设以 “阿” 开头的词的第二个字序列。
6、码依次为 a1、 a2、 a3an, 必须找到一个值 i, 使得 basei+a1、 checki+a1、 basei+a2、 checki+a2basei+an、 checki+an 均为 0。一旦找到了这个 i,“阿” 的 base 值就确定为 i。 0018 如图 3 所示, 将上述例子构建双数组字典树, 经过四次遍历, 将所有的词语放入双 数组中, 然后遍历一遍词表, 修改 base 值。用负的 base 值表示该位置为词语, 如果状态 i 对应某一个词, 而且 basei=0, 那么令 basei=(-1) *i ; 如果 basei 的值不是 0, 那么 另 basei=(-1) 。
7、*basei。 0019 除此之外, 还需维护一些特殊词表, 例如单独成词的虚词词表, 地名词表, 人名词 表等未登录词表, 进一步提升软件的正确率。 0020 这种基于词库的动态规划中文分词方法, 在时间复杂度上仍然是线性级别的, 对 于每个字只需要找到它的前驱, 所以时间复杂度非常小。 0021 使用人民日报 1998 年 1 月份语料, 在与人工正确分词进行比对后, 准确率达到了 98.8904%, 分词速率为 2504kb/s。 0022 尽管本发明就优选实施方式进行了示意和描述, 但本领域的技术人员应当理解, 只要不超出本发明的权利要求所限定的范围, 可以对本发明进行各种变化和修改。 说 明 书 CN 104252542 A 5 1/2 页 6 图 1 说 明 书 附 图 CN 104252542 A 6 2/2 页 7 图 2 图 3 说 明 书 附 图 CN 104252542 A 7 。