《识别具有组合型歧义的歧义词的方法和装置.pdf》由会员分享,可在线阅读,更多相关《识别具有组合型歧义的歧义词的方法和装置.pdf(30页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103514150 A (43)申请公布日 2014.01.15 CN 103514150 A (21)申请号 201210211767.X (22)申请日 2012.06.21 G06F 17/27(2006.01) (71)申请人 富士通株式会社 地址 日本神奈川县 (72)发明人 郑仲光 孟遥 于浩 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 杜诚 陈炜 (54) 发明名称 识别具有组合型歧义的歧义词的方法和装置 (57) 摘要 本发明公开了一种识别具有组合型歧义的歧 义词的方法和装置。该方法包括 : 利用核心词表 对第一语言句子进。
2、行粗粒度切分 ; 利用核心词表 在粗粒度切分后的分词结果中检测能够被分解成 更小粒度的多个词的候选歧义词 ; 通过分解候选 歧义词对第一语言句子进行细粒度切分 ; 从与第 一语言句子对应的第二语言句子中分别抽取候选 歧义词的译文、 和候选歧义词所分解成的更小粒 度的多个词的译文 ; 以及判断所抽取的候选歧义 词和更小粒度的多个词的译文是否出现在通过第 一语言与第二语言词典得到的候选歧义词和更小 粒度的多个词的译文中, 以确定候选歧义词是真 歧义词还是伪歧义词。 (51)Int.Cl. 权利要求书 3 页 说明书 17 页 附图 9 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请。
3、 权利要求书3页 说明书17页 附图9页 (10)申请公布号 CN 103514150 A CN 103514150 A 1/3 页 2 1. 一种识别具有组合型歧义的歧义词的方法, 包括 : 利用核心词表, 对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒 度切分 ; 利用所述核心词表, 在所述粗粒度切分后的分词结果中检测能够被分解成更小粒度的 多个词的候选歧义词, 组成候选歧义词集合 ; 通过分解所述候选歧义词, 对所述第一语言句子进行细粒度切分 ; 将通过粗粒度切分所述第一语言句子得到的粗粒度第一语言词以及通过细粒度切分 所述第一语言句子得到的细粒度第一语言词分别与所述第一语。
4、言句子所对应的第二语言 句子中的第二语言词进行词对齐, 以从所述第二语言句子中分别抽取所述候选歧义词的译 文、 和所述候选歧义词所分解成的更小粒度的多个词的译文 ; 以及 判断所抽取的所述候选歧义词的译文是否出现在通过第一语言与第二语言词典得到 的所述候选歧义词的所有译文中, 以及判断所抽取的所述候选歧义词所分解成的更小粒度 的多个词的译文是否出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所 分解成的更小粒度的多个词的所有译文中, 以确定所述候选歧义词是真歧义词还是伪歧义 词, 并且确定包含所述候选歧义词的所述第一语言句子是正例还是反例。 2. 根据权利要求 1 所述的识别具有组合型。
5、歧义的歧义词的方法, 其中, 在所抽取的所 述候选歧义词的译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义 词的所有译文中、 并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文出现 在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个 词的所有译文中的情况下, 将所述候选歧义词确定为真歧义词, 并将包含所述真歧义词的 所述第一语言句子作为反例。 3. 根据权利要求 1 所述的识别具有组合型歧义的歧义词的方法, 其中, 在所抽取的所 述候选歧义词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词的 所有译文中、 并且所抽取的所述候选歧义词。
6、所分解成的更小粒度的多个词的译文没有出现 在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个 词的所有译文中的情况下, 将所述候选歧义词确定为伪歧义词, 并将包含所述伪歧义词的 所述第一语言句子作为正例。 4. 根据权利要求 1-3 中任一项所述的识别具有组合型歧义的歧义词的方法, 还包括 : 在第一语言单语语料中, 根据所述候选歧义词的上下文特征集合来判断所述候选歧义 词是真歧义词还是伪歧义词。 5. 根据权利要求 1-3 中任一项所述的识别具有组合型歧义的歧义词的方法, 还包括 : 利用所述第一语言与第二语言词典, 获取所述候选歧义词集合中的每个候选歧义词的 所有。
7、译文 ; 在第二语言单语语料中统计所述每个候选歧义词的所有译文中的每个译文的词频, 并 将其中词频最高的若干个译文选择为所述每个候选歧义词的实际译文 ; 对于所述每个候选歧义词的每个实际译文, 在所述第二语言单语语料中选择固定词数 的上下文作为特征词, 并为每个所述特征词赋予对应的权重, 从而由所述特征词及其对应 的权重组成特征向量, 以及将所述特征向量的集合作为共现模型 ; 以及 利用所述共现模型来判断包含所述候选歧义词的第一语言句子是正例还是反例。 权 利 要 求 书 CN 103514150 A 2 2/3 页 3 6. 一种识别具有组合型歧义的歧义词的装置, 包括 : 粗粒度切分单元,。
8、 用于利用核心词表, 对涉及第一语言和第二语言的平行语料库中的 第一语言句子进行粗粒度切分 ; 检测单元, 用于利用所述核心词表, 在所述粗粒度切分后的分词结果中检测能够被分 解成更小粒度的多个词的候选歧义词, 组成候选歧义词集合 ; 细粒度切分单元, 用于通过分解所述候选歧义词, 对所述第一语言句子进行细粒度切 分 ; 抽取单元, 用于将通过粗粒度切分所述第一语言句子得到的粗粒度第一语言词以及通 过细粒度切分所述第一语言句子得到的细粒度第一语言词分别与所述第一语言句子所对 应的第二语言句子中的第二语言词进行词对齐, 以从所述第二语言句子中分别抽取所述候 选歧义词的译文、 和所述候选歧义词所分。
9、解成的更小粒度的多个词的译文 ; 以及 确定单元, 用于判断所抽取的所述候选歧义词的译文是否出现在通过第一语言与第二 语言词典得到的所述候选歧义词的所有译文中, 以及判断所抽取的所述候选歧义词所分解 成的更小粒度的多个词的译文是否出现在通过所述第一语言与第二语言词典得到的所述 候选歧义词所分解成的更小粒度的多个词的所有译文中, 以确定所述候选歧义词是真歧义 词还是伪歧义词, 并且确定包含所述候选歧义词的所述第一语言句子是正例还是反例。 7. 根据权利要求 6 所述的识别具有组合型歧义的歧义词的装置, 其中, 所述确定单元 在所抽取的所述候选歧义词的译文没有出现在通过所述第一语言与第二语言词典得。
10、到的 所述候选歧义词的所有译文中、 并且所抽取的所述候选歧义词所分解成的更小粒度的多个 词的译文出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更 小粒度的多个词的所有译文中的情况下, 将所述候选歧义词确定为真歧义词, 并将包含所 述真歧义词的所述第一语言句子作为反例。 8. 根据权利要求 6 所述的识别具有组合型歧义的歧义词的装置, 其中, 所述确定单元 在所抽取的所述候选歧义词的译文出现在通过所述第一语言与第二语言词典得到的所述 候选歧义词的所有译文中、 并且所抽取的所述候选歧义词所分解成的更小粒度的多个词的 译文没有出现在通过所述第一语言与第二语言词典得到的所述候选歧义。
11、词所分解成的更 小粒度的多个词的所有译文中的情况下, 将所述候选歧义词确定为伪歧义词, 并将包含所 述伪歧义词的所述第一语言句子作为正例。 9. 根据权利要求 6-8 中任一项所述的识别具有组合型歧义的歧义词的装置, 还包括 : 真伪歧义词判断单元, 用于在第一语言单语语料中, 根据所述候选歧义词的上下文特 征集合来判断所述候选歧义词是真歧义词还是伪歧义词。 10. 根据权利要求 6-8 中任一项所述的识别具有组合型歧义的歧义词的装置, 还包括 : 获取单元, 用于利用所述第一语言与第二语言词典, 获取所述候选歧义词集合中的每 个候选歧义词的所有译文 ; 选择单元, 用于在第二语言单语语料中统。
12、计所述每个候选歧义词的所有译文中的每个 译文的词频, 并将其中词频最高的若干个译文选择为所述每个候选歧义词的实际译文 ; 特征向量生成单元, 用于对于所述每个候选歧义词的每个实际译文, 在所述第二语言 单语语料中选择固定词数的上下文作为特征词, 并为每个所述特征词赋予对应的权重, 从 而由所述特征词及其对应的权重组成特征向量, 以及将所述特征向量的集合作为共现模 权 利 要 求 书 CN 103514150 A 3 3/3 页 4 型 ; 以及 正反例判断单元, 用于利用所述共现模型来判断包含所述候选歧义词的第一语言句子 是正例还是反例。 权 利 要 求 书 CN 103514150 A 4 。
13、1/17 页 5 识别具有组合型歧义的歧义词的方法和装置 技术领域 0001 本申请总体上涉及自然语言处理的领域, 尤其涉及识别具有组合型歧义的歧义词 的方法和设备。 背景技术 0002 在自然语言处理中, 分词是其中的一个基本课题。大部分自然语言处理都建立在 分词的结果之上, 因此分词的质量直接影响到后续工作的准确性。由于自然语言自身的特 点, 在自然语言的分词过程中, 会遇到分词歧义的问题。以汉语为例, 汉语的分词歧义主要 包括如下两种 : 交集型歧义和组合型歧义。一般, 假设 A、 X 和 B 分别为词串, 如果其组成的 词串 AXB 满足 AX 和 XB 同时为词的条件, 则称词串 A。
14、XB 具有交集型歧义。另外, 假设 W 是汉 语词集合, 如果一个词 w W, 并且该词 w 可以分解为连续的词串 w1, w2, wn(n 为大 于或等于 2 的自然数) , wi W(i=1, 2, n) , 而且 w 和 w1, w2, wn在汉语句子中 均存在, 则称 w 具有组合型歧义。 0003 交集型歧义的解决方案比较明确, 现有的方案可以取得较好的效果。 然而, 对于组 合型歧义, 目前的解决方案还较少。关于组合型歧义, 现有的解决方案主要分成以下两种 : 一种是通过观察预料库, 人工总结歧义现象, 另一种是人工标注一部分语料作为训练集, 利 用机器学习的方法来学习歧义现象。但。
15、是, 现有的解决方案存在很多缺点。例如, 人工很难 总结出语料中潜在的歧义现象, 而且人工的方式需要大量的时间和人力, 成本很高。而且, 组合型歧义具有领域相关的特点, 即在不同的领域会产生不同的歧义现象, 人工的方式很 难预测。另外, 人工标注语料也是成本很高的过程, 如果分词系统应用在新的领域, 就需要 重新标注新的语料。 0004 因此, 期望提供一种能够适用于不同领域并且能够高效地和准确地识别具有组合 型歧义的歧义词的方法和装置。 发明内容 0005 在下文中将给出关于本发明的简要概述, 以便提供关于本发明的某些方面的基本 理解。应当理解, 这个概述并不是关于本发明的穷举性概述。它并不。
16、是意图确定本发明的 关键或重要部分, 也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念, 以此作为稍后论述的更详细描述的前序。 0006 发明人通过研究发现, 组合型歧义具有如下特点 : 具有组合型歧义的歧义词在被 拆分之后的词义变化很大。另外, 这种词义上的变化可以通过其他语言, 例如英语, 明显地 表现出来。因此, 发明人认识到可以通过考察与汉语词对应的其它语言的译文的变化来识 别具有组合型歧义的歧义词。也就是说, 可以通过其他语言的辅助来识别具有组合型歧义 的歧义词。 0007 根据本发明的实施例, 提供了一种识别具有组合型歧义的歧义词的方法, 包括 : 利 用核心词表。
17、, 对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切 说 明 书 CN 103514150 A 5 2/17 页 6 分 ; 利用核心词表, 在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的 候选歧义词, 组成候选歧义词集合 ; 通过分解候选歧义词, 对第一语言句子进行细粒度切 分 ; 将通过粗粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语 言句子得到的细粒度第一语言词分别与第一语言句子所对应的第二语言句子中的第二语 言词进行词对齐, 以从第二语言句子中分别抽取候选歧义词的译文、 和候选歧义词所分解 成的更小粒度的多个词的译文 ; 以及判断所抽取。
18、的候选歧义词的译文是否出现在通过第一 语言与第二语言词典得到的候选歧义词的所有译文中, 以及判断所抽取的候选歧义词所分 解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧 义词所分解成的更小粒度的多个词的所有译文中, 以确定候选歧义词是真歧义词还是伪歧 义词, 并且确定包含候选歧义词的第一语言句子是正例还是反例。 0008 根据上述识别具有组合型歧义的歧义词的方法, 其中, 在所抽取的候选歧义词的 译文没有出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、 并且所抽 取的候选歧义词所分解成的更小粒度的多个词的译文出现在通过第一语言与第二语言词 典得到的候选。
19、歧义词所分解成的更小粒度的多个词的所有译文中的情况下, 将候选歧义词 确定为真歧义词, 并将包含真歧义词的第一语言句子作为反例。 0009 根据上述识别具有组合型歧义的歧义词的方法, 其中, 在所抽取的候选歧义词的 译文出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、 并且所抽取的 候选歧义词所分解成的更小粒度的多个词的译文没有出现在通过第一语言与第二语言词 典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下, 将候选歧义词 确定为伪歧义词, 并将包含伪歧义词的第一语言句子作为正例。 0010 根据上述识别具有组合型歧义的歧义词的方法, 还包括 : 在第一语言单语语。
20、料中, 根据候选歧义词的上下文特征集合来判断候选歧义词是真歧义词还是伪歧义词。 0011 根据上述识别具有组合型歧义的歧义词的方法, 还包括 : 利用第一语言与第二语 言词典, 获取候选歧义词集合中的每个候选歧义词的所有译文 ; 在第二语言单语语料中统 计每个候选歧义词的所有译文中的每个译文的词频, 并将其中词频最高的若干个译文选择 为每个候选歧义词的实际译文 ; 对于每个候选歧义词的每个实际译文, 在第二语言单语语 料中选择固定词数的上下文作为特征词, 并为每个特征词赋予对应的权重, 从而由特征词 及其对应的权重组成特征向量, 以及将特征向量的集合作为共现模型 ; 以及利用共现模型 来判断包。
21、含候选歧义词的第一语言句子是正例还是反例。 0012 根据本发明的另一实施例, 提供了一种识别具有组合型歧义的歧义词的装置, 包 括 : 粗粒度切分单元, 用于利用核心词表, 对涉及第一语言和第二语言的平行语料库中的第 一语言句子进行粗粒度切分 ; 检测单元, 用于利用核心词表, 在粗粒度切分后的分词结果中 检测能够被分解成更小粒度的多个词的候选歧义词, 组成候选歧义词集合 ; 细粒度切分单 元, 用于通过分解候选歧义词, 对第一语言句子进行细粒度切分 ; 抽取单元, 用于将通过粗 粒度切分第一语言句子得到的粗粒度第一语言词以及通过细粒度切分第一语言句子得到 的细粒度第一语言词分别与第一语言句。
22、子所对应的第二语言句子中的第二语言词进行词 对齐, 以从第二语言句子中分别抽取候选歧义词的译文、 和候选歧义词所分解成的更小粒 度的多个词的译文 ; 以及确定单元, 用于判断所抽取的候选歧义词的译文是否出现在通过 第一语言与第二语言词典得到的候选歧义词的所有译文中, 以及判断所抽取的候选歧义词 说 明 书 CN 103514150 A 6 3/17 页 7 所分解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候 选歧义词所分解成的更小粒度的多个词的所有译文中, 以确定候选歧义词是真歧义词还是 伪歧义词, 并且确定包含候选歧义词的第一语言句子是正例还是反例。 0013 根据。
23、上述识别具有组合型歧义的歧义词的装置, 其中, 确定单元在所抽取的候选 歧义词的译文没有出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、 并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文出现在通过第一语言与第 二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下, 将候 选歧义词确定为真歧义词, 并将包含真歧义词的第一语言句子作为反例。 0014 根据上述识别具有组合型歧义的歧义词的装置, 其中, 确定单元在所抽取的候选 歧义词的译文出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中、 并且 所抽取的候选歧义词所分解成的更小粒度的多个词的译文没。
24、有出现在通过第一语言与第 二语言词典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中的情况下, 将候 选歧义词确定为伪歧义词, 并将包含伪歧义词的第一语言句子作为正例。 0015 根据上述识别具有组合型歧义的歧义词的装置, 还包括 : 真伪歧义词判断单元, 用 于在第一语言单语语料中, 根据候选歧义词的上下文特征集合来判断候选歧义词是真歧义 词还是伪歧义词。 0016 根据上述识别具有组合型歧义的歧义词的装置, 还包括 : 获取单元, 用于利用第一 语言与第二语言词典, 获取候选歧义词集合中的每个候选歧义词的所有译文 ; 选择单元, 用 于在第二语言单语语料中统计每个候选歧义词的所有译文。
25、中的每个译文的词频, 并将其中 词频最高的若干个译文选择为每个候选歧义词的实际译文 ; 特征向量生成单元, 用于对于 每个候选歧义词的每个实际译文, 在第二语言单语语料中选择固定词数的上下文作为特征 词, 并为每个特征词赋予对应的权重, 从而由特征词及其对应的权重组成特征向量, 以及将 特征向量的集合作为共现模型 ; 以及正反例判断单元, 用于利用共现模型来判断包含候选 歧义词的第一语言句子是正例还是反例。 0017 根据本发明, 可以通过其他语言的辅助, 来高效地和准确地识别具有组合型歧义 的歧义词。 另外, 本发明不需要对使用的语料进行人工标注等加工, 并且可以有效地自适应 到目标领域。 。
26、附图说明 0018 本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解, 其中在所 有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。 所述附图连同下面的 详细说明一起包含在本说明书中并且形成本说明书的一部分, 而且用来进一步举例说明本 发明的优选实施例和解释本发明的原理和优点。在附图中 : 0019 图 1 是示出根据本发明的实施例的识别具有组合型歧义的歧义词的方法的示意 性流程图 ; 0020 图 2 是示出根据本发明的实施例的根据候选歧义词的上下文特征集合来判断真 伪歧义词的方法的示意性流程图 ; 0021 图 3 是示出根据本发明的实施例的根据共现模型来判断正反例的。
27、方法的示意性 流程图 ; 说 明 书 CN 103514150 A 7 4/17 页 8 0022 图 4 是示出根据本发明的实施例的训练分类模型的方法的示意性流程图 ; 0023 图 5 是示出根据本发明的实施例的利用分类模型来判断是否对候选歧义词进行 切分的方法的示意性流程图 ; 0024 图 6 是示出根据本发明的实施例的识别具有组合型歧义的歧义词的装置的示意 性框图 ; 0025 图 7 是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的 示意性框图 ; 0026 图 8 是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的 示意性框图 ; 0027 图 9 。
28、是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的 示意性框图 ; 0028 图 10 是示出根据本发明的另一实施例的识别具有组合型歧义的歧义词的装置的 示意性框图 ; 以及 0029 图 11 是示出可用于作为实施根据本发明的实施例的信息处理设备的示意性框 图。 具体实施方式 0030 在下文中将结合附图对本发明的示例性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。 然而, 应该了解, 在开发任何这种实际实施 方式的过程中可以做出很多特定于实施方式的决定, 以便实现开发人员的具体目标, 并且 这些决定可能会随着实施方式的不同而有所改变。 003。
29、1 在此, 还需要说明的一点是, 为了避免因不必要的细节而模糊了本发明, 在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构, 而省略了与本发明关系不大的其他 细节。 0032 下面将结合图 1 来描述根据本发明的实施例的识别具有组合型歧义的歧义词的 方法。图 1 是示出根据本发明的实施例的识别具有组合型歧义的歧义词的方法的示意性流 程图。 0033 如图 1 所示, 该处理在 S100 开始。接着, 该处理前进到 S102。 0034 在 S102, 利用核心词表, 对涉及第一语言和第二语言的平行语料库中的第一语言 句子进行粗粒度切分。 0035 核心词表表示分词系统所使用的基本汉语词。
30、典。 现有技术中可以从各种途径获得 基本汉语词典作为核心词表, 其具体细节在此不再赘述。 0036 平行语料库表示包含两种语言、 即第一语言和第二语言的语料库, 其中, 两种语言 以句子为单位互为译文。本文中, 第一语言例如为汉语, 而第二语言例如为英语, 以及平行 语料库例如为汉英双语平行语料库。本领域技术人员应当理解, 第一语言和第二语言不限 于汉语和英语, 还可以是其他语言。 0037 下文中, 为了便于描述, 以第一语言为汉语和第二语言为英语为例进行说明。 假设 汉语句子用S来表示, 可以利用预先获得的核心词典对汉语句子S进行最大匹配切分, 即按 照核心词典中可能存在的最大长度的词为单。
31、位对汉语句子进行粗粒度切分, 并将对汉语句 说 明 书 CN 103514150 A 8 5/17 页 9 子 S 进行粗粒度切分后得到的词串的集合表示为 Sw。 0038 例如, 假设在汉英双语平行语料库中存在第一语言句子 (即汉语句子) S“在供料流 中和在酚产物中” 及其对应的第二语言句子 (即英语句子) “in the feed stream and in the phenol product” 。 可以利用预先获得的核心词典, 按照核心词典中可能存在的最大长 度的词为单位, 例如将上述汉语句子 S“在供料流中和在酚产物中” 粗粒度切分为如下词串 的集合 Sw “在” 、“供料” 、“。
32、流” 、“中和” 、“在” 、“酚” 、“产物” 、“中” 。由以上切分结果可 见, 因为在核心词典中,“中” 、“和” 以及 “中和” 都是存在于核心词典中的词, 其中词 “中” 以 及 “和” 的长度均为 1, 而词 “中和” 的长度为 2, 因此在粗粒度切分过程中, 按照核心词典中 可能存在的最大长度的词 “中和” 为单位, 将 “中和” 切分为一个词。 0039 在 S102 之后, 该处理前进到 S104。在 S104, 利用核心词表, 在粗粒度切分后的分 词结果中检测能够被分解成更小粒度的多个词的候选歧义词, 组成候选歧义词集合。 0040 在步骤 S102 中对汉语句子 S 进行。
33、粗粒度切分得到词串的集合 Sw之后, 利用核心 词表, 在词串的集合Sw中检测能够被分解为更小粒度的多个词的候选歧义词w, 并由候选歧 义词 w 组成候选歧义词集合 D。 0041 还是以上述汉语句子 “在供料流中和在酚产物中” 为例, 在步骤 S102 中将上述汉 语句子 S“在供料流中和在酚产物中” 粗粒度切分为词串的集合 Sw=“在” 、“供料” 、“流” 、 “中和” 、“在” 、“酚” 、“产物” 、“中” 之后, 可以利用核心词表在上述分词结果中进行检测。通 过检测发现, 词 “中和” 能够被分解为更小粒度的两个词 “中” 以及 “和” 。因此, 将词 “中和” 作为候选歧义词 w。
34、。可以将检测出的所有候选歧义词组成候选歧义词集合 D。 0042 在 S104 之后, 该处理前进到 S106。在 S106, 通过分解候选歧义词, 对第一语言句 子进行细粒度切分。 0043 在步骤 S104 中检测到候选歧义词 w 之后, 可以通过将候选歧义词 w 进一步分解为 更小粒度的多个词 w1、 w2、 wi、 wn, 来对汉语句子 S 进行细粒度切分, 并将得到的 细粒度的词串的集合表示为 Sc, 其中, 1 i n, i 和 n 均为自然数。 0044 接着上面的示例, 因为在步骤 S104 中将词 “中和” 检测为候选歧义词 w, 因此可以 通过将候选歧义词 w“中和” 进一。
35、步分解为词 w1“中” 以及词 w2“和” , 来将上述汉语句子 S“在供料流中和在酚产物中” 细粒度切分为词串的集合 Sc=“在” 、“供料” 、“流” 、“中” 、 “和” 、“在” 、“酚” 、“产物” 、“中” 。 0045 在 S106 之后, 该处理前进到 S108。在 S108, 将通过粗粒度切分第一语言句子得到 的粗粒度第一语言词以及通过细粒度切分第一语言句子得到的细粒度第一语言词分别与 第一语言句子所对应的第二语言句子中的第二语言词进行词对齐, 以从第二语言句子中分 别抽取候选歧义词的译文、 和候选歧义词所分解成的更小粒度的多个词的译文。 0046 在步骤S102得到粗粒度切。
36、分后的词串的集合Sw以及在步骤S104得到细粒度切分 后的词串的集合Sc之后, 可以将词串的集合Sw和Sc中的词分别与汉语句子S所对应的英语 句子中的英语词进行词对齐, 以从英语句子中分别抽取候选歧义词 w 的译文 Ew和候选歧义 词 w 所分解成的更小粒度的词 w1、 w2、 wi、 wn的译文 Ew1、 Ew2、 Ewi、 Ewn。 0047 接着上面的示例, 将粗粒度切分上述汉语句子 S“在供料流中和在酚产物中” 得到 的粗粒度汉语词的集合 Sw中的词 “在” 、“供料” 、“流” 、“中和” 、“在” 、“酚” 、“产物” 、“中” 分别 说 明 书 CN 103514150 A 9 。
37、6/17 页 10 与对应的英语句子 “in the feed stream and in the phenol product” 中的词进行词对 齐, 也就是说, 自动寻找汉语词与英语词之间的互译对应关系。例如, 将词 “在” 与 “in” 对 齐, 将词 “供料” 与 “feed” 对齐, 将词 “流” 与 “stream” 对齐, 将词 “中和” 与 “and” 对齐, 将 词 “在” 以及 “中” 与 “in” 对齐, 将词 “酚” 与 “phenol” 对齐, 以及将词 “产物” 与 “product” 对齐。另外, 现有技术中已经存在各种方法可以进行词对齐, 其具体细节在此不再赘述。
38、。 0048 根据以上词对齐的结果, 由于将候选歧义词 w“中和” 与英语词 “and” 对齐, 因此 将英语词 “and” 抽取为候选歧义词 “中和” 的译文 Ew。 0049 类似地, 将细粒度切分上述汉语句子 S“在供料流中和在酚产物中” 得到的细粒度 汉语词的集合 Sc中的词 “在” 、“供料” 、“流” 、“中” 、“和” 、“在” 、“酚” 、“产物” 、“中” 分别与对 应的英语句子 “in the feed stream and in the phenol product” 中的词进行词对齐, 也 就是说, 自动寻找汉语词与英语词之间的互译对应关系。例如, 将词 “在” 以及 。
39、“中” 与 “in” 对齐, 将词 “供料” 与 “feed” 对齐, 将词 “流” 与 “stream” 对齐, 将词 “和” 与 “and” 对齐, 将 词 “在” 以及 “中” 与 “in” 对齐, 将词 “酚” 与 “phenol” 对齐, 以及将词 “产物” 与 “product” 对齐。另外, 现有技术中已经存在各种方法可以进行词对齐, 其具体细节在此不再赘述。 0050 根据以上词对齐的结果, 由于将候选歧义词 w“中和” 所分解成的更小粒度的词 w1“中” 与英语词 “in” 对齐, 以及将候选歧义词 w“中和” 所分解成的更小粒度的词 w2“和” 与英语词 “and” 对齐,。
40、 因此将英语词 “in” 抽取为候选歧义词 w“中和” 所分解成的更小粒 度的词 w1“中” 的译文 Ew1, 以及将英语词 “and” 抽取为候选歧义词 w“中和” 所分解成的更 小粒度的词 w2“和” 的译文 Ew2。 0051 在 S108 之后, 该处理前进到 S110。在 S110, 判断所抽取的候选歧义词的译文是否 出现在通过第一语言与第二语言词典得到的候选歧义词的所有译文中, 以及判断所抽取的 候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过第一语言与第二语言词 典得到的候选歧义词所分解成的更小粒度的多个词的所有译文中, 以确定候选歧义词是真 歧义词还是伪歧义词, 并且确。
41、定包含候选歧义词的第一语言句子是正例还是反例。 0052 第一语言与第二语言词典表示第一语言的词与第二语言的词之间的互译对应关 系的词典。 在本文中, 第一语言与第二语言词典例如可以是汉英词典。 可以根据第一语言与 第二语言词典得到与第一语言的候选歧义词 w 对应的第二语言的所有译文 tw。类似地, 可 以根据第一语言与第二语言词典得到与第一语言的候选歧义词 w 所分解成的更小粒度的 多个词 w1、 w2、 wi、 wn对应的第二语言的所有译文 tw1、 tw2、 、 twi、 、 twn。 然后, 将所抽取的候选歧义词w的译文Ew与通过汉英词典得到的候选歧义词w的所有译 文tw进行比较, 以。
42、判断Ew是否出现在tw中 ; 以及将所抽取的更小粒度的多个词w1、 w2、 、 wi、 wn的译文 Ew1、 Ew2、 Ewi、 Ewn分别与通过汉英词典得到的更小粒度的多 个词 w1、 w2、 wi、 wn的所有译文 tw1、 tw2、 twi、 twn进行比较, 以判断 Ew1、 Ew2、 Ewi、 Ewn是否出现在 tw1、 tw2、 twi、 twn中, 从而确定候选歧 义词 w 是真歧义词还是伪歧义词, 并且确定包含候选歧义词 w 的第一语言句子 S 是正例还 是反例。 0053 接着上面的示例, 根据汉英词典, 可以得到与候选歧义词 w“中和” 对应的英语词 tw为 “neutra。
43、lization” 、“neutralize” 。类似地, 根据汉英词典, 可以得到与候选歧义词 w“中和” 所分解成的更小粒度的词 w1“中” 对应的英语词 tw1为 “in” 、“middle” , 以及可以 说 明 书 CN 103514150 A 10 7/17 页 11 得到与候选歧义词 w“中和” 所分解成的更小粒度的词 w2“和” 对应的英语词 tw2为 “and” 。 然后, 将所抽取的候选歧义词 w“中和” 的译文 Ew“and” 与通过汉英词典得到的候选歧义词 w“中和” 的所有译文 tw“neutralization” 、“neutralize” 进行比较, 以判断 Ew。
44、“and” 是否出现在 tw=“neutralization” 、“neutralize” 中, 以及将将所抽取的更小粒度的多 个词 w1“中” 、 w2“和” 的译文 Ew1“in” 、 Ew2“and” 分别与通过汉英词典得到的更小粒度的多 个词 w1“中” 、 w2“和” 的所有译文 tw1=“in” 、“middle” 、 tw2=“and” 进行比较, 以判断 Ew1“in” 、 Ew2“and” 是否出现在 tw1=“in” 、“middle” 、 tw2=“and” 中, 从而确定候选歧 义词 w“中和” 是真歧义词还是伪歧义词, 并且确定包含候选歧义词 w“中和” 的第一语言 。
45、句子 S“在供料流中和在酚产物中” 是正例还是反例。 0054 在所抽取的候选歧义词的译文没有出现在通过第一语言与第二语言词典得到的 候选歧义词的所有译文中、 并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文 出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的 所有译文中的情况下, 将候选歧义词确定为真歧义词, 并将包含真歧义词的第一语言句子 作为反例。 0055 如果所抽取的候选歧义词 w 的译文 Ew没有出现在通过汉英词典得到的候选歧义 词 w 的所有译文 tw中, 并且所抽取的更小粒度的多个词 w1、 w2、 wi、 wn的译文 Ew1、 Ew2、 Ewi。
46、、 Ewn出现在通过汉英词典得到的更小粒度的多个词 w1、 w2、 wi、 wn的所有译文 tw1、 tw2、 twi、 twn中, 则将候选歧义词 w 确定为真歧义 词, 并将包含真歧义词 w 的第一语言句子 S 作为反例。 0056 接着上面的示例, 因为所抽取的候选歧义词 w “中和” 的译文 Ew“and” 没有出现在通 过汉英词典得到的候选歧义词 w “中和” 的所有译文 tw “neutralization” 、“neutralize” 中, 并且所抽取的更小粒度的多个词 w1“中” 、 w2“和” 的译文 Ew1“in” 、 Ew2“and” 出现在通 过汉英词典得到的更小粒度的。
47、多个词 w1“中” 、 w2“和” 的所有译文 tw1=“in” 、“middle” 、 tw2=“and” 中, 所以将候选歧义词 w“中和” 确定为真歧义词, 并将包含真歧义词 w“中 和” 的第一语言句子 S“在供料流中和在酚产物中” 作为反例。 0057 在所抽取的候选歧义词的译文出现在通过第一语言与第二语言词典得到的候选 歧义词的所有译文中、 并且所抽取的候选歧义词所分解成的更小粒度的多个词的译文没有 出现在通过第一语言与第二语言词典得到的候选歧义词所分解成的更小粒度的多个词的 所有译文中的情况下, 将候选歧义词确定为伪歧义词, 并将包含伪歧义词的第一语言句子 作为正例。 0058 。
48、如果所抽取的候选歧义词 w 的译文 Ew出现在通过汉英词典得到的候选歧义词 w 的所有译文 tw中, 并且所抽取的更小粒度的多个词 w1、 w2、 wi、 wn的译文 Ew1、 Ew2、 Ewi、 Ewn没有出现在通过汉英词典得到的更小粒度的多个词 w1、 w2、 wi、 wn的所有译文 tw1、 tw2、 twi、 twn中, 则将候选歧义词 w 确定为伪歧义 词, 并将包含伪歧义词 w 的第一语言句子 S 作为正例。 0059 最后, 该处理在 S112 处结束。 0060 根据本实施例的方法, 可以通过其他语言的辅助, 来高效地和准确地识别具有组 合型歧义的歧义词。而且, 根据本实施例的。
49、方法, 不需要对使用的语料进行人工标注等加 工, 并且可以有效地自适应到目标领域。 说 明 书 CN 103514150 A 11 8/17 页 12 0061 下面结合图 2 来描述根据本发明的实施例的根据候选歧义词的上下文特征集合 来判断真伪歧义词的方法。图 2 是示出根据本发明的实施例的根据候选歧义词的上下文特 征集合来判断真伪歧义词的方法的示意性流程图。 0062 如图 2 所示, 该处理开始于 S200。 0063 在 S200 之后, 该处理前进到 S202。在 S202, 在第一语言单语语料中, 根据候选歧 义词的上下文特征集合来判断候选歧义词是真歧义词还是伪歧义词。 0064 当词语的意思发生变化的时候, 其对。