音节划分方法和音节划分设备.pdf

上传人:Y0****01 文档编号:4487579 上传时间:2018-10-17 格式:PDF 页数:20 大小:2.88MB
返回 下载 相关 举报
音节划分方法和音节划分设备.pdf_第1页
第1页 / 共20页
音节划分方法和音节划分设备.pdf_第2页
第2页 / 共20页
音节划分方法和音节划分设备.pdf_第3页
第3页 / 共20页
点击查看更多>>
资源描述

《音节划分方法和音节划分设备.pdf》由会员分享,可在线阅读,更多相关《音节划分方法和音节划分设备.pdf(20页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 104239289 A (43)申请公布日 2014.12.24 CN 104239289 A (21)申请号 201310252998.X (22)申请日 2013.06.24 G06F 17/28(2006.01) (71)申请人 富士通株式会社 地址 日本神奈川县 (72)发明人 李贤华 张姝 孟遥 于浩 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 康建峰 吴琼 (54) 发明名称 音节划分方法和音节划分设备 (57) 摘要 本发明公开了音节划分方法和音节划分设 备。根据本发明的音节划分方法包括 : 对于给定 的多音节语言单词, 根。

2、据多音节语言的已知音节 表, 枚举所有可能的音节划分方式, 所述已知音节 表中记录有已知音节及其特征概率 ; 根据所述已 知音节的特征概率和与所述多音节语言单词对应 的单音节语言单词的读音形式, 计算每种音节划 分方式的总得分 ; 以及选择总得分最高的音节划 分方式, 作为所述多音节语言单词的音节划分结 果。 (51)Int.Cl. 权利要求书 2 页 说明书 14 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书14页 附图3页 (10)申请公布号 CN 104239289 A CN 104239289 A 1/2 页 2 1. 一种适合音。

3、译的多音节语言单词的音节划分方法, 包括 : 对于给定的多音节语言单词, 根据多音节语言的已知音节表, 枚举所有可能的音节划 分方式, 所述已知音节表中记录有已知音节及其特征概率 ; 根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读 音形式, 计算每种音节划分方式的总得分 ; 以及 选择总得分最高的音节划分方式, 作为所述多音节语言单词的音节划分结果。 2. 如权利要求 1 所述的方法, 其中所述对于给定的多音节语言单词根据已知音节表枚 举所有可能的音节划分方式包括 : 将构成所述多音节语言单词的单个字母或字母串与所述已知音节表中的已知音节进 行匹配 ; 将与所述已知音。

4、节匹配上的单个字母或字母串, 划分为一个音节 ; 将不能与任何所述已知音节匹配上的单个字母或字母串中的每个字母, 划分为一个音 节 ; 所有互不矛盾的划分结果的组合构成所述所有可能的音节划分方式。 3. 如权利要求 1 所述的方法, 其中所述已知音节的特征概率包括 : 反映音节在单词中 的位置的可能性的位置概率、 和 / 或反映相邻音节的置信度的相邻概率 ; 其中所述位置概率包括 : 音节位于单词的首部的概率、 音节位于单词的尾部的概率、 音 节位于单词的首部和尾部之间的中部的概率 ; 所述相邻概率包括 : 音节在其它音节紧前的 概率、 音节在其它音节紧后的概率。 4. 如权利要求 1 所述的。

5、方法, 其中所述根据所述已知音节的特征概率和与所述多音节 语言单词对应的单音节语言单词的读音形式, 计算每种音节划分方式的总得分包括 : 根据所述已知音节的特征概率, 计算每种音节划分方式的概率得分 ; 根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度, 计算每种 音节划分方式的双语得分 ; 根据所述概率得分和所述双语得分, 计算所述每种音节划分方式的总得分。 5. 如权利要求 4 所述的方法, 其中所述根据所述已知音节的特征概率计算每种音节划 分方式的概率得分包括 : 根据每种音节划分方式中的各个音节的位置概率和 / 或相邻概率, 计算每种音节划分 方式的概率得分。 6. 如。

6、权利要求 5 所述的方法, 其中对于每种音节划分方式中的非已知音节, 将其特征 概率设置为默认的小的数值或已知音节表中同类特征概率中的最小值。 7. 如权利要求 4 所述的方法, 其中所述对应的单音节语言单词的读音形式与每种音节 划分方式的相似度包括 : 作为所述对应的单音节语言单词的读音形式与所述每种音节划分 方式在字母个数上的相似度的个数相似度、 和 / 或作为所述对应的单音节语言单词的读音 形式与所述每种音节划分方式在最短编辑距离上的相似度的距离相似度 ; 并且 所述根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度计算 每种音节划分方式的双语得分包括 : 根据所述个数相似。

7、度和 / 或所述距离相似度, 计算所 述双语得分。 8. 如权利要求 7 所述的方法, 其中计算每种音节划分方式中的各个音节与所述对应的 权 利 要 求 书 CN 104239289 A 2 2/2 页 3 单音节语言单词的读音形式中的各个音节之间的在最短编辑距离上的相似度的总和, 作为 所述距离相似度。 9. 如权利要求 1 所述的方法, 其中通过如下步骤来得到所述已知音节表 : 获得作为多音节语言单词的多音节语言字母串、 以及对应单音节语言音译文的读音形 式 ; 根据所述读音形式, 按音节划分所述多音节语言字母串, 从而获得所述已知音节 ; 根据划分结果, 通过统计来计算所述已知音节的特征。

8、概率。 10. 一种适合音译的多音节语言单词的音节划分设备, 包括 : 音节划分枚举装置, 被配置为 : 对于给定的多音节语言单词, 根据多音节语言的已知音 节表, 枚举所有可能的音节划分方式, 所述已知音节表中记录有已知音节及其特征概率 ; 总得分计算装置, 被配置为 : 根据所述已知音节的特征概率和与所述多音节语言单词 对应的单音节语言单词的读音形式, 计算每种音节划分方式的总得分 ; 以及 结果确定装置, 被配置为 : 选择总得分最高的音节划分方式, 作为所述多音节语言单词 的音节划分结果。 权 利 要 求 书 CN 104239289 A 3 1/14 页 4 音节划分方法和音节划分设。

9、备 技术领域 0001 本发明一般地涉及自然语言处理领域。具体而言, 本发明涉及一种适合音译的多 音节语言单词的音节划分方法和音节划分设备。 背景技术 0002 在使用不同语言的人们进行交流的过程中, 存在将源语言翻译为目标语言的需 要。随着社会和科技的发展, 各种语言中都产生了越来越多的新词汇。这些新词汇往往由 于其代表的内容, 如科技词汇的新颖性和先进性, 或社会现象词汇的流行性等因素, 而在产 生后的短期内由使用与新词汇所属语言不同的语言的人们使用。 0003 一般而言, 人们在使用这样的新词汇时往往采用音译, 或者直接使用新词汇本身, 即使用新词汇所属的语言的发音来诵读新词汇。 000。

10、4 另外, 由于历史的原因, 有些已有词汇的正规译文, 也是其音译译文。此外, 人名、 地名等单词, 也通常采用音译。 0005 对于多音节语言的单词, 无论是音译还是按原文诵读, 都存在如何按音节划分单 词的问题。例如, 英文单词 “Dray” 是读作 (译作) “缀” 还是 “德瑞” , 或是 “德拉伊” 。 0006 多音节语言是指该语言中的一个基本单元 (如英文单词) 中存在多个音节。多音节 语言的示例包括英语、 法语、 俄语、 西班牙语、 拉丁语等。 单音节语言是指该语言中的一个基 本单元 (如中文的字) 中仅存在一个音节。单音节语言的示例包括中文、 日语等。 0007 对于多音节语。

11、言的单词来说, 音节的正确划分有利于人们正确地拼写、 背诵、 读、 音译该单词。 0008 传统的音节划分方法多基于规则来划分多音节语言单词。 由于规则的适用性和覆 盖面有限、 规则与规则之间可能存在矛盾等原因, 传统方法的正确率不高。 0009 因此, 期望能够以较高的正确率将适合音译的多音节语言单词按音节进行划分。 发明内容 0010 在下文中给出了关于本发明的简要概述, 以便提供关于本发明的某些方面的基本 理解。应当理解, 这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分, 也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念, 以此作为稍后论。

12、述的更详细描述的前序。 0011 本发明的目的是针对现有技术的上述问题, 提出了一种能够以较高的正确率将适 合音译的多音节语言单词按音节进行划分的音节划分方法和音节划分设备。 0012 为了实现上述目的, 根据本发明的一个方面, 提供了一种适合音译的多音节语言 单词的音节划分方法, 该方法包括 : 对于给定的多音节语言单词, 根据多音节语言的已知音 节表, 枚举所有可能的音节划分方式, 所述已知音节表中记录有已知音节及其特征概率 ; 根 据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式, 计算每种音节划分方式的总得分 ; 选择总得分最高的音节划分方式, 作为所述多音。

13、节语言 说 明 书 CN 104239289 A 4 2/14 页 5 单词的音节划分结果。 0013 根据本发明的另一个方面, 提供了一种适合音译的多音节语言单词的音节划分设 备, 该设备包括 : 音节划分枚举装置, 被配置为 : 对于给定的多音节语言单词, 根据多音节 语言的已知音节表, 枚举所有可能的音节划分方式, 所述已知音节表中记录有已知音节及 其特征概率 ; 总得分计算装置, 被配置为 : 根据所述已知音节的特征概率和与所述多音节 语言单词对应的单音节语言单词的读音形式, 计算每种音节划分方式的总得分 ; 结果确定 装置, 被配置为 : 选择总得分最高的音节划分方式, 作为所述多音。

14、节语言单词的音节划分结 果。 0014 另外, 根据本发明的另一方面, 还提供了一种存储介质。 所述存储介质包括机器可 读的程序代码, 当在信息处理设备上执行所述程序代码时, 所述程序代码使得所述信息处 理设备执行根据本发明的上述方法。 0015 此外, 根据本发明的再一方面, 还提供了一种程序产品。 所述程序产品包括机器可 执行的指令, 当在信息处理设备上执行所述指令时, 所述指令使得所述信息处理设备执行 根据本发明的上述方法。 附图说明 0016 参照下面结合附图对本发明实施例的说明, 会更加容易地理解本发明的以上和其 它目的、 特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,。

15、 相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。附图中 : 0017 图 1 示出了根据本发明的实施例的已知音节表获取方法的流程图 ; 0018 图 2 示出了根据本发明的实施例的音节划分方法的流程图 ; 0019 图 3 示出了根据本发明的实施例的可能音节划分方式的枚举方法的流程图 ; 0020 图 4 示出了根据本发明的实施例的音节划分方式总得分计算方法的流程图 ; 0021 图 5 示出了根据本发明实施例的音节划分设备的结构方框图 ; 以及 0022 图 6 示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。 具体实施方式 0023 在下文中将结合附图对。

16、本发明的示范性实施例进行详细描述。 为了清楚和简明起 见, 在说明书中并未描述实际实施方式的所有特征。然而, 应该了解, 在开发任何这种实际 实施方式的过程中必须做出很多特定于实施方式的决定, 以便实现开发人员的具体目标, 例如, 符合与系统及业务相关的那些限制条件, 并且这些限制条件可能会随着实施方式的 不同而有所改变。此外, 还应该了解, 虽然开发工作有可能是非常复杂和费时的, 但对得益 于本公开内容的本领域技术人员来说, 这种开发工作仅仅是例行的任务。 0024 在此, 还需要说明的一点是, 为了避免因不必要的细节而模糊了本发明, 在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构。

17、和 / 或处理步骤, 而省略了与本发明 关系不大的其他细节。 另外, 还需要指出的是, 在本发明的一个附图或一种实施方式中描述 的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。 0025 本发明的基本思想是利用经训练过程得到的已知音节表和双语资源来按音节划 分适合音译的多音节语言单词。 在这个过程中, 利用训练语料得到已知音节表, 已知音节表 说 明 书 CN 104239289 A 5 3/14 页 6 给出了多音节语言的已知音节及其特征概率。已知音节示出了多音节语言的音节形式, 可 以用来推测多音节语言单词的可能划分方式。 特征概率从音节在单词中的位置和音节前后 。

18、音节等方面体现了多音节语言的语言特点, 可以用来评价多音节语言单词的可能划分方式 的置信度。与多音节语言单词对应的单音节语言译文, 能够从双语角度帮助评价多音节语 言单词的可能划分方式的置信度。基于从上述两种途径获得的置信度, 可以选择最可能的 音节划分方式作为音节划分结果。 0026 本发明的方法假设的前提是已经获得多音节语言的已知音节表, 并且具有待划分 音节的多音节语言单词对应的单音节语言单词。 0027 显然, 对于每种多音节语言, 存在一个已知音节表。 多音节语言的已知音节表可通 过下面详述的训练过程获得。多音节语言的已知音节表包含已知音节及其特征概率。 0028 已知音节是指预先得。

19、到的多音节语言中已知的音节形式。 由于多音节语言中的音 节形式是有限种的, 所以可以通过训练等手段预先获取。训练语料库越大, 越全面, 所得到 的已知音节就越多, 越全面。 0029 已知音节的特征概率包括 : 位置概率和相邻概率。 0030 已知音节的位置概率反映了音节在单词中的位置的可能性, 其包括 : 音节位于单 词的首部的概率、 音节位于单词的尾部的概率、 音节位于单词的首部和尾部之间的中部的 概率。 这样的位置信息遵循多音节语言中已知音节的语言规律, 能够通过统计得到, 可以用 于评价多音节语言单词的可能划分方式的置信度。 0031 已知音节的相邻概率反映了相邻音节的置信度, 其包括。

20、 : 音节在其它音节紧前的 概率、 音节在其它音节紧后的概率。相邻概率从音节的上下文角度给出音节与前后音节组 合的可能性, 能够通过统计得到, 可以用于评价多音节语言单词的可能划分方式的置信度。 这里的相邻概率可以是二元的, 也即其它音节可以是一个音节。 当然, 视计算量的大小和系 统的要求, 也可以选用三元的相邻概率, 即其它音节为两个音节。 0032 下面将参照图 1 描述根据本发明的实施例的已知音节表的获取方法的流程。 0033 图 1 示出了根据本发明的实施例的已知音节表获取方法的流程图。 0034 如图 1 所示, 根据本发明的已知音节表获取方法包括如下步骤 : 获得作为多音节 语言。

21、单词的多音节语言字母串、 以及对应单音节语言音译文的读音形式 (步骤 S1) ; 根据所 述读音形式, 按音节划分所述多音节语言字母串, 从而获得所述已知音节 (步骤 S2) ; 以及根 据划分结果, 通过统计来计算所述已知音节的特征概率 (步骤 S3) 。 0035 在步骤 S1 中, 获得作为多音节语言单词的多音节语言字母串、 以及对应单音节语 言音译文的读音形式。 0036 步骤 S1 实际上是训练语料获取步骤。 0037 首先, 获得彼此对应的多音节语言单词和单音节语言音译文。 0038 在一种可能的情形中, 现有语料中同时包括多音节语言单词及对应单音节语言音 译文。 0039 在另一。

22、种可能的情形中, 现有语料中仅包括多音节语言单词。此时, 可从因特网、 音译词典、 机器音译装置等途径获得与多音节语言单词对应单音节语言音译文。 0040 多音节语言单词是多音节语言字母串形式的。为便于后续处理, 还需将单音节语 言音译文转换为对应的读音形式, 读音形式中包含多个读音音节。 以中文为例, 就是需要将 说 明 书 CN 104239289 A 6 4/14 页 7 汉字转换为拼音形式。 0041 注意, 这里转换得到的拼音形式包含有汉字的分隔信息。 也就是说, 作为英文单词 “Elizabeth” 的音译文的中文词 “伊莉莎白” 包含有该词分为 “伊” 、“莉” 、“莎” 、“白。

23、” 四个汉 字的分隔信息。 中文作为单音节语言, 一个字对应一个音节, 因此可以利用中文作为参考语 言, 帮助划分英文单词的音节。 故而, 将中文词 “伊莉莎白” 转换为拼音形式 “yi li shabai” 时, 每个拼音音节 (即读音音节) 是彼此分开的。 0042 这里, 为了将单音节语言音译文转换为对应的读音形式, 可以采用如下的方法 : 对 于单音节语言音译文中的单音字, 根据单音字 - 读音映射表, 将其转换为对应的读音字母 ; 对于单音节语言音译文中的多音字, 根据多音字 - 读音映射表, 枚举多音字对应的多个候 选读音字母, 以得到单音节语言音译文的多个候选读音形式, 以及将所。

24、述多个候选读音形 式中与对应的多音节语言字母串的相似度最大的候选读音形式, 作为与单音节语言音译文 对应的读音形式。 0043 单音节语言音译文中的单音字的情况比较简单, 例如, 汉字 “周” , 可根据汉字 - 拼 音映射表, 直接转换为 “zhou” 。 0044 单音节语言音译文中的多音字由于存在一对多的问题, 需要进行筛选。 0045 为便于说明, 假设单音节语言音译文中仅存在一个多音字。 0046 例如, 英文单词 “babulenka” 所对应的中文音译文为 “巴布伦卡” 。 其中, 汉字 “巴” 、 “布” 、“伦” 均为单音字, 而 “卡” 为多音字, 其拼音可能是 “ka” 。

25、, 也可能是 “qia” 。 0047 可以先根据多音字 - 读音映射表, 从 “卡” 确定 “ka” 和 “qia” 两种候选读音字母。 然后, 得到中文音译文 “巴布伦卡” 的多个候选读音形式 “ba bu lun ka” 和 “ba bu lun qia” 。最后, 借助于英文单词 “babulenka” 来判断到底是 “ba bu lun ka” 还是 “ba bu lun qia” 。 0048 例如, 可以比较多个候选读音形式与对应的多音节语言字母串的相似度, 将相似 度最大的候选读音形式确定为与单音节语言音译文对应的读音形式。 0049 相似度的计算, 可借助于最短编辑距离。最短。

26、编辑距离越小, 相似度越高。最短编 辑距离是指从一个字符串变为另一个字符串, 最少需要几步字符删除 / 字符增加操作。 0050 举例来说, 从两种候选读音形式 “ba bu lun ka” 和 “ba bu lun qia” , 通过字符删 除 / 字符增加操作, 变为英文单词 “babulenka” , 分别需要 1 步和 3 步。显然, 读音形式 “ba bu lun ka” 与英文单词 “babulenka” 的最短编辑距离更小, 相似度更高。因此, 中文音译文 “巴布伦卡” 应转换为读音形式 “ba bu lun ka” 。 0051 对于单音节语言音译文中存在多个多音字的情况, 只。

27、是候选读音形式的种类更多 一些, 也是将候选读音形式与对应的多音节语言字母串比较而得到相似度, 如基于最短编 辑距离的相似度, 并基于所得到的相似度确定最可能的读音形式。 0052 当然, 此处的相似度计算, 也可采用字符串相似度等其它适当的计算方式。 0053 在步骤 S2 中, 根据所述读音形式, 按音节划分所述多音节语言字母串, 从而获得 所述已知音节。 0054 前文提到, 读音形式包括与单音节语言音译文中的多个单音节语言字对应的多个 读音音节, 并且多个读音音节彼此分开。因此, 读音音节之间的间隔体现了音节的划分方 向。 说 明 书 CN 104239289 A 7 5/14 页 8。

28、 0055 在一种实施方式中, 可以确定与多个读音音节对应的多音节语言字母, 并将所确 定的多音节语言字母前的位置确定为多音节语言音节的边界, 从而将多音节语言字母串按 音节划分。 0056 举例来说, 确定读音形式 “ba bu lun ka”中的读音音节 “ba” 、“bu” 、“lun” 、 “ka” 对应的 “babulenka” 中的字母为 “ba” 、“bu” 、“len” 、“ka” 。这样就可以将英文单词 “babulenka” 按音节划分为 “ba bu len ka” 。 0057 此处的确定方法例如可以是 : 首先, 由人工对少量多音节语言字母串以及对应的 读音形式进行上。

29、述确定步骤 (即确定与多个读音音节对应的多音节语言字母) , 以得到训练 语料。然后, 利用训练语料来训练能够执行上述确定步骤的对齐器。最后, 利用训练好的对 齐器, 对余下的多音节语言字母串以及对应的读音形式进行上述确定步骤。 0058 当然, 此处也可以利用现有的对齐工具, 如 GIZA+。 0059 此处的实施方式基于读音音节整体, 计算量较大, 需要训练好的对齐器。 考虑到中 文的读音音节, 即拼音音节的特点, 也可以采用如下的实施方式。 0060 在另一种实施方式中, 首先, 识别所述读音形式中的声母和独立韵母。然后, 确定 与所识别的声母和独立韵母的首个音素对应的多音节语言字母。最。

30、后, 将所确定的多音节 语言字母前的位置确定为多音节语言音节的边界, 从而将所述多音节语言字母串按音节划 分。 0061 这是因为拼音音节的开头字母或开头字母串要么是声母, 要么是独立韵母, 要么 是整体认读。也就是说, 拼音音节的首字母是声母、 独立韵母或者整体认读的首字母。由于 整体认读的开头部分与声母一致, 因此, 可合并入声母统一处理。 当然, 也可将声母、 独立韵 母、 整体认读三个单独处理。 0062 这样, 就可以不基于整个拼音音节, 而是基于拼音音节的开头字母或字母串, 即声 母 (含整体认读) 或独立韵母, 来进行对齐。这就减少了计算量。 0063 识别所述读音形式中的声母和。

31、独立韵母, 可以借助于声母表 (可包含整体认读 表) 、 独立韵母表实现。 0064 确定与所识别的声母和独立韵母的首个音素对应的多音节语言字母, 可以基于与 声母、 独立韵母相关的预定规则实现, 这就避免了需要训练和使用对齐器。 0065 具体的规则可以由本领域技术人员根据经验和语言学知识做出。 例如汉语拼音的 声母 “b” 和英文字母 “b” 对齐等。 0066 这一借助于声母和独立韵母以及规则的实施方式, 可以提高音节划分的准确性、 提高处理速度、 减轻系统负担并避免使用人工。 0067 通过上述步骤 S2, 可以得到已知音节。 0068 在步骤 S3 中, 根据划分结果, 通过统计来计。

32、算所述已知音节的特征概率。 0069 如上所述, 已知音节的特征概率包括 : 反映音节在单词中的位置的可能性的位置 概率、 和/或反映相邻音节的置信度的相邻概率。 其中位置概率包括 : 音节位于单词的首部 的概率、 音节位于单词的尾部的概率、 音节位于单词的首部和尾部之间的中部的概率。 相邻 概率包括 : 音节在其它音节紧前的概率、 音节在其它音节紧后的概率。 0070 这些概率都可以通过统计的方法, 从训练语料中得到。 0071 举例来说, 音节位于单词的首部的概率等于音节位于单词的首部的次数除以该音 说 明 书 CN 104239289 A 8 6/14 页 9 节出现的总次数。音节在其它。

33、音节紧前的概率 = 音节在其它音节紧前的次数除以该音节出 现的总次数。 0072 经过上述步骤 S1-S3, 从训练语料获得了体现多音节语言中音节及其特征的已知 音节表。 0073 下面, 就可以借助于已知音节表和双语信息来划分适合音译的多音节语言单词的 音节。 0074 下面将参照图 2 描述根据本发明的实施例的音节划分方法的流程。 0075 图 2 示出了根据本发明的实施例的音节划分方法的流程图。如图 2 所示, 根据本 发明的音节划分方法, 用于按音节划分适合音译的多音节语言单词, 其包括如下步骤 : 对于 给定的多音节语言单词, 根据多音节语言的已知音节表, 枚举所有可能的音节划分方式。

34、, 所 述已知音节表中记录有已知音节及其特征概率 (步骤 S21) ; 根据所述已知音节的特征概率 和与所述多音节语言单词对应的单音节语言单词的读音形式, 计算每种音节划分方式的总 得分 (步骤 S22) ; 以及选择总得分最高的音节划分方式, 作为所述多音节语言单词的音节划 分结果 (步骤 S23) 。 0076 下面, 将详细描述图 2 中示例的方法的各个步骤。 0077 在步骤 S21 中, 对于给定的多音节语言单词, 根据多音节语言的已知音节表, 枚举 所有可能的音节划分方式, 所述已知音节表中记录有已知音节及其特征概率。 0078 上文提到多音节语言的已知音节表中记录有已知音节及其特。

35、征概率, 这些信息体 现了多音节语言的语言特点。 因此, 可通过在给定的多音节语言单词中找寻已知音节, 来猜 测多音节语言单词的可能的音节划分方式。 0079 下面将参照图 3 说明具体的实现方式。 0080 图 3 示出了根据本发明的实施例的可能音节划分方式的枚举方法的流程图。如图 3 所示, 根据本发明的音节划分方式枚举方法, 包括 : 将构成多音节语言单词的单个字母或 字母串与已知音节表中的已知音节进行匹配 (步骤 S31) ; 将与所述已知音节匹配上的单个 字母或字母串, 划分为一个音节 (步骤 S32) ; 将不能与任何所述已知音节匹配上的单个字母 或字母串中的每个字母, 划分为一个。

36、音节 (步骤 S33) ; 所有互不矛盾的划分结果的组合构成 所述可能的音节划分方式 (步骤 S34) 。 0081 在步骤 S31 中, 将构成多音节语言单词的单个字母或字母串与已知音节表中的已 知音节进行匹配。 0082 已知音节表明了对于多音节语言而言, 音节可能出现的形式。 因此, 如果构成多音 节语言单词的单个字母或字母串与已知音节表中的已知音节一致, 则可能应该将这个单个 字母或字母串作为一个音节划分出来。 0083 在步骤 S32 中, 将与已知音节匹配上的单个字母或字母串, 划分为一个音节。 0084 显然, 同一个字母可能由于不同的分割方式而组成不同的音节。如该字母本身是 一。

37、个已知音节, 该字母与其前面的一个字母组成一个已知音节, 该字母与其后面的两个字 母组成一个已知音节等等。这些符合已知音节表的划分方式都要保留下来。 0085 在步骤 S34 中, 所有互不矛盾的划分结果的组合构成所有可能的音节划分方式。 0086 在理想情况下, 某些组合 (例如, 正确的划分方式) 中, 多音节语言单词的所有字母 都被划分到一个已知音节中, 各个已知音节彼此不交迭并且前后相邻, 并无多余字母。 说 明 书 CN 104239289 A 9 7/14 页 10 0087 当然, 经过步骤 S31 和 S32 之后, 在某些组合中, 可能有的字母既不作为单个字母 与已知音节匹配。

38、上, 又不与前后的字母组合成已知音节。 0088 并且, 由于已知音节表依赖于训练语料生成, 存在一定的局限性。 如果语料覆盖面 不广, 可能导致已知音节表中的已知音节种类不全面, 有些音节无法被识别出来。 0089 对于这些情况, 可以在步骤 S33 中, 将不能与任何已知音节匹配上的单个字母或 字母串中的每个字母, 划分为一个音节。 0090 这样, 步骤 S34 中的每个组合都由若干个首尾相连的、 连续的、 彼此不交迭的音节 构成。 0091 下面, 需要对这些组合进行评价, 以判断何种音节划分方式最有可能是正确的音 节划分方式。 0092 在步骤 S22 中, 根据已知音节的特征概率和。

39、与多音节语言单词对应的单音节语言 单词的读音形式, 计算每种音节划分方式的总得分。 0093 也就是说, 从已知音节表中蕴含的语言知识和对应单音节语言译文的双语参考信 息, 给出对于每种音节划分方式的评价。 0094 图 4 示出了根据本发明的实施例的音节划分方式总得分计算方法的流程图。如图 4 所示, 根据本发明的音节划分方式总得分计算方法, 包括 : 根据已知音节的特征概率, 计 算每种音节划分方式的概率得分 (步骤 S41) ; 根据对应的单音节语言单词的读音形式与每 种音节划分方式的相似度, 计算每种音节划分方式的双语得分 (步骤 S42) ; 根据所述概率得 分和所述双语得分, 计算。

40、每种音节划分方式的总得分 (步骤 S43) 。 0095 在步骤 S41 中, 从已获得的语言知识角度给出评价。即, 根据已知音节的特征概 率, 计算每种音节划分方式的概率得分。 0096 具体地, 根据每种音节划分方式中的各个音节的位置概率和 / 或相邻概率, 计算 每种音节划分方式的概率得分。 0097 一方面, 每种音节划分方式中各个音节已经固定, 并且可以获知其位置和其前后 相邻的音节信息。 另一方面, 已知音节表中, 还包含有已知音节的统计信息, 即特征概率, 包 括位置概率和相邻概率。 因此, 可以针对每种音节划分方式, 计算其音节构成的组合所对应 的联合概率, 即概率得分。 00。

41、98 举例来说, 一种音节划分方式为 e1e2e3e4, 则概率得分可以为 : P(e1, 首 )*P(e2, 中 )*P(e3, 中 )*P(e4, 尾 )+P(e2|e1)*P(e3|e2)*P(e4|e3)。 0099 P(e1, 首 ) 为音节 e1位于单词的首部的概率, P(e2, 中 )、 P(e3, 中 ) 分别为音节 e2、 e3位于单词的中部的概率, P(e4, 尾 ) 为音节 e4位于单词的尾部的概率。P(e2|e1) 为音节 e2 出现在音节 e1紧后的概率。P(e3|e2)、 P(e4|e3) 类似。 0100 上文提到, 可能多音节语言单词中的有些字母未能与已知音节表。

42、中的任何已知音 节匹配上。对于这种字母, 已经将其按单个字母看作一个非已知音节。在步骤 S41 的计算 中, 可以将非已知音节的特征概率设置为默认的小的数值或已知音节表中同类特征概率中 的最小值。 0101 在步骤 S42 中, 从对应单音节语言译文的双语参考信息角度给出评价。即, 根据对 应的单音节语言单词的读音形式与每种音节划分方式的相似度, 计算每种音节划分方式的 双语得分。 说 明 书 CN 104239289 A 10 8/14 页 11 0102 由于每种音节划分方式与对应的单音节语言单词的读音形式都以字母形式出现, 可以从字母个数和最短编辑距离两个角度来评估彼此的相似性。 显然,。

43、 相似程度越高, 双语 得分越高。 0103 可以计算个数相似度、 距离相似度, 并基于两种相似度计算双语得分。当然, 也可 直接将某一种相似度作为双语得分, 0104 个数相似度是对应的单音节语言单词的读音形式与每种音节划分方式在字母个 数上的相似度。 0105 例如, 个数相似度可以等于对应的单音节语言单词的读音形式与每种音节划分方 式的字母个数的差的绝对值。 0106 距离相似度是对应的单音节语言单词的读音形式与每种音节划分方式在最短编 辑距离上的相似度。 0107 例如, 距离相似度可以等于每种音节划分方式中的各个音节与对应的单音节语言 单词的读音形式中的各个音节之间的相似度 (如最短。

44、编辑距离) 的总和。也就是说, 可以逐 个对应音节计算最短编辑距离, 并计算最短编辑距离的总和, 作为距离相似度。 在上面的示 例中, 英文单词 “babulenka” 按音节划分为 “ba bu len ka” , 中文译文的拼音形式为 “ba bu lun ka” 。分别计算 “ba” 与 “ba” 的最短编辑距离、“bu” 与 “bu” 的最短编辑距离、“lun” 与 “len” 的最短编辑距离、“ka” 与 “ka” 的最短编辑距离, 并计算上述 4 个最短编辑距离的总 和。 0108 其中, 针对候选音节划分方式中的音节个数与对应的单音节语言单词的读音形式 的音节个数不同的情况, 在。

45、计算相似度的总和之前, 通过在音节个数较小的音节划分方式 或读音形式的末端填充预定符号, 使得候选音节划分方式中的音节个数与对应的单音节语 言单词的读音形式的音节个数相同。少几个音节, 就填充几个预定符号。预定符号显然不 能与多音节语言和单音节语言读音形式中的字母相同。 0109 在步骤 S43 中, 综合前述两种评价方式的结果, 给出总的评价, 即根据概率得分和 双语得分, 计算每种音节划分方式的总得分。 0110 可以将概率得分和双语得分线性组合, 来计算每种音节划分方式的总得分。线性 组合的组合系数, 可以根据经验指定。 0111 经过上述步骤 S41-S43, 可以获得每种音节划分方式。

46、的总得分。 0112 在步骤 S23 中, 选择总得分最高的音节划分方式, 作为多音节语言单词的音节划 分结果。 0113 至此, 根据已知音节表和对应的单音节语言译文, 得到了多音节语言单词的最有 可能的音节划分方式。 0114 下面, 将参照图 5 描述根据本发明实施例的音节划分设备。 0115 图 5 示出了根据本发明实施例的音节划分设备的结构方框图。如图 5 所示, 根据 本发明的音节划分设备500包括 : 音节划分枚举装置51, 被配置为 : 对于给定的多音节语言 单词, 根据多音节语言的已知音节表, 枚举所有可能的音节划分方式, 所述已知音节表中记 录有已知音节及其特征概率 ; 总。

47、得分计算装置 52, 被配置为 : 根据所述已知音节的特征概 率和与所述多音节语言单词对应的单音节语言单词的读音形式, 计算每种音节划分方式的 总得分 ; 以及结果确定装置 53, 被配置为 : 选择总得分最高的音节划分方式, 作为所述多音 说 明 书 CN 104239289 A 11 9/14 页 12 节语言单词的音节划分结果。 0116 在一个实施例中, 音节划分枚举装置 51 被进一步配置为 : 将构成所述多音节语言 单词的单个字母或字母串与所述已知音节表中的已知音节进行匹配 ; 将与所述已知音节匹 配上的单个字母或字母串, 划分为一个音节 ; 将不能与任何所述已知音节匹配上的单个字。

48、 母或字母串中的每个字母, 划分为一个音节 ; 所有互不矛盾的划分结果的组合构成所述所 有可能的音节划分方式。 0117 在一个实施例中, 所述已知音节的特征概率包括 : 反映音节在单词中的位置的可 能性的位置概率、 和 / 或反映相邻音节的置信度的相邻概率。 0118 在一个实施例中, 所述位置概率包括 : 音节位于单词的首部的概率、 音节位于单词 的尾部的概率、 音节位于单词的首部和尾部之间的中部的概率 ; 所述相邻概率包括 : 音节 在其它音节紧前的概率、 音节在其它音节紧后的概率。 0119 在一个实施例中, 总得分计算装置 52 包括 : 概率得分计算单元, 被配置为 : 根据 所述。

49、已知音节的特征概率, 计算每种音节划分方式的概率得分 ; 双语得分计算单元, 被配置 为 : 根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度, 计算每种 音节划分方式的双语得分 ; 总得分计算单元, 被配置为 : 根据所述概率得分和所述双语得 分, 计算所述每种音节划分方式的总得分。 0120 在一个实施例中, 概率得分计算单元被进一步配置为 : 根据每种音节划分方式中 的各个音节的位置概率和 / 或相邻概率, 计算每种音节划分方式的概率得分。 0121 在一个实施例中, 概率得分计算单元被进一步配置为 : 对于每种音节划分方式中 的非已知音节, 将其特征概率设置为默认的小的数值或已知音节表中同类特征概率中的最 小值。 0122 在一个实施例中, 双语得分计算单元被进一步配置为 : 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1