生成简繁转换模板及基于模板进行简繁转换的方法、系统.pdf

上传人:e2 文档编号:6190496 上传时间:2019-05-18 格式:PDF 页数:16 大小:1.48MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210284530.4

申请日:

2012.08.10

公开号:

CN103577396A

公开日:

2014.02.12

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/28申请日:20120810|||公开

IPC分类号:

G06F17/28

主分类号:

G06F17/28

申请人:

香港城市大学

发明人:

朱纯深; 郝天永

地址:

中国香港九龙

优先权:

专利代理机构:

隆天国际知识产权代理有限公司 72003

代理人:

张艳杰;张浴月

PDF下载: PDF下载
内容摘要

本申请提供了一种生成简繁转换模板的方法及系统、基于模板的中文简繁转换的方法及系统。该中文简繁转换的方法包括:获取第一混合词组;用数字标识符取代所述第一混合词组中的数字以获取第一中间混合词组;从预先生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组;其中,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为简体混合词组和繁体混合词组中的一种,所述第二混合词组为简体混合词组和繁体混合词组中的另一种。本申请可以准确并快速地将包含一对多字符和数字的混合词组进行简繁之间的转换。

权利要求书

权利要求书
1.  一种生成简繁转换模板的方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,其特征在于,包括:
获取第一混合词组-第二混合词组候选对;
从所述第一混合词组-第二混合词组候选对中提取中间候选对;
从所述中间候选对中获取具有最大覆盖率的候选对;
使用所述具有最大覆盖率的候选对生成简繁转换模板。

2.  根据权利要求1所述的方法,其特征在于,获取第一混合词组-第二混合词组候选对的步骤包括:
获取第二混合词组;
将所述第二混合词组进行转换,获取对应所述第二混合词组的第一混合词组;
将所述第一混合词组和所述第二混合词组组成所述第一混合词组-第二混合词组候选对。

3.  根据权利要求2所述的方法,其特征在于,获取第二混合词组的步骤包括:
获取第一中间混合词组,所述第一中间混合词组包括所述一对多字符和所述数字;
利用所述数字标识符取代所述第一中间混合词组中的数字,得到第二中间混合词组;
利用所述一对多字符和/或所述数字标识符变换所述第二中间混合词组,得到第三中间混合词组;
从所述第三中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合词组,得到所述第二混合词组。

4.  根据权利要求2所述的方法,其特征在于,获取第二混合词组的步骤包括:
获取第一中间混合词组,所述第一中间混合词组包括所述一对多字符和 所述数字;
利用所述一对多字符和/或所述数字变换所述第一中间混合词组,得到第四中间混合词组;
利用所述数字标识符取代所述第四中间混合词组中的数字,得到第五中间混合词组;
从所述第五中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合词组,得到所述第二混合词组。

5.  根据权利要求1所述的方法,其特征在于,从所述第一混合词组-第二混合词组候选对中提取中间候选对的步骤包括:
统计所述第一混合词组-第二混合词组候选对在训练文本中的转换频率;
保留转换频率大于第一预设阈值的第一混合词组-第二混合词组候选对;
统计大于第一预设阈值的第一混合词组和第二混合词组候选对的信心度是否大于第二预设阈值;
如果是,则将信心度大于第二预设阈值的第一混合词组和第二混合词组候选对作为所述中间候选对。

6.  一种简繁中文转换方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,其特征在于,包括:
获取第一混合词组;
用数字标识符取代所述第一混合词组中的所述数字,以获取第一中间混合词组;
从根据权利要求1-5任意一项所述的方法生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;
根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组。

7.  根据权利要求6所述的方法,其特征在于,通过字符串匹配方法,利用所述第一混合词组-第二混合词组候选对和所述第一中间混合词组从所述模板中查找所述第一中间混合词组对应的所述第二中间混合词组。

8.  根据权利要求6所述的方法,其特征在于,根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组的步骤包括:
用所述数字取代所述第二中间混合词组中的数字标识符,进而得到所述第一混合词组对应的第二混合词组。

9.  根据权利要求6所述的方法,其特征在于,获取第一混合词组的步骤之前还包括:
接收用户输入的第一混合词组,判断所述第一混合词组中包含所述一对多字符和所述数字的步骤。

10.  根据权利要求6所述的方法,其特征在于,所述数字为中文数字或阿拉伯数字。

11.  一种生成简繁转换模板的系统,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,其特征在于,包括:
候选对获取模块,获取第一混合词组-第二混合词组候选对;
中间候选对提取模块,用于从所述第一混合词组-第二混合词组候选对中提取中间候选对;
最大覆盖率候选对获取模块,用于从所述中间候选对中获取具有最大覆盖率的候选对;
模板生成模块,用于使用所述具有最大覆盖率的候选对生成简繁转换模板。

12.  根据权利要求11所述的系统,其特征在于,具有候选对获取模块用于:
第二混合词组获取单元,用于获取第二混合词组;
第一混合词组获取单元,用于将所述第二混合词组进行转换,获取对应所述第二混合词组的第一混合词组;
候选对组成单元,用于将所述第一混合词组和所述第二混合词组组成所述第一混合词组-第二混合词组候选对。

13.  根据权利要求12所述的系统,其特征在于,第二混合词组单元用于:
获取第一中间混合词组,所述第一中间混合词组包括所述一对多字符和所述数字;
利用所述数字标识符取代所述第一中间混合词组中的数字,得到第二中间混合词组;
利用所述一对多字符和/或所述数字标识符变换所述第二中间混合词组,得到第三中间混合词组;
从所述第三中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合词组,得到所述第二混合词组。

14.  根据权利要求12所述的系统,其特征在于,第二混合词组单元用于:
获取第一中间混合词组,所述第一中间混合词组包括所述一对多字符和所述数字;
利用所述一对多字符和/或所述数字变换所述第一中间混合词组,得到第四中间混合词组;
利用所述数字标识符取代所述第四中间混合词组中的数字,得到第五中间混合词组;
从所述第五中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合词组,得到所述第二混合词组。

15.  根据权利要求11所述的系统,其特征在于,中间候选对提取模块用于:
统计所述第一混合词组-第二混合词组候选对在训练文本中的转换频率;
保留转换频率大于第一预设阈值的第一混合词组-第二混合词组候选对;
统计大于第一预设阈值的第一混合词组和第二混合词组候选对的信心度是否大于第二预设阈值;
如果是,则将信心度大于第二预设阈值的第一混合词组和第二混合词组候选对作为所述中间候选对。

16.  一种简繁中文转换系统,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体 混合词组中的另一种,其特征在于,包括:
第一混合词组获取模块,用于获取第一混合词组;
第一中间混合词组获取模块,用于用数字标识符取代所述第一混合词组中的所述数字,以获取第一中间混合词组;
第二中间混合词组查找模块,用于从根据权利要求11-15任意一项所述的系统生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;
第二混合词组获取模块,用于根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组。

17.  根据权利要求16所述的系统,其特征在于,所述查找模块用于:
通过字符串匹配方法,利用所述第一混合词组-第二混合词组候选对和所述第一中间混合词组从所述模板中查找所述第一中间混合词组对应的所述第二中间混合词组。

18.  根据权利要求16所述的系统,其特征在于,所述第二混合词组获取模块用于:
用所述数字取代所述第二中间混合词组中的数字标识符,进而得到所述第一混合词组对应的第二混合词组。

19.  根据权利要求16所述的系统,其特征在于,还包括:判断模块用于:
接收用户输入的第一混合词组,判断所述第一混合词组中包含所述一对多字符和所述数字。

20.  根据权利要求16所述的系统,其特征在于,所述数字为中文数字或阿拉伯数字。

说明书

说明书生成简繁转换模板及基于模板进行简繁转换的方法、系统
技术领域
本申请涉及一种中文简繁转换的方法及系统,尤其涉及一种生成简繁转换模板及基于模板进行简繁转换的方法、系统。
背景技术
中文文字有简体中文和繁体中文之分,在两岸四地的日常交流中经常需要将简体中文和繁体中文进行相互转换。此时,经常会遇到某些简体中文字符对应多个繁体中文字符的情况。例如,简体中文“里”可以对应繁体中文“里”或“裡”,简体中文“出”可以对应繁体中文“出”或“齣”,简体中文“发”可以对应繁体中文“髮”或“發”,反之亦然,例如繁体中文“乾”可以对应简体的“干”(葡萄干)和“乾”(乾隆、乾坤等),繁體中文“著”可以对应简体的“着”和“著”(著作)等。这种一对多情况可以在现有各类型模板的辅助下得到部分解决。然而在进行简繁转换时,经常会遇到包括一对多字符和各类型数字组成的混合词组(ad hoc numerical phrases),例如,“有40里”、“唱了两出”等。当前的简繁转换技术在转换该类型混合词组时具有如下缺陷:大部分这种混合词组不含常规词典条目或词汇条目,使用常规词典无法进行转换,同时由于数字的不可穷尽性,因此无法完整构建该类型的词典。例如,简体中文“有40里”中不含任何固定词条,因而“里”(在此,“里”表示500米的单位长度)会错误地转换为“裡”(在此,“裡”表示内部);又例如,简体中文“唱了两出”同样不含任何固定词条,“出”应该被转换为繁体中文“齣”,却被错误地转换为繁体中文“出”。此外,由于该混合词组随着数字的改变会生成无数的变型,这使得基于概率的转换模型如N-Gram模型会变得无效,或者不能以任何类型的模板列出,或是难以用任何转换系统处理。
发明内容
为了提高简繁转换精度和转换效率,本申请提供了一种生成简繁转换模板的方法及系统、基于模板进行简繁转换的方法及系统。
本申请的一个方案提供了一种生成简繁转换模板的方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:
获取第一混合词组-第二混合词组候选对;
从所述第一混合词组-第二混合词组候选对中提取中间候选对;
从所述中间候选对中获取具有最大覆盖率的候选对;
使用所述具有最大覆盖率的候选对生成简繁转换模板。
本申请的另一个方案提供了一种简繁中文转换方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:
获取第一混合词组;
用数字标识符取代所述第一混合词组中的所述数字,以获取第一中间混合词组;
从生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;
根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组。
本申请的再一个方案提供了一种生成简繁转换模板的系统,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:
候选对获取模块,获取第一混合词组-第二混合词组候选对;
中间候选对提取模块,用于从所述第一混合词组-第二混合词组候选对中提取中间候选对;
最大覆盖率候选对获取模块,用于从所述中间候选对中获取具有最大覆盖率的候选对;
模板生成模块,用于使用所述具有最大覆盖率的候选对生成简繁转换模 板。
本申请的再一个方案提供了一种简繁中文转换系统,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:
第一混合词组获取模块,用于获取第一混合词组;
第一中间混合词组获取模块,用于用数字标识符取代所述第一混合词组中的所述数字,以获取第一中间混合词组;
第二中间混合词组查找模块,用于从生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;
第二混合词组获取模块,用于根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组。
综上所述,利用预先生成的第一中文混合词组-第二中文混合词组候选对,可以快速和准确地完成包含一对多字符和数字的第一混合词组和第二混合词组之间的简繁转换。
通过以下参照附图对本申请实施例的说明,本申请的上述以及其它目的、特征和优点将更加明显。
附图说明
下面将参照所附附图来描述本申请的实施例,其中:
图1是本申请的实施例一提供的生成简繁转换模板的方法的流程图;
图2是本申请的实施例一提供的获取第一混合词组-第二混合词组候选对的流程图;
图3是本申请的实施例二提供的简繁中文转换方法的流程图;
图4是本申请的实施例三提供的生成简繁转换模板的系统的方块图;
图5是本申请的实施例三提供的候选对获取模块的结构图;
图6是本申请的实施例四提供的简繁中文转换系统的方块图。
具体实施方式
下面结合附图详细描述本申请的具体实施例。应当注意,这里描述的实 施例只用于举例说明,并不用于限制本申请。
实施例一
本实施例提供了一种生成简繁转换模板的方法,该方法用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种。如图1所示,该方法包括:
S110,获取第一混合词组-第二混合词组候选对。
为了描述简便,在本实施例中,第一混合词组为简体混合词组,即该第一混合词组为简体中文和数字相混合的词组,第二混合词组为繁体混合词组,即该第二混合词组为繁体中文和数字相混合的词组。
具体地,如图2所示,该步骤包括:
S211,获取第一中间混合词组,从而获取第二混合词组。
具体地,以获取的第一中间混合词组为“小河長有40里”为例,将其表示为:“<TC>小河長有40里”,其中,“<TC>”表示为繁体混合词组,字符“里”为一对多字符,“40”为数字。
其次,用数字标识符“[num]”取代第一中间混合词组中的数字“40”,得到第二中间混合词组“<TC>小河長有[num]里”,本领域技术人员可以理解的是,数字标识符“[num]”仅是举例需要,本申请的保护范围并不限于此。
再次,以一对多字符“里”为基准对第二中间混合词组“<TC>小河長有[num]里”进行变换,从而得到多个第三中间混合词组。其中,本申请所述“变换”可以是一个混合词组通过增加、减少或改换字符,或者通过其他方式来达到形式上的扩展、缩减或变更。
例如,对减少字符这一方式而言,将“<TC>小河長有[num]里”缩减为“<TC>河長有[num]里”、“<TC>長有[num]里”、“<TC>有[num]里”、“<TC>[num]里”、“<TC>里”等,从以上示例可以看出,本示例的字符缩减是从繁体混合词组的开头开始,依次缩减一个字符,本领域技术人员可以理解的是,字符缩减也可以从繁体混合词组的结尾开始,每次缩减字符的数量也不限于一个,也可以是其他数量,此外,每次缩减字符的数量不一定必须相同。
例如,对于增加字符这一方式而言,可以利用延长结构来对繁体混合词 组进行扩展,以增加其长度,这种延长结构可以位于繁体混合词组的开头,也可以是位于繁体混合词组的结尾,也可以是位于繁体混合词组的中间,并且延长结构的长度可以呈现一定的规律性,也可以具有随机性。例如,将“<TC>小河長有[num]里”变换为“<TC>旁边的小河長有[num]里”,其中,延长结构为“旁边的”,其位于繁体混合词组“<TC>小河長有[num]里”之前。
从以上可以看出,在获取的多个第三中间混合词组中,有些包括数字和一对多字符,有些仅包括一对多字符,有些仅包括数字,有些不包括一对多字符和数字。
本实施例采用的示例为:通过减少字符这一方式将“<TC>小河長有[num]里”缩减为“<TC>河長有[num]里”、“<TC>長有[num]里”、“<TC>有[num]里”、“<TC>[num]里”、“<TC>里”等。
再次,从第三中间混合词组中过滤掉不包括一对多字符和数字标识符的第三中间混合词组,得到第二混合词组。
承接上述示例,利用数字标识符“[num]”过滤掉词组“<TC>里”,从而最终得到第二混合词组:“<TC>小河長有[num]里”、“<TC>河長有[num]里”、“<TC>長有[num]里”、“<TC>有[num]里”和“<TC>[num]里”,此处得到的第二混合词组具有重叠的结构“[num]里”。
需要指出的是,本实施例也可以数字标识符“[num]”为基准来对繁体混合词组“<TC>小河長有[num]里”进行变换,例如,将繁体混合词组“<TC>小河長有[num]里”变换为多个第三中间混合词组:“<TC>河長有[num]里”、“<TC>長有[num]里”、“<TC>小河長有[num]”等。然后再利用一对多字符“里”过滤掉不包含一对多字符和数字标识符的第三中间混合词组,从而得到第二混合词组。
本领域技术人员可以理解的是,本实施例也可以同时以一对多字符“里”和数字标识符“[num]”为基准进行变换,然后再利用一对多字符“里”和数字标识符“[num]”过滤掉不包含一对多字符“里”和数字标识符“[num]”的混合词组,从而得到第二混合词组。在这种情况下,过滤步骤是可以省略的,从而使得运算效率非常高。
需要指出的是,本实施例也可以先以数字为基准对第一中间混合词组进 行变换,然后再用数字标识符“[num]”取代变换后的混合词组中的数字,然后再利用一对多字符和数字标识符“[num]”进行过滤,具体的过程可以参照上述描述,在此不再赘述。
本领域技术人员可以理解的是,无论是采用何种变换和过滤方式,最终只要保证获得第二混合词组包括一对多字符和数字标识符即可。
S212,将第二混合词组进行转换,获取对应第二混合词组的第一混合词组。
承接上述示例,分别将第二混合词组“<TC>小河長有[num]里”、“<TC>河長有[num]里”、“<TC>長有[num]里”、“<TC>有[num]里”和“<TC>[num]里”转换为第一混合词组“<SC>小河长有[num]里”、“<SC>河长有[num]里”、“<SC>长有[num]里”、“<SC>有[num]里”和“<SC>[num]里”,其中,“<SC>”表示简体混合词组。
S213,将第一混合词组与对应的第二混合词组组成第一混合词组-第二混合词组候选对。
承接上述示例,分别将第二混合词组“<TC>小河長有[num]里”、“<TC>河長有[num]里”、“<TC>長有[num]里”、“<TC>有[num]里”和“<TC>[num]里”与对应的第一混合词组“<SC>小河长有[num]里”、“<SC>河长有[num]里”、“<SC>长有[num]里”、“<SC>有[num]里”和“<SC>[num]里”组成第一混合词组-第二混合词组候选对:“<SC>小河长有[num]里→<TC>小河長有[num]里”、“<SC>河长有[num]里→<TC>河長有[num]里”、“<SC>长有[num]里→<TC>長有[num]里”、“<SC>有[num]里→<TC>有[num]里”和“<SC>[num]里→<TC>[num]里”。
需要说明的是,在实际应用中,并不是所有的候选对都具有重叠结构,理由是:可能该句子是以数字开始,以一对多字符结尾,因此只能获取一个候选对;或是,从内容完全不同的句子获取对应的候选对,从不同句子的角度看,获取的候选对不具有重叠结构。本申请为了简化描述,以具有重叠结构的候选对为例,但这并构成对本申请的限制。
S120,从第一混合词组-第二混合词组候选对中提取中间候选对。
承接上述示例,利用训练文本,统计候选对中第一混合词组到第二混合词组的转换频率,转换频率大于预设第一阈值的候选对得以保留下来。例如, 对于候选对“<SC>小河长有[num]里→<TC>小河長有[num]里”而言,从第一混合词组“<SC>小河长有[num]里”到第二混合词组“<TC>小河長有[num]里”的转换频率为12次,对于候选对“<SC>河长有[num]里→<TC>河長有[num]里”而言,转换频率为18次,对于候选对“<SC>长有[num]里→<TC>長有[num]里”而言,转换频率为20次,对于候选对“<SC>有[num]里→<TC>有[num]里”而言,转换频率为25次,对于候选对“<SC>[num]里→<TC>[num]里”而言,转换频率为34次,预设第一阈值为19次,这样保留候选对“<SC>长有[num]里→<TC>長有[num]里”、“<SC>有[num]里→<TC>有[num]里”和“<SC>[num]里→<TC>[num]里”。
然后,统计候选对的信心度,保留信心度大于预设第二预设阈值的候选对。具体地,由于存在一对多字符,在生成第一混合词组-第二混合词组候选对时,可能会出现一个混合词组对应两种混合词组,所以需要判断每一第一混合词组-第二混合词组候选对的信心度,保留信心度大于第二预设阈值的候选对。例如,在生成候选对“长有[num]里→<TC>長有[num]里”时,还可能会生成候选对“长有[num]里→<TC>長有[num]裏”;在生成候选对“<SC>有[num]里→<TC>有[num]里”时,还可能会生成候选对“<SC>有[num]里→<TC>有[num]裡”;在生成候选对“<SC>[num]里→<TC>[num]里”时,还可能会生成候选对“<SC>[num]里→<TC>[num]裏”。此时,对于候选对“<SC>长有[num]里→<TC>長有[num]里”、“<SC>有[num]里→<TC>有[num]里”和“<SC>[num]里→<TC>[num]里”而言,其转换频率分别为20次、25次和34次。相对应地,对于候选对“长有[num]里→<TC>長有[num]裏”、“<SC>有[num]里→<TC>有[num]裡”和“<SC>[num]里→<TC>[num]裏”而言,其转换频率分别为1次、3次和10次。然后,统计“<SC>长有[num]里→<TC>長有[num]里”、“<SC>有[num]里→<TC>有[num]里”和“<SC>[num]里→<TC>[num]里”的信心度分别为20/(20+1)、25/(25+3)和34/(34+10),第二预设阈值为6/7,通过将各个候选对的信心度与第二预设阈值进行比较,保留候选对“<SC>长有[num]里→<TC>長有[num]里”和“<SC>有[num]里→<TC>有[num]里”。这样做的目的是不仅得到高频率转换的候选对,又保证得到的该候选对的转换可能性具有很高信心度,即能满足实际转换需要。
S130,从中间候选对中选取具有最大覆盖率的候选对。
承接上述示例,候选对“<SC>有[num]里→<TC>有[num]里”和“<SC>[num]里→<TC>[num]里”是两个合适的候选对,并且候选对“<SC>[num]里→<TC>[num]里”是候选对“<SC>有[num]里→<TC>有[num]里”的模板。因此,可以对两个候选对进行合并,以便减小模板的存储空间和存储成本,并且还可以在保证转换精度的同时,提高转换效率。这种合并可以通过计算覆盖率来评估,该覆盖率表示:在一个训练文本中,与候选对匹配的简体或繁体的句子数量在所有句子数量中所占的比重,此处的简体或繁体是由测试文本的简繁类型所决定。计算覆盖率的公式如下:
Coverage(pSC&RightArrow;pTC)=|matched sentences ofpSC/pTC||all sentences|]]>
其中,Coverage(pSC→pTC)表示由简体中文混合词组转换为繁体中文混合词组的覆盖率,matched sentences of pSC/pTC表示与候选对匹配的简体或繁体的句子数量,分子中的pSC or pTC取决于用于产生模板的训练文本的语言类型,例如,如果训练文本是简体中文,则此处应选择使用pSC。更大的覆盖率能够匹配更多的示例。例如,将候选对“<SC>有[num]里→<TC>有[num]里”和“<SC>[num]里→<TC>[num]里”合并为候选对“<SC>[num]里→<TC>[num]里”,后一个候选对要比候选对“<SC>有[num]里→<TC>有[num]里”具有更大覆盖率。在本实施例中,候选对“<SC>[num]里→<TC>[num]里”更适合作为用于简繁转换目的模板。
S140,使用具有最大覆盖率的候选对生成简繁转换模板。
本实施例生成的简繁转换模板可以用于以后快速和准确地进行简繁转换之用。
实施例二
本实施例提供了一种简繁中文转换的方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,如图3所示,包括:
S310,获取第一混合词组。
其中,在获取第一混合词组前还可以包括:接收用户输入的第一混合词组,判断该第一混合词组是否包含一对多字符和数字,如果是,则转入S320; 如果否,则终止。其中,数字可以为中文数字或阿拉伯数字。
为了描述简便,在本实施例中,第一混合词组为包括一对多字符和数字的简体混合词组,第二混合词组为包括一对多字符和数字的繁体混合词组。
具体地,在本实施例中,第一混合词组是“小河长有40里之多”,该混合词组表示为“<SC>小河长有40里之多”,其中“<SC>”表示该混合词组为简体混合词组,其中,字符“里”为一对多字符。其中,混合词组“小河长有40里之多”只是为了举例需要,本申请的保护范围并不限于此。
S320,用数字标识符取代第一混合词组的数字,获取第二中间混合词组。
承接上述示例,用数字标识符“[num]”取代第一混合词组“小河长有40里之多”中的数字“40”,这样第一混合词组“小河长有40里之多”变为第二中间混合词组“小河长有[num]里之多”,其表示为“<SC>小河长有[num]里之多”。需要指出的是,数字标识符“[num]”只是为了举例需要,本申请的保护范围并不限于此。
S330,从实施例一生成的模板中查找第一中间混合词组对应的第二中间混合词组。
在实施例一中,生成的模板包括多个第一混合词组-第二混合词组候选对。在本实施例中,模板包括第一混合词组-第二混合词组候选对“<SC>[num]里→<TC>[num]里”,系统采用自后向前的最大匹配方式对整句进行匹配,具体地,从该句子的最后一个字符开始,先匹配最长的句子,然后从句子前面开始减少字符,直到减少到剩余的词组不包括一对多字符或数字为止。然后,将句子前段移动一个字符重新开始以上的匹配过程,即匹配“<SC>小河长有[num]里之多”、“<SC>河长有[num]里之多”、“<SC>长有[num]里之多”....直到“<SC>[num]里”,如果匹配过程中存在匹配对象,则自动终止该过程。需要说明的是,在进行一对多匹配过程时,还会同时进行其他匹配过程,例如,一对一字符匹配、人名匹配、地名匹配等,其它匹配过程与一对多匹配过程互不影响。因为该匹配过程与其他词典匹配是同步进行(不需要单独进行该过程)且模板是存储在哈希表(hashtable)中,所以匹配效率很高。通过上述匹配过程,可以得到第一中间混合词组“<SC>小河长有[num]里之多”对应的第二中间混合词组“<TC>小河長有[num]里之多”,其中,“<TC>”表示繁体混合词组。
S340,根据数字标识符和第二中间混合词组获取第一混合词组对应的第二混合词组。
具体地,根据步骤S310的描述可知,数字标识符“[num]”和数字“40”之间存在对应关系。因此,在本步骤中,可以用数字“40”取代步骤S330中得到的第二中间混合词组“<TC>小河長有[num]里之多”中的数字标识符“[num]”,从而得到步骤S310中的第一混合词组“<SC>小河长有40里之多”对应的第二混合词组“<TC>小河長有40里之多”。
综上所述,利用预先生成的第一中文混合词组-第二中文混合词组候选对,可以快速和准确地完成包含一对多字符和数字的第一混合词组和第二混合词组之间的转换。
实施例三
本实施例提供了一种生成简繁转换模板的系统,用于第一和第二混合词组之间的转换,第一和第二混合词组包括一对多字符和数字,第一混合词组为繁体混合词组和简体混合词组中的一种,第二混合词组为繁体混合词组和简体混合词组中的另一种,如图4所示,包括:
候选对获取模块410,获取第一混合词组-第二混合词组候选对。其中,关于候选对获取模块410的具体功能可以参见实施例一的S110。
中间候选对提取模块420,用于从第一混合词组-第二混合词组候选对中提取中间候选对。其中,关于中间候选对提取模块420的具体功能可以参见实施例一的S120。
最大覆盖率候选对获取模块430,用于从中间候选对中获取具有最大覆盖率的候选对。关于最大覆盖率候选对获取模块430的具体功能可以参见实施例一的S130。
模板生成模块440,用于使用具有最大覆盖率的候选对生成简繁转换模板。
优选地,如图5所示,候选对获取模块410包括:
第二混合词组获取单元510,用于获取第二混合词组;
第一混合词组获取单元520,用于将第二混合词组进行转换,获取对应第二混合词组的第一混合词组;
候选对组成单元530,用于将第一混合词组和第二混合词组组成第一混 合词组-第二混合词组候选对。
优选地,第二混合词组获取单元510用于:
获取第一中间混合词组,第一中间混合词组包括一对多字符和数字;
利用数字标识符取代第一中间混合词组中的数字,得到第二中间混合词组;
利用一对多字符和/或数字标识符变换第二中间混合词组,得到第三中间混合词组;
从第三中间混合词组中过滤掉不包括一对多字符和数字标识符的混合词组,得到第二混合词组。
优选地,第二混合词组获取单元510用于:
获取第一中间混合词组,第一中间混合词组包括一对多字符和数字;
利用一对多字符和/或数字变换第一中间混合词组,得到第四中间混合词组;
利用数字标识符取代第四中间混合词组中的数字,得到第五中间混合词组;
从第五中间混合词组中过滤掉不包括一对多字符和数字标识符的混合词组,得到第二混合词组。
优选地,中间候选对提取模块420用于:
统计第一混合词组-第二混合词组候选对在训练文本中的转换频率;
保留转换频率大于第一预设阈值的第一混合词组-第二混合词组候选对;
统计大于第一预设阈值的第一混合词组和第二混合词组候选对的信心度是否大于第二预设阈值;
如果是,则将信心度大于第二预设阈值的第一混合词组和第二混合词组候选对作为中间候选对。
通过本实施例所生成简繁转换的模板可以用于以后快速和准确地进行简繁转换之用。
实施例四
本实施例提供了一种简繁中文转换的系统,该系统用于第一和第二混合词组之间的转换,其中第一混合词组为简体混合词组和繁体混合词组中的一种,第二混合词组为简体混合词组和繁体混合词组中的另一种,第一和第二 混合词组包括一对多字符和数字。如图6所示,该系统包括:
第一混合词组获取模块610,用于获取第一混合词组。其中,第一混合词组获取模块610的功能可以参见实施例二的步骤310,在此不再赘述。
第一中间混合词组获取模块620,用于用数字标识符取代第一混合词组中的数字以获取第一中间混合词组。第一混合词组获取模块620的功能可以参见实施例二的步骤320,在此不再赘述。
第二中间混合词组查找模块630,用于从根据实施例一的方法生成的模板中查找第一中间混合词组对应的第二中间混合词组。其中,第二中间混合词组查找模块630的功能可以参见实施例二的步骤330,在此不再赘述。其中,
第二混合词组获取模块640,用于根据数字标识符和第二中间混合词组获取第一混合词组对应的第二混合词组。其中,第二混合词组获取模块640的功能可以参见实施例二的步骤340,在此不再赘述。
优选地,第二中间混合词组查找模块630,用于通过字符串匹配方法,利用实施例一得到的第一混合词组-第二混合词组候选对和第一中间混合词组从模板中查找第二中间混合词组。
优选地,第二混合词组获取模块640,用于用数字取代第二中间混合词组中的数字标识符,进而得到第一混合词组对应的第二混合词组。
优选地,该系统还包括:判断模块650,用于接收用户输入的第一混合词组,判断第一混合词组中包含一对多字符和数字,并输出给第一混合词组获取模块610。其中,数字为中文数字或阿拉伯数字。
综上,利用预先生成的第一中文混合词组-第二中文混合词组候选对模板,可以快速和准确地完成包含一对多字符和数字的第一混合词组和第二混合词组之间的简繁转换。
本申请提供的生成简繁转换模板的方法和基于模板的中文简繁转换的方法及其步骤可以由具有数据处理能力的一个或多个处理设备例如一个或多个计算机运行计算机可执行指令(该计算机可执行指令反映了本申请提出的实现即时通讯方法的思想)来实现。该处理设备可以包括存储前述计算机可执行指令的存储介质以及中央处理器。
本申请的生成简繁转换模板的系统及基于模板的中文简繁转换的系统 可以是运行前述计算机可执行指令的一个或多个处理设备。该系统中的各个模块可以为该处理设备运行前述计算机可执行指令时具有相应功能的设备组件。
虽然已参照典型实施例描述了本申请,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本申请能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

生成简繁转换模板及基于模板进行简繁转换的方法、系统.pdf_第1页
第1页 / 共16页
生成简繁转换模板及基于模板进行简繁转换的方法、系统.pdf_第2页
第2页 / 共16页
生成简繁转换模板及基于模板进行简繁转换的方法、系统.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《生成简繁转换模板及基于模板进行简繁转换的方法、系统.pdf》由会员分享,可在线阅读,更多相关《生成简繁转换模板及基于模板进行简繁转换的方法、系统.pdf(16页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103577396 A (43)申请公布日 2014.02.12 CN 103577396 A (21)申请号 201210284530.4 (22)申请日 2012.08.10 G06F 17/28(2006.01) (71)申请人 香港城市大学 地址 中国香港九龙 (72)发明人 朱纯深 郝天永 (74)专利代理机构 隆天国际知识产权代理有限 公司 72003 代理人 张艳杰 张浴月 (54) 发明名称 生成简繁转换模板及基于模板进行简繁转换 的方法、 系统 (57) 摘要 本申请提供了一种生成简繁转换模板的方 法及系统、 基于模板的中文简繁转换的方法及系 统。该。

2、中文简繁转换的方法包括 : 获取第一混合 词组 ; 用数字标识符取代所述第一混合词组中的 数字以获取第一中间混合词组 ; 从预先生成的模 板中查找所述第一中间混合词组对应的第二中间 混合词组 ; 根据所述数字标识符和所述第二中间 混合词组获取所述第一混合词组对应的第二混合 词组 ; 其中, 所述第一和第二混合词组包括一对 多字符和数字, 所述第一混合词组为简体混合词 组和繁体混合词组中的一种, 所述第二混合词组 为简体混合词组和繁体混合词组中的另一种。本 申请可以准确并快速地将包含一对多字符和数字 的混合词组进行简繁之间的转换。 (51)Int.Cl. 权利要求书 3 页 说明书 9 页 附图。

3、 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书9页 附图3页 (10)申请公布号 CN 103577396 A CN 103577396 A 1/3 页 2 1. 一种生成简繁转换模板的方法, 用于第一和第二混合词组之间的转换, 所述第一和 第二混合词组包括一对多字符和数字, 所述第一混合词组为繁体混合词组和简体混合词组 中的一种, 所述第二混合词组为繁体混合词组和简体混合词组中的另一种, 其特征在于, 包 括 : 获取第一混合词组 - 第二混合词组候选对 ; 从所述第一混合词组 - 第二混合词组候选对中提取中间候选对 ; 从所述中间候选对中获取具。

4、有最大覆盖率的候选对 ; 使用所述具有最大覆盖率的候选对生成简繁转换模板。 2.根据权利要求1所述的方法, 其特征在于, 获取第一混合词组-第二混合词组候选对 的步骤包括 : 获取第二混合词组 ; 将所述第二混合词组进行转换, 获取对应所述第二混合词组的第一混合词组 ; 将所述第一混合词组和所述第二混合词组组成所述第一混合词组 - 第二混合词组候 选对。 3. 根据权利要求 2 所述的方法, 其特征在于, 获取第二混合词组的步骤包括 : 获取第一中间混合词组, 所述第一中间混合词组包括所述一对多字符和所述数字 ; 利用所述数字标识符取代所述第一中间混合词组中的数字, 得到第二中间混合词组 ; 。

5、利用所述一对多字符和 / 或所述数字标识符变换所述第二中间混合词组, 得到第三中 间混合词组 ; 从所述第三中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合 词组, 得到所述第二混合词组。 4. 根据权利要求 2 所述的方法, 其特征在于, 获取第二混合词组的步骤包括 : 获取第一中间混合词组, 所述第一中间混合词组包括所述一对多字符和所述数字 ; 利用所述一对多字符和 / 或所述数字变换所述第一中间混合词组, 得到第四中间混合 词组 ; 利用所述数字标识符取代所述第四中间混合词组中的数字, 得到第五中间混合词组 ; 从所述第五中间混合词组中过滤掉不包括所述一对多字符和所述数字标。

6、识符的混合 词组, 得到所述第二混合词组。 5.根据权利要求1所述的方法, 其特征在于, 从所述第一混合词组-第二混合词组候选 对中提取中间候选对的步骤包括 : 统计所述第一混合词组 - 第二混合词组候选对在训练文本中的转换频率 ; 保留转换频率大于第一预设阈值的第一混合词组 - 第二混合词组候选对 ; 统计大于第一预设阈值的第一混合词组和第二混合词组候选对的信心度是否大于第 二预设阈值 ; 如果是, 则将信心度大于第二预设阈值的第一混合词组和第二混合词组候选对作为所 述中间候选对。 6. 一种简繁中文转换方法, 用于第一和第二混合词组之间的转换, 所述第一和第二混 合词组包括一对多字符和数字。

7、, 所述第一混合词组为繁体混合词组和简体混合词组中的一 种, 所述第二混合词组为繁体混合词组和简体混合词组中的另一种, 其特征在于, 包括 : 权 利 要 求 书 CN 103577396 A 2 2/3 页 3 获取第一混合词组 ; 用数字标识符取代所述第一混合词组中的所述数字, 以获取第一中间混合词组 ; 从根据权利要求 1-5 任意一项所述的方法生成的模板中查找所述第一中间混合词组 对应的第二中间混合词组 ; 根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混 合词组。 7. 根据权利要求 6 所述的方法, 其特征在于, 通过字符串匹配方法, 利用所述第一混合 词组。

8、 - 第二混合词组候选对和所述第一中间混合词组从所述模板中查找所述第一中间混 合词组对应的所述第二中间混合词组。 8. 根据权利要求 6 所述的方法, 其特征在于, 根据所述数字标识符和所述第二中间混 合词组获取所述第一混合词组对应的第二混合词组的步骤包括 : 用所述数字取代所述第二中间混合词组中的数字标识符, 进而得到所述第一混合词组 对应的第二混合词组。 9. 根据权利要求 6 所述的方法, 其特征在于, 获取第一混合词组的步骤之前还包括 : 接收用户输入的第一混合词组, 判断所述第一混合词组中包含所述一对多字符和所述 数字的步骤。 10. 根据权利要求 6 所述的方法, 其特征在于, 所。

9、述数字为中文数字或阿拉伯数字。 11. 一种生成简繁转换模板的系统, 用于第一和第二混合词组之间的转换, 所述第一和 第二混合词组包括一对多字符和数字, 所述第一混合词组为繁体混合词组和简体混合词组 中的一种, 所述第二混合词组为繁体混合词组和简体混合词组中的另一种, 其特征在于, 包 括 : 候选对获取模块, 获取第一混合词组 - 第二混合词组候选对 ; 中间候选对提取模块, 用于从所述第一混合词组 - 第二混合词组候选对中提取中间候 选对 ; 最大覆盖率候选对获取模块, 用于从所述中间候选对中获取具有最大覆盖率的候选 对 ; 模板生成模块, 用于使用所述具有最大覆盖率的候选对生成简繁转换模。

10、板。 12. 根据权利要求 11 所述的系统, 其特征在于, 具有候选对获取模块用于 : 第二混合词组获取单元, 用于获取第二混合词组 ; 第一混合词组获取单元, 用于将所述第二混合词组进行转换, 获取对应所述第二混合 词组的第一混合词组 ; 候选对组成单元, 用于将所述第一混合词组和所述第二混合词组组成所述第一混合词 组 - 第二混合词组候选对。 13. 根据权利要求 12 所述的系统, 其特征在于, 第二混合词组单元用于 : 获取第一中间混合词组, 所述第一中间混合词组包括所述一对多字符和所述数字 ; 利用所述数字标识符取代所述第一中间混合词组中的数字, 得到第二中间混合词组 ; 利用所述。

11、一对多字符和 / 或所述数字标识符变换所述第二中间混合词组, 得到第三中 间混合词组 ; 从所述第三中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合 权 利 要 求 书 CN 103577396 A 3 3/3 页 4 词组, 得到所述第二混合词组。 14. 根据权利要求 12 所述的系统, 其特征在于, 第二混合词组单元用于 : 获取第一中间混合词组, 所述第一中间混合词组包括所述一对多字符和所述数字 ; 利用所述一对多字符和 / 或所述数字变换所述第一中间混合词组, 得到第四中间混合 词组 ; 利用所述数字标识符取代所述第四中间混合词组中的数字, 得到第五中间混合词组 ; 从。

12、所述第五中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合 词组, 得到所述第二混合词组。 15. 根据权利要求 11 所述的系统, 其特征在于, 中间候选对提取模块用于 : 统计所述第一混合词组 - 第二混合词组候选对在训练文本中的转换频率 ; 保留转换频率大于第一预设阈值的第一混合词组 - 第二混合词组候选对 ; 统计大于第一预设阈值的第一混合词组和第二混合词组候选对的信心度是否大于第 二预设阈值 ; 如果是, 则将信心度大于第二预设阈值的第一混合词组和第二混合词组候选对作为所 述中间候选对。 16. 一种简繁中文转换系统, 用于第一和第二混合词组之间的转换, 所述第一和第二混。

13、 合词组包括一对多字符和数字, 所述第一混合词组为繁体混合词组和简体混合词组中的一 种, 所述第二混合词组为繁体混合词组和简体混合词组中的另一种, 其特征在于, 包括 : 第一混合词组获取模块, 用于获取第一混合词组 ; 第一中间混合词组获取模块, 用于用数字标识符取代所述第一混合词组中的所述数 字, 以获取第一中间混合词组 ; 第二中间混合词组查找模块, 用于从根据权利要求 11-15 任意一项所述的系统生成的 模板中查找所述第一中间混合词组对应的第二中间混合词组 ; 第二混合词组获取模块, 用于根据所述数字标识符和所述第二中间混合词组获取所述 第一混合词组对应的第二混合词组。 17. 根据。

14、权利要求 16 所述的系统, 其特征在于, 所述查找模块用于 : 通过字符串匹配方法, 利用所述第一混合词组 - 第二混合词组候选对和所述第一中间 混合词组从所述模板中查找所述第一中间混合词组对应的所述第二中间混合词组。 18. 根据权利要求 16 所述的系统, 其特征在于, 所述第二混合词组获取模块用于 : 用所述数字取代所述第二中间混合词组中的数字标识符, 进而得到所述第一混合词组 对应的第二混合词组。 19. 根据权利要求 16 所述的系统, 其特征在于, 还包括 : 判断模块用于 : 接收用户输入的第一混合词组, 判断所述第一混合词组中包含所述一对多字符和所述 数字。 20. 根据权利。

15、要求 16 所述的系统, 其特征在于, 所述数字为中文数字或阿拉伯数字。 权 利 要 求 书 CN 103577396 A 4 1/9 页 5 生成简繁转换模板及基于模板进行简繁转换的方法、 系统 技术领域 0001 本申请涉及一种中文简繁转换的方法及系统, 尤其涉及一种生成简繁转换模板及 基于模板进行简繁转换的方法、 系统。 背景技术 0002 中文文字有简体中文和繁体中文之分, 在两岸四地的日常交流中经常需要将简体 中文和繁体中文进行相互转换。此时, 经常会遇到某些简体中文字符对应多个繁体中文字 符的情况。例如, 简体中文 “里” 可以对应繁体中文 “里” 或 “裡” , 简体中文 “出”。

16、 可以对应繁 体中文 “出” 或 “齣” , 简体中文 “发” 可以对应繁体中文 “髮” 或 “發” , 反之亦然, 例如繁体中 文 “乾” 可以对应简体的 “干” (葡萄干) 和 “乾” (乾隆、 乾坤等) , 繁體中文 “著” 可以对应简 体的 “着” 和 “著” (著作) 等。这种一对多情况可以在现有各类型模板的辅助下得到部分解 决。 然而在进行简繁转换时, 经常会遇到包括一对多字符和各类型数字组成的混合词组 (ad hoc numerical phrases) , 例如,“有 40 里” 、“唱了两出” 等。当前的简繁转换技术在转换该 类型混合词组时具有如下缺陷 : 大部分这种混合词组。

17、不含常规词典条目或词汇条目, 使用 常规词典无法进行转换, 同时由于数字的不可穷尽性, 因此无法完整构建该类型的词典。 例 如, 简体中文 “有 40 里” 中不含任何固定词条, 因而 “里” (在此,“里” 表示 500 米的单位长 度) 会错误地转换为 “裡” (在此,“裡” 表示内部) ; 又例如, 简体中文 “唱了两出” 同样不含 任何固定词条,“出” 应该被转换为繁体中文 “齣” , 却被错误地转换为繁体中文 “出” 。此外, 由于该混合词组随着数字的改变会生成无数的变型, 这使得基于概率的转换模型如 N-Gram 模型会变得无效, 或者不能以任何类型的模板列出, 或是难以用任何转换。

18、系统处理。 发明内容 0003 为了提高简繁转换精度和转换效率, 本申请提供了一种生成简繁转换模板的方法 及系统、 基于模板进行简繁转换的方法及系统。 0004 本申请的一个方案提供了一种生成简繁转换模板的方法, 用于第一和第二混合词 组之间的转换, 所述第一和第二混合词组包括一对多字符和数字, 所述第一混合词组为繁 体混合词组和简体混合词组中的一种, 所述第二混合词组为繁体混合词组和简体混合词组 中的另一种, 包括 : 0005 获取第一混合词组 - 第二混合词组候选对 ; 0006 从所述第一混合词组 - 第二混合词组候选对中提取中间候选对 ; 0007 从所述中间候选对中获取具有最大覆盖。

19、率的候选对 ; 0008 使用所述具有最大覆盖率的候选对生成简繁转换模板。 0009 本申请的另一个方案提供了一种简繁中文转换方法, 用于第一和第二混合词组之 间的转换, 所述第一和第二混合词组包括一对多字符和数字, 所述第一混合词组为繁体混 合词组和简体混合词组中的一种, 所述第二混合词组为繁体混合词组和简体混合词组中的 另一种, 包括 : 说 明 书 CN 103577396 A 5 2/9 页 6 0010 获取第一混合词组 ; 0011 用数字标识符取代所述第一混合词组中的所述数字, 以获取第一中间混合词组 ; 0012 从生成的模板中查找所述第一中间混合词组对应的第二中间混合词组 ;。

20、 0013 根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第 二混合词组。 0014 本申请的再一个方案提供了一种生成简繁转换模板的系统, 用于第一和第二混合 词组之间的转换, 所述第一和第二混合词组包括一对多字符和数字, 所述第一混合词组为 繁体混合词组和简体混合词组中的一种, 所述第二混合词组为繁体混合词组和简体混合词 组中的另一种, 包括 : 0015 候选对获取模块, 获取第一混合词组 - 第二混合词组候选对 ; 0016 中间候选对提取模块, 用于从所述第一混合词组 - 第二混合词组候选对中提取中 间候选对 ; 0017 最大覆盖率候选对获取模块, 用于从所述中间。

21、候选对中获取具有最大覆盖率的候 选对 ; 0018 模板生成模块, 用于使用所述具有最大覆盖率的候选对生成简繁转换模板。 0019 本申请的再一个方案提供了一种简繁中文转换系统, 用于第一和第二混合词组之 间的转换, 所述第一和第二混合词组包括一对多字符和数字, 所述第一混合词组为繁体混 合词组和简体混合词组中的一种, 所述第二混合词组为繁体混合词组和简体混合词组中的 另一种, 包括 : 0020 第一混合词组获取模块, 用于获取第一混合词组 ; 0021 第一中间混合词组获取模块, 用于用数字标识符取代所述第一混合词组中的所述 数字, 以获取第一中间混合词组 ; 0022 第二中间混合词组查。

22、找模块, 用于从生成的模板中查找所述第一中间混合词组对 应的第二中间混合词组 ; 0023 第二混合词组获取模块, 用于根据所述数字标识符和所述第二中间混合词组获取 所述第一混合词组对应的第二混合词组。 0024 综上所述, 利用预先生成的第一中文混合词组 - 第二中文混合词组候选对, 可以 快速和准确地完成包含一对多字符和数字的第一混合词组和第二混合词组之间的简繁转 换。 0025 通过以下参照附图对本申请实施例的说明, 本申请的上述以及其它目的、 特征和 优点将更加明显。 附图说明 0026 下面将参照所附附图来描述本申请的实施例, 其中 : 0027 图 1 是本申请的实施例一提供的生成。

23、简繁转换模板的方法的流程图 ; 0028 图2是本申请的实施例一提供的获取第一混合词组-第二混合词组候选对的流程 图 ; 0029 图 3 是本申请的实施例二提供的简繁中文转换方法的流程图 ; 0030 图 4 是本申请的实施例三提供的生成简繁转换模板的系统的方块图 ; 说 明 书 CN 103577396 A 6 3/9 页 7 0031 图 5 是本申请的实施例三提供的候选对获取模块的结构图 ; 0032 图 6 是本申请的实施例四提供的简繁中文转换系统的方块图。 具体实施方式 0033 下面结合附图详细描述本申请的具体实施例。应当注意, 这里描述的实施例只用 于举例说明, 并不用于限制本。

24、申请。 0034 实施例一 0035 本实施例提供了一种生成简繁转换模板的方法, 该方法用于第一和第二混合词组 之间的转换, 所述第一和第二混合词组包括一对多字符和数字, 所述第一混合词组为繁体 混合词组和简体混合词组中的一种, 所述第二混合词组为繁体混合词组和简体混合词组中 的另一种。如图 1 所示, 该方法包括 : 0036 S110, 获取第一混合词组 - 第二混合词组候选对。 0037 为了描述简便, 在本实施例中, 第一混合词组为简体混合词组, 即该第一混合词组 为简体中文和数字相混合的词组, 第二混合词组为繁体混合词组, 即该第二混合词组为繁 体中文和数字相混合的词组。 0038 。

25、具体地, 如图 2 所示, 该步骤包括 : 0039 S211, 获取第一中间混合词组, 从而获取第二混合词组。 0040 具体地, 以获取的第一中间混合词组为 “小河長有 40 里” 为例, 将其表示为 :“ 小河長有 40 里” , 其中,“” 表示为繁体混合词组, 字符 “里” 为一对多字符,“40” 为数 字。 0041 其次, 用数字标识符 “num” 取代第一中间混合词组中的数字 “40” , 得到第二中 间混合词组 “小河長有num里” , 本领域技术人员可以理解的是, 数字标识符 “num” 仅是举例需要, 本申请的保护范围并不限于此。 0042 再次, 以一对多字符 “里” 。

26、为基准对第二中间混合词组 “ 小河長有 num 里” 进行变换, 从而得到多个第三中间混合词组。其中, 本申请所述 “变换” 可以是一个混合词 组通过增加、 减少或改换字符, 或者通过其他方式来达到形式上的扩展、 缩减或变更。 0043 例如, 对减少字符这一方式而言, 将 “ 小河長有 num 里” 缩减为 “ 河長 有 num 里” 、“ 長有 num 里” 、“ 有 num 里” 、“num 里” 、“ 里” 等, 从 以上示例可以看出, 本示例的字符缩减是从繁体混合词组的开头开始, 依次缩减一个字符, 本领域技术人员可以理解的是, 字符缩减也可以从繁体混合词组的结尾开始, 每次缩减字 。

27、符的数量也不限于一个, 也可以是其他数量, 此外, 每次缩减字符的数量不一定必须相同。 0044 例如, 对于增加字符这一方式而言, 可以利用延长结构来对繁体混合词组进行扩 展, 以增加其长度, 这种延长结构可以位于繁体混合词组的开头, 也可以是位于繁体混合词 组的结尾, 也可以是位于繁体混合词组的中间, 并且延长结构的长度可以呈现一定的规律 性, 也可以具有随机性。例如, 将 “ 小河長有 num 里” 变换为 “ 旁边的小河長有 num 里” , 其中, 延长结构为 “旁边的” , 其位于繁体混合词组 “ 小河長有 num 里” 之 前。 0045 从以上可以看出, 在获取的多个第三中间混。

28、合词组中, 有些包括数字和一对多字 符, 有些仅包括一对多字符, 有些仅包括数字, 有些不包括一对多字符和数字。 说 明 书 CN 103577396 A 7 4/9 页 8 0046 本实施例采用的示例为 : 通过减少字符这一方式将 “ 小河長有 num 里” 缩 减为 “ 河長有 num 里” 、“ 長有 num 里” 、“ 有 num 里” 、“num 里” 、 “ 里” 等。 0047 再次, 从第三中间混合词组中过滤掉不包括一对多字符和数字标识符的第三中间 混合词组, 得到第二混合词组。 0048 承接上述示例, 利用数字标识符 “num” 过滤掉词组 “ 里” , 从而最终得到第 。

29、二混合词组 :“ 小河長有 num 里” 、“ 河長有 num 里” 、“ 長有 num 里” 、 “ 有 num 里” 和 “num 里” , 此处得到的第二混合词组具有重叠的结构 “num 里” 。 0049 需要指出的是, 本实施例也可以数字标识符 “num” 为基准来对繁体混合词组 “ 小河長有 num 里” 进行变换, 例如, 将繁体混合词组 “ 小河長有 num 里” 变换 为多个第三中间混合词组 :“ 河長有 num 里” 、“ 長有 num 里” 、“ 小河長有 num” 等。然后再利用一对多字符 “里” 过滤掉不包含一对多字符和数字标识符的第三中 间混合词组, 从而得到第二混。

30、合词组。 0050 本领域技术人员可以理解的是, 本实施例也可以同时以一对多字符 “里” 和数字标 识符 “num” 为基准进行变换, 然后再利用一对多字符 “里” 和数字标识符 “num” 过滤掉 不包含一对多字符 “里” 和数字标识符 “num” 的混合词组, 从而得到第二混合词组。在这 种情况下, 过滤步骤是可以省略的, 从而使得运算效率非常高。 0051 需要指出的是, 本实施例也可以先以数字为基准对第一中间混合词组进行变换, 然后再用数字标识符 “num” 取代变换后的混合词组中的数字, 然后再利用一对多字符和 数字标识符 “num” 进行过滤, 具体的过程可以参照上述描述, 在此不。

31、再赘述。 0052 本领域技术人员可以理解的是, 无论是采用何种变换和过滤方式, 最终只要保证 获得第二混合词组包括一对多字符和数字标识符即可。 0053 S212, 将第二混合词组进行转换, 获取对应第二混合词组的第一混合词组。 0054 承接上述示例, 分别将第二混合词组 “ 小河長有 num 里” 、“ 河長有 num 里” 、“ 長有 num 里” 、“ 有 num 里” 和 “num 里” 转换为第一混合 词组 “ 小河长有 num 里” 、“ 河长有 num 里” 、“ 长有 num 里” 、“ 有 num 里” 和 “num 里” , 其中,“” 表示简体混合词组。 0055 S。

32、213, 将第一混合词组与对应的第二混合词组组成第一混合词组 - 第二混合词组 候选对。 0056 承接上述示例, 分别将第二混合词组 “ 小河長有 num 里” 、“ 河長有 num 里” 、“ 長有 num 里” 、“ 有 num 里” 和 “num 里” 与对应的第一混 合词组 “ 小河长有 num 里” 、“ 河长有 num 里” 、“ 长有 num 里” 、“ 有 num 里” 和 “num 里” 组成第一混合词组 - 第二混合词组候选对 :“ 小河长 有 num 里 小河長有 num 里” 、“ 河长有 num 里 河長有 num 里” 、 “ 长有 num 里 長有 num 里”。

33、 、“ 有 num 里 有 num 里”和 “num 里 num 里” 。 0057 需要说明的是, 在实际应用中, 并不是所有的候选对都具有重叠结构, 理由是 : 可 能该句子是以数字开始, 以一对多字符结尾, 因此只能获取一个候选对 ; 或是, 从内容完全 说 明 书 CN 103577396 A 8 5/9 页 9 不同的句子获取对应的候选对, 从不同句子的角度看, 获取的候选对不具有重叠结构。 本申 请为了简化描述, 以具有重叠结构的候选对为例, 但这并构成对本申请的限制。 0058 S120, 从第一混合词组 - 第二混合词组候选对中提取中间候选对。 0059 承接上述示例, 利用训。

34、练文本, 统计候选对中第一混合词组到第二混合词组的转 换频率, 转换频率大于预设第一阈值的候选对得以保留下来。例如, 对于候选对 “ 小河 长有 num 里 小河長有 num 里” 而言, 从第一混合词组 “ 小河长有 num 里” 到第二混合词组 “ 小河長有 num 里” 的转换频率为 12 次, 对于候选对 “ 河长有 num 里 河長有 num 里” 而言, 转换频率为 18 次, 对于候选对 “ 长有 num 里 長有 num 里” 而言, 转换频率为 20 次, 对于候选对 “ 有 num 里 有 num 里” 而言, 转换频率为 25 次, 对于候选对 “num 里 num 里”。

35、 而言, 转 换频率为 34 次, 预设第一阈值为 19 次, 这样保留候选对 “ 长有 num 里 長有 num 里” 、“ 有 num 里 有 num 里” 和 “num 里 num 里” 。 0060 然后, 统计候选对的信心度, 保留信心度大于预设第二预设阈值的候选对。具体 地, 由于存在一对多字符, 在生成第一混合词组 - 第二混合词组候选对时, 可能会出现一个 混合词组对应两种混合词组, 所以需要判断每一第一混合词组 - 第二混合词组候选对的信 心度, 保留信心度大于第二预设阈值的候选对。例如, 在生成候选对 “长有 num 里 長有 num 里” 时, 还可能会生成候选对 “长有。

36、 num 里 長有 num 裏” ; 在生成候 选对 “ 有 num 里 有 num 里”时, 还可能会生成候选对 “ 有 num 里 有 num 裡” ; 在生成候选对 “num 里 num 里” 时, 还可能会生成候 选对 “num 里 num 裏” 。此时, 对于候选对 “ 长有 num 里 長有 num 里” 、“ 有 num 里 有 num 里”和 “num 里 num 里”而 言, 其转换频率分别为 20 次、 25 次和 34 次。相对应地, 对于候选对 “长有 num 里 長有 num 裏” 、“ 有 num 里 有 num 裡” 和 “num 里 num 裏” 而言, 其转换。

37、频率分别为 1 次、 3 次和 10 次。然后, 统计 “ 长有 num 里 長有 num 里” 、“ 有 num 里 有 num 里” 和 “num 里 num 里” 的信 心度分别为 20/(20+1)、 25/(25+3) 和 34/(34+10), 第二预设阈值为 6/7, 通过将各个候选 对的信心度与第二预设阈值进行比较, 保留候选对 “ 长有 num 里 長有 num 里” 和 “ 有 num 里 有 num 里” 。这样做的目的是不仅得到高频率转换的候 选对, 又保证得到的该候选对的转换可能性具有很高信心度, 即能满足实际转换需要。 0061 S130, 从中间候选对中选取具有最。

38、大覆盖率的候选对。 0062 承接上述示例, 候选对 “ 有 num 里 有 num 里” 和 “num 里 num 里” 是两个合适的候选对, 并且候选对 “num 里 num 里” 是候 选对 “ 有 num 里 有 num 里” 的模板。因此, 可以对两个候选对进行合并, 以 便减小模板的存储空间和存储成本, 并且还可以在保证转换精度的同时, 提高转换效率。 这 种合并可以通过计算覆盖率来评估, 该覆盖率表示 : 在一个训练文本中, 与候选对匹配的简 体或繁体的句子数量在所有句子数量中所占的比重, 此处的简体或繁体是由测试文本的简 繁类型所决定。计算覆盖率的公式如下 : 0063 说 明。

39、 书 CN 103577396 A 9 6/9 页 10 0064 其中, Coverage(pSC pTC) 表示由简体中文混合词组转换为繁体中文混合词组的 覆盖率, matched sentences of pSC/pTC表示与候选对匹配的简体或繁体的句子数量, 分子 中的 pSC or pTC取决于用于产生模板的训练文本的语言类型, 例如, 如果训练文本是简体中 文, 则此处应选择使用 pSC。更大的覆盖率能够匹配更多的示例。例如, 将候选对 “ 有 num 里 有 num 里” 和 “num 里 num 里” 合并为候选对 “num 里 num 里” , 后一个候选对要比候选对 “ 有。

40、 num 里 有 num 里” 具有 更大覆盖率。在本实施例中, 候选对 “num 里 num 里” 更适合作为用于简繁 转换目的模板。 0065 S140, 使用具有最大覆盖率的候选对生成简繁转换模板。 0066 本实施例生成的简繁转换模板可以用于以后快速和准确地进行简繁转换之用。 0067 实施例二 0068 本实施例提供了一种简繁中文转换的方法, 用于第一和第二混合词组之间的转 换, 所述第一和第二混合词组包括一对多字符和数字, 所述第一混合词组为繁体混合词组 和简体混合词组中的一种, 所述第二混合词组为繁体混合词组和简体混合词组中的另一 种, 如图 3 所示, 包括 : 0069 S3。

41、10, 获取第一混合词组。 0070 其中, 在获取第一混合词组前还可以包括 : 接收用户输入的第一混合词组, 判断该 第一混合词组是否包含一对多字符和数字, 如果是, 则转入 S320 ; 如果否, 则终止。其中, 数 字可以为中文数字或阿拉伯数字。 0071 为了描述简便, 在本实施例中, 第一混合词组为包括一对多字符和数字的简体混 合词组, 第二混合词组为包括一对多字符和数字的繁体混合词组。 0072 具体地, 在本实施例中, 第一混合词组是 “小河长有 40 里之多” , 该混合词组表示 为 “ 小河长有 40 里之多” , 其中 “” 表示该混合词组为简体混合词组, 其中, 字符 “。

42、里” 为一对多字符。其中, 混合词组 “小河长有 40 里之多” 只是为了举例需要, 本申请的保 护范围并不限于此。 0073 S320, 用数字标识符取代第一混合词组的数字, 获取第二中间混合词组。 0074 承接上述示例, 用数字标识符 “num” 取代第一混合词组 “小河长有 40 里之多” 中的数字 “40” , 这样第一混合词组 “小河长有 40 里之多” 变为第二中间混合词组 “小河长 有 num 里之多” , 其表示为 “ 小河长有 num 里之多” 。需要指出的是, 数字标识符 “num” 只是为了举例需要, 本申请的保护范围并不限于此。 0075 S330, 从实施例一生成的。

43、模板中查找第一中间混合词组对应的第二中间混合词 组。 0076 在实施例一中, 生成的模板包括多个第一混合词组 - 第二混合词组候选对。在 本实施例中, 模板包括第一混合词组 - 第二混合词组候选对 “num 里 num 里” , 系统采用自后向前的最大匹配方式对整句进行匹配, 具体地, 从该句子的最后一个字 符开始, 先匹配最长的句子, 然后从句子前面开始减少字符, 直到减少到剩余的词组不包括 一对多字符或数字为止。然后, 将句子前段移动一个字符重新开始以上的匹配过程, 即匹 配 “ 小河长有 num 里之多” 、“ 河长有 num 里之多” 、“ 长有 num 里之 多” 直到 “num 。

44、里” , 如果匹配过程中存在匹配对象, 则自动终止该过程。需要说 说 明 书 CN 103577396 A 10 7/9 页 11 明的是, 在进行一对多匹配过程时, 还会同时进行其他匹配过程, 例如, 一对一字符匹配、 人 名匹配、 地名匹配等, 其它匹配过程与一对多匹配过程互不影响。 因为该匹配过程与其他词 典匹配是同步进行 (不需要单独进行该过程) 且模板是存储在哈希表 (hashtable) 中, 所以 匹配效率很高。通过上述匹配过程, 可以得到第一中间混合词组 “ 小河长有 num 里 之多” 对应的第二中间混合词组 “ 小河長有 num 里之多” , 其中,“” 表示繁体混 合词组。

45、。 0077 S340, 根据数字标识符和第二中间混合词组获取第一混合词组对应的第二混合词 组。 0078 具体地, 根据步骤 S310 的描述可知, 数字标识符 “num” 和数字 “40” 之间存在对 应关系。因此, 在本步骤中, 可以用数字 “40” 取代步骤 S330 中得到的第二中间混合词组 “ 小河長有 num 里之多” 中的数字标识符 “num” , 从而得到步骤 S310 中的第一混合 词组 “ 小河长有 40 里之多” 对应的第二混合词组 “ 小河長有 40 里之多” 。 0079 综上所述, 利用预先生成的第一中文混合词组 - 第二中文混合词组候选对, 可以 快速和准确地完。

46、成包含一对多字符和数字的第一混合词组和第二混合词组之间的转换。 0080 实施例三 0081 本实施例提供了一种生成简繁转换模板的系统, 用于第一和第二混合词组之间的 转换, 第一和第二混合词组包括一对多字符和数字, 第一混合词组为繁体混合词组和简体 混合词组中的一种, 第二混合词组为繁体混合词组和简体混合词组中的另一种, 如图 4 所 示, 包括 : 0082 候选对获取模块 410, 获取第一混合词组 - 第二混合词组候选对。其中, 关于候选 对获取模块 410 的具体功能可以参见实施例一的 S110。 0083 中间候选对提取模块 420, 用于从第一混合词组 - 第二混合词组候选对中提。

47、取中 间候选对。其中, 关于中间候选对提取模块 420 的具体功能可以参见实施例一的 S120。 0084 最大覆盖率候选对获取模块 430, 用于从中间候选对中获取具有最大覆盖率的候 选对。关于最大覆盖率候选对获取模块 430 的具体功能可以参见实施例一的 S130。 0085 模板生成模块 440, 用于使用具有最大覆盖率的候选对生成简繁转换模板。 0086 优选地, 如图 5 所示, 候选对获取模块 410 包括 : 0087 第二混合词组获取单元 510, 用于获取第二混合词组 ; 0088 第一混合词组获取单元 520, 用于将第二混合词组进行转换, 获取对应第二混合词 组的第一混合。

48、词组 ; 0089 候选对组成单元 530, 用于将第一混合词组和第二混合词组组成第一混合词 组 - 第二混合词组候选对。 0090 优选地, 第二混合词组获取单元 510 用于 : 0091 获取第一中间混合词组, 第一中间混合词组包括一对多字符和数字 ; 0092 利用数字标识符取代第一中间混合词组中的数字, 得到第二中间混合词组 ; 0093 利用一对多字符和 / 或数字标识符变换第二中间混合词组, 得到第三中间混合词 组 ; 0094 从第三中间混合词组中过滤掉不包括一对多字符和数字标识符的混合词组, 得到 第二混合词组。 说 明 书 CN 103577396 A 11 8/9 页 12 0095 优选地, 第二混合词组获取单元 510 用于 : 0096 获取第一中间混合词组, 第一中间混合词组包括一对多字符和。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1