《基于树到树翻译模型的翻译规则抽取方法和翻译方法.pdf》由会员分享,可在线阅读,更多相关《基于树到树翻译模型的翻译规则抽取方法和翻译方法.pdf(9页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN101989257A43申请公布日20110323CN101989257ACN101989257A21申请号200910090202922申请日20090731G06F17/2820060171申请人中国科学院计算技术研究所地址100190北京市海淀区中关村科学院南路6号72发明人刘洋吕亚娟刘群熊皓74专利代理机构北京泛华伟业知识产权代理有限公司11280代理人王勇54发明名称基于树到树翻译模型的翻译规则抽取方法和翻译方法57摘要本发明提供一种基于树到树翻译模型的翻译规则抽取方法,包括下列步骤1、分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练。
2、语料的目标语言压缩共享句法森林;2、根据所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林抽取翻译规则。根据该翻译规则进行测试语料的翻译,有效提高了翻译质量。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书5页附图2页CN101989257A1/1页21一种基于树到树翻译模型的翻译规则抽取方法,包括下列步骤1、分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林;2、根据所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林抽取翻译规则。2根据权利要求1所。
3、述的翻译规则抽取方法,其特征在于,所述步骤2进一步包括获取关于所述训练语料的源语言压缩共享句法森林中的每个节点的第一前沿树集合;获取所述每个节点的所述训练语料的目标语言压缩共享句法森林中的对应节点,并获取关于所述对应节点的第二前沿树集合,根据所述第一前沿树集合和所述第二前沿树集合构造前沿树对集合;在所述前沿树对集合中抽取最小前沿树对,并根据所述最小前沿树对构建翻译规则。3根据权利要求1或2所述的翻译规则抽取方法,其特征在于,所述步骤2包括将所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林进行缩减,根据缩减后的训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共。
4、享句法森林抽取翻译规则。4一种根据上述权利要求1至3任意一项所述的翻译规则抽取方法所抽取的所述翻译规则基于树到树翻译模型的翻译方法,包括下列步骤3、分析测试语料中的待翻译的句子生成测试语料的源语言压缩共享句法森林;4、根据所述翻译规则和所述测试语料的源语言压缩共享句法森林完成所述待翻译句子的翻译。5根据权利要求4所述的翻译方法,其特征在于,所述步骤4包括对所述测试语料的源语言压缩共享句法森林进行缩减,根据所述翻译规则和缩减后的所述测试语料的源语言压缩共享句法森林完成所述待翻译句子的翻译。权利要求书CN101989257A1/5页3基于树到树翻译模型的翻译规则抽取方法和翻译方法技术领域0001本。
5、发明涉及自然语言处理领域,更具体地,涉及一种语言翻译规则抽取方法和翻译方法。背景技术0002基于句法的翻译模型已经逐渐成为统计机器翻译的主流模型,根据是否在源语言端和目标语言端建立句法树,基于句法的翻译模型可以分为以下三类1树到串翻译模型,例如刘洋YANGLIU等人于2006年在第四十四届计算语言学年会ACL2006上所公开的;2串到树翻译模型,马库等人在2006年基于经验主义方法的自然语言处理会议EMNLP2006上所公开的;3树到树翻译模型,例如艾斯勒等人于2003年在第四十一届计算语言学年会上所公开的。0003现有的树到树的翻译模型由于在源语言端和目标语言端分别建立唯一的一棵句法树。句法。
6、树的质量很大程度上决定了最终翻译的结果。当句法分析不准确时,最优句法分析结果可能是错误的,因此将对后面的解码准确率造成影响。而现有的句法分析技术准确率并不高,英语只能达到91,而汉语仅能达到85左右。0004另外,现有的树到树模型的翻译规则都是从对齐的双语句法树中抽取出来的,其中,对齐的双语句法树由一棵源语言句法树和对应的一棵目标语言句法树共同构成。在这种情况下,能抽取的规则数量十分有限,通常一对句法树只能抽取出几十条规则。0005所以,现有的基于树到树的翻译模型的翻译质量不够理想。发明内容0006为解决上述技术问题,本发明提供一种翻译质量较高的基于树到树翻译模型的翻译方法。0007为实现上述。
7、目的,根据本发明的一个方面,提供了一种一种基于树到树翻译模型的翻译规则抽取方法,包括下列步骤00081、分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林;00092、根据所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林抽取翻译规则。0010该翻译规则抽取方法中,所述步骤2进一步包括0011获取关于所述训练语料的源语言压缩共享句法森林中的每个节点的第一前沿树集合;0012获取所述每个节点的所述训练语料的目标语言压缩共享句法森林中的对应节点,并获取关于所述对应节点的第二前沿树集合,根据所述第一前沿树集合和所述。
8、第二前沿树集合构造前沿树对集合;0013在所述前沿树对集合中抽取最小前沿树对,并根据所述最小前沿树对构建翻译规说明书CN101989257A2/5页4则。0014该翻译规则抽取方法中,0015所述步骤2包括将所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林进行缩减,根据缩减后的训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林抽取翻译规则。0016根据本发明的另一方面,还提供了一种根据翻译规则抽取方法所抽取的翻译规则基于树到树翻译模型的翻译方法,包括下列步骤00173、分析测试语料中的待翻译的句子生成测试语料的源语言压缩共享句法森林;00184、根。
9、据所述翻译规则和所述测试语料的源语言压缩共享句法森林完成所述待翻译句子的翻译。0019在该翻译方法中,0020所述步骤4包括对所述测试语料的源语言压缩共享句法森林进行缩减,根据所述翻译规则和缩减后的所述测试语料的源语言压缩共享句法森林完成所述待翻译句子的翻译。0021本发明的优点在于,有效提高了句法分析准确率;另外,还增加了可用的翻译规则,扩大了搜索空间;从而有效提高了翻译质量。附图说明0022图1是根据本发明一个具体实施例的基于树到树机器翻译模型的翻译方法的流程图;0023图2是根据本发明一个具体实施例的对齐的训练语料双语压缩共享句法森林示意图;0024图3A是根据本发明一个具体实施例的前沿。
10、树示意图;0025图3B是根据本发明一个具体实施例的最小前沿树示意图;0026图3C是根据本发明一个具体实施例的前沿树对示意图;0027图3D是根据本发明一个具体实施例的最小前沿树对示意图。具体实施方式0028为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的基于树到树翻译模型的翻译规则抽取方法和翻译方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。0029根据本发明的一个具体实施例,在树到树模型中引入了压缩共享句法森林,其中保存的并不是句法分析的一棵最优句法树,而是可能保存了多达上万棵句法树,从而提高了句法分析准确。
11、率。虽然现有技术中已经存在将压缩共享句法森林应用于树到串的翻译模型的翻译方法。但将压缩共享句法森林引入树到树的翻译模型,由于树是一种复杂的结构,而且压缩共享森林存储的不仅仅是一棵树,而是包含了多棵句法树,因此从源语言端和目标语言端的这两个森林中抽取出理想的规则难度较大。0030图1示出了根据本发明一个具体实施例的基于树到树机器翻译模型的统计机器翻译方法的流程图,如图1所示,该方法包括以下步骤说明书CN101989257A3/5页50031步骤11,利用句法分析器分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林,由这两个压缩共享句法森。
12、林共同组成对齐的训练语料双语压缩共享句法森林。其中,压缩是指采用超图的数据结构可以将巨大的森林压缩成一个简易的图结构;共享是指多个树节点可以共享同一个子树。句法分析的主要目的是从输入的源语言串分析出与目标语言串相应的句法树。本领域普通技术人员可以理解,句法分析可采用如下多种短语树句法分析器查尼亚克句法分析器CHARNIAKPARSER、比科尔句法分析器BIKELPARSER、斯坦福句法分析器STANFORDPARSER、柯林斯句法分析器COLLINSPARSER。句法分析器不仅要输出一颗最优的句法分析树,而且根据所分析的所有句法树构建并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压。
13、缩共享句法森林。图2示出了根据本发明一个具体实施例的对齐的训练语料双语压缩共享句法森林示意图,其中上部是训练语料的源语言压缩共享句法森林,下部是训练语料的目标语言压缩共享句法森林。其中,每条超边包括一个节点HEAD和一个节点集合TAILS,如图2所示,对于超边E1,HEADE1IP1,TAILSE1NPB6和VP3。0032通常上述在训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林内均含有大量概率很低的垃圾超边和节点,为加快搜索翻译的速度,根据本发明的优选实施例,还包括步骤12利用剪枝算法分别对在训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林进行缩减。。
14、具体缩减方法如下0033对于待缩减的压缩共享句法森林中的每个节点V,计算维特比VITERBI向内概率负对数V、向外概率负对数V;再对于每个句法超边EP依次计算参数00340035其中TOP为最优句法树概率之负对数值,如果参数EP小于预定的阈值T,则保留超边EP,否则删除,其中优选地3T15。最终将留下的超边和与之相关的节点组成缩减后的压缩共享句法森林。0036步骤21,从生成的训练语料双语压缩共享句法森林中抽取翻译规则。通常可以抽取出上百甚至上千条规则。因此提供了丰富的规则用于翻译。由这些翻译规则构成翻译规则的集合。表1给了部分翻译规则0037表1翻译规则表00381IPX1NPB,X2VPS。
15、X1NP,X2VP00392NPBX1NRNPX1NNP00403NRBUSHINNPBUSH00414VPX1PP,VPBX2VV,ASLE,X3NPBVPX2VBD,NPDTA,X3NP,X1PP0042以翻译规则1为例,翻译规则R1为IPX1NPBX2VPSX1NP,X2VP,其表示代表源语言端的IPNPBVP子树可以替换成目标语言端的SNPVP子树。0043步骤31对于测试语料中的待翻译的句子,重复步骤11所述的方法,利用句法分析器根据测试语料中的待翻译的句子生成测试语料的源语言压缩共享句法森林。优选地,为加快搜索翻译的速度,还对所生成的测试语料的源语言压缩共享句法森林进行缩减。说明书。
16、CN101989257A4/5页60044步骤41,遍历测试语料的源语言压缩共享句法森林,如果测试语料的源语言压缩共享句法森林已经被缩减,则遍历缩减后的测试语料的源语言压缩共享句法森林,从所抽取的翻译规则的集合中搜索可用翻译规则,最终生成待翻译句子的翻译森林。根据本发明的具体实施例,该生成待翻译句子的翻译森林的过程具体如下0045遍历测试语料的源语言压缩共享句法森林中的每个节点V,搜索每一个翻译规则如果LHSR和以V为根节点的子树片段完全匹配则生成与该节点V对应的翻译超边E,其中LHSR表示规则R的左部,例如对于表1中的规则R1,LHSR1IPNPBVP;由测试语料的源语言压缩共享句法森林中的。
17、节点与翻译超边构建待翻译句子的翻译森林,从而在测试语料的源语言压缩共享句法森林上附加了翻译规则,换句话说,为测试语料的源语言压缩共享句法森林的每一条超边从规则表中寻找一条翻译规则与其对应,如果规则表中没有找到对应的翻译规则,则构造一条默认的翻译规则,即将测试语料的源语言压缩共享句法森林的超边作为翻译规则。0046步骤42遍历待翻译句子的翻译森林,逐步构造待翻译句子的目标语言端句法树并最终生成翻译结果。根据本发明的优选实施例,该步骤过程如下按照后续遍历顺序,自底向上对于测试语料的源语言压缩共享翻译森林中的每个节点V,根据所有的HEADETV的翻译超边ET提取出节点V对应的翻译规则,并在目标语言端。
18、建立对应的子树结构,再按照柱状图剪枝,去除概率较小的子树结构。最终搜索出目标语言端一棵概率最大的待翻译句子的目标语言端句法树,进而从待翻译句子的目标语言端句法树中得到叶子节点,即待翻译句子的翻译结果。0047下面根据本发明的具体实施例,详细说明上述步骤21的抽取翻译规则的步骤。为此首先对相关定义进行说明。0048节点的区间V,表示该节点所覆盖的源语言单词的索引区间,图2中的节点VPB5覆盖了源语言串的三个单词“JUXINGLEHUITAN”,所以其区间为V46。0049节点的目标语言端区间V,表示该节点覆盖的源语言串对应的目标语言串的索引区间,图2中的节点VPB5对应的目标语言端语言串为“HE。
19、LDTALK”,所以其目标语言端区间为V24。0050节点的补集区间V,表示非该节点的祖先和后代的节点代表的目标区间V的合集,图2中的非VPB5节点的祖先和后代节点集合为NP2,NPB6,NR9,CC10,P11,PP4,NPB7,NR12,其对应的目标语言串为“BUSHWITHSHARON”,所以节点VPB5的补集区间为V1,56,。0051根据检查节点是否符合对齐一致性,因为图2中的节点VPB5的V和V的交集所以该节点符合对齐一致性。0052前沿节点是符合对齐一致性的节点,即对于节点V,在目标语言端存在一个对应节点V使得根据本发明的具体实施例,在训练语料的源语言压缩共享句法森林和训练语料的。
20、目标语言压缩共享句法森林都寻找前沿节点,并构成前沿节点对。如图2所示的节点PP4为一个前沿节点,因为可以在目标语言端找到一个对应节点PP26,使得且0053前沿树为符合如下限制的树根节点为前沿节点;如果树只含一个节点,那说明书CN101989257A5/5页7么这个节点必须是词汇化的前沿节点;如果树含有不止一个节点,树的叶子节点为词汇化的非前沿节点和非词汇化的前沿节点两者之一。图3A示出了一棵前沿树示意图。0054最小前沿树,表示一棵前沿树中除了根节点和叶子节点以外,其他所有节点都是非前沿节点。图3B示出了一棵最小前沿树示意图。0055前沿树对,前沿树对是一个三元组,满足条件TS为源语言端前沿。
21、树;TT为目标语言端前沿树;表示TT和TS中的叶子节点最底层节点有着一一对应关系。图3C示出一棵前沿树对示意图。0056前沿树对的子图,前沿树对为的子图,满足条件ROOTTSROOTTS;ROOTTTROOTTT,其中,TS是TS的子图;TT是TT的子图。0057最小前沿树对,表示该前沿树对不是任何前沿树对的子图。图3D示出一棵最小前沿树对示意图。0058根据如上描述从生成的双语压缩共享句法森林中抽取翻译规则首先获取关于训练语料的源语言压缩共享句法森林中的每个节点的第一前沿树集合;然后,获取上述每个节点的训练语料的目标语言压缩共享句法森林中的对应节点,并获取关于对应节点的第二前沿树集合,关于每。
22、个节点根据上述第一前沿树集合和第二前沿树集合构造前沿树对集合;最后,在前沿树对集合中抽取最小前沿树对,并根据最小前沿树对构建翻译规则。0059采用本发明具体实施例的树到树统计机器翻译方法,在3万平行双语语料数据集上,相比于现有的基于树到树翻译模型的统计机器翻译方法,本发明具体实施例所提供的翻译方法的翻译性能高36个评测值简称BLEU。0060最后所应说明的是,本领域的普通技术人员应当理解,对本发明的技术方案进行适应性修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。说明书CN101989257A1/2页8图1说明书附图CN101989257A2/2页9图2图3说明书附图。