《一种融合句法树和统计机器翻译技术的翻译方法与装置.pdf》由会员分享,可在线阅读,更多相关《一种融合句法树和统计机器翻译技术的翻译方法与装置.pdf(14页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103116578 A(43)申请公布日 2013.05.22CN103116578A*CN103116578A*(21)申请号 201310049739.7(22)申请日 2013.02.07G06F 17/28(2006.01)G06F 17/27(2006.01)(71)申请人北京赛迪翻译技术有限公司地址 100048 北京市海淀区紫竹院路66号赛迪大厦三层(72)发明人罗文 黄子河 刘法旺 胡小鹏宋金平 袁琦(74)专利代理机构北京君尚知识产权代理事务所(普通合伙) 11200代理人余长江(54) 发明名称一种融合句法树和统计机器翻译技术的翻译方法与装置(57。
2、) 摘要本发明公开一种融合句法树和统计机器翻译技术的机器翻译方法与装置,该方法首先建立不同语种语言之间的词典库、语法规则库、短语翻译概率表以及目标语语言模型,然后对原文输入句子进行切分、词性消兼和语法分析,生成句法树,然后采用自顶向下的策略遍历该句法树,对单个节点和部分跨句法的连续节点,取其叶节点的原文与统计机器翻译所训练出的短语翻译概率表进行智能匹配,利用短语翻译表的译文和目标语言的语言模型来达到提高输出译文流利度和准确度的目的。本发明既利用了短语翻译表所提供的细粒度知识,又利用了句法树在解决句子的深层和长距离相关性问题方面的优势,能够显著提高机器翻译的译文质量。(51)Int.Cl.权利要。
3、求书3页 说明书8页 附图2页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书3页 说明书8页 附图2页(10)申请公布号 CN 103116578 ACN 103116578 A1/3页21.一种融合句法树和统计机器翻译技术的机器翻译方法,其步骤包括:1)建立不同语种语言之间的词典库、语法规则库、短语翻译概率表以及目标语语言模型;其中词典库存储不同语种语言相对应的单词和短语,语法规则库存储不同语种语言相对应的语法规则,短语翻译概率表中存储由统计机器翻译系统训练而得的不同语种语言的翻译片断,目标语语言模型存储由统计机器翻译系统训练而得的目标语言的语言模型;2)读取词典库信息,。
4、对输入的待翻译单句进行切分,将该单句分解为源语言的单词或短语;3)读取语法规则库信息,对切分后的单句进行词性消兼和语法分析,形成一棵句法树;4)读取短语翻译概率表信息,采用自顶向下的策略遍历所述句法树,对所述句法树中的单个节点和部分跨句法的连续节点,取其叶节点的原文搜索所述短语翻译概率表,并选取该短语翻译表中的译文作为所述句法树中节点的译文;对上述过程中未翻译的句法树节点,根据规则翻译方法生成译文;5)利用所述目标语语言模型对生成的译文进行平滑,生成目标语言。2.如权利要求1所述的方法,其特征在于:所述短语翻译概率表存储的不同语种语言的翻译片断由GIZA+训练得到。3.如权利要求1所述的方法,。
5、其特征在于:采用语言模型训练工具SRILM或N-gram得到所述目标语语言模型。4.如权利要求1所述的方法,其特征在于,所述短语翻译概率表包括:包含J个词的源语言短语包含I个词的目标语言短语源语言短语和目标语言短语内部的词语对齐关系,以及短语翻译分数p。5.如权利要求4所述的方法,其特征在于,所述短语翻译分数p包括短语翻译概率和词汇化翻译概率;所述短语翻译概率的计算公式为:其中,表示短语对在语料库中出现的次数,表示对应的所有可能的目标语言短语,表示短语对在语料库中出现的次数,表示对应的所有可能的源语言短语,表示短语对在语料库中出现的次数,表示表示短语对在语料库中出现的次数;所述词汇化翻译概率的。
6、计算公式为:其中,p(ei,fj)表示源语言词语fj(j=1.J)翻译为目标语言ei(i1.I)的概权 利 要 求 书CN 103116578 A2/3页3率,p(fj,ei)表示目标语言词语ei(i1.I)翻译为源语言fi(j=1.J)的概率;表示源语言和目标语言词语对的对齐关系。6.如权利要求1所述的方法,其特征在于:计算目标语言译文相对于所述目标语语言模型的平滑度的方法为:1)将目标语言统计模型用后一个词相对于前一个词的条件概率来表示:其中,wt代表译文中的第t个词,为w1,.,wT,为w1,.,wt-1;2)采用N-gram模型计算后一个词相对于前一个词的条件概率:3)设w1wT是一个。
7、目标语言的训练集,且wTV,V是一个有限的集合,计算最大的样本似然:其几何平均数:4)对于任意的有从而得到目标语言译文相对于目标语语言模型的平滑度为:其中,T为目标语言的训练集中词的数目。7.如权利要求1所述的方法,其特征在于:所述词典库中保存的词条按翻译系统的要求进行标注,注明相关的语义属性;所述语法规则库中保存的语法规则按照翻译系统的要求规定词语或词组的翻译规则。8.如权利要求1所述的方法,其特征在于:根据所述目标语语言模型计算不同翻译结果的译文概率,将概率高的译文作为最终译文。9.一种融合句法树和统计机器翻译技术的机器翻译装置,其特征在于,包括:词典库模块,用于存储不同语种语言相对应的单。
8、词和短语;语法规则库模块,用于存储不同语种语言相对应的语法规则;短语翻译概率表模块,用于存储由统计机器翻译系统训练得到的不同语种语言的的翻译片断;目标语语言模型模块,用于存储由统计机器翻译系统训练得到的目标语言的语言模型;句法分析器,连接所述词典库模块和所述语法规则库模块,用于根据词典库和语法规则库对原文依次进行句子划分、切分、词性消兼和语法分析,进而生成句法树;解码器,连接所述短语翻译概率表模块、所述语言模型模块和所述句法分析器,用于根据短语翻译概率表和目标语语言模型遍历所述句法树,将原文转换成译文,生成目标语言。10.如权利要求9所述的装置,其特征在于,所述句法分析器包括:句子划分模块,用。
9、于读取源文并将源文断句;权 利 要 求 书CN 103116578 A3/3页4切分和预处理模块,连接所述句子划分模块,用于将划分后的单句进行切分和预处理;消兼模块,连接所述切分和预处理模块,用于对切分后的单句进行词性消兼;语法分析模块,连接所述消兼模块,用于对消兼后的单句进行语法分析;总控模块,分别连接上述各模块并控制各模块的操作。权 利 要 求 书CN 103116578 A1/8页5一种融合句法树和统计机器翻译技术的翻译方法与装置技术领域0001 本发明涉及统计和规则机器翻译领域,特别是涉及一种融合句法树以及短语翻译概率表、语言模型等统计机器翻译技术的机器翻译方法与装置。背景技术0002。
10、 随着国际互联网的普及,自然语言的计算机处理成为从互联网上获取知识的重要手段。譬如,在国际交流和科研教育等领域,人们需要对异国语言文字进行翻译,过去这是语言大师施展才华的舞台。随着硬件技术飞速发展、软件技术不断完善以及语言研究的不断深入,机器翻译得到越来越广泛的应用。机器翻译有它自身巨大的优势,如翻译速度快,记忆能力强,同时还能降低翻译成本等,但其缺点是翻译质量目前还远远不能满足人们的需求,如何研究出高质量的机器翻译方法成为我们面临的重要课题。0003 2011年的国际评测表明,数据驱动和知识驱动机器翻译的译文质量不相上下,仅采用单一的方法很难满足用户的需要。对统计和规则机器翻译的译文错误分析。
11、表明,不同机器翻译系统所出现的错误类型是互补的。规则系统的弱点是在转换过程中进行词汇选择以及在分析有毛病的句子时表现较差,但优点是在分析原文时不会遗漏任何一个细小的部分,能够做到较准确的翻译。相比之下,统计机器翻译系统的适应性强,短语搭配的使用令译文更加流利,在词汇选择方面也较好。但统计机器翻译系统最大的问题是,难以应对译文生成要求语言学知识的这个事实,比如,它们缺乏词法和句法功能,也缺乏词序调整功能,更难做到整句级的词语调序。另外,统计机器翻译系统的译文不能做到恰到好处,有时会出现漏译和虚假翻译的现象。发明内容0004 由于单一方法的机器翻译不能取得良好的翻译效果,而且基于数据驱动和知识驱动。
12、的机器翻译基本上具备优势互补的特点,将不同方法结合,成了提高机器翻译质量的合理途径。本发明提出的机器翻译方法既利用了统计翻译引擎所提供的细粒度知识,又利用了句法树在解决句子的深层和长距离相关性问题方面的优势,因此能显著提高机器翻译的译文质量,本发明将有力推动混合引擎机器翻译技术的发展。0005 本发明提出一种融合句法树和统计机器翻译技术的机器翻译方法,包括以下步骤:0006 1)建立不同语种语言之间的词典库、语法规则库、短语翻译概率表以及目标语语言模型;其中词典库存储不同语种语言相对应的单词和短语,语法规则库存储不同语种语言相对应的语法规则,短语翻译概率表中存储由统计机器翻译系统训练而得的不同。
13、语种语言的翻译片断,目标语语言模型存储由统计机器翻译系统训练而得的目标语言的语言模型;0007 2)读取词典库信息,对输入的待翻译单句进行切分,将该单句分解为源语言的单词或短语;说 明 书CN 103116578 A2/8页60008 3)读取语法规则库信息,对切分后的单句进行词性消兼和语法分析,形成一棵句法树;0009 4)读取短语翻译概率表信息,采用自顶向下的策略遍历所述句法树,对所述句法树中的单个节点和部分跨句法的连续节点,取其叶节点的原文搜索所述短语翻译概率表,并选取该短语翻译表中的译文作为所述句法树中节点的译文;对上述过程中未翻译的句法树节点,根据规则翻译方法生成译文;0010 5)。
14、利用所述目标语语言模型对生成的译文进行平滑,生成目标语言。0011 优选地,所述短语翻译概率表存储的不同语种语言的翻译片断由GIZA+训练得到。0012 优选地,采用语言模型训练工具SRILM或N-gram根据平行语料库训练得到所述目标语言的语言模型。0013 本发明还提出一种采用上述机器翻译方法的装置,其包括:0014 词典库模块,用于存储不同语种语言相对应的单词和短语;0015 语法规则库模块,用于存储不同语种语言相对应的语法规则;0016 短语翻译概率表模块,用于存储由统计机器翻译系统训练得到的不同语种语言的的翻译片断;0017 目标语语言模型模块,用于存储由统计机器翻译系统训练得到的目。
15、标语言的语言模型;0018 句法分析器,连接所述词典库模块和所述语法规则库模块,用于根据词典库和语法规则库对原文依次进行句子划分、切分、词性消兼和语法分析,进而生成句法树;0019 解码器,连接所述短语翻译概率表模块、所述语言模型模块和所述句法分析器,用于根据短语翻译概率表和目标语语言模型遍历所述句法树,将原文转换成译文,生成目标语言。0020 进一步地,所述句法分析器包括:0021 句子划分模块,用于读取原文并将原文断句;0022 切分和预处理模块,连接所述句子划分模块,用于对划分后的单句进行切分和预处理;0023 消兼模块,连接所述切分和预处理模块,用于对切分后的单句进行词性消兼;0024。
16、 语法分析模块,连接所述消兼模块,用于对消兼后的单句进行语法分析;0025 总控模块,分别连接上述各模块并控制各模块的操作。0026 本发明提供了一种融合句法树、短语翻译概率表和语言模型的机器翻译方法与装置,采用句法树的逐节点和跨接点扫描并搜索统计机器翻译的短语翻译概率表和语言模型的策略,这种方法既充分利用了传统基于规则机器翻译方法在解决句子的深层和长距离相关性问题方面的优势,又利用了统计机器翻译的短语翻译表和语言模型所提供的细粒度知识所带来的好处,最大限度地提高了机器翻译译文的翻译质量。附图说明0027 图1为实施例中英汉机器翻译装置的结构组成示意图;0028 图2为实施例中英汉机器翻译方法。
17、的流程示意图;说 明 书CN 103116578 A3/8页70029 图3为图1中句法分析器的模块组成示意图;0030 图4为实施例中翻译概率表和语言模型的训练示意图;0031 图5为实施例中得到的句法树示意图。具体实施方式0032 下面通过具体实施例,并配合附图,对本发明做详细的说明。0033 图1为本实施例的融合句法树和统计机器翻译技术的机器翻译装置100的结构组成示意图,图2为利用该装置进行机器翻译的的实现流程图。0034 请参考图1,装置100包括:词典库模块110,用于存储不同语种语言相对应的单词和短语;语法规则库模块120,用于存储不同语种语言相对应的语法规则;短语翻译概率表模块。
18、130,用于存储由统计机器翻译系统训练而得的不同语种语言的的翻译片断;目标语语言模型模块140,用于存储由统计机器翻译系统训练而得的目标语语言模型;句法分析器150,连接所述词典库模块和所述语法规则库模块,用于根据词典库和语法规则库对源文依次进行句子划分、切分、词性消兼和语法分析,生成句法树;解码器160,连接所述短语翻译概率表模块、所述语言模型模块和所述句法分析器,用于根据短语翻译概率表和目标语语言模型遍历所述句法树,将原文转换成译文,生成目标语言。短语翻译概率表以及目标语语言模型从平行语料库训练得到,如图2所示。0035 下面结合图1和图2,以源语言为英文、目标语言为中文为例,说明具体的翻。
19、译过程,主要包括如下步骤:0036 1)对英汉双向平行语料库中的英文进行形态分析,对中文进行分词处理;0037 2)采用GIZA+统计工具对平行语料库进行词对齐和短语对齐,并抽取出英汉短语翻译概率表;0038 3)对上述抽取出英汉短语翻译概率表进行过滤处理,过滤掉其中不准确的统计条目;0039 4)采用语言模型训练工具SRILM根据平行语料库训练出目标语言的语言模型;0040 5)读取词典库信息,对输入的待翻译单句进行切分,读取语法规则库信息,对切分后的单句进行词性消兼和语法分析,形成一棵句法树;消兼和语法分析步骤还识别并记录词典库中所没有或不可能收集全的名词或动词短语;0041 6)对于上述。
20、句法树,然后采用自顶向下的策略遍历句法树,对以当前节点为根节点的子树搜索短语翻译概率表中的条目,生成译文;0042 7)在遍历句法树时,除了对根节点搜索统计短语表外,还需要适当增加一些跨句法的情况,使之在不破坏句法树的情况下能搜索并使用短语翻译概率表,以期最大程度地利用统计短语表来提高译文的质量;0043 句法树中跨句法的连续节点,必须满足某种特定的结构时,才能取其叶节点的原文搜索短语翻译概率表,比如:V N to V中,V N to可以去进行搜索,而N to V不能去进行搜索;关于所述跨句法的情况的具体实施,可以参考后文翻译实例的第3)、4)步;0044 8)对上述过程中未翻译的句法树节点,。
21、采用词典,规则和语言模型相结合的方式生成目标语言,即根据规则翻译方法生成译文,并利用所述目标语语言模型对生成的译文进行平滑。说 明 书CN 103116578 A4/8页80045 之所以有“未翻译的句法树节点”,是因为有的片段在短语翻译概率表中搜索不到,所以会有大约29%的片段未翻译,因而要用规则翻译方法进行翻译。需要说明的是,该步骤8)进行平滑的重点是规则翻译出的译文,但在其它实施例中,也可以对前面生成的所有译文(包括使用短语翻译概率表得到的译文)都进行平滑处理,本发明不以此为限制。0046 如图3所示,一个句法分析器的实施例包括:总控模块151,用于管理和控制句法分析器各模块的工作;句子。
22、划分模块152,用于将待翻译英语句子分断成字符串;切分和预处理模块153,用于将一句英文句子切分成以短语为单位的字符串序列,预处理包括标点符号处理,格式处理等,是规则翻译系统中的常用技术;消兼模块154,用于通过消除兼类,对切分后的英文句子进行词性标注;语法分析模块155,用于相对简单的语法分析,使切分后的英文句子形成句法树。0047 所述词典库中保存的词条按翻译系统的要求进行了标注,注明了相关的语义属性,如下所示:0048 afromosiaN非洲红豆木0049 0065 13(0)CATV+(1)CHIconclusionMEAN0,得出;0066 14(0)CATV+(1)CHIgoal。
23、MEAN0,达到;0067 15(0)CATV&IS_CENTER1+(1)CATN&L_CHIagreementMEAN0,达成.0068 如图4所示,一个统计机器得到短语翻译概率表和语言模型的训练过程包括,采用统计机器翻译的训练工具GIZA+对平行语料库进行训练,得到短语翻译概率表,采用统计机器翻译的语言模型训练工具SRILM对平行语料库进行训练,得到目标语语言模型。除SRILM外,还可以采用N-gram等语言模型的训练方法。说 明 书CN 103116578 A5/8页90069 以上实施方式中,所述第2)步短语翻译概率表的抽取是本发明的重点,现进行进一步的描述。在这里的短语翻译概率表包。
24、括四个部分:包含J个词的源语言短语包含I个词的目标语言短语源语言短语和目标语言短语内部的词语对齐关系和短语翻译分数p,可以表示为然后计算短语翻译分数,包括四部分:短语翻译概率和词汇化翻译概率和0070 其中,短语翻译概率计算公式为:0071 0072 0073 上式中,表示短语对在语料库中出现的次数,表示对应的所有可能的目标语言短语,表示短语对在语料库中出现的次数,表示对应的所有可能的源语言短语,表示短语对在语料库中出现的次数,表示表示短语对在语料库中出现的次数。0074 词汇化翻译概率计算公式为:0075 0076 0077 上式中,p(ei,fi)表示源语言词语fj(j=1.J)翻译为目标。
25、语言ei(i=1.I)的概率,p(fj,ei)表示目标语言词语ei(i=1.I)翻译为源语言fi(j=1.J)的概率。表示源语言和目标语言词语对的对齐关系。0078 以上实施方式中,关于所述第8)步采用词典、规则和语言模型相结合的方式生成目标语言,也就是指的采用目标语语言模型来平滑机器翻译中使用词典和规则所生成的译文,和/或平滑使用短语翻译概率表得到的译文,以提高译文的流利度。在这里公开计算目标语言译文相对于目标语语言模型的平滑度的计算方法:0079 1)将一个目标语言统计模型用后一个词相对于前一个词的条件概率来表示:0080 0081 这里,wt代表译文中的第t个词,为w1,.,wT,为w1。
26、,.,wt-1;0082 2)由于可以采用N-gram模型来计算后一个词相对于前一个词的条件概率:0083 0084 3)设w1wT是一个目标语言的训练集,且wTV,V是一个有限的集合,那么我们说 明 书CN 103116578 A6/8页10的目标就是要设计出一个好的模型:0085 0086 上式给出了最大的样本似然,求出其几何平均数:0087 0088 4)上式中,对于任意的有这样,就可以计算出目标语言译文相对于目标语语言模型的平滑度:0089 0090 其中,T为目标语言的训练集中词的数目。0091 下面提供一个具体实例,该实例所要翻译的句子为:0092 Select this opti。
27、on to postpone deleting these records until pruning is performed.0093 首先,通过读取词典库信息,对上述输入的句子进行切分;读取语法规则库信息,对切分后的句子进行词性消兼和语法分析,形成一棵句法树,该句法树如图5所示:0094 然后,对上述句法树进行解码,方法为:采用自顶向下的策略遍历上述放倒的句法树,也就是从左边最顶层左上角的节点V开始向右边叶节点方向遍历,以下为详细遍历步骤:0095 1)读取V的叶结点字符串:Select this option to postpone deleting these records unt。
28、il pruning is performed,然后使用该字符串去搜索短语翻译概率表,结果未搜索到相匹配的翻译片断。0096 2)读取V的结构属性,发现其为“V Conj S V”结构,对这种结构,要分成两部分去进行翻译,即分成“V|Conj S V”。0097 3)读取“V|Conj S V”第一个V*的叶结点字符串:Select this option to postpone deleting these records,然后使用该字符串去搜索短语翻译概率表,结果未搜索到相匹配的翻译片断。0098 4)读取V*的结构属性,发现其为“V N to V”结构,对这种结构,有两种切分法,即分成“。
29、V N to|V”或者“V N|to|V”。0099 5)根据最大匹配原则,即如果切分的块数最少,翻译结果会更精确,因此应当先尝试第一种切分法“V N to|V”,这样,读取“V N to”的叶结点原文“Select this option to”去搜索短语翻译概率表,结果搜索成功:0100 Select this option to|选择此选项可以|0-01-12-23-3|10.0003327991397108e-007;0101 此时,本实例将使用“选择该选项可以”作为“Select this option to”的译文。0102 6)读取“V N to|V”的第二个V*的叶结点字符串:postpone deleting these records,然后使用该字符串去搜索短语翻译概率表,结果搜索成功:0103 postpone deleting these records|推迟删除这些记录|0-01-12-23-3|10.00056812810.125;0104 本实例将使用“推迟删除这些记录”作为“postpone deleting these records”的说 明 书CN 103116578 A10。