一种基于目标语言复述资源的机器翻译方法及装置.pdf

上传人:r5 文档编号:4058666 上传时间:2018-08-13 格式:PDF 页数:15 大小:473.17KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110046306.7

申请日:

2011.02.25

公开号:

CN102650988A

公开日:

2012.08.29

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/28申请日:20110225|||公开

IPC分类号:

G06F17/28

主分类号:

G06F17/28

申请人:

北京百度网讯科技有限公司

发明人:

吴华; 赵世奇; 王海峰

地址:

100085 北京市海淀区上地十街10号百度大厦2层

优先权:

专利代理机构:

深圳市威世博知识产权代理事务所(普通合伙) 44280

代理人:

何青瓦;李庆波

PDF下载: PDF下载
内容摘要

本发明提供了一种基于目标语言复述资源的机器翻译方法,包括:获取N-Best个翻译结果,所述翻译结果由翻译片段组成;选取所述翻译结果的难翻译片段;根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合;对所述的候选翻译结果集合进行评分,以得到最佳翻译结果,通过上述方式,可以部分解决双语翻译资源匮乏的问题,有效地提高机器翻译的流利度,从而提高机器翻译的质量。

权利要求书

1.一种基于目标语言复述资源的机器翻译方法,其特征在于,所述方法包
括:
a.获取N-Best个翻译结果,所述翻译结果由翻译片段组成;
b.选取所述翻译结果的难翻译片段;
c.根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译
结果集合;
d.对所述的候选翻译结果集合进行评分,以得到最佳翻译结果。
2.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特征
在于,所述步骤b进一步包括:
b1.计算所述翻译片段的置信度;
b2.根据所述置信度识别难翻译的片段。
3.根据权利要求2所述的基于目标语言复述资源的机器翻译方法,其特征
在于,影响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中的
后验概率和所述翻译片段在目标语言模型中的概率。
4.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特征
在于,所述步骤b中,采用机器学习得到的分类器来选取所述难翻译片段。
5.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征
在于,所述分类器采用的特征进一步包括所述翻译片段在所述N-Best个翻译结
果中的后验概率。
6.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征
在于,所述分类器采用的特征进一步包括所述翻译片段在目标语言模型中的概
率。
7.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征
在于,所述分类器采用的特征进一步包括所述翻译片段的平均未登录词的个数。
8.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征
在于,所述分类器采用的特征进一步包括所述翻译片段的词对齐的比例。
9.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特征
在于,所述复述资源进一步包括词、短语或句子。
10.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特
征在于,所述步骤d中,采用对数线性模型进行评分。
11.根据权利要求10所述的基于目标语言复述资源的机器翻译方法,其特
征在于,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。
12.一种基于目标语言复述资源的机器翻译装置,其特征在于,所述装置
包括:
接收单元,用于获取N-Best个翻译结果,所述翻译结果由翻译片段组成;
选取单元,用于选取所述翻译结果的难翻译片段;
扩展单元,用于根据目标语言的复述资源对所述难翻译片段进行扩展,以
得到候选翻译结果集合;
评分单元,用于对所述的候选翻译结果集合进行评分,以得到最佳翻译结
果。
13.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特
征在于,所述选取单元进一步包括:
计算单元,用于计算所述翻译片段的置信度;
识别单元,用于根据所述置信度识别难翻译的片段。
14.根据权利要求13所述的基于目标语言复述资源的机器翻译装置,其特
征在于,影响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中
的后验概率和所述翻译片段在目标语言模型中的概率。
15.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特
征在于,所述选取单元采用机器学习得到的分类器来选取所述难翻译片段。
16.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特
征在于,所述分类器采用的特征进一步包括所述翻译片段在所述N-Best个翻译
结果中的后验概率。
17.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特
征在于,所述分类器采用的特征进一步包括所述翻译片段在目标语言模型中的
概率。
18.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特
征在于,所述分类器采用的特征进一步包括所述翻译片段中平均未登录词的个
数。
19.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特
征在于,所述分类器采用的特征进一步包括所述翻译片段的词对齐的比例。
20.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特
征在于,所述复述资源进一步包括词、短语或句子。
21.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特
征在于,所述评分单元采用对数线性模型进行评分。
22.根据权利要求21所述的基于目标语言复述资源的机器翻译装置,其特
征在于,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。

说明书

一种基于目标语言复述资源的机器翻译方法及装置

【技术领域】

本发明涉及机器翻译领域,特别涉及一种基于目标语言复述资源的机器
翻译方法及装置。

【背景技术】

随着自然语言处理技术在各个领域的不断发展,机器翻译已经得到了越
来越广泛地使用。评价机器翻译的质量主要有两个指标:一是忠实度,表示
翻译后的内容是否忠实地传达了被翻译内容的意思;二是流利度,表示被翻
译的内容是否符合目标语言的语法。在实际应用中,即使翻译的忠实度很高,
但是如果流利度不够,还是会出现翻译结果不通畅的情况,从而影响用户的
体验。

现有技术通常只利用语言模型来衡量翻译质量,假如某个翻译结果的片
段在语言模型中出现的概率很低,则认为这个翻译结果是不流利的,但是现
有技术并没有很好地解决翻译不流利的问题。

实际上,翻译不流利的主要原因是双语翻译资源的匮乏。在机器翻译中,
双语语料库是很重要的资源,所谓双语语料库,就是说对应相同的含义,源
语言与目标语言有配对的信息,这些信息组合在一起形成了双语语料库。所
谓的源语言与目标语言是针对翻译行为而言的,例如从英文翻译成中文,英
文就是源语言,中文就是目标语言。当要翻译的源语言句子中的片段无法在
双语语料库中找到对应的目标语言片段,或者能找到的对应目标语言片段的
资源比较少时,就会造成译文的不流利。例如:“dinner”在不同的语境下
可翻译成“宴会”或者“聚餐”,但是在双语语料库里,“dinner”可能只
有一个翻译“宴会”,这就造成了应该翻译成“聚餐”的句子不通畅或不流
利。

【发明内容】

本发明所要解决的技术问题是提供一种基于目标语言复述资源的机器翻译
方法和装置,以改进机器翻译的流利度,提高机器翻译的质量。

本发明为解决技术问题而采用的技术方案是提供了一种基于目标语言
复述资源的机器翻译方法,包括:a.获取N-Best个翻译结果,所述翻译结
果由翻译片段组成;b.选取所述翻译结果的难翻译片段;c.根据目标语言
的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合;d.对所
述的候选翻译结果集合进行评分,以得到最佳翻译结果。

根据本发明之一优选实施例,所述步骤b进一步包括:b1.计算所述翻译片
段的置信度;b2.根据所述置信度识别难翻译的片段。

根据本发明之一优选实施例,影响所述置信度的因素包括所述翻译片段在
所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概
率。

根据本发明之一优选实施例,所述步骤b中,采用机器学习得到的分类器
来选取所述难翻译片段。

根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译
片段在所述N-Best个翻译结果中的后验概率。

根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译
片段在目标语言模型中的概率。

根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译
片段的平均未登录词的个数。

根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译
片段的词对齐的比例。

根据本发明之一优选实施例,所述复述资源进一步包括词、短语或句子。

根据本发明之一优选实施例,所述步骤d中,采用对数线性模型进行评分。

根据本发明之一优选实施例,建立所述对数线性模型时使用的一个特征为
所述复述资源及其权重。

本发明还提供了一种基于目标语言复述资源的机器翻译装置,包括:接收
单元,用于获取N-Best个翻译结果,所述翻译结果由翻译片段组成;选取单元,
用于选取所述翻译结果的难翻译片段;扩展单元,用于根据目标语言的复述资
源对所述难翻译片段进行扩展,以得到候选翻译结果集合;评分单元,用于对
所述的候选翻译结果集合进行评分,以得到最佳翻译结果。

根据本发明之一优选实施例,所述选取单元进一步包括:计算单元,用于
计算所述翻译片段的置信度;识别单元,用于根据所述置信度识别难翻译的片
段。

根据本发明之一优选实施例,影响所述置信度的因素包括所述翻译片段在
所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概
率。

根据本发明之一优选实施例,所述选取单元采用机器学习得到的分类器来
选取所述难翻译片段。

根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译
片段在所述N-Best个翻译结果中的后验概率。

根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译
片段在目标语言模型中的概率。

根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译
片段中平均未登录词的个数。

根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译
片段的词对齐的比例。

根据本发明之一优选实施例,所述复述资源进一步包括词、短语或句子。

根据本发明之一优选实施例,所述评分单元采用对数线性模型进行评分。

根据本发明之一优选实施例,建立所述对数线性模型时使用的一个特征为
所述复述资源及其权重。

由以上技术方案可以看出,通过采用目标语言的复述资源扩展已有翻译
结果的难翻译片段,可以部分解决双语翻译资源匮乏的问题,有效地提高机
器翻译的流利度,从而提高机器翻译的质量。

【附图说明】

图1是本发明实施例中基于目标语言复述资源的机器翻译方法的流程
示意图;

图2是本发明实施例中选取翻译结果的难翻译片段方法的流程示意图;

图3是本发明实施例中根据目标语言的复述资源对难翻译片段进行扩展
后的翻译词图;

图4是本发明实施例中基于目标语言复述资源的机器翻译装置的示意框
图;

图5是本发明实施例中选取单元的示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体
实施例对本发明进行详细描述。

本发明利用目标语言的复述资源对翻译后的翻译结果进行扩展,以改善
现有翻译结果的流利度,提高机器翻译的质量。所谓复述资源,指的是表达
方式不同而含义相同的词、短语或句子。例如“生意”与“买卖”在一些语
境下的含义是相同的,对“买卖”来说,“生意”就是其复述资源。复述资
源并不仅限于词语,更大粒度的复述资源也可以包括复述短语和复述句。

请参考图1,图1是本发明实施例中基于目标语言复述资源的机器翻译
方法流程示意图。该方法主要包含以下步骤:

步骤101:获取N-Best个翻译结果,即获取N个最优的翻译结果。这些
翻译结果可以从现有成熟的机器翻译系统所获取,例如统计翻译系统,其中,
每个翻译结果对应有一个翻译概率,翻译概率越大代表翻译结果的翻译质量
越优。

例如将下面的英文句子翻译为中文:

I saw a pretty girl on a big party.

可以得到多个翻译结果,这些翻译结果各自有一个翻译概率,根据翻译
概率从大到小排序后,可以获取到前N个翻译质量最优的翻译结果。针对上
面的英文句子,N-Best个翻译结果为:

“我在一个盛大的聚餐上看到了一个漂亮的妞。”    (1)

“我在一个大型的聚餐上看到了一个漂亮的姑娘。”  (2)

“我在一个大型的派对上看到了一个漂亮的姑娘。”  (3)

........                                        (...)

........                                        (N)

翻译结果由翻译片段组成,其中,翻译结果(3)在利用机器翻译系统
翻译时是由一个个源语言片段翻译后得到的翻译片段组合而成的:

我/在一个/大型的/派对上/看到了/一个/漂亮的/姑娘。

步骤102:选取翻译结果的难翻译片段。

选取翻译结果的难翻译片段可以采用不同的方法。请参考图2,图2是
本发明选取翻译结果的难翻译片段方法的流程示意图,在本实施例中,步骤
102可进一步包括以下步骤:

步骤1021:计算翻译片段的置信度。翻译片段的置信度表明了这个翻译
片段的可信程度,间接地反映了翻译的质量,如果翻译片段的置信度低,则
表明这个片段翻译得不好,也就不够流利。

计算翻译片段的置信度,可以利用翻译片段在N-Best个翻译结果中的后
验概率和这个片段在一个大型单语目标语言中出现的概率(即在目标语言模
型中的概率)来计算,如下所示:

Conf ( frag k ) = α Σ i = 1 N p i c i ( frag k ) + βp t ( frag k ) ]]>

其中,Conf(fragk)表示翻译片段k(fragk)的置信度;表示fragk
在步骤101所获取的N-Best个翻译结果中的后验概率,其中pi表示第i个翻
译结果的翻译概率,ci(fragk)表示fragk在第i个翻译中出现或没有出现;
pt(fragk)表示fragk在目标语言模型中的概率,如果fragk有m个词组成,即
fragk=wi,wi+1,...,wi+m,则pt(fragk)可以表示为:

p t = ( frag k ) = p ( w i , w i + 1 , . . . , w i + m ) = Π l = i i + m p ( w l | w 1 , . . . , w l - 1 ) ]]>

而pt(fragk)可以通过目标语言模型得到;α和β是两个可依需求配置的常
数,用于控制前述两种概率在置信度评估中的作用。

仍以下面的翻译结果为例,假设N=3,N-Best个翻译结果为:

“我在一个盛大的聚餐上看到了一个漂亮的妞。”   (1)

“我在一个大型的聚餐上看到了一个漂亮的姑娘。” (2)

“我在一个大型的派对上看到了一个漂亮的姑娘。” (3)

3个翻译结果总共可以得到以下翻译片段:“我”、“在”、“一个”、
“盛大的”、“大型的”、“聚餐”、“派对”、“上”、“看到了”、“一
个”、“漂亮的”、“妞”、“姑娘”,则对于翻译片段“盛大的”的置信
度如下所示:

Conf(盛大的)=α·(p1·1+p2·0+p3·0)+β·pt(盛大的)

其中,p1、p2、p3分别表示翻译结果(1)、(2)、(3)的翻译概率。

步骤1022:根据置信度识别难翻译片段。这是指对置信度设置一个阈值,
当翻译片段的置信度低于这个阈值时,就表明这个片段是难翻译的。

在本发明另一个实施例中,选取翻译结果的难翻译片段还可以采用机器
学习的分类器对翻译片段进行分类,分为难翻译片段与不难翻译片段。例如
采用SVM(支持向量机)分类器对翻译片段进行分类。

SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两
类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,
通过核函数将低维输入空间的数据映射到高位空间,从而将原低维空间的线
性不可分问题转化为高维空间上的线性可分问题。

对于两类问题,给定样本集(xi,yi),xi∈Rd,yi={1,-1},i=1,2,...l,以及核
函数K(xi,xj)=(Φ(xi)·Φ(xj)),其中Φ是非线性映射函数。SVM训练出的学习机
器为:

f(x)=(w·Φ(x))+b,

其中w是权重,b是偏置。

对本发明而言,样本集(xi,yi)中的xi是由翻译片段的特征组成的特征向
量,yi表示难翻译或不难翻译。由于核函数的选取已是SVM领域的公知技术,
在此不做赘述。

由此可见,要用样本训练出具有较好分类效果的分类器,也就是得到理
想的分类器权重w和偏置b,特征选取是个关键因素。在本发明中,可以采
用下述变量作为翻译片段的特征:

1、翻译片段在N-Best个翻译结果中的后验概率,概率越小,表示该片
段越难翻译。

2、翻译片段在目标语言模型中的概率,概率越小,表示该片段越难翻
译。

3、翻译片段中平均未登录词的个数,个数越多,表示该片段越难翻译。

未登录词指的是生词,就是翻译片段中由源语言片段翻译而来时在双语
语料库中未找到对应资源的词。

4、翻译片段的词对齐比例。词对齐的比例是指在一个翻译片段中,被
对齐的词除以词的总数。词对齐的比例越小,表示这个片段越难翻译。

值得注意的是,上述特征只是为了说明本发明而采用的优选实施方式,
不应理解为本发明仅限于使用上述特征,其他任何可以对难翻译片段进行识
别的特征,都应包含在本发明的思想之内。

步骤103:根据目标语言的复述资源对难翻译片段进行扩展,以得到候
选翻译结果集合。值得注意的是,若难翻译片段存在于步骤101所获取的多
个(≤N)翻译结果,则在步骤103中,可以根据目标语言的复述资源对多
个翻译结果中的难翻译片段进行扩展,以得到候选翻译结果集合。

目标语言的复述资源实际上是一个单语语料库。抽取目标语言的复述资
源并建立相应的复述资源库,可采用现有技术进行,在此不做详细描述。对
机器翻译而言,表述相同含义的对应双语语料资源是比较匮乏的,而表述相
同含义的单语语料资源却是相对丰富的。

以翻译结果(1)为例:

我在一个盛大的聚餐上看到一个漂亮的妞。

如果“盛大的”、“聚餐”和“妞”为难翻译片段,那么可以通过查找目
标语言的单语语料库,假设“盛大的”的复述资源包括“隆重的”、“聚餐”
的复述资源包括“宴会”和“妞”的复述资源包括“姑娘”,在本实施例中,
步骤103可以用难翻译片段相应的复述资源来扩展上述翻译结果以得到候选
翻译结果集合。

对于没有复述资源的难翻译片段,则不需要进行扩展。需要特别说明的
是,复述资源不限于词,也可以为短语,甚至为句子,例如基于词典注释的
替换、语序变换、句子结构变换、句子拆分与合并或基于推理的复述得到的
资源,只要描述的事物相同,表达的含义相同,都可以认为是复述资源。

上述扩展过程所得的候选翻译结果可以参见图3,图3为根据目标语言
的复述资源对难翻译片段进行扩展后的翻译词图。

图3所示的翻译词图也被描述为一个混淆网络,在混淆网络中,两个节
点间由一条或多条弧连接。将各个节点连接起来的弧之和就形成了一条路径,
而由不完全相同的弧连接所有节点的各条路径集合就形成了一个候选翻译结
果集合。

步骤104:对候选翻译结果集合进行评分,以得到最佳的翻译结果。最
佳的翻译结果可进一步在其他的业务中得到应用,例如提供给用户进行参考
选择,并接收用户将这些翻译结果修改后的反馈以改进机器翻译系统及其相
应模型等等。

从图3得到的词图出发,两个不同节点间有多条弧的,每条弧将拥有一
个权重,权重可以根据复述资源的复述概率获得。此时需要将每条弧的权重
进行归一化处理,以便于最终对翻译的结果进行评分。

假设两个有连接弧的节点间有m条不同的弧,每条弧原来的权重是qi,
那么归一化后的权重为:

w i = q i Σ i = 1 m q i - - - ( a ) ]]>

对翻译结果进行评分,可以采用对数线性模型(Log-Linear Model)。对
数线性模型是在最大熵模型的思想上发展而来的。以下对最大熵方法的基本
思想做一下简单介绍:

对于一个随机事件,假设已经有了一组样例,现在希望建立一个统计模
型,来模拟这个随机事件的分布。为此,需要选择一组特征,使得这个统计
模型在这一组特征上,与样例中的分布完全一致,同时又保证这个模型尽可
能地“均匀”(也就是使模型的熵值达到最大),以确保除了这一组特征之
外,这个模型没有其他的任何偏好。依据这个原则的统计建模方法就是最大
熵方法。

对于机器翻译来说,如果S、T是机器翻译的源语言和目标语言句子,
h1(S,T)...hM(S,T)分别是S、T上的M个特征,λ1...λM是与这些特征分别对应
的M个参数,那么翻译过程可以描述为:

P ( T | S ) P λ 1 . . . λ M ( T | S ) = exp [ Σ m = 1 M λ m h m ( S , T ) ] Σ T exp [ Σ m = 1 M λ m h m ( S , T ) ] - - - ( b ) ]]>

其整体的翻译概率,是各个特征加权后的乘积(通常取其对数形式,表
现为加权和)。对于给定的S,相应的最优译文T为:

T best = arg max T { p ( T | S ) } ]]>

                       (c)

= arg max T { Σ m = 1 M λ m h m ( S , T ) } ]]>

由于式(c)的形式可以反映为在对数操作下各特征与相应权重积的线性
相加,所以称之为对数线性模型,在该模型中,参数λm可以通过最小错误率
训练得到,而hm(S,T)可以表述不同维度的特征。在对翻译结果进行评分的过
程中,可以融合多个维度的翻译质量评价模型,这些模型可以表述为特征,
例如表征调序的特征h调序(S,T)等,对本发明而言,式(c)的融合模型中的一
个维度,就是利用式(a)的复述资源及其权重建立的特征h复述资源(S,T)。

请参考图4,图4为本发明实施例中基于目标语言复述资源的机器翻译
装置示意框图。

在本实施例中,基于目标语言复述资源的机器翻译装置包括接收单元
201、选取单元202、扩展单元203、评分单元204。

其中,接收单元201,用于获取N-Best个翻译结果,即获取N个最优的
翻译结果。这些翻译结果可以从现有成熟的机器翻译系统所获取,例如统计
翻译系统,其中,每个翻译结果对应有一个翻译概率,翻译概率越大代表翻
译结果的翻译质量越优。

例如将下面的英文句子翻译为中文:

I saw a pretty girl on a big party.

可以得到多个翻译结果,这些翻译结果各自有一个翻译概率,根据翻译
概率从大到小排序后,可以获取到前N个翻译质量最优的翻译结果。针对上
面的英文句子,N-Best个翻译结果为:

“我在一个盛大的聚餐上看到了一个漂亮的妞。”  (1)

“我在一个大型的聚餐上看到了一个漂亮的姑娘。”(2)

“我在一个大型的派对上看到了一个漂亮的姑娘。”(3)

........                                      (...)

........                                      (N)

翻译结果由翻译片段组成,其中,翻译结果(3)在利用机器翻译系统
翻译时是由一个个源语言片段翻译后得到的翻译片段组合而成的:

我/在一个/大型的/派对/上/看到了/一个/漂亮的/姑娘。

选取单元202,用于选取翻译结果的难翻译片段。

选取翻译结果的难翻译片段可以采用不同的方法。请参考图5,图5是
本发明一实施例中选取单元202的示意框图,在本实施例中,选取单元202
可进一步包括以下单元:

计算单元2021,用于计算翻译片段的置信度。翻译片段的置信度表明了
这个翻译片段的可信程度,间接地反映了翻译的质量,如果翻译片段的置信
度低,则表明这个片段翻译得不好,也就不够流利。

计算翻译片段的置信度,可以利用翻译片段在N-Best个翻译结果中的后
验概率和这个片段在一个大型单语目标语言中出现的概率(即在目标语言模
型中的概率)来计算,如下所示:

Conf ( frag k ) = α Σ i = 1 N p i c i ( frag k ) + βp t ( frag k ) ]]>

其中,Conf(fragk)表示翻译片段k(fragk)的置信度;表示fragk
在接收单元201所获取的N-Best个翻译结果中的后验概率,其中pi表示第i
译结果的翻译概率,ci(fragk)表示fragk在第i个翻译中出现或没有出现;
pt(fragk)表示fragk在目标语言模型中的概率,如果fragk有m个词组成,即
fragk=wi,wi+1,...,wi+m,则pt(fragk)可以表示为:

p t = ( frag k ) = p ( w i , w i + 1 , . . . , w i + m ) = Π l = i i + m p ( w l | w 1 , . . . , w l - 1 ) ]]>

而pt(fragk)可以通过目标语言模型得到;α和β是两个可依需求配置的常
数,用于控制前述两种概率在置信度评估中的作用。

仍以下面的翻译结果为例,假设N=3,N-Best个翻译结果为:

“我在一个盛大的聚餐上看到了一个漂亮的妞。”  (1)

“我在一个大型的聚餐上看到了一个漂亮的姑娘。”(2)

“我在一个大型的派对上看到了一个漂亮的姑娘。”(3)

3个翻译结果总共可以得到以下翻译片段:“我”、“在”、“一个”、
“盛大的”、“大型的”、“聚餐”、“派对”、“上”、“看到了”、“一
个”、“漂亮的”、“妞”、“姑娘”,则对于翻译片段“盛大的”的置信
度如下所示:

Conf(盛大的)=α·(p1·1+p2·0+p3·0)+β·pt(盛大的)

其中,p1、p2、p3分别表示翻译结果(1)、(2)、(3)的翻译概率。

识别单元2022,用于根据置信度识别难翻译片段。这是指对置信度设置
一个阈值,当翻译片段的置信度低于这个阈值时,就表明这个片段是难翻译
的。

在本发明另一个实施例中,选取单元202选取翻译结果的难翻译片段还
可以采用机器学习的分类器对翻译片段进行分类,分为难翻译片段与不难翻
译片段。例如采用SVM(支持向量机)分类器对翻译片段进行分类。

SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两
类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,
通过核函数将低维输入空间的数据映射到高位空间,从而将原低维空间的线
性不可分问题转化为高维空间上的线性可分问题。

对于两类问题,给定样本集(xi,yi),xi∈Rd,yi={1,-1},i=1,2,...l,以及核
函数K(xi,xj)=(Φ(xi)·Φ(xj)),其中Φ是非线性映射函数。SVM训练出的学习机
器为:

f(x)=(w·Φ(x))+b,

其中w是权重,b是偏置。

对本发明而言,样本集(xi,yi)中的xi是由翻译片段的特征组成的特征向
量,yi表示难翻译或不难翻译。由于核函数的选取已是SVM领域的公知技术,
在此不做赘述。

由此可见,要用样本训练出具有较好分类效果的分类器,也就是得到理
想的分类器权重w和偏置b,特征选取是个关键因素。在本发明中,可以采
用下述变量作为翻译片段的特征:

1、翻译片段在N-Best个翻译结果中的后验概率,概率越小,表示该片
段越难翻译。

2、翻译片段在目标语言模型中的概率,概率越小,表示该片段越难翻
译。

3、翻译片段中平均未登录词的个数,个数越多,表示该片段越难翻译。

未登录词指的是生词,就是翻译片段中由源语言片段翻译而来时在双语
语料库中并未找到对应资源的词。

4、翻译片段的词对齐比例。词对齐的比例是指在一个翻译片段中,被
对齐的词除以词的总数。词对齐的比例越小,表示这个片段越难翻译。

值得注意的是,上述特征只是为了说明本发明而采用的优选实施方式,
不应理解为本发明仅限于使用上述特征,其他任何可以对难翻译片段进行识
别的特征,都应包含在本发明的思想之内。

扩展单元203,用于根据目标语言的复述资源对难翻译片段进行扩展,
以得到候选翻译结果集合。值得注意的是,若难翻译片段存在于接收单元201
所获取的多个(≤N)翻译结果,则扩展单元203可以根据目标语言的复述
资源对多个翻译结果中的难翻译片段进行扩展,以得到候选翻译结果集合。

目标语言的复述资源实际上是一个单语语料库。抽取目标语言的复述资
源并建立相应的复述资源库,可采用现有技术进行,在此不做详细描述。对
机器翻译而言,表述相同含义的对应双语语料资源是比较匮乏的,而表述相
同含义的单语语料资源却是相对丰富的。

以翻译结果(1)为例:

我在一个盛大的聚餐上看到一个漂亮的妞。

如果“盛大的”、“聚餐”和“妞”为难翻译片段,那么可以通过查找目
标语言的单语语料库,假设“盛大的”的复述资源包括“隆重的”、“聚餐”
的复述资源包括“宴会”和“妞”的复述资源包括“姑娘”,在本实施例中,
扩展单元203可以用难翻译片段相应的复述资源扩展上述翻译结果以得到候
选翻译结果集合。

对于没有复述资源的难翻译片段,则不需要进行扩展。需要特别说明的
是,复述资源不限于词,也可以为短语,甚至为句子,例如基于词典注释的
替换、语序变换、句子结构变换、句子拆分与合并或基于推理的复述得到的
资源,只要描述的事物相同,表达的含义相同,都可以认为是复述资源。

上述扩展过程所得的候选翻译结果可以参见图3,图3为根据目标语言
的复述资源对难翻译片段进行扩展后得到的翻译词图。

图3所示的翻译词图也被描述为一个混淆网络,在混淆网络中,两个节
点间由一条或多条弧连接。将各个节点连接起来的弧之和就形成了一条路径,
而由不完全相同的弧连接所有节点的各条路径集合就形成了一个候选的翻译
结果集合。

评分单元204,用于对候选翻译结果集合进行评分,以得到最佳的翻译
结果。最佳的翻译结果可进一步在其他的业务中得到应用,例如提供给用户
进行参考选择,并由用户将这些翻译结果修改后反馈给后续的翻译改进系统
等等。

从图3得到的词图出发,两个不同节点间有多条弧的,每条弧将拥有一
个权重,权重可以根据复述资源的复述概率获得。此时需要将每条弧的权重
进行归一化处理,以便于最终对翻译的结果进行评分。

假设两个有连接弧的节点间有m条不同的弧,每条弧原来的权重是qi,
那么归一化后的权重为:

w i = q i Σ i = 1 m q i - - - ( a ) ]]>

对翻译结果进行评分,可以采用对数线性模型。对数线性模型是在最大
熵模型的思想上发展而来的。以下对最大熵方法的基本思想做一下简单介绍:

对于一个随机事件,假设已经有了一组样例,现在希望建立一个统计模
型,来模拟这个随机事件的分布。为此,需要选择一组特征,使得这个统计
模型在这一组特征上,与样例中的分布完全一致,同时又保证这个模型尽可
能地“均匀”(也就是使模型的熵值达到最大),以确保除了这一组特征之
外,这个模型没有其他的任何偏好。依据这个原则的统计建模方法就是最大
熵方法。

对于机器翻译来说,如果S、T是机器翻译的源语言和目标语言句子,
h1(S,T)...hM(S,T)分别是S、T上的M个特征,λ1...λM是与这些特征分别对应
的M个参数,那么翻译过程可以描述为:

P ( T | S ) P λ 1 . . . λ M ( T | S ) = exp [ Σ m = 1 M λ m h m ( S , T ) ] Σ T exp [ Σ m = 1 M λ m h m ( S , T ) ] - - - ( b ) ]]>

其整体的翻译概率,是各个特征加权后的乘积(通常取其对数形式,表
现为加权和)。对于给定的S,相应的最优译文T为:

T best = arg max T { p ( T | S ) } ]]>

= arg max T { Σ m = 1 M λ m h m ( S , T ) } - - - ( c ) ]]>

由于式(c)的形式可以反映为在对数操作下各特征与相应权重积的线性
相加,所以称之为对数线性模型,在该模型中,参数λm可以通过最小错误率
训练得到,而hm(S,T)可以表述不同维度的特征。在对翻译结果进行评分的过
程中,可以融合多个维度的翻译质量评价模型,这些模型可以表述为特征,
例如表征调序的特征h调序(S,T)等,对本发明而言,式(c)的融合模型中的一
个维度,就是利用式(a)的复述资源及其权重建立的特征h复述资源(S,T)。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本
发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在
本发明保护的范围之内。

一种基于目标语言复述资源的机器翻译方法及装置.pdf_第1页
第1页 / 共15页
一种基于目标语言复述资源的机器翻译方法及装置.pdf_第2页
第2页 / 共15页
一种基于目标语言复述资源的机器翻译方法及装置.pdf_第3页
第3页 / 共15页
点击查看更多>>
资源描述

《一种基于目标语言复述资源的机器翻译方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种基于目标语言复述资源的机器翻译方法及装置.pdf(15页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102650988 A(43)申请公布日 2012.08.29CN102650988A*CN102650988A*(21)申请号 201110046306.7(22)申请日 2011.02.25G06F 17/28(2006.01)(71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层(72)发明人吴华 赵世奇 王海峰(74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280代理人何青瓦 李庆波(54) 发明名称一种基于目标语言复述资源的机器翻译方法及装置(57) 摘要本发明提供了一种基于目标语言复述资源的机器。

2、翻译方法,包括:获取N-Best个翻译结果,所述翻译结果由翻译片段组成;选取所述翻译结果的难翻译片段;根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合;对所述的候选翻译结果集合进行评分,以得到最佳翻译结果,通过上述方式,可以部分解决双语翻译资源匮乏的问题,有效地提高机器翻译的流利度,从而提高机器翻译的质量。(51)Int.Cl.权利要求书2页 说明书10页 附图2页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 2 页 说明书 10 页 附图 2 页1/2页21.一种基于目标语言复述资源的机器翻译方法,其特征在于,所述方法包括:a.获取N-Best个翻。

3、译结果,所述翻译结果由翻译片段组成;b.选取所述翻译结果的难翻译片段;c.根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合;d.对所述的候选翻译结果集合进行评分,以得到最佳翻译结果。2.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述步骤b进一步包括:b1.计算所述翻译片段的置信度;b2.根据所述置信度识别难翻译的片段。3.根据权利要求2所述的基于目标语言复述资源的机器翻译方法,其特征在于,影响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概率。4.根据权利要求1所述的基于目标语言复述资源的。

4、机器翻译方法,其特征在于,所述步骤b中,采用机器学习得到的分类器来选取所述难翻译片段。5.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一步包括所述翻译片段在所述N-Best个翻译结果中的后验概率。6.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一步包括所述翻译片段在目标语言模型中的概率。7.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一步包括所述翻译片段的平均未登录词的个数。8.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采。

5、用的特征进一步包括所述翻译片段的词对齐的比例。9.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述复述资源进一步包括词、短语或句子。10.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述步骤d中,采用对数线性模型进行评分。11.根据权利要求10所述的基于目标语言复述资源的机器翻译方法,其特征在于,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。12.一种基于目标语言复述资源的机器翻译装置,其特征在于,所述装置包括:接收单元,用于获取N-Best个翻译结果,所述翻译结果由翻译片段组成;选取单元,用于选取所述翻译结果的难翻译片段;扩展单元。

6、,用于根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合;评分单元,用于对所述的候选翻译结果集合进行评分,以得到最佳翻译结果。13.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述选取单元进一步包括:计算单元,用于计算所述翻译片段的置信度;识别单元,用于根据所述置信度识别难翻译的片段。14.根据权利要求13所述的基于目标语言复述资源的机器翻译装置,其特征在于,影权 利 要 求 书CN 102650988 A2/2页3响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概率。15.根据权利要求12。

7、所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述选取单元采用机器学习得到的分类器来选取所述难翻译片段。16.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述分类器采用的特征进一步包括所述翻译片段在所述N-Best个翻译结果中的后验概率。17.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述分类器采用的特征进一步包括所述翻译片段在目标语言模型中的概率。18.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述分类器采用的特征进一步包括所述翻译片段中平均未登录词的个数。19.根据权利要求15所述的基于目标语言复述资。

8、源的机器翻译装置,其特征在于,所述分类器采用的特征进一步包括所述翻译片段的词对齐的比例。20.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述复述资源进一步包括词、短语或句子。21.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述评分单元采用对数线性模型进行评分。22.根据权利要求21所述的基于目标语言复述资源的机器翻译装置,其特征在于,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。权 利 要 求 书CN 102650988 A1/10页4一种基于目标语言复述资源的机器翻译方法及装置【 技术领域 】0001 本发明涉及机器翻译领。

9、域,特别涉及一种基于目标语言复述资源的机器翻译方法及装置。【 背景技术 】0002 随着自然语言处理技术在各个领域的不断发展,机器翻译已经得到了越来越广泛地使用。评价机器翻译的质量主要有两个指标:一是忠实度,表示翻译后的内容是否忠实地传达了被翻译内容的意思;二是流利度,表示被翻译的内容是否符合目标语言的语法。在实际应用中,即使翻译的忠实度很高,但是如果流利度不够,还是会出现翻译结果不通畅的情况,从而影响用户的体验。0003 现有技术通常只利用语言模型来衡量翻译质量,假如某个翻译结果的片段在语言模型中出现的概率很低,则认为这个翻译结果是不流利的,但是现有技术并没有很好地解决翻译不流利的问题。00。

10、04 实际上,翻译不流利的主要原因是双语翻译资源的匮乏。在机器翻译中,双语语料库是很重要的资源,所谓双语语料库,就是说对应相同的含义,源语言与目标语言有配对的信息,这些信息组合在一起形成了双语语料库。所谓的源语言与目标语言是针对翻译行为而言的,例如从英文翻译成中文,英文就是源语言,中文就是目标语言。当要翻译的源语言句子中的片段无法在双语语料库中找到对应的目标语言片段,或者能找到的对应目标语言片段的资源比较少时,就会造成译文的不流利。例如:“dinner”在不同的语境下可翻译成“宴会”或者“聚餐”,但是在双语语料库里,“dinner”可能只有一个翻译“宴会”,这就造成了应该翻译成“聚餐”的句子不。

11、通畅或不流利。【 发明内容 】0005 本发明所要解决的技术问题是提供一种基于目标语言复述资源的机器翻译方法和装置,以改进机器翻译的流利度,提高机器翻译的质量。0006 本发明为解决技术问题而采用的技术方案是提供了一种基于目标语言复述资源的机器翻译方法,包括:a.获取N-Best个翻译结果,所述翻译结果由翻译片段组成;b.选取所述翻译结果的难翻译片段;c.根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合;d.对所述的候选翻译结果集合进行评分,以得到最佳翻译结果。0007 根据本发明之一优选实施例,所述步骤b进一步包括:b1.计算所述翻译片段的置信度;b2.根据所述置信度识。

12、别难翻译的片段。0008 根据本发明之一优选实施例,影响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概率。0009 根据本发明之一优选实施例,所述步骤b中,采用机器学习得到的分类器来选取所述难翻译片段。说 明 书CN 102650988 A2/10页50010 根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段在所述N-Best个翻译结果中的后验概率。0011 根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段在目标语言模型中的概率。0012 根据本发明之一优选实施例,所述分类器采用的特征进一步包括。

13、所述翻译片段的平均未登录词的个数。0013 根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段的词对齐的比例。0014 根据本发明之一优选实施例,所述复述资源进一步包括词、短语或句子。0015 根据本发明之一优选实施例,所述步骤d中,采用对数线性模型进行评分。0016 根据本发明之一优选实施例,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。0017 本发明还提供了一种基于目标语言复述资源的机器翻译装置,包括:接收单元,用于获取N-Best个翻译结果,所述翻译结果由翻译片段组成;选取单元,用于选取所述翻译结果的难翻译片段;扩展单元,用于根据目标语言的复述资源对所述。

14、难翻译片段进行扩展,以得到候选翻译结果集合;评分单元,用于对所述的候选翻译结果集合进行评分,以得到最佳翻译结果。0018 根据本发明之一优选实施例,所述选取单元进一步包括:计算单元,用于计算所述翻译片段的置信度;识别单元,用于根据所述置信度识别难翻译的片段。0019 根据本发明之一优选实施例,影响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概率。0020 根据本发明之一优选实施例,所述选取单元采用机器学习得到的分类器来选取所述难翻译片段。0021 根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段在所述N-Best个。

15、翻译结果中的后验概率。0022 根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段在目标语言模型中的概率。0023 根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段中平均未登录词的个数。0024 根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段的词对齐的比例。0025 根据本发明之一优选实施例,所述复述资源进一步包括词、短语或句子。0026 根据本发明之一优选实施例,所述评分单元采用对数线性模型进行评分。0027 根据本发明之一优选实施例,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。0028 由以上技术方案可以看出,通过。

16、采用目标语言的复述资源扩展已有翻译结果的难翻译片段,可以部分解决双语翻译资源匮乏的问题,有效地提高机器翻译的流利度,从而提高机器翻译的质量。说 明 书CN 102650988 A3/10页6【 附图说明 】0029 图1是本发明实施例中基于目标语言复述资源的机器翻译方法的流程示意图;0030 图2是本发明实施例中选取翻译结果的难翻译片段方法的流程示意图;0031 图3是本发明实施例中根据目标语言的复述资源对难翻译片段进行扩展后的翻译词图;0032 图4是本发明实施例中基于目标语言复述资源的机器翻译装置的示意框图;0033 图5是本发明实施例中选取单元的示意框图。【 具体实施方式 】0034 为。

17、了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。0035 本发明利用目标语言的复述资源对翻译后的翻译结果进行扩展,以改善现有翻译结果的流利度,提高机器翻译的质量。所谓复述资源,指的是表达方式不同而含义相同的词、短语或句子。例如“生意”与“买卖”在一些语境下的含义是相同的,对“买卖”来说,“生意”就是其复述资源。复述资源并不仅限于词语,更大粒度的复述资源也可以包括复述短语和复述句。0036 请参考图1,图1是本发明实施例中基于目标语言复述资源的机器翻译方法流程示意图。该方法主要包含以下步骤:0037 步骤101:获取N-Best个翻译结果,即获取N个最优的。

18、翻译结果。这些翻译结果可以从现有成熟的机器翻译系统所获取,例如统计翻译系统,其中,每个翻译结果对应有一个翻译概率,翻译概率越大代表翻译结果的翻译质量越优。0038 例如将下面的英文句子翻译为中文:0039 I saw a pretty girl on a big party.0040 可以得到多个翻译结果,这些翻译结果各自有一个翻译概率,根据翻译概率从大到小排序后,可以获取到前N个翻译质量最优的翻译结果。针对上面的英文句子,N-Best个翻译结果为:0041 “我在一个盛大的聚餐上看到了一个漂亮的妞。” (1)0042 “我在一个大型的聚餐上看到了一个漂亮的姑娘。” (2)0043 “我在一个。

19、大型的派对上看到了一个漂亮的姑娘。” (3)0044 . (.)0045 . (N)0046 翻译结果由翻译片段组成,其中,翻译结果(3)在利用机器翻译系统翻译时是由一个个源语言片段翻译后得到的翻译片段组合而成的:0047 我/在一个/大型的/派对上/看到了/一个/漂亮的/姑娘。0048 步骤102:选取翻译结果的难翻译片段。0049 选取翻译结果的难翻译片段可以采用不同的方法。请参考图2,图2是本发明选取翻译结果的难翻译片段方法的流程示意图,在本实施例中,步骤102可进一步包括以下步骤:0050 步骤1021:计算翻译片段的置信度。翻译片段的置信度表明了这个翻译片段的说 明 书CN 1026。

20、50988 A4/10页7可信程度,间接地反映了翻译的质量,如果翻译片段的置信度低,则表明这个片段翻译得不好,也就不够流利。0051 计算翻译片段的置信度,可以利用翻译片段在N-Best个翻译结果中的后验概率和这个片段在一个大型单语目标语言中出现的概率(即在目标语言模型中的概率)来计算,如下所示:0052 0053 其中,Conf(fragk)表示翻译片段k(fragk)的置信度;表示fragk在步骤101所获取的N-Best个翻译结果中的后验概率,其中pi表示第i个翻译结果的翻译概率,ci(fragk)表示fragk在第i个翻译中出现或没有出现;pt(fragk)表示fragk在目标语言模型。

21、中的概率,如果fragk有m个词组成,即fragkwi,wi+1,.,wi+m,则pt(fragk)可以表示为:0054 0055 而pt(fragk)可以通过目标语言模型得到;和是两个可依需求配置的常数,用于控制前述两种概率在置信度评估中的作用。0056 仍以下面的翻译结果为例,假设N3,N-Best个翻译结果为:0057 “我在一个盛大的聚餐上看到了一个漂亮的妞。” (1)0058 “我在一个大型的聚餐上看到了一个漂亮的姑娘。” (2)0059 “我在一个大型的派对上看到了一个漂亮的姑娘。” (3)0060 3个翻译结果总共可以得到以下翻译片段:“我”、“在”、“一个”、“盛大的”、“大型。

22、的”、“聚餐”、“派对”、“上”、“看到了”、“一个”、“漂亮的”、“妞”、“姑娘”,则对于翻译片段“盛大的”的置信度如下所示:0061 Conf(盛大的)(p11+p20+p30)+pt(盛大的)0062 其中,p1、p2、p3分别表示翻译结果(1)、(2)、(3)的翻译概率。0063 步骤1022:根据置信度识别难翻译片段。这是指对置信度设置一个阈值,当翻译片段的置信度低于这个阈值时,就表明这个片段是难翻译的。0064 在本发明另一个实施例中,选取翻译结果的难翻译片段还可以采用机器学习的分类器对翻译片段进行分类,分为难翻译片段与不难翻译片段。例如采用SVM(支持向量机)分类器对翻译片段进行。

23、分类。0065 SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,通过核函数将低维输入空间的数据映射到高位空间,从而将原低维空间的线性不可分问题转化为高维空间上的线性可分问题。0066 对于两类问题,给定样本集(xi,yi),xiRd,yi1,-1,i1,2,.l,以及核函数K(xi,xj)(xi)(xj),其中是非线性映射函数。SVM训练出的学习机器为:0067 f(x)(w(x)+b,0068 其中w是权重,b是偏置。说 明 书CN 102650988 A5/10页80069 对本发明而言,样本集(xi,yi)。

24、中的xi是由翻译片段的特征组成的特征向量,yi表示难翻译或不难翻译。由于核函数的选取已是SVM领域的公知技术,在此不做赘述。0070 由此可见,要用样本训练出具有较好分类效果的分类器,也就是得到理想的分类器权重w和偏置b,特征选取是个关键因素。在本发明中,可以采用下述变量作为翻译片段的特征:0071 1、翻译片段在N-Best个翻译结果中的后验概率,概率越小,表示该片段越难翻译。0072 2、翻译片段在目标语言模型中的概率,概率越小,表示该片段越难翻译。0073 3、翻译片段中平均未登录词的个数,个数越多,表示该片段越难翻译。0074 未登录词指的是生词,就是翻译片段中由源语言片段翻译而来时在。

25、双语语料库中未找到对应资源的词。0075 4、翻译片段的词对齐比例。词对齐的比例是指在一个翻译片段中,被对齐的词除以词的总数。词对齐的比例越小,表示这个片段越难翻译。0076 值得注意的是,上述特征只是为了说明本发明而采用的优选实施方式,不应理解为本发明仅限于使用上述特征,其他任何可以对难翻译片段进行识别的特征,都应包含在本发明的思想之内。0077 步骤103:根据目标语言的复述资源对难翻译片段进行扩展,以得到候选翻译结果集合。值得注意的是,若难翻译片段存在于步骤101所获取的多个(N)翻译结果,则在步骤103中,可以根据目标语言的复述资源对多个翻译结果中的难翻译片段进行扩展,以得到候选翻译结。

26、果集合。0078 目标语言的复述资源实际上是一个单语语料库。抽取目标语言的复述资源并建立相应的复述资源库,可采用现有技术进行,在此不做详细描述。对机器翻译而言,表述相同含义的对应双语语料资源是比较匮乏的,而表述相同含义的单语语料资源却是相对丰富的。0079 以翻译结果(1)为例:0080 我在一个盛大的聚餐上看到一个漂亮的妞。0081 如果“盛大的”、“聚餐”和“妞”为难翻译片段,那么可以通过查找目标语言的单语语料库,假设“盛大的”的复述资源包括“隆重的”、“聚餐”的复述资源包括“宴会”和“妞”的复述资源包括“姑娘”,在本实施例中,步骤103可以用难翻译片段相应的复述资源来扩展上述翻译结果以得。

27、到候选翻译结果集合。0082 对于没有复述资源的难翻译片段,则不需要进行扩展。需要特别说明的是,复述资源不限于词,也可以为短语,甚至为句子,例如基于词典注释的替换、语序变换、句子结构变换、句子拆分与合并或基于推理的复述得到的资源,只要描述的事物相同,表达的含义相同,都可以认为是复述资源。0083 上述扩展过程所得的候选翻译结果可以参见图3,图3为根据目标语言的复述资源对难翻译片段进行扩展后的翻译词图。0084 图3所示的翻译词图也被描述为一个混淆网络,在混淆网络中,两个节点间由一条或多条弧连接。将各个节点连接起来的弧之和就形成了一条路径,而由不完全相同的弧连接所有节点的各条路径集合就形成了一个。

28、候选翻译结果集合。说 明 书CN 102650988 A6/10页90085 步骤104:对候选翻译结果集合进行评分,以得到最佳的翻译结果。最佳的翻译结果可进一步在其他的业务中得到应用,例如提供给用户进行参考选择,并接收用户将这些翻译结果修改后的反馈以改进机器翻译系统及其相应模型等等。0086 从图3得到的词图出发,两个不同节点间有多条弧的,每条弧将拥有一个权重,权重可以根据复述资源的复述概率获得。此时需要将每条弧的权重进行归一化处理,以便于最终对翻译的结果进行评分。0087 假设两个有连接弧的节点间有m条不同的弧,每条弧原来的权重是qi,那么归一化后的权重为:0088 0089 对翻译结果进。

29、行评分,可以采用对数线性模型(Log-Linear Model)。对数线性模型是在最大熵模型的思想上发展而来的。以下对最大熵方法的基本思想做一下简单介绍:0090 对于一个随机事件,假设已经有了一组样例,现在希望建立一个统计模型,来模拟这个随机事件的分布。为此,需要选择一组特征,使得这个统计模型在这一组特征上,与样例中的分布完全一致,同时又保证这个模型尽可能地“均匀”(也就是使模型的熵值达到最大),以确保除了这一组特征之外,这个模型没有其他的任何偏好。依据这个原则的统计建模方法就是最大熵方法。0091 对于机器翻译来说,如果S、T是机器翻译的源语言和目标语言句子,h1(S,T).hM(S,T)。

30、分别是S、T上的M个特征,1.M是与这些特征分别对应的M个参数,那么翻译过程可以描述为:0092 0093 其整体的翻译概率,是各个特征加权后的乘积(通常取其对数形式,表现为加权和)。对于给定的S,相应的最优译文T为:0094 0095 (c)0096 0097 由于式(c)的形式可以反映为在对数操作下各特征与相应权重积的线性相加,所以称之为对数线性模型,在该模型中,参数m可以通过最小错误率训练得到,而hm(S,T)可以表述不同维度的特征。在对翻译结果进行评分的过程中,可以融合多个维度的翻译质量评价模型,这些模型可以表述为特征,例如表征调序的特征h调序(S,T)等,对本发明而言,式(c)的融合。

31、模型中的一个维度,就是利用式(a)的复述资源及其权重建立的特征h复述资源(S,T)。0098 请参考图4,图4为本发明实施例中基于目标语言复述资源的机器翻译装置示意框图。说 明 书CN 102650988 A7/10页100099 在本实施例中,基于目标语言复述资源的机器翻译装置包括接收单元201、选取单元202、扩展单元203、评分单元204。0100 其中,接收单元201,用于获取N-Best个翻译结果,即获取N个最优的翻译结果。这些翻译结果可以从现有成熟的机器翻译系统所获取,例如统计翻译系统,其中,每个翻译结果对应有一个翻译概率,翻译概率越大代表翻译结果的翻译质量越优。0101 例如将下。

32、面的英文句子翻译为中文:0102 I saw a pretty girl on a big party.0103 可以得到多个翻译结果,这些翻译结果各自有一个翻译概率,根据翻译概率从大到小排序后,可以获取到前N个翻译质量最优的翻译结果。针对上面的英文句子,N-Best个翻译结果为:0104 “我在一个盛大的聚餐上看到了一个漂亮的妞。” (1)0105 “我在一个大型的聚餐上看到了一个漂亮的姑娘。”(2)0106 “我在一个大型的派对上看到了一个漂亮的姑娘。”(3)0107 . (.)0108 . (N)0109 翻译结果由翻译片段组成,其中,翻译结果(3)在利用机器翻译系统翻译时是由一个个源语。

33、言片段翻译后得到的翻译片段组合而成的:0110 我/在一个/大型的/派对/上/看到了/一个/漂亮的/姑娘。0111 选取单元202,用于选取翻译结果的难翻译片段。0112 选取翻译结果的难翻译片段可以采用不同的方法。请参考图5,图5是本发明一实施例中选取单元202的示意框图,在本实施例中,选取单元202可进一步包括以下单元:0113 计算单元2021,用于计算翻译片段的置信度。翻译片段的置信度表明了这个翻译片段的可信程度,间接地反映了翻译的质量,如果翻译片段的置信度低,则表明这个片段翻译得不好,也就不够流利。0114 计算翻译片段的置信度,可以利用翻译片段在N-Best个翻译结果中的后验概率和。

34、这个片段在一个大型单语目标语言中出现的概率(即在目标语言模型中的概率)来计算,如下所示:0115 0116 其中,Conf(fragk)表示翻译片段k(fragk)的置信度;表示fragk在接收单元201所获取的N-Best个翻译结果中的后验概率,其中pi表示第i译结果的翻译概率,ci(fragk)表示fragk在第i个翻译中出现或没有出现;pt(fragk)表示fragk在目标语言模型中的概率,如果fragk有m个词组成,即fragkwi,wi+1,.,wi+m,则pt(fragk)可以表示为:0117 0118 而pt(fragk)可以通过目标语言模型得到;和是两个可依需求配置的常数,用于控制前述两种概率在置信度评估中的作用。说 明 书CN 102650988 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1