获得加权语言模型概率及构建加权语言模型的方法和装置.pdf

上传人:n****g 文档编号:1033204 上传时间:2018-03-27 格式:PDF 页数:21 大小:603.83KB
返回 下载 相关 举报
摘要
申请专利号:

CN200910170292.2

申请日:

2009.09.10

公开号:

CN102023969A

公开日:

2011.04.20

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/28申请公布日:20110420|||实质审查的生效IPC(主分类):G06F 17/28申请日:20090910|||公开

IPC分类号:

G06F17/28

主分类号:

G06F17/28

申请人:

株式会社东芝

发明人:

刘占一; 王海峰; 吴华

地址:

日本东京都

优先权:

专利代理机构:

北京市中咨律师事务所 11247

代理人:

于静;周春燕

PDF下载: PDF下载
内容摘要

本发明提供一种为句子获得加权语言模型概率的方法和装置、构建加权语言模型的方法和装置以及基于语料库的机器翻译方法和系统。该为句子获得加权语言模型概率的方法,包括:对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单词组的概率进行加权;以及根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。在本发明中,通过根据句子的结构,对句子中与语言模型概率的计算有关的各个单词组指派反映该单词组对于句子流利度的影响程度的权重,能够基于句子的结构更准确地体现句子的流利度。

权利要求书

1: 一种为句子获得加权语言模型概率的方法,包括 : 对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单 词组的概率进行加权 ;以及 根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获 得加权语言模型概率 ; 其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句 子流利度的影响程度的权重。
2: 一种构建加权语言模型的方法,包括 : 构建加权语言模型,该加权语言模型 : 对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单 词组的概率进行加权,并且 根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获 得加权语言模型概率 ; 其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句 子流利度的影响程度的权重。
3: 根据权利要求 1 或 2 所述的方法,其中为上述句子获得加权语言模型概率根据下式 实现 : 其中, E = {e1, e2, ..., eN} 表示包含 N 个词的句子, pw(E) 表示该句子的加权语言 模型概率, p(ei|ei-n+1, ei-n+2, ..., ei-2, ei-1) 表示单词组 (ei-n+1, ei-n+2, ..., ei-2, ei-1, ei) 的 概率, 是该单词组 (ei-n+1, ei-n+2, ..., ei-2, ei-1, ei) 的权重。
4: 根据权利要求 1 或 2 所述的方法,其中上述与语言模型概率的计算有关的各个单词 组的权重是根据句子的结构、按类设定的。
5: 一种基于语料库的机器翻译方法,包括 : 利用权利要求 1 所述的为句子获得加权语言模型概率的方法,为针对待翻译的句子 生成的多个候选译文,分别获得加权语言模型概率 ;以及 参考上述多个候选译文的加权语言模型概率,从该多个候选译文中选择出上述待翻 译的句子的最终译文。
6: 一种为句子获得加权语言模型概率的装置,包括 : 语言模型概率计算单元,其用于 : 对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单 词组的概率进行加权,并且 根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获 得加权语言模型概率 ; 其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句 子流利度的影响程度的权重。
7: 根据权利要求 6 所述的装置,还包括 : 权重设定单元,其为上述与语言模型概率的计算有关的各个单词组设定权重 ; 2 其中,该权重设定单元根据句子的结构,按类为上述各个单词组设定权重。
8: 根据权利要求 7 所述的装置,其中上述权重设定单元将上述各个单词组划分为被一 个短语所包含的单词组和跨至少两个短语的单词组两类,并且对于上述跨至少两个短语 的类别,与上述被一个短语所包含的类别相比,设定相对高的权重。
9: 一种构建加权语言模型的装置,包括 : 模型构建单元,其构建加权语言模型,该加权语言模型 : 对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单 词组的概率进行加权,并且 根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获 得加权语言模型概率 ; 其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句 子流利度的影响程度的权重。
10: 一种基于语料库的机器翻译系统,包括 : 权利要求 6 所述的为句子获得加权语言模型概率的装置或利用权利要求 9 所述的构建 加权语言模型的装置构建的加权语言模型 ;以及 译文生成单元,其为待翻译的句子生成多个候选译文,并且利用上述为句子获得加 权语言模型概率的装置或上述加权语言模型,分别为该多个候选译文获得加权语言模型 概率,并且参考该多个候选译文的加权语言模型概率,从该多个候选译文中选择出上述 待翻译的句子的最终译文。

说明书


获得加权语言模型概率及构建加权语言模型的方法和装置

    【技术领域】
     本发明涉及信息处理技术,具体地,涉及为句子获得加权语言模型概率的方法 和装置、构建加权语言模型的方法和装置以及应用了这些方法或装置的基于语料库的机 器翻译方法和系统。背景技术
     统计机器翻译是主要的基于语料库的机器自动翻译技术之一。 在该技术中,通 常会用到多种概率模型。 语言模型是统计机器翻译技术中最主要的概率模型之一。 所谓 语言模型,是用于为一个句子 ( 或词序列 ) 计算出一个概率值,以表明该句子 ( 或词序 列 ) 的流利度的模型。 也就是说,语言模型用于为一个句子 ( 或词序列 ) 计算出能够表 示该句子 ( 或词序列 ) 在所属语言中的出现概率、即是否常用的概率值。
     在统计机器翻译技术中,通过利用语言模型来计算候选译文的出现概率 ( 以下 称为 “语言模型概率” ),可以帮助译文选择。 因为语言模型概率越高,表明该译文越 常用,越符合所属语言的习惯,这样,通过使用语言模型概率评价候选译文的流利度, 能够确保译文生成质量。
     在现有的统计机器翻译技术中,语言模型通常利用马尔科夫模型从单语文本语 料中训练得到。 根据马尔可夫模型,对于一个包含 N 个词的句子 E = {e1,e2,...,eN}, 按照下式 (1) 来获得其语言模型概率 p(E) :
     其中, p(ei|e1, e2, ..., ei-2, ei-1) 是单词 ei 的概率,该概率表示单词 ei 出现在前 面的 i-1 个单词 e1, e2, ..., ei-2, ei-1 之后的概率。
     但是,由于在根据上式 (1) 计算句子的语言模型概率时的训练数据稀疏的原 因,在实际的计算过程中,通常以马尔科夫模型为理论基础,使用平滑的 ngram 模型来 近似地得到语言模型概率。 根据平滑的 ngram 模型,对于上述包含 N 个词的句子 E = {e1, e2, ..., eN},按照下式 (2) 来近似地获得其语言模型概率 p(E) :
     其中,每个单词 ei 的概率 p(ei|ei-n+1, ei-n+2, ..., ei-2, ei-1) 不再依赖于出现在 ei 前面的所有 i-1 个单词,而仅是依赖于出现在其前面的 n-1 个单词。 一般地, n 取 2 ~ 5。 通常,单词组 “ei-n+1, ei-n+2, ..., ei-2, ei-1, ei” 称为一个 ngram。 在此情况下,概 率 p(ei|ei-n+1, ei-n+2, ..., ei-2, ei-1) 也称为是 ngram “ei-n+1, ei-n+2, ..., ei-2, ei-1, ei” 的 概率。
     下面以具体例子来详细描述根据平滑的 ngram 模型计算语言模型概率的过程。
     例如,假定待计算的句子是 “this is your seat.”,并且设定 n = 3,则根据上 式 (2),该句子的语言模型概率由组成该句子的 5 个单词 “this”、 “is”、 “your”、
     “seat” 和 “.” 的各自的概率 p(this)、 p(is|this)、 p(your|this, is)、 p(seat|is, your) 和 p(.|your, seat) 的乘积得到,即 :
     p ( this is your seat. ) = p ( this )× p ( is|this )× p ( your|this , is )× p ( seat|is , your)×p(.|your, seat) 其中,概率 p(is|this) 表示 “is” 出现在 “this” 之后的概率,该 概率可以预先通过从单语文本语料中统计 “is” 和 “this is” 的出现频率而计算得到。 在此,单词组 “this,is” 称为一个 2-gram( 或 bigram)。 此外,概率 p(your|this,is) 表 示 “your” 出现在 “this is” 之后的概率,同样,该概率也可以预先通过从单语文本语料 中统计 “this is your” 和 “this is” 的出现频率而计算得到。 在此,单词组 “this, is, your” 称为一个 3-gram( 或 trigram)。 对于概率 p(this)、 p(seat|is, your) 和 p(.|your, seat) 而言,也是同样的。
     根据上式 (2) 以及上述的例子可以看出,基于平滑的 ngram 模型构建的语言模 型 ( 后面称为 “标准语言模型” ),在计算句子的语言模型概率时,对于句子中的所有 ngram 的概率,是不加区别地对待的。但是,统计机器翻译系统生成的译文通常由诸如短 语、词等的各种各样的组成部分构成。 对于不同组成部分而言,它们的质量也是不相同 的,因此其在句子中的重要性并不都是相同的。 如果不区分句子中组成部分的重要性, 则有可能计算出来的语言模型概率不能够很好地体现句子的流利度。 对此,用下面的具 体的例子来进行说明。
     假设对于待翻译的句子 “I would like a middle seat.”,基于短语的统计机器翻译 系统得到了下面的两个候选译文 :
     T1 :( 我想要 )( 一个中等的 )( 座位 )(。 )
     T2 :( 我想要 )( 一个中间的 )( 座位 )(。 )
     其中, “()” 表示组成候选译文的短语,该短语是从双语例句中的目标语句子 中抽取出来的。
     下面的表 1 示出了与上述候选译文 T1、 T2 的语言模型概率的计算有关的各 3-gram 的概率 ( 为了表示方便,这里使用了概率值的对数 log(p(ei|ei-n+1,ei-n+2,...,ei-2, ei-1))),其中候选译文 T1 与 T2 中的不同部分 ( 中等、中间 ) 用 X 来代替。
     表1
     其中, 分别是附加的句子开头和结尾标志。
     基于上表所示出的各个 3-gram 的概率,可以采用基于平滑的 ngram 模型构建的 标准语言模型为候选译文 T1、 T2 计算出如下表 2 所示的语言模型概率。
     表2
     根据上表 2 所示出的语言模型概率的计算结果,统计机器翻译系统将选择出语 言模型概率较高的候选译文 T1 作为上面的句子 “I wouldlike a middle seat.”的最终译文, 而实际上质量较好的候选译文 T2 却因为语言模型概率较低而未被选择。
     因而,可以看出,在不考虑句子的结构或构成、即对句子中的组成部分的重要 性不加以区别的情况下,基于上述平滑的 ngram 模型所计算出的语言模型概率有可能是 质量差的译文高于质量好的译文,从而最终导致统计机器翻译系统错误地选择译文。
     也就是说,由于基于平滑的 ngram 模型构建的语言模型忽视了句子的结构,所 以使得统计机器翻译系统不能够有效地从候选译文中区分出高质量的译文。
     发明内容
     本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供一种为句子 获得加权语言模型概率的方法和装置、构建加权语言模型的方法和装置以及应用了这些 方法或装置的基于语料库的机器翻译方法和系统,以便通过根据句子的结构,对于句子 中与语言模型概率的计算有关的各个单词组指派权重,来获得句子的加权语言模型概 率,从而基于句子的结构更准确地体现句子的质量。
     根据本发明的一个方面,提供一种为句子获得加权语言模型概率的方法,包 括 :对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单 词组的概率进行加权 ;以及根据上述与语言模型概率的计算有关的各个单词组的加权后 的概率,为上述句子获得加权语言模型概率 ;其中,上述各个单词组的权重是根据句子 的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。
     根据本发明的另一个方面,提供一种构建加权语言模型的方法,包括 :构建加 权语言模型,该加权语言模型 :对于句子中与语言模型概率的计算有关的各个单词组, 利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语言模型概率的计算 有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率 ;其中,上述各 个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程 度的权重。
     优选地,上述各个单词组被划分为被一个短语所包含的单词组和跨至少两个短 语的单词组两类,并且上述跨至少两个短语的类别,与上述被一个短语所包含的类别相 比,被设定相对高的权重。
     优选地,上述各个单词组按照单词组中所包含的短语的数量被划分为多个类 别,并且上述多个类别中包含短语数量越多的类别,被设定越高的权重。
     优选地,上述各个单词组的权重是利用开发集按类精确调整后的权重,该开发集包括多个源语言句子以及与该多个源语言句子对应的参考译文。
     上述精确调整通过以下步骤实现 :为上述类别的每一个,根据该类别对于句子 流利度的影响程度,设定权重初始值和包含该权重初始值在内的搜索区间 ;对于上述类 别的每一个,在确保其他类别的权重值不变的情况下,在该类别的搜索区间内从其权重 初始值开始、以预定的步级逐个权重值地,基于该权重值为上述多个源语言句子生成译 文 ;对于上述类别的每一个,在其相应的搜索区间内确定能够为上述多个源语言句子获 得与上述参考译文相对照的最优译文的权重值,作为该类别的最优权重值 ;对于上述类 别的全部,重复进行为上述多个源语言句子生成译文以及确定最优权重值的步骤,直到 译文的质量不再提高为止。
     根据本发明的又一个方面,提供一种基于语料库的机器翻译方法,包括 :利用 上述的为句子获得加权语言模型概率的方法,分别为针对待翻译的句子生成的多个候选 译文获得加权语言模型概率 ;以及参考上述多个候选译文的加权语言模型概率,从该多 个候选译文中选择出上述待翻译的句子的最终译文。
     根据本发明的再一个方面,提供一种为句子获得加权语言模型概率的装置,包 括 :语言模型概率计算单元,其用于 :对于句子中与语言模型概率的计算有关的各个单 词组,利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语言模型概率 的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率 ;其中, 上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的 影响程度的权重。 优选地,上述为句子获得加权语言模型概率的装置中的权重设定单元将上述各 个单词组按照单词组中所包含的短语的数量被划分为多个类别,并且对于上述多个类别 中包含短语数量越多的类别,设定越高的权重。
     优选地,上述为句子获得加权语言模型概率的装置还包括 :权重调整单元,其 利用开发集对上述类别的每一个的权重进行精确调整,该开发集包括多个源语言句子以 及与该多个源语言句子对应的参考译文。
     根据本发明的再一个方面,提供一种构建加权语言模型的装置,包括 :模型构 建单元,其构建加权语言模型,该加权语言模型 :对于句子中与语言模型概率的计算有 关的各个单词组,利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语 言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概 率的 ;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于 句子流利度的影响程度的权重。
     优选地,上述各个单词组的权重是根据句子的结构、按类设定的。
     优选地,上述各个单词组被划分为被一个短语所包含的单词组和跨至少两个短 语的单词组两类,并且上述跨至少两个短语的类别,与上述被一个短语所包含的类别相 比,被设定相对高的权重。
     优选地,上述各个单词组按照单词组中所包含的短语的数量被划分为多个类 别,并且上述多个类别中包含短语数量越多的类别,被设定越高的权重。
     优选地,上述为该句子获得加权语言模型概率根据下式实现 :
     其中, E = {e1, e2, ..., eN} 表示包含 N 个词的句子, pw(E) 表示该句子的加权 语言模型概率, p(ei|ei-n+1, ei-n+2, ..., ei-2, ei-1) 表示单词组 (ei-n+1, ei-n+2, ...ei-2, ei-1, ei) 的概率, 是该单词组 (ei-n+1, ei-n+2, ..., ei-2, ei-1, ei) 的权重。
     根据本发明的再一个方面,提供一种基于语料库的机器翻译系统,包括 :上述 的为句子获得加权语言模型概率的装置或利用上述的构建加权语言模型的装置构建的加 权语言模型 ;以及译文生成单元,其为待翻译的句子生成多个候选译文,并且利用上述 为句子获得加权语言模型概率的装置或上述加权语言模型,分别为该多个候选译文获得 加权语言模型概率,并且参考该多个候选译文的加权语言模型概率,从该多个候选译文 中选择出上述待翻译的句子的最终译文。
     附图说明
     相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解 本发明上述的特点、优点和目的。 图 1 是根据本发明实施例的为句子获得加权语言模型概率的方法的流程图 ;
     图 2 是图 1 的步骤 110 中按类为与语言模型概率的计算有关的各个单词组设定权 重的过程的流程图 ;
     图 3 是图 2 的步骤 210 中利用开发集对各个类别的权重进行精确调整的过程的流 程图 ;
     图 4 是根据本发明实施例的构建加权语言模型的方法的流程图 ;
     图 5 是根据本发明实施例的基于语料库的机器翻译方法的流程图 ;
     图 6 是根据本发明实施例的为句子获得加权语言模型概率的装置的方框图 ;
     图 7 是根据本发明实施例的构建加权语言模型的装置的方框图 ;以及
     图 8 是根据本发明实施例的基于语料库的机器翻译系统的方框图。
     具体实施方式
     本发明提出一种加权语言模型的概念,该概念在现有的标准语言模型的基础 上,考虑了句子的结构,对于句子中与语言模型概率的计算有关的各个单词组,指派反 映该单词组对于句子的流利度的重要性的权重,以便基于这些权重来更好地体现句子的 质量。
     在此,所谓单词组,是由多个单词组成、代表该多个单词有可能在句子中按顺 序出现的组。
     此外,单词组的概率表示该单词组中的最后一个单词出现在该单词组中其前面 的所有单词之后的概率。 单词组的概率也可以称为是该单词组中的最后一个单词的、与 该单词组中其前面的单词有关的概率。
     在本发明的该加权语言模型的概念的基础上,下面结合附图对本发明的各个优 选实施例进行详细说明。
     图 1 是根据本发明实施例的为句子获得加权语言模型概率的方法的流程图。如图 1 所示,该方法首先在步骤 105,为给定的句子,确定其中与该句子的语言 模型概率的计算有关的各个单词组及其概率。
     该步骤基于预先从单语文本语料中统计出的多个单词组及其概率来实现。 也就 是说,在本步骤中,通过在预先从单语文本语料中统计出的多个单词组及其概率中进行 查找,来确定上述给定的句子中与语言模型概率的计算有关的各个单词组及其概率。
     在一个实施例中,与平滑的 ngram 模型对应地,这里所述的单词组指 ngram。
     接着,在步骤 110,根据上述给定的句子的结构,为上述与该句子的语言模型概 率的计算有关的各个单词组分别设定反映该单词组对于句子流利度的影响程度的权重。 具体地,对于越能够影响句子流利度的单词组,设定越高的权重。
     在本步骤中,可以采用多种方式为各个单词组设定权重。 例如可以单个单词组 地逐一来设定权重。 此外,也可以从方便权重的设定的角度出发,按类来设定权重。 关 于按类来设定权重的方法,将在后面结合图 2 进行详细描述。
     在步骤 115,对于上述句子中与语言模型概率的计算有关的各个单词组,利用该 单词组的权重对该单词组的概率进行加权,从而为该句子获得加权语言模型概率。
     在一个实施例中,在本步骤中,在平滑的 ngram 模型的基础上,根据下式 (3) 来 利用与上述句子的语言模型概率的计算有关的各个单词组的权重对该单词组的概率进行 加权,从而为该句子近似地获得加权语言模型概率 :
     其中, E = {e1, e2, ..., eN} 表示包含 N 个词的句子, pw(E) 表示该句子的加 权语言模型概率, p(ei|ei-n+1, ei-n+2, ..., ei-2, ei-1) 表示单词 ei 的概率,也即单词组 ( 即 ngram)(ei-n+1, ei-n+2, ..., ei-2, ei-1, ei) 的概率, 是该单词组 (ei-n+1, ei-n+2, ..., ei-2, ei-1, ei) 的权重。
     以上就是本实施例的为句子获得加权语言模型概率的方法的总体过程。
     下面结合图 2 详细描述上面图 1 的步骤 110 中按类为上述给定的句子中与语言模 型概率的计算有关的各个单词组设定权重的过程。
     如图 2 所示,首先在步骤 205,根据句子的结构,对上述各个单词组进行分类。 在该步骤中,可以采用多种方法来对单词组进行分类。
     例如,在一个实施例,在基于短语的统计机器翻译系统的情况下,考虑到候选 译文的句子由短语组成,可以根据句子的、与短语有关的结构,将上述多个单词组划分 为两类 C1 和 C2 :
     C1 :被一个短语所包含的单词组 ;
     C2 :跨至少两个短语的单词组。
     在该分类方式下,仍以前面所举的句子 “this is your seat.” 为例,由于根据预先 获得的知识可知该句子由三个短语 “this”、 “is your seat” 和 “.” 组成,所以该句子 中与语言模型概率的计算有关的各个单词组可分类如下表 3 所示。
     表3
     9CN 102023969 A CN 102023983 A说单词组 (this) (this is) (this is your) (is your seat) (your seat.)明书分类 C1 C2 C2 C1 C27/13 页当然,上面的分类方法仅是一个示例,只要能够方便权重的设定,也可以采用 其他的分类方法。 例如,也可以按各个单词组中所包含的短语的数量来进行分类,如果 一个单词组包含在一个短语内,则将该单词组分类到第 1 类,如果一个单词组跨两个短 语,则分类到第 2 类,跨三个短语则分类到第 3 类等等。
     虽然上面所例示的分类方法是为基于短语的统计机器翻译系统所考虑的,但是 该分类方法也适用于其他类型的基于语料库的机器翻译系统,例如基于层次短语的统计 机器翻译系统和基于实例的机器翻译系统等。 当然,对于这些其他类型的基于语料库的 机器翻译系统,也可以采用其他更加适合它们的分类方法。
     接着,在步骤 210,根据所划分的各个类别对于句子流利度的影响程度,为各个 类别确定适合的权重。
     在前面描述的 C1、C2 的分类方法的情况下,可以将 C1 类的权重设定为 wC1,将 C2 类的权重设定为 wC2。 从而,对于前面的句子 “this is yourseat.” 而言,基于表 3 所 示的分类方式,该句子的加权语言模型概率的计算可以根据下式来进行 :
     在本步骤中,在为各个类别设定适合的权重时,对于越能够影响句子流利度的 类别,设定越高的权重。 例如,在步骤 205 中所描述的分类方式中,跨短语的数量越多 的类别的单词组,越能够影响句子流利度,因而可以为它们设定相对高的权重。
     例如,在前面的 C1、C2 的分类方法的情况下,可以将 C1 类和 C2 类的权重 wC1 和 wC2 分别设定为 0.7 和 1.3,以表明 C2 类的单词组比 C1 类的单词组更加重要,更能够 影响句子的流利度。 因为对于基于短语的统计机器翻译系统来说,如果一个单词组处于 一个短语内,则该单词组就是翻译系统已知的、自然的词序列,而不是翻译系统通过串 接多个短语而形成的,所以其流利度是可以确保的。 但是,如果一个单词组跨了多个短 语,则由于该单词组是翻译系统在翻译过程中通过串接多个短语而形成的,所以其流利 度应该被重点检查,以确保整个句子的流利度。
     当然,对于其他类型的基于语料库的机器翻译系统而言,可以根据该翻译系统 的特点,采用其他适合的方式来为不同的分类设定不同的权重。
     在一个实施例中,在本步骤中为上述各个类别确定的权重是预先设定的。
     此外,在进一步的实施例中,在本步骤中为上述各个类别确定的权重是利用开 发集进行了精确调整的。 在此,所谓开发集,包括了预先准备的大量源语言句子以及与 这些源语言句子对应的参考译文。 关于利用开发集对各个类别的权重进行精确调整的方 法的细节,下面结合图 3 进行详细描述。
     图 3 是根据爬山算法、利用开发集对各个类别的权重进行精确调整的过程的流 程图。
     具体地,如图 3 所示,该过程首先在步骤 305,为所划分的上述类别的各个,设 定一个权重初始值以及包含该权重初始值在内的搜索区间。 在此,将该搜索区间表示为 [ML, MH]。
     在本步骤中,各类别的权重初始值和搜索区间是根据该类别对于句子流利度的 影响程度而适宜确定的。 并且,可以理解,在本步骤中,可以不必为各个类别设定精确 的权重初始值,而可以粗略地设置,甚至是可以为各个类别设定平均权重值作为权重初 始值 :w1 = w2 = ... = wm = 1/m(m 是类别的数量 )。
     在步骤 310,假设存在 m 个类别,则设定类别标识 i 的初始值为 0,即 i = 0。
     在步骤 315,设定 i = i+1,即从该 m 个类别中确定类别 i 作为当前的权重调整对 象。 在步骤 320,基于各个类别的当前权重值,利用采用了本发明的加权语言模型 概念的基于语料库的机器翻译系统,为预先准备的开发集中的源语言句子生成译文。 其 中,如上所述,开发集中包括预先准备的大量源语言句子以及与这些源语言句子对应的 参考译文。
     与现有技术中的基于语料库的机器翻译系统不同,本步骤中所使用的基于语料 库的机器翻译系统,是采用本发明的加权语言模型的概念来计算候选译文的加权语言模 型概率的基于语料库的机器翻译系统。 进一步地,该基于语料库的机器翻译系统是根据 上式 (3) 为候选译文计算加权语言模型概率的。
     也就是说,在本步骤中,为开发集中的源语言句子生成的译文是基于语料库的 机器翻译系统根据候选译文的加权语言模型概率而选择出的,而这些候选译文的加权语 言模型概率则是基于上述各个类别的当前权重值而计算出的。
     在步骤 325,根据上述开发集中的参考译文,确定在步骤 320 中利用基于语料库 的机器翻译系统基于上述各个类别的当前权重值所生成的译文的质量是否优于先前生成 的译文。 其中,该先前生成的译文是基于在权重调整过程中先前尝试过的权重值而生成 的译文。 如果是,则处理前进到步骤 330,否则转到步骤 335。
     在该步骤中,可以人工地比较译文的质量,也可以利用已有的自动译文打分方 法或系统来确定当前生成的译文与先前生成的译文相比较的质量。
     在步骤 330,将上述作为权重调整对象的类别 i 的当前权重 wi 设定为该类别的当 前最优权重,即 wi max = wi。
     在步骤 335,对于作为权重调整对象的类别 i,以适宜的步级 step 调整该类别的 当前权重值 wi,即 wi = wi+step,同时确保其他类别的权重值固定不变。
     在步骤 340,确定上述调整后的权重值 wi 是否处于该类别的搜索区间 [ML,MH] 内,即是否 wi < MH。 如果是,则处理返回到步骤 320,继续针对类别 i 调整权重,否则
     由于针对类别 i 找到了最优权重 wimax,所以处理前进到步骤 345。
     在步骤 345,确定是否针对所有类别均完成了权重调整,即是否 i+1 > m。 如果 是,则该处理前进到步骤 350,否则返回到步骤 315,继续针对下一类别调整权重。
     在步骤 350,确定基于所有类别的当前最优权重为上述源语言句子所生成的译文 的质量是否优于在前一轮 i 从 1 至 m 的权重调整过程中的译文质量。 如果是,则处理返 回到步骤 310,继续进行下一轮 i 从 1 至 m 的权重调整过程,否则该过程结束。
     也就是说,图 3 的权重调整过程对于上述所有 m 个类别,从 i = 1 至 m 重复执 行多轮,直到译文的质量不再提高为止。
     根据上述图 3 所示的利用开发集对上述各个类别的权重进行精确调整的过程而 为各个类别所确定的最优权重值,被最终设定为各个类别的权重。 从而,在步骤 210 中 为各个类别确定适合的权重时,可以直接根据与语言模型概率的计算有关的单词组的类 别来确定根据这样的过程预先设定好的相应权重。
     以上就是对本实施例的为句子获得加权语言模型概率的方法的详细描述。 在本 实施例中,通过根据句子的结构为句子中与语言模型概率的计算有关的各个单词组指派 权重,能够在考虑了句子的结构的基础上为句子获得能够更准确地体现句子的质量的加 权语言模型概率。 在同一发明构思下,本发明提供一种构建加权语言模型的方法。 下面结合附图 对其进行详细描述。
     图 4 是根据本发明实施例的构建加权语言模型的方法的流程图。
     如图 4 所示,该方法首先在步骤 405,根据单语文本语料,统计出多个单词组及 其概率。
     在一个实施例中,与平滑的 ngram 模型对应地,这里所述的单词组指 ngram。
     本领域技术人员可以理解,该步骤可采用本领域中现在已知或将来可知的用于 统计与语言模型有关的单词组及其概率的方法来实现,在此省略该步骤的详细描述。
     在步骤 410,根据上述多个单词组及其概率,构建出加权语言模型,该加权语言 模型对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单 词组的概率进行加权,并且根据各个单词组的加权后的概率,为句子获得加权语言模型 概率的。 其中,句子中与语言模型概率的计算有关的各个单词组的权重是根据句子的结 构设定的、用于反映该单词组对于句子流利度的影响程度的权重。 具体地,对于越能够 影响句子流利度的单词组,设定越高的权重。
     在一个实施例中,上述句子中与语言模型概率的计算有关的各个单词组的权重 是利用上面图 2 所示的方法按类设定的。 在进一步的实施例中,该各个单词组的权重是 利用上面图 3 所示的方法经过了精确调整的。
     此外,在一个实施例中,在本步骤中,在平滑的 ngram 模型的基础上,构建出 这样的加权语言模型 :根据上式 (3) 来利用句子中与语言模型概率的计算有关的各个单 词组的权重对该单词组的概率进行加权,从而为句子近似地获得加权语言模型概率。
     以上就是对本实施例的构建加权语言模型的方法的详细描述。 在本实施例中, 所构建的加权语言模型通过根据句子的结构为句子中与语言模型概率的计算有关的各个 单词组指派权重,能够在考虑了句子的结构的基础上为句子获得能够更准确地体现句子
     的质量的加权语言模型概率。
     根据以上方法所构建的加权语言模型,能够直接替代标准语言模型而被基于语 料库的机器翻译系统所应用,使该基于语料库的机器翻译系统为候选译文获得基于句子 结构的加权语言模型概率,进而参考各候选译文的加权语言模型概率,更有效地选择出 高质量的候选译文作为最终译文。
     需要说明的是,在上面图 4 的过程中,虽然包括了根据单语文本语料统计出多 个单词组及其概率的步骤 405,但是,也可以不包括该步骤,而直接应用标准语言模型中 已经统计出的多个单词组及其概率,在其上执行后续的步骤 410。
     以上的各个实施例虽然是结合基于短语的统计机器翻译系统而描述的,但是, 本发明同样能够应用于其他类型的基于语料库的机器翻译系统、例如基于层次短语的统 计机器翻译系统和基于实例的机器翻译系统等,并且对于这些其他类型的基于语料库的 机器翻译系统而言,也能够得到类似的优异效果。
     因此,本发明还提供一种应用了上面的图 1 所示的为句子获得加权语言模型概 率的方法的基于语料库的机器翻译方法。 图 5 是该方法的流程图。
     如图 5 所示,该方法首先在步骤 505,获得源语言的待翻译句子。
     在步骤 510,利用基于语料库的机器翻译系统,根据现在已知或将来可知的翻译 模型,为该待翻译句子生成多个候选译文。
     在步骤 515,利用图 1 所示的为句子获得加权语言模型概率的方法,分别为上述 多个候选译文计算加权语言模型概率。
     在步骤 520,参考上述加权语言模型概率,从上述多个候选译文中选择出上述待 翻译句子的最终译文。
     本领域技术人员可以理解,在本步骤中,可以直接根据候选译文的加权语言模 型概率,从多个候选译文中选择出最终译文,也可以将加权语言模型概率与利用其他翻 译模型 ( 例如,短语翻译模型,词翻译模型等 ) 得到的概率结合在一起来进行译文的选 择。
     以上就是对本实施例的基于语料库的机器翻译方法的详细描述。 在本实施例 中,通过为候选译文获得基于句子结构的加权语言模型概率,并且参照各候选译文的加 权语言模型概率选择出最终译文,能够更准确地选择出高质量的译文,从而使机器翻译 的性能得到提高。
     下面以具体例子来对比基于短语的机器翻译系统在基于加权语言模型概率时的 译文生成质量与在基于标准语言模型概率时的译文生成质量。
     例如仍以前面的待翻译句子 “I would like a middle seat.”为例,假定基于短语的 统计机器翻译系统同样为其得到了两个候选译文 :
     T1 :( 我想要 )( 一个中等的 )( 座位 )(。 )
     T2 :( 我想要 )( 一个中间的 )( 座位 )(。 )
     其中,候选译文 T1 由短语 “我想要”、 “一个中等的”、 “座位” 和 “。” 组成。 此外,候选译文 T2 由短语 “我想要”、 “一个中间的”、 “座位” 和 “。” 组 成。
     基于上述情况,下面的表 4 示出了上述候选译文 T1、T2 中与语言模型概率的计算有关的各 3-gram( 单词组 ) 的概率以及分类,其中候选译文 T1 与 T2 中不同的部分用 X 来代替。
     表4
     基于上表所示的各个 3-gram 的概率以及分类,下面的表 5 示出了采用标准语言 模型为候选译文 T1、T2 计算的标准语言模型概率,以及将 C1 类和 C2 类的权重分别设定 为 0.7 和 1.3 时采用本发明的加权语言模型的概念为候选译文 T1、 T2 计算的加权语言模 型概率。
     表5
     从上表 5 可以看出,在不考虑句子的结构的标准语言模型的情况下,为候选译 文 T1 计算出来的语言模型概率相对较高,从而基于短语的统计机器翻译系统将根据该计 算结果选择出候选译文 T1,而不是质量较高的候选译文 T2,从而导致基于短语的统计机 器翻译系统的较差的译文生成质量。
     相对于此,在本发明的考虑了句子的结构的加权语言模型的概念的情况下,由 于对句子中的重要组成部分 (C2 类 ) 指派了相对高的权重,使该部分的重要性相对放大, 进而使候选译文 T1、T2 相互之间在该重要组成部分上的差距放大,所以能够针对高质量 的候选译文 T2 获得相对高的语言模型概率,进而使该高质量的译文最终被选择出。
     上述例子虽然是针对基于短语的统计机器翻译系统而举出的,但是,对于采用 了本发明的其他类型的基于语料库的机器翻译系统而言,也能够得到类似的优异效果。
     在同一发明构思下,本发明提供一种为句子获得加权语言模型概率的装置。 下 面结合附图对其进行详细描述。
     图 6 是根据本发明实施例的为句子获得加权语言模型概率的装置的方框图。 如 图 6 所示,本实施例的为句子获得加权语言模型概率的装置 60 包括 :单词组及其概率确 定单元 61、权重设定单元 62、权重调整单元 63、语言模型概率计算单元 64。
     具体地,单词组及其概率确定单元 61 为给定的句子,确定其中与语言模型概率 的计算有关的各个单词组及其概率。
     在一个实施例中,上述各个单词组及其概率,是预先根据单语文本语料统计出 并且相对应地记录在一起的。
     权重设定单元 62 根据句子的结构,为上述与语言模型概率的计算有关的各个单 词组分别设定反映该单词组对于句子流利度的影响程度的权重。 具体地,对于越能够影 响句子流利度的单词组,设定越高的权重。
     在一个实施例中,权重设定单元 62 根据句子的结构,按类为上述各个单词组确 定权重。
     在进一步的实施例中,权重设定单元 62 将上述各个单词组划分为被一个短语所 包含的单词组和跨至少两个短语的单词组两类,并且对于跨至少两个短语的类别,与上 述被一个短语所包含的类别相比,设定相对高的权重。
     在另一个实施例中,权重设定单元 62 将上述各个单词组按照单词组中所包含的 短语的数量划分为多个类别,并且对于包含短语数量越多的类别,设定越高的权重。
     权重调整单元 63 利用开发集,按类对上述各个单词组的权重进行精确调整,该 开发集包括多个源语言句子以及与该多个源语言句子对应的参考译文。 语言模型概率计算单元 64 对于上述各个单词组,利用其权重对其概率进行加 权,并且根据上述各个单词组的加权后的概率,为上述句子获得加权语言模型概率。
     在一个实施例中,语言模型概率计算单元 64 根据上式 (3),利用上述与语言模 型概率的计算有关的各个单词组的权重对该单词组的概率进行加权,从而为该句子近似 地获得加权语言模型概率。
     以上就是对本实施例的为句子获得加权语言模型概率的装置的详细描述。
     在同一发明构思下,本发明提供一种构建加权语言模型的装置。 下面结合附图 对其进行详细描述。
     图 7 是根据本发明实施例的构建加权语言模型的装置的方框图。 如图 7 所示, 本实施例的构建加权语言模型的装置 70 包括 :单词组及其概率统计单元 71、模型构建单 元 72。
     具体地,单词组及其概率统计单元 71 根据单语文本语料,统计出多个单词组及 其概率。 当然,也可以不包括该单词组及其概率统计单元 71,而直接采用标准语言模型 中已经统计出的多个单词组及其概率。
     模型构建单元 72 基于上述多个单词组及其概率,构建加权语言模型,该加权语 言模型对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该 单词组的概率进行加权,并且根据上述各个单词组的加权后的概率,为该句子获得加权 语言模型概率。 其中,句子中与语言模型概率的计算有关的各个单词组的权重是根据句 子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。 具体地,对于 越能够影响句子流利度的单词组,设定越高的权重。
     在一个实施例中,上述句子中与语言模型概率的计算有关的各个单词组的权重 是按类设定的。 进而,上述各个单词组的权重是利用开发集进行了精确调整的,该开发 集包括多个源语言句子以及与该多个源语言句子对应的参考译文。
     在一个实施例中,模型构建单元 72 构建这样的加权语言模型,该加权语言模型 能够根据上式 (3),利用上述句子中与语言模型概率的计算有关的各个单词组的权重对该 单词组的概率进行加权,从而为该句子近似地获得加权语言模型概率。
     以上就是对本实施例的构建加权语言模型的装置的详细描述。
     下面描述本发明的应用了上述为句子获得加权语言模型的装置或构建加权语言 模型的装置的基于语料库的机器翻译系统。
     图 8 是根据本发明实施例的基于语料库的机器翻译系统的方框图。 如图 8 所示, 本实施例的基于语料库的机器翻译系统 80 包括图 6 的为句子获得加权语言模型概率的装 置 60 或利用图 7 的构建加权语言模型的装置 70 构建的加权语言模型、译文生成单元 81。
     具体地,译文生成单元 81 根据翻译模型为待翻译的句子生成多个候选译文,并 且利用上述为句子获得加权语言模型概率的装置 60 或加权语言模型,分别为该多个候选 译文获得加权语言模型概率,并且参考该多个候选译文的加权语言模型概率,从该多个 候选译文中选择出上述待翻译的句子的最终译文。
     以上就是对本实施例的基于语料库的机器翻译系统的详细描述。
     本实施例的为句子获得加权语言模型概率的装置 60、构建加权语言模型的装置 70 以及基于语料库的机器翻译系统 80 及其各个组成部分,可以由专用的电路或芯片构 成,也可以通过计算机 ( 处理器 ) 执行相应的程序来实现。 以上虽然通过一些示例性的实施例对本发明的为句子获得加权语言模型概率的 方法和装置、构建加权语言模型的方法和装置以及基于语料库的机器翻译方法和系统进 行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的 精神和范围内实现各种变化和修改。 因此,本发明并不限于这些实施例,本发明的范围 仅以所附权利要求为准。
    

获得加权语言模型概率及构建加权语言模型的方法和装置.pdf_第1页
第1页 / 共21页
获得加权语言模型概率及构建加权语言模型的方法和装置.pdf_第2页
第2页 / 共21页
获得加权语言模型概率及构建加权语言模型的方法和装置.pdf_第3页
第3页 / 共21页
点击查看更多>>
资源描述

《获得加权语言模型概率及构建加权语言模型的方法和装置.pdf》由会员分享,可在线阅读,更多相关《获得加权语言模型概率及构建加权语言模型的方法和装置.pdf(21页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN102023969A43申请公布日20110420CN102023969ACN102023969A21申请号200910170292222申请日20090910G06F17/2820060171申请人株式会社东芝地址日本东京都72发明人刘占一王海峰吴华74专利代理机构北京市中咨律师事务所11247代理人于静周春燕54发明名称获得加权语言模型概率及构建加权语言模型的方法和装置57摘要本发明提供一种为句子获得加权语言模型概率的方法和装置、构建加权语言模型的方法和装置以及基于语料库的机器翻译方法和系统。该为句子获得加权语言模型概率的方法,包括对于句子中与语言模型概率的计算有关的各个。

2、单词组,利用该单词组的权重对该单词组的概率进行加权;以及根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。在本发明中,通过根据句子的结构,对句子中与语言模型概率的计算有关的各个单词组指派反映该单词组对于句子流利度的影响程度的权重,能够基于句子的结构更准确地体现句子的流利度。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书13页附图5页CN102023983A1/2页21一种为句子获得加权语言模型概率的方法,包括对于句子中与。

3、语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单词组的概率进行加权;以及根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。2一种构建加权语言模型的方法,包括构建加权语言模型,该加权语言模型对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句。

4、子流利度的影响程度的权重。3根据权利要求1或2所述的方法,其中为上述句子获得加权语言模型概率根据下式实现其中,EE1,E2,EN表示包含N个词的句子,PWE表示该句子的加权语言模型概率,PEI|EIN1,EIN2,EI2,EI1表示单词组EIN1,EIN2,EI2,EI1,EI的概率,是该单词组EIN1,EIN2,EI2,EI1,EI的权重。4根据权利要求1或2所述的方法,其中上述与语言模型概率的计算有关的各个单词组的权重是根据句子的结构、按类设定的。5一种基于语料库的机器翻译方法,包括利用权利要求1所述的为句子获得加权语言模型概率的方法,为针对待翻译的句子生成的多个候选译文,分别获得加权语言。

5、模型概率;以及参考上述多个候选译文的加权语言模型概率,从该多个候选译文中选择出上述待翻译的句子的最终译文。6一种为句子获得加权语言模型概率的装置,包括语言模型概率计算单元,其用于对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。7根据权利要求6所述的装置,还包括权重设定单元,其为上述与语言模型概率的计算有关的各个单词组设定权重;权利要求书CN102023969A。

6、CN102023983A2/2页3其中,该权重设定单元根据句子的结构,按类为上述各个单词组设定权重。8根据权利要求7所述的装置,其中上述权重设定单元将上述各个单词组划分为被一个短语所包含的单词组和跨至少两个短语的单词组两类,并且对于上述跨至少两个短语的类别,与上述被一个短语所包含的类别相比,设定相对高的权重。9一种构建加权语言模型的装置,包括模型构建单元,其构建加权语言模型,该加权语言模型对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率;其中,上述各个单词组。

7、的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。10一种基于语料库的机器翻译系统,包括权利要求6所述的为句子获得加权语言模型概率的装置或利用权利要求9所述的构建加权语言模型的装置构建的加权语言模型;以及译文生成单元,其为待翻译的句子生成多个候选译文,并且利用上述为句子获得加权语言模型概率的装置或上述加权语言模型,分别为该多个候选译文获得加权语言模型概率,并且参考该多个候选译文的加权语言模型概率,从该多个候选译文中选择出上述待翻译的句子的最终译文。权利要求书CN102023969ACN102023983A1/13页4获得加权语言模型概率及构建加权语言模型的方法和装置。

8、技术领域0001本发明涉及信息处理技术,具体地,涉及为句子获得加权语言模型概率的方法和装置、构建加权语言模型的方法和装置以及应用了这些方法或装置的基于语料库的机器翻译方法和系统。背景技术0002统计机器翻译是主要的基于语料库的机器自动翻译技术之一。在该技术中,通常会用到多种概率模型。语言模型是统计机器翻译技术中最主要的概率模型之一。所谓语言模型,是用于为一个句子或词序列计算出一个概率值,以表明该句子或词序列的流利度的模型。也就是说,语言模型用于为一个句子或词序列计算出能够表示该句子或词序列在所属语言中的出现概率、即是否常用的概率值。0003在统计机器翻译技术中,通过利用语言模型来计算候选译文的。

9、出现概率以下称为“语言模型概率”,可以帮助译文选择。因为语言模型概率越高,表明该译文越常用,越符合所属语言的习惯,这样,通过使用语言模型概率评价候选译文的流利度,能够确保译文生成质量。0004在现有的统计机器翻译技术中,语言模型通常利用马尔科夫模型从单语文本语料中训练得到。根据马尔可夫模型,对于一个包含N个词的句子EE1,E2,EN,按照下式1来获得其语言模型概率PE00050006其中,PEI|E1,E2,EI2,EI1是单词EI的概率,该概率表示单词EI出现在前面的I1个单词E1,E2,EI2,EI1之后的概率。0007但是,由于在根据上式1计算句子的语言模型概率时的训练数据稀疏的原因,在。

10、实际的计算过程中,通常以马尔科夫模型为理论基础,使用平滑的NGRAM模型来近似地得到语言模型概率。根据平滑的NGRAM模型,对于上述包含N个词的句子EE1,E2,EN,按照下式2来近似地获得其语言模型概率PE00080009其中,每个单词EI的概率PEI|EIN1,EIN2,EI2,EI1不再依赖于出现在EI前面的所有I1个单词,而仅是依赖于出现在其前面的N1个单词。一般地,N取25。通常,单词组“EIN1,EIN2,EI2,EI1,EI”称为一个NGRAM。在此情况下,概率PEI|EIN1,EIN2,EI2,EI1也称为是NGRAM“EIN1,EIN2,EI2,EI1,EI”的概率。0010。

11、下面以具体例子来详细描述根据平滑的NGRAM模型计算语言模型概率的过程。0011例如,假定待计算的句子是“THISISYOURSEAT”,并且设定N3,则根据上式2,该句子的语言模型概率由组成该句子的5个单词“THIS”、“IS”、“YOUR”、说明书CN102023969ACN102023983A2/13页5“SEAT”和“”的各自的概率PTHIS、PIS|THIS、PYOUR|THIS,IS、PSEAT|IS,YOUR和P|YOUR,SEAT的乘积得到,即0012PTHISISYOURSEATPTHISPIS|THISPYOUR|THIS,ISPSEAT|IS,YOURP|YOUR,SEA。

12、T其中,概率PIS|THIS表示“IS”出现在“THIS”之后的概率,该概率可以预先通过从单语文本语料中统计“IS”和“THISIS”的出现频率而计算得到。在此,单词组“THIS,IS”称为一个2GRAM或BIGRAM。此外,概率PYOUR|THIS,IS表示“YOUR”出现在“THISIS”之后的概率,同样,该概率也可以预先通过从单语文本语料中统计“THISISYOUR”和“THISIS”的出现频率而计算得到。在此,单词组“THIS,IS,YOUR”称为一个3GRAM或TRIGRAM。对于概率PTHIS、PSEAT|IS,YOUR和P|YOUR,SEAT而言,也是同样的。0013根据上式2以。

13、及上述的例子可以看出,基于平滑的NGRAM模型构建的语言模型后面称为“标准语言模型”,在计算句子的语言模型概率时,对于句子中的所有NGRAM的概率,是不加区别地对待的。但是,统计机器翻译系统生成的译文通常由诸如短语、词等的各种各样的组成部分构成。对于不同组成部分而言,它们的质量也是不相同的,因此其在句子中的重要性并不都是相同的。如果不区分句子中组成部分的重要性,则有可能计算出来的语言模型概率不能够很好地体现句子的流利度。对此,用下面的具体的例子来进行说明。0014假设对于待翻译的句子“IWOULDLIKEAMIDDLESEAT”,基于短语的统计机器翻译系统得到了下面的两个候选译文0015T1我。

14、想要一个中等的座位。0016T2我想要一个中间的座位。0017其中,“”表示组成候选译文的短语,该短语是从双语例句中的目标语句子中抽取出来的。0018下面的表1示出了与上述候选译文T1、T2的语言模型概率的计算有关的各3GRAM的概率为了表示方便,这里使用了概率值的对数LOGPEI|EIN1,EIN2,EI2,EI1,其中候选译文T1与T2中的不同部分中等、中间用X来代替。0019表10020说明书CN102023969ACN102023983A3/13页60021其中,和分别是附加的句子开头和结尾标志。0022基于上表所示出的各个3GRAM的概率,可以采用基于平滑的NGRAM模型构建的标准语。

15、言模型为候选译文T1、T2计算出如下表2所示的语言模型概率。0023表200240025根据上表2所示出的语言模型概率的计算结果,统计机器翻译系统将选择出语言模型概率较高的候选译文T1作为上面的句子“IWOULDLIKEAMIDDLESEAT”的最终译文,而实际上质量较好的候选译文T2却因为语言模型概率较低而未被选择。0026因而,可以看出,在不考虑句子的结构或构成、即对句子中的组成部分的重要性不加以区别的情况下,基于上述平滑的NGRAM模型所计算出的语言模型概率有可能是质量差的译文高于质量好的译文,从而最终导致统计机器翻译系统错误地选择译文。0027也就是说,由于基于平滑的NGRAM模型构建。

16、的语言模型忽视了句子的结构,所以使得统计机器翻译系统不能够有效地从候选译文中区分出高质量的译文。发明内容0028本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供一种为句子获得加权语言模型概率的方法和装置、构建加权语言模型的方法和装置以及应用了这些方法或装置的基于语料库的机器翻译方法和系统,以便通过根据句子的结构,对于句子中与语言模型概率的计算有关的各个单词组指派权重,来获得句子的加权语言模型概率,从而基于句子的结构更准确地体现句子的质量。0029根据本发明的一个方面,提供一种为句子获得加权语言模型概率的方法,包括对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单。

17、词组的概率进行加权;以及根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。0030根据本发明的另一个方面,提供一种构建加权语言模型的方法,包括构建加权语言模型,该加权语言模型对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。。

18、0031优选地,上述各个单词组被划分为被一个短语所包含的单词组和跨至少两个短语的单词组两类,并且上述跨至少两个短语的类别,与上述被一个短语所包含的类别相比,被设定相对高的权重。0032优选地,上述各个单词组按照单词组中所包含的短语的数量被划分为多个类别,并且上述多个类别中包含短语数量越多的类别,被设定越高的权重。0033优选地,上述各个单词组的权重是利用开发集按类精确调整后的权重,该开发说明书CN102023969ACN102023983A4/13页7集包括多个源语言句子以及与该多个源语言句子对应的参考译文。0034上述精确调整通过以下步骤实现为上述类别的每一个,根据该类别对于句子流利度的影响。

19、程度,设定权重初始值和包含该权重初始值在内的搜索区间;对于上述类别的每一个,在确保其他类别的权重值不变的情况下,在该类别的搜索区间内从其权重初始值开始、以预定的步级逐个权重值地,基于该权重值为上述多个源语言句子生成译文;对于上述类别的每一个,在其相应的搜索区间内确定能够为上述多个源语言句子获得与上述参考译文相对照的最优译文的权重值,作为该类别的最优权重值;对于上述类别的全部,重复进行为上述多个源语言句子生成译文以及确定最优权重值的步骤,直到译文的质量不再提高为止。0035根据本发明的又一个方面,提供一种基于语料库的机器翻译方法,包括利用上述的为句子获得加权语言模型概率的方法,分别为针对待翻译的。

20、句子生成的多个候选译文获得加权语言模型概率;以及参考上述多个候选译文的加权语言模型概率,从该多个候选译文中选择出上述待翻译的句子的最终译文。0036根据本发明的再一个方面,提供一种为句子获得加权语言模型概率的装置,包括语言模型概率计算单元,其用于对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。0037优选地,上述为句子获得加权语言模型概率的装置中的权重设定单元。

21、将上述各个单词组按照单词组中所包含的短语的数量被划分为多个类别,并且对于上述多个类别中包含短语数量越多的类别,设定越高的权重。0038优选地,上述为句子获得加权语言模型概率的装置还包括权重调整单元,其利用开发集对上述类别的每一个的权重进行精确调整,该开发集包括多个源语言句子以及与该多个源语言句子对应的参考译文。0039根据本发明的再一个方面,提供一种构建加权语言模型的装置,包括模型构建单元,其构建加权语言模型,该加权语言模型对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加。

22、权语言模型概率的;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。0040优选地,上述各个单词组的权重是根据句子的结构、按类设定的。0041优选地,上述各个单词组被划分为被一个短语所包含的单词组和跨至少两个短语的单词组两类,并且上述跨至少两个短语的类别,与上述被一个短语所包含的类别相比,被设定相对高的权重。0042优选地,上述各个单词组按照单词组中所包含的短语的数量被划分为多个类别,并且上述多个类别中包含短语数量越多的类别,被设定越高的权重。0043优选地,上述为该句子获得加权语言模型概率根据下式实现说明书CN102023969ACN10202。

23、3983A5/13页800440045其中,EE1,E2,EN表示包含N个词的句子,PWE表示该句子的加权语言模型概率,PEI|EIN1,EIN2,EI2,EI1表示单词组EIN1,EIN2,EI2,EI1,EI的概率,是该单词组EIN1,EIN2,EI2,EI1,EI的权重。0046根据本发明的再一个方面,提供一种基于语料库的机器翻译系统,包括上述的为句子获得加权语言模型概率的装置或利用上述的构建加权语言模型的装置构建的加权语言模型;以及译文生成单元,其为待翻译的句子生成多个候选译文,并且利用上述为句子获得加权语言模型概率的装置或上述加权语言模型,分别为该多个候选译文获得加权语言模型概率,并。

24、且参考该多个候选译文的加权语言模型概率,从该多个候选译文中选择出上述待翻译的句子的最终译文。附图说明0047相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。0048图1是根据本发明实施例的为句子获得加权语言模型概率的方法的流程图;0049图2是图1的步骤110中按类为与语言模型概率的计算有关的各个单词组设定权重的过程的流程图;0050图3是图2的步骤210中利用开发集对各个类别的权重进行精确调整的过程的流程图;0051图4是根据本发明实施例的构建加权语言模型的方法的流程图;0052图5是根据本发明实施例的基于语料库的机器翻译方法的流程图;005。

25、3图6是根据本发明实施例的为句子获得加权语言模型概率的装置的方框图;0054图7是根据本发明实施例的构建加权语言模型的装置的方框图;以及0055图8是根据本发明实施例的基于语料库的机器翻译系统的方框图。具体实施方式0056本发明提出一种加权语言模型的概念,该概念在现有的标准语言模型的基础上,考虑了句子的结构,对于句子中与语言模型概率的计算有关的各个单词组,指派反映该单词组对于句子的流利度的重要性的权重,以便基于这些权重来更好地体现句子的质量。0057在此,所谓单词组,是由多个单词组成、代表该多个单词有可能在句子中按顺序出现的组。0058此外,单词组的概率表示该单词组中的最后一个单词出现在该单词。

26、组中其前面的所有单词之后的概率。单词组的概率也可以称为是该单词组中的最后一个单词的、与该单词组中其前面的单词有关的概率。0059在本发明的该加权语言模型的概念的基础上,下面结合附图对本发明的各个优选实施例进行详细说明。0060图1是根据本发明实施例的为句子获得加权语言模型概率的方法的流程图。说明书CN102023969ACN102023983A6/13页90061如图1所示,该方法首先在步骤105,为给定的句子,确定其中与该句子的语言模型概率的计算有关的各个单词组及其概率。0062该步骤基于预先从单语文本语料中统计出的多个单词组及其概率来实现。也就是说,在本步骤中,通过在预先从单语文本语料中统。

27、计出的多个单词组及其概率中进行查找,来确定上述给定的句子中与语言模型概率的计算有关的各个单词组及其概率。0063在一个实施例中,与平滑的NGRAM模型对应地,这里所述的单词组指NGRAM。0064接着,在步骤110,根据上述给定的句子的结构,为上述与该句子的语言模型概率的计算有关的各个单词组分别设定反映该单词组对于句子流利度的影响程度的权重。具体地,对于越能够影响句子流利度的单词组,设定越高的权重。0065在本步骤中,可以采用多种方式为各个单词组设定权重。例如可以单个单词组地逐一来设定权重。此外,也可以从方便权重的设定的角度出发,按类来设定权重。关于按类来设定权重的方法,将在后面结合图2进行详。

28、细描述。0066在步骤115,对于上述句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单词组的概率进行加权,从而为该句子获得加权语言模型概率。0067在一个实施例中,在本步骤中,在平滑的NGRAM模型的基础上,根据下式3来利用与上述句子的语言模型概率的计算有关的各个单词组的权重对该单词组的概率进行加权,从而为该句子近似地获得加权语言模型概率00680069其中,EE1,E2,EN表示包含N个词的句子,PWE表示该句子的加权语言模型概率,PEI|EIN1,EIN2,EI2,EI1表示单词EI的概率,也即单词组即NGRAMEIN1,EIN2,EI2,EI1,EI的概率,是该单词组。

29、EIN1,EIN2,EI2,EI1,EI的权重。0070以上就是本实施例的为句子获得加权语言模型概率的方法的总体过程。0071下面结合图2详细描述上面图1的步骤110中按类为上述给定的句子中与语言模型概率的计算有关的各个单词组设定权重的过程。0072如图2所示,首先在步骤205,根据句子的结构,对上述各个单词组进行分类。在该步骤中,可以采用多种方法来对单词组进行分类。0073例如,在一个实施例,在基于短语的统计机器翻译系统的情况下,考虑到候选译文的句子由短语组成,可以根据句子的、与短语有关的结构,将上述多个单词组划分为两类C1和C20074C1被一个短语所包含的单词组;0075C2跨至少两个短。

30、语的单词组。0076在该分类方式下,仍以前面所举的句子“THISISYOURSEAT”为例,由于根据预先获得的知识可知该句子由三个短语“THIS”、“ISYOURSEAT”和“”组成,所以该句子中与语言模型概率的计算有关的各个单词组可分类如下表3所示。0077表30078说明书CN102023969ACN102023983A7/13页10单词组分类THISC1THISISC2THISISYOURC2ISYOURSEATC1YOURSEATC20079当然,上面的分类方法仅是一个示例,只要能够方便权重的设定,也可以采用其他的分类方法。例如,也可以按各个单词组中所包含的短语的数量来进行分类,如果一。

31、个单词组包含在一个短语内,则将该单词组分类到第1类,如果一个单词组跨两个短语,则分类到第2类,跨三个短语则分类到第3类等等。0080虽然上面所例示的分类方法是为基于短语的统计机器翻译系统所考虑的,但是该分类方法也适用于其他类型的基于语料库的机器翻译系统,例如基于层次短语的统计机器翻译系统和基于实例的机器翻译系统等。当然,对于这些其他类型的基于语料库的机器翻译系统,也可以采用其他更加适合它们的分类方法。0081接着,在步骤210,根据所划分的各个类别对于句子流利度的影响程度,为各个类别确定适合的权重。0082在前面描述的C1、C2的分类方法的情况下,可以将C1类的权重设定为WC1,将C2类的权重。

32、设定为WC2。从而,对于前面的句子“THISISYOURSEAT”而言,基于表3所示的分类方式,该句子的加权语言模型概率的计算可以根据下式来进行00830084在本步骤中,在为各个类别设定适合的权重时,对于越能够影响句子流利度的类别,设定越高的权重。例如,在步骤205中所描述的分类方式中,跨短语的数量越多的类别的单词组,越能够影响句子流利度,因而可以为它们设定相对高的权重。0085例如,在前面的C1、C2的分类方法的情况下,可以将C1类和C2类的权重WC1和WC2分别设定为07和13,以表明C2类的单词组比C1类的单词组更加重要,更能够影响句子的流利度。因为对于基于短语的统计机器翻译系统来说,。

33、如果一个单词组处于一个短语内,则该单词组就是翻译系统已知的、自然的词序列,而不是翻译系统通过串接多个短语而形成的,所以其流利度是可以确保的。但是,如果一个单词组跨了多个短语,则由于该单词组是翻译系统在翻译过程中通过串接多个短语而形成的,所以其流利度应该被重点检查,以确保整个句子的流利度。0086当然,对于其他类型的基于语料库的机器翻译系统而言,可以根据该翻译系统的特点,采用其他适合的方式来为不同的分类设定不同的权重。0087在一个实施例中,在本步骤中为上述各个类别确定的权重是预先设定的。说明书CN102023969ACN102023983A8/13页110088此外,在进一步的实施例中,在本步。

34、骤中为上述各个类别确定的权重是利用开发集进行了精确调整的。在此,所谓开发集,包括了预先准备的大量源语言句子以及与这些源语言句子对应的参考译文。关于利用开发集对各个类别的权重进行精确调整的方法的细节,下面结合图3进行详细描述。0089图3是根据爬山算法、利用开发集对各个类别的权重进行精确调整的过程的流程图。0090具体地,如图3所示,该过程首先在步骤305,为所划分的上述类别的各个,设定一个权重初始值以及包含该权重初始值在内的搜索区间。在此,将该搜索区间表示为ML,MH。0091在本步骤中,各类别的权重初始值和搜索区间是根据该类别对于句子流利度的影响程度而适宜确定的。并且,可以理解,在本步骤中,。

35、可以不必为各个类别设定精确的权重初始值,而可以粗略地设置,甚至是可以为各个类别设定平均权重值作为权重初始值W1W2WM1/MM是类别的数量。0092在步骤310,假设存在M个类别,则设定类别标识I的初始值为0,即I0。0093在步骤315,设定II1,即从该M个类别中确定类别I作为当前的权重调整对象。0094在步骤320,基于各个类别的当前权重值,利用采用了本发明的加权语言模型概念的基于语料库的机器翻译系统,为预先准备的开发集中的源语言句子生成译文。其中,如上所述,开发集中包括预先准备的大量源语言句子以及与这些源语言句子对应的参考译文。0095与现有技术中的基于语料库的机器翻译系统不同,本步骤。

36、中所使用的基于语料库的机器翻译系统,是采用本发明的加权语言模型的概念来计算候选译文的加权语言模型概率的基于语料库的机器翻译系统。进一步地,该基于语料库的机器翻译系统是根据上式3为候选译文计算加权语言模型概率的。0096也就是说,在本步骤中,为开发集中的源语言句子生成的译文是基于语料库的机器翻译系统根据候选译文的加权语言模型概率而选择出的,而这些候选译文的加权语言模型概率则是基于上述各个类别的当前权重值而计算出的。0097在步骤325,根据上述开发集中的参考译文,确定在步骤320中利用基于语料库的机器翻译系统基于上述各个类别的当前权重值所生成的译文的质量是否优于先前生成的译文。其中,该先前生成的。

37、译文是基于在权重调整过程中先前尝试过的权重值而生成的译文。如果是,则处理前进到步骤330,否则转到步骤335。0098在该步骤中,可以人工地比较译文的质量,也可以利用已有的自动译文打分方法或系统来确定当前生成的译文与先前生成的译文相比较的质量。0099在步骤330,将上述作为权重调整对象的类别I的当前权重WI设定为该类别的当前最优权重,即WIMAXWI。0100在步骤335,对于作为权重调整对象的类别I,以适宜的步级STEP调整该类别的当前权重值WI,即WIWISTEP,同时确保其他类别的权重值固定不变。0101在步骤340,确定上述调整后的权重值WI是否处于该类别的搜索区间ML,MH内,即是。

38、否WIMH。如果是,则处理返回到步骤320,继续针对类别I调整权重,否则说明书CN102023969ACN102023983A9/13页12由于针对类别I找到了最优权重WIMAX,所以处理前进到步骤345。0102在步骤345,确定是否针对所有类别均完成了权重调整,即是否I1M。如果是,则该处理前进到步骤350,否则返回到步骤315,继续针对下一类别调整权重。0103在步骤350,确定基于所有类别的当前最优权重为上述源语言句子所生成的译文的质量是否优于在前一轮I从1至M的权重调整过程中的译文质量。如果是,则处理返回到步骤310,继续进行下一轮I从1至M的权重调整过程,否则该过程结束。0104也。

39、就是说,图3的权重调整过程对于上述所有M个类别,从I1至M重复执行多轮,直到译文的质量不再提高为止。0105根据上述图3所示的利用开发集对上述各个类别的权重进行精确调整的过程而为各个类别所确定的最优权重值,被最终设定为各个类别的权重。从而,在步骤210中为各个类别确定适合的权重时,可以直接根据与语言模型概率的计算有关的单词组的类别来确定根据这样的过程预先设定好的相应权重。0106以上就是对本实施例的为句子获得加权语言模型概率的方法的详细描述。在本实施例中,通过根据句子的结构为句子中与语言模型概率的计算有关的各个单词组指派权重,能够在考虑了句子的结构的基础上为句子获得能够更准确地体现句子的质量的。

40、加权语言模型概率。0107在同一发明构思下,本发明提供一种构建加权语言模型的方法。下面结合附图对其进行详细描述。0108图4是根据本发明实施例的构建加权语言模型的方法的流程图。0109如图4所示,该方法首先在步骤405,根据单语文本语料,统计出多个单词组及其概率。0110在一个实施例中,与平滑的NGRAM模型对应地,这里所述的单词组指NGRAM。0111本领域技术人员可以理解,该步骤可采用本领域中现在已知或将来可知的用于统计与语言模型有关的单词组及其概率的方法来实现,在此省略该步骤的详细描述。0112在步骤410,根据上述多个单词组及其概率,构建出加权语言模型,该加权语言模型对于句子中与语言模。

41、型概率的计算有关的各个单词组,利用该单词组的权重对该单词组的概率进行加权,并且根据各个单词组的加权后的概率,为句子获得加权语言模型概率的。其中,句子中与语言模型概率的计算有关的各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。具体地,对于越能够影响句子流利度的单词组,设定越高的权重。0113在一个实施例中,上述句子中与语言模型概率的计算有关的各个单词组的权重是利用上面图2所示的方法按类设定的。在进一步的实施例中,该各个单词组的权重是利用上面图3所示的方法经过了精确调整的。0114此外,在一个实施例中,在本步骤中,在平滑的NGRAM模型的基础上,构建出这样的。

42、加权语言模型根据上式3来利用句子中与语言模型概率的计算有关的各个单词组的权重对该单词组的概率进行加权,从而为句子近似地获得加权语言模型概率。0115以上就是对本实施例的构建加权语言模型的方法的详细描述。在本实施例中,所构建的加权语言模型通过根据句子的结构为句子中与语言模型概率的计算有关的各个单词组指派权重,能够在考虑了句子的结构的基础上为句子获得能够更准确地体现句子说明书CN102023969ACN102023983A10/13页13的质量的加权语言模型概率。0116根据以上方法所构建的加权语言模型,能够直接替代标准语言模型而被基于语料库的机器翻译系统所应用,使该基于语料库的机器翻译系统为候选。

43、译文获得基于句子结构的加权语言模型概率,进而参考各候选译文的加权语言模型概率,更有效地选择出高质量的候选译文作为最终译文。0117需要说明的是,在上面图4的过程中,虽然包括了根据单语文本语料统计出多个单词组及其概率的步骤405,但是,也可以不包括该步骤,而直接应用标准语言模型中已经统计出的多个单词组及其概率,在其上执行后续的步骤410。0118以上的各个实施例虽然是结合基于短语的统计机器翻译系统而描述的,但是,本发明同样能够应用于其他类型的基于语料库的机器翻译系统、例如基于层次短语的统计机器翻译系统和基于实例的机器翻译系统等,并且对于这些其他类型的基于语料库的机器翻译系统而言,也能够得到类似的。

44、优异效果。0119因此,本发明还提供一种应用了上面的图1所示的为句子获得加权语言模型概率的方法的基于语料库的机器翻译方法。图5是该方法的流程图。0120如图5所示,该方法首先在步骤505,获得源语言的待翻译句子。0121在步骤510,利用基于语料库的机器翻译系统,根据现在已知或将来可知的翻译模型,为该待翻译句子生成多个候选译文。0122在步骤515,利用图1所示的为句子获得加权语言模型概率的方法,分别为上述多个候选译文计算加权语言模型概率。0123在步骤520,参考上述加权语言模型概率,从上述多个候选译文中选择出上述待翻译句子的最终译文。0124本领域技术人员可以理解,在本步骤中,可以直接根据。

45、候选译文的加权语言模型概率,从多个候选译文中选择出最终译文,也可以将加权语言模型概率与利用其他翻译模型例如,短语翻译模型,词翻译模型等得到的概率结合在一起来进行译文的选择。0125以上就是对本实施例的基于语料库的机器翻译方法的详细描述。在本实施例中,通过为候选译文获得基于句子结构的加权语言模型概率,并且参照各候选译文的加权语言模型概率选择出最终译文,能够更准确地选择出高质量的译文,从而使机器翻译的性能得到提高。0126下面以具体例子来对比基于短语的机器翻译系统在基于加权语言模型概率时的译文生成质量与在基于标准语言模型概率时的译文生成质量。0127例如仍以前面的待翻译句子“IWOULDLIKEA。

46、MIDDLESEAT”为例,假定基于短语的统计机器翻译系统同样为其得到了两个候选译文0128T1我想要一个中等的座位。0129T2我想要一个中间的座位。0130其中,候选译文T1由短语“我想要”、“一个中等的”、“座位”和“。”组成。此外,候选译文T2由短语“我想要”、“一个中间的”、“座位”和“。”组成。0131基于上述情况,下面的表4示出了上述候选译文T1、T2中与语言模型概率的计说明书CN102023969ACN102023983A11/13页14算有关的各3GRAM单词组的概率以及分类,其中候选译文T1与T2中不同的部分用X来代替。0132表401330134基于上表所示的各个3GRA。

47、M的概率以及分类,下面的表5示出了采用标准语言模型为候选译文T1、T2计算的标准语言模型概率,以及将C1类和C2类的权重分别设定为07和13时采用本发明的加权语言模型的概念为候选译文T1、T2计算的加权语言模型概率。0135表501360137从上表5可以看出,在不考虑句子的结构的标准语言模型的情况下,为候选译文T1计算出来的语言模型概率相对较高,从而基于短语的统计机器翻译系统将根据该计算结果选择出候选译文T1,而不是质量较高的候选译文T2,从而导致基于短语的统计机器翻译系统的较差的译文生成质量。0138相对于此,在本发明的考虑了句子的结构的加权语言模型的概念的情况下,由于对句子中的重要组成部。

48、分C2类指派了相对高的权重,使该部分的重要性相对放大,进而使候选译文T1、T2相互之间在该重要组成部分上的差距放大,所以能够针对高质量的候选译文T2获得相对高的语言模型概率,进而使该高质量的译文最终被选择出。0139上述例子虽然是针对基于短语的统计机器翻译系统而举出的,但是,对于采用了本发明的其他类型的基于语料库的机器翻译系统而言,也能够得到类似的优异效果。0140在同一发明构思下,本发明提供一种为句子获得加权语言模型概率的装置。下面结合附图对其进行详细描述。0141图6是根据本发明实施例的为句子获得加权语言模型概率的装置的方框图。如图6所示,本实施例的为句子获得加权语言模型概率的装置60包括。

49、单词组及其概率确定单元61、权重设定单元62、权重调整单元63、语言模型概率计算单元64。说明书CN102023969ACN102023983A12/13页150142具体地,单词组及其概率确定单元61为给定的句子,确定其中与语言模型概率的计算有关的各个单词组及其概率。0143在一个实施例中,上述各个单词组及其概率,是预先根据单语文本语料统计出并且相对应地记录在一起的。0144权重设定单元62根据句子的结构,为上述与语言模型概率的计算有关的各个单词组分别设定反映该单词组对于句子流利度的影响程度的权重。具体地,对于越能够影响句子流利度的单词组,设定越高的权重。0145在一个实施例中,权重设定单元62根据句子的结构,按类为上述各个单词组确定权重。0146在进一步的实施例中,权重设定单元62将上述各个单词组划分为被一个短语所包含的单词组和跨至少两个短语的单词组两类,并且对于跨至少两个短语的类别,与上述被一个短语所包含的类别相比,设定相对高的权重。0147在另一个实施例中,权重设定单元62将上述各个单词组按照单词组中所包含的短语的数量划分为多个类别,并且对于包含短语数量越多的类别,设定越高的权重。0148权重调整单元63利用开发集,按类对上述各个单词组的权重进行精确调整,该开发集包括多个源语言。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1