获得加权语言模型概率及构建加权语言模型的方法和装置 【技术领域】
本发明涉及信息处理技术,具体地,涉及为句子获得加权语言模型概率的方法 和装置、构建加权语言模型的方法和装置以及应用了这些方法或装置的基于语料库的机 器翻译方法和系统。背景技术
统计机器翻译是主要的基于语料库的机器自动翻译技术之一。 在该技术中,通 常会用到多种概率模型。 语言模型是统计机器翻译技术中最主要的概率模型之一。 所谓 语言模型,是用于为一个句子 ( 或词序列 ) 计算出一个概率值,以表明该句子 ( 或词序 列 ) 的流利度的模型。 也就是说,语言模型用于为一个句子 ( 或词序列 ) 计算出能够表 示该句子 ( 或词序列 ) 在所属语言中的出现概率、即是否常用的概率值。
在统计机器翻译技术中,通过利用语言模型来计算候选译文的出现概率 ( 以下 称为 “语言模型概率” ),可以帮助译文选择。 因为语言模型概率越高,表明该译文越 常用,越符合所属语言的习惯,这样,通过使用语言模型概率评价候选译文的流利度, 能够确保译文生成质量。
在现有的统计机器翻译技术中,语言模型通常利用马尔科夫模型从单语文本语 料中训练得到。 根据马尔可夫模型,对于一个包含 N 个词的句子 E = {e1,e2,...,eN}, 按照下式 (1) 来获得其语言模型概率 p(E) :
其中, p(ei|e1, e2, ..., ei-2, ei-1) 是单词 ei 的概率,该概率表示单词 ei 出现在前 面的 i-1 个单词 e1, e2, ..., ei-2, ei-1 之后的概率。
但是,由于在根据上式 (1) 计算句子的语言模型概率时的训练数据稀疏的原 因,在实际的计算过程中,通常以马尔科夫模型为理论基础,使用平滑的 ngram 模型来 近似地得到语言模型概率。 根据平滑的 ngram 模型,对于上述包含 N 个词的句子 E = {e1, e2, ..., eN},按照下式 (2) 来近似地获得其语言模型概率 p(E) :
其中,每个单词 ei 的概率 p(ei|ei-n+1, ei-n+2, ..., ei-2, ei-1) 不再依赖于出现在 ei 前面的所有 i-1 个单词,而仅是依赖于出现在其前面的 n-1 个单词。 一般地, n 取 2 ~ 5。 通常,单词组 “ei-n+1, ei-n+2, ..., ei-2, ei-1, ei” 称为一个 ngram。 在此情况下,概 率 p(ei|ei-n+1, ei-n+2, ..., ei-2, ei-1) 也称为是 ngram “ei-n+1, ei-n+2, ..., ei-2, ei-1, ei” 的 概率。
下面以具体例子来详细描述根据平滑的 ngram 模型计算语言模型概率的过程。
例如,假定待计算的句子是 “this is your seat.”,并且设定 n = 3,则根据上 式 (2),该句子的语言模型概率由组成该句子的 5 个单词 “this”、 “is”、 “your”、
“seat” 和 “.” 的各自的概率 p(this)、 p(is|this)、 p(your|this, is)、 p(seat|is, your) 和 p(.|your, seat) 的乘积得到,即 :
p ( this is your seat. ) = p ( this )× p ( is|this )× p ( your|this , is )× p ( seat|is , your)×p(.|your, seat) 其中,概率 p(is|this) 表示 “is” 出现在 “this” 之后的概率,该 概率可以预先通过从单语文本语料中统计 “is” 和 “this is” 的出现频率而计算得到。 在此,单词组 “this,is” 称为一个 2-gram( 或 bigram)。 此外,概率 p(your|this,is) 表 示 “your” 出现在 “this is” 之后的概率,同样,该概率也可以预先通过从单语文本语料 中统计 “this is your” 和 “this is” 的出现频率而计算得到。 在此,单词组 “this, is, your” 称为一个 3-gram( 或 trigram)。 对于概率 p(this)、 p(seat|is, your) 和 p(.|your, seat) 而言,也是同样的。
根据上式 (2) 以及上述的例子可以看出,基于平滑的 ngram 模型构建的语言模 型 ( 后面称为 “标准语言模型” ),在计算句子的语言模型概率时,对于句子中的所有 ngram 的概率,是不加区别地对待的。但是,统计机器翻译系统生成的译文通常由诸如短 语、词等的各种各样的组成部分构成。 对于不同组成部分而言,它们的质量也是不相同 的,因此其在句子中的重要性并不都是相同的。 如果不区分句子中组成部分的重要性, 则有可能计算出来的语言模型概率不能够很好地体现句子的流利度。 对此,用下面的具 体的例子来进行说明。
假设对于待翻译的句子 “I would like a middle seat.”,基于短语的统计机器翻译 系统得到了下面的两个候选译文 :
T1 :( 我想要 )( 一个中等的 )( 座位 )(。 )
T2 :( 我想要 )( 一个中间的 )( 座位 )(。 )
其中, “()” 表示组成候选译文的短语,该短语是从双语例句中的目标语句子 中抽取出来的。
下面的表 1 示出了与上述候选译文 T1、 T2 的语言模型概率的计算有关的各 3-gram 的概率 ( 为了表示方便,这里使用了概率值的对数 log(p(ei|ei-n+1,ei-n+2,...,ei-2, ei-1))),其中候选译文 T1 与 T2 中的不同部分 ( 中等、中间 ) 用 X 来代替。
表1
其中,
和 分别是附加的句子开头和结尾标志。
基于上表所示出的各个 3-gram 的概率,可以采用基于平滑的 ngram 模型构建的 标准语言模型为候选译文 T1、 T2 计算出如下表 2 所示的语言模型概率。
表2
根据上表 2 所示出的语言模型概率的计算结果,统计机器翻译系统将选择出语 言模型概率较高的候选译文 T1 作为上面的句子 “I wouldlike a middle seat.”的最终译文, 而实际上质量较好的候选译文 T2 却因为语言模型概率较低而未被选择。
因而,可以看出,在不考虑句子的结构或构成、即对句子中的组成部分的重要 性不加以区别的情况下,基于上述平滑的 ngram 模型所计算出的语言模型概率有可能是 质量差的译文高于质量好的译文,从而最终导致统计机器翻译系统错误地选择译文。
也就是说,由于基于平滑的 ngram 模型构建的语言模型忽视了句子的结构,所 以使得统计机器翻译系统不能够有效地从候选译文中区分出高质量的译文。
发明内容
本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供一种为句子 获得加权语言模型概率的方法和装置、构建加权语言模型的方法和装置以及应用了这些 方法或装置的基于语料库的机器翻译方法和系统,以便通过根据句子的结构,对于句子 中与语言模型概率的计算有关的各个单词组指派权重,来获得句子的加权语言模型概 率,从而基于句子的结构更准确地体现句子的质量。
根据本发明的一个方面,提供一种为句子获得加权语言模型概率的方法,包 括 :对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单 词组的概率进行加权 ;以及根据上述与语言模型概率的计算有关的各个单词组的加权后 的概率,为上述句子获得加权语言模型概率 ;其中,上述各个单词组的权重是根据句子 的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。
根据本发明的另一个方面,提供一种构建加权语言模型的方法,包括 :构建加 权语言模型,该加权语言模型 :对于句子中与语言模型概率的计算有关的各个单词组, 利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语言模型概率的计算 有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率 ;其中,上述各 个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的影响程 度的权重。
优选地,上述各个单词组被划分为被一个短语所包含的单词组和跨至少两个短 语的单词组两类,并且上述跨至少两个短语的类别,与上述被一个短语所包含的类别相 比,被设定相对高的权重。
优选地,上述各个单词组按照单词组中所包含的短语的数量被划分为多个类 别,并且上述多个类别中包含短语数量越多的类别,被设定越高的权重。
优选地,上述各个单词组的权重是利用开发集按类精确调整后的权重,该开发集包括多个源语言句子以及与该多个源语言句子对应的参考译文。
上述精确调整通过以下步骤实现 :为上述类别的每一个,根据该类别对于句子 流利度的影响程度,设定权重初始值和包含该权重初始值在内的搜索区间 ;对于上述类 别的每一个,在确保其他类别的权重值不变的情况下,在该类别的搜索区间内从其权重 初始值开始、以预定的步级逐个权重值地,基于该权重值为上述多个源语言句子生成译 文 ;对于上述类别的每一个,在其相应的搜索区间内确定能够为上述多个源语言句子获 得与上述参考译文相对照的最优译文的权重值,作为该类别的最优权重值 ;对于上述类 别的全部,重复进行为上述多个源语言句子生成译文以及确定最优权重值的步骤,直到 译文的质量不再提高为止。
根据本发明的又一个方面,提供一种基于语料库的机器翻译方法,包括 :利用 上述的为句子获得加权语言模型概率的方法,分别为针对待翻译的句子生成的多个候选 译文获得加权语言模型概率 ;以及参考上述多个候选译文的加权语言模型概率,从该多 个候选译文中选择出上述待翻译的句子的最终译文。
根据本发明的再一个方面,提供一种为句子获得加权语言模型概率的装置,包 括 :语言模型概率计算单元,其用于 :对于句子中与语言模型概率的计算有关的各个单 词组,利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语言模型概率 的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概率 ;其中, 上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于句子流利度的 影响程度的权重。 优选地,上述为句子获得加权语言模型概率的装置中的权重设定单元将上述各 个单词组按照单词组中所包含的短语的数量被划分为多个类别,并且对于上述多个类别 中包含短语数量越多的类别,设定越高的权重。
优选地,上述为句子获得加权语言模型概率的装置还包括 :权重调整单元,其 利用开发集对上述类别的每一个的权重进行精确调整,该开发集包括多个源语言句子以 及与该多个源语言句子对应的参考译文。
根据本发明的再一个方面,提供一种构建加权语言模型的装置,包括 :模型构 建单元,其构建加权语言模型,该加权语言模型 :对于句子中与语言模型概率的计算有 关的各个单词组,利用该单词组的权重对该单词组的概率进行加权,并且根据上述与语 言模型概率的计算有关的各个单词组的加权后的概率,为上述句子获得加权语言模型概 率的 ;其中,上述各个单词组的权重是根据句子的结构设定的、用于反映该单词组对于 句子流利度的影响程度的权重。
优选地,上述各个单词组的权重是根据句子的结构、按类设定的。
优选地,上述各个单词组被划分为被一个短语所包含的单词组和跨至少两个短 语的单词组两类,并且上述跨至少两个短语的类别,与上述被一个短语所包含的类别相 比,被设定相对高的权重。
优选地,上述各个单词组按照单词组中所包含的短语的数量被划分为多个类 别,并且上述多个类别中包含短语数量越多的类别,被设定越高的权重。
优选地,上述为该句子获得加权语言模型概率根据下式实现 :
其中, E = {e1, e2, ..., eN} 表示包含 N 个词的句子, pw(E) 表示该句子的加权 语言模型概率, p(ei|ei-n+1, ei-n+2, ..., ei-2, ei-1) 表示单词组 (ei-n+1, ei-n+2, ...ei-2, ei-1, ei) 的概率, 是该单词组 (ei-n+1, ei-n+2, ..., ei-2, ei-1, ei) 的权重。
根据本发明的再一个方面,提供一种基于语料库的机器翻译系统,包括 :上述 的为句子获得加权语言模型概率的装置或利用上述的构建加权语言模型的装置构建的加 权语言模型 ;以及译文生成单元,其为待翻译的句子生成多个候选译文,并且利用上述 为句子获得加权语言模型概率的装置或上述加权语言模型,分别为该多个候选译文获得 加权语言模型概率,并且参考该多个候选译文的加权语言模型概率,从该多个候选译文 中选择出上述待翻译的句子的最终译文。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解 本发明上述的特点、优点和目的。 图 1 是根据本发明实施例的为句子获得加权语言模型概率的方法的流程图 ;
图 2 是图 1 的步骤 110 中按类为与语言模型概率的计算有关的各个单词组设定权 重的过程的流程图 ;
图 3 是图 2 的步骤 210 中利用开发集对各个类别的权重进行精确调整的过程的流 程图 ;
图 4 是根据本发明实施例的构建加权语言模型的方法的流程图 ;
图 5 是根据本发明实施例的基于语料库的机器翻译方法的流程图 ;
图 6 是根据本发明实施例的为句子获得加权语言模型概率的装置的方框图 ;
图 7 是根据本发明实施例的构建加权语言模型的装置的方框图 ;以及
图 8 是根据本发明实施例的基于语料库的机器翻译系统的方框图。
具体实施方式
本发明提出一种加权语言模型的概念,该概念在现有的标准语言模型的基础 上,考虑了句子的结构,对于句子中与语言模型概率的计算有关的各个单词组,指派反 映该单词组对于句子的流利度的重要性的权重,以便基于这些权重来更好地体现句子的 质量。
在此,所谓单词组,是由多个单词组成、代表该多个单词有可能在句子中按顺 序出现的组。
此外,单词组的概率表示该单词组中的最后一个单词出现在该单词组中其前面 的所有单词之后的概率。 单词组的概率也可以称为是该单词组中的最后一个单词的、与 该单词组中其前面的单词有关的概率。
在本发明的该加权语言模型的概念的基础上,下面结合附图对本发明的各个优 选实施例进行详细说明。
图 1 是根据本发明实施例的为句子获得加权语言模型概率的方法的流程图。如图 1 所示,该方法首先在步骤 105,为给定的句子,确定其中与该句子的语言 模型概率的计算有关的各个单词组及其概率。
该步骤基于预先从单语文本语料中统计出的多个单词组及其概率来实现。 也就 是说,在本步骤中,通过在预先从单语文本语料中统计出的多个单词组及其概率中进行 查找,来确定上述给定的句子中与语言模型概率的计算有关的各个单词组及其概率。
在一个实施例中,与平滑的 ngram 模型对应地,这里所述的单词组指 ngram。
接着,在步骤 110,根据上述给定的句子的结构,为上述与该句子的语言模型概 率的计算有关的各个单词组分别设定反映该单词组对于句子流利度的影响程度的权重。 具体地,对于越能够影响句子流利度的单词组,设定越高的权重。
在本步骤中,可以采用多种方式为各个单词组设定权重。 例如可以单个单词组 地逐一来设定权重。 此外,也可以从方便权重的设定的角度出发,按类来设定权重。 关 于按类来设定权重的方法,将在后面结合图 2 进行详细描述。
在步骤 115,对于上述句子中与语言模型概率的计算有关的各个单词组,利用该 单词组的权重对该单词组的概率进行加权,从而为该句子获得加权语言模型概率。
在一个实施例中,在本步骤中,在平滑的 ngram 模型的基础上,根据下式 (3) 来 利用与上述句子的语言模型概率的计算有关的各个单词组的权重对该单词组的概率进行 加权,从而为该句子近似地获得加权语言模型概率 :
其中, E = {e1, e2, ..., eN} 表示包含 N 个词的句子, pw(E) 表示该句子的加 权语言模型概率, p(ei|ei-n+1, ei-n+2, ..., ei-2, ei-1) 表示单词 ei 的概率,也即单词组 ( 即 ngram)(ei-n+1, ei-n+2, ..., ei-2, ei-1, ei) 的概率, 是该单词组 (ei-n+1, ei-n+2, ..., ei-2, ei-1, ei) 的权重。
以上就是本实施例的为句子获得加权语言模型概率的方法的总体过程。
下面结合图 2 详细描述上面图 1 的步骤 110 中按类为上述给定的句子中与语言模 型概率的计算有关的各个单词组设定权重的过程。
如图 2 所示,首先在步骤 205,根据句子的结构,对上述各个单词组进行分类。 在该步骤中,可以采用多种方法来对单词组进行分类。
例如,在一个实施例,在基于短语的统计机器翻译系统的情况下,考虑到候选 译文的句子由短语组成,可以根据句子的、与短语有关的结构,将上述多个单词组划分 为两类 C1 和 C2 :
C1 :被一个短语所包含的单词组 ;
C2 :跨至少两个短语的单词组。
在该分类方式下,仍以前面所举的句子 “this is your seat.” 为例,由于根据预先 获得的知识可知该句子由三个短语 “this”、 “is your seat” 和 “.” 组成,所以该句子 中与语言模型概率的计算有关的各个单词组可分类如下表 3 所示。
表3
9CN 102023969 A CN 102023983 A说单词组 (this) (this is) (this is your) (is your seat) (your seat.)明书分类 C1 C2 C2 C1 C27/13 页当然,上面的分类方法仅是一个示例,只要能够方便权重的设定,也可以采用 其他的分类方法。 例如,也可以按各个单词组中所包含的短语的数量来进行分类,如果 一个单词组包含在一个短语内,则将该单词组分类到第 1 类,如果一个单词组跨两个短 语,则分类到第 2 类,跨三个短语则分类到第 3 类等等。
虽然上面所例示的分类方法是为基于短语的统计机器翻译系统所考虑的,但是 该分类方法也适用于其他类型的基于语料库的机器翻译系统,例如基于层次短语的统计 机器翻译系统和基于实例的机器翻译系统等。 当然,对于这些其他类型的基于语料库的 机器翻译系统,也可以采用其他更加适合它们的分类方法。
接着,在步骤 210,根据所划分的各个类别对于句子流利度的影响程度,为各个 类别确定适合的权重。
在前面描述的 C1、C2 的分类方法的情况下,可以将 C1 类的权重设定为 wC1,将 C2 类的权重设定为 wC2。 从而,对于前面的句子 “this is yourseat.” 而言,基于表 3 所 示的分类方式,该句子的加权语言模型概率的计算可以根据下式来进行 :
在本步骤中,在为各个类别设定适合的权重时,对于越能够影响句子流利度的 类别,设定越高的权重。 例如,在步骤 205 中所描述的分类方式中,跨短语的数量越多 的类别的单词组,越能够影响句子流利度,因而可以为它们设定相对高的权重。
例如,在前面的 C1、C2 的分类方法的情况下,可以将 C1 类和 C2 类的权重 wC1 和 wC2 分别设定为 0.7 和 1.3,以表明 C2 类的单词组比 C1 类的单词组更加重要,更能够 影响句子的流利度。 因为对于基于短语的统计机器翻译系统来说,如果一个单词组处于 一个短语内,则该单词组就是翻译系统已知的、自然的词序列,而不是翻译系统通过串 接多个短语而形成的,所以其流利度是可以确保的。 但是,如果一个单词组跨了多个短 语,则由于该单词组是翻译系统在翻译过程中通过串接多个短语而形成的,所以其流利 度应该被重点检查,以确保整个句子的流利度。
当然,对于其他类型的基于语料库的机器翻译系统而言,可以根据该翻译系统 的特点,采用其他适合的方式来为不同的分类设定不同的权重。
在一个实施例中,在本步骤中为上述各个类别确定的权重是预先设定的。
此外,在进一步的实施例中,在本步骤中为上述各个类别确定的权重是利用开 发集进行了精确调整的。 在此,所谓开发集,包括了预先准备的大量源语言句子以及与 这些源语言句子对应的参考译文。 关于利用开发集对各个类别的权重进行精确调整的方 法的细节,下面结合图 3 进行详细描述。
图 3 是根据爬山算法、利用开发集对各个类别的权重进行精确调整的过程的流 程图。
具体地,如图 3 所示,该过程首先在步骤 305,为所划分的上述类别的各个,设 定一个权重初始值以及包含该权重初始值在内的搜索区间。 在此,将该搜索区间表示为 [ML, MH]。
在本步骤中,各类别的权重初始值和搜索区间是根据该类别对于句子流利度的 影响程度而适宜确定的。 并且,可以理解,在本步骤中,可以不必为各个类别设定精确 的权重初始值,而可以粗略地设置,甚至是可以为各个类别设定平均权重值作为权重初 始值 :w1 = w2 = ... = wm = 1/m(m 是类别的数量 )。
在步骤 310,假设存在 m 个类别,则设定类别标识 i 的初始值为 0,即 i = 0。
在步骤 315,设定 i = i+1,即从该 m 个类别中确定类别 i 作为当前的权重调整对 象。 在步骤 320,基于各个类别的当前权重值,利用采用了本发明的加权语言模型 概念的基于语料库的机器翻译系统,为预先准备的开发集中的源语言句子生成译文。 其 中,如上所述,开发集中包括预先准备的大量源语言句子以及与这些源语言句子对应的 参考译文。
与现有技术中的基于语料库的机器翻译系统不同,本步骤中所使用的基于语料 库的机器翻译系统,是采用本发明的加权语言模型的概念来计算候选译文的加权语言模 型概率的基于语料库的机器翻译系统。 进一步地,该基于语料库的机器翻译系统是根据 上式 (3) 为候选译文计算加权语言模型概率的。
也就是说,在本步骤中,为开发集中的源语言句子生成的译文是基于语料库的 机器翻译系统根据候选译文的加权语言模型概率而选择出的,而这些候选译文的加权语 言模型概率则是基于上述各个类别的当前权重值而计算出的。
在步骤 325,根据上述开发集中的参考译文,确定在步骤 320 中利用基于语料库 的机器翻译系统基于上述各个类别的当前权重值所生成的译文的质量是否优于先前生成 的译文。 其中,该先前生成的译文是基于在权重调整过程中先前尝试过的权重值而生成 的译文。 如果是,则处理前进到步骤 330,否则转到步骤 335。
在该步骤中,可以人工地比较译文的质量,也可以利用已有的自动译文打分方 法或系统来确定当前生成的译文与先前生成的译文相比较的质量。
在步骤 330,将上述作为权重调整对象的类别 i 的当前权重 wi 设定为该类别的当 前最优权重,即 wi max = wi。
在步骤 335,对于作为权重调整对象的类别 i,以适宜的步级 step 调整该类别的 当前权重值 wi,即 wi = wi+step,同时确保其他类别的权重值固定不变。
在步骤 340,确定上述调整后的权重值 wi 是否处于该类别的搜索区间 [ML,MH] 内,即是否 wi < MH。 如果是,则处理返回到步骤 320,继续针对类别 i 调整权重,否则
由于针对类别 i 找到了最优权重 wimax,所以处理前进到步骤 345。
在步骤 345,确定是否针对所有类别均完成了权重调整,即是否 i+1 > m。 如果 是,则该处理前进到步骤 350,否则返回到步骤 315,继续针对下一类别调整权重。
在步骤 350,确定基于所有类别的当前最优权重为上述源语言句子所生成的译文 的质量是否优于在前一轮 i 从 1 至 m 的权重调整过程中的译文质量。 如果是,则处理返 回到步骤 310,继续进行下一轮 i 从 1 至 m 的权重调整过程,否则该过程结束。
也就是说,图 3 的权重调整过程对于上述所有 m 个类别,从 i = 1 至 m 重复执 行多轮,直到译文的质量不再提高为止。
根据上述图 3 所示的利用开发集对上述各个类别的权重进行精确调整的过程而 为各个类别所确定的最优权重值,被最终设定为各个类别的权重。 从而,在步骤 210 中 为各个类别确定适合的权重时,可以直接根据与语言模型概率的计算有关的单词组的类 别来确定根据这样的过程预先设定好的相应权重。
以上就是对本实施例的为句子获得加权语言模型概率的方法的详细描述。 在本 实施例中,通过根据句子的结构为句子中与语言模型概率的计算有关的各个单词组指派 权重,能够在考虑了句子的结构的基础上为句子获得能够更准确地体现句子的质量的加 权语言模型概率。 在同一发明构思下,本发明提供一种构建加权语言模型的方法。 下面结合附图 对其进行详细描述。
图 4 是根据本发明实施例的构建加权语言模型的方法的流程图。
如图 4 所示,该方法首先在步骤 405,根据单语文本语料,统计出多个单词组及 其概率。
在一个实施例中,与平滑的 ngram 模型对应地,这里所述的单词组指 ngram。
本领域技术人员可以理解,该步骤可采用本领域中现在已知或将来可知的用于 统计与语言模型有关的单词组及其概率的方法来实现,在此省略该步骤的详细描述。
在步骤 410,根据上述多个单词组及其概率,构建出加权语言模型,该加权语言 模型对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该单 词组的概率进行加权,并且根据各个单词组的加权后的概率,为句子获得加权语言模型 概率的。 其中,句子中与语言模型概率的计算有关的各个单词组的权重是根据句子的结 构设定的、用于反映该单词组对于句子流利度的影响程度的权重。 具体地,对于越能够 影响句子流利度的单词组,设定越高的权重。
在一个实施例中,上述句子中与语言模型概率的计算有关的各个单词组的权重 是利用上面图 2 所示的方法按类设定的。 在进一步的实施例中,该各个单词组的权重是 利用上面图 3 所示的方法经过了精确调整的。
此外,在一个实施例中,在本步骤中,在平滑的 ngram 模型的基础上,构建出 这样的加权语言模型 :根据上式 (3) 来利用句子中与语言模型概率的计算有关的各个单 词组的权重对该单词组的概率进行加权,从而为句子近似地获得加权语言模型概率。
以上就是对本实施例的构建加权语言模型的方法的详细描述。 在本实施例中, 所构建的加权语言模型通过根据句子的结构为句子中与语言模型概率的计算有关的各个 单词组指派权重,能够在考虑了句子的结构的基础上为句子获得能够更准确地体现句子
的质量的加权语言模型概率。
根据以上方法所构建的加权语言模型,能够直接替代标准语言模型而被基于语 料库的机器翻译系统所应用,使该基于语料库的机器翻译系统为候选译文获得基于句子 结构的加权语言模型概率,进而参考各候选译文的加权语言模型概率,更有效地选择出 高质量的候选译文作为最终译文。
需要说明的是,在上面图 4 的过程中,虽然包括了根据单语文本语料统计出多 个单词组及其概率的步骤 405,但是,也可以不包括该步骤,而直接应用标准语言模型中 已经统计出的多个单词组及其概率,在其上执行后续的步骤 410。
以上的各个实施例虽然是结合基于短语的统计机器翻译系统而描述的,但是, 本发明同样能够应用于其他类型的基于语料库的机器翻译系统、例如基于层次短语的统 计机器翻译系统和基于实例的机器翻译系统等,并且对于这些其他类型的基于语料库的 机器翻译系统而言,也能够得到类似的优异效果。
因此,本发明还提供一种应用了上面的图 1 所示的为句子获得加权语言模型概 率的方法的基于语料库的机器翻译方法。 图 5 是该方法的流程图。
如图 5 所示,该方法首先在步骤 505,获得源语言的待翻译句子。
在步骤 510,利用基于语料库的机器翻译系统,根据现在已知或将来可知的翻译 模型,为该待翻译句子生成多个候选译文。
在步骤 515,利用图 1 所示的为句子获得加权语言模型概率的方法,分别为上述 多个候选译文计算加权语言模型概率。
在步骤 520,参考上述加权语言模型概率,从上述多个候选译文中选择出上述待 翻译句子的最终译文。
本领域技术人员可以理解,在本步骤中,可以直接根据候选译文的加权语言模 型概率,从多个候选译文中选择出最终译文,也可以将加权语言模型概率与利用其他翻 译模型 ( 例如,短语翻译模型,词翻译模型等 ) 得到的概率结合在一起来进行译文的选 择。
以上就是对本实施例的基于语料库的机器翻译方法的详细描述。 在本实施例 中,通过为候选译文获得基于句子结构的加权语言模型概率,并且参照各候选译文的加 权语言模型概率选择出最终译文,能够更准确地选择出高质量的译文,从而使机器翻译 的性能得到提高。
下面以具体例子来对比基于短语的机器翻译系统在基于加权语言模型概率时的 译文生成质量与在基于标准语言模型概率时的译文生成质量。
例如仍以前面的待翻译句子 “I would like a middle seat.”为例,假定基于短语的 统计机器翻译系统同样为其得到了两个候选译文 :
T1 :( 我想要 )( 一个中等的 )( 座位 )(。 )
T2 :( 我想要 )( 一个中间的 )( 座位 )(。 )
其中,候选译文 T1 由短语 “我想要”、 “一个中等的”、 “座位” 和 “。” 组成。 此外,候选译文 T2 由短语 “我想要”、 “一个中间的”、 “座位” 和 “。” 组 成。
基于上述情况,下面的表 4 示出了上述候选译文 T1、T2 中与语言模型概率的计算有关的各 3-gram( 单词组 ) 的概率以及分类,其中候选译文 T1 与 T2 中不同的部分用 X 来代替。
表4
基于上表所示的各个 3-gram 的概率以及分类,下面的表 5 示出了采用标准语言 模型为候选译文 T1、T2 计算的标准语言模型概率,以及将 C1 类和 C2 类的权重分别设定 为 0.7 和 1.3 时采用本发明的加权语言模型的概念为候选译文 T1、 T2 计算的加权语言模 型概率。
表5
从上表 5 可以看出,在不考虑句子的结构的标准语言模型的情况下,为候选译 文 T1 计算出来的语言模型概率相对较高,从而基于短语的统计机器翻译系统将根据该计 算结果选择出候选译文 T1,而不是质量较高的候选译文 T2,从而导致基于短语的统计机 器翻译系统的较差的译文生成质量。
相对于此,在本发明的考虑了句子的结构的加权语言模型的概念的情况下,由 于对句子中的重要组成部分 (C2 类 ) 指派了相对高的权重,使该部分的重要性相对放大, 进而使候选译文 T1、T2 相互之间在该重要组成部分上的差距放大,所以能够针对高质量 的候选译文 T2 获得相对高的语言模型概率,进而使该高质量的译文最终被选择出。
上述例子虽然是针对基于短语的统计机器翻译系统而举出的,但是,对于采用 了本发明的其他类型的基于语料库的机器翻译系统而言,也能够得到类似的优异效果。
在同一发明构思下,本发明提供一种为句子获得加权语言模型概率的装置。 下 面结合附图对其进行详细描述。
图 6 是根据本发明实施例的为句子获得加权语言模型概率的装置的方框图。 如 图 6 所示,本实施例的为句子获得加权语言模型概率的装置 60 包括 :单词组及其概率确 定单元 61、权重设定单元 62、权重调整单元 63、语言模型概率计算单元 64。
具体地,单词组及其概率确定单元 61 为给定的句子,确定其中与语言模型概率 的计算有关的各个单词组及其概率。
在一个实施例中,上述各个单词组及其概率,是预先根据单语文本语料统计出 并且相对应地记录在一起的。
权重设定单元 62 根据句子的结构,为上述与语言模型概率的计算有关的各个单 词组分别设定反映该单词组对于句子流利度的影响程度的权重。 具体地,对于越能够影 响句子流利度的单词组,设定越高的权重。
在一个实施例中,权重设定单元 62 根据句子的结构,按类为上述各个单词组确 定权重。
在进一步的实施例中,权重设定单元 62 将上述各个单词组划分为被一个短语所 包含的单词组和跨至少两个短语的单词组两类,并且对于跨至少两个短语的类别,与上 述被一个短语所包含的类别相比,设定相对高的权重。
在另一个实施例中,权重设定单元 62 将上述各个单词组按照单词组中所包含的 短语的数量划分为多个类别,并且对于包含短语数量越多的类别,设定越高的权重。
权重调整单元 63 利用开发集,按类对上述各个单词组的权重进行精确调整,该 开发集包括多个源语言句子以及与该多个源语言句子对应的参考译文。 语言模型概率计算单元 64 对于上述各个单词组,利用其权重对其概率进行加 权,并且根据上述各个单词组的加权后的概率,为上述句子获得加权语言模型概率。
在一个实施例中,语言模型概率计算单元 64 根据上式 (3),利用上述与语言模 型概率的计算有关的各个单词组的权重对该单词组的概率进行加权,从而为该句子近似 地获得加权语言模型概率。
以上就是对本实施例的为句子获得加权语言模型概率的装置的详细描述。
在同一发明构思下,本发明提供一种构建加权语言模型的装置。 下面结合附图 对其进行详细描述。
图 7 是根据本发明实施例的构建加权语言模型的装置的方框图。 如图 7 所示, 本实施例的构建加权语言模型的装置 70 包括 :单词组及其概率统计单元 71、模型构建单 元 72。
具体地,单词组及其概率统计单元 71 根据单语文本语料,统计出多个单词组及 其概率。 当然,也可以不包括该单词组及其概率统计单元 71,而直接采用标准语言模型 中已经统计出的多个单词组及其概率。
模型构建单元 72 基于上述多个单词组及其概率,构建加权语言模型,该加权语 言模型对于句子中与语言模型概率的计算有关的各个单词组,利用该单词组的权重对该 单词组的概率进行加权,并且根据上述各个单词组的加权后的概率,为该句子获得加权 语言模型概率。 其中,句子中与语言模型概率的计算有关的各个单词组的权重是根据句 子的结构设定的、用于反映该单词组对于句子流利度的影响程度的权重。 具体地,对于 越能够影响句子流利度的单词组,设定越高的权重。
在一个实施例中,上述句子中与语言模型概率的计算有关的各个单词组的权重 是按类设定的。 进而,上述各个单词组的权重是利用开发集进行了精确调整的,该开发 集包括多个源语言句子以及与该多个源语言句子对应的参考译文。
在一个实施例中,模型构建单元 72 构建这样的加权语言模型,该加权语言模型 能够根据上式 (3),利用上述句子中与语言模型概率的计算有关的各个单词组的权重对该 单词组的概率进行加权,从而为该句子近似地获得加权语言模型概率。
以上就是对本实施例的构建加权语言模型的装置的详细描述。
下面描述本发明的应用了上述为句子获得加权语言模型的装置或构建加权语言 模型的装置的基于语料库的机器翻译系统。
图 8 是根据本发明实施例的基于语料库的机器翻译系统的方框图。 如图 8 所示, 本实施例的基于语料库的机器翻译系统 80 包括图 6 的为句子获得加权语言模型概率的装 置 60 或利用图 7 的构建加权语言模型的装置 70 构建的加权语言模型、译文生成单元 81。
具体地,译文生成单元 81 根据翻译模型为待翻译的句子生成多个候选译文,并 且利用上述为句子获得加权语言模型概率的装置 60 或加权语言模型,分别为该多个候选 译文获得加权语言模型概率,并且参考该多个候选译文的加权语言模型概率,从该多个 候选译文中选择出上述待翻译的句子的最终译文。
以上就是对本实施例的基于语料库的机器翻译系统的详细描述。
本实施例的为句子获得加权语言模型概率的装置 60、构建加权语言模型的装置 70 以及基于语料库的机器翻译系统 80 及其各个组成部分,可以由专用的电路或芯片构 成,也可以通过计算机 ( 处理器 ) 执行相应的程序来实现。 以上虽然通过一些示例性的实施例对本发明的为句子获得加权语言模型概率的 方法和装置、构建加权语言模型的方法和装置以及基于语料库的机器翻译方法和系统进 行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的 精神和范围内实现各种变化和修改。 因此,本发明并不限于这些实施例,本发明的范围 仅以所附权利要求为准。