获悉词组之间的转换关系的统计方法和装置.pdf

上传人:a3 文档编号:647334 上传时间:2018-03-01 格式:PDF 页数:39 大小:2.16MB
返回 下载 相关 举报
摘要
申请专利号:

CN200310120457.8

申请日:

2003.11.18

公开号:

CN1503161A

公开日:

2004.06.09

当前法律状态:

授权

有效性:

有权

法律详情:

专利权的转移IPC(主分类):G06F 17/28变更事项:专利权人变更前权利人:微软公司变更后权利人:微软技术许可有限责任公司变更事项:地址变更前权利人:美国华盛顿州变更后权利人:美国华盛顿州登记生效日:20150505|||授权|||实质审查的生效|||公开

IPC分类号:

G06F17/28

主分类号:

G06F17/28

申请人:

微软公司

发明人:

R·C·摩尔

地址:

美国华盛顿州

优先权:

2002.11.20 US 10/300,309

专利代理机构:

上海专利商标事务所

代理人:

李家麟

PDF下载: PDF下载
内容摘要

本发明通过接收一个并行对齐的语料库而或许短语转换关系,该语料库具有要被获悉在源语言中被标识的短语。产生目标语言中的候选短语并且根据源语言短语和候选短语内单词的单词关联得分而计算一个内部得分。根据源语言短语和候选短语外单词的单词关联得分而计算一个外部得分。将内部得分和外部得分组合以获得一个共同得分。

权利要求书

1: 一种标识源语言中的短语与目标语言中的短语之间的转换关系的方法, 包括: 接收对对齐的多单词单元对的存取,一个是源语言中的源单元和另一个是 目标语言中的目标单元,该源语言短语在源单元中被标识; 在目标单元中产生至少一个候选短语,该候选短语是源语言短语的一个假 定转换; 计算每个候选词组的得分,该得分包括基于源语言短语和候选短语之内的 单词之间的关联的一内部分量以及基于源语言短语和候选短语之外的单词之间 的关联的一外部分量;以及 根据该得分标识源语言短语的候选短语之间的转换关系。
2: 根据权利要求1所述的方法,其中多单词单元对包含源单元中的一单词 和目标单元中的一单词,其具有表示源单元和目标单元中的单词对之间的关联 程度的单独词关联得分。
3: 根据权利要求2所述的方法,其中计算得分的步骤包括: 计算表示源语言短语中的单词和候选短语中的单词之间的关联程度的内部 得分;以及 计算表示源语言短语外的源单元中单词和候选短语外的目标单元中的单词 之间的关联程度的外部得分。
4: 根据权利要求3所述的方法,其中计算得分的步骤包括: 组合该内部和外部得分以获得一个共同得分;
5: 根据权利要求4所述的方法,其中标识转换关系包括: 根据该共同得分标识源语言短语和候选短语之间的转换关系。
6: 根据权利要求1所述的方法,其中产生至少一个候选短语包括: 根据单独单词关联得分产生候选短语。
7: 权利要求5所述的方法,其中源单元中的每个单词具有用于对与其最关 联的包括空单词这样的目标单元中的一单词进行表示的一单词关联,以及用于 对与其最关联的包括空单词这样的一单词源单元中的一单词进行表示的一单词 关联,并且其中接收存取包括: 产生最关联的单词对的出现次数。
8: 权利要求5所述的方法,进一步包括: 检测候选短语中的大写模式;以及 根据大写模式调整共同得分。
9: 权利要求8所述的方法,其中检测大写模式包括检测下列中的至少一个: 第一模式,其中候选短语中的第一个单词以大写字母开始; 第二模式,其中候选短语中的第一个单词不以大写字母开始,而候选短语 中的一个或多个随后单词以大写字母开始;以及 第三模式,其中候选短语中没有单词以大写字母开始。
10: 权利要求9所述的方法,其中根据大写模式调整共同得分包括: 当检测到第一模式时,应用第一大写得分; 当检测到第二模式时,应用第二大写得分; 当检测到第三模式时,应用第三大写得分。
11: 权利要求3所述的方法,其中计算内部得分包括: 通过以下来标识内部单词对: 对于源语言短语中的每个单词,根据单词关联得分来标识包括空单词在内 的候选短语中的与其最关联的一单词;以及 对于候选短语中的每个单词,根据单词关联得分来标识包括空单词在内的 源语言短语中的与其最关联的单词。
12: 权利要求11所述的方法,其中计算内部得分进一步包括: 对于每个内部单词对,产生一个内部单词对概率,该概率表示一个单词在 内部单词对中的出现会具有内部单词对中另一个单词作为其最关联的单词;以及 组合内部单词对概率。
13: 权利要求12所述的方法,其中计算外部得分包括: 通过下述来标识外部单词对: 对于源单元中的源语言短语之外的每个单词,根据该单词关联得分来标识 目标单元中包括空单词在内的候选短语之外的与其最关联的单词;以及 对于目标单元中候选短语之外的每个单词,根据该单词关联得分来标识源 单元中包括空单词在内的源短语之外的与其最关联的单词。
14: 权利要求13所述的方法,其中计算外部得分进一步包括: 对于每个外部单词对,产生一个外部单词对概率,该概率表示一个单词在 外部单词对中的出现会具有外部单词对中的另一个单词作为其最关联的单词; 以及 组合外部单词对概率。
15: 权利要求14所述的方法,其中计算共同得分包括: 组合内部和外部单词对概率。
16: 权利要求1所述的方法,其中产生候选短语包括: 标识目标单元中与源语言短语中的一单词最关联的目标语言单词;以及 标识目标单元中的目标语言单词,其具有与源语言短语中的一单词最关联 的单词。
17: 权利要求16所述的方法,其中产生候选短语进一步包括: 产生候选短语作为目标单元中的单词序列,把候选短语限制为以被标识的 目标语言单词开始和结束的短语。
18: 权利要求17所述的方法,其中产生候选短语进一步包括: 产生进一步的候选短语,所述候选短语以大写字母开头的目标语言单词开 始,并且以被标识的目标语言单词结束。
19: 权利要求5所述的方法,其中标识短语转换关系包括: 根据在整个语料库中多少时间一次产生候选短语作为源语言短语的转换,来修 改与每个候选短语关联的共同得分,使候选短语获得一个新的共同得分。
20: 权利要求19所述的方法,其中修改共同得分包括: 产生了一计数,该计数即多少时间一次根据共同得分将语料库中的每个源 语言短语转换为给定的候选短语。
21: 权利要求20所述的方法,其中修改共同得分包括: 根据所产生的计数来估算每个候选短语的新内部得分。
22: 权利要求21所述的方法,其中修改共同得分进一步包括: 将换算因子应用到所述新内部得分以获得一个经换算的内部得分。
23: 权利要求22所述的方法,其中修改共同得分进一步包括: 将经换算的内部得分与每个候选短语的外部得分组合以获得每个候选短语 的新共同得分。
24: 权利要求19所述的方法,其中标识短语转换关系包括: 通过下述将新共同得分转换为期望形式: 对于每一对单元和每个源语言短语,根据新共同得分将一个候选短语标识 为该源语言短语最可能的转换以及为所标识的候选短语指定计数。
25: 权利要求24所述的方法,其中转换包括: 根据所述新共同得分计算对数似然比得分。
26: 权利要求25所述的方法,其中转换进一步包括: 对于每个单元对以及每个源语言短语,根据对数似然比得分为最佳候选短 语指定计数。
27: 权利要求26所述的方法,其中转换进一步包括: 根据所指定的计数计算新的对数似然比得分。
28: 权利要求27所述的方法,其中转换进一步包括: 反复进行指定计数和计算新对数似然比得分的步骤,直到最佳候选短语稳 定为止。
29: 一种为多单词源单元中所标识的源语言短语标识多单词目标单元中的 短语转换的系统,包括: 单独单词关联模型,用于根据源和目标短语内单词间的单词关联以及源和 目标短语外单词间的单词关联产生一个或多个候选短语和每个候选短语的得分
30: 权利要求29所述的系统,其中源和目标单元为一对齐语料库的一部分,而 且进一步包括: 交叉语句模型,用于根据遍历预料库为源语言短语产生的其它候选短语来 修改所述得分,以便获得修改得分。
31: 权利要求30所述的系统,进一步包括: 转换模型,用于将修改得分转换为一个期望的置信度,用于表示与作为所 述源语言短语的转换的候选短语相关联的置信度。
32: 一种在目标语言中的多单词目标单元中产生候选短语的方法,所产生 的候选短语作为源语言内多单词源单元中所标识的短语的假定转换,所述方法 包括: 标识目标单元中的第一目标语言单词,它们与源语言短语中的一个单词最 关联; 标识目标单元中的第二目标语言单词,它们在源语言短语中具有与其最关 联的一个单词;以及 产生候选短语作为以第一或第二目标语言单词开始或结束的短语。
33: 权利要求32所述的方法,其中产生候选短语进一步包括: 产生附加的候选短语作为以大写字母开头的单词开始并且以第一或二目标 语言单词结束的短语。

说明书


获悉词组之间的转换关系的 统计方法和装置

    【技术领域】

    本发明涉及获悉词组之间的转换关系。具体地说,本发明涉及一种用于获悉不同语言的词组之间的转换关系的统计方法。

    背景技术

    机器翻译系统是这样一种系统,它接收一种语言的文本输入,将其转换为第二种语言,并且提供一个第二种语言的文本输出。在该过程中,这种系统典型地使用了一个转换词典以获得实义词之间的对应,或者获得实义词之间的转换关系,所述实义词是在训练期间获得的。

    一种从经验数据中导出转换词典的普通方法,包括在并行的两种语言主体的对齐的句子中选择第一语言L1的单词与第二语言L2的单词之间的关联度量度。然后根据选择的关联度量度,通过排列来定制单词对(由来自L1的单词和来自L2的单词组成)。选择一个阈值,并且以关联度高于这个阈值的所有单词对形成转换词典。

    例如,在现有方法中,相似度(单词之间的关联度变量)是单词以在对齐地文本主体区域(也就是句子)中同时出现单词的频率为基础的。计算不同单词对的关联得分,并且以单词对的关联得分的降序存储这些单词对。此外,选择一个阈值以及将那些关联得分超过这个阈值的单词对变为转换词典的条目。

    然而,这个类型的方法具有缺陷。一个问题就是关联得分是典型的彼此无关独立地计算的。例如,假定在语言L1中的单词由符号Vk代表,其中k是一个表示L1中的不同单词单词的整数;并且语言L2中的单词由Wk代表,其中k是一个表示L2中的不同单词单词的整数。因此,V的和W的序列表示两个对齐的文本部分。如果Wk和Vk发生在类似的两种语言的环境中(也就是在对齐的句子中),那么就会在它们之间产生高关联得分,其反映了它们分布的相互依存关系。

    然而,假设Vk和Vk+1也出现在类似环境中(也就是,在相同的句子中)。在这种情况下,在Vk和Vk+1的分布之间仍然存在一个强的相互依存关系。因此,这个问题导致了如果Wk和Vk发生在类似的两种语言的环境中,并且Vk和Vk+1也出现在类似环境中,则Wk和Vk+1也会出现在类似环境中。由于其只借助于Wk和Vk以及Vk和Vk+1之间的关联发生的,所以把这种关联做间接关联。在前的彼此无关地计算关联得分的方法不能区别直接关联(例如,Wk和Vk之间的关联)和间接关联(例如,Wk和Vk+1之间的关联)。不奇怪的是,这生成了充满了间接关联的转换词典,该间接关联同时或许是不正确的。

    作为间接关联的一个具体例子,设想一个对照法-英语料库,其基本由计算机软件操作手册组成。在这种语料库中,英文名词“file system”和“system files”发生频繁。类似地,相应的法文名词“syst me defichiers”和“fichiers syst me”也常常同时出现。由于仅用一种语言的共同场所很普遍,所以虚假转换对fichier/system和syst me/file也会得到较高的关联得分。实际上,这些得分可能高于许多真实转换对的得分。

    通过一些先有技术已经解决了这种不足。例如,在美洲加拿大的蒙特列尔市举行的“机器翻译的关联”(AMTA 1996)第二次会议上,Melamed在“Automatic Construction of Clean Broad-Coverage Translation Lexicons”中指出了这个问题。

    Melamed是这样解决这个问题的:如果高度关联单词对是从对齐的句子中得到的,该对齐的句子中还存在更高度关联的其包括一个或两个相同单词的的单词对,那么就忽略高度关联单词对。换句话说,假定较强的关联更可靠,并且因此直接关联强于间接关联。因此,如果一个含有V的部分(或句子)与含有W和W`两者的部分(或句子)对齐,整体(V、W)和(V、W`)将不会出现在转换词典中。如果它们出现在转换词典中,则至少其中一个可能为错误的。由于我们假定存在有直接关联强于间接关联的倾向,因此将最高关联得分的条目选作正确关联。

    在上述讨论的例子中,在英语方含有“file”和“system”和在法语方含有“fichier”和“syst me”的平行英文和法文句子中,由于在相同对齐的句子中,fichier/file和syst me/system的关联度很可能高的多,因此将忽略fichier/system和syst me/file的关联。

    虽然该发表的方法将高精度输出提高到比先前发表的更高的覆盖水平上,但是它还是具有缺陷。例如,要实现它是相当复杂和麻烦的,并且确信要运行它是非常耗时的。

    在获悉单词间转换关系的过程中所碰到的另一个难题是涉及复合词(或用来一起构成复合词的多个单词单词)单词。这种复合词可以转换为另一个语言的一个单词单词,或者转换为另一个语言的多个单词。现有技术假定词典转换关系只包括单个单词。当然,这显然是不正确的,这从随后列出的复合词的表中可以看出:

    Base_de_donnees/database

    Mot_de_passe/password

    Sauvegarder/back_up

    Annuler/roll_back

    Ouvrir_session/log_on

    在上述列出的第一到第四对中,将一种语言的复合词转换为另一种语言的单个单词。可是,在最后一对中,一种语言的复合词被转换为另一种语言的复合词,并且不能以任何有意义的方式把该复合词的每一个独立部分转换为另一个复合词中的一个独立部分。例如,典型地被转换为“open”的“ouvrir”不能被合理地转换为“log”或“on”。类似地,典型地被转换为“session”的“session”也不能被合理地转换为“log”或“on”。

    一种也是由Melamed论述的先有技术:“Automatic Discovery of Non-Compositional Compounds in Parallel DATA”.Conference on Empirical Methods inNatural Language Processing(EMNLP 97)Providence,Rhode Island(1997),该技术试图解决这种问题Melamed所提出的包括两个转换模型,一个包括候选复合词的试验转换模型和一个没有包括候选复合词的基础转换模型。如果在实验转换模型中的Melamed的目标函数的值大于在基础模型中的值,则认为该复合词是有效的。否则,则认为该候选复合词无效。但是,Melamed用于选择可能的复合词的方法很复杂并且计算费用昂贵,这可通过构建一个试验转换模型来查证。

    很少注意获悉大的短语之间的转换关系。短语转换已被视为非对称的或对称的转换,并且已被指向固定短语或更灵活的词的搭配上。如果假定一源语言给出了一组短语,并且任务是在目标语言中找到其转换,则这种系统是非对称的,而对称系统将这个问题视为在两个语言中寻找短语。类似地,如果假定一源语言短语的转换是目标语言中的单词的邻接序列,则这种系统指向固定短语。

    在下述文献中阐明了仅有的在前的非对称及以固定短语为目标的作品,该文献即就是“Dagan and hruch,Termight:Coordinating Humans and Machine inBilingual Terminology Acquisition”,机器转换,12:89-107,(1997)。这种系统是一个词典编纂者的自动助理,以及提议了一个使用单语方法从语料库中抽取出的技术名词,并且对于已被用户认可的那些名词,提议尽可能地从一个并行语料库转换。

    在下述文献中提出了一种指向灵活的词的搭配的非对称系统,即:Smadja et a1“Translating Collocations for Bilingual Lexicons:A Statistical Approach”,ComputationalLinguistics,22(1):l-38(1996)。对称系统的例子展示在:J.Kupiec的“An Algorithmfor Finding Noun Phrase Correspondences in Bilingual Corpora”,Proceeding of 31 stAnnual Meeting of Association for Computational Linguistics,Columbus,Ohio pp.17-22(1993);和k.Yamamoto et al.的“A Competitive Study on Translational Unitsfor Biingual Lexicon Extraction”,Proceedings of the Workshop on Data-DrivenMachine Translation,39th Annual Meeting of Association for ComputationalLinguistics,Tollouse,France pp.87-94(2001)。

    【发明内容】

    本发明通过接收一个并行对齐的具有要获悉的短语的语料库来获悉短语转换关系,该短语在源语言中被识别。产生了目标语言的候选短语,并且基于该源语言短语和候选短语之内的单词的单词关联得分来计算内部得分。基于在该源语言短语和候选短语之外的单词的单词关联得分来计算外部得分。将内部和外部得分组合以获得共同得分。

    在一个实施例中,根据如何遍历整个语料库来转换短语,修改该共同得分。根据短语怎样在整个语料库中被转换而修改内部得分。根据交叉语料库数据对内部得分进行修改和加权。

    在另一个实施例中,将已修改得分转换成一个方便的诸如对数似然性比率这样的转换置信度。

    本发明的另一个方面包括一个短语转换关系获悉系统,其包括三个模型。第一个模型为一个独立的单词关联模型,它根据独立的单词关联得分计算候选短语的得分。第二个模型根据交叉语句数据对第一模型所计算的得分进行修改,该交叉语句数据表示如何通过语料库来转换源语言短语。第三个模型为一个量度转换模型,它将来自第二个模型的短语转换得分转换为一个所期望的置信度,基于该转换解决在大多数短语转换中可能的变化。

    本发明的另一个实施例也包括一种获悉短语转换的方法和系统,包括遍历整个语料库来查看转换数据(基于内部和外部得分),对内部得分进行修改和加权以及将得分转换为一个所期望的置信度。

    另一个实施例为一种用于在短语转换获悉组件中产生候选短语的系统和方法。候选短语的产生根据与源语言短语中的单词最相关的单词开始并结束,反之亦然。任选地,候选短语的产生可以目标语言语句中的一个大写单词开始。

    【附图说明】

    图1为可在其中使用本发明的一个通用语境的框图。

    图2A为可在其中使用本发明的通用机器转换结构的详细框图。

    图2B为根据本发明一个实施例的可使用的一个短语转换获悉系统的框图。

    图3为根据本发明一个实施例的一个短语转换获悉者的框图。

    图4为说明图3所示短语转换获悉者的全部操作的流程图。

    图5A和图5B示出根据本发明一个实施例的一个说明独立的单词关联得分模型的操作流程图。

    图6说明根据本发明一个实施例的内部得分的计算。

    图7说明根据本发明一个实施例的外部得分的计算。

    图8为根据本发明一个实施例的说明候选短语产生的流程图。

    图9A和图9B说明为了产生候选短语而处理的对齐的语句。

    图10为根据本发明一个实施例的说明交叉语句模型的操作的流程图。

    图11为根据本发明一个实施例的说明置信度转换模型的操作的流程图。

    【具体实施方式】

    由于本发明可以同样用于其他的环境中,因此下面只是简单地以一个在其中能够使用本发明的一个示例实施例来对图1进行论述。

    图1是根据本发明一个示例实施例的一个计算机20的框图。图1和相关的论述是用来提供一个在其中能够完成本发明的适当计算环境的简单的、一般的说明。由个人计算机执行的在诸如程序模型这样的计算机可执行指令的一般环境方面,尽管不需要描述,但是本发明至少部分地描述。通常,程序模型包括常规的程序、对象、组件,数据结构等等用于执行特定任务或者实现特定摘要数据类型。另外,本领域技术人员应意识到是本发明也可以与其他系统配置一同实施,其它系统配置包括手持式设备、多处理器系统、基于微处理器的或可编程的消费者电子装置、网络PC、微型计算机,大型计算机等等。本发明也可以在分布式计算环境中实施,其中由通过通信网络而链接的远程处理设备来执行任务。在此分布式计算环境中,程序模型可位于本地和远程存储器装置两者之中。

    在图1中,用于实现本发明的一个示例性系统包括一个传统个人计算机20形式的通用计算设备,其包括处理单元21、系统存储器22,以及将包括系统存储器的各种系统组件耦合于处理单元21的总线23。系统总线23可为几种总线结构类型的任何一种,该总线结构类型包括系统总线或系统控制器、外围总线以及使用多种总线结构的任何一种的本地总线。系统存储器包括只读存储器(ROM)24和随机存取存储器(RAM)25。将含有基本程序的基本输入/输出26存储到ROM24中,该基本程序是诸如启动这样的有助于在个人计算机20中的组件之间传送信息。个人计算机20另外包括用于读取或将写入硬盘(未示出)的硬盘驱动27,一个用于读取或写入可移动磁盘29的磁盘驱动28,和一个用于读取或写入可移动光盘31的诸如CD ROM或其他光介质的光盘驱动30。硬盘驱动27、磁盘驱动28和光盘驱动30分别通过一个硬盘驱动接口32、磁盘驱动接口33和光盘驱动接口34与系统总线34连接。这些驱动和其相关的计算机可读介质提供计算机可读指令、数据结构,程序模型和个人计算机20的其他数据的非易失存储。

    虽然这里所描述的示范环境使用了硬盘、可移动磁盘29和可移动光盘31,但是本领域技术人员应意识到其它类型的可存储由一个计算机访问的数据的计算机可读介质也可以用在该示范操作环境中。其它类型的计算机可读介质诸如为磁带、闪存卡、数字视盘、伯努利盒式磁带机、随机存取存储器(RAM),只读存储器(ROM)等等。

    可将若干程序模块存储在硬盘、磁盘29、光盘31,ROM 24或RAM 25上,该程序模型包括操作系统35,一个或多个应用程序36,其他的程序模块37和程序数据38。用户可以通过一个诸如键盘40和指示设备42这样的输入装置将命令和信息输入到个人计算机20。其它的输入设备(未示出)可包括麦克风、游戏杆、游戏板、圆盘式卫星天线,扫描仪等等。这些和其他的输入装置通常通过一个耦合于系统总线23的串行接口45连接到处理单元21,但也可以通过诸如声卡、并口、游戏接口或者通用串行总线(USB)这样的其他接口连接。监视器47或其它类型的显示设备也通过诸如视频适配器48这样的接口与系统总线连接。除了监视器47之外,个人计算机可以典型地包括其他诸如扬声器和打印机(未示出)这样的外围输出设备。

    个人计算机20可在一个使用逻辑连接到一个或多个诸如远程计算机49这样的远程计算机的网络环境中运行。远程计算机49可以是另一个计算机、一个服务器、一个路由器、一个网络PC,一个对等设备或其他网络节点,并且虽然在图1中只描述了一个存储器存储设备50,但其典型地包括上述的与个人计算机20有关的一些或全部组件。图1所描述的逻辑连接包括一个局域网(LAN)和一个广域网(WAN)52。这样的网络环境在办公室,企业广域计算机网络内部网和国际互联网中是常见的。

    当个人计算机20在LAN网络环境中使用时,个人计算机20通过一个网络接口或者适配器53与局域网51相联。当个人计算机20在WAN网络环境中使用时,个人电脑20一般包括一调制解调器54或其他用于与诸如因特网这样的广域网52建立通信的装置。调制解调器54经由串行接口46连接到系统总线23,该调制解调器54可以是内部调制解调器也可以是外部调制解调器。在网络环境中,与个人计算机20相关的所编写的程序模块或其中的一部分可存储于远程存储器存储设备。应理解的是示出的网络连接是示范性的而且也可以使用其它的在计算机之间建立通信的设备。

    可以使用本发明来得出在任何环境或语境中的短语之间的转换关系。将要描述的机器转换结构仅仅是一个环境或语境。

    虽然本发明不需要逻辑表,但其所描述的与图2A所示的机器转换结构有关。因此,在详细描述结构之前,对逻辑表作简要的描述是必要的。对逻辑表的完整且详细的描述以及一种用于产生逻辑表的系统和方法可在下述文献中找到,即授权为“METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICALFORMS FROM SYNTAX TREES”的美国专利号5966686(Heidom等人,于1999年10月12日公布)。然而简短地说,逻辑表是通过在一输入文本上执行形态分析以生成习惯的短语结构分析而生成的,该短语结构分析增强了语法关系。要对句法分析作进一步的处理以便得出图表结构的逻辑表,该图表结构描述了文本输入中的实义词之间的标记相关性(labeled dependencies)。逻辑表规格化确定的语法交替(例如,主动语态/被动语态)并且分析内部指代和远距离相关性两者。

    具体地,一个逻辑关系由两个通过指向关系类型(例如,Part、Time、Hypemym、LogicalSubject、Cause、Domain、Location、Manner、Material、Means、Modifier、Possessor、Purpose、Quasihypemym、Synonym、LogicalObjec和User)连接的单词构成。逻辑表是一个用于表示诸如句子这样的单独文本输入的连接逻辑关系的图表。它包括最少一个逻辑关系。逻辑表描绘了结构关系(也就是语法和语义关系),尤其描绘了输入字符单词串中的重要单词之间的论证(argument)和/或附属关系。

    在该机器转换结构的一个示例性实施例中,机器转换系统所操作的各种源和目标语言共享其可根据语法分析而建立了逻辑表的特殊代码。由于两种语言的表面清楚的结构常常失败于类似的或同一的逻辑关系表现形式上,因此所共享的结构极大地简化了使来自不同语言的逻辑构成部分对齐的任务。

    图2A是为本发明定义了环境的一个实施例的机器转换系统200的结构框图。系统200包括分析组件204和206、统计单词关联获悉组件208、逻辑表对齐组件210、词汇知识库构造组件212、双语词典214,词典合并组件216,传送映射数据库218以及更新的双语词典220。在运行期间,系统利用分析组件222,匹配组件224,传送组件226和生成组件228。

    在一个示例性实施例中,使用一个双语语料库来训练该系统。该双语语料库包括对齐的转换语句(例如,在诸如英语这样的源语言或目标语言中的语句与在诸如西班牙语或法语这样的另一种源语言或目标语言中的它们的转换语句相对齐等等),其中要被获悉转换关系的源语言短语被标识或者被以某种方式标记。在训练期间,从对齐的双语语料库中向系统200输送语句作为源语言语句230(要被转换的语句)并且作为目标语言语句232(源语言语句的转换)。分析组件204和206对来自对齐的双语语料库的语句进行分析以便生成源逻辑表234和目标逻辑表236。在分析期间,句中的单词被转换为规格化的单词形式(词条)并且将其输送到统计单词关联获悉组件208。由单词获悉组件208对单词和多单词关联两者迭代地假定以及记分直到获得各自的可信赖的一组为止。统计单词关联获悉组件208输出获悉的单词对238以及多单词对240。将多单词对240提供给词典合并组件216,该词典合并组件216用于将附加的条目增加到双语词典214中以构成更新后的双语词典220。这些新的条目代表多单词对240。将单词对238以及源逻辑表234和目标逻辑表236一同提供给逻辑表对齐组件210。组件210首先在源逻辑表230和目标逻辑表236中的节点之间分别建立试验性的词汇对应关系。这是通过使用来自双语辞典(或双语词典)214的转换对完成,该双语辞典214由于来自统计单词关联获悉组件208的单词转换对238而扩大。词典214也由于图2B所描述的短语转换对而扩大。在建立了可能的对应关系后,对齐组件210根据词汇特征和结构特征两者使逻辑表节点对齐,并且创建逻辑表传输映射242

    基本上,对齐组件210利用双语辞典信息214、单词对238和下述的短语对在逻辑表之间作出链接。根据利用其即可在源逻辑表234和目标逻辑表236中找到传输映射的频率来过滤传输映射,并且将其提供到词汇知识库构造组件212。

    在一个例子中,虽然任何期望的频率可同样用作一个过滤器,但如果在训练数据中至少两次没有发现该传输映射,则不将其用于构造传输映射数据库218。应注意的是,除了出现的频率之外,也同样可以使用其它过滤技术。例如,传输映射的过滤可以基于它们是否从输入语句的完整的短语中构成以及基于是否用于创建该传输映射的逻辑表被完全对齐。

    组件212构造传输映射数据库218,该数据库218含有传输映射,基本上将一种语言的逻辑表或其中的一部分链接到第二种语言的逻辑表或者其中的一部分。由于由此构造了传输映射数据库218,因此系统200现在被配置成用于运行时间转换。

    在运行时间期间,将要被转换的源语言语句250提供到分析组件222。分析组件222接收源语言语句250并且访问一个在下面讨论的单语词典并且基于该源语言语句输入而分析源语言语句250以生成一个源逻辑表252。

    将源逻辑表252提供到匹配组件224。匹配组件224尝试将源逻辑表252匹配到传输映射数据库218中的逻辑表以获得一个链接的逻辑表254。多传输映射可和源逻辑表252的一部分相匹配。匹配组件224在数据库218中寻找最好的一组匹配传输映射,该数据库218具有匹配词条、说话部分以及其它的特征信息。较大的(更具体的)传输映射可示例性地优于较小的(较普通的)传输。在同等规模的映射中,匹配组件224可示例性地选择较高频率的映射。映射也可以和源逻辑表252的重复部分相匹配,只要它们在任何方式下都不冲突。

    在找到了最佳的一组匹配传输映射之后,匹配组件224在源逻辑表252中的节点上创建链接到传输映射所接收到的对应目标逻辑表部分的链接以生成链接的逻辑表254。

    传输组件226从匹配组件224接收链接逻辑表254并且创建一个目标逻辑表256,其构成目标转换的基础。这是通过对所链接逻辑表254执行一个自顶向下的遍历而完成的,其中组合由源逻辑表252节点之上的链接所指向的目标逻辑表部分。当为了尽可能复杂的多单词映射而将逻辑表部分组合在一起时,由在单独节点之间匹配组件224设定的子链接用于确定修改量的正确附着点(attachment point),例如如果需要将使用默认的附着点。

    在没有找到可应用的传输映射的情况下,将源逻辑表252中的节点以及它们的关联简单地复制到目标逻辑表256中。对于这些节点来说,仍然可以在传输数据库218中找到默认的单词以及短语转换,并且将这些单词以及短语转换插入到目标逻辑表256中。然而,如果没有找到,可例证性地从对齐期间所用的已更新的双语词典220中获得转换。

    生成组件228例证性地为一个基于规则的、独立应用的生成组件,它从目标逻辑表256映射到目标字符串(或者输出目标语言语句)258。生成组件228可例证性地不具有关于输入逻辑表的源语言的信息,并且排它地使用传输组件226传送给它的信息工作。生成组件228也例证性地使用这个信息与单语(例如,对于目标语言)词典一起生成目标语言语句258。因此,一类生成组件228对每个语言都是足够的。

    图2B是一个用于获悉短语转换以及扩大图2A所示系统中所使用的单语词典和双语词典的系统300的更详细的方框图。系统300从一个对齐的双语语料库中获悉短语转换并且被用于扩大双语词典216以获得更新后的双语词典220,并且用于扩大单语词典302以获得更新后的单语词典304。该单语词典304由分析组件204和/或242(图2A所示)在训练时间使用,并且由分析组件222在运行时间期间使用。这些附图标记与与图2A所描述的相同,并且被类似地编号。

    如关于图2A所描述的那样,将源语言语句230和目标语言语句232是来自对齐训练语料库的对齐语句。将语句230和232提供给分析组件204和242。分析组件204和242对语句进行分析以及通过标记多短语来标记(tokenize)这些语句。这些标记语句由标记的源语言语句310和标记的目标语言语句312来指示。该分析器可以标记多种多单词短语。

    将标记语句310和312输入到短语转换获悉组件400。短语转换获悉组件400从标记的源语言语句310中选择重要的短语。短语转换获悉组件400于是可获悉所选择的标记源语言短语与它们在对齐的目标语言语句中的转换之间的关联,并且如方框410所指示的那样,输出转换对和它们的关联得分。

    将短语对和关联得分410提供给词典合并组件216,后者把分析对和得分合并到双语词典216内以生成更新后的双语词典220。词典合并组件216还用被标识为所选源语言短语的转换的目标语言短语来扩大单语目标语言词典302,以获得更新后的单语目标语言词典304。这个更新后的单语词典结合了最近获悉的目标语言短语,因此可更好的执行如对图2A所描述的逻辑表对齐的输入语句进行分析。另外,更新后的双语词典中所获悉的转换关系改善了自身的对齐性能。

    知道了上述语境后,现更具体地继续进行关于获悉短语转换的讨论。本发明可用于解决出现在分析未加工的输入文本中产生的问题。如在背景部分所描述的那样,对转换短语作了非常少的工作。解决这个问题甚至更难,这是因为在许多类型的文本中,短语不是以它们常用的方式使用而是被用作特定领域某些事物的名称,这在技术文本尤其如此。例如,语句“Click to remove the View AsWeb Page check mark.”包括具有不定式动词短语的语法形式的术语“View As WebPage”。然而,在该语句中,其好像被用作一个专有名词。如果分析器不识别该短语的特定应用,则事实上不可能正确地分析这个语句。

    在英语中,这类表达式可以以直接方式来处理,这主要是因为英语中的大写惯列使得易于辨别这些类型的短语。将标记器应该被视作编入词汇的多单词表达式,该标记器在对诸如“View As Web Page”这样的大写单词序列进行分析猜测之前来标记输入文本。这种多单词的子类在这里被认为是“captoids”。

    然而,识别这些captoids的转换是非常困难的。这主要是因为其它语言(例如,诸如法语和西班牙语这样的语言)的大写惯例是仅大写这种表达式的第一个单词。因此,尽管在英语中以相对直接地方式确定captoids的起点和终点,但对于其它语言是非常困难的。

    本发明可用于识别captoids的转换,并且可以将它们加到分析器所使用的单语词典以及机器转换系统中各个其它位置处所使用的双语词典中,这样就可以准确地分析和转换captoids。本发明利用了这样的事实,即在英语中以直接方式可以识别这种captoids,并且同样利用本发明的那些可用于识别复合词的特征。图3更详细地说明了根据本发明一个实施例的短语转换获悉组件400。短语转换获悉组件400适于获悉包括captoids在内的短语之间的关联,但实质上同样适用于其它短语。

    图3说明了组件400接收到标记语句310和312并且将标记的对齐语句提供给三个不同的模型处理。首先,将对齐语句310和312提供给单独的单词关联得分模型404,然后提供给交叉语句模型406,最后提供给输出转换对和关联得分410的置信度转换模型408。

    组件400接收到已对齐的、已标记的语句310和312,其短语在源语言语句中被识别并且因此自动获悉目标语言语句中的对应短语。目标语言短语可从转换对和关联得分410中抽取出并且被加到训练期间和运行时间分析目标语言时所使用的词典中。另外,可将转换对加到双语转换词典214(图2A和图2B所示)中。

    组件400同样可以对逻辑表进行操作而不是对标记语句进行操作。另外,组件400可用于机器转换器的外部。例如,组件400可用于形成一词典或者用于简单地生成短语转换得分或关系中。

    图4是一个能较好地说明图3所示的组件400的全部操作的流程图。组件400首先接收并行对齐语句,其要被转换的短语在源语言语句中被标识。这由方框420表示。应注意的是,假定将要被转换的短语被转换成目标语言作为目标语言中的连续单词序列。另外,如果要被转换的短语以源语言语句中完全相同的形式出现在目标语言中,则假定那个语句中的对应短语被转换的概率为1.0。

    在任何情况下,将对齐的已分析的并且已标记的语句提供给系统400中单独的单词关联得分模型404。模型404可例证性地与统计单词关联获悉器208的一部分对应,该获悉器208为上述单词对和多单词对计算单词关联得分,除了在计算单词关联得分之前将多单词分解为构成它们的单个单词以外。换句话说,源语言语句中的单词(Ws)与目标语言语句中的单词(Wt)之间的关联度的计算是根据:Ws在该语料库的源语言(S)部分的语句中发生的频率以及Wt在语料库的目标语言(T)部分的语句中发生的频率,并且与Ws和Wt在语料库的对齐语句中一起发生的频率相比较。

    已经使用了单词关联量度,它提供一个得分,指示训练语料库中单词对之间的统计单词关联。一种这样的量度就是对数似然比,这是由Dunning在“Accurate Methods for the Statistics of Surprise and Coincidence.ComputationalLinguistics”,19(1):61-74(1993)中所描述的。这个统计量用于将训练数据中语言1中的单词或词条(WL1)的全部频率与给定语言2中单词或词条(WL2)时语言1中的单词和词条(WL1)的频率比较(也就是WL1出现在L1的语句中的频率,其中L1的语句与其中出现WL2的L2的语句对齐)。由于应用了对数似然比,因此不变地提供了一个似然性量度,在WL1和WL2之间观察到的肯定关联不是偶然的。

    为其计算关联得分的单词对的列表也可以被删除。换句话说,计算单词关联得分的处理生成了大的训练语料库的大量单词(词条)对的关联得分。因此,在一个示例性实施例中,切除该组单词对以限定对这些具有至少一些机会被认为转换对的对作进一步的处理。一个例证性的启发式的将这个阈值设定为一对单词或词条的关联度,该一对单词或词条具有一个共同发生的、正的彼此每个的发生。

    模型404利用对数似然比统计量来计算已对齐句子中单词对的单词关联得分。这由图4种的方框422说明。

    根据这些得分,单独的单词关联得分模型404为源语言语句中每个所识别的短语假定目标语言语句中的一个候选短语。模型404然后将语句对分割成该语句对的部分,该部分位于已识别的源语言短语和候选短语中,并且将语句对分割成位于已识别的源语言短语和候选短语外部的语句部分。

    虽然已经证明对数似然比统计量是用于获悉单个单词转换关系的极好基础(得分越高,关联就越可能是真实的转换关系),但是难以将单独的单词对的得分组合到候选短语转换的共同得分中。

    因此,模型404从内部和外部部分的单词关联得分中生成概率(它可被轻易地组合)。这将在关于图5A和图5B中详述。然而,简短地说,模型404通过对最强关联的关联概率的对数求和来为目标语言语句的内部计算联合概率,反之亦然。最强关联可以在源语言短语与候选短语转换中的单词之间找到。这种联合概率称为内部得分。将内部得分加到最强关联的关联概率的对数的和中,可以为未在被识别的源语言短语中的源语言单词找到最强关联的其未在候选短语转换中的目标语言单词,反之亦然。这称为外部得分。因此,如果一个没有在候选转换中的目标语言单词具有与一个在被识别的源语言短语中的源语言单词相关联的高的概率,则候选转换很可能获得一个比没有包括该特定目标语言单词的另一个候选转换低的得分。

    模型404于是任选地计算并且应用一个大写概率得分,该大写概率得分被加到内部得分上并且其是为几种大写模式所估算的一个记录概率。这也将在下面关于图5A和图5B中详述。由图4中块424说明模型404的应用。

    然后将部分得分提供给交叉语句模型406。模型406具有这样一效果,即考虑到齐语料库中所有句子的特定短语转换的趋势。如果一个给定的短语在几个语句中具有一个清楚的优选转换,则可考虑为一个语句中的该短语选择一个转换。在所述语句中单独的单词关联概率遗弃了不清楚的短语的转换。

    虽然模型406的应用将在关于图10中较详细地描述,但是这里为了清楚起见,将简短地描述。模型406使用对数代替在模型404中所产生的内部得分。该对数是通过直接估算源语言短语中出现给定候选短语的条件概率以及直接估算候选短语中出现给定源语言短语的条件概率产生的。于是换算修改的内部得分然后将其与基于原始单词关联的外部得分相组合。修改的内部得分的初始值是通过使用模型404来估算出的并且使用EM算法对其进行重复地估算。说明性质的,这是通过如果它们是记录概率则对共同得分进行处理并且通过估算模型404向前传输的每个源语言短语地一组候选转换来规格化共同得分而实现的。交叉语句模型406的应用由图4中的块426说明。

    然后将修改的得分提供给置信度转换模型408,其应用于这些得分。这将在关于图11中详述。简短地说,模型408利用基于整个短语的对数似然比来代替源语言中被识别的短语的条件概率以及它在目标语言中的候选转换的组合,并且删除该短语和候选转换外部的上下文。使用维特比再估算(Viterbi re-estimation)来重复计算模型参数。当再估算收敛时,根据整个短语的对数似然比量度获得最后一组短语转换得分。这产生一致的一组对数似然比得分以用作短语转换对410的置信度。模型408的应用由图4中的方框428说明。如图4中的方框430所示那样输出最后的短语转换对和关联得分。

    现将较详细地描述本发明的短语转换方面。图5A和5B为较好地说明了根据本发明一个实施例的模型404的操作的流程图。在应用模型404之前,已经如上所述地计算出所有单个单词关联。另外,识别源语言语句中的其将被转换的所有短语。

    为了从单词关联得分中得出可组合的概率,模型404首先选择一对语句(也就是源语言中的一个语句和它在目标语言中的对齐语句)。这由图5A中的方框500来指示。然后,模型404为每一个源语言语句中的单词(Ws)识别目标语言语句中的与Ws强关联的单词(Wt),保持这些最强关联的总数。这由图5A中的方框502指示。

    然后,模型404为每一个目标语言语句中的单词(Wt)识别在源语言语句中的与Wt最强关联的单词(Ws),再次保持这些最强关联的总数。这由方框504指示。为如方框506所示的每个对齐语句对执行此处理。

    由于单词关联得分是根据对数似然比计算的,所以它们难于彼此组合以获得短语转换。由于概率可被容易地组合,因此模型404将从该总数中估算概率。具体地,为每个单词Ws,模型404根据所产生的总数来估算Ws中出现给定单词Wt的概率以,该给定单词即就是作为其对应对齐语句中的最强关联的单词。这由方框508指示。

    类似地,为每个单词Wt,模型404根据总数中估算Wt中出现给定单词Ws的一个概率,该给定的单词Ws即就是作为其对应对齐语句中的最强关联的单词。这由方框510指示。

    使用一个已知的诸如众所周知的充分图灵机(Good-turing)平滑方法这样的已知平滑技术使所估算的概率由此变得平滑。使经验估算概率分布平滑的目的是将一些小的概率分配给训练数据中从没有观察到的事件。也就是,一些或所有所观察到的事件以及分布在可能的组上但没有观察到的事件的经验观察概率减少了一定量。如果不执行这种类型的平滑方法,则所有在训练数据中没有观察到的事件将被分配0概率。

    我们最关心的是避免将0概率分给这种类型的事件,也就是在该类型的事件中不知道源语言语句或目标语言语句中的单词与其他语句中任何一个单词相关联。这是由于自由转换导致发生的,所以在源语言或目标语言语句中的特定单词都不具有字面上的转换;或者是由于在一种语言中的功能单词在另一种语言中没有对应的单词所导致的。例如,在一种语言中由前置词表达的关系可以完全由另一种语言中的具有其不能表达这种关系的特定单词的单词顺序来指示。

    为了模拟其中一种语言中的单词在另一种语言中没有单词与之关联的情形,我们使用了“空”单词的概念,我们将其视为在每个语句中(或一个语句的一部分)出现。当我们发现一个给定的单词与在另一个语言中的任何单词没有已知的关联时,在所述的语句对中我们将其归类这样的情形,即其中最强关联的单词为“空”。在我们对当前描述的概率进行平滑应用中,将所有从观测到的事件中取出的概率分配给将源语言和目标语言单词关联到“空”单词的事件。可例证性地使用众所周知的充分图灵机(Good-turing)方法来计算从观测的事件中所扣除的概率数量,并且将其应用于所观测的事件。该事件的出现次数小于在训练数据中的具体的某一小数目的次数(例证性地为10次)。

    在计算了这些平滑的概率之后,模型404然后再次仔细检查所有的语句对,选择一个语句对并且为每一个在对应的源语言语句中所识别的短语产生一列每一个语言语句的候选短语。这由方框511和512来说明并且随后将详细描述关于图8的应用。这样说也就足够了,即在每个对齐的语句对中,对于源语言中的一个识别短语而言,在目标语言语句中假定一个或多个候选短语(可能包括空单词)。模型404然后继续计算与每个候选短语关联的得分。

    为了每个语句对和该对的源语言语句中的每个被识别的短语,模型404因此如方框514所指示的那样首先选择一个候选目标语言短语。模型404然后根据源语言的被识别的短语和目标语言的候选短语来分割源语言和目标语言语句。这可在谈到图6时得到较好的说明。

    例如,假定源语言语句516具有所示的单词S1-S8。假定对齐的目标语言语句518具有所示的单词T1-T8。图6进一步示出源语言语句518的要被转换的短语通过括号括住术语S3-36来标识,并且用数字520来标识。由522处的圆括号来标识当前正在计算其得分的候选短语。如此,将源语言语句516和目标语言语句518两者分割为在短语520和522中的一部分语句和在短语520和522的之外的一部分语句。

    模型404然后根据上述的平滑的关联概率计算内部得分。这由图5B中的方框524指示。在计算内部得分过程中,模型404首先根据平滑的关联概率为源语言语句516的短语520内部的每个单词确定目标语言语句518中的哪个单词(同样也在候选短语522的内部)最可能与源语言语句中的单词最关联。“空”单词被视为候选短语522的一部分,并且也可为最可能与源语言语句中的单词最关联。

    因此,模型404首先确定短语522中的哪个单词可能与短语522中的单词S3最关联。可看出对应的最关联的单词为T2。然后对短语520中的每个剩余单词这么做,与源语言单词S6一样,可以看出源语言单词S4与目标T3最关联。同时,源语言单词S5与目标语言单词T4最关联。

    双向执行这种操作,如此模型404为候选短语522中的每个目标语言单词确定源语言短语520中的哪个单词与之最相关。为了这个目的,仍将“空”单词视为源语言短语的一部分。可看出的是目标语言单词T2可能与源语言单词S3最关联,目标语言单词T3可能与源语言语句单词S4最关联,并且目标语言单词T4可能与源语言单词S5最关联。

    一旦已经标识了在源语言短语520和候选短语522中的最佳单词对,通过使用它们乘积的对数来组合这些单词对的概率。例如,由等式1所说明的那样,其中与已标识的目标语言单词最关联的每个源语言单词的概率和与已标识的源语言单词最关联的每个目标语言单词的概率被彼此相组合。

    等式1

    Log(P(s3→t2))·P(t2→s3)·P(s4→t3)·P(t3→s4)·P(s5→t4)

    ·P(t4→s5)·P(s6→t3))

    这是如图5B中的方框524所说明的所计算的内部得分。

    接着,模型404以同样的方式为语句516和518计算外部得分。这由方框526指示。换一句话说,如图7所示的那样,模型404为短语520之外的每个源语言单词确定候选短语522之外的哪个目标语言单词可能与其最关联。类似地,为候选短语522之外的每个目标语言单词确定被标识短语520之外的哪个源语言单词可能与其最关联。

    由图7所示的箭头来说明一个例证性的这些相似的确定。如等式2所示的那样组合概率。

    等式2

    Log(P(s1→t1)·P(t1→s1)·P(s2→t6)·P(t6→s2)·P(s7→t5)

    ·P(t5→s7)·P(s8→t7)·P(t7→s8))

    然后如图5B中的方框528所说明的那样将内部和外部得分相加。这可被看作由模型404在分析短语520和短语522之间的转换关系中所计算的基础得分,并且如方框527所指示的那样为每个语句对重复这样的操作。通过将得分分配给两个部分(短语的内部和外部),本发明对标识单词作出了比现有的先有技术好的工作,该标识单词应归入在源语言语句中的标识短语的转换。

    对于每个语句对和每个标识源语言短语,候选目标语言转换与它们的内部和外部得分一起被存储,如此在进一步的处理情形中不必再计算这些。为了使所需要的存储器最小化又使后面处理的数量最小化,为每个语句对和每个识别源语言短语所存储的候选短语的数目可任选地消减到最高得分候选短语的某一数目(例证性地为15个)。

    在处理了整个语料库之后,为了进一步减少所需的随后处理数量,每个标识源语言短语的候选目标语言转换的总数可任选地进一步被消减到整个语料库中的最可能的候选转换的某数目(例证性地为15个)。整个语料库中的每个标识源语言短语的最可能的候选转换可以通过使用如下述的参考模型406所描述的EM算法的E步骤来获得每个候选者的加权计数来标识。

    如果源语言语句的将被转换的短语为一个captoid,则模型404也可以应用一个反映候选短语的大写模式的相似度的附加概率。当然,这是可任意选择的并且可除去所不希望的。在任何情况下,在模型404这部分中可以示例性地考虑不同数目的大写模式。例如,在标识短语是一个captoid并且候选短语的第一个单词大写的情况下,例证性地与第一个、相对高概率的单词关联。在候选短语中没有首字母大写的情况下,例证性地与第二个、较低概率的单词关联。最后,在候选短语的第一个单词没有大写而在候选短语中的其它单词大写的情况下,例证性地与第三个、很低概率的单词关联。根据其具有每个语句对和每个标识源语言短语的最高转换概率(最高的内部得分加上外部得分)的候选短语来初始估算大写概率。

    将大写概率的对数例证性地加到先前为短语转换所计算的内部得分上。当然,对于所标识的源语言短语而言,具有最高转换概率的候选短语可能是变化的。因此,反复地应用大写概率以及反复地重复计算转换得分和大写概率,直到具有最高转换得分的候选短语稳定为止。大写概率的应用由图5B中的方框530说明。

    在详细描述模型406之前,参考图8继续当前的描述,图8说明了如何假定或如何在目标语言语句中产生候选短语的流程图。多种不同技术可用于产生候选短语。例如,可以将每个目标语言语句的所用可能的子序列假定为一个候选短语。但是,这可能会花费所不期望的时间和计算资源。因此,根据本发明的一个示例性实施例,启发式假定候选短语。、

    根据本发明的一个实施例,为了在目标语言语句中产生一个候选短语,模型404选择源语言语句中的每个单词。为源语言语句的每个单词在目标语言语句中寻找在整个目标语句范围内与源语言语句的单词最关联的单词。这由方框602指示。为了标识这些最关联的单词,不考虑“空”单词。

    模型404然后假定候选短语可开始于与源语言语句520中的单词(Ws)最关联的每个单词(Wt)。这可根据图9A来较好地得到说明并且也可由图8中的方框604说明。图9A示出目标语言语句中的单词T2与源语言短语中的单词S3最关联。因此,模型404假定候选短语开始于单词T2。

    模型404同样假定候选短语可开始于每个Wt,该每个W1具有来自标识源语言短语520的与其最关联的一单词Ws。这由方框606指示并且被图9B作了较好的说明。图9B示出在短语520之内的源语言语句S4与目标语言单词T3最关联。于是,模型404就假定候选短语块开始于单词T3。

    模型404也假定候选短语同样以最关联的单词结束。因此,假定候选短语可结束于与源语言短语520中的单词(Ws)最关联的单词(Wt)。这由方框608指示。类似地,模型假定候选短语可结束于具有来自标识源语言短语520的与其最关联的单词Ws的Wt。这由方框610来指示。

    作为一个附加的典型的步骤,模型404可将目标语言语句的所有大写单词标识为候选短语的可能的开头单词。这由图8中的方框612指示。

    最后,产生了所有可能的开始于被标识的可能的开头单词并结束于所选择的开始单词之后的被标识的可能的结尾单词的候选短语。这由方框613指示。

    已经发现通过仅仅使候选短语开始于或结束于与被标识源短语最关联的单词,我们减少了包括有功能单词的似然性。其中在转换过程中不需要这些单词。功能单词可为未决的,这是因为它们通常没有跟任何单词最关联并且因此概率将不会为包括有其不必被包括的单词而消耗模型。因此,当前的技术解决此问题。

    虽然模型404考虑在对齐语句中的短语部分之内和之外的信息,但是它不考虑如何通过语料库中的其它语句对来已标识的短语进行标识。因此,模型406考虑了这个信息。在模型406中,将EM算法的E步骤应用于语料库和在模型404中所计算的转换对的得分。模型406因此计算多少次将每个源语言短语转换为目标语言单词的一选择序列,该次数是由模型404分配给每个可能的转换(在如上所所述的典型消减后)的规格化概率来加权的,模型404将得分看作记录概率。

    例如,假定在一个特定语句对中,我们正确地将两个目标语言序列标识为一个特定源语言短语的候选转换。假定第一候选者的模型404得分等于0.0001的对数,并且第二候选者的模型404得分等于0.0009的对数。根据EM算法的E步骤,我们通过将它们与所选择的一共因数相乘以使使结果和等于1来规格化这些概率,其分别给出0.1和0.9作为两个候选者的规格化的概率。然后我们将0.1加到第一候选者以源语言短语的转换形成出现的次数的加权计数上,并且将0.9加到第二候选者以源语言短语的转换形式出现的次数的加权数上。如图10中的方框700所说明的在齐语语料库中应用EM算法的E步骤。

    模型406于是直接从加权数中估算新的内部得分。这由方框702指示。例如,如果在语料库中的一个特定源语言短语的出现次数为10并且由EM算法的E步骤为作为其转换的一个特定候选目标语言短语所计算的加权数为7,则模型406分配要被转换为候选短语中的目标语言单词序列的源语言短语的概率为0.7(7/10)。类似地我们计算作为该源语言短语的一个转换的候选短语的出现次数。因此如果候选短语的出现次数总共为20,那么模型406分配其即就是该源语言短语的转换的候选短语的概率为0.35(7/20)。两个概率乘积的对数构成了新的内部得分的基础。因此,模型406利用了与如何通过整个语料库来转换源语言语句中的已标识短语有关的信息。

    然而,这种技术造成了一个换算问题。因为内部和外部得分要被组合,仅仅将新的内部得分的概率与组成外部得分的一些概率组合或导致将太多的加权放置在短语的外部而在内部得分上没有足够的加权。为了阻止此发生,我们需要换算新的内部得分以便如旧内部得分的变化那样的展示。对于所有出现的在语料库中的被标识的源语言短语的最可能的转换,我们通过计算旧内部得分(没有包含大写概率)的标准偏差以及新的内部得分基础的标准偏差来计算一个适当的换算因子。

    这些标准偏差是衡量旧内部得分和新内部得分基础的变化程度,如此我们通过新内部得分基础与由这些两个标准偏差的比率组成的换算因子相乘来换算新内部得分,产生了一个具有与旧内部得分一样标准偏差的新换算的内部得分。如图10中的方框704所指示的那样将这个换算因子应用于新的内部得分基础。

    初始估算模型406得分是新的换算的内部得分和旧外部得分之和。对这些得分进行求和如方框707指示。然而,由于大写概率的引入,这改变了每个语句对中的竞争转换候选者的相对概率。因此我们为每个语句对反复地重新估算转换概率、加权计数,以及结果短语转换概率直到在每个语句对中的每个被标识的源语言短语的最可能的转换不再变化为止。这由方框709指示。模型406因此产生一组新的其考虑了整个语料库的转换影响的最可能的转换。这由方框711指示。将这组最可能的转换提供给模型408。

    图11是较详细地说明模型408的操作的流程图。如方框749所指示的那样,模型408接收来自模型406的最可能的转换。如上所述,对数似然比得分是一个很好的指示器,其指示由多少可靠度置于假定的转换关系上。因此期望转回到对数似然比得分。

    为了每个语句对和每个被标识短语,模型408接收来自模型406所计算的被标识短语的最可能转换并且将数值1给予这个最可能的转换。这由图11中方框750指示。模型408然后返回检查语料库并且根据该数值为所有的候选短语再计算对数似然比得分。这由方框752指示。

    为每个语句和每个被标识短语,模型408找出并且对刚计算的对数似然比得分所给定的最好转换进行计数。这由方框754指示。模型408然后根据新的计数来计算新的对数似然比得分。这由方框756指示。该新的对数似然比得分可标识不同的短语转换。因此,模型408重复步骤754和756直到最好的短语转换保持相同、或稳定。这由方框758指示。

    如方框760所示的那样,一旦最好的转换已经稳定了,模型408就输出等级次序转换对和得分。

    因此可以看到本发明提高了导出captoids和其他类型短语的转换关系的能力。

    尽管已经参考具体的实施例描述了本发明,本领域工作人员将认识到在不脱离本发明的精神和范围的情况下,可在形式上或细节上对本发明做出变化。

获悉词组之间的转换关系的统计方法和装置.pdf_第1页
第1页 / 共39页
获悉词组之间的转换关系的统计方法和装置.pdf_第2页
第2页 / 共39页
获悉词组之间的转换关系的统计方法和装置.pdf_第3页
第3页 / 共39页
点击查看更多>>
资源描述

《获悉词组之间的转换关系的统计方法和装置.pdf》由会员分享,可在线阅读,更多相关《获悉词组之间的转换关系的统计方法和装置.pdf(39页珍藏版)》请在专利查询网上搜索。

本发明通过接收一个并行对齐的语料库而或许短语转换关系,该语料库具有要被获悉在源语言中被标识的短语。产生目标语言中的候选短语并且根据源语言短语和候选短语内单词的单词关联得分而计算一个内部得分。根据源语言短语和候选短语外单词的单词关联得分而计算一个外部得分。将内部得分和外部得分组合以获得一个共同得分。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1