不连续短语的匹配翻译装置和方法 本发明涉及语言自动翻译领域,更具体地,涉及在语言自动翻译领域中翻译不连续的短语。
随着因特网在全世界范围的日益普及,跨国、跨世界的使用者与日俱增。现在人们普遍利用屏幕单字捕捉技术提供不同语言的动态翻译,解决言语不通的问题。这种屏幕单字捕捉技术是利用软件厂商提供的底层操作,施加在双语浏览软件上,为使用者快速阅览其它语种资料提供了便利。
为了改进语言屏幕捕捉的相关性和准确度,人们又提出了短语屏幕捕捉技术,这项技术在单字识别的基础上向前跨了一步。它能够将一串带有变化字形的短语进行整体识别和翻译,同时保持了识别速度以及实时性,受到用户的欢迎。
但是这类短语捕捉实时翻译软件只能识别固定搭配的短语,如英语中的as a matter of fact,keep up with等。众所周知,在各种语言中,既存在固定搭配的短语,也存在大量的非固定长度的短语。比如在英语句子acquaintseveral students of our class with the recent advances中,several students ofour class是短语acquaint....with中的一个名词性成分,其长度是不确定的,我们将这类短语称为不连续短语。在进行不连续短语的匹配时,除了要将各个单词进行匹配以判别这些单词是否能组成短语外,还需要判断长度不确定的成分是否符合该短语的语法。而目前市场上的现有实时翻译产品都不能处理这些短语。
因此,本发明的一个目地是提供一种不连续短语匹配装置,对各种语言中的不连续短语进行识别和翻译。
本发明的另一个目的是提供一种不连续短语匹配方法,对各种语言中的不连续短语进行识别和翻译。
上述目的是通过以下方式实现的。
本发明的不连续短语匹配装置包括:句子获取装置,该装置从一篇文章或位置片断的指定的位置获取一个句子,并将句子拆分成多个单词;变形词辨析装置,若一个单词被变形了,该装置可根据该变形词取得其原形;短语辨析装置,该装置用于根据输入的单词,将有关的短语信息位置取出并送到短语索引装置中;短语索引装置,该装置根据短语辨析装置的输入,将涉及有关单词的短语全部取出,根据所确定的规则进行匹配;以及语法规则快速确认装置,该装置根据相关的语法规则,判断所识别出的语言成分是否符合语法规则。
本发明的不连续短语匹配方法包括下述步骤:
1)句子获取步骤,该步骤从一篇文章或一段文章中取得要处理的句子;
2)变形词辨析步骤,该步骤查询在步骤1)所取得的句子的指定位置的单词,如果该单词已被变形,取得其原形的信息;
3)短语辨析步骤,该步骤根据变形词辨析步骤的结果,获得短语信息,确定在指定的位置处是否存在不定长语言成分,判断查询的方向;
4)短语索引步骤,该步骤根据上述步骤所获得的短语信息,进行短语成分的检索和识别;
5)语法规则确认步骤,该步骤根据上述识别的结果,判断所识别的结果是否符合规定的语法规则,确定识别成功否。
下面将结合附图对本发明以及其实施例作进一步的说明,以更清楚地理解本发明。
图1是根据本发明的不连续短语匹配装置的一个实施例的框图。
图2是根据本发明的不连续短语匹配装置的一个实施例的有关数据库示意图。
图3是根据本发明的不连续短语匹配方法的的一个实施例的流程图。
图1是根据本发明的不连续短语匹配装置的一个实施例的框图。该实施例包括句子获取装置,变形词辨析装置,短语辨析装置,短语索引装置和语法规则快速确认装置。其中句子获取装置从显示屏幕上当前光标所在处获取文章中的一个句子和光标位置,并将句子拆分成一系列的单词,然后将所获得的单词送入变形词辨析装置。变形词辨析装置包括变形单字库211和原形单字库212,参见图2A,该装置从光标处的单词开始查询单词信息,如果该单词是变形词,则根据变形单字库211和原形单字库212检索到原形单字信息。若查询成功,在原形单字库中取出该单词的信息;如果查询失败,返回空的单词信息;该信息库的基本结构是:原形单词原形单词索引号变化方式语法属性
短语辨析装置包括有短语单词索引库和短语信息库,参见图2B,在短语单词索引库中按照顺序存储有短语单词的索引,该短语辨析装置根据输入的单词的索引从该短语信息库中将短语信息取出。该短语的信息结构如下:短语位置表位置前语言成分信息表位置后语言成分信息表连续词短语信息表
该短语辨析装置将所检索出的短语信息送到短语索引装置。短语辨析装置在收到短语索引装置返回的单词数不够的信息时,就通过变形词辨析装置取出下一单词,并重复进行。短语索引装置包括短语索引库和短语数据库,该短语索引装置根据输入的单词,按照多重排序的方法将以这些单词开始的短语记录全部取出;短语数据记录的数据结构如下:允许变形单词位置表示哪一位单词可以变化短语语法属性允许变形单词必须按短语语法属性变化规则变形第一位单词变化规则该位置单词必须按变化规则变化第二位单词变化规则…第一位语言成分位置该位置的单词前是否存在不定长的语言成份,语言成份的规则第一位语言成分位置第二位语言成分位置第二位语言成分规则
当短语索引装置发现检查的单词总数小于比较的短语单词总数时,转到短语辨析装置,短语辨析装置返回单词数不够信息,然后由变形词辨析装置取下一单词。如果两者的个数相同,就进行匹配。如果匹配成功,该装置还要检查该短语是否是最大匹配,关于最大匹配,在下文将具体解释。如果发现有非固定长度的语言成分,就将该非固定长度的单词语法属性和与其有关的语法属性送到语法规则快速确认装置,判断该语言成分是否符合规定的语法规则。语法规则快速确认装置包括语法索引库和语法规则库,该装置利用规约的手段对输入的语言成分进行确认,返回确认的结果给短语索引装置。
现在参照图3的流程,对利用上述不连续短语匹配装置进行不连续的短语匹配的方法的各步骤进行描述。
首先在句子获取步骤中从一篇文章或文章片断中取得一个完整的句子以及指定位置的单词,如步骤101所示。然后,由变形词辨析步骤将由步骤101取得的单词进行变形词识别,获得指定单词的原形单词信息,如步骤102所示,然后将识别的结果信息送入短语辨析步骤,进行步骤103所示的操作。在方框103中,短语辨析步骤根据步骤102获得的单词信息,从相应的数据库中取出其对应的短语信息,如果当前的单词不可能与其它词组成短语,就返回变形词辨析步骤取出下一单词,否则进行步骤105。在步骤105,短语辨析步骤根据所取得的短语信息,确定查询方向,直接移至假定的短语的第一个单词的位置,若所取的短语信息成功,则记录,通过短语位置表循环操作,得到对应的短语信息,重复本步骤,可以确定要查找的短语的第一位单词在句子中的位置,可长可短的短语成分在句子中的大致范围,最后逐一将每条位置短语信息传给步骤107,由短语索引步骤进行操作。在步骤107,短语索引步骤首先搜索单词对应的短语数据,包括:短语中单词容许的变化形式,必须按规则变化的单词变化规则,可长可短的语言成分位置和规则。将短语数据与短语信息进行比较。在步骤108,如果判断出指定的短语是连续短语,则转入步骤109,利用已有的方法进行翻译,由于这种翻译方法在现有技术中是公知的,在此不再赘述。如果在步骤108判断该短语是不连续短语,则进入步骤110。在步骤110,语法规则快速确认步骤根据短语索引装置所送来的短语信息中相关的可长可短的语言成分和对应的短语数据中可长可短的语言成分规则,进行语法规则判断。如果在步骤111判断出所指定的不连续短语符合语法规则,则确认匹配无误,进入步骤112进行翻译。否则进入步骤106,寻找其它的短语成分。
这里要说明的是,由于短语形式复杂,在不连续短语匹配中会遇到同一单词对应多个短语的现象。因此,短语索引装置在第一次匹配成功后,并不立刻对之翻译,而是将短语数据储存在存储器中,在以后匹配成功时要将新的短语数据与存储器中的短语数据进行比较,如果新的短语单词总数大于存储器中的短语数据的单词总数,则将新的短语数据存入存储器中以代替前一短语数据,以找到短语的最大匹配。如果新的短语单词总数等于存储器中的短语数据的单词总数,则将新的短语数据添加存入存储器中。如果新的短语单词总数小于存储器中的短语数据的单词总数,则返回短语匹配失败信息。
下面以识别英语中的不连续短语为例对上述的不连续短语匹配装置和方法进行进一步说明。
假设现在获得一个英语句子:
My teacher acquainted several students of our class with the recentadvances this morning.
假定acquaintrd是某单词的变化形,通过变形词辨析装置搜索查出acquainted的单词信息如下:原形单词acquaint原形单词索引号4145变化方式过去式或过去完成式语法属性动词
如果搜索后未查出单词,说明该字符串非单词,装置返回未查到信息,所有装置停止运行。
通过短语辨析装置,读取acquaint的短语信息如下:短语位置短语位置表位置前语言成分信息表位置后语言成分信息表连续短语信息表第一位1011
上表中,短语位置域表示一个单词在短语中的位置。短语位置表表示该单词是否为短语主位,若置1,则表示为主位,置0表示不是主位。位置前语言成分信息表域若置1,表示在该单词之前可存在可长可短的短语,否则置0。位置后语言成分信息表若置1,表示该单词之后可存在可长可短的短语。否则置0。连续短语信息表若置1,表示该单词后可以与另一单词匹配成短语,否则置0。如果上述各域均置为0,表示该单词仅为单词而已,不会与其它词匹配为短语。应停止进行当前匹配或继续进行下一单词的分析。
本例中acquaint仅是短语中的第一个单词,不可能出现在短语中的第二或第三位置处。该过程从acquaint的短语信息中得到三个结论:
1)acquaint只能是短语中的第一个单词;
2)在acquaint之后可以存在可长可短的短语成分;
3)acquaint与其后的单词也能组成连续短语。
然后,短语辨析装置根据取得的短语信息确定向后查短语,并逐一与其后单词匹配,查到能与with组成短语:
1)acquaint和with能组成不连续短语;
2)several students of our class是在acquainted.....with之间的可长可短的语言成分;
3)the recent...是在with之后的可长可短的语言成分。
接下来,短语索引装置获得短语信息后,搜索acquaint,with对应的短语,获得短语数据是:允许变形单词1(表示第一位单词可以变化)短语语法属性动词(第一位单词必须按动词变化规则变形)第一位单词变化规则第二位单词变化规则原形第一位语言成分位置2(表示在第二位单词前)第一位语言成分规则名词性成分第二位语言成分位置3(表示在第三位单词前)第二位语言成分规则名词性成分
短语索引装置按以下步骤检测语言成分:
1)several students of our class是在with之前的可长可短的语言成分;
2)several students of our class五个单词的单词信息中的变化方式和语法属性及第一位语言成分规则和名词性成分送入语法规则快速确认装置;
3)语法规则快速确认装置根据送入的数据与相关的语法规则匹配,断定这五个单词组成的语言成分符合名词性成分规则,返回匹配成功;
4)the recent...是在with之后的可长可短的语言成分,但在短语单词最后,语法规则快速确认装置返回匹配成功。
接下来,短语索引装置按照acquaint...with...短语数据的要求判断是否为短语:
1)acquaint可以是单词的变化方式;
2)with必须是原形单词。
在上面的例子中,acquainted是acquaint的过去式或过去完成式,属于单词的变化方式,这里所指的变化方式包括:第三人称单数,进行式,过去式和过去完成式;with是原形单词,所以acquainted several students of ourclass with the recent...对应短语acquaint...with....
该过程再次循环,确认acquaunt...with...已是最大范围,返回查到短语信息,并将acquaint...with...数据送给显示设备显示和进行翻译。
很显然,本发明不限于两个字的不连续短语,任何其它组合,只要短语中字词有所中断均可用上述装置和方法翻译分析,比如说三个以上不连续的单词组成的短语,或不连续的短语中有连续的短语,均可同样处理。
在同一个单词可以与不同的单词组成不同的短语时,本发明会对每一种可能进行匹配,获得最佳和最大范围的匹配和翻译。
本发明对短语前后的可长可短的语句并无限制,因此对于不连续短语中包含不连续短语的情况,本发明同样能够发现和翻译。
虽然本发明中只以英语为例进行了说明,但很显然这里描述的本发明完全能够处理任何语言中的不连续短语。
本领域的普通技术人员在本发明所公开的内容的基础之上,可以进行各种变形和修改,而不脱离本发明的精神和范围。因此本发明的保护范围以所附的权利要求为准。