模糊翻译系统及其方法.pdf

摘要
申请专利号：	CN200810212309.1	申请日：	2008.09.08
公开号：	CN101673259A	公开日：	2010.03.17
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/28公开日:20100317\|\|\|实质审查的生效IPC(主分类):G06F 17/28申请日:20080908\|\|\|公开
IPC分类号：	G06F17/28; G06F17/30	主分类号：	G06F17/28
申请人：	英业达股份有限公司
发明人：	邱全成; 罗隽
地址：	台湾省台北市士林区后港街66号
优先权：
专利代理机构：	北京安信方达知识产权代理有限公司	代理人：	龙洪;霍育栋
PDF下载：	PDF下载

内容摘要

一种模糊翻译系统及其方法，用于解决以往欲翻译的来源词句输入不完善时，造成的无法完整翻译的问题。通过先对比来源词句中的字词是否具有万用字符，以万用字符搜寻出符合条件的至少一替代字词，并当来源词句中的字词不存在时，搜寻至少一相似字词，以替代字词和相似字词取代来源词句中的字词后再进行翻译，从而达到提高翻译效果的技术功效。

权利要求书

1、  一种模糊翻译系统，该系统包含：
一数据库，用于储存至少一笔字词数据项及至少一笔翻译数据项；
一读取模块，用于读取一来源词句，该来源词句是由至少一字词所组成，且各该字词是由至少一字符所组成；
一对比模块，用于对比该来源词句的各该字词是否存在一万用字符；及用于在各该字词不存在该万用字符时，对比该来源词句的各该字词是否存在对应的该字词数据项；
一搜寻模块，用于在该来源词句的各该字词存在该万用字符时，搜寻该数据库的该些字词数据项以取得符合条件的至少一替代字词；及用于在该对比模块对比出该来源词句的各该字词不存在该万用字词，且该来源词句的各该字词对应的该字词数据项不存在时，搜寻该数据库的该些字词数据项以取得至少一相似字词；
一取代模块，用于用该搜寻模块搜寻出的该些替代字词或该些相似字词取代该来源词句中对应的该字词；及
一翻译模块，用于根据取代后的该来源词句查找对应的该些翻译数据项，产生一目标词句。

2、  如权利要求1所述的模糊翻译系统，其特征在于：
该万用字符是用于在各该字词中替代至少一个该些字符。

3、  如权利要求1所述的模糊翻译系统，其特征在于：
该搜寻模块是根据该万用字符位于各该字词中的相对位置搜寻符合该万用字符的至少一个该些字符以取得该些替代字词。

4、  如权利要求1所述的模糊翻译系统，其特征在于：
该搜寻模块是根据各该字词的该些字符的排列顺序依序搜寻储存的该些字词数据项。

5、  如权利要求1所述的模糊翻译系统，其特征在于：
该搜寻模块还包含当每一字词搜寻到两个以上的替代字词或两个以上的相似字词时，生成一选取接口提供选取该些替代字词之一或该些相似字词之一，供该取代模块用于取代该字词。

6、  一种模糊翻译方法，其特征在于，包含下列步骤：
建立一数据库，该数据库储存有至少一笔字词数据项及至少一笔翻译数据项；
读取一来源词句，该来源词句是由至少一字词所组成，且各该字词是由至少一字符组成；
对比该来源词句中的各该字词是否具有一万用字符，其中：
当各该字词具有该万用字符时，搜寻该数据库的该些字词数据项以取得符合条件的至少一替代字词；及
当各该字词不具有该万用字符，且对比出各该字词对应的该字词数据项不存在时，搜寻该数据库的该些字词数据项以取得至少一相似字词；
以搜寻出的该些替代字词或该些相似字词取代该来源词句中对应的该字词；及
根据取代后的该来源词句查找对应的该些翻译数据项，产生一目标词句。

7、  如权利要求6所述的方法，其特征在于：
该万用字符是用于在各该字词中替代至少一个该些字符。

8、  如权利要求6所述的方法，其特征在于：
还根据该万用字符位于各该字词中的相对位置搜寻符合条件该万用字符的至少一个该些字符以取得该些替代字词。

9、  如权利要求6所述的方法，其特征在于：
还根据各该字词的该些字符的排列顺序依序搜寻储存的该些字词数据项。

10、  如权利要求6所述的方法，其特征在于：
当每一字词搜寻到两个以上的替代字词或两个以上的相似字词时，还生成一选取接口提供选取该些替代字词之一或该些相似字词之一，用于取代该字词。

说明书

模糊翻译系统及其方法
技术领域
本发明涉及一种翻译系统及方法，尤其涉及一种可对来源语句进行模糊翻译的翻译系统及方法。
背景技术
随着信息科技的发展，信息的传播已逐渐地从单一区域扩展到可在短时间内传播到世界上的每一个角落，而讲求国际化的今天，一般人需要接触到外语的机会也大大增加，在网页、报章杂志、商业信件等传播媒介中，也往往可以看到以外语形式出现的文件。由于一般大众并非对所有外语都能精通，因此出现了许多不同的翻译软件或是翻译网页，可以对所输入的词句进行语言转换，用户仅需把外语的词句输入，通过翻译软件或是翻译网页便可以快速地将文件中的外语文字转换为自己可以读懂的语言。
然而，由于使用者输入词句的过程中可能会出现部分的字符缺失或是字词拼写错误，由此导致输入词句不完善的问题，而目前的翻译系统及方法，在翻译时遇到翻译不出来的词句，会以原来的输入词句的文字出现，从而造成无法对词句进行完整翻译的问题。举例来说，假设使用者在输入的词句“Oh，what a surpris！”中包含拼字错误的字词“surpris”，由于以往的翻译系统及方法无法辨识“surpris”一字，因此翻译结果会呈现“喔，一个怎样的surpris！”，无法完成对原来输入词句的完整翻译，这样不仅造成可读性降低，翻译效果也大打折扣。
综上所述，可知现有技术中翻译系统及方法长期以来一直存在着当所输入的来源词句输入不完善时，容易造成无法完整翻译的问题，因此有必要提出改进的技术手段，来解决该问题。
发明内容
鉴于以上在现有技术中所提出以往的翻译系统及方法中，当所输入的来源词句输入不完善时，容易造成无法完整翻译的现况，本发明目的在于提供一种模糊翻译系统及其方法，可以用来解决该问题。
本发明所提出的模糊翻译系统包括：数据库，用于储存至少一笔字词数据项及至少一笔翻译数据项；读取模块，用于读取来源词句，该来源词句是由至少一字词所组成，且各字词是由至少一字符所组成；对比模块，用于对比来源词句的各字词是否存在万用字符，及用于在各字词不存在万用字符时，对比来源词句的各字词是否存在对应的字词数据项；搜寻模块，用于在来源词句的各字词存在万用字符时，搜寻数据库的字词数据项以取得符合条件的至少一替代字词，及用于在对比模块对比出来源词句的各字词不存在万用字词，且来源词句的各字词对应的字词数据项不存在时，搜寻数据库的字词数据项以取得至少一相似字词；取代模块，用于用搜寻模块搜寻出的替代字词及相似字词取代来源词句中对应的字词；及翻译模块，用于根据取代后的该来源词句查找对应的该些翻译数据项，产生一目标词句。
本发明所提出的模糊翻译方法，其步骤包括：建立数据库，数据库储存有至少一笔字词数据项及至少一笔翻译数据项；读取来源词句，该来源词句是由至少一字词所组成，且各字词是由至少一字符组成；对比来源词句中的各字词是否具有万用字符，其中：当各字词具有万用字符时，搜寻数据库的字词数据项以取得符合条件的至少一替代字词；及当各字词不具有万用字符，且对比出各字词对应的字词数据项不存在时，搜寻数据库的字词数据项以取得至少一相似字词；用搜寻出的替代字词及相似字词取代来源词句中对应的字词；及根据取代后的该来源词句查找对应的该些翻译数据项，产生一目标词句。
通过上述的技术手段，本发明可以达成提高翻译效果的技术功效。
附图说明
图1A是现有的翻译系统及方法运作架构示意图。
图1B是本发明所述的模糊翻译系统的架构图。
图2是本发明所述的模糊翻译方法的流程图。
图3是本发明对具有万用字符的来源词句进行模糊翻译的示意图。
图4是本发明对具有未定义字词的来源词句进行模糊翻译的示意图。
具体实施方式
下面将配合图示及实施例来详细说明本发明的实施方式，藉此对本发明如何应用先对比来源词句中的字词是否具有万用字符，并以万用字符搜寻出符合条件的至少一替代字词，并在来源词句中的字词不存在时，搜寻至少一相似字词，接着用替代字词和相似字词取代来源词句中的字词再进行翻译，从而解决以往使用者欲翻译的来源词句输入不完善时，造成无法完整翻译的问题，并就达成提高翻译效果的实现过程进行说明，以供充分理解并据以实施。
下面，请先参考图1A，将先说明现有的翻译系统及方法的运作架构。如图1A所示，现有的翻译系统及方法的运作是通过数据库101、读取模块102、搜寻模块103及翻译模块104来对来源词句105进行翻译。运作的过程中，读取模块102读取了来源词句105之后，无论来源词句105是否有拼写错误或字符缺失的字词，搜寻模块103均会对来源词句105当中的字词进行搜寻对应的翻译数据，若来源词句105当中存在输入不完善的部分无法辨识，仅会将可辨识的部分通过翻译模块104翻译为目标词句106。
以英翻中的翻译为例，当读取模块102读取到的来源词句105为“Oh，what a surpris！”，在来源词句105当中原应为“surprise”的字词因拼写错误而成为“surpris”，而数据库101所储存的字词数据项当中不存在“surpris”的字词数据项，进而当搜寻模块103搜寻不到“surpris”的字词数据项时，翻译模块104便会将其余可搜寻到字词数据项的字词进行翻译，而保留不存在的字词“surpris”，产生“喔！一个怎样的surpris！”的目标词句106。
如图1A中所示的现有翻译系统虽然可对来源词句105进行翻译，但是当输入词句不完善时，仍然无法完整翻译来源词句105，由此产生翻译效果不佳的情况。
而本发明的模糊翻译系统及方法则是针对现有技术中产生无法完整翻译的情况。请参考图1B，为本发明模糊翻译系统的架构图，将用于说明本发明系统各组成模块的运作。本发明的模糊翻译系统包含数据库111、读取模块112、对比模块113、搜寻模块114、取代模块115及翻译模块116。
数据库111，现有技术储存至少一笔字词数据项及至少一笔翻译数据项。字词数据项中可搜寻到的字词即为定义过的字词；相反地，所储存的字词数据项中不存在的字词，即为未经定义的字词。
数据库111所储存的翻译数据项，是不同语言之间的字词数据项的对应。举例来说，当系统要将英文的来源词句117翻译为中文时，数据库111当中所储存的数据便需要为英汉的翻译数据项。
读取模块112，用于读取来源词句117，其中，读取模块112所读取的来源词句117均是由至少一字词所组成，而每个字词是由至少一字符组成。
对比模块113，用于在读取模块112读取到来源词句117后，对比来源词句117当中的每一个字词是否具有万用字符。这里所指的万用字符，可以是“*”、“#”、“？”或其他特定符号，是用于在输入时取代至少一个字符的。举例来说，当某一笔字词当中使用了一个万用字符，如：“h*d”，则“h*d”相当于“had”、“head”、“heard”...等字词。虽然本发明在此以“*”作为万用字符进行说明，但实际上任何特定的字符均可用于作为万用字符，并不以“*”为限。
当字词中具有万用字符时，搜寻模块114将会搜寻与具有万用字符的字词相符合的字词作为替代字词。搜寻模块114在搜寻替代字词时，是根据万用字符在字词中的相对位置搜寻符合万用字符的至少一个字符，然后用这些字符取代万用字符的位置，从而取得替代字词。举例来说，在“h*d”字词当中，万用字符位在“h”与“d”头尾字符之间，因此搜寻模块114便会搜寻头尾字符皆为“h”与“d”的字词，而“h”与“d”之间则可包含一个以上的字符数，如：“had”、“head”、“heard”...等。
特别注意的是，当搜寻模块114针对一个字词进行替代字词的搜寻时，可能会发生同时找到两个以上符合条件的替代字词，以上段所述的“had”、“head”、“heard”为例，此时会由搜寻模块114自动产生一个选取接口(图中未绘出)，将所有符合条件的替代字词放入作为选项，供用户直接选取所需的替代字词，作为后续取代使用。
当对比模块113对比出来源词句117当中各字词都不具有万用字符，同时各字词也不具有对应的字词数据项时，对比模块113便会判定该字词为未定义过的字词，此时，搜寻模块114将会搜寻数据库111当中是否具有相似的字词。搜寻模块114搜寻相似字词时，是根据各字词中字符的排列顺序依序搜寻储存的字词数据项。
举例来说，当对比模块113对比出“surpris”为未定义过的字词时，此时搜寻模块114将会从以“s”字符为首的字词数据项开始进行搜寻，找到“s”字符为首的字词数据项后，接着再搜寻是否有“su”为首的相似字词，接着搜寻“sur”为首的相似字词，直到搜寻出最相似的为止。
同样须注意的是，当搜寻模块114针对一个未定义过的字词进行相似字词的搜寻时，可能会发生同时找到两个以上符合条件的相似字词，例如输入的“beggn”属于未定义过的字词，而“begin”、“began”或“begun”都是符合条件的相似字词，此时同样也会由搜寻模块114自动产生一个选取接口(图中未绘出)，将所有符合条件的相似字词放入作为选项，供用户直接选取所需的相似字词，作为后续取代使用。
当搜寻模块114取得替代字词与相似字词后，取代模块115将会负责用替代字词取代来源词句117当中具有万用字符的字词，并用相似字词取代来源词句117当中不具有对应的字词数据项的字词，接着通过翻译模块116根据数据库111当中的翻译数据项对经过取代模块115处理过后的来源词句117进行翻译，并产生目标词句118。
举例来说，若来源词句117为“Oh，what a surpris！”，搜寻模块114撷取出相似字词“surprise”，则取代模块115将会将来源词句117中的“surpris”取代为“surprise”，接着，翻译模块116将对“Oh，what a surprise！”进行翻译，而翻译模块116根据数据库111当中的翻译数据项便可将“Oh，what asurprise！”翻译为“喔，真是意想不到！”
本系统通过对比来源词句117当中的万用字符及组成来源词句117的字词是否具有对应的字词数据项，可实现先对来源词句117进行校正，从而在来源词句117输入不完善时，仍然可以完整地将来源词句117翻译为目标词句118，从而解决了以往的翻译系统当中容易产生目标词句当中出现翻译过字词与未翻译过字词参半的问题。
接下来，请参考图2，为本发明所述的模糊翻译方法的流程图，将用于说明本发明的实施步骤。
首先，建立储存有至少一笔字词数据项及至少一笔翻译数据项的数据库(步骤201)。所储存的字词数据项相当于字典，字词数据项中可搜寻到的字词即为定义过的字词；相反地，所储存的字词数据项中不存在的字词，即为未经定义的字词。
数据库所储存的翻译数据项，是不同语言之间的字词数据项的对应，举例来说，当系统要将英文的来源词句翻译为中文时，预先建立的数据库当中所储存的数据便需为英汉的翻译数据项。
接着，读取模块读取来源词句(步骤202)，其中，读取模块所读取的每一笔来源词句均是由至少一字词所组成，而每个字词是由至少一字符组成。
读取模块读取来源词句后，对比模块将会对比来源词句中各字词中是否具有万用字符(步骤203)，当来源词句当中具有万用字符时，搜寻模块将会根据来源词句当中万用字符的相对位置搜寻数据库的字词数据项，以取得符合条件的至少一替代字词(步骤204)。
举例来说，在“h*d”字词当中，万用字符位在“h”与“d”头尾字符之间，因此搜寻模块便会搜寻头尾字符皆为“h”与“d”的字词，而“h”与“d”之间则可包含一个以上的字符数，如：“had”、“head”、“heard”...等。
当对比模块对比出来源词句当中不具有万用字符时，若各字词中具有拼字错误的字词，则搜寻模块将搜寻数据库的字词数据项，以取得至少一相似字词(步骤205)。
搜寻模块搜寻相似字词时，是根据各字词中字符的排列顺序依序搜寻储存的字词数据项。举例来说，当对比模块对比出“surpris”为未定义过的字词时，此时搜寻模块将会从以“s”字符为首的字词数据项开始进行搜寻，搜寻时可以对来源词句当中无法辨识的字词与数据库当中所储存的字词数据项的相似度进行对比。
当搜寻模块搜寻出替代字词与相似字词后，取代模块用搜寻出的替代字词及相似字词取代来源词句中对应的字词(步骤206)，最后，根据取代后的该来源词句查找对应的该些翻译数据项，产生一目标词句(步骤207)。
如前所述，当一个字词有两个以上符合条件的替代字词或者相似字词时，会提供一个选取接口供用户直接选取所需的替代字词或者相似字词，作为后续取代使用。
举例来说，若来源词句为“Oh，what a surpris！”，搜寻模块撷取出相似字词“surprise”，则取代模块将会将来源词句中的“surpris”取代为“surprise”，接着，翻译模块将对“Oh，what a surprise！”进行翻译，而翻译模块根据数据库当中的翻译数据项便可将“Oh，what a surprise！”翻译为“喔，真是意想不到！”。
本方法通过对比来源词句当中的万用字符及组成来源词句的字词是否具有对应的字词数据项，便可先对来源词句进行校正，从而在来源词句输入不完善时，仍然可以完整地将来源词句翻译为目标词句，从而解决以往的翻译系统中容易产生目标词句当中出现翻译过字词与未翻译过字词参半的问题。
接下来，将以实施例配合本发明的图示来说明本发明的做法。假设现有一使用者使用具有本发明的英汉翻译系统，用户可通过在输入接口输入文字或是选取特定文字的方式来输入欲翻译的来源词句。
如图3所示，假设使用者原先欲输入“Oh，what a surprise！”的欲翻译词句，但由于遗忘了“surprise”当中的几个字符，因此以万用字符“*”替代遗忘的字符在输入接口输入来源词句301“Oh，what a s*prise！”。
本发明的读取模块读取到来源词句301时，对比模块首先会先对比来源词句“Oh，what a s*prise！”当中是否具有万用字符。由于来源词句301中“s*prise”字词当中具有万用字符，因此搜寻模块将会搜寻与“s*prise”相符合的替代字词。
搜寻时，搜寻模块会搜寻数据库当中“s”与“prise”之间存在一个以上字符的字词数据项，而由于“s”与“prise”之间仅具有一笔“surprise”的字词数据项与此搜寻条件相符，因此搜寻模块将会以“surprise”作为替代字词。
取代模块以“surprise”取代“s*prise”之后，翻译模块便可根据数据库当中的至少一笔翻译数据项将来源词句301翻译为“喔，真是意想不到！”的目标词句302，而不会产生词句无法完全翻译的情况。
请参考图4，读取模块读取来源词句401后，对比模块会先对比来源词句401当中是否具有万用字符，所输入的来源词句401“Oh，what a surprisee！”当中不具有万用字符，且来源词句当中包含了“surprisee”此种数据库当中无法找到对应的字词数据项时，搜寻模块便会依据“surprisee”字词的字符排列顺序逐一对比相似度，以搜寻出与“surprisee”相似的字词，如：“surprise”及“surprised”等。
取代模块以“surprise”及“surprised”取代原本的“surprisee”后，翻译模块便会将来源词句401根据数据库中的翻译数据项来进行翻译，产生至少一个目标词句402，同样地，经本发明实施后所翻译出的目标词句402，可以解决以往来源词句401当中因无法辨识“surprisee”，无法完整翻译而翻译出“喔，一个怎样的surprisee！”的问题。
综上所述，可知本发明与现有技术之间的差异在于具有先对比来源词句中的字词是否具有万用字符，并以万用字符搜寻出符合条件的至少一替代字词，并在来源词句中的字词不存在时，搜寻至少一相似字词，接着用替代字词和相似字词取代来源词句中的字词再进行翻译的技术手段，从而可以解决以往使用者欲翻译的来源词句输入不完善时，容易造成无法完整翻译的问题，进而达成提高翻译效果的功效。
虽然本发明所提出的实施方式如上，但是所述的内容并非用来直接限定本发明的专利保护范围。任何本发明所属技术领域中具有通常技术知识的人员，在不脱离本发明所提出的精神和范围的前提下，可以在实施的形式上及细节上作一些更改。本发明的专利保护范围，仍须以所附的权利要求书范围所界定为准。