提高打字效率的候选字产生方法.pdf

上传人:Y94****206 文档编号:973506 上传时间:2018-03-22 格式:PDF 页数:26 大小:1.30MB
返回 下载 相关 举报
摘要
申请专利号:

CN200780036264.0

申请日:

2007.09.27

公开号:

CN101523385A

公开日:

2009.09.02

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效|||公开

IPC分类号:

G06F17/20; G06F17/21; G06F17/27

主分类号:

G06F17/20

申请人:

中央研究院

发明人:

许闻廉

地址:

中国台湾台北市

优先权:

2006.9.27 US 11/535,497

专利代理机构:

北京律诚同业知识产权代理有限公司

代理人:

徐金国

PDF下载: PDF下载
内容摘要

为了让打字或按键输入者减轻各种打字负担,以及为了借助某些简化的技巧来提高打字者的打字或按键输入效率,提供多种候选字产生方法以用来辅助打字者由列举出的候选字清单中选出所要的候选字,或是用来以自动由该候选字清单中选取候选字的方式辅助打字者。其中,这些打字负担包含不正确的拼字、键盘输入错误、打字者不知道单词的正确拼法、以及带有标记的字符等状况。经过适当设计的使用者接口也可用来实施该多种候选字产生方法。

权利要求书

1.  一种提高打字效率的候选字产生方法,该方法包含:
提供一字典;
实施一自动选择候选字方法,包含:
由该字典中产生至少一候选字,以根据事先建立的统计数据,改写打字者输入的一句子中的一已选取的字,使该已选取的字符合该句子的语义性质;以及
以该至少一候选字替换该已选取的字。

2.
  根据权利要求1所述的方法,其特征在于该自动选择候选字方法还包含:
计算该已选取的字与该至少一候选字中的每一候选字的一编辑距离;以及
当每一计算出的编辑距离皆大于零时,由该至少一候选字中选取与该已选取的字的编辑距离最小的一候选字,并将该已选取的字替换为编辑距离最小的该候选字;
其中该已选取的字与一对应的候选字的编辑距离的定义为将该已选取的字以字符为单位转换为该对应的候选字时,所耗费的最少步骤数,其中所耗费的步骤包含插入一个字符、删除一个字符、以及替换一个字符等操作。

3.
  根据权利要求1所述的方法,其特征在于,该字典为一系统提供的字典、一领域字典、或一使用者字典,其中该领域字典为不同学术领域所使用的字典。

4.
  根据权利要求1所述的方法,其特征在于,还包含:
以大量的多个句子的语料统计字与字之间的相关数据来训练并测试该字典,其中该大量的多个句子包含多个相关字,并借助该多个句子以及该多个相关字建立该事先建立的统计数据,其中该事先建立的统计数据与该多个句子的语义性质相关。

5.
  根据权利要求1所述的方法,其特征在于,该自动选择方法根据一N-gram模型方法或一语言学的模块匹配系统来实施。

6.
  根据权利要求3所述的方法,其特征在于,还包含:
根据编译打字者输入的文章的结果,列出该多个候选字;以及
建立打字者输入的该文章的统计数据。

7.
  根据权利要求6所述的方法,其特征在于,该统计数据为候选字在打字者输入的该文章中出现的机率,或是特别的单词组合出现于使用者输入的该文章的机率。

8.
  根据权利要求6所述的方法,其特征在于,根据打字者输入的该文章来报告打字输入错误。

9.
  根据权利要求6所述的方法,其特征在于,键盘输入错误由一群组中选出,且该群组包含一拼字错误的词组或句子、一字符插入错误、一字符删除错误、一字符替换错误、以及一字符排列错误。

10.
  根据权利要求3所述的方法,其特征在于,还包含:
提供一使用者接口,以供使用者由一组被列出的候选字中选出一个候选字,其中该组被列出的候选字由该自动选择候选字方法所产生。

11.
  一种提高打字效率的候选字产生方法,包含:
(a)提供以语音学为基础的一语音字典;
(b)将一输入字分解为多个语音音节序列,其中该多个语音音节序列的每一语音音节序列包含多个语音音节;
(c)根据该语音字典包含的多个音节差异度矩阵,产生多个候选字,其中该多个候选字对于该多个语音音节序列的每一语音音节序列包含至少一个候选字,且该多个语音音节序列一一对应于该多个音节差异度矩阵;及
(d)由该多个候选字中选出一个候选字,并将该输入字替换为该选出的候选字,其中将该输入字替换为该选出的候选字所耗费的总额替换成本为该多个候选字个别耗费的多个总额替换成本中的最小总额替换成本,且该最小总额替换成本大于零。

12.
  根据权利要求11所述的方法,其特征在于,步(a)与步(c)还包含:
在该语音字典中储存多个语音音节;以及
计算储存的该多个语音音节中任意二个语音音节的音节差异距离,以产生多个音节差异距离;
其中该语音字典所储存的一第一语音音节与一第二语音音节之间的音节差异距离根据该第一语音音节与该第二语音音节在该语音字典中的音节差异度,以及根据将该第一语音音节替换为该第二语音音节的替换成本来加以计算,其中将该第一语音音节替换为该第二语音音节的步包含替换、插入、删除、及重新排列该第一语音音节中包含的字符。

13.
  根据权利要求12所述的方法,其特征在于,该多个音节差异距离皆大于0,且小于或等于1。

14.
  根据权利要求12所述的方法,其特征在于,该音节差异度矩阵为对应于一候选字以及一语音音节序列所产生的一二维矩阵;该候选字所包含的多个语音音节为该二维矩阵中的一第一维度的参数,且该语音音节序列包含的多个语音音节为该二维矩阵中的一第二维度的参数;该音节差异度矩阵中的一元素为该候选字包含的多个语音音节的一语音音节与该语音音节序列包含的多个语音音节的一语音音节之间的音节差异距离。

15.
  根据权利要求14所述的方法,其特征在于,该输入字替换为该选出的候选字所耗费的总额替换成本根据该候选字与该语音音节序列所形成的该音节差异度矩阵所计算出的行列式值所产生。

16.
  根据权利要求14所述的方法,其特征在于,将该输入字替换为选出的该候选字所耗费的总额替换成本根据加总该候选字与该语音音节序列所形成的该音节差异度矩阵中相关的多个音节差异距离所产生。

17.
  根据权利要求11所述的方法,其特征在于,该输入字根据语音拼写方式所输入。

18.
  根据权利要求14所述的方法,其特征在于,还包含:
提供一使用者接口;
其中该使用者接口用来实施步(a)、步(b)、步(c)、以及步(d)。

19.
  根据权利要求14所述的方法,其特征在于,还包含:
以自动选择候选字的方式实施步(b)、步(c)、及步(d)。

20.
  一种提高打字效率的候选字产生方法,包含:
提供一字典;
确认是否有至少一个候选字存在,其中该字典的一输入字为该至少一个候选字的子序列,且该输入字的特征可于该至少一个候选字的每一候选字中被发现;以及
当该至少一个候选字存在时,将该输入字替换为该至少一个输入字。

21.
  根据权利要求20所述的方法,其特征在于,该字典包含多个统一资源定位器或多个电子邮件位址,或该字典同时包含该多个统一资源定位器或该多个电子邮件地址。

22.
  根据权利要求20所述的方法,其特征在于,还包含:
当该至少一个候选字存在时,产生一候选字清单;以及
由该候选字清单中所列举出的该至少一个候选字中,选取出一候选字以替换该输入字。

23.
  根据权利要求22所述的方法,其特征在于,一使用者接口用来辅助打字者由该候选字清单中选取出该候选字。

24.
  根据权利要求22所述的方法,其特征在于,该候选字以自动选择的方法由该候选字清单中选取出。

25.
  一种用来提高打字或按键输入效率的候选字产生方法,包含:
储存一单词序列;以及
根据一首字母缩略字子序列,由该单词序列中取出一单词子序列,其中该首字母缩略字子序列包含一第一字的开头字符以及一第二字的开头字符,该第二字在该单词序列中的顺序为在该第一字之后,且该第一字的开头字符与该第二字的开头字符在该首字母缩略字子序列中的顺序对应于该第一字与该第二字在该单词序列中的顺序;
其中该单词子序列包含该第一字、该第二字、以及在该单词序列中位于该第一字与该第二字之间的多个字,且该第一字、该第二字、以及在该单词序列中位于该第一字与该第二字之间的该多个字在该单词子序列中的顺序对应于在该单词序列中的顺序。

26.
  根据权利要求25所述的方法,其特征在于,该首字母缩略字子序列还包含:
在该单词序列中位于该第一字与该第二字之间的该多个字中的至少一个字的开头字符,其中该首字母缩略字子序列所包含的该至少一个字的开头字符的顺序对应于该至少一个字在该单词序列中的顺序。

27.
  根据权利要求25所述的方法,其特征在于,还包含:
产生一清单,当使用单一首字母缩略字子序列得到该单词序列中至少一个单词子序列时,该清单列举出得到的该至少一个单词子序列,以便于使用一使用者界面从得到的该至少一个单词子序列中选取一单词子序列。

28.
  根据权利要求25所述的方法,其特征在于,还包含:
产生一对应于该单词序列的一首字母缩略字序列;
其中该首字母缩略字序列包含该单词序列包含的每一单词的开头字符,且该每一单词的开头字符在该首字母缩略子序列中的顺序与该每一单词在该单词序列中的顺序一致。

29.
  根据权利要求27所述的方法,其特征在于,产生该清单以便于使用该使用者界面从得到的该至少一个单词子序列中选取该单词子序列包含:
以自动选取单词子序列的方式产生该清单。

30.
  一种用来提高打字效率的候选字产生方法,包含:
(a)提供一字典;
(b)根据一输入字中带有标记的字符的合理组合,产生至少一个候选字;以及
(c)由该至少一个候选字中选取一候选字;
其中,该字典中储存有多个带有标记的字符的合理组合,及对应于该多个合理组合的单词。

31.
  根据权利要求30所述的方法,其特征在于,根据该输入字中带有标记的字符的合理组合,产生该至少一个候选字包含:
参考相关于多个字符的标记并储存于该字典中的语义单词合理组合。

32.
  根据权利要求30所述的方法,其特征在于,还包含:
提供一使用者接口;
其中该使用者接口用来实施步(a)与步(b)。

33.
  根据权利要求30所述的方法,其特征在于,还包含:
以自动选取候选字的方式来实施步(b)与步(c)。

说明书

提高打字效率的候选字产生方法
技术领域
本发明涉及一种候选字产生方法,尤指一种用来提高打字效率的候选字产生方法。
背景技术
当使用计算机或手持电子产品进行打字作业时,对于以使用字符(或字母)为单位元的语言来说(简称为字符语言),该打字作业并非十分困难,此是因此类语言所使用的字符种类相当有限。此类以字符为单位的语言对于一般所使用的键盘而言也相当的容易应用,因为键盘上所需要对应的字符按键数量也相对的比较少。然而,在正式进行字符语言的打字作业的时候,不正确的拼字、错误的字符输入、打字者不知道单词拼法、加有标记的字符输入(例如带有重音的字符)等状况常会导致打字或按键输入效率的降低,而打字者也必须要再耗费额外的时间或中断思绪以修正上述的错误。打字者不知道单词拼法会使得打字者被迫另外耗费时间去查字典或是猜测单词正确的拼法。当打字者输入带有标记的字母或字符时,通常都会需要使用特制的键盘、记下特别的按键排列、或是学习额外的输入方式来输入这些字符,同时也造成了打字者在打字速率上的延迟。
发明内容
本发明提供一种提高打字效率的候选字产生方法。该方法包含提供一字典、实施一自动选择候选字方法、及以该至少一候选字替换该已选取的字。该自动选择候选字方法包含由该字典中产生至少一候选字,以根据事先建立的统计数据,改写打字者输入的一句子中的一已选取的字,使该已选取的字符合该句子的统计语义性质。
本发明提供一种提高打字效率的候选字产生方法。该方法包含提供以语音学为基础的一语音字典;将一输入字分解为多个语音音节序列,其中该多个语音音节序列的每一语音音节序列包含多个语音音节;根据该语音字典包含的音节差异度矩阵,产生多个候选字,其中该多个候选字对于该多个语音音节序列的每一语音音节序列包含至少一个候选字,且该多个语音音节序列一一对应于该多个音节差异度矩阵;及由该多个候选字中选出一个候选字,并将该输入字替换为该选出的候选字,其中将该输入字替换为该选出的候选字所耗费的总额替换成本为该多个候选字个别耗费的多个总额替换成本中的最小总额替换成本,且该最小总额替换成本大于零。
本发明提供一种提高打字效率的候选字产生方法。该方法包含提供一字典;确认是否有至少一个候选字存在,其中该字典的一输入字为该至少一个候选字的子序列,且该输入字的特征可于该至少一个候选字的每一候选字中被发现;及当该至少一个候选字存在时,将该输入字替换为该至少一个输入字。
本发明提供一种用来提高打字效率的候选字产生方法。该方法包含储存一单词序列;及根据一首字母缩略字子序列,由该单词序列中取出一单词子序列,其中该首字母缩略字子序列包含一第一字的开头字符以及一第二字的开头字符,该第二字在该单词序列中的顺序为在该第一字之后,且该第一字的开头字符与该第二字的开头字符在该首字母缩略字子序列中的顺序对应于该第一字与该第二字在该单词序列中的顺序。该单词子序列包含该第一字、该第二字、以及在该单词序列中位于该第一字与该第二字之间的多个字,且该第一字、该第二字、以及在该单词序列中位于该第一字与该第二字之间的该多个字在该单词子序列中的顺序对应于在该单词序列中的顺序。
本发明提供一种用来提高打字效率的候选字产生方法。该方法包含提供一字典;根据一输入字中带有标记的字符的合理组合,产生至少一个候选字;及由该至少一个候选字中选取一候选字。该字典中储存有多个带有标记的字符的合理组合,及对应于该多个合理组合的单词。
附图说明
图1为本发明所提供的第一种候选字产生方法的流程图,其中该第一种候选字产生方法用来帮助打字者免于错误输入字符的困扰。
图2为本发明所提供的第二种候选字产生方法的流程图,其中该第二种候选字产生方法用来使打字者借助输入应用了语音学简化拼法的语音字来提高打字或按键输入效率。
图3为使用于图2所述的候选字产生方法的一音节差异度矩阵的示意图。
图4为本发明借助输入目标字的子序列来实施的第三种候选字产生方法的示意图。
图5为本发明所提供的第四种候选字产生方法的示意图,其中该第四种候选字产生方法应用首字母缩略字子序列与单词序列之间的字符顺序关系产生出打字者所需要的单词子序列来,且该单词子序列为该单词序列的子序列。
图6为本发明所提供的第五种候选字产生方法的示意图,其中该第五种候选字方法用来简化打字者输入包含加入标记的字符的单词时额外浪费的时间。
具体实施方式
为了让打字者可以减轻上述会延迟打字或按键输入效率的缺点所造成的影响,本发明提供多种候选字产生方法,以提高打字或按键输入效率,并克服上述的缺点。
本发明所提供的第一种候选字产生方法用来帮助打字者免于不正确拼字拖慢打字或按键输入效率的困扰,上述不正确拼字的错误包含字符插入错误、字符删除错误、字符替换错误、以及字符排列错误。字符插入错误为打字者在输入单词时输入了多余的字符所造成的错误。字符删除错误为打字者在输入单词时漏掉不该遗漏的字符所造成的错误。字符替换错误为打字者在输入单词时将部分原始字符输入为其它的字符所造成的错误,或是字符大小写输入错误的状况。字符排列错误指打字者输入单词时将字符的前后顺序输入错误的状况。不管打字者输入单词时发生上述的哪一种错误,只要打字者在输入单一单词时发生的错误次数远少于该单词的字符个数,被错误输入的单词将会保有足够的信息以供还原至正确的单词。举例来说,当打字者将应该输入为”phenomenon”的单词错误输入为”phenomanon”时,由于打字者仅将原本应该输入的第七个字符”e”输入为”a”,且其它字符皆输入正确,因此所产生的输入错误为字符替换错误,且错误输入的单词”phenomanon”仍然保有了足够的信息(亦即上述唯一发生的字符替换错误)以供还原至”phenomenon”。
根据上述的概念,本发明所提供的第一种候选字产生方法图示于图1。请参阅图1,其为本发明所提供的第一种候选字产生方法的流程图,且该第一种候选字产生方法用来帮助打字者免于错误输入字符的困扰。图1所示的方法包含如下步骤:
步骤102:提供一字典。
步骤104:以大量句子的语料统计字与字之间的相关数据来测试并训练该字典,其中该大量的句子包含多个相关字,以用来建立与该大量的句子的语义性质相关的预先统计数据。
步骤106:实施一种自动选取方法,用来由该字典中产生至少一个候选字,以根据该预先统计数据,将打字者所输入的句子调整至符合语意性质为止。
步骤108:计算打字者所输入的一句子中的一选取字与该字典所产生的每一候选字的编辑距离,其中该编辑距离代表最少需要几个字符的插入、删除、对调以便将其中一字转换成另一字。
步骤110:检查所有计算出来的编辑距离是否皆大于零。当所有计算出来的编辑距离皆大于零时,执行步骤112;否则,执行步骤114。
步骤112:由该至少一个候选字中选取一个拥有最小编辑距离的候选字,并将打字者所输入的该句子中之该选取字替换为该拥有最小编辑距离的候选字。
步骤114:将打字者所输入的该句子中的该选取字替换为一编辑距离为零的候选字。
步骤102与104代表一个准备并建立一字典的程序,以将该字典供图1所示的后续步骤所使用,且图1所示的后续步骤需要该字典的存在才能够执行。该字典可为一系统字典、一领域字典、或一使用者字典,其中该领域字典指不同学术或生活领域所使用的字典。在某些情况下,该字典根据打字者目前正在输入的文章或片段来建立,以符合打字者的打字习惯。在步骤102与104中所建立的该字典必须被事先测试或训练以辨识足够大量的句子语料或是获取与该足够大量的句子的语义性质相关的统计数据。该统计数据可为特定段落或打字者所输入的段落中单词出现的频率,或是不同单词之间所产生的各种不同组合出现的机率。
在步骤106至114中,实施一种自动选取方法以用来决定一个符合机率最高的候选字,并将打字者所输入的单词替换为该机率最高的候选字,以符合打字者目前输入的一句子的语义性质,其中该句子包含打字者所输入的该单词,且该单词可能产生了上述的至少一种字符拼字错误。每一个与打字者输入的该单词相关并由该字典产生出来的候选字根据一编辑距离来决定,其中该编辑距离代表将打字者输入的该单词转换为一候选字所需要耗费的步骤与代价,且所需要耗费的步骤可为插入、删除、或替换打字者输入的该单词中的字符。举例来说,当需要将打字者输入的单词”phenomanon”转换为一候选字”phenomenon”时,必须将单词”phenomanon”中的第七个字符”a”替换为字符”e”,因此打字者输入的单词”phenomanon”与候选字”phenomenon”之间的编辑距离可定义为1,因为将打字者输入的单词”phenomanon”转换为候选字”phenomenon”仅需要进行一次替换单一字符的步骤。同理,当需要将打字者输入的单词”phnocmanon”转换为候选字”phenomenon”时,需要将字符”e”插入至字符”h”与字符”n”之间、删除字符”o”与字符”m”之间的字符”c”、以及将字符”m”与字符”n”之间的字符”a”替换为字符”e”,因此仅进行了三个针对单一字符的步骤,且打字者输入的单词”phnocmanon”与候选字”phenomenon”之间的编辑距离可定义为3。请注意,上述对于编辑距离的定义仅为本发明的一较佳实施例,且当将其它种类对于编辑距离的定义应用于本发明所公开的方法时,仍应属于本发明的范围。
当所有候选字与打字者输入的单词间的编辑距离皆大于零时,代表打字者所输入的该单词为一个错误拼字的单词,因此可根据步骤106至114中所述的方法,将打字者输入的该单词自动替换为一个与打字者输入的该单词之间的编辑距离最小的候选字。然而,也有可能发生打字者输入的该单词与二个以上的候选字之间的编辑距离相同,且该编辑距离为最小编辑距离的状况。为了避免这个状况,在此时也可借助上述针对句子的语义性质所建立的统计数据、以及相关的编辑距离,来辅助判断打字者目前输入的段落中出现机率较高的某些候选字。借助上述以句子的语义性质来辅助判断较为可能出现的候选字,可以将大部分不符合打字者目前输入的段落的语义性质的候选字过滤掉,以大幅度的缩小候选字的可能范围,并借助这种方式节省判断可能的候选字的额外时间、以及提高打字者的打字或按键输入效率。综合以上所述,本发明所提供的第一种候选字产生方法可有效减轻打字者因为错误拼字造成的打字或按键输入效率降低的状况。
此外,在步骤104中,可使用一种称为N-gram模型(N-gram Model)的方法,并以N个字连续出现的频率来统计字与字间的相关数据。N-gram模型为本领域技术人员所公知的方法,且可用于上述本发明所提供的第一种候选字产生方法,以协助打字者免于拼字错误降低打字速率的问题。N-gram模型根据语义规则来运作,并可应用于一种称为context-free的语义文法、或是应用于以语言学为基础的模板匹配系统,其中context-free语义文法也为熟习本领域技术人员所公知,故不在此赘述。
一使用者接口也可用来实施本发明所提供的第一种候选字产生方法,以帮助打字者免于拼字错误降低打字或按键输入效率的困扰。在该使用者接口上,与打字者输入的单一单词相关的多个可能的候选字会被表列出来,或是在编译打字者输入的文章时产生出来,其中编译打字者输入的文章指一相关字典将打字者最近输入的片段列入参考并解析的步骤。该使用者接口也可被设计成具有报告并记录任何打字者发生的拼字错误的功能。因此,打字者被记录下来的拼字错误也可与编辑距离及语义性质一起用来当作判断候选字的可能范围的参考,以辅助缩小候选字的可能范围。上述被记录下来的拼字错误包含了字符插入错误、字符删除错误、字符替换错误、甚或是字符排列错误,且这些被记录下来的拼字错误亦可与打字者发生这些被记录下来的拼字错误的句子或片段一起被记录下来,以作为之后打字者输入文章时用来当做参考的统计数据。
除此以外,用来实施该第一种候选字产生方法的使用者接口的一较佳实施例中,也可加入一错误预测(error prediction)机制。由于打字者在打字发生错误的时候,需要将鼠标由正在输入的字符处以人工方式移动至输入错误的字符处来进行修改,然后再将该鼠标移动回刚才输入的字符处,因此会对一般的打字者在打字效率上产生相当大的扼杀。在该错误预测机制的实施例中,打字者即使在鼠标仍然位于正在输入的字符处的状况下,仍然可以借助启动预先设定的热键来启动该错误预测机制。在打字者按下该热键后,该使用者接口根据本发明所提供的该第一种候选字产生方法,自动的显示出打字者之前所输入过的文章中可能出现的至少一个错误字,并提供相关的候选字供打字者选择,以修正该至少一个错误字。在本发明相关于该使用者接口的一较佳实施例中,打字者可设定该热键为方向键中的向下键,且当启动一次该热键时,该使用者接口只显示一个离目前的鼠标移动距离最近的错误字以供打字者修改;而当再出现第二个以上的错误字时,打字者仅需要重复按下该热键以启动该错误预测机制,便可以逐次修改以及个别对应提供候选字的方式,来更正到打字者想要修改的至少一个错误字。
本发明另提供一第二种候选字产生方法,使得打字者可借助输入应用了语音学简化拼法的单词来提高打字或按键输入效率。本发明所提供的第二种候选字产生方法的基本概念详述如后:对于使用字符的语言来说,当打字者并不记得如何拼某个单词的字母排列或字符排列,而只记得该单词的大略拼音时,打字者可以试图以猜测该单词的拼音的方式来搜寻该单词。因此,在本发明所提供的第二种候选字产生方法中,必须要事先提供一个以语音学为基础的语音字字典,其中该语音字字典储存了大量的语音音节。举例来说,当打字者不知道单词”bureaucracy”的英文拼字方式时,可以借助他所知道单词”bureaucracy”的大略拼音,输入上述应用了语音学简化拼法的单词以在该语音字字典中找寻单词”bureaucracy”;其中应用了语音学简化拼法的该单词,也可称为一语音字(phonetic word),根据打字者对于单词”bureaucracy”的拼音记忆来仿真单词”bureaucracy”的正确拼音,举例来说,该单词可为”burocrecy”或”burockrecy”。
在收到一个语音字时,会先根据该语音字的所有可能发音方式对该语音字做译码或猜测的动作,并将该语音字以上述的所有可能发音方式分解为多个语音音节,因此会产生出多个对应的语音音节序列。每一个产生出的语音音节序列包含多个语音音节,并对应于该语音字的一特定可能发音方式。
请参阅图2,其为本发明所提供的第二种候选字产生方法的流程图,其中该第二种候选字产生方法用来使打字者借助输入应用了语音学简化拼法的语音字来提高打字或按键输入效率。本发明所提供的第二种候选字产生方法包含下列步骤:
步骤202:提供一语音字字典。
步骤204:储存多个语音音节于该语音字字典中。
步骤206:计算该多个语音音节的任意二个语音音节之间的差异度。
步骤208:将打字者输入的一语音字分解为多个语音音节序列,其中该多个语音音节序列的每一语音音节序列包含多个语音音节。
步骤210:根据该语音字字典中的音节差异度矩阵,产生多个候选字,其中该多个语音音节序列的每一语音音节序列对应于该多个候选字中至少一个候选字。
步骤212:由该多个产生的候选字中选出一个候选字,并将打字者输入的该语音字替换为选出的该候选字,其中将打字者输入的该语音字替换为选出的该候选字所耗费的总额替换成本为所有候选字中的最小,且该总额替换成本大于零。
步骤202至206与前述的步骤102至104相似,需要事先准备一个语音字字典以辅助图2中后续步骤的执行。除了在该语音字字典中事先储存的多个语音音节以外,也必须在该语音字字典中事先计算并储存该多个语音音节的任意二个语音音节之间的差异度,其中该音节差异度以二个语音音节之间的音节差异距离的方式来具体表示。当一第一语音音节与一第二语音音节之间的音节差异距离较小时,代表将该第一语音音节替换为该第二语音音节所耗费的替换成本也会较小,且当该第一语音音节与该第二语音音节之间的音节差异距离较大时,代表将该第一语音音节替换为该第二语音音节所耗费的替换成本也会较大,其中将该第一语音音节替换为该第二语音音节的步骤包含插入、删除、替换、以及排列该第一语音音节中至少一个字符。在本发明所提供的第二种候选字产生方法中,一第一语音音节序列与一第二语音音节序列的音节差异度借助一音节差异度矩阵来加以定义。在该音节差异度矩阵的一实施例中,该音节差异度矩阵的行用来列出该第一语音音节序列所包含的多个语音音节,同理,该音节差异度矩阵的列用来列出该第二语音音节序列所包含的多个语音音节。
请参阅图3,其为使用于图2所述的候选字产生方法的一音节差异度矩阵的示意图。假设一音节差异度矩阵A用来表示一第一语音音节序列PSrow与一第二语音音节序列PScolumn之间的总额替换成本,其中第一语音音节序列PSrow可表示为PSrow=(PSR0,PSR1,PSR2,…,PSRM-1),第二语音音节序列PScolumn可表示为PScolumn=(PSC0,PSC1,PSC2,…,PSCN-1);且PSRi(i的值为0,1,2,…,M-1)代表第一语音音节序列PSrow中的第i个语音音节,PSCj(j的值为0,1,2,…,N-1)代表第二语音音节序列PScolumn中的第j个语音音节。再者,M为第一语音音节序列PSrow的长度,也就是元素个数;同理,N为第二语音音节序列PScolumn的长度。如图3所示,音节差异度矩阵A中的一元素Ai,j代表一语音音节PSRi与另一语音音节PSCj之间的音节差异度,且在本发明的一较佳实施例中,元素Ai,j的值介于0至1之间。为了计算第一语音音节序列PSrow与第二语音音节序列PScolumn之间的总额替换成本,可使用多种方法并配合音节差异度矩阵A来加以计算。在本发明的一较佳实施例中,音节差异度矩阵A的每一列或每一行中值最小的元素Ai,j会被加总起来,并将加总起来的值当作音节差异度矩阵A所代表的总额替换成本;或是将音节差异度矩阵A中每一列加总起来的最小元素值与每一行加总起来的最小元素值互相比较,以其中较小的元素加总值来当作音节差异度矩阵A所代表的总额替换成本。最后,比较多个音节差异度矩阵A各自代表的总额替换成本,以找出其总额替换成本最小的单一音节差异度矩阵A。第一语音音节序列PSrow与第二语音音节序列PScolumn的长度差不可以太大,也就是必须要满足||PSrow|-|PScolumn||<d的条件,其中d代表一相差值,|PSrow|代表第一语音音节序列PSrow的长度,|PScolumn|代表第二语音音节序列PScolumn的长度,||PSrow|-|PScolumn||即代表第一语音音节序列PSrow与第二语音音节序列PScolumn的长度差的绝对值,且相差值d的值为可容忍并经过审慎挑选的。在本发明的另一实施例中,也可直接计算音节差异度矩阵A的行列式值来代表音节差异度矩阵A的总额替换成本。
因此,在储存于该语音字字典的所有语音音节的任意二个语音音节间的音节差异距离,可以被事先计算并同样的储存于该语音字字典中。在步骤208至212中,本发明所提供的第二种候选字产生方法用来决定一出现可能性最高的候选字,并将打字者输入的语音字替换为出现可能性最高的该候选字,以使得所选出的候选字将会有与该语音字的语音性质符合的最高机率,其中打字者输入的该语音字根据语音拼字的特征所输入。首先,输入的语音字会根据其语音拼字方式分解为不同的可能语音音节序列,其中每一语音音节序列包含多个语音音节,并各自代表不同的候选字。在一般的状况下,上述该语音字分解出的一语音音节序列与单一候选字所代表的语音音节序列之间的一相差值d会以适当的算法限制在可容忍的范围内,并借此将相差值d在可容忍范围以外的语音音节序列所代表的候选字淘汰掉,以缩小可能候选字的搜索范围。接着,会计算出每一候选字的语音音节序列所代表的音节差异度矩阵A的总额替换成本,并从中找出代表总额替换成本最小的音节差异度矩阵A的候选字,其中单一候选字所代表的音节差异度矩阵A用来表示该候选字与打字者输入的语音字之间的音节差异度。最后,该语音字会被转换为代表总额替换成本最小的音节差异度矩阵A的候选字,其中,将该语音字转换为该候选字的步骤包含插入、删除、替换、及排列该语音字所包含的字符。因此,可以达成根据单词的语音性质来实施的本发明所提供的第二种候选字产生方法以提高打字或按键输入效率的目的,其中,打字者只需要输入语音字便可自动或半自动的将该语音字替换为最符合该语音字的语音性质的候选字,以减少打字者在忘记单词的正确拼法所产生的困扰。
图2所示的步骤可以使用适当设计的使用者界面,并以自动选取候选字的方式来加以实施。因此,当打字者根据欲得到单词的语音性质输入一语音字时,该使用者接口将根据图2所示的步骤找出并表列(例如下拉式选单)多个候选字,以供打字者选出一个最符合打字者的选择的单词;该使用者接口也可根据图2所示的步骤以及上述的说明,自动选取出一个最符合该语音字的语音性质(也即出现可能性最高)的候选字来,并将该语音字自动替换为该候选字。
有时候,输入包含较多的字符或字母的单词对打字者来说是相当麻烦的事情,因此,本发明也提供一第三种候选字产生方法以减少打字者此类的麻烦。在该第三种候选字产生方法中,打字者仅需要输入组成欲输入的单词(也即一目标字)的字符序列中的一子序列(subsequence),就可以直接得到该目标字。举例来说,使用者可输入子序列”pylg”以得到目标字”psychology”,其中子序列”pylg”的字符排列顺序吻合于目标字”psychology”的字符排列顺序,也就是说,目标字”psychology”包含子序列”pylg”中的所有字符,并保有子序列”pylg”中的字符排列顺序。借助本发明所提供的第三种候选字产生方法,当打字者输入子序列”pylg”时,所有保有子序列”pylg”的所有字符及其字符顺序的可能候选字都会被产生出来,例如单词”psychological”、”psycholinguistic”、”physiology”等,其中这些被产生出来的单词所拥有的共同特征是:子序列”pylg”为这些被产生出来的单词的子序列。当打字者想要输入URL(Uniform Resource Locator,统一资源定位器)或电子邮件地址时,也可应用本发明所提供的第三种候选字产生方法。举例来说,打字者可借助输入子序列”shsu”来得到字符序列”http://iasl.iis.sinica.edu.tw/hsu/”,其中字符序列”http://iasl.iis.sinica.edu.tw/hsu/”为打字者先前已经输入过并被记录起来以当作参考的统一资源定位器。
请参阅图4,其为本发明借助输入目标字的子序列来实施的第三种候选字产生方法的示意图。图4所示的步骤列举如下:
步骤302:提供一字典。
步骤304:输入一输入字后,决定是否至少有一个候选字存在,其中该至少一个候选字来自于该字典,该输入字为该至少一个候选字的子序列,且该输入字所包含的所有字符以及其字符顺序可在该至少一个候选字中找到。当该至少一个候选字存在时,执行步骤306;否则,执行步骤308。
步骤306:由该至少一个候选字中选出一个候选字,并将该输入字替换为该选出的候选字。
步骤308:显示一信息,以表示并没有任何对应于该输入字的候选字存在。
与本发明上述所提供的所有候选字产生方法相似,本发明所提供的第三种候选字产生方法也需要事先提供一字典以执行图4所述的步骤。该字典储存多个候选字,并提供辨认出该多个候选字的子序列的功能。当打字者输入一输入字后,在该字典中寻找包含该输入字为子序列的候选字。当找出至少一个包含该输入字为子序列的可能候选字时,打字者再由该至少一个可能候选字中选取一个较喜好的候选字出来。借助针对本发明所提供的第三种候选字产生方法所设计的使用者接口,该至少一个可能候选字可以表列的方式显示出来,例如将该至少一个可能候选字显示于下拉式选单以供打字者挑选,或是显示于其它可方便打字者选取候选字的布置以供打字者挑选。再者,借助事先良好建立的统计数据,可预先计算出该字典所储存的多个候选字各自的出现机率,因此上述打字者挑选候选字的过程可直接以自动选出出现机率最高的候选字的方式来加以替代实施。然而,当输入的输入字在该字典中找不到包含该输入字为子序列的候选字时,需要显示一错误信息,以告知打字者可能打错了字,并告知打字者在该字典中并没有任何符合该输入字的条件的候选字存在。
本发明也提供一第四种候选字产生方法,并用在单词序列上,例如句子或片段所组成的单词序列。假设打字者先前输入的一句子或一片段已经连带其本身的单词排列顺序一同被记录起来,则该句子或该片段对应的首字母缩略字序列(acronym sequence)将会一同被储存起来,其中该首字母缩略字序列包含该句子或该片段中每一单词的开头字符,且这些开头字符在该首字母缩略字序列中的排列顺序与该句子或该片段所包含的所有单词的排列顺序相同。如此一来,当打字者想要得到一个完整的句子或片段时,他只需要输入该句子或该片段的首字母缩略字序列的子序列,也即一首字母缩略字子序列,就可以达到目的。但是该首字母缩略字子序列的开头字符必须要是该句子或该片段的开头单词的开头字符,同理,该首字母缩略字子序列的结尾字符也必须要是该句子或该片段的结尾单词的开头字符。举例来说,当打字者先前输入过一单词序列”Iwill visit the University of California at Los Angeles tomorrow.”时,对应的首字母缩略字序列”iwvtuocalat”将会被自动的一起储存起来。同理,打字者可借助仅输入一输入字”ucla”或”uocla”,得到一片段”University of Californiaat Los Angeles”,其中该片段的首字母缩略字序列为”uocala”,且输入字”ucla”与”uocla”皆为首字母缩略字序列”uocala”的子序列。请注意,本发明所提供的第四种候选字产生方法与之前所述的本发明候选字产生方法不同,并不需要事先准备语句字典或片段字典来储存片段”University ofCalifornia at Los Angeles”,也不需要事先记忆可用来取得该片段的关键输入字,例如首字母缩略字子序列”ucla”。打字者可借助任意输入合乎文法的首字母缩略字子序列来得到他所想要的句子或片段,其中打字者所想要的句子或片段为打字者之前已输入过的句子或片段,或是在打字者之前输入该句子或该片段的同时已由特殊的使用者定义文件(user profile)所储存起来。
图5为本发明所提供的第四种候选字产生方法的示意图,其中该第四种候选字产生方法应用首字母缩略字子序列与单词序列之间的字符顺序关系产生出打字者所需要的单词子序列来,且该单词子序列为该单词序列的子序列。图5所示的步骤列举如下:
步骤402:储存一单词序列。
步骤404:使用一首字母缩略字子序列,得到该单词序列的一单词子序列,该首字母缩略字子序列包含一单词的开头字符、以及该单词的一后续单词的开头字符,其中该单词子序列起始于该单词并结束于该后续单词;该单词与该后续单词来自于该单词序列且不一定相邻;该单词的开头字符与该后续单词的开头字符在该首字母缩略字子序列中的顺序遵守该单词与该后续单词在该单词序列中的顺序。
一使用者接口可设计来实施本发明所提供的第四种候选字产生方法,且当得到二个以上之单词子序列时,该使用者接口会产生一个单词子序列清单,以列出所得到之至少一个单词子序列并供打字者由该至少一个单词子序列中选出打字者想要的一单词子序列;其中该至少一个单词子序列皆由同一首字母缩略字子序列参考该单词序列所产生出来,且该首字母缩略字子序列为该单词序列所对应的首字母缩略字序列的子序列。上述在使用者接口中由打字者选择单词子序列的过程也可以以自动选择的方式来执行,也即根据过去所累积的统计数据或相关机率来自动选取出一个可能性最高的单词子序列,甚或是单词序列。
本发明提供一第五种候选字产生方法,以节省打字者需要输入包含加入标记的字符的单词时额外浪费的时间。借助该第五种候选字产生方法,打字者在输入单词时,可以很轻易地把未带有标记的字符与带有标记的字符互相替换,例如将未带有标记的字符“O”或“U”与带有标记的字符”或“ü”互相替换。
请参阅图6,其为本发明所提供的第五种候选字产生方法的示意图,其中该第五种候选字方法用来简化打字者输入包含加入标记的字符的单词时额外浪费的时间。该第五种候选字产生方法列举如下:
步骤502:提供一字典。
步骤504:根据输入字中可能带有标记的字符,并借助参考该字典中所记载并相关于多个带有标记的字符的合理语义单词组合,产生至少一个候选字。
步骤506:由该至少一个候选字中选出一个候选字。
在步骤502中,一字典用来储存与包含带有标记的字符的合理语义单词组合相关的多个候选字,因为同样的一个单词所包含的某些字符在某些状况下为带有标记的字符,但是在其它状况下又并非是带有标记的字符。当打字者输入一输入字时,与带有标记的字符和该输入字相关的合理语义单词组合都会被搜寻,以产生至少一个候选字。最后,该打字者从经由搜寻所产生的至少一个候选字中,选出一个候选字,或是根据相关的统计数据与机率分布,并经由自动选取的方式选出一个可能性最高的候选字来。一使用者接口也可经由适当的设计来实施本发明所提供的第五种候选字产生方法,以借助表列出至少一个候选字的方式,辅助打字者选择一个适当的候选字。该使用者接口也可同样的以自动选取的方式由该至少一个候选字中选出一个可能性最高的候选字来。
本发明提供多个候选字产生方法,以减轻打字者在打字时面临的各种负担,其中引起这些负担的原因包含不正确的拼字、输入错误、打字者不知道单词的正确拼法、以及某些包含带有标记(比如说重音标记)的字符的单词。该多个候选字产生方法也可以某些简略的方法帮助打字者可以更快的找到他所想要的单词。本发明所提供的这些候选字产生方法应用了某些概念,例如记录打字者先前输入的句子或片段并当作之后的参考、或是利用使用者设定文件由打字者先前所输入的句子或片段自我学习的候选字,以自动选取出有较高机率符合状况的候选字。再者,借助其它特定条件的限制,可以大幅度的缩小候选字的搜寻范围,并使得自动选取出有较高机率符合状况的候选字的准确性提高。
许多亚洲系统的语言都是采取以字符或字母为单位元的键盘输入方式,例如中文的拼音输入法、仓颉输入法、或是日文的汉字输入法等。在上述的输入法中,打字者输入一连串的字符以形成特定字码,并以表列的方式(例如下拉式选单)找出根据该特定字码所产生出的至少一个亚洲系统语言候选字符。因此,本发明所提出的各种候选字产生方法也可应用于亚洲系统语言的输入方式,其中候选字的单位即为亚洲系统语言所使用的字符。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,均应属本发明的涵盖范围。

提高打字效率的候选字产生方法.pdf_第1页
第1页 / 共26页
提高打字效率的候选字产生方法.pdf_第2页
第2页 / 共26页
提高打字效率的候选字产生方法.pdf_第3页
第3页 / 共26页
点击查看更多>>
资源描述

《提高打字效率的候选字产生方法.pdf》由会员分享,可在线阅读,更多相关《提高打字效率的候选字产生方法.pdf(26页珍藏版)》请在专利查询网上搜索。

为了让打字或按键输入者减轻各种打字负担,以及为了借助某些简化的技巧来提高打字者的打字或按键输入效率,提供多种候选字产生方法以用来辅助打字者由列举出的候选字清单中选出所要的候选字,或是用来以自动由该候选字清单中选取候选字的方式辅助打字者。其中,这些打字负担包含不正确的拼字、键盘输入错误、打字者不知道单词的正确拼法、以及带有标记的字符等状况。经过适当设计的使用者接口也可用来实施该多种候选字产生方法。 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1