汉字键盘输入技术 本发明涉及一种文字编码的方法,属文字信息输入与处理领域,又称为动态编码技术。
现代编码技术要求以“字为基础,词为主导”,但汉字单字是有限的、相对稳定的,而词语是无限的、发展的。现有许多编码方案,已成功地解决了前者的编码问题,但对后者,至今尚无一种理想的适于盲打的解决办法。究其原因,主要是未能处理好词库容量与编码空间的矛盾:实用的通用词库加专业词库加个人词库总容量约为3-4万,再加上单字,编码对象约4-5万,若进一步考虑语句级输入,上述词库容量还可能大大增加,而现行方案在四码范围内对双字词的有效编码空间最大不超过全拼方案(声韵组合上),即1.68×105,若将理论值与实际值之比视为15∶1,则不过能容纳一万条左右编码对象。同时,由于汉字结构的多样性和复杂性,使得编码分布极不均匀,某些子区重码率会急剧上升。所有这些,均造成了上述矛盾的加剧,成为难以解决的问题。因此,现有编码方案对上述矛盾进行了妥协:或者强调盲打,将词库容量限制在五千左右;或者牺牲盲打去迁就词库。总之,是以牺牲效率换取了矛盾的妥协。所以,解决盲打条件下词语的输入,成为无数国人迫切的愿望。另一方面,理论分析表明,如果不考虑码长或输入效率,现有词语输入的重码率将不会超过单字重码率,极端的例子就是把组成词语地所有单字编码加在一起作为词语的编码。由此可知,解决词库容量与编码空间矛盾的途径有两种:其一,构造更好的词语编码方案,以求在现有编码空间范围内提高词语的有效编码空间;其二,增加码长直接扩大物理编码空间,以求容下更大的词库。前者相对潜力有限,其最新成就以“天宇编码方案-II”为代表;后者是最彻底的解决办法,但必须协调好码长与输入效率的关系,若仅是单纯增加码长去扩大编码空间,比如从四码增加到五码,则5万的编码对象将因此增加约49K的资源消耗,更主要的是单纯增加码长,不利于输入速度的提高,得不偿失。本方案正是妥善解决了码长与输入效率之间的矛盾,第一次彻底解决了在盲打状态下以词语输入为主导的难题,因此,是一项开拓性的发明。
使用动态编码技术的好处在于:
1.扩大编码空间,降低词语重码率,较好地协调了码长与编码空间的矛盾。
2.动态编码是一种开放性的编码,适应于词语尤其是语句集合的开放性及构成句子的字、词高阶条件熵值的递减性,是一种面向语句级输入的编码方法。
3.动态编码彻底解决了音形码中同音词重词的问题。
4.模糊提示信息的使用,大大减少了人机互交时间,减轻了视觉疲劳强度,有利于提高输入效率。
5.有助于弥补人工智能的不足,即仅对人工智能无法处理的重码词补充输入动态补充码。
本发明的基本思路是,选择一种易用好学,码长较短的编码方案,要求其对字能盲打输入,对词语重码率也不太高,一般不超过10%,字词编码空间最好分开(现有技术不难满足这些要求),并将上述编码作为基本码,如果出现重码,再根据需要增加码长,并称之为动态补充码。由于词语基本码编码只使用了部分字编码的特征信息,可以将未使用的信息用于动态补充码的编码,每字可取一码,其最大码长与组成词语的字数成正比,是一种开放的编码,也是有序、可控的编码,并且不会因使用词语的动态补充码而增加用户记忆量。由于基本码动态重码率不高,一般不超过10%,故使用动态补充码的机会并不多,不会因此而过多增加字词动态码长。例如,在五笔字型中,原编码作为基本码,并取每字第三码为词语的动态补充码,从词尾开始,逆字序向前取码,则“实践”,“经济学”、“电子计算机”等词语的基本码分别是PUKH、XGII、JRYS,动态补充码全码分别是GD、BJA、NAHBV。实际使用时,先输入基本码,如有重码,再补充输入动态补充码,动态补充码可随时根据需要提前结束。
动态补充码具有实用性的前题条件是用户不需过多关照屏幕字符的明确提示,否则不如使用选择键选择。为此采用了模糊提示技术,即利用屏幕亮度变化、色彩变化、系统声音变化等毋需视觉过多注意的信息,以告知用户何时需要使用动态补充码及其使用的码长。
动态编码不同于一般方案中的不等长码概念,因后者码长是封闭的,不同码长不能对应同一字词,同一词语也只能唯一对应某个编码。
动态编码中的基本码不同于简码,因简码不按编码规则编码,属特殊定义码或半定义码,一般需要用户强制记忆。
动态编码中的补充码不同于一般的选择码(键),因后者是无序或不可控的,一般需要根据屏幕字符的明确提示来使用。
动态编码中的补充码也不同于某些音码类方案(如声数码,汉语变换系统PJY等)中的调码,后者编码对象主要是单字,在词语输入中构成同一词语单字的音码与调码是交错在一起输入的,即用户需要在词语编码输入的同时,决定是否使用调码;而前者的编码对象主要是词语,且同一词语的基本码与补充码是分开输入的,补充码仅当基本码输入完后根据模糊信息提示决定是否被使用。