计辅字根(JFZG)汉字编码输入方法属计算机汉字编码输入技术。它是针对目前低档普及型微型计算机汉字信息处理系统(以下简称普及型汉字系统)中使用的汉字编码输入方法的不足之处,以非专职计算机操作人员为主要对象,设计的一个易于掌握,操作简单、编码效率高、易于实现的汉字编码输入方法。 目前,在普及型汉字系统中,使用最广的汉字编码输入方法是拼音和区位汉字编码输入方法,其次是偏旁部首(也称字根)汉字编码输入方法,下面就以此作为现有技术作以简单介绍。
拼音汉字编码输入方法是利用汉字字音属性来进行编码的。由于它占用内存较少、输入程序较为简单及可使用普通字母数字键盘,故在普及型汉字系统中使用较为广泛。但其作为普及型汉字系统的汉字编码输入方法也有其不足的一面。首先,拼音汉字编码输入方法是以汉字字音属性来编码的,直观性较差;其次,拼音汉字编码输入方法在其编码时、存在着一个形音转换的过程,故操作负担较重。另外,拼音汉字编码输入方法对操作人员要求较高,这也是它的最大缺陷,它至少要求操作人员知道编码汉字在普通话中的大致读音,这就对识字量有限或发音受当地方言影响较重、而当地方言又与普通话差别较大的操作人员,在使用上带来了很大的困难。
偏旁部首(即字根)汉字编码输入方法,是利用汉字字元(即字根)属性进行编码的。由于,它直观性较强,不受方言的影响,不认识的汉字不影响代码的编制,而在普及型汉字系统中得到一定的应用。下面就以在普及型汉字系统中使用最为广泛的,曾被台湾评为最优编码方案的偏旁部首汉字编码输入方法(也称仓颉输入法)为例作以说明:
仓颉输入法是以24个主字根及由其演变而来的60个辅助字根为编码字根,以如下规则进行编码的,对字形比较简单的汉字、依先左后右、先上后下、先外后内的顺序取码进行编码,对字形比较复杂的汉字,先将其最上方或最左方的字形划为字首,无法上下或左右分离的,但为字典上惯用的字首也要划为字首、字首外地全部字形列为字身,如果字身可左右或上下分离的,又将左方或上方字形划为次字首,余下的列为次字身,同时规定字首部分最多只能取两码,若字首比较复杂的只能取首尾两码,若字身比较复杂的只能取首、次、尾三码,其余的省略,次字首最多只能取首尾两码,如果次字首不能一码取定的,字身取次字首的首,尾及字尾;对笔划交叉连贯无法分离的汉字,最多只能取四码,第一码为字首、其余的看作字身,如字身字形比较复杂取首,次、三、尾四码。
据上可见,仓颉输入法的编码是比较复杂的,输入每个汉字都要判断选取那些部分作为输入部分,加之,它选的编码字根又与传统的偏旁部首相比差别较大,这就给操作人员在掌握和使用上带来了很大的困难,也正是由于这一点,使它仅适合专职计算机操作人员使用,故在普及型汉字系统中配置较少。
另外,仓颉输入法作为普及型汉字编码输入方法还存在着编码效率低,平均击键次数高(含空格键平均每字4·8下),输入程序复杂等缺点。
区位汉字编码输入方法,是利用阿拉伯数字来对汉字进行编码的,记忆量很大,实际中一般仅用作辅助输入。
与此同时,操作比较简单的汉字编码输入方法,如带智能词库的联想式汉字编码输入方法,又因为需要较大的内存,而很难在普及型汉字系统上配置,其它,如输入速度较高的五笔字型输入法,由于它事先必须进行必要的训练,加之它占用内存也较大,程序也较为复杂,故实际中、在普及型汉字系统中配置很少。
对目前普及型汉字系统中使用的汉字编码输入方法存在的问题怎么办?
本发明的目的就是针对目前普及型汉字系统中配置的汉字编码输入方法的不足之处,而提供的一种适合非专职计算机操作人员使用的操作简单、编码效率高、易于实现的汉字编码输入方法。
本发明主要包括如下内容:
本发明是利用计算机本身的智能,在计算机的辅助下,采用通用性较强、键位较少的普通字母数字键盘、借助汉字库与汉字显示器(将其下列的一行辟为提示区用于输入时的提示),以26个英文字母,10个阿拉伯数字外加一个空格符作为编码码元,以两个英文字母命名一个编码字根(以克服重码问题及简化程序),利用汉字字形属性,对最常用的汉字以直接方式进行输入,对一般汉字以字根方式,按先左后右、先上后下、先外后内的顺序,选其起始的1-2个字根通过编码进行输入。
本发明除上述内容外,还包括编码方案、键位配置、实现方法及可扩充的词输入方法。下面就对此分别进行介绍。
一、编码方案。
本发明在其处理字集上,基于普及型汉字系统的内存容量及主机寻址范围都很有限的考虑,根据本发明配置的具体普及型汉字系统的实际使用要求,以区别对待为原则,分别选取相应的字集作为本发明配置时的处理字集。这样做既有利于降低普及型汉字系统的成本,又有利于提高汉字的编码效率。
比如,通用型普及型汉字系统在处理字集上,就可以选择国教委公布的2400个常用汉字(在当前各类书刊中覆盖率不低于99%)或更高一点选择国标3755个一级汉字(在当前各类书刊中覆盖率不低于99·9%)作为本发明的处理字集。如果此时,针对本发明在辅以区位等汉字编码输入方法,就可以在普及型汉字系统上形成一组占用内存较少、实用性较强的汉字编码输入方法。当然也可以选择整个国标汉字作为其处理字集。
本发明对其处理汉字,按其使用频度分为特高频汉字、高频汉字,次高频汉字,常用汉字,普通汉字和字根型汉字六类进行分级处理,各类汉字采用如下编码形式进行编码。
对特高频汉字,本发明是根据其在键盘中配置的具体键,用一个英文字母(配置键的)外加一个空格符来编码的,以直接方式进行输入。在现有的一个没有进行优化的实验性方案中,特高频汉字的累计使用频度约为15%。
对高频汉字、本发明是根据其在键盘中配置的具体键、用两个英文字母(配置键与其相邻键的)来编码的,以直接方式进行输入。在现有的一个没有进行优化的实验性方案中高频汉字的累计使用频度约为20%。
对次高频汉字,本发明是根据次高频汉字起始字根在键盘中配置的具体键,借助计算机的提示(依次高频汉字的起始字根在键面上的位置及其使用频度排列),用一个英文字母(起始字根配置键的)外加一个阿拉伯数字(提示时的序号)来编码的,以二次选择方式进行输入。在现有的一个没有进行优化的实验性方案中,高频汉字的累计使用频度约为32%。
对常用汉字、本发明是根据常用汉字的起始字根在键盘中配置的具体键、借助计算机的提示(依常用汉字的使用频度排列),用两个英文字母(起始字根配置键与生成键的)外加一个阿拉伯数字(提示时的序号)来编码的,以二次选择方式进行输入。实际中、为了简化操作,对部分笔画交叉连贯不易分解的所谓不规则汉字,也常作常用汉字来处理,在现有的没有进行优化的实验性方案中、常用汉字(包括不规则汉字)的累计使用频度约为13%。
对普通汉字、本发明是根据其起始的第一、第二字根在键盘中配置的具体键,用四个英文字母(起始的第一、第二字根的配置键与生成键的)来编码的,但如果输入的四个英文字母有同码字时,就需借助计算机的提示(依普通汉字使用频度排列)、再追加一个阿拉伯数字(提示时的序号)来编码。对四个英文字母可完成编码的普通汉字,采用字根方式直接输入;对四个英文字母难以完成编码的普通汉字,采用二次选择方式进行输入。在现有的没有进行优化的实验性方案中,普通汉字与下面将说到的字根型汉字的累计使用频度约为19%。
对编码字根直接构成汉字的字根型汉字,本发明根据字根在键盘中配置的具体键,用两个英文字母(字根配置键及生成键的)外加一个空格符来编码的。以直接方式进行输入。
二、键位配置。
本发明的键位配置是在普通字母数字键盘上、根据操作人员的运指规律,以本发明的键位配置方法进行配置的。下面就将其分为编码字根配置和特高频汉字、高频汉字配置两部分进行介绍。
1.编码字根配置。
本发明在编码字根配置中,为了便于操作人员操作时查找,将所有编码字根依其上部笔画、按点(丶)、竖(丨)、横(一)、撇(包括捺)、(丿、)分成四类分别配置在字母键的键面上。
本发明在编码字根配置中,为便于配置,将配置编码字根的字母键键面按高约0.5厘米、宽约0.3-0.4厘米分成六个区,用其中四个区配置编码字根,一个区配置所在键英文字母、一个区配置利用颜色间的差异来提示上述四类编码字根的类别及配置键在所在生成区的生成状态的提示色,有时也利用配置英文字母区的底色来进行编码字根类别的提示。另外,也可选用五个区来配置编码字根,这时编码字根的类别及配置键在所在生成区的生成状态就完全通过配置英文字母区的底色来提示。
本发明在编码字根配置中,为了提高键位利用率,对一个字根(基本字根)的字形是另一个字根(派生字根)的左方或上方字形的这样两个具有派生关系的字根,采用合成法将它们配置在同一位置上。其中、基本字根用实线进行配置、除基本字根字形外的派生字根字形用虚线(点线)进行配置。
本发明在编码字根配置中,为了便于操作人员的视觉搜索,在键位配置时采用了彩色配置法。彩色配置法在本发明中主要用于编码字根类别与配置键在所在生成区生成状态的提示及编码字根与特高频汉字、高频汉字的配置。如果因条件的限制,而不能在键位配置中,采用彩色配置法时,编码字根的类别与配置键在所在生成区的生成状态的提示则通过殊特标记来实现。至于编码字根与特高频汉字,高频汉字的配置则可以采用实线与虚线直接进行配置。
本发明在编码字根配置中,基于其编码字根都是以两个英文字母来命名的。为了便于操作人员编码,本发明根据操作人员的运指规律,将键盘分成两个相互独立的生成区,并规定,输入一个完整的编码字根、除击其配置键外,还要加击与其配置键所在生成区相对的生成区中生成状态提示色与编码字根配置色相同的生成键。配置在键前侧的特高频汉字,高频汉字兼作字根使用时,其生成键为其右上角标出的字母的字母键。
2.特高频汉字与高频汉字的配置。
本发明对所有特高频汉字和高频汉字,均以三个字为一组(其中特高频汉字一个、高频汉字两个),以每字高约1厘米、宽约0.3厘米配置在字母键的键前侧。为了便于操作人员记忆及确定特高频汉字和高频汉字在键盘上的具体位置,本发明根据有关记忆学的研究,将其编成几句不合逻辑、但又有一定意思的句子排列在键盘上。
三、实现方法
本发明在计算机上是以如下方式来实现汉字的输入。
在输入程序的支持下,借助代码转换对照表,通过普通字母数字键盘,以人机对话的方式实现汉字的输入。
本发明在计算机上是通过软件方式实现配置的,实现本发明的软件通常都固化在机内,实际中,它主要由输入程序与代码转换对照表构成。
输入程序是按照本发明的汉字编码形式及代码转换对照表的结构、以本发明的工作流程进行编制的。其中工作流程就是本发明根据输入状态,及对输入数据的分析判断,自动完成的一系列动作。对此,由于受篇幅的限制就不作详细介绍了。
代码转换对照表,作为本发明进行汉字输入编码转换的基础,由输入编码,目标码及汉字编码属性三部分组成。其中汉字编码属性是本发明进行自动提示和自动转换的重要依据,它是通过ASCⅡ码来表示的,每个汉字的汉字编码属性占用1个字节。
四、词输入方法。
由于词是现代汉语中汉字出现的主要形式,本发明为了提高编码效率、简化操作,在其输入中引进了词输入方式,以备需要时扩充。本发明的词输入方法包括词库与实现方式两部分。
作为词输入的基础的词库,在本发明中主要由以下三类词构成。第一类词是配置时即固化在机内的,使用频度一般都较高的所谓高频词,它的数量根据需要而定;第二类词是用户在指定的内存内,根据实际需要造的所谓的自造词;第三类词是在显示文件区中随机出现的所谓随机词。对这类词可以看成一种自适应词。它是直接利用显示文件区作为其词库的。实际中为了减少占用内存量,也可仅选用上述一类或二类词构成词库,如仅选随机词。
本发明在词输入上,是利用词输入程序、借助词库,以类似联想的方式、采取逐字输入的形式来实现词的输入的。实际输入时、每当一个汉字输入完毕后,计算机就自动进入词输入状态、并将前面输入的汉字作为索引,与词库中的字采取依次比较的形式进行比较。比较的同时,将词库中所有与索引汉字相同的汉字的后续字取出、通过程序加工编号显示在提示区中,由操作人员根据需要输入汉字在提示区中的序号,通过普通字母数字键盘中的数字键以选择的方式进行输入。本发明为了提高词提示的准确性、对“的”、“地”、“了”等汉字及标点符号;均由程序自动控制、以禁止其作为索引汉字进行联想和作为后续字进行提示。另外,在本发明中、本发明视任意两个相邻的汉字为一词,这与通常意义下的词不同,但与通常意义下的词相比,在使用上本发明的词则更灵活。
本发明与现有普及型汉字系统的汉字编码输入方法相比,具有以下优点:编码规则简单、操作方便、编码效率高、无重码、占用内存小、程序简单,可扩展词输入方法等。
本发明在编码规则上,具有编码规则简单的特点。它对最常用的汉字采取直接方式进行输入,对一般汉字采取字根方式,依先左后右、先上后下,先外后内的顺序,选取其起始的1-2个字根通过编码进行输入。
本发明在操作上,具有操作简单方便的特点,它具体体现在以下方面,首先,本发明是直接利用汉字字形来编码的,直观性较强,不受方言的影响,不认识的字不影响编码的编制;其次,本发明对使用频度较高或编码较长的汉字均以简码方式进行处理。但在使用时又不要求操作人员对此作强制性的记忆,编码的冗余部分均由计算机自动删去。还有、本发明在键位配置上,是根据操作人员的运指规律,以易于联想,便于确定为原则进行配置的,这就给操作人员使用时,提供了很大的方便。
本发明在操作上简单方便还主要体现在输入过程中。本发明的所有输入,都是在计算机的辅助下,以人机对话的方式实现的、故较易学习掌握,有利于普及应用。
本发明在编码上,具有编码效率高的特点,实际使用时,平均每个汉字的击键次数不超过2.63下,这还不包括使用词输入方式时。
本发明在占用内存上,具有占用内存小的特点。在实际中,本发明仅需二十几K字节即可使其达到实用水平,使操作人员在一般的情况下,99%以上的汉字可利用本发明进行输入。
本发明在程序上、具有程序简单、易于移植的特点。
另外,本发明还可扩充词输入方法,这对使用词汇比较集中的文件的输入颇有裨益。有时一句话常常一连串地被引出来。
本发明在计算机上是以软件方式来实现的,但由于本发明属方法范畴,故将其用于某具体计算机上用于汉字输入,必须按如下步骤进行必要的加工。
首先,根据本发明将配置的普及型汉字系统的实际使用要求,这其中还要看配置的普及型汉字系统原是否配有汉字编码输入方法及其配置的具体汉字编码输入方法。选择相应的字集作为本发明配置时的处理字集。由于普及型汉字系统的内存都很小,选择合适的处理字集是很重要的。
在确定本发明的处理字集的同时,一般还要根据有关资料确定处理字集中各汉字的使用频度。
确定本发明的处理字集和各汉字的使用频度后,就可借助计算机的支持、以本发明选定的处理字集为基础,以各汉字的使用频度为依据,对实验性方案中编码字根进行优化,从而确定本发明配置时的具体编码字根。
编码字根也确定了,就可以根据本发明的键位配置方法和编码方案,进行键位配置和编制代码表。对键位配置的结果即可将其直接刻在相应的键位上,也可将其印在专用胶纸上,制成标签,提供给用户,由用户加贴在相应的键位上。比较起来,后面的这种方法将更简单些。
最后,就是按本发明的实现方法的要求编写输入程序了。输入程序除初次需进行编写外,以后配置时都可以以移植方式来得到。
另外,输入程序和代码转换对照表通常都是固化在机内的。