本发明涉及一种汉字输入系统,尤其涉及一种利用汉字字形及字结构中特征笔划位置与键盘关系,结合汉字发音,对汉字进行编码的汉字输入系统。 迄今为止,有关汉字编码方案已达数百种。主要有汉字字形编码方案、汉字拼音编码方案以及将两者结合起来的编码方案。尽管有如此众多方案,但这些方案在汉字信息处理中的推广、普及及应用仍存在很多障碍,主要原因有二:
一.重码率高。这里指编码的静态重码率。采用25键进行编码的五笔字型编码方案一、二级汉字重码率达二百四十多对。而利用汉语拼音编码方案,重码率则更高。重码率过高,将严重影响汉字的输入速度。
二.易学性差。为了掌握一种编码,往往要经过数周的训练,使得汉字编码成了一种专业技术,阻碍了计算机汉字信息处理的普及和应用。很多编码不仅要熟记上百种部首,而且还要掌握一些编码规则。由于所掌握内容规律性差,即使掌握了编码,也会因不常使用而淡忘。
本发明的目的,从易学易记入手,以提供一种汉字输入系统。用户只需一、二天了解,即可实行编码。所记内容少,规律性强,用户一旦掌握,也不易淡忘。本发明的汉字输入系统,利用了汉字最基本的二十几个部首和笔划进行编码,大大减少了用户的学习负担;本发明突出特点,是首次提出了汉字结构中“形位”的概念,它充分利用汉字结构与键盘的关系,采用笔划优先度进行编码,使得大部分汉字的编码具有“写”的效果,这种符合书写习惯的编码,不仅使用户容易掌握,而且容易记住。采用部首与形位结合的汉字编码,充分而简明地反映了汉字结构地美学特征。结合汉字的发音,使得汉字输入具有读音联想功能,因此,这种集发音、部首和形位于一体的汉字编码是目前25键汉字编码系统中重码率最低的汉字编码系统。并且,声形位码还具有较好的组词性能。
在对本发明进行说明以前,先阐明几个概念及一些说明。
a.键阵-由标准英文键盘上键的列向和横向排列构成的阵形。阵中的每一键的位置称为键位。最大方形键阵是由列向三个键和横向三个键组成的3×3键阵。
b.形位-特征笔划在汉字结构中的位置。包括两个概念:“形”即特征笔划;“位”即笔划在结构中的位置。按键阵将特征笔划位置划分成3×3个位置单元,由每个单元对应键阵中的键位上英文字母所代表的码称为形位码。
c.基本部首-具有键名的部首为基本部首。
d.部首码-由代表基本部首键名的英文字母所构成的码成为部首码。
e.部首形位码-由部首码和形位码组成的编码。
f.位置编码-根据特征笔划在汉字中的位置,来决定代表该笔划在键阵上的键位,通过键入代表该键位的字母键实现的编码。
g.扩展编码-将汉字中某一独立结构扩展成有阵形的独立字,并对此实行位置编码。
h.笔划优先度-反映汉字的基本笔划在编码时的重要程度。
汉字的基本笔划分为七种:点、横、竖、撇、捺、提、折。
i.汉字分类
汉字是由笔划,以及由笔划构成的字元和/或部首所组成。将汉字拆分成字元,是以不相交,不接触为依据。偏旁的特点是单独不构成汉字。根据这一原则,汉字可分成如下种类型:
3-2类杂合型中包括纵横向组合型,如婴、搏;结构可分,笔顺不可分型,如威、围;里外型,如国、同等汉字。
由以上一些概念及说明,来介绍本发明的汉字输入系统的构思。
汉字具有音、形、义三要素。对“形”的理解一般指的是汉字的笔划和部首,它们的组合构成了汉字。因此,过去以形为主的汉字编码思想,就是在键盘上寻找构成这些汉字的部首名。由于汉字基本部首多达一百以上,因此,要实现汉字的输入,必须要记住代表众多部首的键名。由于所记的内容太多,许多用户望而生畏。如果能使得汉字输入如同在键盘上的汉字书写,必将大大减少用户的负担,不仅容易接受,而且容易联想记忆。关键问题是如何寻找汉字中能在键盘上“写”的特征或笔划,并由此进行写码,本发明所提出的形位的概念是能实现这一思想的。
众所周知,汉字在结构上同世界其它文字最明显不同之处在于它所具有的方正结构。而在汉字七个基本笔划中,最能体现这一特征的是“折”笔。如果以折笔为主进行汉字编码,将最大限度地反映汉字结构的复杂和多变特征。
对汉字中其它笔划处理,根据它们构成汉字字型中的重要程度,以笔划优先度进行划分,以突出重要笔划,忽略和摒弃次要笔划。
为了突出汉字的特点,还选用了两个特殊符,并占有高的笔划优先度。
确定折笔的位,是以折笔的第一折点为定位点;撇则是以起笔点的位置作为定位点。
有了特征笔划的定位点,根据其在汉字结构中的位置,通过选取代表笔形键阵中的键位,便可进行编码输入。
由于汉字是由许多部首等组成的。为了突出常用部首,采用部分英文键名代表常用部首,可加快编码,并降低编码的重码率。所采用的基本部首为17个,它们在键盘上由15个英文字母键来代表。
有基本部首时,可不必考虑形位,直接用部首进行编码。
以上说明了汉字的部首形位码构思。它们构成了码长为4的声形位字码的第二及第四码。第一码为声码,它是由汉字拼音的第一字母所构成。这样使得声形位字码具有读音联想功能,便于提高编码速度。
本发明的汉字输入系统,结合了汉字中的部首,形位及发音等重要因素,所具有的优点为:
① 记忆量小,需要掌握的部首键只有十七个,包括笔划建区的十二种,共二十九个(种)键。
② 键盘布置合理,编码方法简单,规律性强,由于大部分汉字均采用位置编码,使汉字编码具有“写”的效果,因此该方法容易被用户掌握,且不易忘记。
③ 对汉字读音要求低,对汉语的鼻音和翘舌音等发音方式无要求,能适合发音不准的用户进行编码。
④ 由于部首形位码充分表现了汉字的结构特征,因此有较好的组词性能和较大的容词能力。
⑤ 在目前25键汉字编码系统中,具有最低的汉字静态重码率。
下面根据本发明的构思,结合说明书附图,对本发明作进一步的描述。
附图为键盘布置图。
编码的两个主要原则是:
① 依笔顺进行编码。即码的排列是顺笔顺的。
② 按笔划优先度对主要笔划和/或部首进行编码。编码中必须包含高优先度笔划或部首的码。
由于汉字中折笔形式多样,为了更好反映汉字结构,将折笔分成两种类型:甲类折:直角折笔;乙类折:非直角折笔,横折勾。
甲类折笔和乙类折笔分别对应键盘上不同的键阵。并约定竖(或斜)勾作为乙类折,横勾则简化成横笔处理。对较为特殊的“心”的“”,有“乚”或“”等写法,统一规定为“”形式。
基本部首的优先度,也是按其中笔划优先度来考虑。除笔划以外,还包括特殊符。具体排列见表。
体现汉字形位及部首的键盘布置见附图。按内容可分成部首键(阵)和笔划键(阵)两部分。部首字符共有15个,代表了17个基本部首。英文键名与部首及相似形对应关系如下:
W:王(); R:艹(廾);
Y:(); O:犭(豸);
P:土; D:亻(彳,,八);
F:冖(宀,,穴),饣;
J:虫; K:口;
L:车; C:日;
V:金(钅); N:厂(广,疒,),贝;
M:木; B:马。
为了方便记忆,部分常用部首放在与部首名谐音的字母键上。
譬如:“王”在W键上,“亻”在D键,“口”在K键,“木”在M键。
在笔划键阵中,甲类折键阵由七键组成。E列:E、D、C;R列:R、F;T列:T、G。甲类折键阵第三行由单键C组成。
乙类折键阵由九键组成,包括:W列:W、S、X;Y列:Y、H、N;U列:U、J、M。其中W列紧靠在甲类折键阵E列的左边。
撇键阵由五键组成,包括:I列:I、K;O列:O、L;及P列单键P。它是一个两行键阵。L键表示中间以右的撇类。
竖键组由三键组成:包括A、W、S。它们不是位置键,是笔形键。其中A键为两通竖键,W为两封竖键,S为单通竖键。
横键由单键B组成。
捺键由单键D组成。
提键由谐音键T组成。
点键由单键Q组成。
特殊键有两个:竖折勾键V;点撇键E。
为了确定笔划在汉字结构中的位置,规定:如果在笔划定位点附近以外有确定的其它笔划,那么一般认定该点位置不在边缘(列、行)上,反之,则认定该点处于边缘(行,列)上。
对称排列的笔划,对应的键位也应对称,如“坐”字的两个“人”的偏码应分别取对称撇键I和P。
在汉字组成中,由偏旁和基本部首组成的汉字占有相当大比例。因此,无论偏旁和基本部首中的笔划优先度如何,它们都享有最高编码优先度。对偏旁的编码,按照其在字结构中某列或某行的位置,采取最高优先度笔划在对应键阵上某列或某行的位置编码。
少数偏旁已作为基本部首而拥有键名,但多数偏旁则要根据偏旁的笔划来确定键阵上的码。规定偏旁只拥有一码。如“衤”的偏旁,因点具有最低优先度,有不占位特点,可忽略掉,因此其折点位于乙类折键阵左上角,其形位码为W键。
只有当偏旁为整个字型的偏旁时,才享有最高优先度编码,否则要根据偏旁的笔划进行编码。享有最高优先度时的偏旁往往是其码为部首形位码的首码。同样,当基本部首作为形位的首码时,基本部首也具有不占位特点,余下的字元则采取扩展编码。
除了偏旁和基本部首以外,有不少具有类似作用的汉字型部首也在汉字中占有相当比例。为了降低重码率,采取扩展编码。扩展编码具有不考虑各字元在汉字结构中的上下或左右位置关系等特点,同时还具有在结构中不占位的特点。不占位可使得余下的字元采取扩展形式的编码。扩展形式编码适合2类汉字的编码。
下面给出对各类汉字采取扩展编码的实例:
1 2 3 4 5 6 7 8
宛 晼 讪 鲜 配 酐 掉 宜
FYV THV ECA YGE GTV GFS XCS FST
在第1例中,偏旁“宀”有最高优先度编码权。“夗”则采取扩展编码。但当在第2例中时,“宀”已不再享有优先编码权,不参与编码。此时的偏旁“田”采用扩展编码。
过多的扩展编码会影响编码速度,因此规定:对2-1类汉字只采用一次;如上例第1,3,8例;对2-2类汉字,采用两次,一次对左边字元,另一次对余下字元。如第2例。
对1,3类汉字,一般采用位置编码。其特点是直观,有利于快速编码。但当首码为基本部首时,余下字元采取扩展编码,如第1例。下面给出位置编码的实例:
9 10 11 12 13 14 15
搏 珊 扇 避 假 威 寸
XGM WYU THJ REE DRJ IHM BMQ
对3-2类中结构可分,笔顺不可分的汉字,可采取将结构按笔顺划分的办法,如第14例“威”可看成:“厂”+“”+“”。
本发明主要是针对以折为主的A类部首笔划进行编码。其它笔划仅在A类笔划数不够码数,作为候补码,依照笔顺和笔划优先度参与编码。如上例中的第3,8例中的竖笔划。
当字为独立字型时,依笔顺可取字元的三个最高优先度笔划的部首或形位。
码数是按字元数分配的。当字元数与码数相等时,编码依笔顺取各字元的最高优先度的笔划或部首的形位;如前面的第1、9、11例。
当字元数小于码数,除每一字元个各拥有一码外,剩余码应确保各字元中A类笔划的编码,如第6例,由于“酉”有两个A类笔划,所以配给其两码,“干”为一码。但当两字元各有两个以上A类笔划或部首时,配码采取重心向后的原则,后一字元采取两码。如第5例中只给“酉”一码,“已”为两码。
当字元数小于码数,而对A类笔划的编码不足码长时,需要增加候补码。候补码的补充应取高优先度的笔划形位或部首,并按笔顺,取相同优先度情况下,靠后的笔划或部首。如第7例中的“掉”的三码,可能的有XSC和XCS,根据候补码(S)取后原则,正确的码应该为XCS。
当字元数大于码数,应取笔划优先度高的字元编码。当具有A类笔划的字元数大于码数时,应依笔顺分别取第1、2和最后一个字元的A类部首或笔划的形位作为编码,例如第13例中的最后一码取“又”的形位。当具有A类笔划或部首的字元数小于二时,较低优先度的笔划形位或部首码为在相同字元优先度情形下,选取靠后字元中高优先度笔划的形位或部首。
由于点在笔划优先度中最低,单个点不构成字元参与编码,当码数多于笔划数时,点可以作为候补码,或作为尾码参与编码。例如第15例。点还具有不占位特性,表示在大多数情况下,点可以忽略,如第11例和前面偏旁“衤”的例子。
当编码数不足码长时,采用补充码I进行补充。如“日”的码应为“CII”。
汉字结构中出现较多的“口”字形字元的编码,在如下情况下不作“口”键处理:
①.与“口”字有相连甚至相交的字元,按甲类折笔进行位置编码。例如“石”字取单码时应为“G”。
②.当“口”字笔划中弯折点以外有其它笔划,应作为甲类折笔处理而处于键阵里面。如“句”的码取为“UAF”,其中“口”取两码。“高”的码为“KJF”。
在声形位字码中,由于考虑了汉字发音,因此该码具有读音联想功能。汉字读音中第一字母为Z的占有较大比例,而英文标准键盘上的Z键却位于最不易操作的位置。因此,规定采用较易击键的V键代替汉语拼音的第一字母Z作为声码。
在键盘布置中,声码,部首形位码仅用了26个键中的25个键。最后一个键Z作为万能键。其作用有:
①.当无法判断笔划键位时,或遗忘某部首键名时,用Z键作为部首形位码充填码位。
②.当无法确定汉字读音时,作为声码代替键。
③.提醒和助记功能。当用“Z”键来代替未知码时,电脑显示屏将显示所有可能的汉字及其正确码,这会有利于用户更好地掌握和提高编码技能。
汉字的另一要素是“义”,体现这一要素的是汉字的构词。不同汉字组成的词组反映了汉字中不同的涵义。汉字词组的编码,不仅能体现这一要素,重要的是能提高由词组所组成汉语句子的输入速度。词组编码独立于汉字编码,字与词,两字词与多字词之间不会发生重码。由于最长的部首形位码不超过2,并多数为1,因此词码较字码更为简单。词组码长为4。输入步骤如下:
对二字词组输入步骤:
a.键入代表二字词组输入特征键I;
b.键入代表词组第一个汉字结构最高优先度的笔划形位键或部首键;
c.键入代表词组第二个汉字结构两个最高笔划优先度、依笔顺的第一个笔划形位键或部首键。
d.键入代表词组第二个汉字结构两个最高笔划优先度、依笔顺的第二个笔划形位键或部首键。
对二字以上多字词组输入步骤:
a.键入代表多字词组输入特征键U;
b.键入代表词组第一、二个汉字结构最高优先度的笔划形位键或部首键;
c.键入代表词组最后一个汉字结构最高优先度的笔划形位键或部首键
下面举例说明词组的输入步骤:
二字词组:“汉语”,其声形位字码为“HQUDYEGK”。如用词组输入法,其词组码为“IQEK”,击键次数由声形位字码的8键减少为4键。
多字词组:“中华人民共和国”,其声形位字码:“ZAGAHDVARODIMT
XMGRBQHPLKGTWB”,如用词组输入法,其词组码为“UGVT”,击键次数由声形位字码的28键减少为4键。