一种汉字象形编码输入法及其键盘 本发明属于将零散信息项目转换成为代码形式的系统,尤其是对汉字进行编码和用键盘输入的系统。
采用标准键盘输入汉字,大致可分为音码、形码和音形结合码三种基本的编码方式。
纯音码类即按整字音信息编码方案,是将汉字整字音信息音托于字母键上,编码输入,如全拼音输入法、刘卫民设计的双拼双音码、朱守涛设计的智能ABC码等,要求使用者对汉字的读音准确,掌握汉语拼音水平较高,因此使用范围受到很大限制。同时由于全拼音编码的重码率很高,使用者在输入编码后还需在屏幕上大量重码字中进行选择,影响了输入速度,不易实现盲打。双拼或简拼方案,需记忆的规则较多,失去了易学性和整字音托方式输入流畅的特色。
目前大多数编码都是利用字根信息来进行汉字编码。
字根对键盘字母的映射关系主要有音托、坐标定位和形托三种基本的方式。
音托方案,如四川省经济信息中心陈代宇设计的大众音形码,是将字根的形信息转换成音信息,然后再根据键盘字母的音信息来映射其对应关系,输入一个汉字,有几个字根就要通过几次这样的转换,使思维过程加长,影响了输入速度。
坐标定位方案如中国专利85100837中王永民的五笔字型编码法、石啸生的二维三码等,是先利用字根信息得到一个坐标,然后再配合整字字形信息或其他信息得出另一个坐标,从而锁定该字根在键盘上的对应位置。输入一个汉字,有几个字根就要通过几次这样的坐标搜寻,加长了思维过程,且规则较为复杂,使操作者记忆负担较重。学会后一段时间不用容易遗忘。
形托方案是按照汉字字根的形信息与键盘上的字母或其他符号的信息有某种程度的相似或其他关联来定位的。以形托方式进行编码的方案有中国专利85105556公开的表形码、台湾陈华伟设计的华象输入法和CN1077548A公开地英文/东方文字根象形输入法及CN1064162A公开的全汉字二十六码元表形码的字素分类编码法等等。这些方案总的说来,一是对字根与字母的相似关系挖掘不够,找得不够充分,牵强成份过多,二是对字根大小的选取和在键盘上的分布不尽合理,加上其他构成编码的因素造成的限制和影响,使这些方案存在着这样或那样的缺点。
如中国专利85105556的表形码,将汉字字根、部件归为360多个,分别对应于31个键位上,字根与键位的对应以形托为主,辅以会意和谐音,这种对应关系牵强成份太多,造成使用者记忆量加大。由于使用了四排键位,增加了操作的不方便,不利于高速输入。由于将最大码长定为4码,使得要在词汇容量较大的前提下保持较小的重码率,就必须附加一些特殊的规定,造成规则繁杂,不易学习和记忆。
又如CN1077548A公开的英文/东方文字根象形输入法,其主要特点是将汉字字根与英文大、小写字母分别按其基本形态分成易经符号规定的八种类型,再进行象形对比,将字根定位于26个英文字母键上。这样使字根与字母的对应中间又多了一次与自然界实物联想转换,故而使思维过程延长,影响了输入速度。而且字根与字母的映射有的直接象形,有的是通过与自然界实物对比再映射,规律不统一,使记忆难度加大。另外,最大码长为4码的限制,也使其若要既保证较大的字词容量,又降低重码率,需靠增加特殊规定才能实现。
本发明的目的在于克服现有技术的不足之处而提供一种直观易学、好记、规则简单,同时具有大词汇容量和低重码率,便于实现高速盲打的汉字象形编码输入方案。同时也为掌握汉语拼音的使用者提供一种以音码编码为主,辅以象形编码易学兼实用的输入方案。
本发明的目的是通过以下方案实现的:
在汉字字根的拆分上,以最先和最快映射在大脑里的字根和部件为取码单元,并通过大量的筛选和优化,把形状相似的字根分别归类成类根,再找出各类根与英文字母中最相形似的对应字母,并将334个字根分别形托于26个英文字母键上,使汉字字根与英语字母之间的对应关系最直接,最容易记,并且在需要将大脑内的字根映射到英文字母上时,能按最快最直接的途径映射到所对应的字母键上。
334个部件和字根与26个英文字母的对应关系如表1(田氏象形归类大字根表)。
本发明方案编码规则如下:
(1)键元集:由26个字母键和一个万能提示键“\”组成键元集,并利用空格键在输入时作为结束符;
因此本发明方案所用键盘至少包含26个英文字母键和一个万能提示键“\”及一个空格键组成,通常是标准键盘。
万能提示键是在操作者在输入遇到困难时,需要借助于屏幕提示时用的。空格键作为字词输入不足6码时的输入结束键。
(2)编码的码长:字词均为不等长码,最长为6码。
(3)部件和字根的切分原则和取码通用规则:1)部件或字根作部首时一般不拆分,作单字时只对离散型字根按自然分界线取码。2)汉字按不相联的孤立部件的自然分界线拆分,3)取码顺序是按汉字的书写先后顺序分别对部件取码;
(4)特征信息元与码位的对应关系:即部件和字根与英文字母键的对应关系,如表1所示。
单字:按部件的自然分界线顺序取码,最长六码;只有三个及三个以下部件时,补其汉字拼音的第一个字母作最后一码;对在文章中常以单字形式出现的最常用字,也可分别用简码输入,即不加音码;
二字词:每字取三码,不足三码取两码,只有一码补其拼音的第一个字母作第二码;
三字词:每字取二码,不足二码取一码;
四字及四字以上词:第一字取二码,其余各字各取一码;超过五字时只对前五字取码;
对应于字母键位上的26个高频字,输入时只需按对应字母键加空格键,称为一级简码输入。
本发明的形码输入方式的26个一级简码如表2(形码一级简码表)
本发明的方案以汉字词组编码输入为主,以提高输入速度。
本发明的方案为使各行业的使用者在输入时都得到最适合自己的字词库,达到方便、高效的目的,按使用环境的不同,分别设计了含6万条左右通用词汇的一般通用型词汇输入编码方案和分别含1-3万条专业词汇的多种专业技术词汇输入编码方案,如化工类、医药类、电子类、金融类、法律类等专业码。其中法律类根据律师写作时需整段引用法律条文的特点,设计了可整段输入的律师码。
对擅长于用汉语拼音输入者,本发明还提供了一种配合音码输入的方式。当以音码为主编码时,键元集和编码码长不变,以汉字整字的音信息为特征信息元,将汉语拼音的声母分别对应于相应的英文字母键,其中声母zh、ch、sh分别简化为Z、C、S(下文所称全拼均指此简化方式),取码规则如下:
单字:按汉字的整字读音,取其全拼音码加象形字根码的第一码;对在文章中常以单字形式出现的最常用字,分别用简码输入,即不加形码;
二字词:每字取全拼音的前三码,不足三码取二码,不足二码取一码;对常用词,用二级简码输入,每字只取前一码即声母;
三字词:每字取全拼音的前二码,不足二码取一码;
四字及四字以上词:第一字取全拼音的前二码,其余按顺序各字取一码;超过五字时只对前五字取码。
本发明的音码输入方案的一级简码如表3(音码一级简码表)
本发明与现有技术相比,具有如下优点:
1、本发明的方案(以下简称田码)的字根表是将形状相似的字根归并在一起,并象形地托于键盘的26个字母键上,这不仅使字根与字母的映射关系变得容易记忆,而且在从人脑输入输出汉字字根信息时,需要人脑对信息加工和转换的次数少,从而使输入更快捷、更流畅。
2、由于该字根表尽量保持了汉字字根中大字根的完整性,因此在输入时绝大部分词汇基本上不需要对汉字的独立部分进行过细的拆分,从而避免了一般输入方法因拆分字根过细,拆分步骤过多而造成的拆分困难和拆分麻烦,使得汉字的输入更为简单和便利。
3、通过对字根在键盘上的排列位置进行了最可能的均布和优化,并将编码最大码长定为6,使得在只用26个字母键输入汉字,且不附加更多规则的情况下,达到编码词条总数十万条左右时仍能保持较低的重码率的效果,这不仅为编篡方便实用的通用型大词汇量编码提供了可能,而且更有利于编制更大词汇量的各类专业码。而这是一般的编码方案过多采用小字根,只能在一万条左右词汇时保持较小的重码率来进行编码所不可能做到的。
本方案通用码的现有词汇量为六万余条,是一般输入法的2-8;各类专业码的现有专业词汇量按专业不同分别在一万至三万左右,而且可以继续扩充词汇,其编码空间足以满足十万词汇的编码,可以适应不同使用者的不同需要。
田码提供六万条左右的通用词汇编码以及大词汇量的各类专业词汇编码(可加可不加),其编码的整体重码率小于1.6%(五笔字型三千五百字以内重码率为1.7%),使用者可方便地进行盲打,广泛适用于一切文字工作者的写作和抄录,而且有利于实现以词为基础的句处理。
对擅长用汉语拼音输入者,本发明还提供了一种比双拼方案规则简单得多,几乎不用记忆的拼音输入方案,该方案比全拼方案单字重码率降低70%,且同样提供了六万条词汇的编码。
本发明使不同的使用者可以根据不同的需要选择形码输入、音码输入或形码、音码相互辅助输入方式。
附图是《田氏象形归类大字根表》。下面结合实施例和附图进一步说明本发明。一、象形编码输入法:
1、以象形编码为主的单字输入:
独体字输入
长: K(形) C(音)
苗: H(形) Q(形) M(音)
田: O(形) X(形) T(音)
合体字输入
品: O(形) O(形) O(形)
种: M(形) Q(形) Z(音)
览: I(形) K(形) U(形) U(形)
2、二字词输入
田码 O(形) X(形) T(形) D(形),
首届 V(形) B(形) P(形) Q(形)
努力 X(形) R(形) D(形) D(形) L(音)
太阳 A(形) D(形) P(形) B(形),
3、三字词输入
计算机:IX KB YU
博览会:IX IK VT
金字塔:VE DZ WH
4、四字词及四字以上输入
文艺复兴:DX H L W
难兄难弟:RF O R V
中国共产党:OI O H D W
直角三角形:XB N T N T
柳暗花明又一春:YP B H B R
中国专利局:OI O W M P二、以音码为主的拼音码输入法:
1、单字:
1)全码输入:
苗:M(音)I(音)A(音)O(音)H(形)
明:M(音)I(音)N(音)G(音)B(形)
2)利用万能键输入(适用于不熟悉字根表者),将最后一形码换为“\”:
苗:M(音)I(音)A(音)O(音)\(万能键)
再通过屏幕用数字键进行选择(与全拼输入法一样)
3)简码输入,通常是常用高频字,这些字在文章中常以单字形式出现,输入时,按“全拼”输入即可。如:
把 BA
帮 BANG
4)一级简码输入,通常是最常用的,且在文章中常常以单字形式出现,共26个。如:从:C(一级简码),再加空格键即可输入。(单字不足六码均用空格键结束,下同)。
2、词组:二字词: 1)全码输入:
人民 R E N M I N
北京 B E I J I N 2)二级简码输入,通常是常用词组:
我们 W M
常常 C C三字词:
电视台:D I S I T A
总经理:Z O J I L I
阿里山:A L I S A四字及四字以上词:
新闻联播:XI W L B
世界之窗:SI J Z C
中国共产党:ZO G G C D
直角三角形:ZI J S J X
柳暗花明又一村:LI A H M Y Y
中国专利局:ZO G Z L J
表1 田氏象形归类大字根表A:厶钅大犬火夫夭央失B:日白目自且舟C:匚コ臣巨厂广疒D:刀力马丑卫丶亠立六方亡文E:王玉生壬非丰韦乡幺臼彐肀聿镸主纟F:彳亻斤G:心丘勹匆宀冖H:艹廿廾井甘I:丨忄讠卜刂工J:亅扌手丁了弓K:长片卡爫豸乎丬衤礻L:弋戈戋也巴电乜屯乇毛上止 廴辶M:巾卅川州巛灬四皿血黑米来未末耒 禾不束柬瓜爪N:饣鱼夕歹久癶牛午缶O:口□回P:阝卩尸户尹彡千Q:母耳毋田甲由申中虫R:尺艮良又叉皮友夂攵丈及走吏史疋疌S:与氵冫T:下于干平万石开西酉雨一二U:凵凹曲儿几兀冂门贝月丹骨V:丷人入八W:山土士X:犭十ナ厷寸才尢女水龙豕Y:木Z:乙己已巳九丸正互五亚瓦子矛乃
表2 形码一级简码表英文字母 对应高频字 英文字母 对应高频字 A 大 N 多 B 是 O 口 C 厂 P 我 D 的 Q 中 E 王 R 又 F 他 S 与 G 它 T 于 H 其 U 用 I 一 V 并 J 了 W 地 K 等 X 有 L 比 Y 从 M 和 Z 在
表3 音码一级简码表英文字母 对应高频字 英文字母 对应高频字 A 按 N 年 B 并 O 欧 C 从 P 批 D 地 Q 其 E 而 R 如 F 分 S 所 G 个 T 同 H 和 U 有 I 一 V 的 J 及 W 为 K 可 X 下 L 了 Y 因 M 每 Z 在