全汉字定义码输入法 本发明涉及汉字的计算机输入。
自从发明计算机输入汉字以来,已经涌现出六百多种不同的汉字输入法,它们大致可以划分为“音码”、“形码”和“音形码”三大类。
“音码”的优点是知道读音就可以输入,但是其重码多,而且拼音知识在国内尚不够普及,对于一些冷僻的汉字知道读音的人就更少,所以,无形的“读音”与有形的“字形”相比较,后者也许更具吸引力。
“形码”虽然重码少,输入较快,但是字型的划分规则不统一,非得下一番死记硬背的苦功不可,常令非专业操作者望而生畏。
另外,现有的汉字输入法一般还存在以下两方面的问题:1、键位的使用不统一,有的限于二十六个英文字母键,但也有的还得另外再增加几个数字键,由于数字1,2和0容易与字母I,Z和O混淆,所以常会出错,如果另设专用键,则又难以与计算机的标准通用键盘接轨;2、能够输入的汉字数有限,绝大部分方案只能覆盖GB2312-80基本集中的汉字(6763个),实际上汉字的字数远不止这些,例如《新华字典》收字11100个左右,《康熙字典》收字47216个,《汉语大字典》收字57000左右,此外,汉字还有简体、繁体以及讹体之分,如果还要包括像日本与韩国地外造汉字,则数量就更多,显然,不有效地解决全汉字(包括简体、繁体、讹体以及外造汉字)的计算机输入的问题,将成为中国计算机产业发展的主要瓶颈。
本发明的目的在于提供一种通过标准键盘上的二十六个字母键来输入全汉字的方法。
为了实现上述目的,本发明首先将组成汉字的所有部件和笔画划分成二十六个组类;然后将每一组类与二十六个字母键中的一个键位相对应以构成该组类的部件码或笔画码。另外,为了尽可以减少重码,本发明规定每个汉字由四码组成。因此,只要按照汉字的笔画顺序,就很容易获得其相应的本发明定义码。
本发明所称的部件,指的是组成汉字的不再拆分的最小构字单位,它由笔画(含笔画字)、部件字和多笔画不成字的部件构成,其中,笔画包括以下六种:横(提)、竖、撇、捺(点)、折和O形折;部件字指单独作为部件而不再拆分的字,包括:键名,共二十六个字,即通常所谓的单键码;相交拆分会引起歧义的字;外形相似,定义规定的字;多笔画不成字的部件,如等等。
具体地,本发明定义的二十六个组类部件和笔画如下所示:
(1)人(合)入(氽)亻(作)(睫)八(只、分);
(2)田巴中串甲申由电毋禺里央史曳(更)屯囗(国)(龟)(象)(贯)(卑)(革)口(四、罚)(皿)(单)匃(渴)(勤)虫(禹)(眉)(临)(漢)
(3)臣(颐)匚(区)(迎)(氏)厂(皮)(反)(越)广匚
(4)乛(买、敢)(今)(司)乚(孔)(亡)(以)马(馬)(乌)了子(孑)孓(承)亅(丁)(考)(勇)ス(轻)コ(兜)(侯)乙(丐)(飞)ㄋ(场)(几风)(烏)(几)く;
(5)水(泰)氵(汁)(鳏)(聚)(象)(永、求、承)
(6)扌(打)事車()丰韦专夫吏夷(段)(舆)镸(肆)市(肺)(垂)(捷)(或)(惠)(尧)(半)(囊)(寿)(制)(妻)(青)(秦)(東);
(7)足(路)(留)厶(台)(瓜):
(8)也井曲弗世廿卅(带)艹(草)鹿)廾(升)(舞)(曹)(典)(匆)(西)(两)(要)(兼)廿(華)
(9)丨(引)讠(言)主(难)亠(文)(斗)(今)二冫(冰)(永)辛辛;
(10)丿(才)丿(夭)豸(豹)我(曦);
(11)竹(笔)(监)飞(气)(农)(衣)疒(病)片(乍)(鼎)匕(此)卜(占)(旅)爿丬(将)(虐)(藏)(收)(亥)比业非北兆(亦)(亥)(牻)(龍)、蕭);
(12)(尺)乀(达)、(下)止(延)(卸)(走)(平捺);
(13)月(周)冂(同)门冖(冗)宀(定)册()用 (风)儿几(见)尢(尢)兀内(离)丌(鼻)冘(沈)(羌)(既)(免)(鬼)冉(再)
(14)刀刁及乃勹(句)(万)(角)(欠)久刂(别)(勿)(介)(粼)(归)(临)(班)丑刃(刄)(那)(州)
(15)○(数的空位) 口凹凸(互)(面)(沔)(丘)又(对)丈女夂(冬)攵(收)(处)(年)(降)(姊)(拣)夬(块)(五)(书)亞(齊)
(倒置词)
(正)(反向词);
(16)耳尸卩(印)(部)卩(卫)(报)(假)尺户目且(其)(具)(追)(身)己已巳()弓(民)(改)(仓)弔(弟)(戢)弓
(17)丸寸太义勺夕叉(夜)丹(舟)玉母乎伞平(卵)(卵)(然)(瓦)鸟(鳥)凡(雨)肃(潦)圡(压)(黑)(熏)(曾)(鼠)(为)(丽)(兔)(啄)(釜)(登)氐(戍)夹(丧)(善)聿(津)(偽)日曰(冒)甘(衰)(酉)(即)艮(良)(殷)(柬)(来)(争)(庚)(唐)(庸)尹(君)凡(互)丼(幾)玊(門)(門)(書);
(18)金钅(钱)(乞、舞);
(19)十(协)(于)木;
(20)土(地)耂(老)士乜(切)七(民)丁(斤)(予)丆(石)(百)(可);
(21)心必臼凵(凶)忄(怀)(恭)小(常)(应)(步)(不)(小字形的变形)三川彡(彤)巛(巡)(荒)
(22)丷(兑)(关)火;
(23)山屮(出)(朔)(叟)臾巾(农)爪彐(当)(录)习(舆)(虐)(印)(黎)(芽)(乐)(发)
(24)九乂(文)ナ(右)力车大犭(狗)(东)
(25)一(旦)(或)灬(点);
(26)之纟(级)(乡)幺(玄)糸(索)辶()(边)廴(建),其中,上述括号中的汉字,除少数说明性内容外,主要系为包括其左边所示部件或笔画在内的汉字例,以加深对该部件或笔画定义的了解。
如上所述,只要将上述定义的二十六组部件和笔画任意地与二十六个字母键相对应起来就可以构成本发明全汉字定义码,但是,在具体实施时,最好还是要兼顾到人们记忆上的方便性,例如,A与人相似,W与山相似等等,有鉴于此,本发明将上述二十六组部件和笔画顺序地与二十六个英文字母相对应起来,也就是说,组(1)对应键A,组(2)对应键B,……组(26)对应键Z。
显然,本发明对于部件和笔画组类划分的首要考虑是它的完全性,也即用它可以表示全部的汉字,包括简体、繁体、讹体以及外造汉字,此外,本发明所定义的二十六个部件和笔画组类还体现了以下二个特征:
一、每一组类可以用口诀来概括,所以虽说有二十六组,实际上并不难记忆,各组口诀与其对应的字母键如下所示:
A:人字单人旁,入、八形相似
B:封闭框内含竖笔,竖穿横贯可相交
C:厂形、区字框
D:笔画折
E:水字、三点水,水笔两边挂
F:f小写提手旁,借用提手架,提笔包万象;F大写肆、段、舆
G:g小写足字旁,G大写形似贸左角
H:头上有多角
I:笔画竖,上下两笔形似小写i
J:笔画撇
K:左腰、右腰连笔画
L:笔画捺和点
M:周、门之框π脚,风、几之框儿字脚
N:刀字形,侧刀旁
O:笔画O形折,空心小口框,倒置和反向
P:单耳、左耳与右耳,耳框内含多横笔,尸字形似亦入类
Q:封闭框内横一笔,开口、闭口均含点
R:金字旁,r角
S:两线垂直相交
T:七字形、丁字形,提土旁,土、士相似列一起
U:臼、凵形相似,心字竖心旁,小、似心归其类
V:招呼点形似V
W:山形不分上、下、左和右
X:斜线相交、乱线缠一团
Y:笔画横和提,四点成一线
Z:大写之字形,多折也在内
二、部件和笔画的划分遵循目前汉字电脑输入的惯例,主要包括:
1、先交后连,先连后散,多笔优先
2、交件不拆,例如“申”不拆分成“曰”和“|”
3、末端点捺不拆,如“专”
4、两笔关联不拆,例如“了”和“ス”因此,虽然有的组类所包括的部件较多,但只要从其基本定义出发,加上习用的拆分惯例,还是不难记住的。
本发明规定,对于不足四码的汉字,补一个末笔笔画码,仍然不足四码的,用该字的拼音顺序补到四码为止,仍不足的用J代码补充;对于字音忘记的也可直接用J代码补充至四码即可。
本发明的重码率很低,约为千分之二左右。对于这少数重码的汉字,除按汉字使用频率排列供选择外,还可采用一种手译机中常用的自动漫游系统来处置,即将重码字末一码改为J、K、L…ABC…GHI的排列,其中该字的字音头为专用,不配置给其它字。
虽然本发明定义码是一个等长的四码,但是,通过软件很容易实现单键字的输入,一则这也是目前汉字输入的一个惯例,二则由于设计的单键字,即所谓的键名,常与该键对应的部件有密切的关系,所以记住键名也有助于对部件组类的记忆,为此,下面列出本发明所设定的二十六个键名:
A:人;B:田;C:臣;D:马;E:水;F:长;G:足;H:也;I:辛;J:我;K:竹;L:止;M:月;N:鱼;O:口;P:耳;Q:鸟;R:金;S:木;T:土;U:心;V:火;W:山;X:大;Y:王;Z:纟
附图说明:图1是本发明全汉字定义码键盘图
实施例1,部件字的编码:
部件字因为本身作为部件,不再拆分,所以取四码顺序为:部件码,末笔笔画码,汉语拼音或J代。
例:例字部件码末笔笔画 编码 容错码 凹 O 一 OYAO OYJJ 巴 B BDBA BDJJ 乙 D 乙 DDYI DDJJ
实施例2,两部件合体字的编码
按照汉字笔顺取四码的顺序为:第一部件的代码,第二部件的代码,末笔笔画码,汉语拼音音首或J代。
例: 例字 拆分末笔笔画 编码 容错码 外 夕卜 丶 QKLW QKLJ 失 丿夫 JFLS JFLJ
实施例3,三部件合体字的编码:
按照汉字笔顺取四码的顺序为:第一部件的代码,第二部件的代码,第三部件的代码,末笔笔画码。
例:例字拆分末笔笔画 编码 树 木又寸 丶 SOQL 健 亻聿廴 AQZL
实施例4,四部件合体字的编码:
按照汉字笔顺四码的顺序为:第一部件的代码,第二部件的代码,第三部件的代码,第四部件也就是最后一个部件的代码。
例:例字 拆分 编码 湖 氵十口月 ESOM 燕 廿口丬匕灬 HOKY
实施例5,五部件以上合体字的编码:
按照汉字笔顺取四码的顺序为:第一部件的代码,第二部件的代码,第三部件的代码,末一个部件的代码。
例:实施例6,双字词组码的编码:取两个字的各前两码组成: 第一码 第二码 第三码 第四码第一个汉字的第一部件代码第一个汉字的第二部件代码第二个汉字的第一部件代码第二个汉字的第二部件代码例:猜测--XJ氵冂(XJEM)如果双汉字词中第一个字为部件字,则第二码改为第一个字的末笔笔画码: 第一码 第二码 第三码 第四码第一个汉字的 部件码第一个汉字的末笔笔画码第二个汉字的第一部件代码第二个汉字的第二部件代码例:人民--人已七(ALPT)如果双字词中第二个字为部件字,则第四码改为第二个字的末笔笔画码: 第一码 第二码 第三码 第四码第一个汉字的第一部件代码第一个汉字的第二部件代码第二个汉字的 部件码第二个汉字的末笔笔画码
例:猜中--XJ中I(XJBI)
如果双字词中的两个字均为部件字,则第二码改为第一个字的末笔笔画码,同理,第四码则可改为第二个字的末笔笔画码: 第一码 第二码 第三码 第四码第一个汉字的 部件码第一个汉字的 末笔笔画第二个汉字的 部件码第二个汉字的 末笔笔画例:工人--工一人(TYAL)实施例7,三字词的编码:取第一,二个字的各第一部件代码和第三个字的前两码组成: 第一码 第二码 第三码 第四码第一个汉字的第一部件代码第二个汉字的第一部件代码第三个汉字的第一部件代码第三个汉字的第二部件代码例:蒙古包--艹十勹(HSNP)如果三字词中的第三个字为部件字,则第四码改为第三个字的末笔笔画码: 第一码 第二码 第三码 第四码第一个汉字的第一部件代码第二个汉字的第一部件代码第三个汉字的 部件码第三个汉字的末笔笔画码例:星期日--日日-(QPQY)实施例8,四字词的编码:各取四字词的每个字的第一个部件代码组成: 第一码 第二码 第三码 第四码第一个汉字的第一部件代码第二个汉字的第一部件代码第三个汉字的第一部件代码第四个汉字的第一部件代码例:耳闻目睹--耳门目目(PMPP)实施例9,四字以上词的编码:各取前三个字的每个字的第一部件代码和最后一个字的第一部件代码组成: 第一码 第二码 第三码 第四码第一个汉字的第一部件代码第二个汉字的第一部件代码第三个汉字的第一部件代码最后一个汉字第一部件代码例:马克思列宁主义--马,十,田,义(DSBQ)
综上所述,本发明全汉字定义码具有以下特点:1、能覆盖全汉字,并且,根据部件划分的定义,可随时扩充以包括新汉字;2、使用标准键盘作为输入设备,易于推广;3、重码率低,有利于输入速度的提高;4、部件划分从定义出发,并兼顾习常惯例,便于熟练掌握。