汉字普及用形音码输入法及其键盘 本发明涉及一种汉字普及用形音码输入法及其键盘,是电脑打字中汉字编码输入的一种新的方法。
目前,汉字编码输入方法很多,这对专业打字者而言,该技术已获得解决,但这些方法被广大群众应用时,尚有难记难用和输入速度不快的缺点,现在常用的《五笔字型码》,它所用字根的字母(A-Y)共25个|由字根的代码转化而来,而字根的代码与字母比较难记。最近有《表形码》在推广应用,《表形码》所用部件约380余个,其分类方法是多式多样的,因此这些部件的代码(1-5和A-2共31个)更为难记,而且《表形码》中对于单部件字、两部件字和三部件字的编码要用到把“字音码”放在最后位,这对于许多不熟悉汉字拼音的群众又感不便。对于《见字识码》输入法,所用字元的代码是按字元及其关系字的字音来规定的,因此字元的“代码”(A-Z共二十六个)较容易记忆;《见字识码》输入法中,对两个字元所组成的汉字,需要加一个“字音码”,这对于不熟悉汉字拼音的群众,在使用上也有困难。目前在推广应用的还有《智能ABC》和《自然码》,这两种方法的缺点在于重码字和重码词语过多,增加了输入汉字的击键次数;其次是字与词语的编码中,如《智能ABC》加用了“笔形代码”(1-8共8个),《自然码》则加用更多的“形码”(A-Z个);而且其编码缺乏规律性,许多字与词语要靠电脑提示后选用,打字时很伤视力,脑力,结果也使输入速度减慢;这两种方法给熟悉汉字拼音者应用较好,但两者不能被广大不熟悉汉字拼音者所采用。
本发明地目的在于提供一种兼有形码和音码的优点,易学、易记其动态码长少于2键/字的汉字普及用形音输入法及其键盘。
本发明汉字普及用形音码输入法即简称为《普及码》输入法为:选用26个部名字、126个一般字元、119个常用字和24个结尾笔画作为编码用字元。按字元的字音或称呼,把字元分成26部,以A-226个英文字母作为代码,26部代码、部名字及其所属字元列于表1。表中所列的26个部名字的编码就是该字的代码,即相当于“筒一位码字”的编码,如:和(和):H;人(人):R。部名字作为字的组成时,不单是它的代码参加编码,有时它的结尾笔画识别码也参加编码。如:堤(土是人):TVR。表1中刮号内所列的为119个常用字,其编码就是该字相应位置的代码加上该字的结尾笔画识别码,作为二位码字的编码,如:安(安一):AI;八(八八):BB;从(从人):CR等,表1中所列汉字右方英文字母为该字结尾笔画识别码。表1中一般字元,有的就是一个独立字,其编码需按常规方法进行,如:木(十八N):SBN(其中“N”为字型代码;页(T贝人):TBR。
选用24个结尾笔画以16个英文字母作为代码,其作为所使用同一代码的字元(包括部名字,一般字元和常见字)的识别而参加编码。如字元用常用字“九”、“加”、“及”、“交”和由这四个字元所组成的字:“仇”、“伽”、“伋”“佼”,皆因其有不同的结尾笔画识别码有其不同的编码,如:“九”:J1,“加”JK,“及”JR,“交”:JX,“仇”:OJI、“伽”OJK,“伋”:OJR,“佼”:OJK。
结尾笔画也可作为一般字元和结尾字元用,在结尾笔画作为字的结尾字元时,就不必重复用结尾笔画作为“识别码”参加编码,而改用“字型码,而改用“字型码”进行识别并参加编码。汉字的字型是以该字的起首字元和第二字元的位置关系而定,并分别为三型:(1)左右型,其代码为“H”,如:“卜”、“如”、“洁”……等字(2)上下型,其代码“F”,如:“吕”、“吉”、“品”……等字。(3)杂合型,其代码为“N”,如:“夕”、“与”、“吞”、“凶”、“回”、“才”、“申”、“表”……等字。
本发明除了上述选用字元有特点之外,另一个重要特点是采用了联想码,在字与字组成“联想词”时,要将字的起笔笔画作为联想笔画,取其代码-“联想码”,作为联想词的输入用,选出22个起笔笔画,区分为8部,其联想码为1、2、3、4、7、8、9、0见表2
联想笔画可作为“联想词”,重码字,词,重叠字、词的编码输入。联想码共有12个,除上述外,尚有5、6、与F11、F12四个,“5”用于重码字,词和重叠字、词的输入;“6”是“的”字的代码,又用于“1-3位码字”后缀“的”字的输入,F11、F12作为联想码,它是不受联想笔画所限止的。
以上所述是如何选用字元及其编码规则,要完成汉字编码输入之前,很重要的是要将所要输入的汉字拆分为编码字元,只有拆分成编码字元后才能以相应代码输入键盘。
汉字拆分字元的原则:
1、按汉字的书顺序(笔顺)来拆分字元和结尾笔画。其中以结尾笔画的最后一笔和其它字元的最先一画,来决定它俩在笔顺中的次序。如“哀”的起首字元为“衣”,结尾字元即结尾“口”,这里“哀”字的真正结尾笔画“”,并不参加汉字编码。
2、一个字要拆成最少的字元数,这个原则,不能被改变,否则为造成“一字多码”。
3、在拆分儿个字元穿插或连接而组成字或“复合字元”时,首先争取把结尾字元拆成结尾笔画,其次拆成笔画多的结尾字元。如:“夫”字拆成字元“一、大”,而不拆成“二、人”,“百”字拆成字元“一、白”,而不拆成“丁、日”。如果按笔顺很自然地把字或“复合字元”的结尾笔画和组成字元拆出来了,那就不必再把它们的组成复杂化,强求笔画多的结尾笔画或字元。如“申”字拆成“日、”,而不拆成“口、十”。
4、在不影响多笔画字元的笔画数、笔顺和笔画交叉情况的条件下,可对其中的一笔(乙、乚、)等属于“折”的笔画除外)进行变形后应用,而其代码照旧。如:卜与,寸与才,刀与刁,干与千,与、丁,卩与尸,与……等。其次在不影响字元的笔画交叉情况下,可以把字元的某一笔延长后应用,如与与丩,自与身……等。再有在字元组成中的八与丷之间,可以相互替用。根据上述《普及码》编码方法设计出一种中文输入键盘,主键盘如图1所示,与上述各个编码字元相应的配置有A-226个英文字母代码键,而其中F、H、N三键又兼字型码键,键盘上0~9与F11、F12为起笔笔画即联想码键,F1~F10键分别为数字0~9的专用代码。
汉字编码输入举例:
1、单个汉字的编码输入;
汉字的编码输入是按笔顺将字中供编码用的字元,以其代码输入电脑。输入一个字,最多用到字中四个字元,编成四位码而完成输入。如果字的编码不到四位码的,就加打一个空格键,以示输入完毕。兹将不同字元数组成的汉字编码分述如下。
(1)“一个字元组成的字”。取字的代码加上结尾笔画识别码,编成二位码。部名字只取该字代码而编成“简一位码”,而常用字则编成二位码。如:和(和):H;人(人):R;火(火人):HR。土(土一):T1将“一个字元组成的字”,编成“简一位码”的,另外尚有52个字(见表3),它们分成两组,分别以“〔”、“]”键进行输入并完成;该52个“简一位码字”并不作为编码字元用。
(2)二个字元组成的字。取字的首尾二个字元和结尾笔画识别码,组成三位码。如果字的结尾字元是结尾笔画,则加用“字型码”。如:
枉(木王一):NW1;堤(土是人);TVR;林(木木八):NNB
亿(亻乙H):OIH;艺(艹乙F):EIF;失(大N)RON
(3)三个字元组成的字。取字的首、次、尾三个字元及其结尾笔画识别码编成四位码。结尾字元是结尾笔画者,在一般情况下则不用加“字型码”,而编成三位码。如:桂(木土土一):NTTI;季(干八子一):GBJI;洁(氵士口):VTK。
(4)四个或四个以上字元组成的字。取字的首、次、第三和结尾字元的部码编成四位码。如:
境(土立日儿):TLRE;器(口口犬口):KKOK
(5)“的”字的编码输入。将该字代码“6”输入后,就可完成。“的”字不作字元用。
(6)“乙”字是一个特别的字,它的编码这“IIII”(四位码)。
(7)阿拉伯数字1、2、3……0的编码输入,即分别以F1、F2、F3……F10输入(不用打空格键)。
(8)“简二位码”:本码对500余汉字,只取用字的首、次二个字元编成“简二位码”(见表4)。如:
另(口力);KL;明(日月):RY;政(正攵):OW
(9)“简三位码”:由字的前三个字元组成,重码字优先编成“简三位码”。
2、词语的编码输入
(1)词语编码只用组成字的首、次两个字元,或“简一位码字”(包括部名字)、常用字的代码及其结尾笔画代码,编成四位码而输入。词语中用到由单一结尾笔画组成的汉字,则该字的识别码即该字代码。“二字词”的编码,取两字的首、次字元完成;“三字词”的编码,取第一字的首、次两个字元和第二、第三字的起首字元组成;“四字词”或“多字词”的编码,取前三个字和最后一字的起首字元组成,一律编成四位码进行输入。此为常规的编码输入法。如:
人体(人人亻本):RROB;用功(用十工力):YSGL;
观光(观乚光乚):GLGL;很好(很好一):HNHI;
自由(自二由一):ZEUI;金鱼(余一口):UIOW;
星期日(日生其日);RVOR;放射线(方自纟):FWZL
一事无成(一事无成):IVNC;十全十美(十人十):SRSB
中华人民共和国(中化人国):OHRG
(2)“简二位码”词。本码对55个常用二字词语,只采用了二个字的首音码编成了“简二位码”词,如“暗暗”的编码为“AA”,“暗中”的编码为“AZ”“暗自”的编码为“AO”(见表5)。
(3)联想词的编码输入,是为了加速词语的输入而特行设计的。联想词是由该词第一字、词——关联字、词而被联想到的。本码规定除了“的”字以外,所有的字和词语都可作为关联字和关联词。同时从联想词再可引伸出二次、三次联想词。电脑上当输入关联字、词后,提示行即出现有关的联想词(或字组)及该词最后一字的联想笔画联想码,操作者就可用联想码将联想词输入。如“大”字的联想词就有:大致(1)大量(2)大多(3)大家(4)大大(5)大的(6)大约(7)大众(8)大批(9)大概(10)大学(F11)大会(F12)。你要输入“大量”这一联想词,你只要输入“02”二码即可完成(不用打空格键)。当输入“大量”后,电脑屏幕上又显示出“二次联想词”如:大量问题(2)大量事实(4)大量人力(7)大量工作(8)大量数据(9)大量资料(F11)大量物力(F12)。在二次联想词后,还有三次联想词。如“大量资料”一词后的联想词有:“大量资料的整理”、“大量资料的收集”、“大量资料的分析”……等。
重码字、词和重叠字、词也可视为联想词、字组,都可以用联想码“5”进行输入。先输入关联字、词的编码后,然后再输入联想码“5”就行了。本码规定重码字、词不能再组成重叠字、词。但是,以重叠字、词作为正常词语看待,仍可用其它联想码进行输入,只是不用联想码“5”了。如太、犬与夕三字的编码都是“OON”,三字成为重码;当输入该编码后,电脑提示行上即显示出:太(打空格键)犬(5)夕(3)太太(1)犬齿(2)太湖(4)太阳(7)夕烟(8)太热(9)太苦(10)太平(F11)夕阳(F12)。
字组也像词语一样,其输入可用联想码,其中以“的”字为后缀所组成的“字组”尤为常用。本码将“1-3位码字”全和“的”组成字组进行输入。《普及码》规定“的”字本身,它是没有联想词的;但“的”在联想词、字组的输入中,有着承先继后的作用。这是因为以“的”字为结尾的“的”字字组还有它的二次或三次联想字组,其举例可见表6。
汉文数字的联想输入。在二、三、四、五、六、七、八、九、十、○、初、第、廿等13个字和“一一”、“星期”两词两后,联接用到上述数字与“一”字时,其输入可用阿拉伯数字相对应的联想码,而不受起笔笔画的限止。如:
“一 九九五 年 七月 廿一日 是 星期五”
“1 (空格) J195 N(空格)QLF11 El1RE(空格)V(空格)RV5”
《普及码》以部名字为关联字所组成的联想词或字组,共有300余个(见表5),它们的输入只要击两次键就可完成。以二位码字及“简二位码词”作为关联字、词的联想词、字组和以部名字组成的联想词、字组(见表7)所组成的二级联想词、字组,两者相加起来可有7000-8000个,这许多联想词和联想字组的输入只要击三次键就可完成。由于联想词、字组的先进输入方法的实行,可以使《普及码》中输入汉字的动态码长将缩短到2键以下。
现将以下一段话及其编码输入示下:
我们 不能够 用 我们 还 可以 马马 虎虎 过得去
W8 P73 Y() W8 PA() KG7 JN15 HJ15 CA30来 安慰 自己。我们要 看到 我们 事业的 前途。我们的L8() A17 2E7 W81 NW W8 VI26 QG8。 W86人才 本来 就 少,决不能 再 浪费人才,我们 经 不RO BJ HK() VP(),IJ17 WE() VLGEO W8 LJ P()起 这个 浪费。Q() A8 VLGE。(原文引自《邓小平文集、第二集》。编码中的()表示打一空格键。以上其61个字共击渍次键,平均每字击15键)。
本发明创用了以《简一位码》的部名字26个和“二位码”的常用字119个作为字元后,可使许多汉字成为是由二个字元组成的,简化了相当数量汉字的编码输入,并缩短了码长。《普及码》的突出优点是输入速度快,《普及码》中:有击一次键而能完成输入的“的”字,击二次键而能完成输入的“简一位码字”共78个;击三次键而能完成输入的“二位码”字和“简二位码”字约520个。根据《汉字信息字典》所载这些字的频率来计算,则以上三种字总频率为75%,又由于《普及码》创用了联想词和联想字组的输入方法,做到只击二次键能完成输入的常用词语和常用字组共300余个,击三次键能完成输入的词语和字组共7000余个,结果使《普及码》输入汉字的动态平均码长将小于2键。本发明除了输入速度快的优点外,尚有简单明白,易学易记易用的优点。在被专业打字员和广大群众应用时都很方便。
表1:26部部码、部名及其所属字元[说明]汉字右方外文字母为该字识别码。部名字的编码就是该字的部码(简一位码),常
用字的编码就是该字的部码再加上该字的识别码,编为二位码。①两个不相连的单画笔画;②四个不相连的单面笔画,③三个不相连的单画笔画;④代表两个单画笔画(“折”与“勾”的笔画除外)作斜交叉。
表2:8部联想笔画及其代码
表6:“的”字字组及其联想字组举例 “的”字字组 (编码) 联想码(在括号内)所示其组成的联想字组 (1) (2) (3) (4) (7) (8) (9) (0) (F11) (F12)我的(W6)你的(OE6)我国的(W26)我的上作(W68)*朋友 *意见 *一生 *看法 *主张 *工作 *不足 *兴趣 *爱人 *爱好*朋友 *意见 *一生 *看法 *主张 *工作 *不足 *兴趣 *爱人 *爱好*军事 *贸易 *法律 *政治 *人民 *文化 *科技 *立场 *经济 *外交*受到 *缺点 *方向 *内容 *成绩 *单位 *负担 *环境 *时间 *条件
表3“简一位”字表 代码 输入结束键 代码 输入结束键 代码 输入结束键“[”“]”“[”“]”“[”“]” A偶(D)阿(G) J级(R)接(I) S速(N)思(D) B保(B)别(G) K抚(L)孔(L) T他(L)它(L) C程(I)持(C) L领(R)流(L) U越(D)约(D) D得(C)都(V) M每(D)们(J) V数(X)事(G) E恩(D)恶(D) N南(S)你(B) W问(K)外(D) F肥(L)夫(D) O政(X)指(E) X许(S)信(K) G观(L)光(L) P批(L)品(K) Y验(I)业(B) H很(N)好(I) Q器(K)强(P) Z着(E)子(I) L意(D)医(D) R热(D)任(I)
字右方英文字母系该字结尾笔面的代码。
表4:《普及码》的“简二位码”字A B C D EF G H I JK L M N OP Q R S TU V W X YZABCDEFGHIJKLMNOPQRSTUVWXYZ 原婚厨媒迫 账关过资 些达 夺 那耍 耐头诉说诚送 张 克宾容守 实褥六导初度 钱司里听只号型兄边 线参允板样村按未写招月伛体低使还北屈属展斯 独晨昆众岸术寻社埠老考运 对 再派测汇沪妄处团 目选 忖胺脱 腊妥 践妨兵婶 所疯弟普病痛匪虹蛇与互 色之芳苦花甘蔬访话谈议设筹第管 巩害烘灾完字废减变 决 劲 书吩 吸纺 继 经枫枯杰核极排 搞把势份战点 价防居院几阶狱 氮 猛 旱显量今罪录求 真坊域赤 教 需游活谈 没逢固 理 恬灰 学 肛 股 遥 爬乳如历案总 癞 症咨 盛 雌研 间曲 茉劳荷识论盆调证或功笔制符 宋高炸况 麻两准 已杂 钟 另呆呐唯织乡新 维整 林构柞操 抹 推占位集伟作否系血向附 狗猴合食果 昨古即 建石 壹堆 动 难知治沐 沾各 条现名 杀觉惟 胞肿躁 采受 欧厚质压 疙单半痔 昏 蝴坐 争奢节获茶斗著 请认计订感签重革等寝 米家被次 干元锯链 针敢响吃喝 吐 练给端结杯检查根桔报军 技打假代但什侍部状队 造却猜 连基创晴复牛最群罢 置署坏堪者取封邮欢 艰圣 法旧汁洁 珍田 情慢当服然胆肢助身臭 跃反姓妊 她贿 美判痈齿 螺乐市 奋硝解坚 荒示英译训放 诅笼 算 项宠种客就察袖应改风 效销通叫 呈史统纱细辨组权 格档棚抽提看挡拥优修伪怎佣除届降将阻屯 狂较期 星全特明支肃 罗崩坛堤坟志均双 收 育油深省消题离 图忘望友性忙想削腴胜脑 脉 踏路息肯道草谢弧熄夏疏足缓柱摇传陟企朝走注瑶脬[说明]纵列的部码为该字或该词的首码,横列的部码为字或该词的次码。
表5“简二位码”词表 AA 暗暗AO 暗中AZ 暗自 CY 创业 CZ 创造DF 大方DH 大好 DM 大米DO 大众DQ 大气 DZ 大宗 IY 营业JA 见爱JF 见方 JG 见鬼KH 抗旱KI 抗议 KY 抗御 QK 亲口QM 亲密QZ 亲自 RU 人员SM 死命SO 死症 SR 死人 SW 死亡UF 有方UJ 有劲 UK 有空UM 有门UV 有时 UX 有效 UZ 有嘴WH 晚会WO 晚照 WQ 晚期WT 晚田WX 晚上 XF 小费 XY 小样XZ 小组YC 严惩 YF 严防YG 严格YH 严寒 YK 严酷 YM 严密YX 严刑ZB 装备 ZF 装疯ZH 装潢ZL 装殓 ZO 装置 ZU 装运ZZ 装载
表7部名字的联想词和联想字组(击二次键可完成输入)部名字(编码) 联想码(在括号内)所示其组成的联想词或联想字组 (1) (2) (3) (4) (7) (8) (9) (0) (F11) (F12)这(A)本(B)出(C)大(D)地(E)方(F)工(G)和(H)一(I)机(J)在(K)了(L)民(M)年(N)中(O)不(P)起(Q)入(R)十(S)同(T)有(U)是(V)我(W)下(X)用(Y)主(Z) *要 *是 *种 *次 *架 *个 *批 *样 *里 *些 *来 *国 *质 *意 *能 *分 *批 *地 *性 *该 *来 *帐 *入 *产 *发 *差 *口 *去 *动 *现 *致 *量 *多 *家 *约 *会 *批 *概 *学 *都 *下 *步 *段 *方 *线 *位 *势 *址 *区 *形 *面 *圆 *向 *法 *始 *便 *技 *才 *式 *针 *厂 *业 *程 *资 *力 *作 *拙 *艺 *具 *人 *平 *睦 *气 *谈 *好 *善 *为贵 *蔼 *风 *解 *面 *点 *般 *定 *级 *个 *批 *样 *切 *次 *动 *遇 *制 *油 *组 *会 *器 *械 *关 *构 *于 *业 *外 *望 *即 *位 *握 *场 *职 *座 *事 *当 *解 *望 *结 *债 *哨 *却 *不得 *不起 *事 *用 *生 *族 *办 *众 *警 *间 *主 *轻 *岁 *利 *度 *级 *份 *报 *节 *成 *华 *西 *国 *等 *心 *级 *途 *路 *期 *华 *间 *可 *是 *知 *论 *能 *断 *足 *过 *要 *肯 *来 *早 *身 *初 *居 *火 *哄 *落 *点 *先 *工 *情 *生 *家 *民 *们 *员 *才 *造 *口 *一 *月 *年 *六 *分 *足 *二 *日 *事 *时 *行 *意 *居 *人 *路 *样 *志 *学 *事 *些 *利 *意 *线 *着 *口 *机 *名 *心 *在 *非 *凡 *好 *个 *吗 *坏 *要 *由 *要 *国 *等 *家 *能 *们 *按 *想 *是 *有 *来 *情 *等 *流 *级 *人 *品 *去 *面 *边 *功 *具 *处 *意 *力 *途 *品 *场 *心 *户 *要 *题 *管 *意 *张 *人 *持 *权 *席 *观说明:“*”代表前面的部名字。