一种服从用户拆分的笔序形码汉字信息处理系统 本发明涉及汉字编码、计算机及键盘,是一种采用数字编码、单手操作计算机标准键盘的数字小键盘,规则简单、性能完善,可服从用户拆分的笔序形码汉字信息处理系统。本明发的目的是在汉字编码方案性能完善的条件下,解决不同文化程度的用户对汉字拆分的二义性问题,使其能在全国范围普遍使用,有利于电脑、电话及类似器件的开发应用,有利于电脑进入家庭等。
与现有技术相比,本发明的创造性、新颖性,就在于不仅编码性能完善,还引入了服从用户对汉字拆分二义性的崭新概念,在汉字编码领域中首先把“用户服从发明人(方案)改写为“发明入(方案)服从用户”,在汉字编码发展方向上这是一种根本性的转变。
近十多年来,汉字编码技术蓬勃发展,目前,汉字编码方案已上千种,实际使用的也有几十种,其编码方案大致分为音码、形码、音形码三大类;不管什么方案,其发明人都在做同一件事,就是“尽量使一个汉字对应一个编码”,并且都认为“一个汉字对应一个编码”是最科学的,这一点以形码做得最好,这是因为汉字的音、形、意属性,只有形及其书写笔序在全国是统一的;而且每一个汉字的形都是有差异的,所以形码(尤其是笔序形码)能够最容易找到一个“一个汉字对应一个编码”做得最好的方案,且可在全国范围使用。然而,从用户的角度来看,不同的用户使用时,总是有相当一部分汉字不是一个汉字对应一个编码,而是一个汉字对应着两个编码或多个编码,即是用户在使用编码方案时要产生二义性,尤其是形码是如此。在汉字编码方案中,要求规则简单,然而常常在几条简单的编码规则下,总是不能解决用户对汉字拆分的二义性。因为用户的文化程度不同、对汉字的理解和掌握不同,所以这种对汉字拆分地二义性是客观存在的,而且是形码推广使用的最大障碍,甚至有关专家评论道“汉字输入法的重要性是不言而喻的,但是至今为止还没有哪种汉字输入法可以彻底解决汉字输入困难的问题”、“而其中最令人头痛的问题恐帕就是汉字拆分的二义性问题”。
在汉字编码方案中,尽量减少用户产生二义性,是必需的。但是,过去的方案都不允许用户产生二义性,换句话说就是用户必须服从发明人;本发明认为从观念上必须根本转变,发明人必须服从用户,因为任何编码方案,最后必须通过用户的使用才能产生效益,既然不同的用户,特别是不同文化程度的用户,在编码规则的限定下,二义性是客观存在的,所以发明入必须允许用户产生二义性,就解决了用户学习和使用的最大困难,尤其有利于形码的普遍推广。然而,由于汉字太复杂,如果允许用户产生二义性,就大大增加了编码难度,这种难度主要包括两个方面:第一是要求产生的二义性编码,不会重码(实际上只能作到重码率很低),这就要求发明人首先分析方案中对于不同用户的二义性,其次是对于众多汉字对应着两个或多个编码的情况下,去寻找满足这些汉字不重码的必需的两个或多个空位空间,这就大大增加了寻找空位空间的难度;第二是编码方案的词码是根据字码来编码的,如果一个汉字出现了多个编码,那么用户用其中任何一个字码,都能对词码进行编码。从解决二义性的难度可以看出,解决的方法有两个:①增加编码的空间;②优化编码构件(字根)。增加编码空间,可降低发明人的难度,对用户来讲就增加了击键数,即增加了击键难度,是不利的,例如,目前一般都用26个英文字母来编码,用户击键已经感到困难,所以本发明采用了优化字根的办法来解决汉字拆分的二义性,而且只用了13个键,显然用户击13个键比击26个键要容易得多,用13个键编码可以采用数字键,更适合中国入使用。用13个键编码,编码用的空间比26个键小16倍,其编码难度要远远超过16倍。(26键的编码空间约为26×26×26×26=456976;13键的编码空间约为13×13×13×13=28561;456976÷28561=16(倍))
上述介绍了本发明的创造性、新颖性。下面就本发明的编码规则、允许用户产生二义性或多义性进行具体说明。
一.字根表:
第一部分(普通版字根):
键(码 :* - . 0 1 2 3 4 5 6 7 8 9
基根: 冫 亠 艹 一 忄 | 丿 丶 ∠ 勹 讠 廾 丷 ㄋ ㄑ ㄣ マ 冂 扌 氵 冖 フ 乀 纟 冖 宀 乛 乚 ク 夂 灬 匚 ㄨ ユ 彐 键(码)* - . 0 1 2 3 4 5 6 7 8 9主根:日 女 止 厂 心 工 火 了 口 木 月 人 钅 土 亻 广 士 予 入 十键(码)** *. *3 -* -- -. -3 -7 0* 00 04 1- 10 15 2* 2.次根:小 大 申 辶 寸 臼 幺 殳 戈 车 雨 王 未 廴 还弋 戋 22 25 3* 3- 39 4- 44 58 65 66 67 69 7* 8* 80 9. 礻 子 甲 兆 丁 囗 由 目 已 禾 厶 犭 夕 衤 孑 豸虍 癶 (疒=02 丬=23 习=72 匀=92 飞=92 米=27 走=5.)
第二部分(专职版增加字根):键(码)*- *3 *6 *8 -1 -4 .- .6 .7 0- 01 08 1* 11 12 13 19次根:辟 古 比 肖 执 长 关 革 贝 天 为 尢 不 甫 占 束2- 20 22 24 30 33 34 4. 41 45 46 5* 5- 57 58 59 6*右 歹 尔 井 回 也 手 且 舟 氏 自 失 午 丑 无 虫
刂 氶6- 68 7. 70 73 77 78 79 8- 8. 81 86 89 9- 90牛 匕 尸 皮 马 音 耳 分 斤 鱼 非 夫 隹 夹牜 彳二.字码规则:(一).依笔序、字根、大根优先,首2旁2,取首4码。依书写笔序,照“字根码表”,大根优先,按首2旁2,把汉字转换为1-4个号码。例①:(笔序、字根) 笔= 丿 二 =4442 字根“”码为“44”
44 4 2 8 字根“丿”码为“4”
数字“二”码为“2”例②:(大根优先)
产= 亠 丿 =-.4 (而不亠丷厂=-20)∵比丷的笔划多,为大根。
- . 4 ^例③:(首2旁2)(大于2码的‘字’或‘构件’在字首或为旁,只取首2码;
第3码取紧接着该‘字’或‘构件’的字根的码)。
崇=出 二小=.32*(‘出’在首,只取首2码;接着取‘示’的码。).3.2 ** 叟=フ =-775 (‘’视为一个完整的构件在字首,
-73 7 5 只取2码;接着取“又=フ=75”)
飘= 丿 ㄟ 乂=2149212** 4 9 2 肇= 户 攵 聿=57*5 (‘户攵’视为一个构件在‘肇’之首,“户”
574 52 *5 视为旁,“57”两个码既是首2;又是旁2。)
湾= 氵 亦 弓=3-27(‘亦’在‘弯’之首,也只取2码。首2
3 -2.79 旁2的规则在对汉字的拆分中是通用的。)
(二).点为5;角点为0;两点为2;3点为3;4点为4。①点为5:
例:太=大 、=*.5
*. 5
^②角点为0:汉字(或部件)右角上的点,码为0。
例:犬=大 、=*.0 厌=厂 大 、=0*.0
*. 0 0 *. 0
^^ ③两点为2;3点为3;4点为4; 例:咚=口夊冫=632 羔=土灬=.54
6 3 2 ^. 5 4 ^例:兴=一八=318- (数字在末码时,不足4码者用“-”补足到4码。)
3 1 8 ^(三).逢“口”、“已”取完(即该二字不依笔序)。
例: 咽=口 口 大 =66*.
6 6 *. ^(注:口=6,口=58,这对不熟习汉字的入是难以区分的,为此特规定:“咽”字的第2个‘囗’为
口=2,“因”字的‘囗’为口=58,即“囗”外面没有任何笔划的为口=58;一但‘口’外面
有笔划就为口=6) 同理:∵巳=69∴巴=693(取“已”还剩丨=3)(四).在一个汉字中,取完1个构件;紧接着又是1个全同的构件,该构件只取1码。
例:双=又 又=757 毳=毛 毛 毛=4244
75 75 428 428 428
^^^(五).“辶”以上的构件取3码。
例:逼=一 口 田 辶 =166-
1 6 60 --
(六).“冖”以上(包括冖)只取2码。
例:亭=亠 囗 冖 丁=-639
- 6 4 39
堂= 冖 口 土=*45(视‘尚’字在首,只取2码。)
^^^
=*465(不视为‘尚’字在首)(七).数字作字根用时只取“数”1码。
例:干=二丨=23 托=扌丿七=147-
2 3 ^1 4 7 ^三.词码规则:两字词:每字取首2码。
三字词:每字取首1码。
四字词:前三字取首1码,末字取首2码。
五至六字词:每字取首1码。
七字以上词:前五字取首1码,再取末字首1码。
四.允许二义性:
本发明是根据汉字的形和编码规则进行编码的,其中汉字的“形”是不变的,不产生二义性;而编码规则在相当多的一部分汉字中要产生二义性。本发明的编码规则实质上主要是一条,“依笔序、字根、大根优先、首2旁2、取首4码”。用户对汉字拆分时,规则中的字根、笔序、首2和旁2,都可能产生二义性,甚至产生多义性:
1. “字根”产生的二义性:
例:①重=丿一日土=41*5 (视字根“车”≠“車”)
4 1 * 5
②重=丿车一=41-1 (视字根“车”=“車”)
4 1 - 1
2.“笔序”产生的二义性:
例如,对于“母”字,用户的文化程度不同,可能写的笔序就不同,产生多义性:①母=∠:一=8721(正确笔序拆分)
8 7 2 1②母=∠一:=8712(二义性笔序拆分)
8 7 1 2③母=∠亠、=87-5(多义性笔序拆分)
8 7 - 5类推,“姆”也要产生多义性:①姆=女∠:=-872 (正确笔序拆分)
- 8 7 2② 姆=女∠一=-871 (二义性笔序拆分)
- 8 7 1③ 姆=女∠亠=-87- (多义性笔序拆分)
- 8 7 -
同样,“每”、“坶”等等……都要产生二义性。
3.“首2旁2”产生的二义性:
首2旁2取码规则,对于某个汉字取码时,可能有不同的结果。本发明“首2旁2”的解释是:大于2码的‘字’或‘构件’在字首或为旁,只取首2码,第3码取紧接着该‘字’或‘构件’的字根的码。其中‘构件’是指笔画连结在一起,而又不是一个汉字的,例如, ‘’、‘’等。
(1).“首2”产生的二义性:
例如,“真”的首字为‘直’;但也有看不出‘直’在首的用户,或者有的用户根本就不认识‘直’字,“真”的取码就有二义性:
①真=直 八=0.8- (正确首2拆分)
0.4 8-
②真=十 且 八=0.48 (二义性首2拆分)
0 .4 8-
又如,“怠”的首为‘台’字,有的用户认不出‘台’字在首,或者认为“怠”由厶、口、心3个部件构成,“怠”的取码就有二义性:
①怠=台 心=8*1 (正确首2取码)
8*6 1
^^^
②怠=厶 口 心=8*61 (二义性首2取码)
8*6 1再如,“舆”的首为‘’,有的用户不把‘’当成一个构件,“舆”的首2取码就有二义性:①舆=八=928-(正确首2取码)
921-721 8-
②舆=亻= 车=一八=921- (二义性首2取码)
9 2 1-7 2 1 8-
甚至,“溘”的首2取码也有二义性,有用户可认为‘法’字在首:
① 溘=氵 去 皿=358. (正确首2取码)
3 58* .331
② 溘=法 皿 =35.3 (二义性首2取码)
358* .331
(2).“旁2”产生的二义性:例如,“假”的旁一般认为是‘亻’;‘’又是“”的旁;照意理解‘亻’是‘叚’的旁,对汉字不熟悉的用户可认为‘’为旁,而且在手写体时‘殳’与‘’容易分不清,这样一来,对于不同的用户,“假”的旁2取码就产生了多义性:①假=亻=9737(正确旁2取码)
9 732 775
②假=亻 叚 =9732 (二义性旁2取码)
9 732775
③假=亻殳=9730 (多义性旁2取码)
9 732 00
④假= =9777 (多义性旁2取码)
9732 775
⑤假= 殳=9700 (多义性旁2取码)
9732 00
^^
(“假”字至少有5个编码,且都不会重码。)
又如,“做”的旁为‘亻’,‘古’又为‘文’的旁;有的用户认‘估’是一个汉字作为旁,故此“做”的旁2取码就产生了二义性:
①做=亻 古 攵=9065 (正确旁2取码)
9 06 52
②做=估 攵=9052 (二义性旁2取码)
906 52
同理类推,测、傲、倒、例……等等,都有二义性。
由上述看出,有相当多的汉字都要产生二义性编码,以首2旁2的二义性编码最多。这些二义性编码,本发明都允许用户使用,而且重码率很低;不管是二义性或多义性编码,首2码都是相同的,这就给用户使用词码带来了方便,因为词码都是取每个字的首1码或首2码,所以用户不管使用哪一个字码,对于词的输入都是一样的。
汉字编码有一个重要特征,必须各种性能都是最优的,这称“性能完善”。只有性能完善的编码,才能达到用户易学、便用、快速的目的。本发明是在编码性能完善的条件下,解决对汉字拆分的二义性的,故此本发明在性能完善方面更富一定的新颖性,现将本发明编码性能完善简述如下:
一.采用数字键编码。
本发明输入键是计算机标准键盘的右手数字小键盘,其键名为“*-.0123456789”共十三个键。中国人打数字键比打英文字母键要容易得多,打数字键可单手操作,无须专门的指法练习。有利于各种年龄的人普遍使用,有利于电脑进入家庭。由于汉字编码太复杂,普遍都用26个键编码,采用数字键编码的方案成功的不多。本发明用13个键编码,比用26个键编码的空间约小16倍,在小16倍的空间内,还要解决汉字拆分的二义性,其困难远不止16倍了,因为寻找二义性或多义性编码的不重码的空间位置,比寻找非二义性编码(即1字1码)的不重码的空间位置要困难得多。
二.分普通版和专职版,且两个版本兼容。
本发明分普通版和专职版,且两个版本兼容,即两个版本仅仅是记忆字根数量的多少不同,其编码规则和编码范围等等都是相同的。专职版适合于专职操作员使用,普通版适合非专职操作员使用。学了普通版后,若要追求更快的速度,可轻松地改学专职版,只加记55个字根就行了。
三.记忆字根少。
本发明的记忆量主要是字根。普通版记忆98个字根;专职版记忆141个字根(相似字根只算一个,例如辶=廴只算一个根)。如果每一个字根都算,普通版为137个,专职版为192个字根。
四.规则简单。
本发明的规则实质上主要是一条,“依笔序、字根,大根优先,首2旁2,取首4码”,使取码如流水一般,减轻了脑力劳动,克服了补末笔、补拼音、看字型、转返取码等缺点。
五.码长短。
本发明码长为4个数字,比4个英文字母的码长要短一半。因此,击键时手移动的路程,要短一半。
六.重码率低。
一级汉字的重码率,专职版与CN85104343相当(4%);普通版一级汉字的重码率约为7%。
七.词汇丰富。
词码近4万条,占普通词汇使用频率的98%以上,免弃了记忆词库的困难。
八.能输入字符。
GB2312-80中的682个字符均有编码,尤其是标点符号的编码是象形的,用户使用起来十分方便。
九.有简码。
一些常用汉字,本来为4码,可用前3码输入(即简码)。可用3码输入的一级汉字占50%以上。
十.对重码字,有变为“不重码”的输入法。
本发明对于重码字,有一条规则,可把重码变成不重码。这对于专职操作员很有好处,本来重码字就不多,专职操作员稍加记忆,就相当于没有重码字了。
本发明的键盘为计算机标准键盘的右手数字小键盘,见说明书附图。
现将键操作说明如下(对照说明书附图):
(1).Num,Lock:是输入状态和光标控制状态的开关。在输入状态,Insert是输入数字和汉字的开关;在光标控制状态,Insert是插入和改写的开关。
(2).输入状态下:
①“*-.0 1 2 3 4 5 6 7 8 9”是输入键。
②“+”是字结束键。(重码不能选,只能再敲结束键,这种方式叫“送”重码,其优点是手不移动就可输入重码字。)
③“→”、“Enter”都是词结束键。(可送重码词)
④“Delete”是西文编辑环境和中文编辑环境的开关。
⑤“End”是学习键。再按End则向后翻提示屏……;按Home则向前翻提示屏。这时用大键盘的数字键选择提示屏的字,被选择的字就显示在屏幕上的光标位置;而该字的编码就会显示在提示屏上。
⑥“PageUP”为向左删除已输上屏幕的字符。
“PageDown”为删除已敲的错码。