本发明属于汉字编码,适用于计算机和电子辞典快速输入汉字,也可适用于编排汉语词典和汉外词典。 (一)背景技术描述
七十年代以来,随着计算机技术进入我国,为使汉字进入计算机参与信息处理,海内外的炎黄子孙,对汉字编码技术进行了深入研究。据称,已研究了数百种汉字编码方案,而且目前各种编码方案仍在层出不穷,每年仍在出现四、五十种新的编码方案,国家有关部门把研制能为全民接受的、易学易用的、符合汉字内在规律性的、又能快速进行信息处理的汉字编码方案列为“七五”、“八五”期间的科研重点攻关项目。但是,到目前为止,这项研究尚未取得重大突破。广大的中小学学生正在普及计算机教育,他们渴望一个适合他们使用的普及型的汉字编码方案。
目前在全国一定范围内推广应用的编码方案约有二十几种,现在被广泛采用的汉字输入法不外乎是<拼音码输入法>和<五笔字型>。前一种是音码,由于汉语拼音是我国中小学语文教学的重点,多数青少年都能掌握汉语拼音。但是,由于汉语拼音的音节太少,共408个音节,要处理国家一、二级汉字6763个,必然重码率太高,输入汉字的速度太慢。而且,中国幅员广大,方言相差甚远,南方人不大习惯用拼音法;后一种是形码,该方案有一定的优点,可以快速地输入汉字,并得到国家科委的推荐,目前已被全国广大的专职汉字录入操作员采用。但是,我们也应看到,该方案仍存在着重大缺陷,一是编码规则不符合汉字的内在规律性,将竖与竖钩、点与撇混在一起,输入汉字不按人们正常的书写汉字地笔顺。二是规则繁多,特别是要分清末笔字型识别码,对于广大未经专门培训的中老年,要学会这个编码,决非是件容易的事,其规则难学易忘,就连从事于计算机专业工作的技术人员也很少采用<五笔字型>法输入汉字,而宁愿用速度慢的拼音码输入法,所以,<五笔字型>不利于计算机普及化,也难被全国广大的中小学学生采用。
目前已进入实用的汉字数字码有:1.国际区位码;2.电报码;3.天府码;4.笔形编码;5.四笔法(前三末一简码);6.五笔画。前两种按拼音和部首顺序排列,4键一字,缺点是字码难记,记忆量太大。中间两种按笔形特征编码,缺点是字码太长,有的高达8位,输入速度慢。最后两种易学易记,但重码率太高,最高重码字分别为三十多字和一百多字,多次翻页,输入速度慢。
从事文字工作的人深知,汉字查字一直在用沿用一千多年的、传统的部首查字法。该查字法部首太多,有些字难分清属于何种部首,查字麻烦,本应一步查到的字用该法却分成三步,即:(1)查部首;(2)查检字表;(3)翻到该字所在页。费时费神,十分不便。
为了解决以上问题,我们辛勤耕耘五载,探索汉字内在规律性,1992年3月提出了<汉字笔顺数字码>发明专利申请,申请号:92101943.2,本发明是在它的基础上改进优化而成。
(二)发明的目的
本发明的目的是要推出一种既适用于计算机和电子辞典快速输入汉字,又适用于编排汉语词典、汉外词典的普及型的汉字编码,规则简单,易学,一看就会,为计算机普及化和汉语词典快速查字提供一个统一的编码。统一汉字笔顺。
(三)发明的要点和内容
本发明的要点是将构成汉字的笔画分成十类,再将选出的62种字元按起笔和笔画数分成相关的十类。码元为0-9十个数字。制定了笔顺法则,统一了笔顺,然后严格按写字笔顺取码。码长1-4位,平均每码2字。对于国家一级汉字,最高重码在10字以下。
用于计算机和电子辞典,操作只用十个数字键,熟练后输入汉字的速度可达100字/分以上。
用于编排汉语词典,可使查任何简、繁汉字无需10秒种。
本发明的详细内容如下:
《汉字笔顺数字码》(优化方案)
1.本编码以印刷仿宋体字的笔画为编码依据。
2.将构成汉字的笔画分成十类;再将选出的、下表所列的字元中,15种二画、三画字元按第一画取码(也即第二、第三画不计入字码)。然后,以4代表4画字元,以5代表5画字元,以6代表6画字元,以7代表7画字元,以8代表8画以上的字元,以9代表钅(金)、(木、)、氵、(火)、(土)(按九大行星的名称取码),以8代表(八)(按字的意义取码),另外有三个搭配字元,即以5代表艹(廾)、+,以6代表冂。详见下表。
3.每字按表中的笔画或字元依写字笔顺法则取笔画或字元码的前四位数字为该字的字码,笔画或字元少的字,字码可以少于四位。凡字中出现表中的字元,则按字元码取码,而不按字元的笔画取码,这点初学者应特别注意。
4.字元:数笔组成的构字单元,按写字笔顺,字元的笔画不能与先写好的笔画相交,但后写的笔画可以交在先写好的字元上,例如:冉=6121,而不是冉=69。同理,里=4121,而不是里=49,因为土与先写好的冂或日相交则不作字元看。只有一字例外,即果字,根据汉字构字法应分为日、木两个字元;所以果=49。但后写的笔画可以交在先写好的字元上,例如:垂→,所以垂=3151;我→,所以我=3183。
5.大元优先:下表中的字元,笔画多的字元优先取码,如赵=730,而不是赵=9213,又如桂=999,而不是桂=9515。
6.举例:①为了取码方便,参照表1按写字笔顺,对字元的编码举例如下:
穴=08 亥=0830 斗=005 丬=052 工=121=112 干=15
=1122 尢=138 匚=18=1311 豕=1393 西=1638=1622
甫=1611 中=282 少=2303 夕=370 勹=37 夂=374 缶=3158
隹=3204 舌=352 乍=3211 角=3737 用=3711 身=3611 片=3217
壬=351 鬼=3438 鼻=3551 卑=3435=39 立=41=40
=46=45 青=44 里=4121 辛=415=4113 =44
耒=430=4370 敖=4373 豸=4933 士=51 廿=51=52
其=5111=6111 巾=62 鼠=6800=780 艮=7834 尹=73
予=7079 丑=751=7113 肀=72 卩=72 阝=72 皮=7327
厶=80 母=8710 比=8183 爿=8213 赤=9393
熟悉以上字元编码以后,很容易得出字的编码。现举例如下:
一=1 二=11 三=111 四=6381 五=1271 六=08 七=18
八=8 九=36 十=5 今=3407 天=1134 学=0030 习=705
友=1374 人=34 会=3411 议=0634 公=880 共=518 空=0812
间=04 青=44 年=3112 机=936 械=9158 地=9728 址=9212
没=9367 有=134 钢=9630 铁=9311 问=02 题=4121 中=22
国=6501 古=52 代=3218 叫=282 号=219 小=930 时=4190
购=4378 买=7001 和=392 初=573 研=515 究=0836 排=1211
练=8187 知=52 道=0313 社=49 电=48 力=73 劳=5073
动=1180 吉=512 林=99 北=2158 京=0293 先=3938 生=34
养=6432 春=444 卷=678 妇=87 女=8 节=572 计=065
算=655 龋=8326 织=828 夏=1353 开=15 始=8802 楼=968
本编码已编有一、二级汉字的码本和《辞海》缩印本1980年第一版的码本。
7.笔顺法则 我国当前的汉字笔顺没有统一。现行的小学语文课本以及教学参考书对某些字,例如车、皮、匡等,按几种笔顺教学。辞海中对同一字元的笔顺也没有统一,本发明的任务之一是要统一笔顺,故制定了笔顺法则。制定此法则时,照顾到了当前全国通用小学语文教材中的写字笔顺习惯。凡有不同之处,以下举例作出说明。
注①在写字取笔顺时,把乛、看作横系列。
②左撇高出横应先撇后横,例如:先=3938,万=137。
③现行小学语文教材中此类字按两种笔顺教学。一是先写中间后加左框;另一是先写框架后写里面。本法则按后者取码。
④比字的笔画竖折是主体,应先写主体再写横、撇,符合从左到右的法则。
⑤这几个繁体字按传统写字习惯,从左到右,与辞海中的笔画笔顺相符合。學、舆之类的字应按传统写字习惯,从左到右。
⑥一般说来,左右对称的字、中间为口、言、白的左右对称的字,应先写中间后写两边。出字与山字同属左右对称的字,规定起笔都为竖。
⑦与现行小学语言教材一致。
8.词组编码
本编码系统含有大约一万条词组,词组编码与单字编码原则一致。详见后述:
①两字词组 按笔顺取第一字的前两码(不足两码以零补之),第二字的前三码,并以+号启动两字词组输入,例如:
中国=+22640 分析=+87933 技术=+1590 物理=+31441
②三字词组 按笔顺取第一、二字的前两码(不足两码以零补之),第三字的前一码,并以-号启动三字词组输入。例如:
计算机=-06659 南昌市=-56440 电视机=-48469 工程师=-12392
③四字词组 按笔顺前三字各取第一码,第四字取前二码,并以*号启动四字词组输入,例如:
另一方面=*21413 如上所述=*82390 经济问题=*89041
④五字和五字以上词组 按笔顺前五字各取第一码,并以/号启动五字和五字以上词组输入。例如:
中国科学院=/26307 冰冻三尺,非一日之寒=/00172
从实际情况出发=/30700
这样,我们就可将字和词组混在一起连续输入。
(四)发明的优点和积极效果
与(一)背景技术描述中所提的编码方案相比,本编码具有下述优点和积极效果:
1.规则简明,一看就会,本编码取码方法完全按写字笔顺,符合人们的认识习惯,摆脱了众多编码按前三末一取码的习俗。本编码能满足全国各阶层人们普及计算机的需要,为计算机的普及化和家庭化提供了一套优秀的编码。
2.在计算机上输入汉字的速度可达到100字/分以上,满足了专职操作员的需要。现代汉语使用频率最高的汉字(在文稿中占用率在95%以上)约一千字左右,本编码中的非重码字以及一、二、三级简码占了一半,剩下一半经多次重复操作,其键位完全可以记住,故操作熟练后可以盲打。
3.为计算机和汉语词典提供了一个统一的编码。统一了汉字笔顺,可使查任何简、繁汉字无需10秒钟,其速度比传统查字法快若干倍,快速准确,无难检字问题。
4.本编码设计科学,每个码元和字码段的字分布均匀,重码率较低,平均每码2字,对国家一级汉字,提示行上最多重码字在10个以下。
5.我国出版的新华字典、现代汉语词典和辞海的数量多达数千万册,若按本发明码本编排字典、词典,每本词典可删去五、六十页甚至一百多页的部首检字表、笔画检字表,光这一项可节约财富数百万元甚至数千万元。按数字码查字,速度快,简便,给亿万炎黄子孙带来方便,其精神财富,无法估计。
6.有利于编辑汉外词典,如汉英、汉日、汉俄…等词典。从事这项工作的人皆知,编辑汉外词典给每个汉语词汇注上拼音,然后按拼音字母排序,这是件十分困难之事。而利用本码给汉语词汇排序,此项工作将变得简便。
7.统一了笔顺,为改善中小学语言教学创造了有利条件,今后的中小学语文教学无须花费大量时间去分清和记忆难查汉字的部首,可使中、小学生节约大量检字时间。
8.本编码兼顾繁体字,有利于向海外华人推广。
9.为图书、档案、单位名录、电话本的汉字排序提供了科学方法。