计算机汉字输入编码方法 本发明涉及一种计算机文字信息处理系统,特别是一种计算机文字信息处理过程中采用的汉字输入编码方法。
在本发明提出以前,与本发明相关的汉字输入技术主要有目前被人们广泛应用的以表音为主和以表形为主的两大类。以表音为主的汉字编码方法,比如全拼和简拼法。由于汉字同音字较多,且有声调和平翘舌音。因此,人们必须从众多的同音字中进行区别拣选,其提取汉字的过程自然影响了输入的速度;以表形为主的汉字编码方法,比如五笔字型和郑码。这些方法因为汉字的笔画、部首及字型的多样化,必须适应电脑键盘工作的要求(因为电脑从根本上讲是西方化的,它是以表音语言为基础发展起来的),因此,这些方法都将汉字进行了拆分,有时电脑一键就承担了十几个笔画及部首,需要记的字根较多,这样一来,人们要学习电脑汉字输入就要对汉字进行一番重新认识,从而增加人们熟悉和掌握该种方法的难度,因为它等于从一个新的角度去重新认识和学习汉字。因而不利于汉字基本知识的学习和利用,对中、小学教学极为不利。
鉴于上述现有技术存在的不足,本发明的目的是提供一种充分利用汉字基本知识,且在较短时间内可使学习者见字识码的计算机汉字输入编码方法,使之促进人们对汉字熟悉记忆的程度。
本发明的目的是通过如下技术方案来实现地:a、常用汉字每四码对应一个汉字,在国标常用汉字当中采用了电脑键盘上的26个英文字母键作为编码的组合,码中字母与字母键一一对应;b、在常用汉字编码时,每个汉字的第一码为该汉字汉语拼音的第一个字母,第二码为该汉字的偏旁部首或首笔笔画名称汉语拼音的第一个字母或对特殊部首设定的字母键,该特殊部首字母键的设定原则是以根据象形的原则或会意方法,手部包含“扌”的设定键为F,水部包含“氵”设定键为I,木部设定键为U,月部设定键为V,“纟”部设定键为W衣食住行有关的部首设定键为A;上述不包括的部首设定键为O;第三码为该汉字的结构类型代码,各结构类型代码由分别设定的字母键给出,第四码为该汉字除掉偏旁部首后余下部分单字或拆出单字或该汉字末笔笔画名称汉语拼音的第一个字母; c、对次常用字的编码采用重码组提字的方式进行,其第一码由设定的一个字母键作为次常用字的代码,第二码是该汉字汉语拼音的第一个字母,第三码为该汉字部首名称汉语拼音的第一个字母,第四码为该汉字的结构类型代码。
本发明的优点是以汉字的读音、偏旁部首和结构三个方面为主,以组成汉字的可拆单字和笔画为辅进行汉字编码,可充分利用人们在从童年时期就开始学习到的汉字基本知识,使该方法极易被人们所掌握,使学习者能够在较短时间内基本做到见字识码,对中、小学教学及人们对汉字的熟悉记忆程度有较好的促进作用。
本发明的细节通过以下例字详细说明。
一、常用汉字的编码规则
在3700多个国标常用汉字当中,采用电脑键盘上26个英文字母键作为编码的组合,每四码对应一个汉字(称其为四维码),码中字母与字母键一一对应。其中每个汉字的第一码为该汉字汉语拼音的第一个字母(大多数汉字汉语拼音的第一个字母都为声母,只有少数汉字汉语拼音的第一个字母为韵母),如:“码”字的拼音第一字母为m,“茸”字的拼音第一字母为r,“耳”字的拼音第一字母为e;第二码为该汉字的偏旁部首或首笔笔画名称汉语拼音的第一个字母或对特殊部首设定的字母键。各偏旁部首具体对应各个英文字母的规则主要是依据取音的原则,即该偏旁部首名称汉语拼音的第一个字母,例如:“忄”竖心用X、“疒”病字旁用B、“亻”人字旁用R。其次是根据象形的原则,如:手(扌)部用F,水(氵)部用I(“氵”连写起来象“讠”),月部取V(该部取月牙之意),木部取U(木旁与树有关,栽树挖坑象“U”),“纟”部为W。极少部分采取会意的方法,如“衣、食、贝、宀、饣”部与人们生活有关的字取英文第一个字母A。对于其它一些人们较难认识或大简单的部首,即上述取音、象形、会意均未包含的部首均取字母O(详见附表一:偏旁部首键盘码表),采取象形、会意取码的目的是避免重码。对独体字、杂合字、部首字取该汉字首笔笔画名称汉语拼音的第一个字母(详见附表二:首末笔笔画代码分配表),如“王”字首笔一横,其代码为H,“主”字首笔“丶”点,其代码为D;每个汉字的第三码为该汉字的结构类型代码,该代码由设定的字母键给出(详见附表三:汉字结构类型配码表),例如:“码”字的结构类型为左形右声,其代码为n,“茸”字的结构形态为上形下声,其代码为Z;每个汉字的第四码为除掉偏旁部首后余的部分单字或拆出单字或该汉字末笔笔画名称汉语拼音的第一个字母,即除去该汉字的偏旁部首,如余下部分单独是一个汉字,那么就取这个汉字汉语拼音的第一个字母,例如:“码”字去掉部首剩“马”字,其代码为m,“茸”字去掉部首剩“耳”字,其代码为e。否则按从下到上、从右到左的顺序拆取单字取其汉语拼音的第一个字母,如:“辩”字拆取单字为“辛”,其代码为X。如果拆不出来单字,那么就取该汉字最后一笔笔画名称汉语拼音的第一个字母,如:“九”字,其末笔为“乙”横折弯钩,其代码为g,“申”字的末笔为“丨”竖,其代码为S。
根据以上常用字编码规则,对不同结构类型的汉字编码举例如下:
他:TRNY ;剂:JDYQ;辩:BXMX;忠:ZXXZ;
置:ZSZZ;草:CCEZ;尾:WSUM;过:GZLC;
国:GOOY;七:QHDG;申:SSIS;月:YPBH;
轰:HCPY。
二、次常用汉字的编码规则
在现代汉字中,国标的3700多常用汉字的使用频率达99.9%,而3000多次常用字的使用频率只有0.1%。也就是说每输入1000个汉字只能用到一个,因此,让使用者去逐个熟悉它,无形中造成一种脑力的浪费。因此,对次常用字采取了重码提字的方式。
根据上述原因,将次常用字的第一码取字母键V;第二码取该汉字汉语拼音的第一个字母;第三码为该汉字部首名称汉语拼音的第一个字母,其各部首具体对应各个英文字母的规则与常用字编码规则中第二码相同;第四码为该汉字的结构类型代码。例如:婵:VCNN;昕:VXVN;芮:VRCZ。
三、键面高频字和特殊用字的二级码
根据汉字的使用频率将极常用的汉字用26个字母将它们分别定义在键面上,每个字分别是:
其:Q:我:W;而:E;人:R;他:T ;于:Y;由:U;以:I;
国:O;片:P;安:A;是:S;的:D;分:F;跟:G;和:H;
及:J;可:K;了:L;在:Z;象:X;从:C;为:V;不:B;
年:N;们:M。
考虑到汉字中数字汉字如一、贰等字,人们在使用汉字时经常用到,因此,对这类汉字进行了特殊编码,将其分成十组,每组给一个编码,输入该码后,进行选择输入,它们是:
YY:一、壹;EE:二、贰;SS:三、叁;SF:四、肆;
WW:五、伍;LL:六、陆;QQ:七、柒;BB :八、捌;
JJ:九、玖;ST:十、拾。
四、词汇输入法的编码规则
双字词:第一码为首字汉语拼音的第一个字母′第二码为首字部首名称汉语拼音的第一个字母;第三码为末字汉语拼音的第一个字母;第四码为末字部首名称汉语拼音的第一个字母。例如:联合:LEHR;电脑:DONV。
三字词:第一码为首字汉语拼音的第一个字母,第二码为第二字汉语拼音的第一个字母;第三码为第三个字汉语拼音的第一个字母;第四码为第三个字部首名称汉语拼音的第一个字母。例如:解放军:JFJO;二进制:EJZD。
四字词或多字词:第一码、第二码、第三码分别为该词前三个汉字汉语拼音的第一个字母,第四码为末字汉语拼音的第一个字母。例如:科学技术:KXJS;中华民族:ZHMZ;中华人民共和国:ZHRG。
附表一:偏旁部首键盘码表注:各键没入收的部首全部归“O”键:一、丨、丿、丶、二、乙(乚)勹、冫、冖、卩(巳)、、、廴、匚、廾、尢、囗、彳、彡、攵、屮、幺、系、彐(彐、)、聿(聿、肀)、爿、疋、虑、臼、豸、黾、髟、攴、殳、爪(爫)
表二:首末笔笔画代码分配表 基本笔画例字代码 变化笔画例字代码笔画名称笔画名 称丶点宋主D斜 点挑 点撇 点夕习心 D T D一横不可H提横 折横 折 弯横 钩横 撇横折弯钩横折斜钩横折折钩刁区设矛又九飞乃 T Z W G P G G G丨竖中上S竖 挑竖 折竖 钩弯 钩竖 弯 钩竖折折钩以匡丁狗孔考 T Z G G G G丿撇人自P撇 折撇 折 点红女 Z Z捺义水N平 捺斜 钩卧 钩巡民毛 N G G
附表三:汉字结构类型配码表结构类型代码 例字左右结构左形右声左声右形 N Y 他、偷、跑 剂 飘、款左中右结构 M 辩、淮、徽上下结构上声下形上形下声 X Z 忠、想、照 置、落 芬上中下结构 E 草、蒿、衷半包围结构 U 尾、武、着、眉、匡、凶、闲左下围结构 L 过、爬、起全包围结构 O 国、团、园独体字 D 七、五、凸杂合字 I 申、电、末部首字 B 月、尸、石品字形结构 P 品、轰、丽