本发明属于汉字编码技术领域。 目前,汉字编码方案很多,据报道已达几百种,但是,能上机应用的却很少,能普遍推广应用的就更少。现在所使用的几种编码输入法,还不能令人满意。主要原因是除了部分方案需要增加硬件设备,一时难于上机应用外,多数方案不是人为规则过多过杂,难学难记、难用;就是重码、误码率高,操作不便,效率不高。
最近,杜冰蟾发明的“汉字全息码”,比以往的的编码法具有较多的优点,如信息全、重码少,易学、易用等。但是,该编码法也是有缺点的,主要是:
1、部首归类不妥。如用“用”字作“角”字的本体,用“廾”作“艹”的本体,既不符合习惯,又难读难记。“用”字与其它部首又不能组成另外一个汉字,用来作部首实无必要。把“厂、疒”作“广”的异体,重码多,如“座”与“痤”等。
2、每个部首只用一个字母作代码,达不到唯一性,必须用笔画作区分码。这样,不仅编码复杂,速度慢,而且各人书写习惯不同,容易造误码。如“方”字的末笔,很多人写法都不一致,连该码的发明者也定错(族FPHR)。
3、使用八种笔画,不符合目前公认并广泛应用的五种笔画。横与挑,点与捺,在很多情况下可相互转化,弯与钩有时也难于区分。使用八笔,实际上使用了汉字的不确定信息,容易产生误码。如“驴”字与“码”字,都有一个“马”,但末笔却不同,稍不注意就会出错。
4、完全按笔顺分解汉字,会把传统的部首分解得支离破碎。如“国”字分解成“冂王、一”,“必”字分解成“丿丶丶”,“酉”字分解成“一冂儿二”,“戈”字拆成“一”,都不符合人们的传统习惯,一般难以掌握。
5、汉字全息Ⅱ码由于代码与部首没有直接联系,必须死记100个部首的代码,否则无法使用。
为了使汉字编码输入既简便又实用,我们在总结现有编码方法的基础上,发明了汉字部声码。部声码是利用汉语拼音的声母和韵母作每个部件的代码。它是以传统部首为基础(主要参考《新华字典》),优选出组字能力强,或者是难于再分解的120个部首作为编码部件。部件首先按其读音归类,用其声母的第一个字母和一个单韵母作部件的代码,然后对重码的部件进行调整,尽量使码的读音与部件的读音相近似;以便于记忆。五个单笔部件(笔画),除“丿”外,均用单韵母作代码;组字能力较强的20个部件只用一个字母(声母)作代码、其余95个部件的代码均为双字母,每个部件地代码均具有唯一性。为了编码方便,我们把只有一个字母的代码称为S(声)码;两个字母的代码,第一个字母称为S(声)码,第二个字母称为Y(韵)码。120个部首按其代码字母顺序排列(见表)。
汉字SY码在编码时,一般先按笔顺规则,即先横后竖,先撇后捺,从上到下,从左到右,从外到内,先里头后封口,先中间后两边,把汉字分解成编码所需要的部件。但是,对传统的部首,不管其笔顺是否连续,均作为一个部件处理。例如,“国”字只分解成“口王、”,“必”字分解成“心丿”。当一个笔画的两头连接其它笔画构成两个部件时,允许从中断开,分属两个部件。例如,“果”字可分解成“田木”,“重”字分解成“千里”,“垂”字分解成“千艹士”,“戊”分解成“厂戈”,“出”分解成“山山”。每一步只分解到最多笔画的部件为止。按部件起笔的顺序取码。
汉字SY码可以对单字和词组进行编码。为了计算机处理的方便,一般以4个字母组成一个字或词组的代码,但也可编成不定长码。具体编码方法如下:
一、字的编码
1、单部件字:包括120部件字及其异体和繁体。编码时,直接取该部件的代码,异体、繁体加起末笔画,不足4码则加“V”至4位码。(如作为不等码,可不加“V”,也不用加笔画码)例如:
贝BEVV 见BEIU 貝BEIO 一AVVV 木MVVV
2、双部件字:由两个部件组成的字,编码时分别取两个部件的代码;没有Y码的部件则加“V”(作为不等长码,可不加“V”)。例如:
汉SVYO 字BOJE 取FUYO 码DVMA 沐SVMV
3、三部件字:由三个部件组成的字,编码时,第一部件取SY码,第二、三部件取S码;若第一部件没有Y码,按顺序取第二或第三部件的Y码;若三个部件没有Y码,则加“V”(如作为不等长码可不加“V”)。例如:
桂MTUT 花NRBI 图KUWL 算ZMUN 淋SMMV
4、四部件字:由4个或4个以上部件组成的字,最前两个部件和最后两个部件编码。前两个部件取第一部件的SY码,若没有Y码,加取第二部件的S码。后两个部件均取S码。例如:
照RIKH 障FURH 湖SHKY 椅MDDK
为了减少重码,对4个以上部件字,如果前两个部件与后两个部件相同,或者由两个相同字组成一个字时,可改按顺序取第一至第四部件的S码。例如:
器KKQK 嚣KKYK 辩LHYL 兢HKEH
二、词组的编码:
1、二字词:分别取两个字的首尾部件的S码,若是单部件字,则取其SY码,无Y码者则加“V”。例如:
汉字SYBJ 编码CNDM 方法FASS 中心KIXV
2、三字词:第一个字首尾部件的S码,第二、三个字取首部件的S码;若第一个字为部件字,取其SY码,无Y码则加“V”。例如:
计算机YHZM 文化宫WERB 人生观RVPY 石家庄DVBG
3、四字以上词:取第一、二、三和最末个字的首部件的S码。例如:
汉字编码SBCD 科学研究HXDB 计算中心YZKX 中国科学院KKHF
汉字SY码与现有的编码法相比,其优点是显著的。
1、首次提出用双字母作部件代码,使部件的代码具有唯一性。不仅能见字识码,还可以部分做到见码识字。例如:
奋DATI 孩JEHA 好NUJE 闯MEMA 放FAWE
2、基本上以部件编码,一个汉字有几个部件就用几个部件编码,最多也不超过4个部件,不用加笔画区分码。编码简便,速度快,还可以避免因笔顺不一致造成的误码。
3、本法是由声母和韵母组成一个部件的代码,代码的助记性和可读性都较好。例如:
方FA 西XI 女NU 灯HODI 妈NUMA 抬TSID 识YKBA 张GOCA
4、编码规则较简单,易学、易记、易用,一般不需要专门培训。
5、可以在普通标准键盘上操作,不用更改键盘和增加硬件设备。
6、重码率低。处理《GB2312-80》的6763汉字,重码率<1%。
汉字SY码可以应用于以下几个方面:
1、可作为计算机,电子打字机、各种文字处理机的汉字输入码。
2、可作为邮电部门的电报、电传的明码。
3、可作为自动翻译机,电子对照词典的输入码。
4、可作为辞书、书目、索引的编排和查检。
汉字SY码部件代码表
A一()丶 GI鬼() N艹(廾艹) TO冂(ㄇ)
B 疒 GO弓(工) NA廿() TU土(士)
BA八(丷八) GU骨 NE乜(也) U乙
BE贝(见貝見) H禾 NI牛() UA于(亍牙)
BI匕(七) HA亥 NO鸟() UE鱼(魚)
BO宀() HE艮() NU女 UI雨
BU卜() HI乂(十) O丶() W王()
C纟(幺糹) HO火(灬) OU区(匚) WA瓦
CA长(長镸) HU户(尸) P丿() WE文(攵夂)
CE车(車) I丨(刂) PA片(爿丬) WI韦()
CI川(巛彡) J金(钅) PI平() WO巫(亚业)
CO虫() JA巾 Q犬(犭勿) WU毋(母)
CU寸 JE孑(子了) QA千 X心(忄)
D石 JI己() QE欠 XA夕
DA大(尢) JO角 QI(礻示) XE习
DE歹 JU臼() QO丘 XI西
DI丁(丅了) K口 QU曲 XO小()
DO刀(刂) KU囗 R人(亻) XU彐()
DU豆 L冫(ㄑ) RE壬 Y言(讠)
E二(亠巜) LA来(耒) RI日(曰) YA羊()
ER儿(几凡) LE力 RU入 YE页(頁)
F丰() LI里() S氵(水氺) YI衣(衤)
FA方 LO龙() SA山(屮凵) YO又
FE风(几) LU六(立) SE食(饣食) YU月(月)
FI非() M木() SI厶() Z竹()
FO缶 MA马() SO勺(勹) ZA爪(爫)
FU阝(卩耳) ME门() SU殳 ZE身()
G广(厂) MI米 T扌(手) ZI止()
GA干() MO毛(乇) TA天(夭) ZO走(辶廴)
GE戈(弋) MU目(罒皿) TI田(由) ZU舟
注:部件代码只有一个字母的称为S(声)码;有两个字母的,第一个字母称为S(声)码,第二个字母称为Y(韵)码。