形声四码汉字编码方法 形声四码汉字编码方法属于汉字计算机输入码编码技术。
现在广泛使用的五笔字型(王码)汉字输入法共有130个基本字根,10条以上的编码规则。字根的选取与汉字以形声字为主的特点无关,汉字的拆分与汉字的书写习惯不完全一致,因而难学难记难拆分,影响了在计算机一般用户中五笔字型(王码)汉字输入法的推广。
为了在编码方法中,减少基本字根(基本部件)的数量,简化编码规则,使汉字拆分符合汉字书写习惯,使汉字输入易于在计算机一般用户中迅速推广,本人发明了形声四码汉字编码方法(以下简称形声四码)。
形声四码汉字编码方法的发明内容分两部分叙述:A.与发明有关的现有技术基础知识;B.本发明内容。
A.基础知识
1.笔划、笔划的分类及代号
笔划:正楷书写汉字时,一次不间断的写成的一条线段叫笔划,有时简称笔。
笔划的分类及代号:汉字的各种笔划可以分为五类,每类对应一个数字,这个数字叫此类笔划的代号。笔划的分类见下表:代号名称笔划走向说明 示 例1横左→右提笔皆属横“坟”字的第一、三、五笔2竖上→下竖左钩属竖“可”的第二笔和最后一笔。3撇右上→左下“学”的第三笔,“杉”的第三笔和最后三笔。4捺左上→右下一切点皆属捺“江”的前两笔,“术”地最后两笔。 5折带拐弯除竖左钩外,一切带弯钩的皆属折“驰”的第一、二、四、六笔。“钩”的第五、七八笔。
2、笔顺:一个汉字按正楷书写时,各笔的先后顺序叫笔顺。关于笔顺有以下规则:
1°)从上到下,从左到右;
2°)先横后竖,先撇后捺,先横后撇
3°)从外到内,先里头、后封口,先中间后两边。
4°)与国家语委、新闻出版署联合主持制定的《现代汉语通用字笔顺规范》矛盾时,以此规范为准。
3、区位号、区位号与英文字母的对应关系:
计算机键盘的标准打字键区的英文字母键,按标准指法可以分为5个区,每区分为5个位。以一个英文字母键的区号做高位,位号做低位,可得一个两位数,这个两位数叫该英文字母键的区位号,英文字母叫此区位号的代码。区位号与英文字母的对应关系如下表: 位号区号 -1 -2 -3 -4-5说明 1- 11G 12F 13D 14S 15A英文字母z为编外字母其区位号55转给N。 2- 21H 22J 23K 24L 25M 3- 31T 32R 33E 34W 35Q 4- 41Y 42U 43I 44O 45P 5- 51B 52V 53C 54X 55N
由于除Z外英文字母与区位号一一对应,因此下文叙述中,无特殊说明时,区位号与英文字母可以互换。
B.发明内容
1.基本部件:形声四码从常用汉字偏旁部首中选出了34个(包括其变形)作为基本部件,并建立了基本部件与英文字母的如下对应关系:W钅(金),S木,L氵,I火,A土(士)Q鱼,U 忄,H目,X扌,V‘跑’的左偏旁N纟,E月,O虫,K口,J艹C女,G王,D石,Y疒,T‘篮’的上部首T禾,B日(日),P讠(言),M田,I米,A车E舟,U又,P衤,M贝,F革,F酉仅作尾码用的基本部件:P廴,N或R人(八)说明:
a.钅,纟,讠,车对应的繁体字偏旁与简体偏旁的代码相同;
b.仅作尾码用的基本部件:人(八)作尾部件时,如果被其他笔划隔开(如茉)或与其他笔划相交(如英)时代码为N,否则代码为R(如肉、洪)。
2.一般部件:除基本部件外,按汉字笔顺书写的连续两笔构成一个一般部件。一般部件以先写的笔划的代号作区号,后写的笔划的代号作位号,该区位号及其对应的英文字母就是该一般部件的代码。
例如:‘住’的左偏旁为一般部件,代码为32(R)
‘打’的右偏旁为一般部件,代码为12(F)。
3.形声四码的取码规则1:形声四码的前3码为形码。一个汉字按书写笔顺依次取首部件、次部件、尾部件的代码分别作首码、中码、尾码。首码,中码、尾码及其顺序构成形码。
例如‘住’的首码、中码、尾码分别为32(R)、41(Y)、15(A)形码为324115(RYA),简记作:住(RYA)。再如:濡(LSJ)膏(YKE)
4.形声四码的取码规则2:笔划较少的汉字,形码取不足3个部件时,所缺笔划一律用撇(3)补齐。
例如:飞(534333)=(CIE)汪(LGE)扎(XCE)对(UFI)。
5.形声四码的取码规则3:基本部件独立成字时,以其代码为首码,然后从第3笔开始取中码、尾码。
例如:木(SWE)鱼(QMD)言(PGK)
贝(MWE)又(UEE)
6.基本部件独立原则:除作尾部件的人(八)外,基本部件不能与其他笔划相交,也不能被其他笔划分隔,否则按一般部件取码。
例如:吉(AKE)教(FDW)中(MFE)图(MGY)
7.取大优先原则:既可取一般部件,又可取基本部件时,取基本部件;既可取大(笔划较多的)基本部件,又可取小基本部件时,取大基本部件。但一笔不能同时取在两个部件中。
例如:往(ELG)蛀(OYA)颁(WCM)
权(SUE)杈(SXI)譬(BRP)
8.形声四码的取码规则4:形声四码的第四码为声码。一个汉字的汉语拼音的第一个字母即为其声码。编外字母Z作声码时用V代替。
例如:潘(LWMP)是(BHRS)我(THWW)中(MFEV)
跟(VBWG)筑(TFXV)
9.人(八)作尾部件的例子:
钠(WMNN)肉(MWRR)粪(IJRF)
尜(KYNG)茉(JGNM)该(PYRG)
不按人(八)作尾部件取码的例子:
全(WGEQ)家(OBWJ)类(IDIL)
项(FGMX)茶(JWSC)
10.词的形声四码取码规则:由两个或两个以上的汉字组成的词的编码也是四码,顺次取第一个字的形码和最后一个字的首码就是该词的形声四码。
例如:编码(NPJD) 新中国(YIFM)
发明专利(CUIT)
形声四码只有不足40个基本部件和一个一般部件,7条编码规则,基本部件都是汉字的常用偏旁部首。基本部件的选取和汉字拆分规则与汉字书写习惯一致。记忆量少,拆分容易,宜于在计算机一般用户中推广。
本说明无附图。但有微机3.5寸软盘一张,做为实质审查使用。3.5寸软盘储存文件目录:
1°)HZBM1.DBF图标汉字(GB2312-80)共6763个的形声四码编码数据库。
2°)HZBMD.DBF25个单码字数据库。
3°)HZBMJ.DBF605个双码字数据库。
4°)PLNM1.PRG形声四码汉字调用程序1。
5°)PLNM2.PRG形声四码汉字调用程序2。
以上文件仅供实质审查时使用。
申请人认为,实现发明的最好方式是利用形声四码对汉字、词编码。在此基础上,充分利用计算机功能提高以词为单位输入汉字的比例,有利于快速输入汉字。