本发明涉及汉字编码,尤其涉及汉字笔形笔顺二进制编码。 现有汉字查字法可归纳成三类:字形法、字音法和音形法。字音法,以汉语拼音法为佳,但离开了字音就没法查字,故一般还附有字形查字法;音形法也依赖字音,无字音也无法查字;字形法以部首法为佳,但部首归类不同,部首法就有多种,使用时,先得按其规定,找准这字的部首,数出笔划数,找到这个部首,再数出其笔划数,在几个或几十个同笔划数的字中,按其笔形排列方法找到这个字,给使用者带来一定困难和不便。
本发明目的是提供一种新的汉字编码法即汉字笔形笔顺二进制编码法,既简便、又快捷,且可用于电子计算机进行汉文字处理。
本发明的目的是这样实现的:将汉字笔形分解,按汉字笔划书写顺序(笔顺)编码,然后以一定规则排列。汉字笔形包括复笔和钩笔分解归纳成横笔和竖笔两种,分别用阿拉伯字母1和0作代号,横笔代号为“1”,竖笔代号为“0”,然后按汉字笔划书写顺序作二进制编码。对每个汉字则按其编码大小次序进行排列,对同码的汉字,其排列原则:左右结构在前;笔划相接或交叉少的在前;笔形短的在前。对笔划数在4笔和4笔以上的汉字在上述二进制编码的基础上进行再编码,其方法是用十六个英文字母A、B、C、D、E、F、G、H、J、K、L、M、N、P、Q、R作代码,每一英文字母代码代表一组由四位二进制数字的代号。用英文字母再编码时,若剩余数字代号不足四位时,仍保留该上述数字代号于英文字母代码之后。若汉字笔划超过十六笔,即其二进制编码超过十六位时,取前十二位和末四位二进制编码转换成上述英文字母代码。
下面结合实施例作进一步说明。
步骤:
一、汉字笔形分解归类
横笔 代号“1”(横一、捺丶、提、右点丶)
竖笔 代号“0”(竖丨、撇丿、弯、左点)
复笔分解(一,丨>,<丨,一)
钩笔分解(一,>,<一,丨)
亅(丨、丶>,<丨,)
二、编码
(1)二进制按笔顺编码
如“王”字,笔顺一二干王,编码为“1101”。
如“心”字,笔顺心,编码为“001011”。
(2)再编码
以二进制四个代号为一组,用十六个英文字母作代码,得到新编码。
A 0000 E 0100 J 1000 N 1100
B 0001 F 0101 K 1001 P 1101
C 0010 G 0110 L 1010 Q 1110
D 0011 H 0111 M 1011 R 1111
举例:
汉 字
二进制编码 1111,01 1011,1000,1
再编码 R01 MJ1
笔 形
二进制编码 0110,1101,1011,0 1100,000
再编码 GPM0 N000
二进制编码超过十六位时的再编码:
鄜 1101,0001,0110,111,0010 PBGC
飚 0100,0010,1011,10011001,1001 ECMK
三、汉字排列
(1)按编码数字从小到大或英文字母顺序排列
(2)对同码汉字排列:
①形码全同,如:“吧”和“邑”代码同为LF101,均由“口”和“巴”两部分组成。按左右结构排列在前原则,“吧”在先、“邑”在后。
②代码相同,如“八”、“入”和“人”代码均为01,“八”笔划无相接或交叉排在最先、“入”的首笔较“人”的首笔短,排在其次。
这种汉字笔形笔顺二进制编码法,以见字定号,同时编码,简便、快捷,对繁复汉字在二进制基础上,可以进行再编码。这种方法可用于编辑词典、电话查阅册及各种文字档案管理,还可输入电脑进行汉文字处理。