汉字形声码是一种形码,应用于中文信息处理。 目前,汉字编码方案已有600种,但成名的,不过十几种。编码按信息特征分,基本上为音码、形码、音形码三类。音码的缺点是①同音字太多,②8000汉字,通常只识得三、四千字。形码的缺点是①要记字根及其编码,②字根分解规则的模糊性常造成误码,並增加了记忆量,③字码合成时总有些特殊的规定,④要准确掌握字形。音形码则兼有两者的优点与缺点。当前的电脑输入还是形码占优势,而王永民的五笔字型码为其典型代表。
作为形码方案主要由四部分组成:①字根选择及其编码,②字根分解规则,③识别码设计,④字码合成规则。
字根编码方法有三:①区位码,如王码,②象形码,如钱码,③声码,如全息码。显然声码比较优越,容易记忆,反应快。
字根分解方法常见以笔顺为序。它的优点是将平面结构的字形转化为线性结构的笔顺,简单明确。其缺点是将字形分解得较零碎,常不符合文字传统与习惯,因而王码要加个“兼顾直观”的规定。但是“直观”是个模糊概念。王码的五条分解规则各自独立,使人不知道该用那条规则。
识别码的主要功能是抑制重码,王码的末笔、字型交叉识别码是一种很好的识别码。当字根采用按声取码时,对其识别码提出了更高的要求。杜冰蟾的全息码采用末笔画的八种笔型作为识别码,其离散力不足,故未能实现真正的按声编码。
本发明的目的在于全面改进形码的品质,並实现部分的反向识别功能(见码识字),使它成为一种文字码的雏形。
本发明的构思原理与基本结构如下:
汉字是一种拼形文字,拼音化道路走不通,能否走拼形道路。汉字现代化就是汉字符号化,符号汉字就是文字码。它与一般编码不同之处就在于要求反向识别;还有,编码过程中、符号转换中,不允许存在文字学以外的指令手段。一旦,统筹研究汉字编码与汉字简化(减少字根,而不是减少笔画),实现2500常用字的双向识别是可能的。那时,一般文字资料中,每100个字有99个可以双向识别,这种编码就可称之为“文字码”。它不取代汉字,但可辅助汉字,它将从专业走向社会。本发明是设计文字码的一次初步尝试。
本编码采用英文字母键盘,4位等长码,(用于汉字检索或全汉字编码也可用5位等长码)。150~200个正体字根按音(声母)编码,另声母字根采用韵母的一个字母,首字母或韵腹字母。声母21个,Ch、Sh、Zh写成C
1、
![]()
、Z
1。取消分隔用声母W、Y,Y改作ü。元音“O”用作功能码。C
1、
![]()
可占用V、W键,Z与Z合用Z键,这样共26键位。字根读音在下列读音中选择:①今音、②古音、③习惯音,④注音符号音,没有现成读音或因避重需要给予拟定读音的,可采用如下方法:①形转意法,②仿形声法,③仿音省法,④仿反切法,⑤形似法。凡当今通用的成字字根,一律采用今音。凡有现成读音的尽量在现成读音中选取。(注:今音是指现代读音。)
本编码创造一种新的字根分解方法。它与通常的以笔顺为序的动态分解法不同,而是直接分解字形的静态分解法。这种分解法所得的字根比较完整,比较符合于文字传统。如束字王码分解为一、口、小,本编码分解为木、口,符合“说文解字”束从口木的观点。它有一条必循准则与五条顺序运用的优先准则。根据这些严密、确定、统一的准则,任一字形均可得到一个唯一的分解结果。必循准则是“笔顺一致性”准则。这规定分解所得的字根其笔顺必须与整字中的笔顺一致,即字根的笔顺在整字中可以被别的字根间断,但不可颠倒。五条优先 准则依次为:①最少字根优先,②脱连优先,③最小根值优先,④笔顺连续优先,⑤笔画先分优先。下面给予扼要说明:
最少字根优先是为了取得较少的字根,这样字根字形完整,並利于反向识别。
汉字中的笔画群组成字根或部件,说明这些笔画间存在一定的关系。依其关系的紧密程度可分为三类,(1)相关:几何学上不相连,而文字学上相连,如八、心,(2)相连:笔画接触,(3)相交:笔画相交,有交点。脱连优先的含义是笔画间关系较松散的,相关与相连优先脱开,其特征是交点数不减少。
字根是由一个笔画、二个笔画,或多于二笔画组成,用“根值”来表示字根笔画的繁简程度。规定二笔以上的复笔字根其根值为1,一个笔画的单笔字根,若其笔型为“折”时,根值为0·8,其余四种笔型时,根值为0·6。最小根值优先准则规定了在同样字根数,同样是脱连(或折交)的情况下,选取根值较小的一种。
静态分解法规定字根的笔顺在整字中可以被别的字根间断,在先行的优先准则相同的条件下,字根笔顺未被间断的分解结果应该优先。
笔画先分优先准则规定在先行优先准则相同的条件下,可以归属于二字根的中间笔画应归属于前字根。如兰→
![]()
、二,
![]()
丷、三。(→读成“分解为”或“编码为”,
![]()
读成“不分解为”或“不编码为”。)
分解后的字根次序依其首笔画的先后为序。
本编码的字根分解采用二步进行:第一步先分解为独立部件这是指该部件与相邻笔画无牵连;所谓牵连是指相邻笔画间可组成新的字根。8000正体汉字共有600个独立部件,其中200多个是单个字根,余下只有300多复字根部件需要分解。只要按照分解准则,掌握这300多部件的分解结果,那应对8000正体汉字的分解便驾轻就熟,反应迅速。
同码(同声母)字根用字形识别码来加以区分。字形的分类用 字根的首末笔画的笔型作为特征来确定的。这样,相似的字形既可归于一类,又可避免“相似”的模糊性。笔型分五种,字形分成5×5=25类,可以用2位数表示。末笔为撇的字根很少,可以归为一类,用03表示,定名为“撇”,这样得字形为21类,03之外地20类字形,每类中选出一个字根作为代表,称代字,这个代字的读音(声母)便是该类字形的代码。这样21类字形可由21个字母表示,称为字形识别码,简称识别码。
同码字根(字根码相同)中可选出一、二个较常用的字根,对它们不用字形识别码,而用功能码“O”代替。这些字根便称为零识别码字根,或简称O码字根。
当字根码、识别码结合起来成为字母区位码,用来表示一个字根时,这字根的字形便可确定。这就是实现反向识别功能的途径。
代字法的构思来源于汉字的音韵学传统,用字母(整字)代表音素符号。
字码合成规则如下:
单字根字:GO
![]()
![]()
′;
双字根字:G
1G
21
2
1 三字根字:G
1G
2G
31![]()
i(i=3或2)
或G
1G
2G
3,
![]()
i(i=1)
用一个识别码位去识别三个字根码,本发明首创“扫描识别法”。
![]()
i首先识别G
1,遇O码字根,转向G
3,遇O码,转向G
2,又是O码,则
![]()
i标为“O”。若在扫描过程中,遇到非O码,则标记首先遇到的非O码字根的字形识别码。
扫描法有利于抑制重码与增强反向识别功能。
四字根字:G
1G
2G
3G
4 ≥5字根字:G
1G
2G
n-1G
n 当复笔字根数≥5时,单笔字根全部省去。
得:Gf
1Gf
2Gf
n-1Gf
n。
以上G、
![]()
、S′、Gf、O表示字根码、识别码,辅助识别码、复笔字根码、功能码。注脚数字为序号。“′”为区分字根码与识别码的分隔符,它不用输入电脑,仅用于人脑反向识别。
另外,尚有局部的附加规则,以抑制重码,如8000汉字编码初稿中有这样三条附则:
(1)以口,木为首字根的双字根字,字型为上下型时,口、木的识别码不用“O”,而用上下字型识别码“K”、K是“卡”的声母。
(2)由2~3个字根组成的字形在整字中重复出现时,后面的可用“U”代替。它模仿简化汉字中,用“又”代替重复字形,如轰、聂。
例:器→KKQU,
辨→L
![]()
BU。
注:U所代表的字根(上例为KK,L
![]()
)必须全部入选字码。
(3)四字根字,首字根为M、Y、S、
![]()
的≥3笔的非O码字根时,字码不用G
1G
2G
3G
4,而用G
1G
2G
4
1(或G
1G
3G
4
1)。
初学者忘记附则时,可用容错码找出该字。
8000汉字编码初稿中单字根字编码是这样规定的:
单笔画字,三个:
O→LOOO,一→IOOI
乙→IOOE。
M
1是读音,M
2是空位码,M
3是识别码,M
4是笔型码。(M表示码位)。
O码字根字:GOO
![]()
是它的原本的字形识别码;
非O码字根字:GO
![]()
b
3 b
3是它的第三笔画的笔型码,若字根笔画数≤3,则用“O”代替。
高频字可采用以一码表示的一级简码,以二码表示的二级简码。一级简码按整字读音取码。
参照字码结构,可编制词码,单字读音声母相当于字根码,首字根相当于识别码。这种词码比较好记,反应快。
功能码“O”出现在不同的码位上有不同的功能。在M
1时作为查询码。查询时,字码中不再用识别码,不确定的字根码可用空位码O代替。正码的M
4为O时,规定应省去,如森→MMM,而
![]()
MMMO。这样“O”在M
4可以用作“去重码”。功能码“O”共有①查询②空位③识别④去重⑤反向识别等五种功能。
本编码由于其按音取码的结构可提供一种新的读码、记码方式。如照字分解为“日、刀、口、灬”四个字根,可得编码为“RDKH”,这样有二种读码方式:①按字母读音读码,②按字根读音读码。设计者推荐采用第二种方式。这时,读码为:“Ri、Dao、Kou、Hou-Zhao”。通过字根的读音,把单字的字形结构与代码紧密地联系起来,这有利于默打。如此还为我们学习、记忆汉字字形提供了一种新的方法一一拼读法。自古以来,记忆汉字字形只有靠看和写二种方法(读是记字音),现在多了一种象拼读英文生字一样的拼读汉字字形的方法。
从上面的介绍可以看出本编码的优越性与独创性。它灵活地应用了文字传统,又注入了数学的逻辑性。它易学好记,反应快,适宜于专职人员的视作(看打),又适宜于非专职人员的默打(想打)。它实现了部分的反向识别,将来有可能演变成文字码。
作为实施例8000正体汉字的编码初稿选用正体字根约160个,连同变体、变形字根共260个,详见附表“字根表”。表中“氵”、 “冫”读成流、冻,是形转意法,“攵”、“阝”读成扑、阜,是古音,“宀”、“辶”读成宝、之,是习惯音,“匚”、“卩”读成方、资,是注意符号音;“丂”、“
![]()
”读成巧、各,是仿形声法,“
![]()
”、“
![]()
”读成黑、母,是仿音省法,“
![]()
”、“
![]()
”读成喷、撇、是仿反切法,“
![]()
”、“”读成里、厶、是形似法。只一个字根“才”尚未找到合适的文字学依据。
笔型代码,“撇”用声母“p”,其余“横、竖、点(奈)、折”,用元音“I、U、A、E”。此时I可读成“一”或“提”,也可读“横”。
首字母为A、E、U、Y的韵母即用A、E、U、Y(即
![]()
)作代码,首字母为I的韵母用它的韵腹字母作代码,如:言(ian)为A,也(ie)为E。
编码初稿在一级字集3755字中,有1839字实现反向识别,占49%。这包括①全部单字根字,②全部双字根字,③三字根字中,扫描识别了2~3个字根的字。一级字集,重码39字,增加二级字集,增加重码150字,增加二级外字集(1058字),增加重码72字,略低于王码。
下附“字根表”。
字根表 (8页)
![]()
字根表(续) (9页)