当今世界科学技术突飞猛进的高度发展,各国语言文字在高科技领域的广泛应用,对汉字的研究和使用提出严峻的挑战;汉字电报设备、汉字电脑、汉字电子打字机、汉字自动印刷机的研制,发展到一个崭新的阶段,要求汉字编码适应其需要;六位数码、五位数码的汉码应运而生,但有编码冗长,难以记忆、汉字输入速度较慢的缺点;于是四码汉字[总容量为一万个汉字]的编制提到了紧迫的议事日程上来。 四码汉字有通用性,可以广泛应用于汉字电报、汉字电脑、汉字电子打字、汉字印刷四个方面,是近年来海内外汉字编码研究者共同寻求的目标之一,但难度很大〔因为一万个四位数码空格要容纳七千多个汉字,且不可有重码。〕曾被喻为不可逾越的屏障。
也许有人会说:“这个问题早已解决了,汉字电报码不是每个汉字有一个四位数码与之对应吗?”,其实,发问的人不知道,汉字电报码(见《标准电码本》]编码基本上无规则可循,数码和汉字无直接联系,必须按偏旁、部首,或按汉语拼音索引来查阅汉字电报码,速度较慢;如果死记硬背,则容易记错,而且记住的字数有限。采用王永民的《五笔字型计算机汉字输入技术》;虽有速度快,易学易用的优点。但它的不足之处是不能直接应用于汉字电报,要使用25个键位;《四通2401》汉字电子打字机造价较高,不能普及到千家万户。长期以来,现代化的邮电通讯(电报)技术设备〔包括“中文电报译码机”〕与落后的汉字电报编码之间的矛盾越来越突出;现在,编码有规则可循的《汉字电报新码》的研究成功则填补了这项空白,并有希望普及和推广,应用于汉字电报、汉字电脑、汉字电子打字、汉字自动印刷四方面。〔《汉字电码》的改革,开辟出一个新的天地,并可完全取代国家标准《汉字印刷符号区位码》(即国标区位码)〕。
《汉字电报新码》也称为《四用汉字音形码》。每个汉字由音码(1个数字)和形码(3个数字)组成。
一、音码是把汉字地声母分成十大类,每类用一个数字表示:b、p-1;m、f-2;d、t-3;n、l、r-4;g、k、h-5;j、q、x-6或7;z、c、s(zh、ch、sh)-8或9;a、o、e、y、w、yu-0(音码与汉字的韵母无关。)以上的声母分类法有很大的优点:
即使汉字的韵母完全搞错,对音码也无丝毫的妨碍。声母的浊音和清音(如b和p、d和t)分辨不清,或相近似的声母(j、q、x)易混淆,以及非翘舌音和翘舌音(z、zh;c、ch;s、sh)即使搞不清,对音码的确定也无影响,有的地区方言(如南京方言)中n和l分不清也不要紧。(声母n开头,或声母l开头汉字,音码都是4)声母是j、q、x;以及声母是z、c、s(zh、ch、sh)的汉字较多,所以音码范围扩大为:(6、7),以及(8、9),共占4000个空格。[6或7;8或9如何分档见附注一]。
二、形码分为单笔划码(1个数字)和偏旁、部首、常用笔形编码(1个或2个数字)两种,单笔划码是基本形码,它是偏旁码、部首码、以及常用笔形码的编码依据。
1、单笔划分成十类,每类用1个数字表示。见下面口诀:横(一)、挑()1;竖(丨)、撇(丿)(亅)2;点(丶)、捺()3;叉(十,×)4;插(、卅)5;方框(口,囗)6;角是7(厂、乛、、)、3;八(八,丷,人,)是8;小()是9;点横(亠)0;〔其中(厂、乛、、)即左上角、右上角、右下角编码为7;()即左下角编码为3〕。
2、偏旁、部首、常用笔形,以一个或二个固定的数字表示(如图1)。每一个汉字可分为三个部分,每一个部分以第一个笔划确定数码。或按图1的偏旁、部首、常用笔形编码。具体编码法如下:
(1)、堆垒法:品(声母为p);1 666(口口口)
贺(声母为h);5 467(力口贝)
蜂(声母为f);2 525(虫夂丰)
(2)切割法:果(声母为g);5 649(田木)
重(声母为zh)9 246(丿十里)
(3)搭框架:离(声母为l)4077;(文凵冂(厶))
局(声母为j)7776;(尸口)
(4)抓主干:乘(声母为ch)9249;(丿木()(匕))
燕(声母为y)0863;(廿口灬()(匕))
(5)、避难就易:属(声母为sh)9720(尸())
邮(声母为y)0572(由阝)
3、为了避免重码,采用了多种转移码。[转移前为原码,转移后为定码],详见下面说明:
(1)、形、音转码:(用△记号表示)即形码(3个数字)在前,音码(1个数字)在后。如:堆(声母是d)3440△(土隹),即定码为4403。
(2)、音、形反向码(简称“反码”):(用记号表示)反向键与标准键数字方向相反。〔标准键数字从左到右:1-9,0(见图2)〕;〔反向键数字从右到左:1-9,0(见图3)〕如:万(声母是w)0127(一丿),即定码为1094。
(原码)
(3)、形、音反向码:(用△记号表示)如:炮(声母是p)1927△
(原码)
(火勹已),即定码为2940
(4)、类转移码:(用记号表示)〔即数字键从0开始,从左向右依次排列到9,(0,1-9),(见图4)〕如:服(声母是f)2777(月又),即定码为3888
(原码)
(5)、类反码(用记号表示)〔即数字键从右向左依次排列:0,1-9〕如:鸪(声母是g)5 423(古鸟),即定码为5687
(原码)
(6)、根据以上转移规则,还可变通为等转移码。
4、少数汉字为纯形码(用★记号表示),即编码与音无关。如:儡★(亻田田田)编码为4666;靛★(月宀)编码为5731。
5、极少数汉字(如部分罕用字)为倒码。(用←记号表示)如:钿(声母是d)3 064←(钅口十),即定码为4603
(原码)
6、极个别汉字为插0码(记号是0/;或/0)(解释暂略)
三、词汇(双字词、叁字词、肆字词、伍字词、多字词)的编码规则(四码表示一个词)[另列一方盘(共一万个空格)]
(1)、双字词:每字各取二个形码。如:天空(1431)[一大穴工]
(2)、叁字词:各取第一个、第二个字的第一个形码数字,再取第三个字的2个形码数字,构成四码。如:总书记(8507)(丷(丶)讠己)
(3)、肆字词:每个字各取形码的第一个数字,构成四码。
如:改革开放(7810)〔(攵)廿()一(艹)方(攵)〕
(4)、伍字词及多字词:先取第1个、第2个、第3个字的形码第1个数字,再取最后1个字的形码第一个数字,构成四码。
如:四个现代化(6814)〔口(儿)个王(见)(代)亻(七)〕中华人民共和国(5486)〔中亻()人(民共和)囗(玉)〕
(5)词汇在编码时也可使用音码及转移法(〕
四、本编码法应用实施办法:
将中文电脑(或中文电子打字机)内的汉字电报码,按《汉字电报新码》的汉字次序重新排列即可。
〔有传统单字字表(一万个空格内共容纳约7400个汉字)〕
〔并另外附有词表(一万个空格内共容纳大约3600个词条)〕
五、常用符号(包括标点符号)共120个,也均有规则。
〔附注〕:一、声母是j、q、x的汉字,音码为6或7;
声母是z、c、s、zh、ch、sh的汉字,音码为8或9分档规则是-按字型区分:
(1)、左右型双合1或四合1的汉字,音码为6(汉字声母是j、q、x);及音码为8(汉字声母是z、s、c、zh、ch、sh)
(2)、整体型、内外型、上下型、以及左右型三合一的汉字,音码为7(声母是j、q、x);及音码为9(声母为z、c、s、zh、ch、sh)。
例示如下:
(1)、左右型双合1:姓(声母是x)音码为6;
昨(声母是z)音码为8;
左右型四合1:随(声母是s)音码为8;
襁(声母是q)音码为6;
撤(声母是ch)音码为8;
激(声母是j)音码为6;
锲(声母是q)音码为6;
孀(声母是sh)音码为8;
(2)、整体型:且(声母是q)音码为7;世(声母是sh)音码为9
内外型:囚(声母是q)音码为7;周(声母是zh)音码为9;
上下型:舅(声母是j)音码为7;思(声母是s)音码为9;
坠(声母是zh)音码为9;嵌(声母是q)音码为7;
左右型三合一:粥(声母是zh)音码为9;
唱(声母是ch)音码为9;
勋(声母是x)音码为7;
二、左下方偏旁入左右型:如辶,廴。
左上方部首入上下型:如疒,广
三、单字(以3500个常用字为统计基数)及词条平均每字2.4键
最常用字1000个字中,转码字占10%;
常用字2500个字中,转码字占16%;
常用字3700个字中,转码字占20%;
基本汉字4660个字中,转码字占25%;