本发明属于汉字信息处理。它可用于字典查字、电子计算机汉字输入、电子计算机中文信息处理系统、汉字排版系统、中外文翻译机、电脑打字机、电传、电报、通讯系统、标记、速记、教学等;可根据物质或书刊的中文名称对其编码,可用于仓库和图书馆。 目前,汉字编码方法数以百计,有的只能用于字典查字,有的只能用于计算机汉字输入,也有的可用于两者,但效果不佳。
用于字典查字使用最多的是四角号码查字法,其缺点是:规则复杂,歧义性大,重码字太多且重码组太长(重码组长度在30个字以上的组有几十组),即使使用“附号”也几乎每个码都有重码字,查字很不方便。
用于计算机汉字输入的方法有形码、音码、音形码三大类,他们各有优缺点。形码的优点是不需要懂拼音,见字识码,特别适用于看打,但在想打和听打方面要相差一筹;音码的优点是编码方法简单,适用于想打和听打,缺点是重码太多,对于不会发音的字无法输入;音形码的优点是编码方法简单,重码相对较少,并且不需要发音很准,一般只需要识别声母,缺点是编码时遇到的“拦路虎”较多,即它需要人们既知道形又知道音,在看打方面比形码差一筹,在听打、想打方面比音码差一筹,并且音形码有的以音为主,有的以形为主,不能适应不同的用户。目前人们对这三类编码的研究大都是弧立进行的,虽然在一些系统中同时有音码和形码,但它们之间没有任何联系,音码和形码截然分开。另一方面人们正在努力研究一种既适合专业人员又适合非专业人员的具体的编码方案,这是一件非常困难的事,本发明从另一个角度解决了这一问题。
本发明的目的是,一、在一个总体构思下,设计一种灵活、简单的汉字编码方法,以适应各个不同的应用领域和目地。二、为计算机汉字输入者提供一种系列汉字输入方法,以适应不同的使用对象和目的。三、为字典的使用者提供一种简单、快捷的查字方法。
本发明的内容是:
一、将笔画与其他笔画的关系归纳为五类
在以往的编码方法中人们只注意到笔画本身,将笔画本身分为五种或六种或十种等等,本发明人注意到笔画与其他笔画之间存在着某种位置关系,这是笔画的另一种属性。本发明人将其归纳为五类,使得其简明扼要,判断准确。这五类为:1.离散;2.连一;3.交一;4.连二、交二;5.连多、交多。对此,笔画与其他笔画的关系所属的类别号为笔画的关系码。以下对这五类作进一步的说明。
1.离散:笔画与其他笔画不接触,如“码”的最末一笔、“汉”和“法”的前三笔、“编”的第三笔,这些笔画的关系码为1。
2.连一:笔画只与其他一笔相连,如“法”的最末一笔、“五”和“编”的第一笔,这些笔画的关系码为2。
3.交一:笔画只与其他一笔相交(如果笔画与其他笔画还存在连的关系,则忽略连的关系,即能交不连,以下相同),如“汉”和“字”的最末一笔、“五”的第二笔和第三笔,这些笔画的关系码为3。
4.连二、交二:笔画与其他两笔相连或相交(遵守能交不连的原则),如:“五”的最末一笔、“编”的侧数第三笔,这些笔画的关系码为4。
5.连多、交多:笔画与其他三笔或三笔以上相连或相交(遵守能交不连的原则),如:“田”和“丰”的最末一笔、这些笔画的关系码为5。
关系分类表如表1
二、将笔画本身归纳为五类
这里的归类依据主要是笔画在书写时的运笔方向,同时参考《辞海》和《现代汉语词典》约定成俗的规定。如表2,这五类为:1.横;2.竖;3.撇;4.捺;5.折。对此,笔画所属的类别号为笔画的笔形码。如“五五码汉字编码法”这8个字的首二笔的笔形码分别为“12 12 13 44 44 55 13 44”。
三、汉字偏旁的确定方法。定义一个偏旁集、一个编码偏旁集并对其中的偏旁编码。将这两个集作为确定汉字偏旁的依据,其确定原则是取大优先,最小的偏旁是笔画偏旁即汉字的首二笔或紧接上一个偏旁之后的二笔(不够二笔不能作为偏旁),偏旁应小于汉字。例如,定义这两个集分别如表3、表4,则“编”字第一偏旁为“纟”、第二偏旁为“户”、第三偏旁为“冂”、第四偏旁为“艹”,以下偏旁没有,其中第三偏旁是笔画偏旁;又如“踝”字,根据取大优先的原则其第一偏旁是“足”而不是“口”、第二偏旁是“日”、第三偏旁是“木”;又如“帙”字,第一偏旁是“巾”、第二偏旁是接下来的两笔撇(丿)横(一)、第三偏旁是“大”;再如“立”字,第一偏旁是笔画偏旁即“立”字的首二笔点(丶)横(一),而不是“立”字本身,因为偏旁应小于汉字,第二偏旁也是笔画偏旁即第一偏旁接下来的两笔,也就是“立”字的第三、四笔点(丶)撇(丿),接下来的笔画只有一笔,不够两笔,所以第三偏旁没有,以下偏旁也没有。(如果部首集和编码部首集都为空,则第一偏旁为汉字的首二笔、第二偏旁为接下来的二笔以此类推)
四.汉字末旁的确定方法:定义一个编码末旁集并对其中的末旁编码,该集作为确定汉字末部是否为编码末旁的依据,其确定原则是取大优先。例如,定义的编码末旁集如表5,则“踝”字的末部是编码末旁“木”;又如“帙”字,根据取大优先的原则其末部是编码末旁“大”而不是“人”;“编”字的末部不是编码末旁
五.定义编码偏旁的码值为其编码,其他偏旁的码值为其首二笔的笔形码。如“纟户冂艹”这四个偏旁的码值分别为“55 45 25 23”,最后一个偏旁“艹”为编码偏旁,其编码为“23”。
六.设用于汉字编码的码项有声码、韵码、声调码、首码、次码、季码、第四码、第五码、……、第n码、末码。各码项的码值为:
声码:汉字拼音的声母或第一个字母。零声母音节的汉字声码为其拼音的第一个字母,如“五五码汉字编码法”这8个字的声码分别为“uumhzbmf”;又如“阳光初照原野”这6个字的声码分别为“i g ch zh ü i”。
韵码:汉字拼音切去声码后,所余部分。对于单字母音节(如a、o、e、i、u、ü),韵码等于该字母(a、o、e、i、u、ü)。例如“五五码汉字编码法”这8个字的韵码分别为“u u a an i ian a a”;又如“阳光初照原野”这6个字的韵码分别为“ang uang u ao an e”。
声调码:汉字拼音的声调所对应的阿拉伯数字(1、2、3、4),“编”和“稼”的声调分别为第一声和第四声,声调分别为“1”和“4”。
首码、次码、季码、第四码、第五码、……、第n码,依次为汉字的第一偏旁码、第二偏旁码、第三偏旁码、第四偏旁码、第五偏旁码、……、第n偏旁码。如“编”的首、次、季、第四码分别为“55 45 25 23”
末码:末笔笔形码和关系码,或编码末旁码(如果汉字的末部为编码末旁)例如“五五码汉字编码法”这8个字的末码分别为“14 14 11 55 13 23 11 42”,其中“汉”字的末部是编码末旁“又”
七.单字、词语的编码规则
a.单字编码规则:选择所需要的码项对汉字编码。例如:选择不同的码项对“编”字进行编码,可产生不同的码值。选择声码项和韵码项其声韵码的码值为“b ian”;选择首码项和末码项其首末码的码值为“55 23”;选择声码项、首码末码项其声首末码的码值为“b 55 23”;选择首码项、次码项、末码项其首次末码的码值为“55 45 23”;选择首码项、次码项、季码项、末码项其首次季末码的码值为“55 45 25 23”等等。
b.词语编码规则
双字词语:编码为首字的首末码+末字的首末码
三字词语:编码为三字的首码+末字的末码
四字词语:编码为四字的首码依次相拼
四字以上词语:前三字的首码+末字的首码
八.键盘设计
采用标准键盘,第三排左手所管辖的五个字母键为a开头的五个开口呼韵母,右手所管辖的四个字母键为e开头的四个开口呼韵母,介母与这九个开口呼韵母组成的复韵母基本上安排在上一排(第二排)对应的键上,第四排最左边的三个字母键为o开头的韵母。
将键盘分为五个区,第二区有6位,其他区各有五位。将各键的区位号标在其键上。
如表6,每个键的第一行称为声码行,第二、第三行称为韵码行,第四行称为区位行。
九.计算机汉字输入简码体系设计
a.一级空格简码为:汉字编码的第一码+空格键。
b.一级数字简码为:汉字编码的第一码+第二码所对应的数字键,如“qwertyuiop”分别对应数字“1234567890”;“asdfghjkl”分别对应数字“123456789”;“zxcvbnm”分别对应数字“1234567”。
c.二级空格简码为:汉字编码的第一码+第二码+空格键。
d.二级数字简码为:汉字编码的第一码+第二码+第三码所对应的数字键。
e.三级空格简码为:汉字编码的第一码+第二码+第三码+空格键。
f.三级数字简码为:汉字编码的第一码+第二码+第三码+第四码所对应的数字键。
以此类推。
十、计算机汉字输入方法(以本发明键盘为输入设备)
a.各码项的输入方法
1.声码:根据键盘声码行判断,声码是哪一个字母或在哪一个键上就按哪一个键。例如,“编码”两字的声码是“bm”,则分别按“B”键和“M”键就可以输入这两个字的声码,又如“照”和“原”两字的声码分别为“zh”和“ü”它们分别在“W”键上和“V”键上,则分别按“W”键和“V”键就可以输入这两个字的声码。
2.韵码:根据键盘的码行判断,韵码在哪一个键上就按哪一个键。韵码行并不包括所有的韵码,如果韵码在韵码行找不到(这种情况韵码必定为单个字母),则韵码是哪个字母就按哪个键。例如,“编码”两字的韵码是“ian a”,它们分别在“V”键和“A”键上,则分别按“V”键和“A”键就可以输入这两个字的韵码;又如,“儿”和“晕”两字的韵码是“r”和“n”,在韵码行找不到它们,则分别按“R”键和“N”键就可以输入这两个字的韵码。韵码行有两个“u”,一个在“P”键上,一个在“N”键上,“P”键上的“u”只用于“ou”音节。
3.声调码:声调码是哪一个数字就按哪一个键。例如,“编”和“稼”的声调码分别为“1”和“4”,则分别按数字键“1”键和“4”键,就可输入这两个字的声调码。
4.首码、次码、季码、第四码、……、第n码、末码:根据键盘的区位行判断,这些码在哪一个键上就按哪一个键。例如,“编”字的首次末码“55 45 23”这三个码分别在“B”键、“P”键、“K”键上,只要分别按这三个键就可输入“编”字的这三个码。
b.汉字、词语的输入方法
根据汉字或词语编码的码项,按上述方法依次输入各码项的码值。
例如,选用“声韵首末”对汉字“编”编码,其码值为“b ian 55 23”,则第一码按“B”键;第二码按“ian”所在的键“V”键;第三码按“B”键;第四码按“K”健这样“编”字便输入计算机。
“编”字的一级空格简码为:“b”+空格;一级数字简码为:“b”+“4”;二级空格简码为:“b”+“v”+空格;二级数字简码为:“b”+“v”+“5”;以此类推。
本发明的优点是:编码方法简单、灵活、自然,可较好地适应各个不同的领域和目的。例如实例1和实例2就是为不同的应用领域所设计的。在实例1中为电脑汉字输入者设计了一系列的输入方法,以适应不同的用户和目的。该实例在专业、非专业、想打、看打、音码、形码之间架起了一座四通八达的桥梁。又如实例2所述的编码方法最适应目前的《新华字典》和《现代汉语词典》查字,但如果汉字字符集为四五万汉字或全汉字,则只需要增加一个或两个编码项就可以达到减少重码字的目的(如汉字的编码为首次季末码)。
实例1
定义一个偏旁集,如表3;定义一个编码偏旁集并对其偏旁编码,如表4;定义一个编码末旁集并对其末旁编码,如表5。选择所需要的码项对汉字或词语编码。该方案适应计算机汉字输入。
具体的实施方式如下:
1.对GB2312-80中6763个汉字的声码、韵码、声调码、首码、次码、季码、末码七个码项取值,每个码项都得有值,不得为空。对于没有音节的汉字字符(如:纟扌彐等)定义其声码、韵码、声调码分别为e、p、4。对于没有第二偏旁的汉字字符定义其次码为“14”,对于没有第三偏旁的汉字字符其季码取第一偏旁的末笔笔形码和关系码,定义横、竖、撇、捺、折五个单笔画的首码分别为11、21、31、41、51,其余的码项用“14”补上。这个码本称为数字码本。
2.根据前述各码项的输入方法,将1中所得到的码本的各码项变换成对应的英文字母,得到一本字母码码本。
3.将2所得到的字母码本作为计算机汉字输入对照码表,根据该对照表软件人员可以设计如下的汉字输入方法,供用户选择。
双拼带调、双拼双音、声韵首、声韵首末、声首末、声首次末、首末、首次末、首次季末等。
在这一系列输入方法中,音码(声韵带调、声韵双拼)适应想打和听打;形码(首次末、首次季末)适应看打。声韵双拼和首末码最适应非专业人员;码长为四的输入方法(声首次末、首次季末、声韵首次)适应专业人员;码长为三的输入方法既适应专业人员又适应非专业人员。从音码过度到形码可采取这样的途径:声韵首->声首末->首次末;从形码过度到音码可采取这样的途径:声首末->声韵双拼。
在实际的编码过程中并不是每次都要确定偏旁,例如,选择首末码输入方法,取首码时只要判断汉字第一偏旁是否编码偏旁,如果是则首码为第一偏旁码,否则首码为汉字的首二笔笔形码,就不需要再确定第一偏旁了。又如选择首次末输入方法,当取次码时只要第二偏旁是否为编码偏旁,如果不是则次码为第一偏旁之后的二笔笔形码。
表7是几种编码的统计结果:(以GB2312-80中6763个汉字字符为对象)
实例2
定义一个偏旁集,如表8,定义一个编码偏旁集并对其偏旁编码,如表9;定义一个元素和编码都与编码偏旁集一样的编码末旁集,如表9。将编码偏旁集和编码末旁集合并的优点是减少了使用者的记忆量,使使用者在对汉字末码取值时只要判断其末部是否为编码偏旁,如果是编码偏旁则末码的码值为编码偏旁的编码,否则末码的码值为末笔笔形码和关系码。汉字的编码为首次末码。如“编”字的编码为“55 45 63”、“码”字的编码为“13 55 11”。该编码方法最适应字典查字,我们知道对于字典查字最怕重码组太大(一个码对应的多个汉字),如果一重码组20个汉字,查起字来就会感到不方便。本方案经过对BG2312-80中的6763个汉字编码、统计、分析,得到最大的重码组10个汉字,且只有3个这样的重码组。利用该方案查字不仅迅速、准确,而且可象查英文单词一样查汉字,一步到位。