汉字规范五笔字型码 本发明涉及一种汉字笔形编码方案。
本发明可用于计算机汉字输入和辞书查检汉字。
目前提出的各种汉字形码编码方案,或多或少都得考虑汉字的笔形信息。事实上,任何一个汉字毫无例外均可拆分为一组有序的笔画序列,笔画按运笔方向则可归纳为五种基本笔形:横、竖(包括竖左钩)、撇、掭、折,可以1、2、3、4、5加以编号;它们构成了汉字形码信息的基本单元。不同汉字间的一个主要区别即在于构成汉字的笔画序列,或笔形序列的区别上。但如果按汉字的笔形序列一笔一画的在计算机上输入,则既费时又烦琐。因此各种形码编码方案均提出了各具特色的解决方法,但实质均是对汉字的笔形序列进行分段拆分,每一段成一组,并作为一个字元。不同编码方案的区别仅在于字元的选取上。但迄今为止提出的各种形码方案,其字元的选取,或者说对汉字笔形序列的分段拆分方法,大多缺乏严格地规则,没有规律可循,因此不仅需要使用者硬性记忆,而且也仅能适用于某一特定汉字字符集,扩充性差。较为有规律的有王永民的五笔字型和陈爱文的表形码。五笔字型的字元编码直接和字元的首两笔笔形联系,抓住了汉字结构的基本信息,是一个相当成功的编码方案;缺点是:字元为一百多个,且均需记忆,字元的选取仍缺乏严格规则;而其最大的缺点是;相当一部分字元不属于汉字的部首;显得不规范。表形码的字元分类依据笔形组合的空间特征,其方案极具特色,但也显得相当生硬;汉字和英文毕竟是完全不同的两种文字,汉字成千上万、形状变化多端,和26个英文字母类比,不可避免地会有例外;而这种编码方案的最大缺点是重码多,最后不得不借助手汉字的声音信息,因此不能认为是一种严格意义上的形码编码方案。
本发明的目的在于提出一种能对构成汉字的笔画序列进行分段拆分的严格、统一、规范的编码方案。此方案通过对汉字笔形序列,接一定规则进行分段拆分,每一段成一组,并作为一个字元;每一字元均以首两笔的笔形编号加以标记,从而可将所有字元分为25类。字元数目不加限制,并且无须记忆。其最大优点是:可对任意大小的汉字字符集进行编码,适合于所有会写汉字的使用者。
本发明的目的可以通过下述五条编码规则来达到。
一、对汉字笔画序列进行分段拆分、产生字元时依照下述4点进行:
1、字型结构的间隙处应加以分段,例如:“昌”为上下结构字型,“日”和“日”之间应加以划分,“仍”为左右结构字型,“亻”和“乃”之间应加以划分;
2、选取27个高频部首为主要字元,它们是:钅、木、氵、火、土、日、月、艹、竹、亻、宀、虫、犭、疒、足、扌、衤、讠、纟、口、女、阝、山、石、辶、王、忄;“小”,“人”,“了”三字作为字元,但不作为主要字元;
3、将汉字笔画依其相邻间的关系分为六种笔型结构,它们是:
相离:即笔画间有空隙,例如“奚”字中的“爪”字头;
相连:即笔画间没有空隙,但又不相互交叉重迭,例如“奚”字中的“幺”字;
相交:即笔画相互交叉重迭,例如“承”字中的竖笔和三横构成的部件;
成框:至少一个笔画为折笔的相连笔画组合,其特征是不形成封团区域,仅和折笔相交的笔画亦归入其中;例如“巨”字中的“匚”,“丙”字中的“冂”,“骨”字中的“冂”和“冖”,“聿”中的“彐”,部首“勹”,“巾”字等;
成圈:至少一个笔画为折笔的笔画组合,其特征是笔画本身构成形如矩形形状的封闭区域的边界,和边界相交的笔画亦归入其中,例如:“目”字中的“口”,“由”字,“曲”字等;
同类:连续书写的相同笔画,例如“匆”中的两撇;
规定汉字笔画不论属于何种笔型结构,凡连续笔画构成主要字元和“小”、“人”、“了”字时均应拆出,如“大”字拆为“一人”,“里”字拆为“日土”;
此外规定:
(1)相离的连续笔画应自成一组,作为一个字元;
(2)凡相连、相交笔画序列中如具有成框、成圈、同类的笔型结构,其相应笔画均应拆出,自成一组,单独作为一个字元,例如“骨”拆为“冂冖月”,“匆”字拆为“勹”;
4、几种特殊情况的处理:
(1)多横和一竖或一撇相交构成的部件中的相同横笔不拆,例如“丰”和“”;
(2)下挡位置的横笔不单独拆出,例如“隹”字应拆成“亻亠”;“丶”下的横笔和“”下的横笔不单独拆出,并和上一笔画一齐构成字元;
(3)相离的对称笔画组合不拆,例如“祭”字中的“”;
(4)“雨”、“贝”、“戊”不拆;
二、对任一字元,除少数一些特殊字元外均以首两笔的笔型进行编码,五种笔型以“1”、“2”、“3”、“4”、“5”加以编号,据此将字元分为5×5=25类,每一类均和一两位编号对应,字元的首两笔的笔型编号分别构成该字元编码的第一位和第二位编号;特殊字元包括:
(1)16个主要字元和3个高频字元,其编码规定如表一所示;
(2)主要字元“口”字编码规定为:编码的第一编号取“1”,其第二编号则为:处于左右位置关系时取“1”,处于包围位置关系时取“5”其余情况依交、连、离及先上后下、先右后左的顺序取和相邻笔画的笔型相同的编号;例如:“合”、“台”、“哭”、“句”中的“口”的编码分别为“11”、“14”、“11”、“15”;
(3)横、竖、撇、掭、折五种单笔画字元:
规定其编码的第二位编号,除交叉横笔外,依次按和相邻笔画间的关系,即相交、相连,相离及上、下、右、左的优先顺序取相邻笔画的笔型编号,交叉横笔的编码一律取“14”;例如:“太”中的“丶”编码为“43”,而“犬”中的“丶”则为“41”,“子”中“一”取“14”,这样五种单笔画亦被划分为5×5=25类;
表一 11 12 13 14 王 15 火 21 木 22 艹 23 虫 24 日 25 31 32 33 月 34 钅 35 41 宀 42 土 43 亻人 44 十 45 疒 51 女 52 53 山 54 衤讠 55
三、根据汉字的字型结构将汉字划分为五大类,即:在通常的独体结构、左右结构、上下结构、包围结构四类基础上再增加一类、第五类,它是由以主要字元“艹”、“竹”、“宀”作部首的上下结构汉字,以“辶”、“疒”作部首的包围结构汉字,以27个主要字元中其余字元作部首的左右结构汉字从其所在结构类中划分出来组合构成的;并相应标记为“1”、“2”、“3”、“4”、“5”;如“大”、“贮”、“类”、“同”、“咐”分别属于“1”、“2”、“3”、“4”、“5”类;
四、对汉字最多取四个字元进行编码,规定对第2、3、4类汉字所含左右结构中的任一部分最多只取首尾两个字元,例如:“幔”取“巾日又”、“戆”取“亠十丿心”、“厨”取“厂一丶”等;对第4类汉字的包围部分(不是被包围部分)亦最多只取首尾两个字元,例如:“启”取“丶丿口”;其余情况均按顺序依次取字元,多于四码时按前三码末一码处理;
五、不足四码时,均需添加一个识别码,其方法为:
(1)一个字元的情况:字元笔画不足两笔不加,超过两笔继续取后续笔画,仅有一笔则连续取两次构成识别码;
(2)二个字元和三个字元的情况:其识别码用末字元的尾笔画的笔型编号作识别码的第一编号、该汉字的字型结构类编号为第二编号;这样识别码亦具有5×5=25种,例如:“讣”字末字元为“卜”其尾笔画为“丶”,部首为“讠”属主要字元,字型结构编号为“5”,故识别码为“45”;
表二列出100个例字(从6768个汉字中每隔60个取一个)。
表一上述编码方案中,25类字元和键盘键位的具体对应关系如说明书附图所示,所用键盘采用一种按键可左右移动的键盘(专利号:96208530.8),并将键位按排成方形区域,25类字元和键位的对应关系极为直观、亦可采用五笔字型的键位对应关系。
图1是25类字元、27个主字元及三个高频字元和键位的对应关系示意图。
本发明提出的编码方案,应用于国标“GB2312-80信息交换用汉字编码字符(基本集)”规定的6763个汉字,重码汉字为500多个。
本发明提出的编码方案和现有形码编码方案相比具有如下优点:
(1)字元拆分方法严谨、规范、简洁、通用;
(2)编码字元数目不加限制,且无需记忆,可对任意大小汉字字符集进行编码;
(3)纯形码,且不涉及复杂的汉字结构信息,会写汉字即会使用,适用范围广。