三五字码 本发明属于电脑汉字编码方法。它是对本发明人原先的一项发明三五字码的改进,但基本原理不变,因此仍称三五字码。
在2001年3月18日三五字码的专利申请中,本发明人将一分为二合体字技术使用到五三笔码中,它比五三笔码重码率低的多,同时又非常简单易学,克服了其它形码无法同时克服的两大缺陷:或规则繁杂,难学难用;或重码率过高,输速难以提高。但由于时间匆促等原因,有的地方仍有待完善,只要是:一、单体字编码规则等同五三笔码,分为1~4笔的汉字和5笔及以上的汉字两大类,记忆操作略显不便;二、有的合体字没有明显的界限,难以区分,没有给出区分单体字的简便办法;三、在以每三笔编码时若不足三笔则只能取剩下的第一笔或最末笔,约定只取最末笔,丢失了点信息,使的少数汉字没法区分重码;四、使用了五个数字键操作略显不便;五、识别码略显难学。
本发明的目的是提供一种非常简单易记,便于操作,重码率低的电脑汉字编码方法三五字码,它较好地克服了原先三五字码存在的几种缺点使得三五字码更具生命力,更便于拼音不准或不识拼音或不认识汉字的人使用,使得汉字能为一般懂得最基本的书写顺序的人迅速学会,高速输入,真正走向了国际化。
为达到改进后的三五字码的目的,作了如下重大改进:
一、规定单体字一律按书写顺序以每三笔编码,当取至最后不足四码时,优选几个单独的笔画,归类为几种笔画,用几个对应的字母或别的符号编码,最好根据相交情况编码。
二、有的汉字难分单体字和合体字,或虽知是合体字,难以区分第一部分和第二部分。为此作了两点简单规定:一、包围部分要分开书写地汉字比如“可”等字视为单体字。二、上下或包围型的汉字除非第一部分在三笔及以上,否则也视为单体字。这一规则是潜心研究、深思熟虑后的产物。因为汉字有一个特点,那就是左右型的合体字在第一部分只有一、二笔的情况下很难区分第一部分、第二部分,当第一部分在三笔及以上时很容易区分。当然也可不作规定。
四、当以每三笔编码时剩下的笔画数为二笔时,如何对二个笔画用一个符号编码是个难题。如今这个难题已得到解决,那就是先将这二笔归类为横或竖或斜,分别用三个互不相同的数字或符号比如1或2或3作代号。再考虑这二笔的位置关系,将位置关系分为相离或相连或相交三类,也分别用原先三个互不相同的数字或符号比如1或2或3作代号。再连接这二笔的笔画类型和位置关系各自的代号,这样就可与横竖斜27种排列组合的代号对应一致,再用其对应的字母或别的符号编码即可。位置关系可排在前可排在后,出于思维习惯考虑,一般规定位置关系在后。
四、原先的三五字码将横竖撇捺折分别用五个数字表示,这次改用优选的字母表示,使得汉字输入不必越位操作,更加方便。
五、由于不再使用数字键,所以识别码也要作相应的改动。此外又提供了一种识别码,它吸收了其他编码的优秀的识别码构思,将字型和笔画分开识别,使得识别码轻松易记。不少输入法都选用末笔识别,其实由于末笔为捺(包括点)和横的概率很大,而为竖、折、撇的概率较小,采用末笔识别会影响识别效果,是不甚合理的。识别码采用字型和笔画分开的方式后,完全可改用首笔画,而不会影响头脑反应。
六、为降低重码,要将一些组字部件排在键上优先编码。而在以每三笔编码时,有时会拆散组字部件,而拆散组字部件势必会影响思维定势,因此规定组字部件不拆。在以每三笔编码时若首二笔或首三笔遇到排在键上的组字部件,要优先按笔画数最多的组字部件编码;若末二笔或末一笔遇到排在键上的组字部件,则只能对首一笔或首二笔编码。将首一笔归类为几种笔画,分别用几个字母或符号表示。首二笔的编码方法与以每三笔编码剩下二笔时对二笔的编码方法相同。
下面结合优选的实施例作详细说明。
本发明在编码时对汉字笔画的认识完全科学。根据公认的观点,汉字由笔画构成,笔画为书写汉字时一次连续写成的一个线条。在只考虑笔画的运笔方向,而不计其轻重长短时,可归类为横竖撇捺折五种基本笔画,本人通过长期潜心研究发现,撇捺都由上向下倾斜,可归类为斜笔画,而折根据其没折弯钩前的运笔方向可分别并入横竖斜三类笔画中,这三类笔画本发明人称之为根本笔画,它与汉字各种具体笔画对应关系见图1所示。
在任意三个依次出现的笔画中,横竖斜的排列组合不外乎27种,可一一对应或大致一一对应地排在27个或不足27个互不相同的字母或别的符号键上,也就是说,将任意三个依次出现的笔画分别归类为横或竖或斜,横竖斜的三三组合不外乎27种,可与27个互不相同的字母或别的符号一一对应,也可将某几种横竖斜排列组合合并排在一个字母或别的符号键上,这样横竖斜27种排列组合形式就可大致一一对应排在不足27个互不相同的字母或别的符号键上,用对应的字母或别的符号编码即可。大致一一对应排列的话记忆不甚方便,一般还是一一对应为好。它在键盘上一种优选排列见图2所示。该排列方式采用分区排列,极具规律性,很容易记忆。接着编码。规则是:
(1)、对单体字按书写顺序以每三笔编码,当取至最后不足4码时,先对最末笔编码,若不足4码,再取该汉字的第一笔,若还不足4码,再取该汉字的第二笔。对于只有一、二笔的汉字取完所有的笔画即可。对单个笔画编码时,先将其归类为横或竖或撇或捺或折,当没与其它笔画相交时,编码分别为V或B或N或F或H;当只与一笔相交时,编码分别为Q或W或E或R或T;当不止与一个其它笔画相交时编码分别为Y或U或I或O或P。
为便于理解,详细解释一下单体字和合体字的含义。单体字是指笔画粘连相交浑然一体或离散对称的汉字,如“木”、“三”、“小”、“八”等字,即独体字。另外包围部分要分开书写的字如“区”、“栽”等字也被列为单体字。还约定上下或包围结构,第一部分不到三笔的汉字也算单体字。如“古”、“右”、“句”、“负”、“同”等字。之所以作出这二条规定是为了免去难以划分第一部分和第二部分之苦。合体字是指单体字以外的字。是指具有左右或上下或包围结构的字,它可以拆分。如“汉”、“字”、“选”等字。
另外解释一下横竖撇捺折的含义。将汉字笔画归类为横竖撇捺折符合国家语委的规定。横的运笔方向自左至右,竖的运笔方向自上向下,撇的运笔方向从右上向左下,捺的运笔方向从左上向右下,其余一切运笔方向带转折、拐弯的为折。特别要指出的是“提”并入横,但点提相连时提作点,“竖钩”并入竖。
编码实例:“三”的第一个三笔为横横横,对应Q,最后一笔为横没与其它笔画相交,编码为V,第一、二笔的编码也都为V,“三”的编码就为(QVVV)。“八”不足三笔,只能对首二笔编码,其首二笔为斜斜,代号为33,二笔相离,代号为1,整个代号为331,排在K键上,其首笔为撇,没与其它笔画相交,编码就为N,第二笔的编码为F,“八”的编码就为(KNF)。“支”前三笔为横竖横,而横竖横排在A上,最末笔为捺,编码为F,首笔为横,与一笔相交,编码为Q,第二笔为竖,也与一笔相交,编码为W,“支”的编码就为(AFQW)。
(2)、对合体字编码时要按书写顺序将其一分为二,分成二部分,先写的部分为第一部分,后写的部分为第二部分。一分为二的方法有二:一是据理划分,即在义部和余下的部分的交界处将其分为二个部分;二是按结构划分,即根据其整体结构将左右或上下或包围结构的合体字在最初产生间隙处将汉字一分为二。由于义部有时不在字首或字尾,而在字中,甚至在字的左上角,位置不易确定,划分也不怎么方便,因此还是按结构划分为好。当然青菜、萝卜各有所爱,或许有人喜欢据理划分。有的输入法将合体字划分为三块、四块,划分过细,产生歧义,表面上非常简单,实际上比有一二百个组字部件的输入法更难学。我不赞成将合体字一分为三、一分为四。在本输入法里只对合体字作一次划分。
接着按书写顺序对第一部分第二部分分别以每三笔编码。第一部分一般只能最多取二码,辶、心、阝作为部首在字尾,划分为第二部分时,第一部分也可允许最多取三码。相应地第二部分允许最多取三码,总共不超过四码,也就是说第一部分取一码时,第二部分可取三码;第一部分取二码时,第二部分可取二码。第一部分取三码时,第二部分只能取一码。第一部分、第二部分至少各取一码。
在对第一部分和第二部分分别按书写顺序以每三笔编码时,若取至最后不足三笔且达不到规定的最多码长,则剩下的笔画的编码规则与单体字相同,当然对单个笔画编码时不必象单体字那样回头取第一笔第二笔加以识别,因为合体字编码时码长往往较长,且可附加识别码;若超过规定的最多码长,则可舍弃余下的笔画,也可改取末三笔,由于舍弃余下的笔画会丢失一定的信息,因此在编码实例中改取末三笔。
需要指出的是对单个笔画时也可归类为别的几种笔画,比如将折进一步分为弯、拐或分为单折、复折。也可不考虑与其它笔画的相交情况,只是会增加点重码。这些都是该领域普通专业人员的变形,不影响本发明的实质。在按结构划分时最好酌情考虑一下按理划分,这样划分会更容易一些。
编码实例:“需”的第一部分为“雨”,按最多取二码的原则,以每三笔编码,第一个三笔为横斜横,对应Z,超过二码要改取末三笔,其末三笔为横横横对应Q。第二部分为“而”,其首三笔为横斜竖,对应X,末三笔为横竖竖,对应S。“需”的编码就为(ZQXS)。
有的部首惯常出现在字首,组字频率高,笔画数又在四笔及以上,如果规定第一部分可取二码的话,一个部首就会去占二码,这会造成大量重码。解决的办法有二个:一是规定第一部分一律取一码,可由于部首往往出现在字首,下辖不少“部件”,部首数量又较多(新华字典有189个)。如果只取一码,不少部首编码就会相同,这又会带来重码。因此规定第一部分只取一码不是好办法。顺便指出,有的输入法刻意只取十个甚至不到十个部首,表面上十分简单,实际上会造成有的部首同码,带来重码,不利于输入。解决的另一个办法是将这些数量较少、组字频率较高的部首排在键上只取一码,其余的仍以每三笔编码。这样既能做到重码少,又能做到十分简单。这是三五字码在各种形码中唯一能真正做到重码少,又十分简单的关键所在。
有的惯常出现在字尾的组字频率较高的组字部件并非偏旁部首,笔画数也不多,可仅仅依靠对笔画编码难以区分编码。因此也有必要将其排在键上,只取一码,以扩大编码空间,降低重码。在此顺便解释一下组字部件的含义:组字部件由笔画结合产生,组合后可形成汉字,它是由若干笔画构成的具有相对稳定性的结构。其称呼不一,比如称字根、码元,字元、字素等等。我认为国家语委规定称部件是较为合理的。
有的组字部件之间互为繁简、互相同源,这样的组字部件完全可视同种组字部件。出于便于记忆操作考虑,还可将某些音或形或义相近主要为形体直观相似、便于联想的组字部件归类也为同种组字部件。当然出于降低重码的考虑,某些形体直观相似的组字部件也得区别编码。
本发明人综合比较、反复优选后的调整方案见图3所示。下面作具体解说:
(1)含犬,钅含金,讠含言,火含灬,已含巳、尸、,忄含心、,扌含,氵含水、又含夂,王含主,亻含人,木含阝含耳卩,纟含。被含的同类组字部件与基本组字部件或互相同源或互为繁简或形体直相似,可视为“小兄弟”,就象英文字母具有大、小、手写体一样。
(2)为便于记忆,将各种组字部件尽量按笔画或拼音或象形等方式排在键上,当然个别有点联想、无理。本人曾一律按笔画将组字部件排列,但不能有效降低重码。也考虑过一律按拼音或象形排列,也不能有效降低重码。为了降低重码个别组字部件不得不联想、无理排列。钅、竹、疒按末三笔排列,口形似O,阝形似B,扌形似F,王形似Z,女形似两个X拼合而成,亻草写后形似C,木的末三笔倒立后形似V,将这几个部件按象形排列,按拼音首字母排列,讠的拼音首字母的读音与E的英文读音相同,足按韵母U排列,A的英文读音为爱,忄为心字旁,联想为爱心。其余基本无理。
(3)精心设计的组字部件只有20余个,与某种西文字母数相近,在实施例中与英文字母数相近,这时就能做到全码重码率很低。当然,组字部件可多可少,可为0个或10个或20个或30个或40个或50个或60个或70个或80个或90个或100个,一般不宜超过100~200个,否则横竖斜27种排列组合几乎会变得无意义。
(4)在按书写顺序对单体字或合体字的第一部分或第二部分以每三笔编码时,若遇到排在键上的组字部件,要优先按笔画数最多的组字部件编码,再对其后的笔画编码;若末二笔或末一笔遇到排在键上的组字部件,则改取前一笔或前二笔编码。若对末三笔编码时,末三笔为笔画数较多的组字部件的末三笔时,要按该组字部件编码。若末三笔的前一笔或前二笔为排在键上的组字部件,仍可按末三笔编码,在编码实例中就是如此,当然也可改取末一笔或末二笔。
编码实例:“浙”的第一部分为“氵”,编码为“H”,第二部分以每三笔编码时,首先遇到“扌”,编码为“F”,接下来的三笔为斜斜横,编码为“K”,再以每三笔编码时,遇到竖,没有相交,竖的编码为“B”,“浙”的编码就为“HFKB”。
汉字是一种平面文字,笔画从左到右,从上到下同时展开。同样的笔画顺序,同样的组字部件,组字部件排列的位置不同,即字型不同,构成的汉字就不同。如“只”和“叭”等字。如果不区分字型,就回造成重码,因此有必要加以区分,本发明提供了二种识别码,识别码只适用于合体字,单体字不必加识别码。将合体字按总体排列情况分为左右、上下、包围三类字型(三种结构),分别用不参与单字编码的三个别的符号键如“,”、“。”、“/”键表示。
第一种识别码由字型和首笔笔画构成。码长不足四码的合体字一律补上识别码,若仍不足为四码的补上空格键结尾。为易学起见,约定字型在先,左右型的汉字首笔为横或竖或撇或捺或折的编码分别为V或B或N或F或H;上下型的汉字首笔为横或竖或撇或捺或折的编码分别为Q或W或E或R或T;包围型的汉字首笔为横或竖或撇或捺或折的编码分别为Y或U或I或O或P。第二种识别码字型与首笔笔画分开,只有二码的合体字要先补上字型,再补上首笔笔画,首笔笔画为横或竖或撇或捺或折的编码分别为V或B或N或F或H。只有三码的合体字只要补上字型即可。字型为左右、上下、包围时,分别为“,”、“。”、“/”。当然也可将首笔改为末笔。
编码实例:一种电脑汉字编码方法三五字码 V JLOU UPBT YFHG HH,F KZ.F NFISTA,V MHFV HPL,QVVV AGGW KZ.F TA,V
例如“种”的第一部分为“禾”,前三笔为斜横竖,编码为J,末二笔分别为斜斜,代号33,二笔相连,代号2,332对应L,第二部分为“中”,前三笔遇到口,编码为O,最后一笔为竖,与二笔相交为U,“种”的编码就为JLOU。“电”为单体字,以每三笔编码时遇到“日”,编码为U,最末笔折与二笔相交,编码为P,首一笔首二笔编码为BT,“电”的编码为“UPBT”。“脑”第一部分为“月”,编码为Y,第二部分最多可取三码,在以每三笔编码时遇到排在键上的组字部件,为不拆散组字部件,按规定取第一笔“点”,编码为F,接下来的部件编码为H,末二笔竖竖相连代号为222,对应G,脑的编码就为YFHG。“法”第一部分为“H”,第二部分为PL,左右字型编码为“,”,法的编码就为“HPL,”。
为提高输速,还设置了一、二、三级简码和词组编码。简码只取全码的最前面一、二、三码,再补上结尾键空格键即可输入。词组依形编码,字码词码的最多码长一致,均为四码。单字和词语可以混合输入,不必换档或其它附加输入。取码方法为:两字词:每字只取全码的前两码,共四码;三字词:前两字个取一码,最后一字取二码,共四码;四字及以上词:取第一、二、三及末一个汉字的第一码,共四码。词组输入具有击键次数少,头脑不易疲劳程度的优点,是提高输入速度的关键。因此系统提供的常用词组数量应当较多,一般要在一万条以上。为便于不认识汉字的人输入,系统还应当提供词组联想功能,即每输入一个汉字,立即联想出最有可能的词组而不是单字供挑选。另外系统还要提供造词功能,以便输入系统没提供,但用户常用的词语。
“\”为万能查询键,它可以替代任何一位编码,通过提示行查询。三五字码全码重码率极低,简码后重码率几乎为0。没有重码会自动显示在光标处,出现重码时通过提示行选择。
不难看出,三五字码具有极为简单、客观、全码重码率非常低的突出优点。一般人只要懂得最基本的书写顺序,10~20分钟即可学成。其键盘排列也适用于五三笔码,能够做到高速盲打输入。尤其适合不懂得拼音,不认识汉字的人使用,是一种能为国际通用的汉字输入方法。
附图说明
图1、汉字各种笔画与横竖斜三类根本笔画的对应关系图。
图2、横竖斜27种排列组合在键盘上的一种优选排列图。
图3、优化三五字码键盘排列图。所有图中1、2、3均分别为横、竖、斜的代号。