我国汉字已有几千年的历史,对我国科学技术文化和社会的发展作出了伟大的贡献。但是,随着科学技术和经济的发展,以表形为主要特征的汉字,由于形体复杂,字数众多,在初学和使用中都有一定的困难。在世界进入计算机信息时代以来,汉字的生存遇到严重的挑战。经过多年来我国科技人员的奋斗攻关,使汉字输入电脑的速度超过了西方,在中文信息处理技术上也取得了很大的进展。 目前正式推出的汉字键盘输入方法已数以百计。从实用的角度来看,绝大部分汉字难以解决的主要矛盾为:“容易学的打不快,打得快的太难学。”“容易学的打不快”的汉字输入法主要有拼音码和笔形码,其打不快的主要原因是重码率高,码长太长。“打得快的太难学”的输入法主要有以字根拼形组字为基础的几种较先进地汉字形码输入法,难学的主要原因是字根排列规律性差,取码规则多,记忆负担重,所以很难学。目前,国内外汉字编码的方法虽然很多,但还不完美,拿不出中外都可以接受的最佳方案。
我们在研究已有的汉字键盘输入方法的基础上,以既容易学又打得快为目标,研究汉字键盘输入的新方法。
我们依据汉字是象形二维拼形组字和形音分离的特点,从汉字中提取二维拼形信息和语音信息,形成五笔二维编码系统。
汉字的五种基础笔画是在汉字的多笔和六笔演化而来的。它首先在1937年出版的《辞海》第一版上采用,此后,又为《新华字典》、《现代汉语词典》等数十部字典、词典所使用,已有五十多年的历史。又经过科学的论证,按照它的使用频度,以横、竖、撇、捺(点)、折的顺序排列,并为国家标准所认定,成为使用汉字必须遵守的规范和标准。对此,汉字的键盘输入法也不能例外。
根据国家标准GB 2313-80,选取横、竖、撇、捺(点)、折作为五种基本笔画。其中横包括短横(一)、长横(一)、横提();竖包括短竖(丨),长竖(丨);撇包括短撇(丿)、长撇(丿);捺()包括点(丶);折(乙)包括(),如图3所示。
“五笔二维编码法”使用一种按照字根首笔为纵标(简称行),次笔为横标(简称列)的汉字字根总表,即图1。字根的首笔按照横、竖、撇、捺、折依次定义其行的代号为1、2、3、4、5。字根的次笔也按照横、竖、撇、捺、折依次字义其列的代号为1、2、3、4、5。汉字在编码时,首先按照汉字标准楷书书写的顺序,把汉字拆成字根。然后按照其在字根总表中行与列的位置,确定字根的代码。字根的首、次笔按照汉字标准楷书的书写顺序确定。字根按照其首笔、次笔确定其在字根表的位置及其代码。当字根是横、竖、撇、捺、折五种单笔画时,则依次确定其在字根表中的代码为10、20、30、40、50。只有个别字根按照其首笔确定其在字根表中的位置和代码。这种以字根的首笔为纵标,次笔为横标的字根总表,规律性强,既直观简单,又易学好记。有高小和初中文化程度的人一学就会。汉字的字根代码是汉字形-音组合编码和音-形组合编码的基础和依据。
五笔二维编码法采用标准通用键盘。汉字拼音字母码与汉字字根代码在标准通用键盘中混合使用。汉字拼音字母码的排列完全按照标准通用键盘的英文字母排列。二维排列的汉字字根总表中的代码(10、20、30、40、50;11、12、13、14、15;21、22、23、24、25;31、32、33、34、35;41、42、43、44、45;51、52、53、54、55。)按照图2所示排列在标准通用键盘上,共30个键。每一组字根的代码对应一个键位。严密有序,对汉字和字汇的输入,可以实现高速盲打。这样就使标准通用键盘成为汉字形-音组合编码输入或音-形组合编码输入的中文键盘。利用这个键盘可以组合出国标字库6763个以上的汉字和数以千、万条中文词汇。专业人员利用这个键盘和本发明的输入方法,每个分钟可输入100-200个汉字,非专业操作人员只需经过几天的训练或自学,可以轻松自如地进行操作,无疑将加速我国电脑应用技术的普及和推广。
本发明提供了“五笔二维形-音”及“五笔二维音-形”两种输入法。
五笔二维形-音四码编码法的取码方法是:对于由4个以上字根组成的汉字,取其第一、二、三及末根的代码参加编码;对于不足4个字根组成的汉字取其全部字根代码,加上该字的汉语拼音第一字母码,加拼音字母码后仍不足四码者,再补一个空格键。用以上方法对GB 2312-80中全部6763个汉字进行编码,形成一套五笔二维形-音四码的编码本。其中包括汉字全码、一级简码、二级简码、三级简码和通用词汇的编码。一级简码是指定的高频字的首根代码再补一空格键。二级简码是指定汉字的首、次根代码再补一空格键。三级简码是汉字的首、次、三根的代码再补一空格键。二字词的词汇码是每字的首、次根代码。三字词的词汇码是每字的首根代码加末字的次根代码。三个字以上的词汇码是第一、二、三、末字首根的代码。单字码与词汇码实行混编,交替输入,不用换挡,简便快速。本编码系统设置造字和造词功能软件。利用这些软件可以造出国标字库以外需要的汉字以及编制出成千上万条用户需要的专业词汇和常用语句,使其实用性大大提高。本发明可以用在大、中、小、微型计算机、汉字电传机、汉字电子打字机、汉字终端及通讯系统中。
五笔二维音-形四码的取码方法是:取汉字的汉语拼音第一字母码为首码,取汉字的第一、二及末根的代码参加编码;对于不足三个字根组成的汉字补一空格键。用此法对GB 2312-80中全部6763具汉字进行音-形组合编码,形成一套五笔二维音-形四码编码本,其中包括汉字全码、简码和通用词汇码。一级简码是取指定高频汉字的汉语拼音第一字母再码补一空格键。二级简码是取指定汉字的汉语拼音第一字母码、首根代码再补一空格键。三级简码是取汉字的汉语拼音第一字母码及首、次根的代码再补一空格键。二字词的词汇码是每字的汉语拼音第一字母码加每字的首根代码。三字词的词汇码是每字的汉语拼音第一字母码加末字的首根代码。三个字以上的词汇码是第一、二、三、末字的汉语拼音第一字母码。单字码与词汇码实行混编,交替输入。
五笔二维音-形三码的取码方法是:取汉字的汉语拼音第一字母码为首码,取汉字的首根代码、末根代码参加编码;对于不足二个字根的汉字再补一空格键。用此法对GB 2312-80中全部6763个汉字进行音-形组合编码,形成一套五笔二维音-形三码编码本,其中包括汉字全码、简码和通用词汇码。如果先取汉字的首根代码、末根的代码加汉字的汉语拼音第一字母码参加编码,就形成五笔二维形-音三码编码法。利用此法对GB 2312-80中全部汉字进行编码,形成一套五笔二维形-音三码编码本。其中包括汉字全码、简码和通用词汇码。以上二种编码方法对汉字采取三码,对词汇采取四码的词字分离编码方法。二字词的词汇码是取每字的全码中的首次码参加编码。三字词的词汇码是取每字的全码中的首码及末字的第二码参加编码。三个字以上的词汇码是取第一、二、三、末字的全码中的首码参加编码。
本编码法的重码处理方法是在屏幕提示行中首先显示频度较高的汉字,如需此字,可不作任何处理,继续正常输入即可。如需其它字,可按照从重码的序号选取所需汉字。
利用本发明的二维汉字字根表和编码方法,可以把汉字和词汇编辑成字典、词典。其方法是把汉字折分成字根,按其首、欠根、三根、四根的代码,依次排序,也可以以该字的汉语拼音的第一拼音字母和首根、次根、三根的代码依次排序,编辑成便于检索的字典和词典。同样,也可以用此法编成软件,利用计算机对汉字、词汇和各种资料汇编进行排序和检索。
本发明提出的计算机输入方法及输入键盘,对繁体字同样适用,只要把字根总表中的简化字根改成繁体字根即可。繁体字根表如图4所示。
图1:五笔二维汉字字根总表
图2:五笔二维汉字输入法使用的中文键盘
图3:汉字五种基本笔画的各种形态
图4:五笔二维繁体字根总表