汉字中华形音码计算机键盘输入法 本发明属于汉字编码方法及汉字信息计算机键盘输入方法领域。
迄今为止,汉字的计算机键盘输入方法已逾七百种之多。中国大陆常用的编码方法主要有国标区位码、五笔字型码、汉语拼音码等多种方法及其输入法。大陆以外的国家、地区常用仓颉中文输入法。如此之多的汉字编码方法,对于“容易学的输不快,输入快的不易学”(《计算机世界》1994年第43期余克艰、庞宣明著《汉字信息的计算机输入与汉字文化》)这一矛盾,都没有从根本上得到解决。
国标区位码无重码,但难以记忆;五笔字型码重码率较低、输入速度较快,但汉字书写规范性差,操作者记忆量大(130个基本字根都需记忆),非专职操作员难于熟练掌握;拼音码(全拼、双拼等)重码率高、输入速度慢,全拼音法无记忆量,双拼音法仍有汉语拼音韵母、声母与计算机键盘键名转换再定义的记忆量(35个韵母和3个声母总计38个记忆量)。
由此可见,各种汉字编码方法可谓“尺有所长,寸有所短”。但都在易学、快速、规范这三者的相互矛盾之中徘徊。
中华码的汉字编码信息,取自组成书写汉字规范笔顺的第一个和第二个中华码部首名称(按照中华码部首名称命名方法定义)的读音和该汉字的读音。中华码编码方法遵循汉字读音规范、汉字书写笔顺规范和汉字部首的通常习惯命名方法。汉字应用中华码编码的计算机键盘代码是英语的26个英文字母,汉语拼音方案字母表中除去字母“u”和韵母表中的字母“ü”都定义在计算机键盘的英文字母“u”键上以外,其余汉语拼音字母都定义在与其一一对应的英文字母键名上,计算机标准键盘则转变成为中华码地汉字输入键盘。对于使用汉字(简体或繁体)的国家和地区(日本、韩国、朝鲜、新加坡,台湾、香港、澳门等)的汉字计算机键盘输入,也可采用中华码编码方法(使用拼音字母、注音字母或其它标音符号替代汉语拼音字母标注简体或繁体汉字,进行计算机键盘字母名称转换的再定义)。
中华码的全码共四码,分别由中华码的形半码加上音半码组成。组成汉字书写规范笔顺的第一个和第二个中华码部首名称的汉语拼音首字母分别作为中华码形半码的首和末半形码(两码),该汉字的汉语拼音首字母和末字母分别作为中华码音半码的首和末半音码(两码);汉语拼音方案字母表中的26个字母abcdefghijklmnopqrstuvwxyz其中字母“u”和韵母表中的字母“ü”都定义在计算机键盘英文字母“u”键上,其余的汉语拼音字母则定义在与计算机键盘英文字母键名一一对应的英文字母键上;构成汉字的汉字部首(成字部首)都是中华码成字部首,中华码成字部首的名称为组成该中华码成字部首这个汉字的读音,中华码成字部首组成汉字的形半码(首半形码或末半形码)为该中华码成字部首名称的汉语拼音首字母;中华码非成字部首名称按照中华码非成字部首名称的命名规则定义,中华码非成字部首组成汉字的形半码(首半形码或末半形码)为该中华码非成字部首名称的汉语拼音首字母;中华码部首(成字和非成字)组成汉字,汉字的中华码部首拆分规则:按照汉字书写规范笔顺,只取该汉字的前两个中华码部首,并按照书写该汉字这两个部首的空间顺序,取成字部首优先,取大部首(中华码成字和非成字部首中笔画较多的部首)优先的规则组成该汉字的形半码(首半形码和末半形码);操作者不会书写或对汉字规范笔顺不清楚的汉字,中华码的形半码(首半形码和末半形码)可用“字形模糊码”代替编码;汉字构件(本文指不组成汉字而在文本中输出的汉字部首)和冷僻汉字(操作者不能正确读音的汉字)中华码的音半码(首半音码和末半音码)可用“字音模糊码”代替编码;在使用汉字的国家、地区应用拼音字母(如日文假名和朝、韩文字母)、注音字母(如台湾和港澳地区使用的汉语注音字母)或其它标音符号(如日文中应用的罗马字母),用于标注简体或繁体汉字的读音,对计算机键盘键名英文字母再定义转换为拼音字母、注音字母或其它标音符号,可以采用汉字中华码的编码规则。
下面从五个方面阐述本发明内容。
一、汉字中华码编码公式
1、中华码全码共四码,由形半码(两码)加音半码(两码)组成。汉字笔顺的前两个中华码部首名称的汉语拼音首字母分别作为形半码的首半形码和末半形码,汉字汉语拼音首字母和末字母分别作为音半码的首半音码和末半音码。即:
中华码(全码)=形半码(首半形码+末半形码)+音半码(首半音码+末半音码);
2、字形模糊的汉字其形半码可用“字形模糊码”键名加其音半码编码。即:“字形模糊码”键名+音半码(首半音码+末半音码);
3、汉字构件(文本中输出的非成字)或冷僻汉字(不能正确读音),如“屮”和“髟”,其音半码可用“字音模糊码”键名前加其形半码编码。即:形半码(首半形码+末半形码)+“字音模糊码”键名;
4、中华码简码规则:按照中华码全四码排列顺序分别取前一码、前二码、前三码,加“空格键”编成汉字(部分高频字)对应的中华码一、二、三级简码。
二、中华码部首及其名称定义规则
1、中华码成字部首和名称:汉字作为组成汉字的成字部首,都是中华码成字部首,其名称为该成字部首汉字的读音。
如“石”和“马”二字可组成“码”字,“石”和“马”则是中华码成字部首,其名称分别为“石”和“马”的读音。
2、中华码非成字部首和名称:从汉字非成字部首中选择部分部首作为中华码非成字部首,其名称定义参照《新华字典》[1992年重排本]、和《辞海》[1979年版]中汉字部首名称,并依据国家教委、国家语委颁布的有关文件。
汉字非成字部首如:(一)、(丨)、(丿)、(丶)、(乙)、(宀)、(讠)、(艹)……选作为中华码非成字部首,其名称分别为“横”、“竖”、“撇”、“点”、“折”、“宝字盖”、“言字旁”、“草字头”……的读音。
三、中华码形半码编码规则
汉字按照书写的规范笔顺,分别取该汉字的第一个和第二个中华码部首名称的汉语拼音首字母,作为形半码的首半形码和末半形码。
如“中”字的第一个成字部首“口”和第二个非成字部首“丨”两个中华码部首组成其形半码为“ks”;“码”字的“石”和“马”两个中华码成字部首组成其形半码为“sm”。
一笔画汉字“一”和“乙”的形半码分别为“hh”和“zz”。
如:繁体汉字字,由中华码部首“冂” (中华码非成字部首名称:“方框”)和“或”(中华码成字部首名称“或”)组成其形半码“fh”。
如:日文当用汉字“国”(日语读音“くに”,其罗马字母拼音为“kuni”),由中华码成字部首“口”(日语读音“くち”,其罗马字母拼音为“kuchi”)和“玉”(日语读音“たま”,其罗马字母拼音为“tama”)组成其形半码“kt”。
四、中华码音半码编码规则
1、我国使用的汉字,其读音暂以《新华字典》[1992年重排本]和《辞海》[1979年版]中标注的汉语拼音为标准。
2、分别取汉字汉语拼音的首字母和末字母,作为音半码的首半音码和末半音码,汉字只有一个汉语拼音字母,其音半码的首半音码和末半音码都是该拼音字母,“啊”字的音半码为“aa”。
如“啊!中华”的汉语拼音为“ā、zhōng、huá”,三字的音半码分别为“aa、zg、ha”。
如:汉字繁体字,汉语注音字母为“ㄍㄨ”、汉语拼音为“guó”,其音半码为“go”。
如:日文当用汉字“私”,(日语读音“ちたし”,其罗马字母拼音为“watasi”)其音半码为“wi”。
五、中华码部首拆分规则
按照组成汉字规范笔画的空间先后顺序,只取汉字的第一个和第二个中华码部首,取成字部首优先,取大部首优先。
1、成字且笔画较多的部首最优先组成中华码部首;
2、只有成字部首或只有非成字部首构成的汉字,取大部首优先;
3、成字部首和非成字部首构成的汉字,取成字部首优先和大部首优先;
4、非成字部首和成字部首构成的汉字,取大部首优先和成字部首优先。
如“鸿”字只能取“江”和“鸟”这两个成字部首,不取“氵”和“工”;
如“树”字取“权”和“寸”这两个部首,不取“木”和“对”,“宏”字只取“宀”和“一”这两个部首,不取“丶”和“冖”;
如“逻”字取“罗”和“辶”这两个部首,不取“四”和“夕”;
如“宝”字取“宀”和“玉”这两个部首,不取“丶”和“冖”。
六、中华码词汇编码规则
1、二字词:分别取组成词的首和末汉字的汉语拼音首字母,再加上该词末字的形半码(首半形码和末半形码)。
“中华”二字词的编码“zh hs”。
2、三字词:分别取组成词的三个汉字的汉语拼音首字母,再加上该词末字的首半形码。
“中华码”三字词的编码“zhm s”。
3、四字词:分别取组成词的四个汉字的汉语拼音首字母。
“中华民族”四字词的编码“zhmz”。
4、多字词:分别取组成词的前三个和最末一个汉字的汉语拼音首字母。
“中华人民共和国”七字词的编码“zhrg”。
综上所述,本发明的汉字编码方法是以汉字的字形和字音这二维汉字信息进行编码,规则简单、易记。中华码汉字输入方法是一种易学习、输入快、并符合汉语语言规范性的计算机键盘汉字输入方法。操作者只要掌握汉语拼音方法和中华码部首名称命名方法,便可进行无记忆量的计算机键盘汉字输入操作,基本上解决了“容易学的输不快,输入快的不易学”这一矛盾,实现了易学、快速、规范这三者的有机结合。
如上所述,易知“啊!中华码”的汉字中华码计算机键盘编码为:
(1)、以字输入:“kaaa kszg hsha smma”;
(2)、以字和二字词输入:“kaaa zhhs smma”;
(3)、以字和三字词输入:“kaaa zhms”。