一种汉字编码方案 本发明涉及汉字编码方法,特别是汉字输入方法。
当前汉字输入方法采用软字库加编码已成为发展趋势,不少汉字编码方案应运而生,如目前公认较为优秀的编码方案就有:五笔字型、表形码、首尾音形、双笔音形等编码方法。优秀的汉字输入方法要求易学且输入速度快,五笔字型采用四编码方案,大大减少重码率,提高了输入速度,但要记的字根多,拆字组码困难,对非专业打字员不易接受;表形码则将汉字字母数字化,比较直观,但也同样遇到拆分的问题,不易拆准;首尾输入法只考虑首尾字根,简化了组码方法,而且加上第3个拼音识别码后重码率也比拼音法低得多,但同样要牢记52个字根,学者亦觉困难。
双笔输入方法则采用第一码(汉字的头两笔)加第二码(对于多结构字为第二大部的头两笔,对于连体字为第三笔)的编码方式,只需记住组成汉字的五种基本笔形(一丨 丿丶)以及它们的任意两个组合所在的键位,就能输入汉字,省去记字根的麻烦,它的不足之处在于这第二大部的头两笔有时也不易确定,同样要记住30个(其中有5个单笔)键位也不容易。
本发明的目的是寻找一种易学易记且输入速度快的汉字输入方法,特别适用于非专业打字员使用。
本发明改进了双笔输入方案:采用首码(汉字的首两笔)+尾码(汉字的末两笔)+拼音码识别地方法。
下面详细描述本发明的实现方法:
一、定义键盘
定义键盘方法一
将组成汉字的基本笔形归纳为五个基本类型(一、丨、丿、丶、),它们的任意两个组合成一个部件,一共组合出25个部件,这些部件在普通键盘上按一、丨、丿、丶、分成五个区,各个区又按一、丨、丿、丶、分成五个位,所在区位的位置对应一个键,将该键的字母作为汉字的编码字母。
定义键盘方法二
将组成汉字的基本笔形归纳为五个基本类型(一、丨、丿、丶、),将它们任意用1、2、3、4、5来表示,这5个数字的任意两个组合成一个部件,一共可组合出25个部件,这些部件在普通键盘上按1、2、3、4、5分成五个区,各个区又按1、2、3、4、5分成五个位,所在区位的位置对应一个键,将该键的字母作为汉字的编码字母。
定义键盘方法三
将组成汉字的基本笔形归纳为五个基本类型(一、丨、丿、丶、),用键盘上的1、2、3、4、5来表示它们,这样就可将汉字的若干个笔划用这些数字表示出来,即汉字的数字编码。
按定义键盘方法一和方法二定义的键盘举例见图一、图二、图三、图四。
二、汉字编码方法
一个汉字取左上角的二笔和右下角的二笔,左上角的二笔的组合(组合规则后述)在键盘上找到对应的区位,该区位所在的键的字母,我们称之为该汉字的首码,同样地,右下的二笔所对应的字母我们称之为该汉字的尾码,首码和尾码的组合就是该汉字的首尾码;首尾码可再加上该汉字的汉语拼音的第一个字母构成该汉字的形声码;
将汉字左上角的二笔和右下角的二笔直接用数字表示并按一定的规则排列组成该汉字的数字码,数字码可再加上该汉字的汉语拼音的第一个字母构成该汉字的混合码。
对于带声母ch、Sh、Zh的汉字,上述所说的汉语拼音的第一个字母也可以分别是I、U、A,这样更有利于减少重码率。
可以直接定义若干个字母作为字根码,它们分别代表一些汉字部首,如:艹、扌、囗、日、小、木、大、钅、寸、土、阝、卩等,进行汉字编码时用字根码代替首码或尾码。字根码是调整重码率的手段之一,字根码多些,重码率会低些,但使用者要的东西也多些,因此,本发明建议所定义的字根码不多于10个。
对于词组,则将第一个汉字的首尾码或数字码加上第二字或末字的拼音第一个字母构成词组码,用词组码可对双字词组或多字词组进行编码。
三、取码组码规则
对于上述所说的首码、尾码或数字码,其取码组码规则如下:
1、组码时,按起笔位置,从左至右,从上至下;交叉笔形左先于上;同起点笔形,丿 丨先取。
2、全包围形的部,如果被包围部分有2笔或多于2笔,则包围部分不取作尾码,如果被包部分只有1笔,则将此笔与包围部分的末笔组成尾码,如果只有包围部分,则从包围部分取尾码;
3、与首笔或末笔相交的笔划优先被组码;
4、取尾码时,首码已取过的笔划允许重取;
5、取码时,作“一”作“丶”、“”则代表乙等。
组合笔形所对应的常见部件及其作首、尾码的字例如表一。
实施例1:按一、丨、 丿、丶、顺序,用定义键盘方法一或定义键盘方法二定义的键盘如图1,字根码:艹-H、木-L、口-S,编码举例见表二。
实施例2:按一、丨、 丿、丶、顺序,用定义键盘方法一或定义键盘方法二定义的键盘如图2,字根码:艹-G、木-S、口—L,编码举例见表三。
实施例3:按一、丨、丿、、丶顺序,用定义键盘方法一或定义键盘方法二定义的键盘如图3,字根码:艹-H、木-M、口-K,编码举例见表四。
实施例4:按丨、一、、丿、丶顺序,用定义键盘方法一或定义键盘方法二定义的键盘如图4,字根码:艹-G、木-M、口-S,编码举例见表五。
用本发明设计的汉字输入方法,除特别定义的个别字根外,大多数的汉字以笔划进行直接组码,取码组码方法简单明了,通过合理的布局键位,一看字形便知编码位置,不会写不会读汉字也会编码。不会拼音者采用首尾双码法,懂拼音者采用形声三码法或词组码法,可大大提高输入速度。数字码或混合码法则是适合于中年人使用的更简单的方法,所以,本发明适合于不同层次的人使用。
表一
表二 汉字 取码笔划 数字码 首尾码 形声码 混合码 词组 词组码 词组码 编 艹 5521 ZH ZHB 5521B 编号 5521H ZHH 码 一丿一 1351 DB DBM 1351M 举 丶丶一丨 4412 OF OFJ 4412J 举行 4412X OFX 例 丿丨 丨 3225 RM RML 3225L 例子 3225Z RMZ 国 囗 丨一 1421 SH SHG 2421G 国家 2421J SHJ 庆 丶丿丿丶 4334 IW IWQ 4334Q 庆祝 4334Z IWZ 珠 一一木 1124 GL GLZ 1114Z 珠江 1114J GLJ表三 汉字 取码笔划 数字码 首尾码 形声码 混合码 词组 词组码 词组码 编 艹 5521 ZG ZGB 5521B 编号 5521H ZGH 码 一丿一 1351 KR KBM 1351M 举 丶丶一丨 4412 WJ WJ 4412J 举行 4412X WJX 例 丿丨丨 3225 UA UAL 3225L 例子 3225Z UAZ 国 囗丨一 1421 LG LGG 1421G 国家 2421J LGJ 庆 丶丿丿丶 4334 EO EWQ 4334Q 庆祝 4334Z E0Z 珠 一一木 1124 HS BSZ 1124 珠江 1114J HSJ表四 汉字 取码笔划 数字码 首尾码 形声码 混合码 词组 词组码 词组码 编 艹 4421 OH OHB 4421B 编号 4421H OHH 码 一丿一 1341 DY DYM 1341M 举 丶丶一丨 5512 ZF ZFJ 5512J 举行 5512X ZFX 例 丿丨丨 3224 RL RLL 3224L 例子 3224Z RLZ 国 囗丨一 2321 KH KHG 2321G 国家 2321J KHJ 庆 丶丿丿丶 5335 CQ CQQ 5335Q 庆祝 5335Z CQZ 珠 一一木 1125 GM GMZ 1125Z 珠江 1125J GMJ表五 汉字 取码笔划 数字码 首尾码 形声码 混合码 词组 词组码 词组码 编 艹 3311 CG CGB 3311B 编号 5521H ZHH 码 一丿一 2432 LV LVM 2432M 举 丶丶一丨 5521 PH PHJ 5521J 举行 4412X OFX 例 丿丨丨 4113 TD TDL 4113L 例子 3225Z RMZ 国 囗丨一 1412 SF SFG 1412G 国家 2421J SHJ 庆 丶丿丿丶 5445 OQ OQQ 5445Q 庆祝 4334Z IWZ 珠 一一木 2225 JM JMZ 2225Z 珠江 1114J GLJ