形声字计算机汉字输入方法 【技术领域】
本发明属计算机汉字输入技术领域。
背景技术
在计算机汉字输入技术领域,到目前为止,已有多种汉字输入方法出现,真正比较流行的有不到十种。其中,五笔字型输入法比较流行实用,重码率低,高效快捷,适合于不会汉语拼音的人们和专业打字员,但五笔字型输入法也有其缺点,技术复杂,难度较高,难学难记且易于忘记;特别是各类字型的判断和如何取识别码问题以及成字根和一般汉字的取码方式完全不同的问题都极大地增加了使用人的思维强度,让人使用起来很累,非常伤脑力。二笔输入法比较规则、新颖,重码率低。但其合体字分两半,两笔取一码,以及10个设定部首对应10个码,笔画的拆分及两笔按一定的排列构成一码,初看起来比较简单,但由于极不直观,使用起来需要投入的思维强度太大,太伤脑力。自然码的汉字编码以音为主,以形为辅,音形结合,输入时以词为主,以单字为辅,输入效率比较高,但编码不直观,运用时所需思维强度也较大。同时,对使用者的汉语拼音要求也较高。手写输入法、扫描输入法和语音输入法的局限性较大,无法替代键盘输入法的基础性的重要作用。其他输入法也基本都是要么虽然简单但重码率过高,要么虽然重码率低但因技术复杂而使用起来需要投入的思维强度过大。因而,一种真正简单易学、重码率低、快捷高效、运用时需要的思维强度低的计算机汉字输入方法,一直是人们所期望的。
【发明内容】
本发明地目的,是设计一种简单易学、直观易记、重码率低、快捷高效和运用时所需思维环节少、思维强度低等多方面的优点的计算机汉字输入方法,以克服现时计算机输入方法的缺点。
本发明的目的是这样达到的:形声字计算机汉字输入方法,本发明的特征在于:确定一定数量的称之为字根的构成汉字的笔画或件,将所有字根分为26组,各组分别与计算机键盘的A-Z 26个英文字母确立对应关系,每个汉字先按预定的汉字拆分原则拆分为字根,依次序取拆分出的字根所对应的英文字母进行编码,字根编码不足四码的,再增添与该汉字的汉语拼音声母形状相同的英文字母进行编码;对独立成字的成字字根,依序两次取其所对应的计算机键盘的英文字母,再增添与该汉字的汉语拼音声母形状相同的英文字母进行编码。所述的字根有:五、正、古、石、鱼、子、孑、予、了、耳、阝、力、ㄍ、回、巴、幺、纟、以、弓、曲、巛、大、犬、戊、厂、ナ、丆、王、三、丰、、至、月、爪、爫、白、身、豕、彡、土、、士、七、干、戈、弋、长、镸、车、一、工、二、匚、雨、戋、歹、、其、止、甘、艹、廿、廾、非、刂、水、氺、氵、小、、目、日、曰、贝、上、、卜、丨口、囗、凸、川、卅、州、田、由、申、皿、黑、虫、四、木、束、十、丁、冂、禺、牛、牜、马、隹、也、、不、几、火、门、广、方、米、灬、学、穴、宀、冖、亥、疒、皮、卩、金、钅、舌、勹、刀、ク、乃、及、人、亻、儿、八、片、氏、、丿、手、、扌、寸、甫、西、竹、、彳、欠、攵、夂、犭、鸟、夕、六、言、讠、文、辛、立、丶、、亠、女、彐、毛、发、艮、九、臼、凹、凵、乙、山、丘、斤、瓦、禾、匕、心、忄、、羽、母、毋、又、羊、、首、兼、酋、半、礻、衤、丷、、冫、丬、足、疋、之、辶、廴、走、尸、已、巳、己。所有的字根与计算机键盘的A-Z 26个英文字母的对应关系为:A对应于字根:五、正、古、石、鱼;B对应于字根:子、孑、予、了、耳、阝、力、ㄍ;C对应于字根:回、巴、幺、纟、以、弓、曲、巛;D对应于字根:大、犬、戊、厂、ナ、丆、王、三、丰、、至;E对应于字根:月、爪、爫、白、身、豕、彡;F对应于字根:土、、士、七、干、戈、弋、长、镸、车、一;G对应于字根:工、二、匚、雨、戋、歹、、H对应于字根:其、止、甘、艹、廿、廾、非、刂、I对应于字根:水、氺、氵、小、、J对应于字根:目、日、曰、贝、上、、卜、丨; K对应于字根:口、囗、凸、川、卅、州;L对应于字根:田、由、申、皿、黑、虫、四、M对应于字根:木、束、十、丁、冂、禺;N对应于字根:牛、牜、马、隹、也、、不、几、O对应于字根:火、门、广、方、米、灬;P对应于字根:学、穴、宀、冖、亥、疒、皮、卩、Q对应于字根:金、钅、舌、勹、刀、ク、乃、及;R对应于字根:人、亻、儿、八、癶片、氏、、丿;S对应于字根:手、、扌、寸、甫、西;T对应于字根:竹、、彳、欠、攵、夂、犭、鸟、夕、U对应于字根:六、言、讠、文、辛、立、丶、、亠;V对应于字根:女、彐、毛、发、艮、九、臼、凹、凵、乙 W对应于字根:山、丘、斤、瓦、禾、匕;X对应于字根:心、忄、、羽、母、毋、又、Y对应于字根:羊、、首、兼、酋、半、礻、衤、丷、、冫、丬、Z对应于字根:足、疋、之、辶、廴、走、尸、已、巳、己。所述的汉字拆分原则为:完全按照汉字的书写顺序拆分;每次拆出尽可能多笔画的字根,所拆出的字根数最少;拆分字根时要符合常规,兼顾直观性、习惯性;在拆出的字根数相等的情况下,能按“散”的关系拆分,就不要按相交的关系拆分。
采取以上措施的本发明重码率低,符合汉字的书写规律和汉字使用者的思维习惯,规律性明显,易学易记,使用时思维强度低,平均每字不到三键,快捷高效。
【附图说明】
附图1是本发明的计算机键盘英文字母与字根对应关系的总图及助记词;
附图2是本发明实施例的键盘区位划分图;
附图3是本发明实施例的键盘字根对称示意图;
附图4是本发明实施例的编码流程图。
【具体实施方式】
实施例确定了“五、正、古、石、鱼、子、孑、予、了、耳、阝、力、ㄍ、回、巴、幺、纟、以、弓、曲、巛、大、犬、戊、厂、ナ、丆、王、三、丰、、至、月、爪、爫、白、身、豕、彡、土、、士、七、干、戈、弋、长、镸、车、一、工、二、匚、雨、戋、歹、、其、止、甘、艹、廿、廾、非、刂、水、氺、氵、小、、目、日、曰、贝、上、、卜、丨口、囗、凸、川、卅、州、田、由、申、皿、黑、虫、四、木、束、十、丁、冂、禺、牛、牜、马、隹、也、、不、几、火、门、广、方、米、灬、学、穴、宀、冖、亥、疒、皮、卩、金、钅、舌、勹、刀、ク、乃、及、人、亻、儿、八、癶、片、氏、、丿、手、、寸、寸、甫、西、竹、、彳、欠、攵、夂、犭、鸟、夕、六、言、讠、文、辛、立、丶、、亠、女、彐、毛、发、艮、九、臼、凹、凵、乙、山、丘、斤、瓦、禾、匕、心、忄、、羽、母、毋、又、羊、、首、兼、酋、半、礻、衤、丷、、冫、丬、足、疋、之、辶、廴、走、尸、已、巳、己”为字根(所称“字根”为构成汉字的笔画或构件,其中独立成字的字根称为“成字字根”,“土、工、大、手、五、目、其、口、田、人、竹、月、山、金、六、羊、水、火、学、女、子、回、心、足、木、牛”这26个字根称为“键名字根”,以下同),并确立了如附图1中的计算机键盘的A-Z 26个英文字母与字根的对应关系;同时预定了以下的汉字拆分原则:完全按照汉字的书写顺序拆分;每次拆出尽可能多笔画的字根,所拆出的字根数最少;拆出字根要符合常规,兼顾到直观性、习惯性;在拆分出的字根数相等的情况下,能按“散”的关系拆分就不要按相交的关系拆分。将汉字按以上拆分原则拆分出字根,然后依次将字根所对应的计算机键盘的英文字母依次编码,字根编码不足四码的,再增添与该汉字的汉语拼音声母形状相同的英文字母进行编码。对键名字根,四次取其所对应的计算机键盘的英文字母编码;对成字字根,依序两次取其所对应的计算机键盘的英文字母,再增添与该汉字的汉语拼音声母形状相同的英文字母进行编码。这样即可编出所有汉字的编码。
以下结合附图和表格对本发明和实施例作进一步详述:
一、关于发明名称、字根设置及键位
1、关于“形声字计算机汉字输入方法”的概述。
现行汉字有80%以上是形声字,而形声字有96%以上形旁在前、声旁在后——即先形旁后声旁,例如:“硝”、“棋”、“草”等。本发明认为“打字就是写字”。而本发明对任何不足四码的汉字都是先输完形码再输声码(声母),十分符合汉字使用者书写汉字的思维习惯。故本发明称为“形声字计算机汉字输入方法”。本发明的键盘字根设置主要参考了王码86,但与王码86又有80%的不同。
2、字根分区原则。
第一笔画相同的字根和总体上凸显该种笔画的字根归为同一个区。如,第一笔画为一竖(丨)的字根和字根总体上凸显竖笔的字根(如:艹、卅、州、其)都有归为竖笔区,即二区。
3、zh、ch、sh分别用A、I、U代替。
声母zh安排在字母A键上,A形状象“支架”;
声母ch安排在字母I键上,I形状象“尺子”;
声母sh安排在字母U键上,U形状很象“试管”。
4、几种特别字根的设置。
(1)特别象形字根:山、瓦(W);鱼(A);足、之、走(Z);其、(H);(X);干(F)。
(2)特别象形会意字根:回(C——“C”“回”形近,且C象征了接近一个回归);女(V——象征女人的性别特征)。
(3)特别同音字根:皮(P);
(4)特别会意字根:不(N/No);
(5)特别“单点对称”字根:单点“丶”及字根“六、言、文、辛、立”。后者首两笔为“亠”,且字根呈完全的左右对称型。
(6)数字字根设置与键盘字根对称图,附图3表示了其对称关系。
①数字字根设置:
“一、二、三、四、五”按照区位对号入座。“六、七、八、九、十”分别放在相应“区”的第一键位。
②键盘字根对称图如附图3所示。
5、键名字根设置:
(1)键名声母共10个:G(工)、D(大)、S(手shou)、K(口)、R(人)、Y(羊)、X(心)、M(木)、N(牛)、Z(足)。
(2)键名象形5个:F(土)、H(其)、L(田)、W(山)、B(子)。
(3)键名象形会意2个:V(女)、C(回)。
(4)键名韵尾4个:E(月)、U(六)、I(水)、O(火)。
(5)表示键位1个:A(五——第五键位)。
6、字根的矢量性、方向性。
字根(点结构除外)是矢量。如果两个形状相近但总体方向不平行、不一致的字根(如:“目、日”和“皿、”),其意义也不相同,因此不能认为是同一个字根的变体。从而通常也不放在同一个键位上。
7、关于国际和我国标准键盘的字母排列设置的概述。
现行世界通用的键盘字母的排列设置是长期固定的设置。首先,现行键盘字母的排列与设置已有百年以上的历史,它现在已成为全世界所有国家和地区电脑键盘的标准和唯一通行的设计,使用这种键盘是全世界共同的标准和习惯。其次,对于世界无比广泛普及的拉丁化拼音文字,键盘上26个字母的排列设置的科学性与合理性已达到极限,极为符合字母的出现频率、人的生理特点和思维规律以及文字拼写规则,根本没有改变的必要。①26个拉丁字母首先从左至右由A开始,A→B(低频),再C—D(最高频)—E(高频),再F(高频)—G(高频)—H(高频),再I(高频),再J(高频)—K(高频)—L(高频)—M—N(高频),再O—P(低频)一Q(低频),再R—S(高频)—T,再U—V,再W(低频)—X(低频),再Y—Z(最低频)。②在元音字母A、E、I、O、U及半元音字母W、Y中,除A为字母表中第一个字母,位于键盘的中排左端外,其它元音和半元音字母均依序依频并排同行而列:高频元音字母E位于左手中指项下,高频元音字母I位于右手中指项下,O、U分别依序位于I的两边,W紧邻E之左,Y紧邻U之左。③-ER是英文单词中一个常用的连体结构,因而ER在键盘中依序相邻;英文和其他拉丁化文字的最常用连体结构TH-和-NG分别用左右手在最恰当的位置配合击键,极符合人的生理特点。④低频字母Z、Q、P、B位于手指难于击键的位置,等等。第三,本发明的编码思想不变,即使键盘字母的排列设置在不可预见的将来有所调整,则同其他输入法一样,本发明的编码也可作相应的调整。
8、折区的第二、第三键位分别与英文字母B、C在字母表上的排序一致。
二、汉字拆分规则。
1、汉字的笔画
本发明与五笔字型输入法类似,把汉字的笔画归结为横、竖、撇、点(捺是点的变体)、折五种(表1)。
表1:汉字的笔画
2、汉字的结构
(1)单字根汉字
指基本字根本身就单独成为一个字。这种情况只包括键名及成字字根。如,“水、大、小”等。
(2)复字根汉字
根据基本字根在组成汉字时的相互位置关系把含有两个和两个以上字根(复字根)的汉字分为两类结构:
①散:构成汉字的基本字根之间(在笔画上)没有交叉。如,“结:纟土口”;“囚:口人”;“千:丿十”;“且:月一”;“太:大丶”。
②交:构成汉字的基本字根之间(在笔画上)有交叉关系。如,“里:日土”;“夫:二人”;“本:木一”。
如果一个汉字含有两个或两个以上字根,那么这个汉字中的任何两个字根之间不是“交”的关系,就必定是“散”的关系。反之亦然。单笔与其他字根之间如果没有相交的关系就一律认为是“散”的关系。
3、汉字的拆分原则
(1)书写顺序
要完全按照汉字的书写顺序进行拆分。拆分时,要先左后右(如:树→木又寸);先上后下(如:幕→艹日大丨);先中间后腰边(如:兆→儿亟→了口又一,永→丶乙肃→彐小丿丨,承→了三);先外后内(如:国→囗王丶)。
(2)取大优先,确保最少。
在各种可能的拆法中,保证按书写顺序每次都拆出尽可能大的字根;同时不论如何拆分都必须确保所拆出的字根数最少。如,
“生”拆分出“牛一”,而不拆成“丿”;
“尺”拆分成“尸”,而不应拆成“人”或“”;
拆分为“山”,而不拆成“一山”。
(3)常规直观。
拆分字根时要符合常规,兼顾到直观性、习惯性。如:
“求”拆分为“一水丶”,而不应拆分为“十丶”;
“主”拆分为“丶王”,而不应拆为“亠土”。
下面的“小木不八”就是为符合常规直观性。
(4)能散不交
在拆出的字根数目相等的情况下,一个汉字能按“散”的关系拆分,就不要按相交的关系拆分。如:
“午”拆成“十”,而不拆成“丨”;
“于”拆成“一十”,而不拆成“二丨”;
“天”拆成“一大”,而不拆成“二人”。
4、关于“定线体”和“小木不八”。
(1)定线体。
“丬”、“”表示两点决定一条直线,称为“定线体”。定线体字根在任何情况下都不可拆分。例如,正确的拆分如下:平→一丨并→廾夹→一人 兰→二 南→十冂十 丧→十
(2)小木不八。
一个汉字,能按“小”或“木”拆出字根,就不要将“小”或“木”拆开而拆分出字根“八”,这种现象称为“小木不八”。正确拆分如下:
未→二小(而非:八);耒→三小(而非:丰八); 朱→小(而非:牛八);亲→立木(而非:辛八);末→一木(而非:八)。
三、编码流程图。
附图4给出了本发明实施例的编码流程。
四、编码规则。
1、键名字根输入规则
连击四次所在键。如:工(GGGG)、土(FFFF)
2、成字字根输入规则
连击两次成字字根所在键,再加打声母。如:母(XX+M)四(LL+S)
解说:
由两个以上相同字根构成同一汉字的机率比较低。对成字字根这样编码最符合形码组合上的数学运算结果,符合数学思维罗辑:
6763÷[26(形码)×26(声母)]=10.1(约为1的10倍)
6763÷[262(形码)×26(声母)]=0.36(约为1的最接近1)
6763÷[263(形码)×26(声母)]=0.014(约为1的)
上述三个算式中,
第一个算式表明,26个字母编成2码组合——形码+声码,则平均每1个编码空间对应10个汉字(即表明在理论上远达不到精确的效果);
第二个算式表明,26个字母编成3码组合——形码+形码+声码,则平均每3个编码空间对应1个汉字(即表明在理论上既达到精确的效果又最为经济);
第三个算式表明,26个字母编成4码组合——形码+形码+形码+声码,则平均每71个编码空间对应1个汉字(即表明在理论上虽达到精确的效果但极不经济)。
又由于过多地连击三次以上同一个键则会影响击键速度;同时,如果成字字根的编码为“形码+声码”,那么双字词和三字词的编码就可能含有声码,这势必会增加思维环节和思维强度。
因此,对成字字根的形码编码应与二次幂数列{a2,ab,ac,ad,b2,bc,bd,c2,cd,d2,……}的格式相一致。连击两次成字字根所在键,即取数学上的(成字字根)2是最为恰当的。亦即,任何特定成字字根的编码规则均为“成字字根+成字字根+声母”(例如:西→西+西+X),这是最优编码方案。
3、对有四个或四个以上字根的字的输入规则
依次键入一、二、三、末四个字根:即
首字根代码+次字根代码+第三字根代码+末字根代码 如:
修(RJTE) 幕(HJDJ) 输(FRFH)
4、不足四个字根的汉字的输入规则
打完汉字的全部字根,再加打声母(零声母汉字以字母O作声母)。如:别(KBH+B)、码(AN+M)、千(RM+Q)
5、用问号“?”作万能键(相当于五笔字型的Z键),以表示未知字根和识别码。一旦人们学会本输入法后就几乎用不上此万能键。
6、高频字和常用字简码优先原则,同时兼顾含声码的汉字简码优先。
7、词的输入法:
(1)双字词
分别取两字的前两个字根,共四码组成。如:
技术:扌十木丶方向:方方丿冂大家:大大宀豕
(2)三字词
前两个字各取第一码;最后一个汉字取其前二码,共四码。如:
共青团:十口形声字:一士宀子 大学生:大学牛一
(3)四字词
每字各取第一码,共四码。如:
人民政府:人巳正广 知识分子:讠八子
(4)多字词
按“一、二、三、末”规则,取其第一、第二、第三及最末一个汉字的第一个字根,共计四码。如:
中华人民共和国:口亻人口 全国人民代表大会:人口人人
8、形声字输入法非成字字根和笔画的编码规则:
GO+非成字字根和笔画所在键位代码(可以多重码)。如:
GO+V(彐) GO+V1() GO+V2(凵)
五、字根变体近体表(表2)。
六、字根解说及记忆要点(表3)。
七、常见难字编码拆分示例表(表4)。
八、键盘高频字和一级简码(表5)。
表2:部分字根及其变体(近体)表
表3:字根解说及记忆要点(一区)
续表3:字根解说及记忆要点(二区)
续表3:字根解说及记忆要点(三区)
续表3:字根解说及记忆要点(四区)
续表3:字根解说及记忆要点(五区)
续表3:字根解说及记忆要点(六区)
表4:常见难字编码拆分示例
表5:形声字计算机汉字输入方法键盘高频字和一级简码我Q和W的E人R得T关Y文U为I米O学P有A要S在D-F都G是H上J中K因L;所Z又XC以发V了B不N才M,。/