本发明涉及一种计算机汉字输入方法及汉字检索方法,具体是一种汉字结构笔顺数字编码方法。 现有的汉字输入方法大致有下列多种:字形输入法、拼音输入法、音形输入法等等,拼音输入法由于中国方言差异较大,使用仍不方便,字形输入法则由于需要操作员记忆较多的字形编码,以及汉字字形的拆分和笔顺原则的不规范化,也不利于普及推广。
本发明的目的在于提供一种易学易记、符合汉字规律、见字即能出码的、结构拆分及笔顺原则规范化的汉字结构笔顺数字编码方法,既能用于电脑输入汉字,又能用于汉字检索。
本发明的技术方案如下:
1、该方法利用含有数字键、字母键和功能键的计算机标准键盘,以十个数字键分别代表所选汉字的首码和笔形码,每字编码的总位数最多为7,其中首码是该汉字的第一部分的笔划数,位数为1,取0~9,若该汉字的第一部分的笔划数大于9则首码仍取为9;笔形码是该汉字除去第一部分后的其余部分的笔划按笔顺的数字编码,汉字笔形归结为点、横、竖、撇、折五类,笔形捺和提归入点类,数字代号为:点1、横2、竖3、撇4、折5;故笔形码用1~5数字表示,其总位数最多不超过6,多的笔划舍去不输;
2、要进行汉字输入时,将汉字字形结构分为四类:
(1)包围结构:凡字中一定的笔划被其它笔划两面以上包围,且被围笔划不与包围地笔划紧密粘连的结构;
(2)上下结构:凡字能上下断开的结构,其中能截然分开的横笔可取为该字的上部,字的上部也可以是两笔构成的部首,对于横竖笔划相连的字以横笔及以上部分为上部;在拆分时以部首截取,不拆散整体;若截取上部后该字只剩单笔且与上部紧密相连,则该字属于独体字;
(3)左右结构:凡字能左右断开的结构。其中若字的左边也是个完整的字,则取其为该字的左部;字的左边若是一个整体结构的,取该整体为字的左部;
(4)独体字:无法断开的字叫独体字。
3、利用上述的键盘输入汉字的首码时,每个汉字用以下原则拆分结构:
(1)包围结构:拆开取包围部分为第一部分;
(2)上下结构:拆开取上部为第一部分;
(3)左右结构:拆开取左部为第一部分;
(4)独体字:首码定为0。
4、利用上述键盘输入汉字的笔形码时,笔顺原则除了公认的从上到下、从左到右、从外到内、先里头后封口、先中间后两边、先横后竖、先撇后捺等原则外,还包括新制定的以下原则:
(1)先里头后包围;
(2)先折后竖;
(3)先主后附;
(4)下挡横收;
(5)下通竖收;
(6)先点先横先写折;
(7)后点后横后撇捺。
5、每个汉字的输入方法是:先根据汉字拆分原则输入1位首码,当剩余笔划数为1~6时,按上述笔顺原则分别输入各笔划的笔形码,剩余笔划超过6时,多的笔划舍去不输,每字数码最多为7个;当汉字输入中出现字的重码时,再以数字键选择,完成汉字输入。
该方法既可用于计算机的汉字输入,又可用于汉字检索,汉字检索的方法是:
(a)汉字的笔形编码仍是:点1、横2、竖3、撇4、折5;
(b)按汉字字形结构拆分定出该字的首码;
(c)该字拆分后的剩余笔划,可按笔顺定出各笔划的笔形码,但最多只取前4位笔形码,多的笔形码舍去,不足4位的用“0”补足4位,整个字的编码是5位。
进行汉字输入时,可利用计算机的标准键盘上的字母键,分别代表25个双码数键,每个字母键代表一个二位的数字键,共包括以下数字:
11、12、13、14、15、21、22、23、24、25、31、32、33、34、35、41、42、43、44、45、51、52、53、54、55
利用上述双码数键,在输入汉字的首码及笔形码时,可大大减少击键次数,双码数键可与单数码键0~9混合使用。
该方法还可用于常用汉字词组的输入,具体过程是:
(1)定出常用词组中每一个汉字的首码,以及最后一个字的尾笔划的笔形码;
(2)按顺序输入每字的首码及最后一个字的尾笔划的笔形码。
以下结合附图详细叙述本发明。
图1是笔形代号图;
图2是汉字拆分及定首码法则表;
图3是汉字笔顺规则表。
一、汉字检索
1、将汉字笔形分为5种,用1~5五个数码对应,笔形捺和提归人点类,按点1、横2、竖3、撇4、折5编码,具体可参见图1。
2、断开定首码。
汉字检索共用5位数码,从左至右的第一个数码为首码,确定方法是先判定要查汉字的字形结构,然后按结构拆分断开,定出首码,按拆出的该字的第一部分是由几笔构成,则首码就是几。
如:国3,群7,军2
若第一部分笔划超过9,则首码仍是9。
如:整9,蒯9
3、笔形码定为四位数码。断开定出首码后,其余四个数码按笔顺原则将剩余部分的笔划进行笔形编码,只取四笔,多的笔划舍去,笔划不够的用“0”补足数位。
例:做2 2335,礼4 5000
4、编码范例:
军,上下结构,拆开为、车、军2 2523
村,左右结构,拆开为 木、寸,村4 2510
国,包围结构,拆开为 囗、玉,国3 2232
中,独体字,中=0 3523
二、计算机汉字输入
1、笔型编码仍为点(捺、提)1、横2、竖3、撇4、折5。
2、汉字拆分及定首码法则见图2,首码用0~9数字对应。
3、按结构拆分断开后,剩余部分笔划按笔顺原则编出笔形码,每字最多取6笔,多的笔划舍去,少的不必补足数位。因此每个字的编码最多为7位。
4、将现有电脑的标准键盘上的25个字母键,分别刻上双码数字,代表25个双码数键,分别代表数字11、12、13、14、15、21、22、23、24、25、31、32、33、34、35、41、42、43、44、45、51、52、53、54、55。在输入汉字的首码和笔形码时,利用这些双码数键进行输入,能大大减少击键次数,提高汉字输入速度,又无需改动电脑的现有键盘。这种双码数键的设置可由系统软件来实现。
5、重码处理:当输入了汉字的首码和笔形码后,相同编码的一组汉字可显示在屏幕上,每个汉字的近旁同时显示出一个代表该汉字的数字,最后敲击代表欲输入的汉字的数字键,即完成了对该字的输入。例如:要输入汉字“阵”,其编码为2 2523,敲击双码数键(22)、(52),再按单码数键(3),这时屏幕上会显示出一组汉字,军1、阵2,最后敲击屏幕上“阵”字对应的数字键(2),就完成了对“阵”字的输入。
6、汉字输入和击键示范:
任何汉字的输入,既可用单码数键或双码数键单独完成编码输入,也可用单码数键与双码数键混合输入,但对于首码为6、7、8、9、0的汉字,其首码只能用单码数键输入。
例:一 = 02 (0)、(2)
仁222 (22)、(2)
团3254 (32)、(54)
胡54522 (5)、(4)、(5)、(2)、(2)
姑323352 (32)、(33)、(52)
篮6 334213 (6)、(33)、(42)、(13)
7、常用词组输入方法:
常用词组每个字取该字的首码,再加上最后一字的尾笔划的笔形码。整个数字编码的输入可以通过敲击单码数键完成。
例:中国共产党=034255 (尾笔为折)
北京=321 (尾笔为点)
湖南省=3242 (尾笔为横)
我们=025 (尾笔为折)
三、关于汉字结构的归类、拆分断开、笔顺规则及示例
1、汉字字形结构的归类和拆分断开
汉字字形结构共有7种:全包围、半包围、上下、上中下、左右、左中右、独体字等7种结构,现将它们合为以下四类:
(1)包围结构:断开取包围部分。如:国3,边3
其中被包围部分笔划与包围部分笔划紧密粘接的则不作包围截分,如日、月、田、巨、匹、四、勿、刀、戌、成等,下列字不作为包围结构:斗、头、义、叉、鬼、飞、以。
(2)上下结构:断开取上部。如:花3,章5
A、单笔不取,不是截然分开能作字的上部的单笔不截分,如:币、系、之、主、禾。能截然分开并能作字的上部的单笔可取,其上部结构只有横笔,如:豆、丽、三。亦即能截然分开的横笔可取为该字的上部。
B、字的上部也可以是两笔构成的部首,如羊、分、产。换言之,以两笔构成的字的上部,这两笔必须能构成一个部首。
C、对于横竖笔划相连的字以横笔及以上部分为上部,如:县5,去3,典6,表4。
D、在拆分时以部首截取,不拆散字的整体,如善、羌、养、益、咸、畿等字就不能拆成“羊”部或“戈”部,应拆成“丷”、“戊”或“”。
E、若截取上部后该字只剩下单笔与上部紧密相连,则该字属于独体字,如:广=0,亡=0,严=0。
(3)左右结构:断开取左边部分,如:江3,做2。其中若字的左边也是一个完整的字,则取其为该字的左部,如:孵7,鹚9,若字的左边是一个整体的,取该整体为字的左部,如:师2,顺3。
(4)独体字:其首码定为0,如:我=0,中=0,日=0,巨=0。
2、笔顺规则
汉字笔顺自古以来就是一个无法统一、规范的难题。由于汉字的笔划规则只有先横后竖、先撇后捺等,而先横后竖对于“上”、“非”等字的先竖又不能解释,致使汉字笔画书写无章可循,大家各凭爱好,使很多字出现了几种写法,而又无法判定其对与错,缺乏规范化。如“出”字,写法有:凵屮出、出、丨屮出等,因此在小学教学中不得不允许几种写法,如车、皮、匠、五等字也有同样问题,对汉字的教学带来很大的不便,也使得计算机的汉字输入和汉字检索缺乏对笔顺原则的规范化,不利于迅速对汉字进行编码。本发明结合汉字造字规律和现行约成俗定的正确写法,新制定出了七条笔顺原则,加强了汉字书写的规范性。
(1)先里头后包围:对于“这、建、函、幽”等半包围结构的字,先写里头,再写包围部分,如这:文、这,函:氶、函。
(2)先折后竖:折笔与竖和竖撇等笔划相交时,先写折笔,如:
队:、阝、队;报:扌、、报。
(3)先主后附:一个汉字或字的其中一个部分都有一个为主的笔划,称为主笔划,而其它的笔划是依附在主笔划之上,称为附笔划。主笔划先写。如:
匕:乚为主,丿为附,写法:乚、匕
飞:乙为主,为附,写法:乙、飞
兆:儿为主,写法:丿、、兆
隶:亅为主,写法:、隶
上:丨为主,一为附,写法:丨、、上
藏:丿为主,为附,写法:、……
(4)下挡横收:竖笔底端被挡住,则横笔做为末笔,如:
土:十、土
由:、由
鹿:广、、鹿
(5)下通竖收:竖笔或竖钩下面是通的,则竖笔或竖钩做为末笔,
如:中:口、中,串:吕、串
甲:日、甲,事:、事
(6)先点先横先写折:
A、凡点的位置在字的左上、正中的字,先写点划,
如:头、斗、以、义等字。
B、长横与竖画或单笔竖折相交的字,先写长横,
如:甘、十、七、寸等字。
C、折笔折的方向向左的字,先写折划,
如:力、刀、及、乃等字。
(7)后点后横后撇捺
A、点的位置在字的右上、右下、左下的字,后写点划,如:戈、玉、刃、甫、太等字。
B、长横与多笔画相交,中有折笔和竖撇,横笔后写,如:世、带、册。
C、凡在字或一个整笔形中,撇捺是最后两笔,如:火、爽。
本发明在用于计算机汉字输入时,经统计每字平均击键次数少于2.6次,略低于“王码编码法”的2.8次,输入速度非常快,而且方法简单、易学易记,易于推广普及。对于小学二年级程度的人,10分钟即可学会,不需要任何专业培训,20分钟即可上机操作、在电脑上输入汉字。同时,本发明的另一显著特点,是制定了汉字结构的拆分断开和笔顺的规则,解决了汉字以往在结构的拆分断开和笔顺原则方面无法统一的问题,便于汉字检索和计算机汉字输入的规范化,本发明符合汉字规律,见字即能出码,可广泛应用于汉字检索和计算机汉字输入。利用本发明可以制作汉卡、或通过软件手段构成一个汉字输入及处理系统。