一种易记易学的汉字形码计算机输入方法 【技术领域】
本发明属于汉字的计算机编码技术领域,具体涉及一种易记易学的汉字形码计算机输入方法。
背景技术
现有的汉字计算机输入方法众多,但使用较多的只有五笔字型输入法、拼音输入法。作为一种汉字输入法,首先是要能用最简单的方法把字检出,这也是为什么拼音输入虽然重码多,作为一种需要频繁选取重码字的输入方法,但还是能有那么多的人喜欢使用的重要原因。但是还有很多的人不会拼音,难道其它人就不能象会拼音的人用拼音一样的简单输入吗?输入法的重点是要简单、规范,而不是为了减少重码而使之复杂化,因为在潘德孚先生的文章里已经说明,静态码(单字)重码的多少并不影响汉字输入的速度,既然不影响,就可用比较简单的方法把字检出。单字输入只是确定输入地方法,而词组输入才是真正的目的,因为实际使用中词组输入的使用率远远大于单字输入。基于这种编码构思,才可能获得简单、快速的输入方法。
现有技术中,有把字和词都用三码输入的输入法,但是,一共用二十六个键,平均三码,其容量不到两万个,即使把数字键加进,共三十五个键,也只有不到五万的容量。很显然不能适应词组输入的要求。
另外还有用前面三码取形,最后一码取音的方法输入,以达到减少重码的目的,但这样不仅增加了输入的难度,又减少词库的容量,也失去了用型码输入的意义了。因为形码本来主要就是为不会拼音或拼音不好的人准备的,如果又要会拼音,还要记部件,那真是得不偿失。
也有使用笔画顺序检字,把字拆为两笔两笔的输入的两笔输入法,此种输入法虽然不须记忆任何部件,但把一个个字拆为两笔两笔,如“唱”字,拆为:竖折、横竖、折横、横竖,相当不直观,也不符合规范,而且实际使用中,其词组的重码率也是多不胜数,因为其“竖折位”基本上包括了所有的竖起头的字,而“横竖位”也基本上包括了百分之八十以上横起头的字,所以也不足取。
另外,象王码五笔之类的输入法,虽然单字的重码率较少,但其代价是部件大都是无理安排,字的拆分困难、不规范,取码复杂,不直观,就王码而言,就列出了两大篇难拆分的部件,难拆分的字就更不用说了。所以除了专业人员,大部分人都难以掌握,这也是音码使用的人还那么多的重要原因。
【发明内容】
本发明的目的是针对现有汉字输入方法存在的不足,提出一种易记易学的汉字形码计算机输入方法,使用笔画顺序检字法,使用大部件将汉字按块拆分,有规律的键位安排,单字(静态码)编为三码,词组(动态码)编为四码,使之简单化,使单字在输入时能最快、最简单、最准确的达到静态码检字的目的,而在输入词组时静态码和动态码之间也不产生重码,又可增大词库.可以说在本输入法里不存在难拆分的字,而且取码相当直观,根本不须动脑筋,就可达到汉字输入的目的。
本输入法因为使用了笔画顺序检字法和有规律的键位安排,使记住全部部件和输入方法,要比记住二十六个英文字母所在的位置还要简单,因为本输入法的键位是有规律的排序,部件的生成有法可依,而二十六个英文字母的排列是杂乱无序的。
一、概念定义:
首先,本专利特别定义了如下几个概念:部件和部分、键面高频字和独体字、第一笔和第二笔的定义:
(1)部件:是指最小的不再拆分的独立单元,它包括键面高频字、独体字,五种单笔画和偏旁等等组成的,是可以直接参与构字的最小单元。
(2)部分:是指由各类部件组合而成的组合字或组合体,它本身就是一个由两个以上部件构成的字,但在其它更复杂的字里它也只是其中的一部分,是还可以继续参与其它字组合的复合部件。
(3)键面高频字:就是自定义安排在二十六个英文字母所对应的键盘上的,只取一码的二十六个常用字。本输入法的高频字因为它本身不是简码,所以,它可以当作部件直接参与其它字或词组的组合。
(4)独体字----无理安排的偏旁字、交重的独体字和自定义的独体字,此三类本来是应该归于同一类型,但因为了便于记忆才分为三种类型,所以,这三种字的功能,作用,取码方法都完全一致。其中无理安排的偏旁字就是起分流作用的偏旁字,因为汉字有其独特的结构,如果不分流,将会造成有些键位拥挤,有些键位闲置,不利于键位的合理使用,所以本输入法把二十四个偏旁字分别无理安排于不同的键位,使用每个键位物尽其用,达到平衡的目的。具体内容请参考图3、表2、表3。
(5)第一笔是指每个字或部件的起笔笔画,第二笔是指紧接第一笔的笔画,在这里,第一笔和第二笔以及它所组成的部件,从原理上是可以独立存在的,有不可分割性,而不是由单笔画与另外部件的组合体,这点很重要。如“亻-艹”等等,而不是象“禾长秉重垂身歹两丐户”等十字由单笔画与另外部件的组合体,只不过这类字只有以上十个。
二、取码单元的确定和键位安排:
本输入法将汉字分解成部件和部分作为取码单元,以每个部件或部分的第一笔和第二笔组合,将各种笔画组合分配到普通英文键盘的二十五个字母键上(除N键以外),重码用0-9十个数字键选取。把除了“N”键以外的二十五个键分为五个区,把除了键面高频字,独体字(无理安排的偏旁字、相交不拆的独体字和自定义的独体字)以外的各部件按第一笔画定区,第二笔画定位,各以第二笔“点横竖撇折”的顺序在每一区自然排序。
五区设计原理:横和竖起头的字可以说要占全部汉字的六七成,折起头的字是五种笔画里最少的,所以,把横区和竖区安排于双手的最佳位置,而把折区安排在位置最差的位置。这种安排符合对键盘最佳区域的合理使用,便于在多数情况下,双手能运用自如。
键位安排:参见图1,各区位具体安排从上从左开始,以双手食指在键盘上的自然位置作为点位的起点,以第二笔的笔画依照“点横竖撇折”的顺序在各区自然排列。
五区记忆简法:从上从左按书写顺序写“人十乙”三字。
五位记忆简法:以双手食指在键盘上的自然位置作为点位的起点,分别是:食指-点,中指-横,无名指-竖,小指-撇,食指-折。
按键盘上的所在位置对应如下:
(1).撇区:Q撇位,W竖位,E横位,R点位,T折位。
(2).点区:Y折位,U点位,I横位,O竖位,P撇位。
(3).横区:A撇位,S竖位,D横位,F点位,G折位。
(4).竖区:H折位,J点位,K横位,L竖位,M撇位。
(5).折区:Z撇位,X竖位,C横位,V点位,B折位。
取码单元,结合本方法的部件总表,表1:
易码部件总表
1、键面高频字:本输入法选择了二十六个高频字作为键面字,直接作为取码单元,分配到普通英文键盘的二十六个英文字母对应的键位上高频字只取一码,在汉字输入和拆分时可以直接作为部件使用,其键位对应关系参见图2:
设计原理:有许多输入法把高频字定为简码,虽然单字输入时可以起到快的作用,但也给后来的字的组合与词组的输入带来一些误导,也就是说你在单字输入时用惯了高频字,但在输入词组或对字进行拆分时,却因可能要在其它键位才能找到这个字而起了误导作用。而即使是一级简码也没有比用词组输入的速度决,但高频字在两字词组里使用率是最高的,既然高频字是必须有的,也是必须记忆的,就必须使它的功能扩大,使你的记忆不至于浪费。所以,直接把它定为一码字,这样在两字词组里高频字连按两下,不必再去找第二码,可以真正起到简单而快捷的作用,在其它字的组合里可以直接当部件使用,也不会让输入时产生混乱,使之与输入法本身熔为一体。
2、五种单笔画独立成部件,因为它们的使用率较高,所以,安排在每个区的第一位置,也就是各区的点位:U-点丶,F-横一,J-竖丨,R-撇丿,V-折乙。“点”还包括捺笔,“横”还包括提笔,“竖”还包括竖左钩。
3、无理安排:(1)在“横点位”(F)增加三横起笔的部件和字,(2)在“横横位”(D)增加横一竖出头的部件和字。其中″三″是″一″的三次重复
4、独体字(无理安排的偏旁字、相交{交重}不拆的独体字和自定义独体字)
(1)无理安排的偏旁字,其键位安排参见图3:撇区:Q月白舟,W八, E, R金, T。点区:Y言衣示,U, I, O文, P。横区:A, S寸, D, F王不, G雨丁。竖区:H, J水, K足, L口, M日虫,。折区:Z, X耳山, C西, V手, B。
N木
设计原理:汉字的独特结构使之不能完全依从第一笔定区,第二笔定位的规定,因为如以“竖”起头的字除了“竖-横”“上”起头的字以外,其余的字第二笔基本上全部折笔。以“横”起笔的字,“横-竖”起笔的就有“扌木古十土艹”等等。如果这样,那不管你输入单字或词组重码就多得多了。所以,必须安排起偏旁作用的偏旁字,以起分流作用。本输入法选取的这些偏旁字虽然是无理安排,但也有规律可循,如“竖区”“足”的下部是“竖-横”起笔,“口日目”是以增加一横的规律排序,“言衣示耳”归于它所代表的偏旁等等。
(4)相交(交重)不拆的独体字:以下两类字主要是以第一笔定区,第二笔定位的规律来排序的。其中有些字从无理安排的偏旁字衍生出来,有些需要依其主体结构确等因素来确定位码,参见表2:第一笔 第二笔点位 横位 竖位撇位折位撇区R E朱失牛 W臼臾Q用甩T及乐九点区U I O必P单半Y横区F耒丰 D夫未末专甫事韦井 S世A丈吏夷G东车牙戈戋七屯竖区J K L史串M果禺由里曲田甲申曳电H内央冉册丹巾折区V C弗尹 X蚩Z女力B书母孓子孑毋乜N本束柬朿
(3)自定义的独体字(包括偏旁字、难拆分的字):这类字在使用中需要分析以后再记忆,如一个不成字的部件增加一笔:广方亡久尢尸已幺刀乃几儿卜入丘乞等等,大偏旁字:马鱼骨革歹黑走齿等等,难拆分的字:身年亥臣凹凸丑非等等,因为这些字的位置是依照规律生成的,所以不须记忆它所在位置,只需了解有这个字就行了:参见表3:第一笔 第二笔点位横位竖位撇位折位撇区R禾长入秉重垂身E生乍年气乞W父隹川片Q舟鬼丘斤T夕久鱼角儿几点区U户I六亥立广方亡O门P火米羊Y横区F歹两非丐D走二士干于S五甘革A石厂戊万尢G弋与匕臣竖区J卜光K齿止凸L业M口H黑骨贝四且皿凹目折区V乙予C艮丑酉尸已己弓巳XZ发皮乃刀 B幺马
为了便于记忆,本方法对以上两点中,没有按第一笔定区,第二笔定位的规则生成的字,分析它的来源,作简单的分类:
(1)从高频字和无理安排的偏旁字中引申出的字:月-用甩,白-鬼,口-史串,日-果禺由里曲甲申曳电田,西-酉,八-父,小-光。
(2)依从主体结构的字,按主体结构取确定位码的字:ナ-吏,大-夷,七-屯,匚-臣,木-束柬
(3)与主体分离的字,这类字本身是由单笔画和另外的部件合成的,它们只取第一笔作为位码,定位于点位,此类字只有十个字:禾长秉重垂身歹两丐户
(4)相似的字归于一类的字:七-匕、日-曰
6、不成字的部件(除了从高频字和无理安排的偏旁字引申出来、有称谓的偏旁以及相似于高频字和独体字的部件外),其余全部部件按其第一笔定区,第二笔定位的规律自然生成。因为本输入法单字只取三码,所以对这类部件的要求大多只局限于其起笔的第一、二笔及所生成的部件,你只要记住起偏旁作用的部件一律不拆(包括:印既印卯所缸等等字的左边部件),而不须记这些部件到底有多少,有多大,因为这类部件主要用于第二码的取舍,而本输入法因第二码只取前面的部件,第二码和第三码之间的部件已经省略。所以,你真正使用的主要只是部件的前两笔而已。
(1)在确定取码单元时,将相似的部件归于一类:水-录字的下部和水字除去竖左钩剩下的部分,衣-衣字下部和再下面的竖钩撇点、豕-豕字的下部、小-步字的下部、宀-冖和穴头、羊-业-亦字的下部、丬-北字的左边、冂-周字外框,手-看字头,曲-典字头,ソ-学字头和兴字头都归于“点撇位”。
(2)有称谓的偏旁或部件归于名下:文-攵夂、言-讠、衣-衤、示-礻、心-忄、水-氵、手-扌、人-亻、金-钅、火-灬,刀-刂。冬字头因本身书写的因素归在文(攵)部。“灬”因为是由“火”变化而成,所以,归于“火”部。
(3)除了“象免衰堇”等字的中间部分以及“史串”等字归于“口-L”、“日-M”和“足-K”以外,其余“竖折”的部件全部归于“目”部“H”键
二、字和词组的取码方法:
我们知道大部分汉字都不是孤立存在,而是由几个部件或几个独体字组成的,但以往我们把这些部分细化,拆成许多单笔画或小部件,从而把一个简单的字复杂化。在这里,本输入法取码规则规定:单字(静态码)最多取三码,词组(动态码)取四码,取码部件在三个以上时,尽可能把这些部件先合成字,再用这些字组合成更加复杂的字。
(一)单字取码方法:
本输入法单字只取三码,所以其第一码和第三码并无多大争议,而主要的难点都集中在第二码的取舍上。而因为汉字的特殊结构真正有争议的字又少之又少,所以,可以说本输入法没有难拆分的字。
本输入法因对全部部件作了相当规律的集中,单字又只使用三码输入,所以在输入时可以采用模糊输入,也就是只需知道字的大概结构,而不需要对每一部分或部件都详细了解,就可输入了。如果单字取四码的话,你还需要分析第三码怎么取,而中间的码是最不好取舍的部分,所以只有单字取三码才能真正做到型码的模糊输入。
具体取码方法如下:
1.键面高频字只取一码,在这里,高频字的一码是本来就只规定为一码,而不是简码,所以,高频字本身可当部件使用直接参与其它字的组合。其它偏旁或部件与它组合成字,而高频字又处于第二码时,只取偏旁一码和高频字一码共两码。
2、独体字(无理安排的偏旁字、相交(交重)的独体字和自定义独体字)的取码方法:此三类本来是应该归于同一类型,但因为了便于记忆才分为三种类型,所以,这三种字的功能,作用,取码方法都完全一致。对于上述三类字,单字只取所在位码再加末笔共两码。其它偏旁与之合成字,此独体字正处于第二码时,取偏旁一码和所在位码一码再加末笔一码,共三码。
3、本输入法对以下三种类型的字作了简化输入,本输入法之所以选这三类字是因为它的结构特殊,比较好区分,相当直观。而对其它类型结构的字就不再划分了,全部不必管它是什么结构。这三类字在取码时把每个字分为三部分(这里的部分不要求成为字,而是按其结构而定),而每一部分可能是由几个小部件构成,而在取码时只取每一部分的第一部件,对后面的部件置之不理。此三种是:(1)左中右结构的字:如假修,(2)左右下结构的字(包括第三码是走之底的字):如繁骜臂遐,(3)上左右结构的字(这种结构的字大多是草头、宝盖、雨头、广、疒、尸、户等起笔的字):如霞蒎癞覆屐。
4、部件多于三个的字:
(1)由几个部件组合成的字:先尽可能的把几个部件组合为字,再用已经组合的字再组合成所需的字,此点说起来复杂,但使用中其实是一目了然的,因为看一个个的字要比看一个个的部件或一笔一画直观得多。例如:嘉偷搋嚓撰。在此我们举个例子,比如有人问你“嘉”字怎么写,一般你不会说上面是“士”,接着是“口”,再下是“并”头,接着是“力”,最后是“口”。你会说上面是“吉”,中间是“并”头,下面是“加”,简单而又易懂。本输入法就是基干此种原理而如此设计。
(2)由多个部件各构成的两个字再组合形成的字,拆前面的字而不拆后面的字:如够翕。
(3)由多个部件各构成的两个相同的字再组合一个字(叠字),先连取两个第一码再取最后部件。此点主要为了直观的原因而如此规定的。如赫弱。
(4)除以上的特殊规定外,其余的多部件字按书写顺序分别取:第一部件取一码,第二部件取一码,最后部件取一码,共三码,如鹩源彀。
5、对于不足三码的字,加最后一笔补足三码。这类字前面已经涉及到了,就是独体字,其它偏旁与之组合,而其处于第二码,不够三码时,补加末笔。这里还有诸如部件与部件之间组合,由两个部件构成的只有两码的字和“九木几予刀大”等加一笔成“丸术凡矛刃犬”的字这类字补加最后一笔,补足三码,如勾私。
6、只由三个独立部件组成的字,按书写顺序各取一码。此类是最没有争议的组合,它没有多余的部件,这也是在汉字里数量比例最大的类型,它和两码加最后一笔的字占了全部汉字的绝大部分。
7、偏旁类(如:亻氵丨丿豸缶)的取码方法:连取所属位码两码再加“E”
三、词组取码方法:
(1)两字词组:按顺序各取两字的第一,第二码,只取一码的键面高频字连取两码。
(2)三字词组:按顺序前两字各取第一码,第三字取第一,第二两码。只取一码的键面高频字处于第三字时连取两码。
(3)四字词组每字各取第一码。
(4)四字以上的词组只取前四个字,前面四字各取第一码,此法的意图是:第一,比较直观,只读前四字,反应迅速,取码快。第二,诸如有些长句或者中间有逗号的长句如果取一二三字和最后一字时,也许碰到没有这么长的句子,而需要重新输入;而正想输入长句时,又因怕没有这些长句而错过了输入长句机会,故只取前四字,就可以避免此类问题了,有长句就取长句,没有就取前面几个字,也不用重新输入了。
本输入方法的优点:本方法因为需要记忆的东西很少,只有二十六个高频字和二十四个起分流作用的偏旁字,一共五十个字,主要需要记的是二十六个高频字,因为高频字中除了“T”键的“你”字外,可以说已经包涵了主要的偏旁、笔画和偏旁字,如是-日、的-白、说-言、中-口、要-西、心-忄、我-丿、为-丶、学-学字头等等。这五十个字也有一定的规律性,所以,你不须为记不住这五十个字而伤脑筋。对所有偏旁不拆分,使你在操作时使用大部件输入,不必再为了这类部件怎么拆而拿不定主意。本方法对于单字只取三码,词组取四码,使用了最简单的方法就把字检出,虽然重码相对有点多,但本输入法单字只使用了三码,而用数字键选取重码要比拆字简单得多,在实际使用中真正选字的机会是很少的,一是因为在输入时有五千个多的单字排于第一位,不需选取;二是因为有大词库的支持,需要选取的字大都可用词组输入避开。在词组输入时,因为本输入法单字只用了三码,节约了大量的空间,没有了字与词之间的重码冲突。本方法因对部件作了相当规范的安排和使用大部件。所以,不管输入单字或者词组,都不存在难拆分的字。
【附图说明】
图1是用本方法为了帮助熟悉键位而设计的以手定位示意图
图2是高频字与键位对应图;
图3是偏旁字与键位对应图。
具体实施方式:
以下是本输入方法的对具体字、词的取码做详细例举说明:
一:字
1.键面高频字只取一码:如:人-w,可-g,上-k,心-o,学-p。
其它偏旁或部件与高频字组合成字,而高频字又处于第二码时,取偏旁一码和高频字一码共两码:如:认-讠人yw,河-氵可jg,让-讠上yk,忘-亡心io。
2、独体字(无理安排的偏旁字、相交(交重)的独体字和自定义独体字)的取码方法,此三类本来是应该归于同一类型,但因为了便于记忆才分为三种类型,所以,这三种字的功能,作用,取码方法都完全一致:
(1)此三类字只取其所在位码加上最后一笔。例如:日-mf、其-su、走-du、夫-du、事-dj、井-dj、年-ej、广-ir重-rf、长-ru。
(2)其它偏旁与合成字,此独体字正处于第二码时,取偏旁一码和独体字所在位码一码,再加末笔一码,共三码。例如:旧-丨日(横)JMF、棋-木其(点)NSU、徒-彳走(点)qdu、肤-月夫(点)qdu、讲-i井(竖)ydj、扩-扌广(撇)viR、锺-钅重(横)RRf、苌-艹长(点)Sru。
3、左中右、左右下、上左右(上左右这种结构的字大多是草头、宝盖、雨头、广、疒、尸、户等起笔的字)结构的字,每字分成三个部分,取每部分最前面的部件各一码:如:假一亻WCC、修-亻丨夂WJI、繁-每攵糸EIB、骜-FIB、臂-尸立月COQ、霞-雨GCC、蒎-艹氵SJQ、癞-INT、覆-CQE。
4、在部件多于三个的字:
(1)由几个部件组合成的字不拆。先尽可能的把几个部件组合为字,再用已经组合的字再组合成所需的字,再按拆分出的部件或部分顺序取第一、二部分或最末一部分各一码。例如:嘉-吉加DPZ、偷-亻人刖WWQ、搋-扌虎VQK、嚓-口宀祭LUT、撰-扌已共VCS。
(2)由多个部件各构成的两个字再组合形成的字,拆前面的字而不拆后面的字,如:够-勹口多TLT、翕-人一羽WFV。
(3)由多部件组成两个相同字再组成的叠字,先连取两个第一码再取最后部件,如:赫-土土DDL、弱-弓弓冫CCI。
(4)除以上的特殊规定外,其余的多部件字按书写顺序分别取:第一部件取一码,第二部件取一码,最后部件取一码,共三码,如:鹩-大ソ鸟APT、源-氵小JAJ,彀-土冖殳DUT。
5、对于不足三码的字,加最后一笔补足三码。如:丸-九(点点)TUU、术-木(点点)NUU、凡-TUU,矛-VRR、刃-ZUU、犬-AUU、勾-勹厶(点)TVU、私-禾厶(点)RVU、印-卩(竖)TXJ、来-未ソ丿DPR、平-干ソ丿DPR、夹-夫ソ丿DPR。
6、只由三个独立部件组成的字,按书写顺序各取一码。如:清-氵月JFQ、祷-礻寸YFS、花-艹亻匕SWG。
7、偏旁类,连取所属位码两码再加“E”:如亻-WWE,氵-JJE,丨-JJE,丿-RRE,豸-RRE,缶-EEE。
二、词组取码方法:
(1)两字词组:按顺序各取两字的第一,第二码,只取一码的键面高频字连取两码。例如:“词组”取“讠司纟且-YVBH”;“一个”取“一一人丨-FFWJ”。
(2)三字词组:按顺序前两字各取第一码,第三字取第一,第二两码。只取一码的键面高频字处于第三字时连取两码。例如:“不可能”取“不可厶月-FGVQ”;如“我们的”取“我亻的的-RWQQ”。
(3)四字词组每字各取第一码。例如:“喜气洋洋”取“吉气氵氵-DEJJ”
(4)四字以上的词组只取前四个字,前面四字各取第一码,例如:“只许州官放火,不许百姓点灯”,只看“只许州官”四字,取“口讠宀-LYPU”。这样取的目的是,第一比较直观,只读前四字,取码快。第二诸如“只许州官放火,不许百姓点灯”这种长句第四码如果取最后一字取“只许州灯”四字,有可能没有这个词组而需要重新输入,而只取前四字就可能不会有这种问题。