本发明涉及计算机汉字键盘输入领域。 目前汉字编码的现状是:汉字的编码方案不断推出,已达到几百多种,这几百种编码方案,大至可分为三大类,即拼音码,形码,音形码。
尽管汉字的编码方案已达数百种,而且对于专业人员来说,汉字的输入问题已不太大,但对于一般的计算机用户来说,汉字输入的“瓶颈”问题远还没有解决,人们普遍感到输入汉字远非输入英文那么容易。
造成这一现象的原因主要有:
1.汉字的字形复杂。
2.汉字的输入处理程序水平不高,尤其是在重码的智能化处理、词处理和联想处理等方面。
3.汉字系统缺少规范化,系统开发总是在一个水平上重复进行。
当然,第一个原因是汉字本身所决定的,无法改变。但目前绝大多数的输入方案仍然停留在通过编码来减少重码的水平上,既使目前最为流行的几种输入方法也是如此,为了减少重码,不得不人为地规定一些规则,增加了学习的难度。
使用形码输入汉字必须做到两点:
1.记住所有字根
2.按照编码规则将汉字拆成几个的字根。
字根难记几乎成了目前汉字编码的通病,因为重码少是提高汉字录入速度的必要条件,而且重码少是评价一种编码的一个重要的技术指标,这样,减少重码便成了编码方案的发明人考虑最多的问题,正因为人们要考虑重码问题,使得他们在设计汉字编码方案时不得不增加许多附加地规则,这样就进一步增加了学习该输入方法的难度,更有甚者,一些输入方法有很大的一部分汉字的编码是违反编码规则的,这是它的设计者为了减少重码而故意这样做的,这又大大增加了学习该输入方法的难度。
例如五笔字型就是一种形码,它规定了一百多个字根,并用25个英文字母代替这些字根,这些字根是按五种笔画分成五类的,每一类覆盖五个英文键,编码时按一定规则将某汉字尽可能拆成四个部分,但是五笔字型,它不但字根难记,而且即使记住了字根,怎样将汉字拆成四个部分,仍然有很大的难度,如果一个汉字拆的次数越多,拆字难度就越大,误码率也越大,不够四码的还增加一个识别码,更加增加了拆字的难度。另外,五笔字型为了减少重码,人为地违反编码规则定义一些汉字的编码。
为了减少记忆量,一些编码方案抛弃字根编码,通过笔画或笔形编码,如五笔画,“杞”形码,二维三码等,这些汉字的编码元素不外乎是横、竖、撇、点、捺、弯等,显然这种编码是相当好记的,甚至可达到一看就会的程度。
然而按这种笔画或笔形输入汉字的方法,其效果往往并不太理想,事实上,汉字的字根相当英文的字母,如果花一定时间记住字根,输入汉字时便会立刻反应出该“字母”,其过程中思考的量最少。与此相反,采用笔画输入汉字则存在许多问题,一是拆字难度大,二是思考过程多,如考虑笔画的先后顺序,三是重码多,远不如使用字根那么直接。
二维三码也是一种形码,它未规定任何字根,而是以笔形结构为编码的基本部件,使用27个键编码,码长为三。然而尽管二维三码采用三键编码,而且无需记忆字根,但经实验证明,该输入方法也并不完善,一是其重码较多,并未采取较好的智能化处理重码的手段,二是其采用笔形结构对应键盘的二维坐标进行编码,因而在输入汉字的过程中,在脑海中最先反应的并不是编码字母,而是通过笔形结构在坐标中位置,再反应出该字母,比用字根输入汉字多了一个思考的过程。三是二维坐标对于小学生是一个很难理解的概念。所以说二维三码好学,但不是高效的,其并未考虑心理学因素。
所以,作为形码,规定字根是极为必要的,而且字根越多、越大,拆字次数越少,拆字、编码越容易,输入汉字越快,但是字根会变得难记。
用拼音字母代替汉字,是直接了当的事情,对于懂拼音的人来说,使用拼音输入汉字,是最容易不过的事情。但是用拼音输入汉字,至少有两个缺陷,一是速度低,因为拼音的重码太多;二是我国多数人不会拼音或拼音不准,台湾、香港等地方根本就不使用大陆的汉语拼音。
音形码结合音码和形码的优点,对于稍懂拼音的人能很快学会,五十字元为一种音形码,同形码类似,它需要拆字,并规定了五十个字根,但是其与纯形码不同的是,它的字根是该字根的声母,故不需要强记字根。但是音形码的重码率却介于形码和音码之间,而且它的最大不足是人们在输入汉字时既要反应汉字的形以便拆字,又要反应该字的读音,多了一个思考过程,所以它看打不如形码,听打不如音码,效果并不太好。
本发明的目的是设计一种汉字输入方法,其简单易学,重码少,输入速度快,及设计一种使用该方法的汉字输入键盘。
形意三码也是一种形码,是以拆字为基础,但要做到好学,设计的字根必须好记,而且拆字容易。
形意三码的字根的设计都是以好学为前提,它归纳了140个常用字根,并将这些字根分为三类以便记忆。对于一些简单而且与英文字母象形的字根用该英文字母代替,如“ソ”用V代替,对于一些大字根而又无法象形的字根按意思归类,用某一键代替,如马、虫、鸟、牛、鬼、鱼、鼠、虎、龙、豕、兔等字根用“a”代替。对于一些不属于上述二类的字根用笔画代替,如“ ”用撇代替。而形意三码未规定的非常用字根也用笔画代替。
按照上述定义字根的原则,形意三码使用了三十个键编码,这三十个键分成三类:这三类分别为表意类(表1),象形类(表2),笔画类(表3),这140个字根几乎覆盖所有的常用字。
(一)、表意类共有八个键,即Aa(动物)、Ss(器官)、Mm(植物)、Kk(果实)、Tt(土地)、Jj(金属),Rr(人),Bb(日月),如表1。
表1、表意字根
这些字根的记忆方法为:
A 位于键盘最左边,A为英文单词animal(动物)的第一个字母;
S 位于A(动物键)旁边;
M 位于键盘右边,M为“木”的声母;
K 位于M(植物键)旁边,“衣”或“衤”大多为棉制品,“礻”看成“衤”的变体,K旋转不同角度与“火 斤 爿 丌”象形,“火”字去掉左边那一点变成了大了写“K”。
R象人的草图,“人”字的读音的声母为r,“攵”与R象形。
T“土”、“土”、“七”、“匕”、“士”与小写t很象,“丁”则与大写T很象。
J为“金”的汉语拼音的声母,大概现在的“车”和“舟”(船)都是金属制品。
B与“日”、“月”两字很象,而且“日”“月”同辉,共同发出“白”光。b与“白”轮廓很象。
(二)、象形类包括17个键,这十七个键又可分为四小类:即圆形类、交叉类、框形类、表形类,如表2。
记忆方法:
①圆形类有二个编码键O,Q
O是Q的一个特例,不同的是Q是有内容的口,正象Q的本身带了一个尾巴似的。所以它们有一些很相似的地方。可以这样看待:除小“口”外的所有成封闭状的字根,都用Q表示。
②交叉类有三个编码键:X、H、F
X为只有一个交叉点的字根;
H旋转90°便成了“工”,H的两边出头佰成了“艹”,“廾”。
H代表有两个交叉点的字根(“扌”例外);
有三个交叉点的字根用F表示,“手”、“丰”及“韦”是最典型的例子,“扌”念作扶“手”旁,故它可看作“手”的变体。
根据交叉点的数目,很容易记住X、H、F。
表2、象形字根
③框形类有编码的键四个:C、N、U、D
朝右边的框用“C”代替;
朝下边的框用“N”代替;
向上向左的框属于U,U象没有弦的“弓”箭。
“刀”,“力”很象未封口的D。“大”的汉语拼音的声母为d。而“尢”是“大”的变体。“女”与D中间都有一个口。
④象形类有八个编码键,即Ee、Gg、Ii、Pp、Vv、Ww、Yy、Zz。
E旋转不同角度便变成“山”,“彐”,“巾”,“屮”。肀则为它们的变体。“王”、“ ”则为两个E的叠加;
戈的声母为g,G同“石”轮廓相象,
Vv所代表的字根由二个笔画组成。即“冫”、“丬”、“儿”、“八”、“ソ”
W旋转不同角度与“纟”、“幺”、“”,“小”象形,而“水”看成的“小”的变体。
Y旋转90°变成“亠”,Y旋转180°变成“卜”。
(三)、笔画类:
本发明设计了五个笔画键,如图1、表3,即“,”(横)、“丨”(竖)、“;”(撇)、“'”(点或捺)、“[”(弯),它们位于键盘的右边。当击该键时,提示行并不一定出现上述符号,而是出现“-”(横)、“丨”(竖)、“/”(撇)、“\”(点或捺)、“[”(弯)。下文所述的“横竖撇点弯”,分别用“-丨/\[”代替。
例如:当输入';丨后,提示行上显示:
半角 形意三码:\/|1:州
此时“州”字也显示在主屏幕上。
本发明将键盘上的“?”号当作模糊键,对不会拆的字根用“?”键代替。此时提示行会出现多个汉字,使用“-”和“=”翻页。
注意:无需按Shift键,只按该键,“?”便出现在提示行。
表3、笔画字根
由这140个字根组成的键盘如附图1,图1中的“动物”是指“犭马牛龙鸟虫羊豕豸鱼鬼鼠”,“动物器官”是指:“毛爪心忄皮耳舌羽角身骨齿”。“植物”是指:“木禾竹”;“果实”是指植物的果实及制品,即:“米豆谷瓜衣衤礻”,键盘上没有规定的字根用其首笔所处的笔画键代替。
本发明的汉字编码码长为三,取码过程中也只需将汉字拆成三部分,而且定义的字根较大,很大程度上减少了拆字难度和拆字的多义性,本发明是按字形结构进行拆字取码的。
如表4所示的字型1,能够拆出三个部分,按左右顺序取三码,如果能拆出三个以上部分,则取一、二、末码。
例如:
“例”字,其取码为“亻”、“歹”、“刂”,故其编码为RGL。
“顺”字,其取码为“丿”、“丨”、“丁”,故其编码为/LT。
表4、拆字规则
如表4所示的字型2,从左边只能拆出一码,但右边可以拆出两码,则按顺时针取三码,即按左边→右上角→右下角的顺序取三码。
例如“按”字,其取码为“扌”、“宀”、“女”即编码为“f[d”
如表4所示的字型3,左边和右边均可拆出两码,按顺时针方向取三码,即左上角→右上角→右下角;
例如“能”字,其取码为“厶”、“匕”、“匕”三个部分,其编码为“UTT”。
如表4所示的字型4,右边只能拆出一码,而左边则可拆出两码,为了照顾书写汉字常规,取左下角作为第二码,右边的那部分作为第三码。这时右边多为“阝”、“刂”、“王”等及形意三码规定的一些意码键。
如“部”字,其取码为“亠”,“口”,“阝”,其编码为“YOP”。
又如“群”,其取码为“彐”、“口”、“羊”,其编码为“EOA”。
如表4所示的字型5,这种类型的汉字属于上下结构,为了照顾书写习惯,左下角作为第二码,右下角作为第三码,
如“命”字,其取码为“人”、“口”、“卩”,故其编码为“ROP”。
如表4所示的字型6,这种类型的汉字依左上角→右上角→下边,这样的顺时针顺序取三码;
例如“型”字,其拆成“-”、“刂”、“土”,故其编码为“-LT”。
如表4所示的字型7,这种字到属纯上下型字体,从上到下依次取一、二、末三码,但第二码尽可能取字根,避免取笔画。
例如:“金”字,其取码为“人”,“王”,“ソ”,故其编码为“REV”。
“量”字,其取码为“日”、“日”、“土”,而不是“日”、“-”、“土”,因为尽可能避免取笔画,故其编码为“BBT”。
如表5所示的字型8,即“之”字形,本发明将这种类型的汉字归入一类,不管其第一部分如何复杂,第一码统一取成“L”。
例如:“题”的取码为“L”,“ㄒ”,“人”。即其编码为“LTR”,
“趁”的取码为“L”,“人”,“/”,即其编码为“LR/”。
如表5所示的字型9,属于里外结构,外面的那部分作为编码的第一部分,其编码统一定为Q,里面再取两码,里面的取码规则同前面8种类型。
例如“国”,其取码为“囗”、“王”、“\”,故其编码为“QE\”。
对于只能拆出两部分的汉字,则只取两码,此时若提示行显示该汉字,则补以空格键,若提示行未显示该汉字则补以“.”键。
例如:
“取”的取码为“耳”、“又”,其编码为SZ,补以空格输入该字
“码”的取码为“石”、“马”,其编码为GA,补以空格输入该字
“迷”的取码为“辶”、“米”,其编码为LK,补以“.”输入该字特殊情况:
当某汉字只能拆出两码,而其中一字根为“皮”、“舌”、“骨”、“龙”之一时,则可取该字根的下面那部分作为第三码,例如上面几个字的第三码分别是“又”,“口”、“月”、“匕”,其它字根无例外。
例如:“波”拆成“氵”、“皮”再添加“又”,即其编码为“\SZ”。
总之,拆字的原则为从左向右,从上到下取三码。
本发明独创“字根码”,“字根码”的编码长度为二,本发明的“字根码”共收集汉字330个,其中包括成字的字根90个,常用汉字240个,其编码如表5。所有的这些汉字仍保留原形意三码的输入方式。
“字根码”的编码很简单,输入成字的字根的方法为:
<该字根的键名>+<数字键>二键即可输入。也可以用<该字根的键名>+</(?)键>,再用相应的数字键选择输入;
“字根码”中的一些常用字的输入方法为:
<该字第一码>+<数字键或空格>两键输入;
当然,初学者是无法记住这些汉字,为了查询“字根码”同时输入成字的字根及常用汉字,可以在输入第一码后输入模糊键?。具体的输
表5、字根码中所有的330个汉字及编码
入方法为:
输入<该字根的键名>或<该字第一码>+<模糊键?>后,便在提示行中显示该键所有的11个“字根码”汉字,再敲入相应的数字,便可输入该字,全过程也只击键三次。
例如:输入y/后,提示行显示:
半角 形意三码:y? 1:丫2:卜3:商4:市5:文6:六7:齐8:部9:就0:离:上输入相应的数字便可输入该汉字。
1:丫2:卜为字根,其余9个汉字为常用字。
从上面可以看出,定义在y键上的字根有“丫”、“卜”、“亠”。
按一般情况上述11个汉字的输入码为:
丫(/[空格),卜(1/空格),商(YNO),市(YE空格),文(YX空格),六(YV.),齐(YXV),部(YOP),就(YD/),离(YUN),上(Y-空格)
按字根码输入则为:
丫(y1),卜(Y2),商(Y3),市(Y4),文(Y5),六(Y6),齐(Y7),部(Y8),就(Y9),离(Y0),上(Y空格)
这些240个常用字是发明人选定的,为了便于记忆,这些常用字所对应的数字通常是比成字的字根对应的数字大,而且多数汉字与其对应的数字键谐音。
字根码的作用有三:
1、有利记住字根;2、输入字根;3、加快输入速度
另外,学习字根码可以熟悉形意三码的编码规则,领会形意三码编码本质规律。
字根码中的330个汉字的累计使用频率高达50%,而这些汉字的只需敲两键就可输入,因为其它字可三键输入,故本发明单字输入的平均码长可达到2.5键/字(包括空格);
本发明字根的设计、取码规则的确定,并未过多考虑重码问题,而是采取计算机程序智能处理重码的技术(该软件已向软件中心申请软件保护),使用频率为99.5%的汉字不会出现重码,而重码率集中在生僻字上,其按照要求自动调整屏幕上的汉字,输入要输入的重码汉字,所有的汉字的编码规则都一样。
例如“触”,“鸦”两字的编码均为SA,SA+空格输入“触”,SA+“.”输入“鸦”,无重码。但一些生僻字“鸹”、“鹘”的编码也是SA,却是重码,当要输入这些重码字时,程序按要求自动调整屏幕上的汉字,输入这两个字。
词组输入方法是汉字键盘输入不可缺少的一种方法,能极大地提高输入速度,本发明的词组的标准码长为四码,编码规则同字的规则,不足四码的补加一“=”键。
1、二字词的编码
每个字取前面二码,共四码;
如“中国”,其取码为“口”、“丨”、“囗”、“王”,即其编码为“olqe”。
若该词其中之一为字根,不能拆分,则只取三码,如“大家”,其取码为“大”、“宀”,“豕”,即其编码为“d[a”。
若该词的两个字均为字根,则只取两码,如“人口”,其编码为“ro”。
2、三字词的编码
每个字取第一码,共三码,如“出版社”,其编码为“ekk”。
3、四字词的编码
每个字取第一码,共四码,如“中国人们”,其编码为“oqrr”。
4、自定义词的编码
自定义词的编码既可以按上述规则取码,亦可以自己定义,如“华南理工大学”,其编码可自定义为“scut”。
当词的前三码与某字的编码一样时,有两种解决办法,一种是在以输字为主的状态下,此时该重码词处于等待状态,另一种是在以输词为主的状态下,此时该重码字处于等待状态,同时通过程序智能处理,根据字字相关原则,自动在屏幕上调整输入的词组,以达到字词相容的目的。该二种状态在进入该汉字输入方法时作一次性设置。
例如:若要输入“前面”这个词,它的编码为“VBTQ”,但当输入VBT时,提示行却出现:
半角 形意三码:vbt 1:塑
如果此时处于以输字为主的状态,“塑”字便出现在主屏幕上,这时若要输入“前面”一词,需在输入Q后再按“=”键;但如果是处在输词为主的状态下时,当再输入Q时,屏幕上出现的是“前面”两字,当下一个字无法与“塑”字连成一个词,屏幕上的汉字将不作任何调整,当可以连成一个词时,将调整屏幕,显示“塑”字。
形意三码汉字输入方法已在计算机上实现,使用的软件环境为MS DOS 3.3-5.0及DR DOS6.0,SUPER-CCDOS5.0以上,使用的硬件环境为AT兼容机,286/386/486计算机。
本发明将140个字根分三类合理安排在30个键上,设计的字根较大,拆字次数少,敲三个键输入一个汉字(包括空格),不仅速度比四键输入快30%,而且大大地减少了拆字难度,使得拆字编码变得容易,但它的字根却通过意思和形象记忆,记忆量很少,通过计算机程序智能消除重码,使得容易实现盲打,所以说形意三码集易学、高效、输入速度快于一体,打破了“输入速度快的输入方法必定难学”的神话。
编码实例(括号中空出的部分为空格键):
尽 管 汉 字 的 编 码 方 案 已 达 数
(p\v)(m[ )(\z )([z )(bu\)(wpn)(ga)(yd)([dm)(ul)(ld.)(kdr)
百 种, 而 对 于 专 业 人 员 来 说, 汉
(tb)(mol),(tnl)(zx )(-x )(h\ )(\- )(/\.)(on )(-k )(ivv),(\z)字 的 输 入 问 题 已 不 太 大,但 对
([z )(bu\)(jrl)(/\)(no )(ltr)(ul )(,w )(d\ )(-r ),(rb-)(zx)
一 般 的 计 算 机 用 户 来 说, 汉 字
(-l)(jnz)(bu\)(ix.)(mqh)(mn )(nh )(\p )(-k )(ivv),(\z )([z )
输 入 的“瓶 颈”问 题 远 还 没 有 解
(jrl)(/\ )(bu\)“(v-q)([tr)”(no )(ltr)(1-v)(1-w)(\nz)(xb )(sda)
决。
(v[d)。
三键输入一个汉字,无一重码。
如果辅以字根码,上段汉字的编码则为:
尽 管 汉 字 的 编 码 方 案 已 达 数 百
(p\v)(m[ )(\z)([z)(b )(w8)(ga )(yd )([dm)(z8)(1d.)(kdr)(t8)
种, 而 对 于 专 业 人 员 来 说 汉 字 的
(mol),(t2)(z0)(-x )(h )(\- )(rl)(on )(-k )(i0),(\z )([z )(b )
输 入 问 题 已 不 太 大,但 对 一 般 的 计
(j4)(/\ )(n5)(ltr)(z8)(-8)(d\ )(d2),(rb-)(z0)(-1)(j8)(b )(i )
算 机 用 户 来 说 汉 字 输 入 的“瓶 颈”
(mqh)(m9)(n0)(p1)(-k)(i0)(\z)([z )(j4)(/\ )(b )“(v-q)([tr)”
问 题 远 还 没 有 解 决
(n5)(ltr)(l-v)(l-w)(\ )(x9)(sda)(v[d)
共154个键就把这61个汉字输完,平均2.52键/字。
采取词组输入方式则为:
尽管 汉字 的 编码 方案 已 达 数 百 种 而 对于
(p\m[)(\z[z)(b )(wpga)(yd[m)(z8)(1d.)(kdr)(t8)(mol),(t2)(zx-x)
专业 人员 来 说,汉字 的 输入 问题 已 不 太 大,
(h\\-)(ron=)(-k )(i0),(\z[z)(b )(jr/\)(nolt)(z8)(-8)(d\ )(d2),但 对 一般 的 计算机 用户 来 说 汉字 输入 的 瓶颈
(rb-)(z0)(-jn=)(b )(imm=)(nhp=)(-k )(i0),(\z[z)(jr/\)(b)“(v-[t)”
问题 远 还 没有 解决
(nolt)(1-v)(1-w)(\nxb)(sdv[)
共129个键,平均2.11键/字。