一种计算机汉字输入方法,特别是采用模糊码形为编码的计算机汉字输入方法,涉及打字机及汉字资料检索系统。 现有的计算机汉字输入方法,根据其应用的汉字属性,可分为:音码、形码、和音形码三大类。其中音码的重码率很高,操作人员必须熟悉汉字拼音。形码有笔画码和笔形码2种。笔画码须认真计较每个字的笔画特征,不易掌握。笔形码以五笔字型为代表,它有130多个字根及其复杂的编组需要强记,字形拆分及“交叉识别”过程都较麻烦,操作人员必须经过严格培训。音形码既需拼音也要字形拆分,也不易高速输入。总之,现有的输入方法取码位置都没有严格顺应汉字的信息重心,每个笔形都只能一次取码,没有直接利用其潜在的识别功能。所以普遍存在记忆量大,识码困难,适应范围不广等缺点。
本发明的目的在于提出一种识码直观,取码形象,无须拼音,记忆量小,字形拆分少,具有自动识别的功能,重码率低,简单易学的计算机汉字模糊码输入方法。
本发明的目的是这样实现的:对计算机的26个英文字符键赋予模糊码形定义诀,使其成为定义码。定义码将300多种汉字组字单元重新组合,建立起一套包含有汉字基本笔画、基本笔形和藏有暗码的伸缩笔形的模糊码形表,再根据模糊码形表,对每个汉字的起笔、部件的重心和收笔等部位,依次分别取码,每个汉字或词取1-4码作为计算机的输入编码。同时建立相应的取码规则。
26个英文字符键的模糊码形定义诀为:一王A,双口B,开口C,双斜D,三爪E,木干F,勾点G,双直H,单直I,撇捺J,走衣K,单折L,竹筐M,双折N,小口O,耳朵P,大口Q,单人R,鸟马S,十土T、穿口U,点点V,乱串W,交叉X,挑牛Y,扭丝Z。
300多种组字单元(即通常的笔画、笔形、部首、“字根”等),按照“形义双关、模糊相似,直观形象、繁简互通”的要求,依循模糊码形定义诀重新组合,编成了包含汉字基本笔画、基本笔形和藏有暗码的伸缩笔形地模糊码形表。
根据模糊码形表和在汉字的起笔、部件的重心和收笔等部位依次分别取码的规则,对每个汉字或词取1-4码作为计算机输入相应汉字或词的编码。
下面我们将结合本发明方法的几个应用例,对本发明的方法作进一步说明。图1是模糊码形表,图2是伸缩笔形暗码表,图3是合体字的取码位置图解。
模糊码形是根据“形义双关,模糊相似,直观形象,繁简互通”的原则而创立的。如:
而模糊码形表,正是依循模糊码形定义诀将300多个汉字组字单元重新组合,最后归位于26个英文字符键的汇总表。
伸缩笔形是一种藏有暗码的码形,具有灵活性,伸缩性和自动识别功能。如:王、目、罒、口、日等。按照本发明建立的取码规则,伸缩笔形可以连续两次用定义码进行取码。
伸缩笔形按其使用部位,分为首码伸缩笔形和尾码伸缩笔形两种。首码伸缩笔形如:口、日、山、罒;尾码伸缩笔形如:王、目、女等。
伸缩笔形的取码规则是:在取码过程中,同基本笔画、基本笔形一样它所包含的全部笔画仅作一次取码,一般不作字形拆分。但遇有下述特殊情况,可连续两次用定义码进行取码:
(1)首码伸缩笔形单独位于上下型字的最上方部位时,首先取其定义码,紧接着以其公共暗码2作第2码。然后按正常情况继续取码。如:
OZCR BZYA QZTB
员 口(Z)∏人 星 日(Z)牛一 署 罒(Z)土日
这样就将它们与呗(OCR)甠(BYA)睹(QTJB)等汉字自动识别开来。
(2)尾码伸缩笔形位于汉字的收笔部位或最后取码的位置,且全字少于4码时,除了取一次定义码外,还应拆出其暗码作尾码,如
尾码伸缩笔形的暗码是这样确定的:暗码笔形对于基本笔形是附加笔画,或者是另一种定义码形,或者是具有显著特征的笔画。首码伸缩笔形的暗码则一律规定为“Z”。下面例举几个尾码伸缩笔形的暗码确定依据。
这样的暗码无需强记,顺势拆出,见形拆暗码,十分直观。
重心部位取码。
汉字及其部件的右上半部笔画密集,信息丰富,是其重心部位。如:
全字的重心
本发明所述的汉字的部件,是指汉字中彼此有明显的界限或间隔、可以用方框简单地划分开来的构成部分。由部件合成的字,称合体字,其余称独体字。本发明将合体字归纳成左右型
五种基本构型。兼有2种以上基本构型的,称复合式。
本发明建立了以下取码规则。
(1)取码方法:一般规定,起笔部位取首码,部件的重心部位取中码,收笔部位取尾码,每个字或词取1-4码。沿先左后右,先上后下,先外后内的方向依次取码。在一组编码中,中码即首码与尾码之间的代码,一般是第2、第3码。当一个字的码形(包括应拆的暗码)少于4码时,有几码就取几码。如:
GR CAK JTUT IV
认 讠人 定 宀一重 丿十中土 心 心(丶)
(2)取码位置
a.独体字。从上到下,从外到内顺序取码。如:
TNV XV AY
专 土ㄣ丶 叉 又丶 五 一
CM MC HR
凸 ㄇ凹ㄩ 天 工人
b.伸缩笔形单独成字的编码:先取其定义码,再取其暗码,即为该字的编码。首码伸缩笔形单独成字时,即以其定义码作编码。如
YT DC QH
午 午(+) 月 月(ㄇ) 目 目(二)
XI BN O
也 也(丨) 巴 巴(乚) 口 口
B BI
日 日 山 山(丨)
c.合体字,即按起笔部位取首码,部件的重心部位取中码,收笔部位取尾码的规定取码。规律是,中码要尽量靠上,靠右。由两种以上基本构型组成的复合式合体字,只要先取其首码,剩余部分即呈现基本构型。如:
(3)取码规则。
a.一个代码所取的码形包含的笔划越多、笔形越大越好。拆分时,也应尽可能拆出较大的笔形。同时,应注意直观自然,保持下一码的完整。拆得好,码数少,是基本要点。如:
RW RTT
佳 亻圭 不拆作 亻土土
AKA TAIA
正 一止(一) 不拆作一丨一 因为"止"是一完整的伸缩笔形
TEF TATJ
来 十木 不拆作 十丷十八
b.伸缩笔形的使用。
首码伸缩笔形单独位于上下型字的最上方部位时,首先取其定义码,紧接着以其暗码作第二码,然后按正常情况取码。如:
BZAX OZO
最 日(Z)一又 吕 口(Z)口
“山”是兼有首尾码伸缩的笔形。其独立成字的编码按尾码伸缩处理,即BI。
尾码伸缩笔形位于收笔部位或最后取码的位置,且全字少于4码时,除了取一次定义码,还应拆出其暗码作尾码。如:
XSN ELA SESC
鸡 又鸟(ㄣ) 浅 氵戋(一) 粥 弓弓(コ)
c.联叠笔形可以逐个连取。但如果联叠的单元系由两个以上笔形组成的,则只需对其中一个单元进行拆分,接笔顺取用所需码数。如:
d.当收笔是个点画,且落在字(或部件)的右上方时,这个点画不被当作收笔,而被当作此字(或部件)的起笔(或第一笔)。在这种情况下,应在次收笔部位取尾码。如:
VXJ RVXJ EVTT
犬 丶丶 伏 亻丶丶 浦 丶十十
E.笔画可以分段使用。如:
TUC FTI
事 十中本 木十(丨)
e.露头的笔形先取码。如:内,肉,弗。
RC RCR HS
内 人ㄇ 肉 人ㄇ人 弗弓
(4)词汇输入法。
词汇输入一律只取单字的首码及第2码。
a.二字词:每个字各取其首码和第2码,共4码,组成编码。单字只有一码的,该字就只取1码。如:
汉字 EXCZ 小心 EIV
(EXL CZA) (E IV)
b.三字词:每字各取一首码,再加第3字的第2码,共4码,组成编码。第3字只有一码的,该字就取1码。如:
哈尔滨 ONEC 星期日 BHB
(ORAO NE ECJV)(BZYA HAVD B)
c.四字以上的词:第1、2、3字及最末一字各取首码,共4码,组成编码。如:
中华人民共和国 URRQ
(UI RGTI R PK HV KO QAV)
(5)编码规则助记歌决。
a.《编码方法歌》
首尾各一码,联叠拆一件,
中码重心查。尾点不上爬。
取大拆也大,“伸缩”若需拆,
“伸缩”优先抓。顺手拉暗码。
b.《取码位置歌诀》
[总则] 首码起笔尾收笔,[内外型] 内外型,外当先,中码部件重心取。内有通式从头取。
[左右型] 左右分,各2码,[三合型] 三合体,各分一,两边互相可调剂 中码紧挨右上区。
[左中右型] 左中右,头顶取,[复合式] 复合式,有规律右部一码也可以。取了首码见通式。
[上下型] 上下型,往上挤,[独体字] 独体连续顺序取,中间并列靠右取。[笔形字] 笔形成字暗码记。
本发明具有以下优点:
(1)符合视觉规律和心理习惯,便于准确迅速输入。汉字计算机键盘输入的准确性及速度取决于操作人员的手眼配合。首先是“眼”,如何让汉字信息迅速“入眼”,不假思索地转换给手指,这是设计汉字编码方案必须重视的关键问题。汉字中左形右声或上形下声结构共占90%以上,其中表声的形式是间接的,归根结底是象形字,要以形为本。人们的视觉规律要求识别对象必须形象、直观显眼。就是说,取码要形象,容易被识别,识码要直观,避免拆分、分析等信息加工,取码位置要显眼。常言道“有边读边,无边读上下”恰恰揭示了人们的视觉规律。本发明建立的模糊码形表及取码规则,特别是在部件的重心部位取中码,符合视觉规律,尤其适合词组输入。
在快速输入过程中,人们承受的心理压力比较大。如果要求操作人员仔细辨认笔画,势必增加劳动强度,加速产生疲劳感。本发明利用了人们模糊意识的作用,顺应了这一心理规律。在码型设计中运用模糊规律解除了强记负担。例如:
这样的设计使人过目不忘,识码轻松,可大大减轻操作人员的心理压力。
(2)字形拆分率低。本发明与迄今为止各种形码方案的不同之处,在于“改拆为砍。”把整个字形“砍”下来,而不象通常(如五笔字型)那样把所需笔画(或字根)“拆”出来。模糊码形的设计,又能使取码时左右逢源,见形即有代码,无需大动刀斧。如:
相似的笔形以各种形态出现时,都有合适的代码可用,从而大大减少了拆分机会。如:
此外,在重心部位取码,也有助于减少拆分。
(3)伸缩笔形具有自动识别功能,充分挖掘了汉字字形的信息潜力。不必象五笔字型那样,为了迁就若干汉字的重码问题而设计一套复杂的“交叉识别”操作及规则,把大量汉字拖进了“交叉识别”的漩涡,加重了操作者的劳动强度和工作量。所以能大大提高识码速度。
(4)笔形设计合理。有一套可灵活识码,运用自如的笔形。如:
运用这种设计不仅仅具有自识别功能,还能自动适应字形左右上下变化,十分简便,减少繁杂的拆分:
SN XSN SCG SBI
鸟 鸟(ㄣ) 鸡 又鸟() 鸵 鸟宀七 岛山(丨)
(5)重码率低。重码率是汉字编码方案的重要质量指标,是影响输入速度及输入质量的重要因素。比较理想的结果应该是:常用字与常用字不重码,贬义字与褒义字不重码。本发明在设计中注意到了这一问题。对GB2312-80规定的汉字编码的重码率为2%。这主要是本发明赋予代码定义诀时,精心铺排使首码分散度很高,即26个英文字符各自覆盖的字数相当,大部分“同旁不同部首”的汉字(如:奴权汉等)能被首码离散,从根本上减少重码。伸缩笔形又使若干“同笔形不同构型”的汉字(如:呗、员;叻、另;睹署等)自动识别离散。合理的笔形设计和简明的规则,重心部位取码,等技术措施科学有效地降低了重码率。
重码率= (重码字数(对))/6763 ×100%
(6)码长适中,容量大,繁简异体字和词组兼容。本发明理论容量为475254个汉字符。单字编码平均码长3.6码,词组输入平均字码长1.4码。设计时已考虑了繁体、异体字和词汇的兼容性。
(7)记忆量小,适用范围广。
由于码形易记,规则简单,从根本上解除了操作人员的强记负担。由于“改拆为砍”,识码直观,取码形象,不必拼音,不强调笔顺或逐笔计较笔画,不必交叉识别,很少拆分。所以认识汉字不多和不识拼音的人也可掌握。就是说,可适应不同专业,不同方音,不同国家、地区,不同年龄层次的人员运用。一般几十分钟就能学会,稍作练习便可掌握;无须进行严格培训。
本发明的方法是一种简单、易学、好记、快速、科学的通用型计算机汉字输入方法,特别适合词组输入。