本发明属于一种汉字编码技术,可应用于计算机汉字输入和字典的检索,及一切需采用汉字编码的领域。 随着计算机的广泛应用,世界已进入了一个新的信息处理与传递的阶段,但在我国汉字输入却成了制约计算机广泛应用的主要矛盾。为了解决这一矛盾,全国许多专家、学者经过刻苦钻研,提出了许多不同的编码方案,使得这一主要矛盾正朝着逐步解决的方向转化。但总的说来仍有“打得快的不好学,好学的打不快”这一问题的存在。打得快不好学,主要指取码规则太多,不易记,好学的打不快是指规则虽少,但重码太多,输入慢。要使计算机在全国广泛应用,必须做到编码和中小学语言教学有机的结合起来,使得小学生在学汉字的同时也学会了编码。
本发明的目的是提供一种新型的编码方案,在符合国家文字规范的前提下,利用汉字本身所包含的信息,即利用汉字的结构特点、字中字的规律,和传统地偏旁、部首名称、特点而制定出的容易记忆、容易编码,重码少、输入快的汉字编码方案。
本方案的技术解决方案是:利用汉字的结构分布特点,汉字内又有汉字,常用偏旁、部首,有一定的名称,或可以根据形态特点加以归类的特点,充分利用计算机现有键盘而进行编码,输入汉字。本方案有字码、词码两种,超过一个字的即为词码,词码除具有上述特点外,还增加了声调、简易笔划和词性等信息进行编码。
一、单字编码
(一)区分不同结构、独体字、合体字、组字结构
本编码将汉字按结构的不同分为:独体结构、两结构、三结构。由独体结构组成的字称为独体字。由两结构、三结构组成的字称为合体字。合体字中的每一结构称为组字结构,组字结构的笔划不得少于两笔。
三结构:只有左、中、右结构游 锻
独体结构,分不出上、下,左、右,左、中、左,包围结构的字为独体结构,也称独体字。如:丁、乃、乘。
(二)取码规则
(1)编码符号采用为汉语拼音的声母,与计算机键盘上的英文字母一一对应。
(2)取每个字读音的声母作编码,如“彳”为一偏旁,读作“双人”,因而编码符号是sr。
(3)卷舌音均归于非卷舌音,如ch→c sh→s zh→z
(4)取码的基本步骤是先区分不同结构,决定取码数目,再读组字结构音,拆出结构字中字。取码规则可分为一般取码取码规则可分为一般取码规则和特殊取码规则,一般取码规则简单易学,而掌握了特殊取码规则,则能加快输入速度。
1、一般取码规则
(1)偏旁、部首、笔划读双音或单音。
①按习惯名称读
如:亻→单人→dr(r) 彳→双人→sr(r)
②整字中拆字即整字音加上拆出的字的音
如:目→目日→mr(m) 良→良艮→lg(l)
③整字音加第一笔划音
整字中拆不出字,以第一笔划代替
如:文→文点→wd(w) 四→四竖→ss
④由二个笔划组成,但无习惯名称,也不是字时可按序读笔划音,此时常无单音,只有双音
如:→撇横→ph 亠→点横→dh
⑤形状结构相近的归于一类
如:两边包围,一边为撇时,都把第二个音读成披→p,厂→厂披→cp 户→户披→hp 疒→病披→bp
⑥上述四条规则都不能应用时拆成两部分
如:酉→西横→xh →八夫→bf 采→撇米→pm
⑦有五个偏旁、部首,作为成字能力很强的结构,可以看成是单独的字,在拆字时可以将其作为字拆出,其余拆出的字都必须是汉字。
聿→jx→(读津的音,拆出彐字)
厶→mz(读么的音,拆出第一笔)
→zs(读走的音,拆出第一笔)
彐→xz(读雪的音,拆出第一笔)
→qp(读欠的音,拆出第一笔)
(2)区分不同的结构,决定取码数目
①两结构字,每一结构读两音,共四音,如:取→ehyz
②三结构字、三个独体字,每一结构读一音,共三音,如:晰→rmj
③独体结构读两音 如:本→bm
(3)读组字结构音,拆结构字中字
A、四音字
四音字均为两结构字,每一结构读两个音。
①偏旁、部首、笔划按名称读两音:如扌→提手→ts
②组字结构若为完整汉字,先读该字音,再读拆出的字中字音,拆字以结构优先,取大优先,顺序优先为原则。如:寂中的组字结构“叔”为一完整汉字,可以拆出上、小、又三个汉字,但上和小一起构成“叔”的左结构,而“又”字单独构成了“叔”字的右结构,因此拆出“又”字,故寂的编码为:bgsy
③组字结构若不为字,也非偏旁、部首,则先以“a”代替,再拆结构字中字。
如:唢中的组字结构“”不是汉字,也不是偏旁、部首,故先读作“a”再拆出“贝”字,因此唢的编码为ksab。
④若拆不出字中字,可用第一笔划代替。
如:唢中的“口”先读“口”再拆出第一笔划“竖”,故唢的编码为ksab。
⑤组字结构不为字,但由两个独体字组成,可依次读出两个独体字的音。若由不相连的一个笔划和一个独体字组成,也可依次读出两个音。
如:设中的组字结构“殳”读作:几、又→jy
宅中的组字结构“乇”读作:撇、七→pq
⑥相同或相反的两个组字结构组成的字可连续该组字结构的字音,若不为字可连续整字音,或以a代替。
如:比→bb 兆→zz 棘→jj或aa
⑦聿、彐、、厶为组字能力很强的偏旁、部首,可作为汉字拆出,其余拆出的字一律要为汉字。
B三音字
①偏旁、部首、笔划读单音,如阝→耳→e 卩→耳→e
②组字结构为完整汉字,则读该字音,如例中的“歹”读作d。
③组字结构不为字也非偏旁、部首和笔划,以a代替。如 候→rsa
④三个独体字不管以何种方式排列,均按序读字音
如 塾→享、丸、土→xwt
C二音字
先读整字音,再拆字中字,若无字中字,以第一笔划来代替。如叉→叉又→cy 央→央、大→yd。
2、特殊取码规则
(1)两个相同的组字结构加其他结构组成的字,可按序读三个音。
如:翠→习、习、卒→xxz 若按两结构读音则为羽、习、卒、从→yxzc。
(2)组字结构由3个以上相同成分构成时可用数表示。
如:缀中的叕→读作“四又”→编码为“sy”。
(3)有些结构可用常用汉字来表示
如“畐”可读成“福”→f、“副”:按一般编码规则为atld,用常用字音代替则为ftld。
(4)衣字拆开,中间加入一组字结构,可读作衣中“”
如:裹→衣中果→yzg。
(三)主码与副码
按一般读音规则得到的编码称为主码,通常只有一个,按特殊规则,或随意拆字所获得的编码称为副码,有重码时,按一定规则进行编码,所获得的编码也属副码,故副码可以有多个。如:畐可拆出口、田,按取大优先原则,应拆出“田”字,若忘了这一原则,拆出“口”字,则可在副码中找到该字。“刀”的第一笔是“”但许多人可能不加思考就把“/”当成是第一笔划,因此拆出“/”得到的编码也列为副码,这样即使拆字不是很正确,也能将所需的汉字输进计算机中去。一般在编码时要求编码的唯一性,同一汉字只产生一个确定的编码,本编码打破这一常规,一个汉字除按一般规则拆字得到一个主码外,还将根据不同的水平拆字而得到的编码,或为了避免重码而专门编制的编码定义为副码,这样对偶而上机的人来说,只需记忆简单的规则,对专职人员来说只要记住特殊的读音规则和用于重码的专用副码,就可实现高速盲打。
(四)重码字的取码
一组重码字通常将其中一个常用的仍按原编码输入,另一些则可改为副码。
(1)四音重码
先读整字音,再读第一结构音的单音,第二结构的读音规则不变,若整字不认识可用“a”代替。
如:bggk→客、容 为一组重码,“容”仍按bggk编码,“客”则可以取副码,先读客(k),再读第一结构单音(g),第二结构的读音仍为各口(gk)。故客的副码为:kggk。
(2)三音重码
1.若有“a”字,在最后加上“a”中拆出的字,如:淑→day→days。
2.无“a”字采用四音编码。如:架→lkm→jkmx。
3.相同结构超过两个以上,则按序读到四个编码。
如:撬→tmmm,器→kkqk
4.例外字:缎、锻 将其中的“段”看成是一个组字结构,按四音编码的读音 缎→jhaj 锻→jpaj
(3)二音重码
在原编码后加上第一笔,若第一笔已在原编码中采用,则加第二笔划。
如:dr的重码有:大、电、旦、大的副码为drh
电的副码为drs 旦仍为dr(不变)
二音编码的重码字较多,也可一律按三码(副码)输入,以避免记忆重码字。
(五)简码
简码字为一些常用字,字的声母和键盘上的字母一致。
一字简码如:不→b 次→c 的→d
二字简码如:你→nn 我→ww 他→tt
三字简码如:得→ddd 要→yyy
二、词汇编码
本编码的词汇编码有四种方法,适用于不同情况下的词汇输入。
(一)二字词汇
(1)声母字中字法
每个字先读整字音再拆字中字,无字中字以“a”代替,每字两个音,拆字原则仍为结构优先,取大优先、顺序优先。
如:彩电→ccdr 财政→cbzz
(2)分部声母法
每字读两音,共四音。
1)四音字,四音字均为两结构,因此只需读出每一组字结构的音,不必拆字,除偏旁、部首读单音,若无单音读双音的第一个音外,其余组字结构的读音和单字编码时相同。
如:结构→jjmg 喷泉→kabs
2)三音字,只取前两个结构的组字结构音。
如:撤消→tadx
3)独体字,仍按原单字读两个音,如夕阳→xper
在词汇量很大的情况下,为了减少重码,可在读了分部声母法的四个编码后再加上两字的声母,使编码增加到六个。
如:结构→jjmgjg 喷泉→kabspq 撤消→tadxcx
(3)声母、声调、简易笔划法
1)第一字声母+声调+简易第一笔划+第二字声母+声调+简易第一笔划。如:财经→成绩→
简易笔划均为起笔时未经转折的笔划,转折后的笔划一律去除。
如:读竖(s)读撇(p)乙乛读横(h)
2)知道读音,但不会写字,可以不加第一笔划,只用声母加声调,但此时重码增加。
如:促进→cj 长江→cj
3)如果会写,但音调不准可用数字键“5”来代替声调,若声调有错,可按翻页键,此时所有声母相同的词汇都会出现,
(4)声母分类法
1)两个字的声母加该词的词性
①名词用I表示②动词用V来表示③形容词、付词用U表示④其余各类词均用II表示⑤当一词汇有两种词性,或词性搞不清时可将两个表示词性的编码均加上去。
如:词汇 读音 词性 编码
出版 Chū bǎn 动(V) cbv
丑恶 Choǔ è 形(U) ceu
传统 Chuán tǒng 名(I) cti
因此 yīn cǐ 连(II) ycii
猜想 cāi xiǎng 动、名(V、I) cxvi
(2)国家、省、市、县、区、乡世界各地主要城市名称,常见外国人名称、民族名称、江河湖海、山川、宇宙的名称、企事业单位等一些专有名词的名称,键入每字的声母再按UU键。此规则也用于三字词,若四字以上按四字词汇规则编码。
如:杭州 hzuu 纽约 nyuu 安妮 anuu
钢铁厂 gtcuu 太阳 tyuu
(3)复合词、关联词,在输入后连按两次a键。
如:因为…所以→ywaa…syaa
(二)三字词汇、四字词汇
三字、四字词汇读每个字的声母、再按空格键。
四字以上词汇读前三个字和最后一字的声母。
声母字中字法和分部声母法,对看打最为适用,只要整字认识就一定能快速读出编码,因字中字均为简单字,小学水平的人都认识。若整字复杂,不认识则可按分部声母法,拆出不同结构、再读结构音,即可读出编码。
声母、声调简易笔划法适用于边思考、边打字,只要会读就可输入,不必考虑如何拆字,而第一笔划为简单笔划很容易决定,若只知读音,不知写法,通过翻页也能找到该词汇,声母分类法也适用于边思考、边打字,尤其是用于专有名词和关联词、复合词的规则在其他几种方法中都可广泛应用。