本发明涉及电子计算机汉字输入方案,特别是涉及一种按汉字形声字声旁分组选字并用笔划法作补充的汉字输入方案。 目前国内外小键盘汉字编码输入方案已达九百种,一般可分为以音为主、以形为主和音形结合三大类。已有方案除以形为主外,一般都要求熟悉汉语拼音,正确读音,少数也有对拼音进行简化,但简化的幅度都不太大,效果也不十分明显,使用这类方案如果拼读不准就会找不到字,对于不太熟悉拼音的人来说,或者在遇到非常用字、生僻字等时,输入就会发生困难,影响输入速度。以形为主的方案要求使用者按照一定顺序读取字的基本笔划,或把汉字分解为若干基本部件按一定方式进行拼装,如王永民等提出的五笔划汉字编码输入方案(见《电脑知识手册》,海洋出版社1984年版),在张寿萱、徐建毅、张建生所著的《中文信息的计算机处理》(宇航出版社,1984年版)一书中,也叙述了几种已有的编码方案,如“见字识码”、“三角编码”等,并对普遍性问题进行了讨论,这类方案往往部件划分不一,拆字方法各异,不利于普及推广,而且在编排时汉字分组常常很不均衡,即某些组内字数较少,另一些组内字数较多,这样如果不能完全实现盲打,根据屏幕提示进行选择时就需要在很长一串字内选出所需的字,另外这类方案没有利用读音信息来选字。
本发明的目的之一在于提出一种用于汉字输入的简化拼音;
本发明的另一个目的在于使汉字字形和字音建立起直接的联系;
本发明的进一步目的在于提出一种分组选字式汉字输入方案。
本发明的目的通过如下方式实现:
第一,拼音简化,包括,
1.把声母、韵母分别归类合并,各自分成若干声母组和韵母组,同一组内的声母或韵母被视为相同的,不加区别,看作是一个合声母或合韵母;
2.适当地分组,使读音容易混淆的声母或韵母尽可能归入同一组,同时,使每一个由合声母和合韵母相拼所得出的合音节内的汉字字数尽可能均匀,所含的汉字总信息量(指使用频率)尽可能均衡;
3.用这些比《汉语拼音方案》里的声、韵母总数大大减少地合声母和合韵母拼出所有汉字,反之,所有汉字的简化读音也都用这些合声母、合韵母相拼得出的合音节来表示。
第二,形声引导,
即,把每一合音节内的字,按不同的形声字声旁分为各个形声组,每个非形声字单独作为一个形声组处理。
第三,高频先定,
即,把每一声母组、韵母组和形声组内的汉字,按使用频率从高到低依次排列,并把其中使用频率最高的字定为该组的代表字。
第四,分组选字,包括,
1.按声母分组选字,即,按照所需的汉字的读音,选中其所在声母组的代表字;
2.按韵母分组造字,即,按照所需的汉字的读音,选中其所在韵母组的代表字;
3.按形声字声旁分组选字,即,按照所需的汉字的声旁,选中其所在形声组的代表字;
4.最后,在依次排列的形声字中,选中所需的字。
第五,笔划补充,
即,用某种按字形笔划输入汉字的方案作为补充,输入非常用字。
由上所述以及下面将要对实施例进行的叙述中可知,本发明具有以下几个优点:
一、简化后的拼音十分简单,容易掌握,各个合声母、合韵母之间的区别更为明显,不易混淆,这样,输入汉字时对读音要求不高,不太懂拼音的人经稍加指点后也可立即学会操作,读不出字音还能用声旁去猜读。
二、增强了形声字声旁的表音功能,使字音和字形建立起直接的联系,众所周知,现代汉字中百分之八十以上是形声字,声旁是其表音符号,但是,由于历吏的原因,现代汉字中声旁有效表音率只有三分之一左右,而在本发明中,大幅度地简化拼音可以使声旁的有效表音率增加近一倍,在更多的情形下,可以按照声旁读音。
三、各级选字分组均匀,即拼音简化后合声母、合韵母相拼所得出的合音节内所容纳的字数较为平均,如果拼音未被简化,则按上述方法将有410个音节,各音节所容纳的字数相差很大,而在本方案中,由于合理地进行了拼音简化和音节合并,使得各个合音节之间的字数相差不大,按声旁分组有了可能,在G B2312-80的一、二级汉字范围内,可以做到平均每组4.4字,最多一组23字,最少一组1字。
四、击键次数少,输入速度快,由实施例中将可看到,两键即可输入的汉字约200个左右,但是使用量却占全部汉字总使用量的将近一半,三键输入的可达2700个字,四键输入的除了几千个汉字外,还有成千个词组,五键以后则呈下降趋势,平均每字输入的击键次数只有三键左右。
五、有了笔划补充,读不出音的字输入也很方便,另外,对能部分猜读的生僻字,在实施例中还可以用拼音和笔划配合输入,并能利用部分高频汉字声旁的引导,快速输入和它们同声旁的生僻字。
图1 是本发明的实施例的键盘示意图。
下面给出本发明的一个具体实施例。
在本例中,《汉语拼音方案》中的声母和韵母被简化成八个合声母和八个合韵母,共用十六个键表示,表1中列出了键号和对应的合声母、合韵母。
表1
键号 合声母或合韵母
1 0(零)
2 b,p,f
3 m,d,t
4 n,l,r
5 g,k,h(+ji)
6 j,q(-ji,+xi)
7 x,sh,s(-xi)
8 zh,ch,z,c
11 a(ia,ua),ao(iao)
12 o(yo,uo),ou(iou),e
13 i,er
14 u,ü,m*
15 ai(uai),ei(uei),ie(üe)
16 an(ian,nan,üan)
17 en(uen,ün,in),eng(ueng,ing),n**,ng**
18 ang(iang,uang),ong(iong)
在表1中,“零声母”指单用韵母的音节,即这一合声母中不含任何声母。“+”号和“-”号分别表示增加或去掉某一音节,例如,音节“ji”原来与“j,q”在同一组,但调整后与“g,k,h”在同一组,因此用(+ji)表示加上这一音节,同时在“j,q”组内用(-ji)表示去掉这一音节,对音节“xi”来说也是类似的。“m*”表示特殊音节“呒”,同样,“n**,ng**”表示“嗯”。
在本例中,八个声母键同时兼作定字键,用于随时认可所输入的识字并联想下一字,八个韵母键同时兼作带字键,用于带出同声旁字或词组。
键盘的排列如图1所示,第一些是八个声母键,以下几排依次是八个韵母键、五个笔划键和五个功能键。
五个笔划是:横、竖、撇、点、钩,分别命名为H、S、P、D、G,放在第三排,另外设立正向、反向查找键,又称为“>”(大于)、“<”(小于)键,联想键“L”,重复输入键“C”和修改键“X”等,当然还应再设若干标点符号键,空格、排版、放大、缩小等功能键,由于和编码无关,本文不加讨论。
在本例的拼音部分,开始输入时,每击一次声母或韵母键屏幕下方显示区将出现八个待选内容,而笔划部分,每击一下笔划键,将显示十六个待选字,(因为笔划部分不排词组,位置较宽,可以充分利用全部选择键)。
在本例中八个合声母先将全部汉字分成比较均匀的八个大区,八个合韵母又将每一大区的汉字分成比较均匀的八个小区,这样声韵相拼可得64个音节,这些合音节分别包含原410个小音节中的1个到12个小音节,我们认为每一个合音节内的所有汉字都是“同音字”,在这些“同音节”内,再按声旁分成若干组,不能分组的非形声字单独成组(这种做法实际上把所有汉字都当成了“形声字”)。在编码前先按每个汉字的使用量、构词能力和它在GB2312-80中的级别计算出一个使用系数,将系数总和大的组排在前面,每组中再挑出系数最大的一个代表字作为分组选字的代表,一组中只有一字的只计算单字的系数,将它和别组的总系数比较、排除,如果和某组声旁相同的形声字还有一些没有落在这个合音节内,则将这些“出格”的字按一定次序排在这组字后面,然后和若干词组一起混合进行编码,尽量填满每一次所能利用的八个待选位置。
开始输入时,先猜读所需编辑汉字的声母,并按下对应声母键(零声母的音节也可以直接操作韵母键,省去一次击键),这时八个待选位置将显示该大区八个“合音节的代表字”(先按韵母键将显示零声母区该韵母对应合音节的第一批形声代表字),如其中正好有所需内容,按对应的定字键(声母键),可立即将该字调入编辑部分(两键输入),并在屏幕下方显示一组联想字供输入下一字时参考,必须注意:选用联想字时一定要同时按下联想键和相应位置的定字键,以区别于重新输入另一字时的操作,如果联不上,再猜读下一字的声母,尽管接着输入下一字。
如果没有所需内容,按猜读的韵母击相应键(附图中第二排),这时,八个待选位置将出现该声韵相拼所得合音节的第一批形声代表字,并在显示区末尾显示该合音节内尚有几组形声字等待调用。
如此时已有所需内容,按对应定字键输入该字并可联想下一个字,如需要的字仅和某一代表字同声旁,则按相应带字键(此时由韵母键兼任),就可以带出第一批同声旁字或少量词组供选用,同时在显示区末尾显示尚有多少内容等待调用,如果已经没有内容了则显示数字“0”或不显示任何数字。
如果按下声、韵两键进入某一合音节后,首批八个“形声代表字”中没有和所需字同声旁的字则按正向查找键(“>”)继续查找,直至找到为止,当某组形声字不止八字时,后面的字也用该键调出,“>”键只有在显示行末尾有数字显示时才能用,否则机器不予响应,反向查找键(“<键”)是为了防止操作者疏漏而设的。
如果输入中按错了键,按修改键“X”,可清除前一键内容,重新输入。
如果需要重复输入刚才输入的内容,象“天天”,“高兴高兴”,第二个“天”字或“高兴”一词,在输入完前一字或词组后只要打一下重复输入键“C”就可以了。
对某些生僻字如果仅能猜读声母,应先按声母键再按笔划键查找,有些生僻汉字声母和韵母都能猜读,但它本身不是形声字或它所在的形声字组都是非常用字,用上述“纯拼音”查找方法也往往比较费时,这时也可在击打声、韵键后从首笔起逐次按笔划键每次调出一批同类字,找不到再输入下一笔划,当这一级别的字余下不足16字时,显示行末尾会用数字作提示,此时最好先用“>”键再选择,对生僻字一般先用拼音键再用笔划键输入速度较快。
如果完全无法猜读或用以上办法找不到,直接使用笔划键一般要按键五次(起笔四笔,收尾一笔)才能找到字。这个方法是王永民同志发明的五笔输入法的初级形式,这种方法的缺点是经过五次击键后,尽管已把所有汉字分成3125个小区域,仍有一些区域汉字较多,在GB2312-80一、二级汉字范围内,最多一个区域仍有60个字,但由于这些字中多数可以用上述“拼音”方法很快找到,不必去用五次击键才能见字的五笔输入法,为此,本发明对用五笔区分后仍超过16字的小区域,不采用高频先见排列法,而将无法猜读的生僻字排在前,其余字排在后,以弥补本发明拼音部分的不足。
最后,在纯笔划的前四次操作中,本方案中还安排每击一键都先调16个同组较高频字供选用。当某一级余下的字不足16字时,在显示区末尾提示数字,提醒操作者可用“>”键调出全部剩余字,快速输入。如果操作者一开始就输入五次击键,会失去一些本来可以利用的机会(操作者能利用这些机会用较少击键次数输入很多汉字),另外,五笔划以下的汉字也应该在前几次操作中查找,因为无须操作五次,最后在笔划部分同样安排了联想内容。
在本例中,拼音部分两键输入的字有64个合音节代表字,零声母区64个形声代表字(先击韵母键),另外,五个笔划键第一次操作又可各调出16个字共80个字两键输入,以上208个字,可以占全部汉字总使用量的将近一半,三键输入的可达2704字(其中拼音部分1024字,并包括零声母区部分词组;拼音、笔划配合1280字;双笔划400字),四键输入的除了几千个汉字外,还有成千个词组,五键输入的汉字数呈下降趋势,六、七键以上输入的汉字数明显减少,碰到的机会更少……,平均每字输入的击键次数只有三键左右,加上联想功能,还能再减少一些。
显然,以上设计思想的实现用计算机程序是很容易办到的。
本发明可以用24个字概括,就是:“拼音简化,形声引导,高频先定,分组选字,笔划补充,联词联想”。
④文件名 页 行 补正前 补正后
说明书 1 3 九百种,几百种,
4 20 (ian,nan,üan) (ian,uan,üan)
5 4 识字 汉字
6 第一些 第一排
21 “同音节” “同音字”
权利要求书1 20 (ian,nan,üan) (ian,uan,üan)