本发明涉及一种汉字输入编码技术,尤其是一种“多对一”式汉语拼音代码输入的编码法。 汉字编码输入计算机进行中文信息处理的方案已有三、四百种,并且随时有新的方案问世,但真正获得社会公认和广泛应用的并不太多,一般都存在着“输入快的不易学,易学的输入慢”的通病。
汉语拼音对推广使用计算机及普通话输入起了很重要的作用。随着电子计算机中文输入朝着高速、快捷、方便的方向发展,对计算机拼音编码的要求越来越高。现有的拼音编码方法,由于大量的同音字、重码词的存在,迫使输入人员在输入编码后,须再次进行辨别、选择,大大降低了输入速度,以及所采用的标调字母属于兼职型标调字母,而用字母标示字、词音调在多音节词的使用中不论拼读写都很不方便,与相邻音节极易产生混淆,还能构成音节与音节的连缀,显而降低了输入速度。
目前,在各种计算机上,都可以兼容多种汉字输入(编码)方法。每一种方法,都在机器中存在一个汉字输入编码与汉字国标内码的对照表-码表与之对应。但是,任何二种或二种以上的输入方法均不能同时混合使用,即用户在任一时间内只能使用单一的输入方法,如“全拼音”或“五笔字型”等,一般适用于专业用户。
本发明地目的为解决上述所存在的问题,提供一种可对多种输入编码同时启动,多形式、多通路输入汉字输入编码,多种输入码统一转换成汉语拼音代码,即“多对一”式汉语拼音代码输入编码法,并以“意码”、“标调”等手段减少重码率,然后再以一对一的方式转换成汉语词(字),此编码法既适用专职打字员,又方便于普通用户。
本发明是这样实现的:“多对一”式汉语拼音代码输入编码法,是以“汉语拼音文字正词法和汉语拼音文字词典”为基础的计算机中文信息输入法,其要点是它由汉语拼音文字码(包括汉语拼音文字异形词)、长拼汉语拼音词、非词字段码、汉语拼音重码词、汉语拼音重码词标调码、拼音单字码、常见错拼码、地方音拼音码及其他输入码(如五笔字型码),组成一个多层次、多等级的汉词(字)拼音代码库,机器对多种输入编码同时启动,多形式、多通路输入汉字输入编码,多种输入码统一转换成汉语拼音代码,并以“意码”、“标调码”等手段减少重码率,然后再以一对一的方式转换成汉语词(字)。
下面结合附图及实例细述本发明的内容
图1为本发明的编码法示意图
其中1.汉语拼音文字码(包括异形词)
2.长拼汉语拼音词
3.汉语拼音重码词标调码
4.非词字段码
5.汉语拼音重码词
6.拼音单字码
7.常见错拼码
8.地方音拼音码
9.其他输入码(如五笔字型码)
10.汉语拼音代码
11.汉语词(字)
由图1所示,“多对一”式汉语拼音代码输入编码法是以“汉语拼音文字正词法和汉语拼音文字词典”为基础的计算机中文信息输入法,其要点是由汉语拼音文字码包括汉语拼音文字异形词(1)、长拼汉语拼音词(2)、非词字段码(4)、汉语拼音重码词(5)、汉语拼音重码词标调码(3)、拼音单字码(6)、常见错拼码(7)、地方音拼音码(8)及其他输入码(9)如五笔字型码,组成一个多层次、多等级的汉词(字)拼音代码库,机器对多咱输入编码同时启动,多形式、多通路输入汉字输入编码,多种输入码统一转换成汉语拼音代码(10),并以“意码”、“标调码”等手段减少重码率,然后再以一对一的方式转换成汉语词字(11)。
本编码法对一切附加的、新增加的输入码,都是以不增加新的重码为条件的,如果其中哪一个词的拼法引起了新的重码,那么就将该类码中的该词条舍弃。
本编码法是将不同的编码、不同的路径的词都放在同一张大的码表中,并按拼音字母顺序排列,并保证机器反应速度,对词库安排的分级,系统将按词(字)的使用频度而非按输入途径(方法)划分,频度高者优先。
一、汉语拼音文字码的编码(1)包括异形词是用汉语拼音词汇为兰本,以词为单元,适当收入一些不是词的单字。对没有重码的汉语拼音词和字,基本上采取全部健入。同时尽可能地利用表意的,不发音的辅音词或字尾来区别重码词。
A.汉字词组缩写后引起的重码词,对于这些重码词,采取保留一个或多个被省略了的汉字的辅音字母的方法来区分重码词。
计划生育→计生→jisheng→jihsheng
寄生→jisheng
其中h为被省略的汉字“划(hua)”的头一个字母
见效→jianxiao→jianxiaog→见效(果)
其中g为被省略的汉字“果(guo)”的头一个字母
见笑→jianxiao→jianxiaoh→见笑(话)
其中h为被省略的汉字“话(hua)的头一个字母
奸笑→jianxiao→jianxiao→奸笑
B.拼音文字的异形拼法与非正规拼法:对同一词组,不同的人会加入不同的拼音词尾。
例:
见效(果)→jianxiaog
见效 见效(益)→jianxiaoy jianxiaog→见效
见效(能)→jianxiaon
把jianxiaoy、jianxiaon作为jianxiaog的异形拼法或非正规拼法存入代码库。当选用异形拼法输入时,仍可准确地找到正确的词。
C.选用部分汉字词的表意偏旁名称的辅音字头作为词尾以区别重码词。
例:鸡→ji→jiq 鸭→ya→yaq
猫→mao→maoq 狗→gou→gouq
与禽、犬有关的词(字),都取禽、犬的拼音qin、quan的字头q为词尾。
D.对于第三声发音采取元音字母双写的方式以区别重码词,而对没有重码的第三声词则不必要。
例:哪里→nali→naalii,那里→nali→nalii
E.尽可能扩大单字词的连写范围,与区分单字词重码动词连写:表示动词“进行”、“完成”或“过去”时态的“着”、“了”、“过”、“完”、“完了”等,都应与动词连写。
例:看着→kanzhuo 看了→kanle
看过→kanguo 看完→kanwan
看完了→kanwanle 看过了→kanguole
另外,如看上、看中、看好、看涨等也要连写,其次,对“的”、“地”、“得”也要尽可能连写。
F.词库中收录了地名、姓氏、常用人名等,用大写头一个字母以区别其它一般词。同时,也对有重码的加词尾以示区别。
例:杨威(人名)→Yangwei
扬威(一般词)→yangwei
赵(姓)→zhaox 其x表示姓(xing)的头一个字母
胡(姓)→hux
秦(姓)→qinx
G.拟音词后面加h
例:啊→ah 噢→aoh
I.对不能或不便利用以上规则消除重码的词(字)及其它某些特殊词(字),可以规定特殊拼法,并将列出特殊拼法词表,以利掌握使用。
例:拼音shi,有很多重要重码字“是”、“十”、“事”等,这时规定编码shi为“是”,shi+为其它重码词的编码,以便减少高频词“是(shi)”反复出现引起的挑重码的概率。
二、长拼汉语拼音词(2),适当加入一些无间隔连续拼写和汉语拼音词组,除低进入汉语拼音重码词的概率。
例:实际上shijishang
实际是ahijishi
实际表明shijibiaoming
以避免输入“实际(shiji)”后与“史迹(shiji)”、“史记(shiji)”、“事迹(shiji)”等发生重码的机会。
三、汉语拼音重码词标调码(3),采取在词尾加数码1、2、3、4以区别四声。
例:计划→jihua44
激化→jihua14
极化→jihua24
在有些场合,只需键入jihua4、jihua1、jihua2即可将以上三个词区分开,一般三字及三字以上的词不必标调。
四、非词字段码(4),有些语节,可能既不是词,也不是词组,但会经常以两个以上字的形式同时出现。
尽显 jinxian 等人 dengren
落得个 luodege 上的 shangde
下的 xiade 不分 bufen
不起 buqi 不见 bujian
将这些非词字段收入词库的意义,在于方便不熟悉本方法拼音文字的用户。
例:“说穿了”可以长拼词shuochuanle键入,有了非词字段后,以“说”和“穿了”两次键入,即“shuo”、“chuanle”,仍可得到正确的结果。
五、汉语拼音重码词(5),对于有重码的汉语拼音词,与汉字词是“一对多”对应,为保持这种“一对多”的关系,代码库中仍保留这些重码词,以保障用户在不熟悉汉语拼音文字的情况下,仍可以用本系统键入。
六、拼音单字码(6),本编码虽以词输入为基础,但在码表中仍保留6000个左右的单个汉字拼音输入码,用户可以在文章的任意点上,以选字方法输入。这在人名、企业名的输入中,是不可避免的。
七、常见错拼码(7)包括对平舌音和卷舌音分不清的错误、对汉字发音不准引起的拼写错误及认白字错字引起的拼写错误等。
例:z与zh分不清
中国→zongguo→zhongguo→中国
收录错误码既利于输入,又可利用软件在事后指出错误的拼法及转换成正确拼法。
八、地方音拼音码(8),词库中也适当收入一些地方音(方言)拼法,并将其转换成规范的汉语拼音,以方便一些讲地方活的用户。
例:天津地方音ger
九、其它输入码(9),本编码法也把其他(非拼音)输入码如五笔字型列入总的输入码表中,以增加输入通道和易通过性。
综上所述,本发明与现有的输入编码相比较,其优点在于:
1.“多对一”即允许多种汉字编码(包括汉语拼音码、拼音加意码、拼音加标调码、地方音拼音码、形码等)同时启动,多通路,多形式输入,输入后用一个非常全面的代码库统一转换成汉语拼音代码。
2.将多种区别汉语拼音重码词(字)的方法结合在一起,如音意结合,元音字母双写表示第三声字、词,用大写头一个字母表示收录的地名、姓氏、常用人名等专有词、词尾标调等。
3.由于采用了先集中输入编码,再由机器集中消除重码、整理拼写错误,最后成段、成篇地将拼音文字文件转换成汉字的输入方法,加大了整个系统的灵活性,用户可以不必过多的关心他键入的每一个码是否完全准确、是否有重码、造成一种既可盲打、又可以边思考边输入而不必到屏幕上找字的较为易学好用的使用环境,对非专职打字员的普遍用户的适用性提高了,会拼音文字的人员可以用,不会拼音文字的人员也可使用。