汉字繁、简体编码输入方法及键盘 本发明涉及一种汉字编码输入方法及键盘,尤其是一种汉字繁、简体、古体、异体、朝鲜文、日文等汉字的编码方法及键盘。
目前,汉字编码方法种类繁多,达四百余种;但归纳起来大致分为拼音编码或音形结合编码、整字大键盘法及字根输入法。上述编码方法中拼音编码和音形结合编码,皆基于汉语音素较小,汉字读音简单这一特点而设;虽可使用标准键盘,但我国幅员辽阔、方言多杂,因而这类方案的处理字数及使用范围均受限制。整字大键盘法如1981年香港中文大学系乐秀章教授发表了使用256个健位(专用键盘)的纯字形输入方案,以及美国王安公司的三角编码等方法,均需专门制做中文键盘,因而使系统的成本增加,且几千个汉字摆在面前,找字十分不便因而效率更低。字根输入法已成为汉字输入方法较为常用的方法,且种类繁多。在国内市场上独领风骚的输入方法是中国专利85100837中公开的一种“优化五笔字型编码方法及其键盘”,该编码方法是将汉字输入归纳为五种笔划和199个基本字根拼形输入,并将上述两种方法分别采用数字键和字母键编码;该编码方法虽直观易学、操作简便、字词兼容,且使用标准英文键盘输入;但其字根多、记忆量大,且其字根的编码适用范围窄,不能繁、简体通用编码;采用数字键编码则最长码长需输入8个数字,不能数字键、字母键通用一套字根编码;另在输入汉字时,不够四个字根的汉字,则要加“末笔字型交叉识别码”,这样就增加了拆字难度,减慢了汉字输入速度;且该编码方法重码率高,有时一个码可用几十个重码字,这样就必然增加了大量的选字时间。另在中国专利CN87103761中公开了一种“汉字笔序形码编码输入法”,其编码方法是将汉字的单一笔划的笔形用0至9的10个形码表示,并将这十个形码分配在标准英文键盘的数字键上,采用数字键编码;该编码方法的优点是字根少、易记、易学;但其编码方法不唯一,且不能繁、简体通用一套编码,另也不能采用字母键编码。
本发明的目的是为了提供一种字件少、取码唯一、编码方法简便、可同时采用一套字件用数字键和字母键进行编码、无须交叉识别码、平均码长短、重码率低、且能繁、简体、古体、异体、朝鲜文、日文通用一套编码方法、应用范围广地汉字繁、简体编码输入方法及其键盘。
本发明的目的可通过如下措施来实现:
一种汉字繁、简体编码输入方法是将汉字的组成依形、部首归纳成89个基本字件;并按字件与汉字数字一至十的形状及阿拉伯数字l、7的形状相似或笔画数相等的特性分为十组,且分别用0至9十个数字代表;其中5、9中的字件与五、九形状不相似则单独分类,5代表一笔穿二画的字件,9代表多头的字件;各数字代表的基本字件如下:
1—一|石王山
2—二刂刂丿月禾鱼舟
3—三冫氵衤礻讠匚冂凵
4—口囗日目臼尸
5—扌中廿虫女
6—亠宀丶灬方门疒广辶
7—厂冖马 纟∠阝卩
8—八人亻钅饣ク
9—小艹忄火
0—十巾×土木犭。
其中数字1代表的字件含义为单笔同数字,部首取第一笔;数字2代表的字件含义为字件的第一笔为撇;数字3代表的字件含义为字件的左侧为有点部首及半框形的笔画为3笔的字件;4代表的字件含义为全框四方形,合口有四角;5代表的字件含义为一笔穿二画(包括横穿、坚穿)且不取被穿的框、折;6代表的字件含义为六字形和部首上的点在正中间的字件;7代表的字件含义为字件的折角形状多且与7形状相同和相似的左右折角笔;8代表的字件为八字形、人字形;9代表的字件为多头形;0代表的字件为相交成十字形。
一种汉字繁、简体编码输入方法用的键盘是该编码方法可同用数字键和字母键编码输入;将该编码方法中的0至9的十个数字所代表的89个基本字件,分配在标准英文键盘上对应的数字键上;并将分配在数字键的字件,对应分配在与数字键成一斜列的字母键上,其中数字键0上的字件则分配在字母键P、M上。另将数字键4上的字件分为三类即框内无笔画类、框内有1至2个竖笔画类和框内笔画多且单纯竖笔除外类;将三类字件按使用频度分配在字母键R、F、V上。
本发明的目的还可通过如下措施:
汉字编码的输入方法包括非文字字件编码输入和文字编码输入;对汉字依形编码的长度均不超过四码;其中(1)非文字字件的编码输入方法是按字件的单笔画即基本字件中的最小字件编码;不足四码采用数字键输入时则加空格键;采用字母键输入时则加W键;刚够四笔时则依次键入;超过四笔则取一、二、三、末笔;(2)文字输入则又分为单体字、合体字和词组的编码输入;下列编码规则同时适用于数字键和字母键编码输入汉字:
①、单体字输入时,则按单体字的单笔画和较小字件取码,连取不间隔;超过四码时,取一、二、三、末字件;刚够四码时,依次键入;不够四码时,则加空格键;
②、合体字输入时,分为如下步骤:
a、按书写顺序依次取码;在同一结构顺序时,先取大字件,后取小字件,有大不取小;
b、先按书写顺序定位取码,在规定位置上取码还要配合字型结构;字型结构又分为横型、竖型、框型、混合型字;
——编码输入横型字时
当横型字为两个结构字时,则只需对两结构各取首尾两字件编码即可;
当横型字为三个结构字时,则按书写顺序,其中某一结构要取两次件,其余两结构只需各取一字件即可;取一字件时,如在第一、二结构取首字件,在第三结构取尾字件;取两字件时则按一(结构)有二不取,二有三不取的规则,某一结构取两字件时,则按首尾字件取码;
——编码输入竖型字时:
当竖型字为两个结构字时,第一结构取首次两字件,第二结构取首尾两字件编码;
当竖型字为三个结构时,则按书写顺序,其中某一结构要取两字件,其余两结构只需各取一字件即可;取一字件时,如在第一、二结构取首字件,在第三结构取尾字件;取两字件时则按一(结构)有二不取,二有三不取的规则,如在第一、二结构取两字件时则取首、次两字件,在第三结构则取首尾字件编码;
——编码输入框型字时:
框型字分为全框和半框,编码时应先取框后取内,框在多结构里则不取框内字件,框上的延长部分不取,框上带的左右结构要取字件;
——编码输入混合结构字时
当混合型字为上横下竖三个结构字时,则上按横型分别取两个结构的首字件,下按竖型取该结构的首尾字件编码即可;
当混合型字为上竖下横三个结构字时,则上按竖型取该结构的首次两字件,下按横型均取两结构的尾字件编码;
——当上述四种字型的结构为四个结构时,应取前三个结构的首字件和最后一个结构的尾字件编码;
当为五个及以上结构时,应取一、二、三、末结构的字件编码;
——编码输入时的次序调整
有少量字的笔画倒返,末笔落在左侧或上部的字,则按从上至下的笔画排列顺序取码;
③、汉字词组编码输入方法
——当词组为两个字时,各取两字的首尾字件编码;
——当词组为三个字时,第一个字取首尾字件,第二、三字只取首字件;
——当词组为四个字时,取各字的首字件编码;
——当词组为五个及以上字时,取一、二、三、末字的首字件编码。
文字输入时,在汉字结构中有穿插笔画,穿插笔画取码则按如下规则:
——初写笔画不取,只取穿插点,被穿的方框、半框、折角均不取;
——穿插后下部有其它笔画相连,则上按穿插笔画取码,下按连笔画的不同形状取码;
—一文字中多笔交穿成井字形,采用数字码输入时则取成两个5;采用字母键输入时,带框的取横穿G键再按框取码,不带框的取竖穿T键。
采用字母键输入文字时,还设有高频字、连打字、N键字的输入;其中高频字输入时击一下该字的首字件字母键与空格键即可;连打字是连击两下该字的首字件字母键与空格键即可;N键字,击该字的首字件的字母键再击N键和空格键即可。
采用字母键输入汉字时,还设有简码字和二意码;其中简码字是指对码位长的汉字只需取前两码或三码即可;二意码是指对汉字结构的拆分较难,则输入时可采用两种方法任取;输入汉字时,重码的处理方法是按使用频度将常用的字显示在第一位,若需此字,不需挑选,正常继续键入即可,其余的字则需按序号挑选。
输入十个汉字数字时;采用数字键输入则按单笔画构成及小字件取码;采用字母键输入则按一至十的顺序依次将中排字母键连击四下和上排P键四下即可依次输入。
本发明相比现有技术具有如下优点:
1、本发明将汉字组成归纳为89个基本字件;并按字件与汉字数字和阿拉伯数字相似的特性,而将其划分为十组(其中5、9除外):然后将十组字件按数字对应分配在标准英文计算机键盘的数字键上;并将每一数字键上的字件对应分配在与数字键成一斜列的字母键上,该编码方法的基本字件少、易学、易记、编码输入速度快。
2、本发明的编码方法可以用同一字件表采用数字键和字母键输入,且能繁、简体通用,并能对异体、古体、隶书、篆书、草书、甲骨文、钟鼎文、朝鲜文、日本文等汉字进行编码输入,该编码方法可对6763个简体字和四万多个繁体汉字和五千多组词汇进行编码。
3、本发明的拆字方法简单、易记,拆字唯一、无识别码,可加快汉字的输入速度。
4、本发明的汉字字件在键盘上分配合理,充分发挥了键盘的中间优势,以利用食指的灵敏度提高打字速度。
5、本发明的数字键所含字量均衡,各键位的字件首、中、尾兼顾。
6、本发明的重码少,重码率仅为6%,且其平均码长短,平均码长单字为3.48、带词组为2.48。
7、本发明的编码方法适用面广,可适用各类计算机、打字机、电报机、传真机、保密码、编码字典检字、照排机等使用。
本发明还将结合附图l、2、3实施例作进一步详述:
图l是本发明的数字键盘字件图
图2是本发明的字母键盘字件图
图3是本发明的高频字键盘图
参照图l、2,本发明的编码输入方法是将汉字的组成依形、部首归纳成89个基本字件;并按字件与汉字数字一至十的形状及阿拉伯数字1、7的形状相似或笔画数相等的特性分为十组,且分别用0至9十个数字代表;其中5、9中的字件与五、九形状不相似则单独分类,5代表一笔穿二画的字件,9代表多头的字件;具体分类可用如下口诀概括:
一横竖笔二撇先 三点四方五笔穿
六头七折形八点 九数多头十零然
各数字代表的基本字件如下:
1—一|石王山
2—二刂丿月禾鱼舟
3—三冫氵衤礻讠匚冂凵
4—口囗日目臼尸乃
5—扌中廿虫女
6—亠宀丶灬方门疒广辶
7—厂冖马纟∠阝卩
8—八人亻钅饣ク
9—小艹忄火
0—十巾×土木犭
其中数字1代表的字件含义为单笔同数字,部首取第一笔;数字2代表的字件含义为字件的第一笔为撇;数字3代表的字件含义为字件的左侧为有点部首及半框形的笔画为3笔的字件; 4代表的字件含义为全框四方形,合口有四角;5代表的字件含义为一笔穿二画(包括横穿、坚穿)且不取被穿的框、折;6代表的字件含义为六字形和部首上的点在正中间的字件;7代表的字件含义为字件的折角形状多且与7形状相同和相似的左右折角笔;8代表的字件为八字形、人字形;9代表的字件为多头形;0代表的字件为相交成十字形。
一种汉字繁、简体编码输入方法用的键盘是该编码方法可同用数字键和字母键编码输入;将该编码方法中的0至9的十个数字所代表的89个基本字件,分配在标准英文键盘上对应的数字键上;并将分配在数字键上的字件,对应分配在与数字键成一斜列的字母键上,其中数字键0上的字件则分配在字母键P、M上。另将数字键4上的字件分为三类即框内无笔画类、框内有1至2个竖笔画类和框内笔面多且单纯竖笔除外类;将三类字件按使用频度分配在字母键R、F、V上。
汉字编码的输入方法包括非文字字件编码输入和文字编码输入;对汉字依形编码的长度均不超过四码;其中(1)非文字字件的编码输入方法是按字件的单笔画即基本字件中的最小字件取码;不足四码采用数字键输入时则加空格键,如非文字字件刂取码为12加空格;采用字母键输入时则加W键如非文字字件刂取码为ZX加W;刚够四笔时则依次键入,如非文字字件礻取码为6716、HUZH;超过四笔则取一、二、三、末笔,如非文字字件疒取码为6126、HQWH;(2)文字输入则又分为单体字、合体字和词组的编码输入;下列编码规则同时适用于数字键和字母键编码输入汉字:
①、单体字输入时,则按单体字的单笔画和较小字件取码,连取不间隔;超过四码时,取一、二、三、末字件,如肃取码为5521、TGWZ;刚够四码时,依次键入,如耳取码为1120、QZSP;不够四码时,则加空格键如汉字石取码为124、QWF加空格即可;
②、合体字输入时,分为如下步骤:
a、按书写顺序依次取码;在同一结构顺序时,先取大字件,后取小字件,有大不取小;如汉字集取码为8650、KNTM,镘取码为8440、IRFM,來取码为0889、PKKL;
b、先按书写顺序定位取码,在规定位置上取码还要配合字型结构;字型结构为分为横型、竖型、框型、混合型字;
——编码输入横型字时
当横型字为两个结构字时,则只需对两结构各取首尾两字件编码即可,如汉字数取码为9580、LBKM,助取码为4207、FSPU,師取码为2410、WFQM;
当横型字为三个结构字时,即按书写顺序,其中某一结构要取两字件,其余两结构只需各取一字件即可;取一字件时,如在第一、二结构则取首字件,在第三结构则取尾字件;取两字件时则按一(结构)有二不取,二有三不取的规则;某一结构取两字件时,则只需取首尾两字件编码,如汉字糊取码为9902、LLPS,膨取码为2082、SPIW,鐡取码为8085、IPIB;
——编码输入竖型字时
当竖型字为两个结构字时,第一结构取首次两字件、第二结构取首尾两字件编码;如汉字雷取码为1040、QPVP,粪取码为9058、LPGK,軍取码为7550、UTTP;
当竖型字为三个结构字时,即按书写顺序,其中某一结构要取两次件,其余两结构只需各取一字件即可;取一字件时,如在第一、二结构则取首字件,在第三结构则取尾字件;取两字件时则按一(结构)有二不取,二有三不取的规则;某一结构取两字件时,如在第一、二结构取首次两字件,在第三结构则取首尾两字件即可;如莫取码为9408、ORPK,裹取码为6459、NVTO,負取码为2748、WUVI;
——编码输入框型字时
框型分为全框和半框,编码时应先取框后取内如国取码为416加空格、VAH加空格,医取码为3808、CKPK,問取码为44、RF;框在多结构里则不取框内字件,如撂取码为5424、GVWF,富取码为6144、YQFV;框上的延长部分不取,框上带的左右结构要取字件,如几取码为33、DD ;
——编码输入混合结构字时
当混合型字为上横下竖三个结构字时,则上按横型分别取两个结构的首字件,下按竖型取该结构的首尾字件编码即可,如汉字赞取码为2238、WWDK,紧取码为2779、XUJL,監取码为3842、CKFX;下不够上可多取字件编码,如督取码为1174、ZQUV,咨取码为3884、EKKF;
当混合型字为上竖下横三个结构字时,则上按竖型取该结构的首次两字件,下按横型均取两结构的尾字件编码,如聂取码为1100、QZMM,霸取码为1002、QPPS,轟取码为5500、TTPP;上不够取下可多取如寂取码为6190、YZLM;
——当上述四种字型的结构为四个结构时,应取前三个结构的首字件和最后一个结构的尾字件编码,如汉字磨取码为6001、YMMQ,築取码为2130、WQDM;
当为五个及以上结构时,应取一、二、三、末结构的首字件编码,如汉字叠取码为7774、UUUF,膺取码为6882、YKKS,推取码为5860、GKNM;
——编码输入时的次序调整
有少量字笔画倒返,末笔落在左侧或上部,易造成误解,则按从上至下的笔画排列顺序取码,如犬取码为608、HPK,戋取码为6503、HBMD,子取码为702、UPX,成取码为7657、JHBU,或取码为6541、HBFQ;
③、汉字词组编码输入方法;
——当词组为两个字时,各取两字的首尾字件编码,如科学取码为2092、SPLX;当某一字只取一码时则连打两下,如中国取码为5546、GGVH;
——当词组为三个字时,第一个字取首尾字件,第二、三字只取首字件;如科学院取码为2097、SPLU;如第一字只取一码则连打两下,如人生观取码为8827、KKWU;
——当词组为四个字时,取各字的首字件编码;如科学技术取码为2956、SLGH;
——当词组为五个及以上字时,取一、二、三、末字的首字件,如中华人民共和国取码为5884、GKKV。
另在文字输入时,在汉字结构中有穿插笔画,穿插笔画取码则按如下规则:
——初写笔画不取,只取穿插点,被穿的方框、半框、折角均不取;如中取码为5、G,巾取码为0、M,央取码为58、BK,申取码为50、TP,各取码为204、WMF;
——穿插后下部有其它笔画相连,则上按穿插笔画取码,下按连笔画的不同形状取码;如大取码为08、PK,未取码为59、TL;
——穿插后的挑取,如乇取码为203、WMD,于取码为102、QPX;
——方框未穿透取,如甲取码为45、VT,由取码为54、TV,曲取码为554、GGV;
——一笔穿二画,如中只取一个5、G;一笔穿三画取,如申取码为50、TP,如结构分明先0后5,如束取码为059、PGL;一笔穿四画只取两个5,如吏取码为55、BB;一笔穿五画先取两55后取0,如車取码为550、TTP;一笔穿六画,只取三个5,如事取码为5552、TTGX;
——文字中多笔交穿成井字形,采用数字码输入时则取成两个5;采用字母键输入时,带框的取横穿G键再按框取码,如曲取码为GGV;不带框的取竖穿T键,如井取码为TT。
本发明采用字母键输入文字时,设有高频字、连打字、N键字的输入;参照图3,高频字输入时击一下该字的首字件的字母键与空格键即可,如王、女、话等分别取码为A、B、C,其余的高频字见高频字键盘表3;连打字是连击两下该字的首字件的字母键与空格键即可,如瑰、证、冷、术、关、红、交、薄、政、军、思、宙分别取码为AA、CC、EE、HH、II、JJ、NN、OO、QQ、UU、VV、YY;N键字,击该字的首字件的字母键再击N键和空格键即可,如璜、帮、论、满、减、吃、报、发、钩、组、金、慢、校、警、培、雾、景、税、隶、验、睛、德、赛分别取码为AN、BN、CN、DN、EN、FN、GN、HN、IN、JN、KN、LN、MN、ON、PN、QN、RN、SN、TN、UN、VN、WN、YN。
十个汉字数字输入时;采用数字键输入则按单笔画构成取码如九取码为03、四取码为427、三取码为3、六取码为68;采用字母键输入则按一至十的顺序依次将中排字母键连击四下和上排P键四下即可依次输入,如一、二、四、九分别取码为AAAA、SSSS、FFFF、LLLL,十取码为PPPP。
采用字母键输入汉字时,还设有简码字和二意码;其中简码字是指对码位长的汉字只需取前两码或三码即可;二意码是指对汉字结构的拆分较难,则输入时可任取;如谵取码为3274、CWUF或3284、CWIF,梭取码为0786、MJHM或0780、MJIM。输入汉字时,重码的处理方法是按使用频度将常用的字显示在第一位,若需此字,不需挑选,正常继续键入即可,其余的字则需按序号挑选。