一种汉字音义编码计算机输入方法 (一)技术领域:本发明涉及一种汉字编码方法,尤其涉及一种汉字音义编码计算机输入方法。
(二)背景技术:目前汉字编码计算机输入法主要有汉语拼音输入法、五笔字型输入法,汉语拼音输入法只利用汉字的“音”属性对汉字进行编码,由于汉字的“音”属性所致,重码率高,很难实现盲打,效率极低,五笔字型输入法,虽然降低了重码率,但是规律不易掌握、记忆量大,难学易忘。
(三)发明内容:本发明的目的在于克服上述已有技术的不足而提供一种编码规范简单、重码率低、记忆量小,易学、易记的汉字音义编码计算机输入方法。
本发明的目的可以通过以下技术方案来实现:一种汉字音义编码计算机输入方法,其采用标准的英文输入键盘,所用代码对应英文字母键字母,其特征在于采用音节代码和字义代码相结合构成汉字输入编码,音节代码由汉字的声母代码和韵母代码组成,字义代码根据汉字的组成结构以声母代码、部首代码与笔划代码为基础进行编码。
所述的声母代码和韵母代码为(*后的字母表示以a、o、e为开头的零声母音节):
代码 声母 韵母
A *a a
B b ia ua
C c uan
D d ao
E *e e
F f an
G g ang
H h iang uang
I Zh i
J j ian
K k iao
L l in
M m ie
N n iu
0 *o o uo
P p ou
Q q eng er
R r en
S s ai
T t ui ue ü
U Ch u
V Sh uai üe
W w ei
X x ing
Y y ong iong
Z z un
所述的部首代码为:
部首:氵艹扌亻钅纟讠忄疒辶宀衤阝礻犭饣攵灬
代码:o a c e p f q s l x d j b z w r f r
所述的笔划代码为:
笔划种类 横 竖 撇 捺 点 钩 折 提
笔划代码 o e a s c n r z
所述的字义代码的编码流程为:
现设定几个概念:
母系汉字:所有的汉字都称为母系汉字。
子系字:母系汉字中所包含的部首、汉字称为子系字。
游离部分:把汉字分为两部分,即游离部分和模糊部分,子系字组成游离部分。
模糊部分:把汉字分为两部分,即游离部分和模糊部分,模糊部分由按照笔顺排列的笔划组成,不能再从中提取子系字。
集成字:把从中能够提取子系字的母系汉字称为集成字,集成字分为整分字和准分字。
约核字:把从中不能够提取子系字的母系汉字称为约核字。
整分字:是指只包括游离部分的子系字,而不包括模糊部分的笔划的汉字,整分字分为二整分字、三整分字、四整分字……,整分字的数目指所包含子系字的数目。
二整分字:是指游离部分由两个子系字组成地汉字。
三整分字:是指游离部分由三个子系字组成的汉字。
四整分字:是指游离部分由四个子系字组成的汉字。
准分字:是指既包括游离部分的子系字,又包括模糊部分的笔划的汉字,准分字分为一准分字、二准分字、三准分……,准分字的数目是指所包含的子系字的数目。
一准分字:是指游离部分由一个子系字组成,还包括模糊部分的笔划的汉字。
二准分字:是指游离部分由两个子系字组成,还包括模糊部分的笔划的汉字。
三准分字:是指游离部分由三个子系字组成,还包括模糊部分的笔划的汉字。
固有汉字:从母系汉字中提取的子系汉字,保持汉字原形的称为固有汉字。
还原汉字:从母系汉字中提取的子系汉字,发生了蜕变需要进行还原的称为还原汉字。
子系字代码:是指游离部分的部首代码,固有汉字声母代码,蜕变还原汉字声母代码。
字义代码由两个字母组成,约核字的字义代码由首尾笔划代码组成;对于二整分字,有同音字的且同音字是固有汉字,另一个非同音固有汉字是部首的,其字义代码由同音固有汉字的字义代码首字母和部首代码组成;二整分字有同音字的且同音字是固有汉字,另一个非同音固有汉字是汉字的,其字义代码由同音固有汉字的字义代码首字母和非同音汉字的声母代码组成,二整分字有同音字的且同音字是还原汉字,其字义代码由部首代码或子系汉字的声母代码组成,二整分字无同音字的,其字义代码由两个子系字代码组成;三整分字、四整分字……,其字义代码由首尾子系字代码组成;一准分字的字义代码由子系字代码和首笔划代码组成;二准分字、三准分字……的字义代码由首尾子系字代码组成。
为了更清楚的说明字义代码的编码流程,以下为字义代码的编码流程表:
所述的字义代码的部位排列顺序为:
游离部分的子系字在前,模糊部分的笔划在后,各个子系字以其在母系汉字中的部位进行前后排列,上、下部以上部为前、下部为后,左、右部以左部为前、右部为后,内、外部以外部为前、内部为后。
所述的编码方法中还可以进行简码输入:一级简码只取全码的第一个字母为汉字的代码,二级简码只取全码的前两个字母为汉字的代码,三级简码只取全码的前三个字母为汉字的代码。
所述的编码方法中还包括词组的编码方法为:对于词组的每个汉字,在字义编码时二整同音字,不需二次分,只取二整分字中两个子系字的声母代码或部首代码为义码,
(1)、两字词组取每个汉字的词组单字义码为词组代码。
(2)、三字词组取前两个汉字的词组单字义码的第一码,再取最后一个字的词组单字义码为词组代码。
(3)、四字词组取每个汉字的词组单字义码的第一码为词组代码。
(4)、多字词组取前三个汉字和最后一个字的词组单字义码的第一码为词组代码。
所述的方法中对重码的处理方法:
(1)提示行选择法,对重码里的几个汉字进行编号,听到提示音后,利用数字键进行选定;
(2)自动取舍法:将重码里的最常用的汉字放在前面,听到提示音后,若所需为排在最前面的字,则继续录入,后面的字自动被淘汰,第一个字自动选定;
(3)简码输入法:重码汉字如果有简码,实行简码输入,可以避免重码;
(4)词组输入法:重码字若有词组,实行词组输入,可以避免重码。
由于本发明利用汉字的“音”属性和“义”属性对汉字进行编码,汉字输入编码规范、简单、重码率低,重码率仅为2.9%,记忆量小,易学、易记。
(四)、具体实施方式:一种汉字音义编码计算机输入方法,其采用标准的英文输入键盘,所用代码对应英文字母键字母,其采用音节代码和字义代码相结合构成汉字输入编码,音节代码由汉字的声母代码和韵母代码组成,例如:“备”的音节代码为BW,“和”的音节代码为HE,字义代码根据汉字的组成结构以汉字的部首代码与笔划代码为基础进行编码,字义代码由两个字母组成,它是通过对汉字进行还原、重组、分解、排列后取得,字义代码取决于子系汉字的声母代码、部首代码、另辅以笔划代码,字义代码由两个字母组成,这样一个汉字的代码由四个字母组成。
母系汉字中的子系字与周围部分的联系有三种状态,间隔状态、接触状态、和交错状态,比如:“样”字中的“木”与“羊”为间隔状态;“田”字中的“口”与“十”为接触状态;“重”字为交错状态,“串”字为交措状态,从母系汉字中提取子系字,遵循以下可提原则:间隔状态、接触状态下可提,交错状态下不可提,如:“革”字只能提取“廿”字,其它部分为交错状态,不能再提取子系字,“成”可提取“戊”字,“虫”可提取“中”字。
字义代码的部位排列顺序为:游离部分在前,模糊部分在后,各个子系字以其在母系汉字中的部位进行前后排列,上、下部以上部为前、下部为后,左、右部以左部为前、右部为后,内、外部以外部为前、内部为后。根据汉字特点,一般部首在前,汉字在后,例如:“克”字宜分为“十”和“兄”,不宜分为“古”和“儿”;“树”字宜分为“木”和“对”,不宜分为“权”和“寸”。对于较复杂的字,要先总分后细分,比如:“藏”字总分是上、下结构,下部又是内外结构,外部又分左右结构,所以“藏”一分为“艹、臧”,二分为“艹、臣”,三分为“艹、爿、戈、臣”。“截”字先分内外结构“”和“隹”,外围又分成左上、右下,所以“截”字各部分应这样排列“十、戈、隹”。字义编码时,首先进行还原,然后进行重组,最后分解,对于“无”字,“ナ”蜕变还原为“十”字,然后重组提取“干”字。
母系汉字分为集成字和约核字,集成字又分为整分字和准分字,整分字分为整分字分为二整分字、三整分字、四整分字……,整分字的数目指所包含子系字的数目。准分字分为一准分字、二准分字、三准分……,准分字的数目是指所包含的子系字的数目。字义编码时,分解型式有“本”和“还原”的区别,“本”是指游离部分的子系字是未经还原提取的固有汉字,“还原”是指游离部分的子系字是经过还原提取的部首或蜕变还原汉字。对汉字进行分解,依据以下分解优先顺序:本二整分→还原二整分→本三整分→还原三整分→……→本一准分→还原一准分→本二准分→还原二准分→……→约核;即整分为先,准分次之,最后约核,具体到整分,二整分在先,依次为三整分、四整分……,具体到准分,一准分在先,依次为二准分、三准分……对同一数目下的整分或准分,本分在先,还原分在后。对于相同数目的分解型式有时会产生不同的分解内容,这时需要以缩比性为基础,所谓缩比性,是指分解效果应能尽量缩小模糊部分与游离部分的所占比率,例如:对于“玉”字,可以提“土”字,也可以提“王”字,二者都是一准分,根据编比性原则应提“王”字。对于“师”字,可以提“帅”字,也可以提“巾”字,二者都是一准分,根据缩比性原则应提“帅”字。缩比性原则只能在分解优先顺序的基础上展开。
约核字的字义代码由首尾笔划代码组成,例如:“韦”的字义代码为“OE”(首笔划为横,代码“O”,末笔划为竖,代码为“E”)。对二整分同音字,要采取二次分,二整分字有同音字的且同音字是固有汉字,另一个非同音固有汉字是部首的,其字义代码由同音固有汉字的字义代码首字母和部首代码组成,例如:“份”的字义代码为“EB”(“亻”部首代码为“E”,“分”的字义代码为“BD”)。二整分字有同音字的且同音字是固有汉字,另一个非同音固有汉字是汉字的,其字义代码由同音固有汉字的字义代码首字母和非同音汉字的声母代码组成,例如:“华”字的字义代码为“EV”(“化”的字义代码为“EB”,“十”的声母代码为“V”)。二整分字有同音字的且同音字是还原汉字,其字义代码由部首代码或汉字的声母代码组成,例如:“邱”的字义代码为“QB”。二整分字无同音字的,其字义代码由两个子系字代码组成,例如:“香”的字义代码为“HR”。三整分字、四整分字…,其字义代码由首尾子系字代码组成,例如:“品”是三整分字,其字义代码为“KK”。一准分字的字义代码由子系字代码和首笔划代码组成,例如:“个”字的字义代码为“RE”(“人”字的声母代码为“F”,笔划“丨”的代码为“E”)。二准分字、三准分字……的字义代码由首尾子系字代码组成,例如:“各”字为二准分字,其字义代码为“YK”(“又”字的声母代码为“Y”,“口”字的声母代码为“K”)。
所述的编码方法中还可以进行简码输入:一级简码只取全码的第一个字母为汉字的代码,二级简码只取全码的前两个字母为汉字的代码,三级简码只取全码的前三个字母为汉字的代码。
所述的编码方法中还包括词组的编码方法为:对于词组的每个汉字,在字义编码时二整同音字,不需二次分,只取二整分字中两个子系字的声母代码或部首代码为义码,
(1)、两字词组取每个汉字的词组单字义码为词组代码,例如:“感想”--“成心;相心”--“xian xin;xiang xin”--代码“XXXX”。
(2)、三字词组取前两个汉字的词组单字义码的第一码,再取最后一个字的词组单字义码为词组代码,例如:“计算机”--“讠竹木几”--代码“QIMJ”。
(3)、四字词组取每个汉字的词组单字义码的第一码为词组代码,例如:“环境保护”--“王土亻扌”--代码“WTEC”。
(4)、多字词组取前三个汉字和最后一个字的词组单字义码的第一码为词组代码,例如“中华人民共和国”--“丨化丿口”--代码“ZRWD”。
所述的方法中对重码的处理方法:
(1)提示行选择法,对重码里的几个汉字进行编号,听到提示音后,利用数字键进行选定;
(2)自动取舍法:将重码里的最常用的汉字放在前面,听到提示音后,若所需为排在最前面的字,则继续录入,后面的字自动被淘汰,第一个字自动选定;
(3)简码输入法:重码汉字如果有简码,实行简码输入,可以避免重码;
(4)词组输入法:重码字若有词组,实行词组输入,可以避免重码。
下面对音节为“BEI”的母系汉字进行编码(其音节代码为BW):母系汉字 分解型式 分解内容 字义代码 全码 陂 还原二整 阝B,皮pi BP BWBP 杯 还原二整 木mu,不bu MB BWMB 卑 还原二准 甲jia,十shi JV BWJV 碑 本二整“同音” 石shi,卑(甲)jia VJ BWVJ 庳 本二整“同音” 广guang,卑(甲)jia GJ BWGJ 椑 还原二整“同音” 木mu,卑(甲)jia MJ BWMJ 背 还原二整“同音” 北(匕)bi,月yue BY BWBY 悲 本二整 非fei,心xin FX BWFX 北 本一准 匕bi,丨E BE BWBE 贝 还原一准 人ren,丨E RE BWRE 狈 还原二整“同音” 犭W,贝(人)ren WR BWWR 钡 还原二整“同音” 钅P,贝(人)ren PR BWPR 邶 还原二整 北bei,阝B BB BWBB 备 本二准 又you,田tian YT BWYT惫 本二整“同音” 备(又)you,心xin YX BWYX褙 还原二整“同音” 衤J,背(匕)bi JB BWJB孛 本二准 十shi,子zi VZ BWVZ悖 还原二整“同音” 忄S,孛(十)shi SV BWSV倍 还原三整 亻E,立,口kou EK BWEK焙 还原三整 火huo,立,口kou HK BWHK蓓 还原二整“同音” 艹A,倍(亻)E AE BWAE被 还原二整 衤J,皮pi JP BWJP鞁 本二整 革ge,皮pi GP BWGP琲 还原二整 王wang,非fei WF BWWF辈 本二整 非fei,车che FU BWFU鐾 本二整 辟pi,金jin PJ BWPJ呗 本二整“同音” 口kou,贝(人)red KR BWKR臂 还原二整 辟pi,月yue PY BWPY碚 本三整 石shi,立,口kou VK BWVK糒 还原三准 米mi,艹,lu ML BWML 鞴 还原三准 革ge,艹,lu GL BWGL 以上31个汉字,代码数为31,重码数为0。