模糊元码汉字输入法 本发明涉及一种汉字输入法,尤其涉及一种模糊元码汉字输入法。
目前流行最广的汉字编码输入法有拼音输入法和五笔输入法,拼音输入法具有如下优点:(1)无须学习,易学易用;(2)词组输入效率较高;(3)编码直观,思维连贯;(4)与已有中文知识和习惯兼容性好。但拼音输入法具有如下缺点:(1)单字重码率太高;(2)或然性高,zh,ch,sh与z,c,s分辩有困难,ang与an,eng与en,ing与in区分也不易;(3)击健次数多;(4)拼音输入一般效率较低。五笔输入法的优点是:(1)重码率低;(2)击健次数少;(3)对于专业人员来说,效率较高。但五笔输入法也存在如下缺点:(1)编码不直观,不易记,容易忘;(2)编码思维与语言思维脱离严重;(3)或然性高,整字拆分过细,易出现不同结果;(4)与已有中文知识和习惯兼容性差;(5)趣味性差;(6)不经过特殊训练,一般人较难以应用。
为了综合拼音输入法和五笔输入法的优点,而克服它们的缺点,本发明人提出了一种模糊元码的概念。比如有人问:“若从一个汉字中取一个特征,最快的应是什么?”,回答肯定是:“元码”。
中国人习惯说,“我姓吴,口天吴”,或“我姓李,木子李”。模糊元码就是利用了汉字的特有结构和人们对它的认知习惯进行编码的,比如:
吴(wkt) 一键w为“吴”字元码,取拼音首键;二键k为“吴”字首码,取首部“口”的元码;三键t为“吴”字尾码,取尾部“天”的元码。
李(lmz) 一键1为“李”字元码,取拼音首键;二键m为“李”字首码,取首部“木”的元码;三键z为“李”字尾码,取尾部“子”的元码。
模糊元码的基本概念
(1)元码:元码为任何可发声部件的拼音首键,包括声母18个:b,p,m,f,d,t,n,l,g,k,h,j,q,x,z,c,s,r;2个半元音:y,w;和3个元音:a,e,o;共23个。
(2)补码:补码为任何可发声部件的韵母首键,包括5个元音:a,e,i,o,u;和模糊键:v;共6个。
(3)首码:首码为整字按二分规则分解后,含首部首画的可发声部件的字根码,共26个。(参见《模糊元码一键字和字根表》)
(4)尾码:尾码为整字按二分规则分解后,为尾部可发声部件(一般含尾部尾画)的字根码。若尾码与元码相同,且尾部为一个字(称元码字),则尾码为该字的尾码;若该字尾码已取尾分散,则尾码与元码相同。尾码共26个。(参看《模糊元码一键字和字根表》和《模糊元码取码规则》)
(5)字根:一组相对固定的笔画组合。
(6)元码字:汉字结构中的汉字。
(7)元码拼音:元码拼音将全拼缩减为最多用三键表示。规则如下:
A.声母zh,ch,sh分别用v,i,u表示。
B.ng用m表示。
C.元音组合ua,ue,ia,io分别用w,r,y,p表示。
例如:zhuang表示为vwm,jia表示为jy,ang表示为am。
(8)元码思维:模糊元码将汉字和相对固定地笔画结构按中国人的习惯和模糊思维发声,依据发声取元或补将其转换为a、b、c、d……26键。
本发明的目的就是基于上述思想提供一种模糊元码汉字输入法。
按照本发明的模糊元码汉字输入法,其特征在于:它包括下列与标准键盘对应的字根:
a 上三(彡巛)山(彐彑)看()羊()
b 不八(丷冫)宝(宀)病(疒)鬓(髟)
c 出采(采)长(镸)草(串)(艹廾卄)
d 的刀(刂)登(癶)丁()
e 这折(乙乛)二()耳(阝)
f 发()方(囗)福(畐)丰(卅韦)
g 国高(亠)官()戈(弋戋戉)根(艮)
h 和横(一)火(灬)回()虎(虍)
i 地交(乂十廴ナ七)示(礻)丝(纟糸)衣(衤)
j 经()己(巳已)巾(屮)金(钅)酒(酉)
k 开()口(框(匚凵)
l 了老(耂)连(ㄐ冖丆丅丄)
m 民母(毋)末(未)米(丬丌)
n 内捺(丶)鸟()牛(牜)
p 平撇(丿)片(爿)
q 气犬(犭豸)青()
r 人(亻彳)日(曰)入
s 是私(厶四罒)食(饣)
t 同条(夂)头天(夭)土(士干千于)
u 水(氵氺)竖(丨)川()雨()鱼
v 为模糊(昌卯卵印吕炎双羽比北兆从多行弱......)
w 我文(攵)无(旡)
x 小()心(忄)夕()霞()西(覀)
y 一言(讠)业()月()易()
z 在竹()爪(爫)子(孑孓)足(疋)
o 有钩(丂卂冂勹尢卩冘)走(辶)又手(扌);
根据上述字根,取汉字的元码、首码、尾码或补码对汉字进行编码;其中,汉字又分为一键字,二键字和三键字。
按照上述的模糊元码汉字输入法,其特征在于:
所说元码为任何可发声部件的拼音首键,包括声母18个:b,p,m,f,d,t,n,l,g,k,h,j,q,x,z,c,s,r;2个半元音:y,w;和3个元音:a,e,o;共23个;
所说补码为任何可发声部件的韵母首键,包括5个元音:a,e,i,o,u;和模糊键:v;共6个;
所说首码为整字按二分规则分解后,含首部首画的可发声部件的字根码,共26个;
所说尾码为整字按二分规则分解后,为尾部可发声部件(一般含尾部尾画)的字根码,若尾码与元码相同,且尾部为一个字(称元码字),则尾码为该字的尾码;若该字尾码已取尾分散,则尾码与元码相同。
按照上述的模糊元码汉字输入法,其特征在于:
所说首码为:汉字二分后,若首部是元码字或字根,则首码为该字的元码或该结构的字根码;若首部不是字或字根,则将该结构再分,首码为再分后的含首画结构的字根码;
所说尾码为:汉字二分后,若尾部是元码字,且该字元码与整字元码不同,或尾部是字根,则尾码为该字的元码或该结构的字根码;若尾部是元码字,但该字元码与整字元码相同,则尾码为该字的尾码。若该元码字的尾码已取尾分散,则尾码不再分散,同元码;若尾部不是字或字根,则将该结构再分,尾码为再分后不含该结构首画的字或字根的字根码;模糊对称的夹结构字,尾码取中间结构;包结构,若该结构不是字,且该结构的内部是一个字或字根,则取内。若该结构的内部不是一个字或字根,则取外。
按照上述的模糊元码汉字输入法,其特征在于;上述元码、首码和尾码的输入次序为元码、首码和尾码。
按照本发明的模糊元码汉字输入法具有如下特点
(1)易学易用:若列举3例,你自己将会编第4例。
(2)重码率低:单字重码率为2.722%,4键重码率为18%。
(3)击健次数少:一个汉字平均击键次数为1.9键(包括空格或数字确认键)。
(4)编码直观,思维连贯:模糊元码以最简拼音,取能发声结构的拼音首键(元码)和韵母首键(补码)进行编码。取码过程类似书写汉字。
(5)或然性小:模糊元码定义了231个字根,另加263个元码字,以及精简的取码和编码规则,把或然性降到最低。
(6)与已有中文知识和习惯兼容性好:模糊元码与您已有的中文知识和习惯100%兼容。
(7)可扩张和可变换,能很好满足个人口味:模糊元码输入法完全版向个人提供功能强大的输入法编辑器,用户可以十分方便地制作符合自己口味的输入法原码文件。
(8)趣味性强,让人爱学爱练:学习模糊元码既让人高兴,又让人爱学爱练。
下面将对本发明的模糊元码汉字输入法进行详细说明。
(1)模糊元码一键字和字根表
a 上三(彡巛)山(彐彑)看()羊()
b 不八(丷冫)宝(宀)病(疒)鬓(髟)
c 出采(采)长(镸)草(串)(艹廾卄)
d 的刀(刂リ)登(癶)丁()
e 这折(乙乚乛亅)二(ㄍ)耳(阝)
f 发()方(囗)福(畐)丰(卅韦)
g 国高(亠)官()戈(弋戋戉)根(艮)
h 和横(一)火(灬)回()虎(虍)
i 地交(乂十廴ナ七)示(礻)丝(纟糸)衣(衤)
j 经()己(巳已)巾(屮)金(钅)酒(酉)
k 开()口()框(匚凵)
l 了老(耂)连(ㄐ冖丆丅丄)
m 民母(毋)末(未)米(丬丌)
n 内捺(丶)鸟()牛(牜)
p 平撇(丿)片(爿)
q 气犬(犭豸)青()
r 人(亻彳)日(曰)入
s 是私(厶四罒)食(饣)
t 同条(夂)头天(夭)土(士干千于)
u 水(氵氺)竖(丨)川()雨()鱼
v 为模糊(昌卯卵印吕炎双羽比北兆从多行弱......)
w 我文(攵)无(旡)
x 小()心(忄)夕()霞()西(覀)
y 一言(讠)业()月()易()
z 在竹()爪(爫)子(孑孓)足(疋)
o 有钩(丂卂冂勹)走(辶)又手(扌)
注:左边的英文字为键名,每行第一个汉字为模糊元码输入法的一键字,其余的汉字用于说明其后括号内字根的类型,真正的字根为括号内的那些特殊字符。
(2)模糊元码键名字决
上不出的这发国,
和地经开了民内。
平气人,是同水;
为我小,一在有。
注:键名字作为元码字或单字编码时,一律仅取其元码或补码。键名字无首码或尾码。
(3)模糊元码字根记忆口决
a 上三山看羊,
b 不八宝病鬓。
c 出采长草,
d 的刀登丁。
e 这折二耳,
f 发方福丰。
g 国高官戈根,
h 和横火回虎。
i 地交示丝衣,
j 经己巾金酒。
k 开口框,
l 了老连。
m 民母末米,
n 内捺鸟牛。
p 平撇片,
q 气犬青。
r 人日入,
s 是私食。
t 同条头天土,
u 水竖川雨鱼。
v 为模糊,
w 我文无。
x 小心夕霞西,
y 一言业月易。
z 在竹爪子足,
o 有钩走又手。
(4)模糊元码元码字参考表
a 上三山羊
b 不八贝白百帛(bo)卜卑币丙巴包办半宾兵
c 出采串长(chang)才寸刍(chu)舛(chuan)参(chan)重(chong)春差巢
d 的刀登丁东冬斗豆兑(dui)当岛旦电呆歹大氐(di)单(dan)
e 这二耳儿尔而弍(er)
f 发丰方父夫甫(fu)乏凡分否飞弗巿(fu)缶(fou)韦(wei)番(fan)
g 国高戈弋(yi)戋(jian)艮(gen)工呙(guo)癸(gui)敢‰*(guai)
h 和禾火回曷(he)
i 地交示衣十七
i 经己已巳金巾及见祭
k 开口克可壳(ke)
l 了立力鬲(li)来耒(lei)老连乐(le)
m 民米母面麦麻黾(mian)免末未
n 内鸟女廿(nian)南牛
p 平片皮票攴(po)扁(pian)辟(pi)爿盘(pan)
q 气犬豸(zhi)青覃(qin)佥(qian)切齐乔秋
r 人日入冉(ran)壬
s 是四食私厶矢失鼠叟殳(shu)氏戍(shu)
t 同条头台太天夭田屯(tun)土士干千于乇(tuo)兔(tu)
u 水川雨鱼
v 为双从羽炎林比北非行焱昌多吕朋弱兆
w 我文无兀五万王亡瓦戊午勿卫
x 小心夕下西兴昔希习夏显辛穴
y 一言业亦夭幺(yao)聿(yu)友右尤与予玉俞余用永应元云匀月禺(yu)禹(yu)爰(yuan)舀(yao)尧(yao)曳(ye)雍(yong)央
z 在爪子足止主隹(zhui)丈召正之只支直至中朱自卒左匝帀(za)陟(zhi)臧(zang)兹(zi)
o 有走又手
注:参(chan)、长(chang)、重(chong)、番(fan)、单(dan)、乐(le)、覃(qin)、扁(pian)、辟(pi)、鬲(li)为多音字,作为元码字仅念一种。
(5)模糊元码一键字和字根表生成规则
1)取补分散
s,y,z,g,k 5键编码任务较重,下列字或字根取补码分散:
a 上三(彡巛)山(彐彑)看()羊()
e 这折(乙乚乛亅)
i 地交(乂十廴ナ七)示(礻)丝(纟糸)衣(衤)
u 水(氵氺)竖(丨)川()雨()鱼
o 有钩(丂卂冂勹)走(辶)又手(扌)
2)意同合一
字根意义相同,归为一类。例如:
a 羊()
b 病(疒)鬓(髟)
c 长(镸)草(艹廾)
d 刀(刂リ)
e 耳(阝)
g 官()戈(弋戋)
h 火(灬)回()虎(虍)
i 示(礻)丝(纟糸)衣(衤)
j 金(钅)酒(酉)
n 鸟()牛(牜)
q 犬(犭豸)
r 人(亻彳)日(曰)
s 食(饣)
u 水(氵氺)川()雨()
w 文(攵)
x 心(忄)夕()
y 言(讠)月()易()
z 竹()爪(爫)
o 走(辶)手(扌)
3)旋转求同
以一个常用字或字根旋转或返转,得到其它字根。例如:
a 山(彐彑)
b 八(丷冫)
j 巾(屮)
k 开()框(匚凵)
m 米(丬丌)
p 片(爿)
s 私(厶)
t 土(士干千于)
4)形似合并字或字根形状相似也归为一类。例如:
c 采(采)
d 登(癶)丁()
f 发()
j 己(巳已)
m 末(未)
s 四(罒)
t 天(夭)土(士干千于)
w 无(旡)
x 小()西(覀)
z 子(孑孓)足(疋)
5)概念联想
a 三(彡巛)
注:三撇,三折,三点
c 草(串)(艹廾卄)
注:一笔串二笔
e 二(ㄍ)
注:二撇,二折,二点
f 丰(卅韦)
注:一笔串三笔
i 交(乂十乜廴ナ七)
注:二笔相交
l 连(ㄐ冖丆丅丄)
注:二笔相连
u 水(氵氺)川()雨()鱼
注:与水有关
v 为模糊(昌卯卵印吕炎双羽比北兆从多行弱......)
注:上下、左右模糊对称,或二字或三字重叠
o 有钩(丂卂冂勹)
注:有钩组合
6)掐头去尾
a 看()
b 宝(宀)病(疒)鬓(髟)
c 登(癶)
f 福(畐)
g 高(亠)官()
h 虎(虍)
j 经()酒(酉)
k 老(耂)
q 青()
t 条(夂)
x 霞()
y 业()
7)基本笔画
h 横(一)
u 竖(丨)
p 撇(丿)
n 捺(丶)
e 折(乙)
8)笔画结构
a 三(彡巛)
b 八(丷冫)
c 草(艹廾卄)
e 二(ㄍ)
f 丰(卅韦)
i 交(乂十廴ナ七)
l 连(ㄐ冖丆丅丄)
m 米(丬丌)
o 有钩(丂卂冂勹)4.模糊元码取码和编码规则
(1)二分规则
1)汉字结构
连 首画和一个字根相连,物理距离等于或接近0。
例如:“天”为“一”连“大”字,物理距离等于0;“主”为“丶”连“王”字,物理距离接近0。
散 汉字中有分离的结构,物理距离大于等于0。
例如:“汉”字,“氵”和“又”物理距离大于0;“元”字,“二”和“儿”物理距离等于0。
交 二字根相交。
例如:“中”为“口”与“丨”交。
夹 左右或上下模糊对称,中间夹一字或字根组合。
例如:“班”字,左右两个“王”字成模糊对称,中间夹一个。
包 一个汉字结构至少两面以上被包围。
例如:“匈”字,结构“凶”被结构“勹”两面以上包围。
2)优先顺序
整字一分为二可能有若干种分法,优先顺序如下:
A.二分为二字或字根优先,兼顾直观。
例如:“来”字优先分为“未”和“丷”;“树”字优先分为“木”和“对”;“本”字优先分为和“八”。
B.连先于散,散先于交。
例如:“天”字优先分为“一”和“大”;“主”字优先分为“丶”和“王”;“串”字分为“吕”和“丨”。
C.取大优先:字大于字根,字根大于笔画。
例如:“下”字分为“一”和“卜”,而不分为“丅”和“丶”;“大”字分为“一”和“人”,而不分为“ナ”和“”。
(2)模糊元码取码规则
1)首码
A.汉字二分后,若首部是元码字或字根,则首码为该字的元码或该结构的字根码。
例如:“如”字,二分为“女”和“口”,首部“女”为元码字,首码为“女”字元码“n”。
B.汉字二分后,若首部不是字或字根,则将该结构再分,首码为再分后的含首画结构的字根码。
例如:“赢”字按上下结构二分后,上部不是字根,将该结构按二分规则再二分,则首码为“亡”字元码“w”。
2)尾码
A.汉字二分后,若尾部是元码字,且该字元码与整字元码不同,或尾部是字根,则尾码为该字的元码或该结构的字根码。
例如:“别”字,尾部为“刂”,故尾码为“d”。“私”字尾部为“厶”字,由于“厶”字元码与“私”字元码相同,则“私”字尾码不取“s”,取“厶”的尾码“n”。
B.汉字二分后,若尾部是元码字,但该字元码与整字元码相同,则尾码为该字的尾码。若该元码字的尾码已取尾分散,则尾码不再分散,同元码。
例如:“樟”字,尾部为“章”字,由于“章”字元码与“樟”相同,在这种情况下,一般应取尾分散。但由于“章”字尾部“早”的元码也为“z”,虽然,“章”字尾码为“i”(“十”),也不再分散,故“樟”字尾码还是取“早”的元码“z”。
C.汉字二分后,若尾部不是字或字根,则将该结构再分,尾码为再分后不含该结构首画的字或字根的字根码。
例如:“俊”字二分后,尾部不成字根,尾码取“夂”的字根码“t”。
D.模糊对称的夹结构字,尾码取中间结构。包结构,若该结构不是字,且该结构的内部是一个字或字根,则取内。若该结构的内部不是一个字或字根,则取外。
例如:“摘”字,尾部为包结构,“冂”包“古”字,由于该结构的内部是一个字或字根,故尾码为“g”;又如:“曷”字,尾部为一包结构,由于该结构的内部不是一个字或字根,故尾码取“勹”为“o”。
(3)模糊元码编码规则
1)单字
A.键名26个:元码或补码
上不出的这发国,
和地经开了民内。
平气人,是同水;
为我小,一在有。
B.常用字约480个:元码+首码
例如:“就”字正式编码为“jj”。
C.一般字约4551个:元码+首码+尾码;元码+首码+尾码+a;v+首码+尾码+元码
第四键加a表示元首尾三键有重码的一般字,使其排序在次。第一键加“v”的目的是若该字不会念或念不准,打“v”靠首尾码输入。例如:“点”和“答”字前三键都为“dzh”,其中,“答”字第四键加a。另外,也可以按“vzhd”编码。
D.难念字约2062个:元码+首码+尾码+v,v+首码+尾码+元码
一些不常见字经常与常见字干扰,第四键加“v”,使之排序在后。
例如:“鳉jiang”字,编码为“jucv”或“vucj”。
2)双字
A.一般字约17920个:元码+首码+元码+首码
例如:“例如”编码为“lrrn”。
B.双字中有一个键名字约4630个,则键名字仅取元码或补码,不足4键加e:元码+元码+首码+e或元码+首码+元码+e
例如:“地球”编码为“iqwe”;“可是”编码为“kdse”。
C.双字都为键名字59个:元码+元码+e
例如:“地上”编码为“iae”。
3)三字
三字约5630个:元码+元码+元码+首码;元码+元码+元码+v(第三字为键名字)。
例如:“洗衣机”编码为“xyjm”;“有没有”编码为“omov”。
4)四字或四字以上
四字或四字以上约14771个,提供两种编码方案:
A.可取前四个编码:元码+元码+元码+元码(第四字)。
例如:“一心一意”编码为“yxyy”;“北京理工大学”编码为“bjlg”。
B.第四键取尾字编码:元码+元码+元码+元码(尾字)。(标准元码)
例如:“一心一意”编码为“yxyy”;“北京理工大学”编码为“bjlx”。
5)i,o,u,v四个功能键
A.i为自定义键,自定义地址,大写序数字和连词。
例如:北京市 ibjs
浙江省 izjs
中国 izg
北京 ibj
所以 isy
也许 iyx
壹 iy
贰 ie
叁 ia
肆 is
伍 iw
陆 il
柒 iq
捌 ib
玖 ij
拾 ii
B.o为元码拼音的前缀,使用o键可以用元码拼音输入单字。
例如:吴 owu
宗 ozom
怡 oyi
C.u为自定义键,用于自定义的人名和单位。
例如:吴宗怡 uwzy
元 ui
角 uj
仟 uq
D.v为模糊键,用于非汉字字根以及可用首尾码输入的一般汉字,使用模糊键v可以轻而易举地输入不会念的汉字。。
例如:巛 va
凵 vk
冖 vl
夂 vt
吴 vktw
宗 vbiz
怡 vxty
注:总字词条数约为64196个。
上面已经对本发明的模糊元码汉字输入法进行详细的说明,但本发明并不限制于此,而是应由权利要求书确定的范围来限定。在本发明的基础上可进一步:
1.开发分类模糊元码词库,如物理词库,数学词库,经济学词库等等。这样可以扩充词库,而不提高重码率。
2.依据模糊元码之原理,开发繁体元码。
3.开发屏幕快速造词功能。