本发明涉及汉字的计算机输入方法,属于汉字的计算机输入和处理的技术领域。 汉字的计算机输入问题,一直被认为是中文信息处理的瓶颈。八十年代起,国内外涌现出了几百种汉字输入法,已实现的有几十种。目前较为流行的有近十种,如:五笔字型、自然码、五十字元、双拼双音,全频码、天龙码等。这些方法都以编码作为基础,并依据汉字的形、音,制定一套编码规则,对汉字进行编码,形成一本汉字编码字典。因此,所谓的汉字输入法就是一套人为的汉字编码规则,输入过程就是查字典的过程。用户在使用时,必须强记各种编码规则;严格地按规则进行输入,不能充分地利用汉字的各属性自由地输入,并且难学难记,心理负但较重,常使用户对汉字输入望而生畏。
本发明的目的是提供一种易学、易记,且与人们认字过程相适应的汉字属性输入法和汉字属性键盘。
本发明主要包括汉字的属性输入方法以及相适应的汉字属性键盘,其主要特征是该输入法是根据汉字的属性进行汉字输入及键盘排列的,其中包括拼音属性和字元属性,用拼音属性输入时,采用简拼、全拼或混拼的方式,采用字元属性输入时,以40个高频字元作为代表字元,并把这40个字元分成四类,分别分布在4排键位上,另选100多个汉字字元分别归并于这40个代表字元中,以形成汉字属性输入法及汉字属性键盘。
采用拼音属性时,除a、o、e、n、h、g之外,其它字母都兼有其它功能,其拼音归并的方法如下:
字母 归并
a 不能归并
o 不能归并
e 不能归并
i ch
u sh
u(v) zh
b 空缺
p 空缺
m ang
f en
d eng
t \去声调
n 不能归并
l ai
g 不能归并
k ao
h 不能归并
j an
q -平声
x 空缺
z O轻声
c 空缺
s ong
r ∨阴平
y ing
w /阳平
这样,除字母a、o、e、n、h、g之外,其它字母都身兼两职。如拼Song,由(S、o、n、g)四个字母构成,也可由ss两个字母构成,第一个s为声母,第二个s为复韵母ong,再如:Shen由(s、h、e、n)四个字母构成,也可由uen或uf或shf构成,出现在第一个字母位置的u为声母sh,不是出现在第一个字母位置的f为韵母en。通过这样的归并后,在拼音键盘上即可实现全拼(如Shen),也可实现简拼(如uf),也可实现混拼(shf)。
采用字元属性输入时,字元组合的结构分成三大类,即左右结构,上下结构以及其它结构,在键盘上分别以“左右、上下、其它”的符号表示,如:
左右结构有:朋、衍、悟、部、滥、喉,等;
上下结构有:吕、意、怨、霜、薄、器,等;
除了左右结构和上下结构之外的都为其它结构。
其40个代表字元在键盘上的布局为:
第一排:一、二、三、四、五、六、七、八、九、十、
第二排:尸、人、大、立、女、手、止、心、口、目
第三排:金、木、水、火、土、日、月、雨、山、田
第四排:言、广、马、几、纟、 、禾、联想、查询、
其它各字元归并在40个代表字元上的方法为:
自然 归类
金 金钅戈戋
木 木
水氺氵小
火 火米
土 土士工
日
月
雨西豆石古
山 屮巾彐
田 甲
人 归类
尸己已巳巴
人 亻
大 夫贝
立示礻衤
女 文攵又
手 毛扌寸
止辶廴之彳亍彡
心 忄
口
目且耳身用山
社会 归类
言 讠
广 厂厂
马 弓勹习
几冂凵宀冖
纟
廾 廿也
禾 斤片爿
符号 归类
一
二 亠
三 气了阝卩乃
四 皿罒中虫臼
五 王
六 乙亅
七 匕厶丄
八 丷儿
九 力刀
十 乂
在汉字输入中,可以采用拼音属性的输入法,也可采用字元属性地输入法,同时也能采用字元属性和拼音属性的混合输入法,即先根据左右、上下、其它的结构特征输入某一个汉字的1-3个字元特征,最后再加上一个拼音特征,用这样的输入方法可使重码率小于千分之五。在用字元属性输入汉字的特征时,可以无序输入,也可以“模糊”输入,即只输入某一个汉字的几个特征即可,而不要按其特征的先后位置先后输入。
采用本发明的汉字属性输入法及汉字属性键盘,其优点如下:
1.采用特征抽取与模式识别的方法,比较接近人的认字过程,突破了传统的编码方式。
2.汉字属性键盘包括拼音(声母、韵母、声调)、字元、笔划、结构类型等,字元是根据一万多字的静态、动态统计特性,选取了40个高频字元作为代表,其它字元和笔划则根据其形状或意义作相应的归并,易学易记,结构分上下、左右、其它三类。
用户可随意地抽取汉字的音、形特征,无强制规则,无顺序要求,不用切换即可以纯形,纯音,音形混合特征进行输入,用户可在非常轻松的心理状态下,进行“盲打”、“听打”和“想打”。
4.字元特征可模糊抽取,拼音特征可全拼,简拼,混拼。
5.抽取字元特征时,有较强的容错性。
6.以纯形特征或音、形混合特征输入时,效率较高,一般每字抽取≤3个特征即可识别出一个字,可做到无重码输入。
7.具有独特的词语联想功能,词语无需编码字典,只要提供词库,即可做到快速的词语联想输入。
8.具有模糊查询功能。
9.能满足各个层次的用户要求,不用专门的学习,只要熟悉一下汉字属性键位表,便可做到无师自通,几分钟内即可很方便地进行汉字输入。用户的熟练程度越高,输入效率越快。对于专业录入员可达到150~200字/分的输入速度。
图1是本发明的拼音归并表。
图2是本发明的汉字字元归并表。
图3是本发明的汉字属性键盘的键位图。
本发明的实施例如下:
把拼音键和字元键合并即成汉字属性键盘,它们之间用“Sh-ift”键区分,当“Shift”键与某一键合用时,即为拼音输入,否则为字元输入或结构键。例如从键盘上无序地输入“木、目、心”三个特征(纯形输入)经过计算机的识别后即输出“想”字,若从键盘上无序地输入“目、心、X”三个特征(音形输入),计算机将立即输出“息”字。
从键盘上依次输入“X、I、N”三个特征(纯音输入)计算机将输出“心、形…”等41个字。
从键盘上输入“木”、“左右”两个特征,计算机将输出“木”字的一个最简单的字即“札”,同样如果从键盘上输入“木”和“ ”也能输出“札”字。
总之,用户可随意地抽取汉字各种特征,只要抽取的特征足以描述一个汉字,处理器将准确地输出用户所需的汉字。在抽取字元特征时,符合人的识别习惯,一般含笔划数多的字元总是最引人注目的,如“虫、田、目、金、心、月”等等,这些字元特征在输入时,一般是不能忽略的,而笔划少的字元往往是可以被忽略,如“ 、 、 、 、”等,这种忽略,在大多数字的输入过程中,不影响最后的处理结果。
一般一个字抽取三个醒目特征,就可以识别出结果,对于少数字,最多抽取4个特征即可。
如果个别字的字元构成有明显的顺序关系,则判决器在输出结果时,根据输入字元的顺序进行判别,如“呆”“杏”两个字,若输出“口”“木”时,“口”在前,则输出“呆”,“木”在前,则输出“杏”。
根据上述汉字属性键盘及汉字输入处理器的原理,即可以在现有的计算机上实现,也可以做成专用设备的键盘和输入处理器,现已在计算机上实现,并可处理两级字库的6763个汉字。