技术领域:汉字信息处理技术 技术背景:汉字编码方案已经提出几百种,应用较广的有:电子部六所的CCDOS(首尾,拼音),中国专利85100837五笔字型编码,中国专利85102777宏观字形码,万仁芳的前三末一拼形方案,北大的“西山汉卡”、上海交大等的双拼码,郭淑贞的声韵部形码等等。所有这些方法都有三个问题:1.每一个汉字在一种状态下只能按一种编码输入;2 都有重码;3规则较为复杂,对操作者的要求较高。
发明陆码系统汉字输入技术的目的:发明一种易学易记的汉字编码及输入技术,可以在同一种状态下,随操作者的意愿,方便地按汉字的字形、字音、形声或声形等多种编码输入汉字,规则简单而又能达到国标BG2312-80二级汉字库内无重码。
内容:
一、理论基础:
作者对汉字的字音、字形中所包含的时空信息进行深入分析探讨认为:古老的汉字的字音和字形,是我们的祖先基于对时间和空间的深刻认识而创造出来的一种优秀的信息记录载体。其优越性在于:用最少的元素却包含了最大的信息量,这是中华民族对人类文明的最伟大贡献之一。由于这个优点,汉字最适合于编码和计算机输入。作者基于上述认识,致力于挖掘汉字所包含的时空信息,综合了汉字的字形、笔顺、字音、声调和使用频度等特点,提出了“秩”的新概念,创造出一套陆码汉字系统,在统一的编码原则下,用26个英文字母代表40个基本码元,形象音似,见字识码,好学易记,而且用同一种编码可以方便地统一处理简体、繁体和日文汉字。
二.陆码系统汉字编码方案:
陆码对每一个汉字都给出三类编码:音码,形码和秩码。
(1)音码:包括声,韵,调三种:
声码:该汉字按拼音方案地声母或第一个字母,遇声母是Zh,Ch,Sh的,则分别用V,I,U来代表。
韵码:该汉字按拼音方案的尾韵或最后一个字母,遇尾韵是如下复韵的,则分别以下表中其对应的代码字母来代表:
ao_K ai_L an_J ang_H
en_F eng_G ing_Y ong_S
ei_Z ui_V ü_V
调码:该汉字最常用字的声调,分别用如下符号来代表:-(一声) [(二声)](三声)\(四声和轻声)
综合以上,形成陆码音码的键面图如图一所示。
记忆口诀:“追吃熟鱼,粉煎烤来,夯松更硬。”
表示:Zh-V-ui Ch-i Sh-u ü-v
(Z-ei)
F-en J-an K-ao L-ai,
H-ang S-ong G-eng Y-ing。
这样,每一个汉字的字音都可用声韵调,整齐的三键编码给出。例如:
汉字: 计 算 机 科 学
陆码简拼: JI\ SJ\ JI- KE- XE[
(2)形码:包括首,二,三,尾四种。
陆码形码的码元:
按空间方向分类,汉字笔划最基本的单元有五种:点、横、竖、撇、捺,用以下五个字母代表:
D(丶) Y(-) I(丨) J(丿) C()
由这五基元可组合成为许多空间类型,将汉字的二百多种常用构件,按其主要的空间类型特征归为26类,用26个英文字母作为代码,尽量做到形象或者音似,如:三角形类厶:A 两横一竖类 干:F 三横一竖类 王:E 月:Y 木:M 西:C 等等。这样,形成陆码基本码元键面图和陆码码元表如图一和表一所示:
注意:陆码不要求机械地硬背码元表,而要求掌握构件按其空间类型的主要特征归类的原则,如代码“Q”并没有对应的码元,只是给出一条原则:“四面包围,内有笔划之码元”,因此,“昌:QQ”而“日:OY”,因“昌”中的“日”是一个组成码元。
取码原则:精练成六句口诀:“按照笔顺,外框先取,先大不重,右上点略,先取首尾,再取二三”,具体方法如下:
A.按照汉字书写的标准笔顺,主要是约定俗成的十条:先上后下,先左后右,先外后内,先中后旁,先整后零,先横后竖,先横后撇,先撇后捺,先撇后点,先钩后挑。个别有二义性的加以适当的规定,如“刀刁力”作“LJ”,而“几九”作“JZ”。
B.外框型的字,适当调整一下笔顺,先取完外框的所有笔划,如“匡”作“CE”。
C.从第一笔开始,按笔顺尽量形成笔划最多的码元即为首码,用过的笔划不重用。
D.从最后一笔向回取笔划,尽量形成笔划最多的码元即为尾码;如最后一笔为右上一点的,取尾码时先省略不计,以免以D作尾码的重码字太多;如首码已取完所有笔划,则尾码重复首码。
E.先取完首尾码之后,余下的笔划再顺次形成二码和三码,如已无笔划,则根据该字的结构类型取二码为:S(上下型)或Z(左右型)或W(无定型),而三码同尾码,但如尾码是“Q”时,三码取“Q”之内部笔划。
如:“相:MZYQ”。
F.如遇笔划较多的复杂字时,而该字能分为两部分的,分别取这部分的首尾;如该字由三部分组成,则二码和三码取中间部分的首尾。如“裤:BVTS”,“微:JIUX”。
(3).“秩”码:
这是陆码汉字系统所特有的一种编码。首先给出“秩”的概念:“秩”就是汉字编码里形、音或调的编码都相同的重码汉字,按其使用频度高低排列的秩序,最常使用的高频字为0秩,顺次为1秩、2秩…,秩越高,频度越低。“秩”的本质是“带通数字滤波”。由于“秩”的引入,提供了区分重码字的有效手段,实现了简单规则下二级汉字无重码。
陆码系统定义三种秩:
1.首尾声调秩:首尾声三码全同的重码汉字中,再按声调分类,再相同者按使用频度分类,最常用的0秩字用A,B,C,D代表四声,次常用的1秩字顺次用E,F,G,H代表四声,依此类推,如表二所示:
表二 秩 声调 一 二 三 四(轻)
0 A B C D
1 E F G H
2 I J K L
3 M N O P
4 Q R S T
5 U V W X
6 Y Z
2.声韵首调秩:声韵首三码全同的重码汉字中,再按声调分类,再相同者按使用频度分类,最常用的0秩字用A,B,C,D代表四声,次常用的1秩字顺次用E,F,G,H代表四声,依此类推,如表二所示。
3.首尾声二秩:首尾声三码全同的重码汉字中,再按其二码分类,再相同者按使用频度分类,最常用的0秩字其秩码等于其二码,1秩字其秩码取其二码的下一个字母,(ASCII+1),不存在2秩以上的字
在陆码的音码,形码,调码和秩码的基础上,可以组织成许多种编码组合,如首尾声二(秩);首尾声调(秩);首尾声韵;声韵调首;声韵首调(秩);首二三尾;等等。其中三种第四键为秩码的编码组合,在二级汉字库6763个汉字无重码,而且最常用的0秩字占88%至94%,所以绝大多数情况第四键只要按A,B,C,D打入该字的四声即可,最好的一种是首尾声二(秩、组合,0秩字占98%,1秩字在一级库内仅有38个:
扳 蹭 幢 囤 钒 肤 秆 咕 嘿 饺 矫 窖 秸 痉 竞 励 隶 燎 凛 糜 漠 睦 脐 乞 窃 稍 帅 矢 遂 托 烯 戌 刑 耶 萤 远 栈 椎
只要记住这38个字第四键打其二码的下一个字母,如“失”打“JRUY”而“矢”打“JRUZ”,就可实现高速盲打。
当用“- [ ] \”表示四声调码时,又可以实现多种编码兼容输入,详见第三部分。
三.陆码系统汉字输入方法
按国标GB2312-80标准字集的顺序建立一张汉字的索引表,每一个表项占5byte,存放该位置汉字的陆码编码信息,其中首码,二码,三码,尾码,声码,韵码各占5bit,共30bit,0表示A,25表示Z;调码占2bit,0至3表示一至四声;三种秩共占8bit,其中首尾声二秩仅占2bit,另两种秩各占3bit。分别用0表示0秩,1表示1秩等等。一共40bit信息。
按图二的流程图,按照各种情况分别检索相应的编码组合,即可实现多种编码兼容输入。
其中各进程内容为:
进程1:输入代码.
进程2:代码合理吗?
进程3:是一键吗?
进程4:显示十个高频字.
进程5:是二键吗?
进程6:按首尾检索.
进程7:是三键吗?
进程8:第三键是-[]\调码吗?
进程9:按声韵调检索.
进程10:按首尾声检索.
进程11:是四键吗?
进程12:其中第三键是-[]\调码吗?
进程13:按声韵调首检索.
进程14:其中第三键是“?”问号吗?
进程15:按首尾二检索.
进程16:其中第四键是-[]\调码吗?
进程17:按声韵首调检索.
进程18:按首尾声秩检索.
进程19:有符合此四键的字吗?
进程20:按词组编码规则检索词组索引表
进程21:符合这四键的词组惟一吗?
进程22:显示该词组词组
进程23:提示重码词组,待选.
进程24:符合条件的字惟一吗?
进程25:显示该字.
进程26:提示重码字,待选.
进程27:出错处理.
这样,只要操作者正确地键入该字的首尾声或声韵调,或声韵调首,或声韵首调,或首尾?二,或首尾声秩,都可以检索到想要找的字。
与现有技术相比所具有的优点:
1.音码声韵调三码整齐明晰,重码比不用调码的拼音减少约三倍,且可使按拼音检索排序的程序得以正确运行。复韵母代码仅十个,比双拼方案好记得多。
2.形码码元较少,规则简单,按空间类型归类,不用死记,好学好用,易于推广。尤其适于普通操作者。
3.由于引入“秩”的新概念,用简单的规则实现了二级库6763个汉字四键无重码。
4.不用切换输入状态,在同一状态下即可以随操作者的心意,按高频字、音码、音形、形声、形码或词组六种方法输入汉字。比单一编码的方法方便得多。
5.用同一种编码原则,同样的方法,可以方便地处理和输入繁体和日文汉字,有利于向国外开拓。
实现本发明的最好方式:
本人已开发成功LCDOS微机陆码汉字操作系统。可适用于能运行8086(8088)汇编语言的各种计算机,如IBM PC及各种兼容机,286机,386机等,实现了上述优点。
还可做成陆码汉卡,或装备各种中文电子打字机,电子词典,中外文电子翻译机,电脑制版印刷系统等等中文信息处理机器。
还可用于字典编排顺序,代替原数字电报码等等。