通用多功能汉字编码方法及处理系统 本发明涉及一种通用多功能汉字编码方法及装置,通用于计算机、电话等设备的汉字输入、检索、排序、汉字拼形字库、汉字文本通讯等各汉字信息处理领域。
汉字编码源于汉字的检字法。广泛使用的检字法包括音序检字法、偏旁部首检字法、笔画检字法、四角号码检字法等。五笔字型和仓颉码则分别广泛用于简体和繁体汉字的计算机输入。电话机等只有数字键的设备主要采用笔画编码,辅以拼音(注音)输入。随着汉字处理技术的深入发展,泛字符集汉字的输入和处理也已日益迫切,仓颉码提供了一种汉字拼形解决方法。而汉字的识字教育中一般是合体字教偏旁部首、独体字教笔画顺序。这里的偏旁部首不受键盘的限制,不需要作取舍和归并,能充分反映汉字的结构特征,这使字根部件甚至部首检字法都难以与它取得一致。
汉字的检字、简繁体输入、电脑电话机输入、拼形与汉字识字教育等采用不同的编码不但造成了人力物力的极大浪费,而且已经引起了汉字教育和使用的混乱。
字根编码采用字母编码,字根众多,难以记忆和使用,在数字键盘上还需额外的映射规则,也不符合汉字使用者单手写字的习惯,因此难以作为通用的汉字编码。
采用数字编码的汉字号码输入法如:王永民的“简易五笔画输入法”,李金凯的“长城笔形码输入法”,等采用0-9十个数字或其子集按照笔画顺序取码的方法,因特征单元过小,按照笔画顺序取码使各部分取码不均衡,无法反映笔画的空间位置,因此码长较长,且长短不一,重码率很高,无法反映汉字的结构特征。一些笔画编码采用了字首或字尾的概念,如;黄金富地“唯物码汉字输入法”,陈培基的“部首号码输入法”,廖明德(台湾)的“行列输入法”,戚桐欣(台湾)的“中易系统”中的“中文123式”,等,增强了编码规律性,但也增加了编码复杂性,同样无法作为通用的汉字编码。
四角号码以编码顺序表示笔画的空间位置,编码方法简单,码长一致,是唯一一种国家推荐的编码检字方法。但四角号码“一个笔形前角用过,后角作0”失去了大量信息,全包围、半包围结构汉字中取码不均衡,都造成了大量的重码,虽然采取了“外围是‘门口門’的三类字,左右两下角取里面的笔形,但上、下、左、右还有附加笔形的不在此例”的措施,仍然不能令人满意;在处理角形不明显的汉字时,采取了“下角笔形偏在一角的,按实际位置取角,缺角作0,但“弓亏”等字作偏旁时,取2作整个字的左下角号码。”、“角形尽量取复笔;”、“点下带横折的,如“空户”等字的上角取点作3;”、“角形有两复笔和一复笔一单笔的,不论高低,一律取最左和最右的笔形;有两复笔可取的,在上角取较高的复笔,在下角取较低的复笔;”、“当中起笔的撇,下角有他笔的,取他笔作角,但左边起笔的撇,取撇笔作角。”等处理方法使取码方法复杂、难以掌握,却仍然无法明确每一个汉字的角。四角号码按“Z”字形顺序取角,割裂了汉字的结构,因此编码比较杂乱,难以反映汉字的结构特征,也无法作为通用的汉字编码。
安子介先生的安氏数码法吸收了部首法和四角号码法的优点,但把部首由210个减少至170个,在反映汉字的结构特征方面前进了一大步。但限制部首的数量必须作出取舍,因此仍然与部首教育中的部首有差异,也无法涵盖所有汉字,只能通过设立五个“类属”加以弥补,使编码方法和编码过程复杂化。安氏数码法保留了四角号码的一些缺陷以及编码位数的增长等使它难以成为通用的汉字编码。
因此,现有编码的复杂性、与识字教育的不一致、不同条件下的适应性等方面难以满足各方面的需求,都无法作为汉字的通用编码。
本发明公开的就是一种通用多功能汉字编码及处理系统。
本发明的目的是通过采用数字笔形编码,按汉字的结构分块,按单元块的走向顺序取角,结合取边、取端来实现的。
编码过程可以由以下几步组成:
1.按汉字的结构组成方式对半切分,把汉字分为一到三个单元块。
例如:上下、左右、内外结构汉字分别切分为上下、左右、内外两个单元块;上中下、左中右结构汉字分别切分为上中下、左中右三个单元块;难于切分的汉字则不切分,整个汉字作为一个单元块。
分块的方法类似于汉字识字教育中划分偏旁部首,按成字、匹配和字源的原则切分即:各块尽可能成字或由于其他部件组字的能力,符合汉字的造字规律。优先按相离关系切分,只有相接的两个笔形的汉字不再切分。
对于包围结构汉字,可优先按“H”型结构分为左右两个单元块。
2.按先上后下、先左后右的顺序排列单元块,同一单元块按单元块或笔形的走向顺序取角。
例如:上下结构汉字按左上、右上、左下、右下顺序(“Z”形)取角,左右结构汉字按左上、左下、右上、右下顺序(“H”形)取角,其他结构汉字以此类推。
只有一个单元块的汉字,按笔形走向顺序取角,如:“州”按“H”形取角,“主”按“Z”取角。笔形走向不明确的,可优先按“Z”形取角。
3.取角是取实际占角的笔形和靠外、靠两端的笔形。
汉字是方块字,通常四角分明很容易取角,但也有一些汉字的角呈阶梯状,此时应优先取靠外的笔形、后取靠两端的笔形。其中两端是依据取角顺序确定的,例如:“H”形取角时,左右各有上下两端:“Z”形取角时,上下各有左右两端。
4.取过笔形视为移去,多单元汉字占角单元各取两个笔形,不足则可以补以中间单元笔形,无中间单元则补“0”。一单元汉字不足四个笔形也补“0”。
5.偏旁按其位置编码,空角补“0”。
6.笔形编码可按四角号码的笔形编码,按下表取笔形编码则可取得更好的效果:
表(1)笔形编码表注:表中字例及编码仅供说明笔形编码参考,不作定义、解释编码规则的依据。
本编码可与现有各种汉字编码类似的方式用于计算机、电话机等设备的汉字输入、汉字检索等领域。采用的键盘可以是大键盘数字键、数字小键盘或字母键虚拟数字键,也可以以语音、手写(图形)、双音多频信号等方式来输入、传递编码。
用作输入法,可以不经选字直接四码输入GB2312字符集中的约3000字和GBK字符集中的约5000字,与常用的汉字数量相当,在计算机、电话机中一样可以盲打输入常用汉字。对于次常用字,GB2312中99.5%的汉字、GBK字符集中90%的汉字可以在十选的范围内输入。与仓颉码类似,本编码可用于建立拼形字库,最终实现所有泛字符集汉字的输入和处理。即本编码可高速输入常用的汉字,方便输入所有汉字。
为同时在数字键盘上输入字母、数字、符号等,可以采用区位码的方式,也可以以多次按键的方式为字母、数字、符号编码。
区位码的方式:把字母及标点符号分布在全部或部分数字按键上,以其所在按键数字为区码,以其在该键上的序号为位码;有对应关系的字符安排在同一键的对应位置上;常用的字符安排在可双击按键输入的位置上。输入区位码即可输入字母、数字、符号。
多次按键的方式;把字母及标点符号分布在全部或部分数字按键上,输入时先按所在键,再多次按特定键(如:*键)来选定。
用于字、辞典编制,四位数字编码与一般字、辞典的页码相似,可以代替页码,比拼音更直观。此外,与拼音配合,字符编码的前二码或后二码独立或分别与另一字符串的编码或指定编码进行比较,可以近似地找出具有相同形旁或声旁的汉字或按形旁或声旁排列汉字。在编制汉字校对字典时,提供相同形旁或声旁的汉字作候选字、词或按形旁或声旁排列候选字、词可以使汉字的校对更直观、更有实际意义。
采用本编码进行文本通讯,设备间利用最简单的声音传送设备传输表示数字符号的信号(如双音多频信号)来传输汉字文本,不需要额外的接口就可以实现远、近程有(无)线文本通讯,可以实现机器、人工译码输入完全兼容,聋哑人、不便使用语音时也可以通过电话进行文本信息的交流。
本编码具有编码方法简单,记忆量小,与识字教育一致,适应性强,编码效率高的特点,因此可以一码多用,节约大量人力物力,促进汉字应用的规范化、标准化。
实施例:
智能输入法
本编码有与拼音类似的性质,码长相同,前二码与声母相似、后二码与韵母相似,可以与拼音一样整句输入、缩拼输入。
因重码极少,可以盲打高速输入常用汉字、次常用汉字,又因采用数字编码还可用于电话机等设备的汉字输入。
简易文本通讯系统
采用本编码以双音多频传输可以像语音传输一样快速建立和断开连接,可以通过扬声器和话筒发送和接收,同时可以兼容人工和机器译码、输入。很适合名片交换、短信息发布等交换信息量比较小,对传输速度要求不高,但要求能快速建立和断开连接的过程的需要。
汉字校对字典
受输入法影响,汉字的拼写错误很不规则,难以离开原稿进行校对和纠正,汉字的拼写检查往往有名无实。使用本编码输入发生的错误只影响某一偏旁,很容易离开原稿进行校对和纠正,使用拼音输入时使用本编码编制的校对字典可提供相同声旁的汉字,使汉字拼写检查名至实归。
汉字拼形字库
以本编码为基础生成拼形字库,可以实现人工辅助拼形。汉字拼形字库不但可以大大节约字库容量,而且符合汉字的造字规律,可以通过拼形生成新字,解决超出特定字符集汉字的处理问题。
本编码不经改变即可用于各预域。