计算机汉字几何母根编码方案唐码.pdf

上传人:1****2 文档编号:715977 上传时间:2018-03-07 格式:PDF 页数:24 大小:895.89KB
返回 下载 相关 举报
摘要
申请专利号:

CN96110562.3

申请日:

1996.07.23

公开号:

CN1166643A

公开日:

1997.12.03

当前法律状态:

终止

有效性:

无权

法律详情:

专利权的终止(未缴年费专利权终止)授权公告日:2001.10.17|||专利申请权、专利权的转移(专利权的转移)变更项目:专利权人变更前权利人:唐文生变更后权利人:北京泰姆泰克石油科技开发有限公司变更项目:地址变更前:473132河南省南阳市油田测井公司变更后:102200北京市昌平区科技园区富康路18号609室登记生效日:2005.5.13|||授权|||公开|||

IPC分类号:

G06F3/023

主分类号:

G06F3/023

申请人:

唐文生;

发明人:

唐文生

地址:

473132河南省南阳市油田测井公司

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明提出一种汉字形码编码方案。依据汉字几何学特征,提出汉字“几何母根”的概念,并创造出“母根键盘”,使100多个杂乱的字根由规则的26个“母根”来管理,常用的字根都可依几何特征归属为各个母根的“子根”。汉字可直接进行“母根”编码。母根在键盘上有序性规律性排列,记忆简便;拆分的字根仅依据外形,即可准确分辨出其母根,编码快捷,实现“看字便知码、知码即知键”。制定了单字、词组编码细则。母根、子根键位分配见摘要附图所示。

权利要求书

“计算机汉字几何母根编码方案”是一种汉字键盘输入方法,
它从几何学角度解析汉字字根,第一次提出了“汉字几何母根”
的概念,首创26个汉字形母,刨造出汉字自身的“母根键盘”,
彻底摆脱英文字母对汉字编码和输入的束缚,实现根码同源,
向“书同文”的编码目标迈出突破性的一步,彻底解决长期以
来编码和字根间的无相关性问题,使100多个杂乱的汉字字根由
26个规则的汉字母根来管理,实现“看字知码,知码便知键
位”,达到汉字的“象形”输入。
在此要求对本发明中以下内容进行保护:
1、保护“汉字几何母根”的分类方法。
2、保护“几何母根键位分布图(母根键盘)”。
3、保护“汉字几何母根”编码方法。
4、保护几何母根编码中的“尾部结构识别方法”。
5、保护“几何母根-子根键位分布图”。

说明书

计算机汉字几何母根编码方案(唐码)

一、汉字字根的几何特征

二、几何母根的构成

三、“子根”的选用

四、“母根键盘”设计

五、几何母根编码的规则

六、识别码与简码方案

七、几何母根编码的先进性

                        概述

本发明属中文信息处理技术中一项新的设计方案,是汉字计算机
键盘输入方案中的一种编码方法(以及键盘设计)。

汉字计算机键盘输入技术是中文信息处理技术中的一项重要内容。
众多的汉字计算机编码方案为汉字的计算机录入提供了方便。多数上
机使用的汉字编码方法,主要以“形码”、“音码”以及“形音”
结合为主。如“五笔字型”、“表形码”、“钱码”都是以汉字字根
的外形或笔划为特征进行组码的;“大众音形码”综合使用了汉字的
音、字根外形特征等信息,为一种形音编码方案。多数的编码方案使
用键盘的键位数在25-40之间,使用字根数在100-200左右,单字编
码长度以4键为主。字根在各键位上的分布以字根的笔画、外形、发
音等特征来分配。

本发明是以完成汉字在计算机上的输入为目的的一种编码方案,
同时实现汉字字根在键位上的有序性与规律性分布,以易学、易记、
方便输入、面向大众为目标。

本发明所述的“汉字几何母根编码方案”(简称为“唐码”),是
一种形码方案,方案中提出了“母根输入”的思想。众所周知,英文
字母仅有26个,经不等长的组合,构成了众多的“词”。而汉字输入
的困难,在于汉字的“字母”(即通常所言的“字根”)有数百个之多,
而常用的就有100-200个。任何一种输入方法,都需要把这众多的汉
字字根分配到有限的键位上,如以字根的读音或字根的笔画分类等等,
都是常见的编码方法。

几何母根编码方案,在设计中充分依据汉字“从圆到方,从曲变
直”,完全向几何构形发展的特征,结合用户对汉字拆分中只以“第
一印象”为主,凭外形能最迅速产生联想与识别这一特点,创造出26
个汉字“形母”(即“母根”,相当于英文的字母),它以简单有序的
几何构图,统领众多的汉字字根,改变了长期以来汉字字根只能由英
文字母或字符来表述的局面,汉字母根在键盘上的位置具有明显的规
律性,这是英文键位所不能比拟的。以汉语为母语的人对“汉字母根”
的反应远比西文字母要敏感;同时,汉字“母根”在键盘上有序排
列,记忆十分简便;拆分的字根只要依据外形,即可准确地分辩出其
母根,从而迅速得到其编码。实现看字知码,知码便知键位。

一、汉字字根的几何特征

汉字起源于“图画”。人类最初使用的象形文字就是一种图形文
字。时到今日,我们还能从“日、月、山、川、弓、伞”等众多文
字中想象它们所表达的意义(尽管它们的形体已与古文字有巨大差异)
。但经长期的演变,现代汉字已转变为“方块”文字,汉字笔画经历
了由曲变直、由圆变方的过程,整体上向几何形体演变。汉字笔画讲
求“横平竖直”,也就是向几何笔型转化。汉字内部结构上看,汉字
为多线条组合体,每个汉字包含了不同数量的线条,以及线条构成的
平行、交叉、垂直、四边形、包围等几种简单的几何图形。

其实汉字最基础的五种笔画就是以几何特征不同而分为“横、
竖、撇、捺、折”的,它们本身就是几何线条。如:

“一”:横,即水平线(horizontal)。

“丨”:竖,即垂线(vertical)

“丿”:撇,即左斜(left-falling)

“丶”:捺,即右斜(right-falling)

“乙”:折,即连折线(turing)

以上是单笔画的几何意义。而汉字字根常为多笔组合而成,构成
新的几何特征,如交叉、垂直、折角(包围)等等。简单的如:

“口”:四面包围

“冂”:三面包围

“十”:交叉

“丁”:垂直

依据字根的几何特征,可对其进行分类。

二、几何母根的构成

汉字字根虽然众多,但依据其几何特征可明确归纳分类。如“一、
二、三”三个字根都由水平线组成,不构成向某一方向的包围,我
们称为“线条型”;而“匚、口、、”等以多个线条起点与终点
相连,对某个区域构成包围,我们称为“包围型”。下面分别介绍:

1、包围型母根

包围型也就我们常说的“包围”和“折”两种字根(如“口”、
“冂”、“匚”、“厂”、“乚”等)。从包围方向上而言,这种构
图特征有以下9种:

这9种形状我们即称为“母根”,对应的数字为其编码。它们的
形状可以代表许多字根。如码11(母根“”)特征为上左包围,如字
根中的“厂、广、尸、斤”等与其特征一致,故又称为其“子根”。

在汉字字根中,1-8种形状的母根又各自代表许多“子根”。但
33号母根一般少见,因为长期以来汉字以右手执笔从左向右书写为
主,向左折笔或组字情况较少。向左运笔的字根只有“丿、丨”两个,
与33号母根形状差异很大,因而这一母根不参与编码。下面是各种母
根的基本特征:
①“”:编码11,左上方包围,如“厂广尸斤”等字根。

②“”:编码12,左面三包围,如“匚”。

③“”:编码13,左下方包围,如“乚厶∠ 匕”。

④“”:编码21,上方三包围,如“冂门月风宀。

⑤“囗”:编码22,四面全包围,如“口囗”。

⑥“”:编码23,下方三包围,如“山臼”。

⑦“”:编码31,右上方包围,如“勹 卩ㄋ”

⑧“”:编码32,右面三包围,如“彐”。

⑨“”:编码33,右下方包围,编码未用。

22号母根(“囗”)表示汉字中常见的四面包围结构。这种结构的
字根十分多.会导致重码的产生。因而这里规定,22号母根只表示
“外面包围内部全空”的字根,如“口、囗、 ”等。其余的字根按
其特征总结出三种新的母根,称为“囗”的“变异母根”,具体如下:

①囗水平分割:母根为“曰”,编码41,其外部为标准的四面包
围结,内部被水平线分割,如“日曰目”等字根。

②囗竖向分割:母根为 ,编码42,外部亦为标准四包围结
构,内部被竖线分割(包括斜线),如“四口”。

③囗复合变异:母根 ,编码43,它表示字根主体为四面
包围,内部被复合分割、或外部形状不规则、方框外面添加线条(笔
画)等特征。如“田 白西早”等,其中“田、 ”外部为标准标“
囗”,内部被复合分割,“白、西”字主体为“日或囗",上部或下
部加有笔画,造成主体变异。

对一些特别常用的字根,也依据其主体特征编入41或42号码,如
“虫”主体以“囗竖向分割”为主,故编入42号码中。

上面为11种常见“包围型”母根。它们的线条常连结成平面图形,
存在平面上的区域包围结构。

2、线条型母根

汉字中的线条(笔画)除如上所述的连结(端点相接)外,大多数以
相交、分散形态存在。如“十、扌、丰”主体几何特征呈几何学中的
“正交”特征;”丁、干、 、土”主体为“垂直”(T型结构);
“一、二、三、丨、川、丿、彡”等主体特征为线条间的“平行”。
对大量常用字根分析,归纳出线条型母根5大类15种:

(1)、交叉类3种:两个线条相交并互相穿过。
①正交型:母根为“十”,编码51,主线条相交成直角。如“十、
、丰、扌”等字根。

②斜交型:母根为“乂”,编码52,主线条斜向相交,如“乂、
又、夂、大、犭”等字根。

③混交型:母根为“米”,编码53,线条间同时存在正交、斜
交型,如“木、米”等字根。

(2)、垂直类3种:两个线条相交连但不穿过,如“T”状结构,
以构成直角为主。

①顶垂型:母根为“”,编码61,顶部为水平线(横),与下
面的竖线或斜线构成T型结构。如“丁、干、 ”等,同时这
里将“丆、 ”等也归于这一类中。

②双垂型:母根为“工”,编码62,顶部与底都为水平线(横),
中部为竖线相连。如“工、王、五”等字根。

③底垂型:母根为“”,编码63,底部为水平线,其上有垂
线相连结。如“土、士、 ”等,特征与61号母根相反。

(3)平行类3种:多个同一方向的线条相互平行,如同几何学中的
平行线。

①横平行:母根为“=”,编码71,全部由水平线构等。如“一、
二、三”等字根。单线条(“一”)视为自身平行;字根“ ”(即笔
画“提”)依习惯也归于横平行。

②竖平行:母根为“‖”,编码72,全由竖向线条(可局部含有
“丿”)构成,如“丨、刂、川”等。单线条(“丨”)视为自身平行。

③斜平行:母根为“∥”,编码73,以左倾线条构成为主,如“
丿、 、彡”等,字根“彳”亦归此类之中。

(4)散倾类3种:字根中线条常是分散的(不交叉),但又不平行,
成不规则的相互倾斜。

①点倾型:母根为“丶”,编码81,全由单点组成,如“丶、氵、
灬”等。

②点平型:母根为“亠”,编码82,起笔都由“亠”开头,如“
亠、六、文、立、方”等。另外,由于“”(“提”笔画)归于水
平线,“冫”应属“点平”特征,因而归于92码,而不属91码。

③对倾型:母根为“八”,编码83,线条左右两边分开,相互对
应倾斜,如“八、人、儿、小、水、”

(5)折角类3种:线条间构成不规则交角。

①斜平型:母根为“”,编码91,起笔为“”,如“、
、钅、攵”。

②斜直型:母根为“亻”,编码92,字根主体包含“亻”,如“
亻、千、禾、手”。

③连折型:母根为“乙”,编码93,多笔连折,构成折角,如“
乙、之、ㄣ、ㄋ”等。

以上介绍了27个母根(实用26个)的基本特征,它们可以分为9组
(如编码11-13为第1组,21-23为第2组,91-93则为第9组),每组
3种,呈9×3分布,以便记忆。

表1集中列出了所有母根的几何特征。

表1 27个几何母根的基本特征

三、子根的选用

汉字的高频字根近200个,本编码方案中对字根进行了筛选和分
类,并主要以GB2312-80字符集中汉字编码进行了实际编码分析,根
据6763个汉字的编码分析,选用了以下140多个字根,由其外形分配
到各个“母根”下面,做为它的“子根”。参见表2中母根、子根的

表2几何母根-子根健位分布表

键位分布图。

括号中的子根可认为是由母根或子根进一步衍生出来的。

四、“母根键盘”设计

传统的键盘输入方法中,计算机键盘都是以英文字母或字符为主
导,对汉字字根进行归类、管理、记忆。而英文字母在健盘上的分布
上是无序的,同时由于语系的巨大差异,它的特征与汉字字根几乎无
相近之处,使人很难对二者产生“联想”。

27个汉字几何母根的确立,可以说成为汉字字根管理的一种新“
字母”,同时由于它的总体规律性和有序性,将更加有利于字根的
分类和记忆。

27个几何母根可以分为9列、3行,为9×3结构,与计算机键盘
上的三行英文字母一一对应(表3)。母根子根在键盘上的分布见说明
书附图,其中包围型母根(11-43)11个分配键盘右半区5列上,与11
个英文字母对应,并保持11-33等9个编码的平面对称性,以利于记
忆;线条母根(51-93)15个分配在键盘左半区,按意义分为5列,与
15个英文字母对应。表3为母根键位分配表。编码数字的首位代表列
号,第二位代表行号,整个键盘从中间分开,向右为第1、2、3、4
列;向左为第5、6、7、8、9列。这就是“几何母根键盘”。见表3。

表3几何母根键位分配表










上排键




中排键




下排键

键盘分布中以列为单位,每列3行,只有43号母根 移到P键
上,仍视为第4列中的一个键位;第3列中33未号母根用,所以此列只
有2行。

右区键盘1-3列以22号母根“囗”为中心,成全对称分布,形
面“四面八方”向内包围的特征,上下左右方向上为三包围,四个角
上为半包围,中心为全包围,因而记准中心母根“囗”(J键)的位置,
其余的母根位置便能一目了然。

左区母根分为5列,自右向左几何构形由规则向杂乱、由复合向
单线过渡。如5、6、7三列都是比较常见的几何构图,但第5列“交
叉”是线条中最复杂的构图,第6列“垂直”则只是线条间的接触关
系,第7列“平行”中线条基本无接触发生,这种变化趋势利用对键
位的记忆。在每一列中,自上而下也存在规律性变化,如第5列“交
叉”自上而下为“正交”、“斜交”、“混交”,由规则构图向不规
则变化;第6列以中间列为中心呈上下对称分布。

说明书附图1为“几何母根键位分布图”。

图2为“几何母根-子根键位分布图”(分图1、分图2为图2的局
部局放大图)。

母根健盘的创造,使汉字录入变得简单,因为它甩开了英文键盘
的束缚。如“朋”拆为“月月”,只需连击“冂冂”键;“崩”则击
“凵冂冂”键。所击的键盘母根与拆分的字根外形十分接近(如“月”
与“冂”、“山”与“凵”)。只要熟记26个母根的形状、位置,其
本可直接上机输入,因为大多数字根单凭形状,即可确定母根。
五、编码规则

本方案中单字编码最长取4码(词组一律取4码),则编码容量达
47万以上,理论上完全满足汉字编码需要(一般汉字字库量为数千到
数万个)。本方案中提出“母根编码”思想。由于26个母根与英文字
母一一对应,“母根码”与“英文编码”的代表的意义是一致的,
但是,汉字母根在键盘上的位置具有明显的规律性,这是英文键位所
不能比拟的。

编码时,将汉字依次拆为单个字根(“子根”),由“子根”即可
得出其母根编码(或英文代码)。

单字拆分规则为:
1、“自左而右、自上而下、自外而内、遵从习惯”
左右结构从左向右,局部有上下区分时再“自上而下”,如:

“操”-“扌口口口木”
上下结构时从上向下拆分,如:

“号”-“口一ㄣ”。

包围结构(全包围、三包围)从外向内,如:

“国”-“囗王丶”

“同”-“冂一口”
半包围字拆分时依“自上而下”规则为主,如:

“句”-“勹口”

“过”-“寸辶”

“匕”-“丿乚”
混合结构按书写习惯顺序拆分,如:

“册”-“冂冂一”
2、“拆码最少、力求取大”
按拆分顺序前面尽量取大,使拆出的码数最少。如“弓”有两种折法:

“弓”-“一ㄣ”(错误)

“弓”-“ㄣ”(正确)

前一种拆分方法违反了“力求取大、拆码最少”的原则。

“拆码最少”是所的规则中最基本的原则。

3、“避免交叉、兼顾独立”在拆分码数不增加的前下,拆出的字根
力求不相互交叉,这时可以违反“力求取大”的原则。如:

“干”-“二丨”(错误)

“干”-“一十”  (正确)

有些字根在人们的视觉和习惯中是做为一种整体的,拆分中要
保持其完整性,以便与常规习惯一致,即“兼顾独立”的规定。这一
规则主要指含以81号码为头的字而言。如:

“主”一般认为由“丶王”组成,而不拆分为“亠土”。

“兰”由“丷三”组成,而非“二”。
当然,以上各规则都不能违反“拆码最少”的基本原则。

编码中的取码规则为:
1、不多于4码的依次取码。

如:“温”字拆为“氵日四”码长为3,对应的母根编码为“丶
”(WOL)。
2、超过4码,则取第1、2、3、未等四码。

如“输”字拆为“车人一月刂”共5部分,取“车人一刂”,对
应的母根编码为“乚乙八=‖”(NXED)。3、对选为字根的字(键面
字),编码时第一码规定为母根,再对其拆分取码,拆分时仍按上述
规则。如

“雨”为“冂”的子根,其第一码为“冂”,再拆为“一巾∷”,
故为“冂一巾∷”,母根编码为“冂=冂丶”(UEUW)。
3、词组编码

词组编码一律取4码。方法如下:

①双字词:每字取前两码。如:

 “团员”所取字根为“囗 口贝”母根编码为“口十囗冂”(J
TJU)。

②三字词:取前两字首码及第三字一、二码。如:

“联合国”应取字根为“耳人囗王”,母根码为“ 八囗工”
(PXJF)。

“参考书”应取字根为“厶土”,母根码为“”
(NVII)。

③四字词:取各字首码。如:

“脚踏实地”应取字根为“月口宀土”,母根码为“冂囗冂”
(UJUV)。

④多字词:取前三字和末字首码。如:

“中国人民解放军”取字根“口囗人冖”,母根码为“口囗八冂”
(JJXU)。
六、识别码与简码方案
1、尾部结构识别方案

汉字重码是影响输入速度的主要因素之一。在汉字的拆分取码
输入中,愈是笔画少的汉字愈易形成重码。如“刘”、“齐”的母根
编码都为“亠‖”,出现重码。但“刘”为左右结构,“齐”为上
下结构,可由考虑由此信息来区分。

又如,本方案中“匕”、“厶”的母根都为“”,则“公”、
“仑”的母根编码都为“八”。但“公”未码以“丶”收笔,为
“散倾”结构,“仑”未码以“乚”收笔,为“包围”结构,如果在
编码中加入这一信息,则可把它们分开。

因而,针对本方案中的特点,提出“尾部结构识别方案”,它
在汉字不足四码的情况下,加打一个识别码,体现汉字的字体结构、
尾部结构等信息。

具体方法:
(1)首先确定字的尾部结构,尾部结构是指最后一笔与其它笔画形成
的几何构形。如“单”最后一笔为“丨”,与其它笔画形成“十”形
交叉。则尾部结构为“十”。

然后以几何母根中每列为单元,由尾部结构确定识别码所在的列,
如“十、X”结尾,则由第5列(交叉列)识别,“乚”结尾则由第1列
识别。
(2)每一列中,第一行(即上排键)代表字型为左右结构、第二行(
即中排键)代表上下结构、第三列(即下排键)代表混杂结构。

如“什”字以“十”结尾,应由第5列识别(交叉列),字型为左
右结构,则取第一行中的母根为识别码,因而“什”的全码应为“亻
十十”;而“付”字以“丶”结尾,应由第8列中左右结构码识别(
第一行),因而“付”的母根全码为“亻十丶”。
(3)尾部结构的具体规则:

①“日口不拆”汉字中以“口”、“日”为尾的较多,故这类
结尾直接用于识别。即“日口不拆”的原则。键盘第2列用于尾部为
“口”的识别,第4列用于尾部为“日”的识别。

一般情况下,汉字结尾为标准四方形,则尾部结构不是“日”
便是“口”。如“洒”、泪、首”尾部结构为“口”;“泊”尾部
结构为“日”。

②包围型母根中用于尾部结构识别的除“日、口”外还有“、
”,它们都为单笔画(其它的如“匚凵冂”都为复合笔画,即
笔画为2笔或多笔),如:

“皂”的尾部结构为“乚”,字为上下结构,识别码应为12,
即“H”(母根“匚”),所以母根全码为“ 匚”(ONH)。

③“包围优先、大码优先”“包围优先”,如“七”的未笔为
“乚”,同时与“一”形成“交叉”,但“乚”为包围码,具有优
先性,所以尾部结构不定为“交叉”。也就是说,未尾为”日、口”
或未笔为“”类的折笔字根时,直接定为尾部结构。如:

“间、泊”:尾部结构为“日”

“拓、洒”:尾部结构为“口”

“说、七”:尾部结构为“”

“今、片”:尾部结构为“”等。

“大码优先”,如以“日”结尾时,取“日”不取“口”;以
“乂”结尾时取“乂”不取“”等等。

④“连折看尾”连折线型的尾部结构由结尾处包围方向确定。如
“乙”的结尾处包围形状为“乚”,因而其尾部结构为“”;如
“号”的最后字根为“ㄣ”,它的尾部包围形状为 ,因而“号”
的尾部结构为“”。

⑤“非点即线”若尾部结构不属包围(“日口”)、交叉(“
十乂”)、垂直(“”)中的一种,则取其自身,即点(“丶、”
)或线(“一、丨、丿”)。线(“一、丨、丿”)由平行列(第7列)识
别;点(“丶、”)由散倾列(第8列)识别(汉字笔画中的“点(丶)”
与“捺()”,意义较为相近,在此通称为“点”;“横(一)、竖(丨)
、撇(丿)因同在平行线一列(第7列),故通称为“线”)。

如“去、林、构”的尾部结构都为“丶”;“刁、马、立”的尾
部结构为“一”;“别、出、而”的尾部结构为“丨”。

下面是一些字例:
例字  未笔  尾部    结构      规则
阳    一    日(正)  一(误)    日口不拆
同    一    口(正)  一(误)
早   丨     十(正)  丨(误)    大码优先
折   丨     (正)  丨(误)
机   乙     (正)  (误)    连折看尾
号   ㄣ      (正) (误)
林       丶(正)   乂(误)   非点即线
云   丶    丶(正)   (误)
马   一    一(正)

表4为尾部结构识别码。它与母根键位分布图是一致的,即1
8列参与识别,第9列未用。

由于33号母根未参与编码,因而第3列缺少第3行,造成尾
部结构为“”的杂合型汉字无识别码,这时规定32号码(K键)
同时识别“上下型”和“杂合型”汉字。如:

“万”拆为“丆 ”,尾部结构为“”,杂合型汉字,其识
别码借用32号码(K键),故全码为“(RIK)”。

         表4尾部结构识别码

2、简码

本方案中汉字编码最长取4码,即输入一个汉字最多用到4个键
位,但对一些常用字可以减少码数,提高输入速度,一键一字称为
“一级简码”;二键一字称为“二级简码”;三键一字称为“三级
简码”。

对应26个母根键位,规定个26个一级简码:

Q
91

W
81

E
71

 R
 61
 不
T
51

Y
11

U
21

I
31

O
41

P
43

A

92

S

82

D

72

 F

 62
 工
G

52

H

12

J

22

K

32

L

42





Z
93

X
83

C
73

 V
 63
 地
B
53

N
13

M
23

<


>

.


/

其它一些常用字,可以取其前2码或3码,利用二、三级简码
进行输入。

有些十分常用的汉字码长短,易出现重码字,可特别强调其简
码形式,加强记忆,以提高汉字输入速度。如:

江(丶工)

全(八工)

内(冂八)

比()

双(乂乂)

因(口乂)

2、特别码
“一二三”在同一键位上,特规定其编码,以方便使用:

一:一(E)

二:一一(EE)

三:一一一(EEE)

七、几何母根编码的先进性
1、创造“母根键盘”,实现“看字知码”

本方案中提出“母根编码”的思想。由于26个母根与英文字母
一一对应,“母根码”与“英文编码”代表的意义是一致的,但是,
汉字母根在键盘上的位置具有明显的规律性,这是英文键位所不能比
拟的。以汉语为母语的人对“汉字母根”的反应远比西文字母要敏
感。也就是说,在进行键盘编码时,如果对英文键盘“视而不见”,
而当做标有26个汉字母根的“汉字母根键盘”,则对高速输入有较大
作用。

如对“品”这样一个简单汉字,子根拆为“口口口”,母根编码
为“口口口”,由于外形一致,子根与母根二者间的“转换”在“不
加思索”中完成的,只要在母根键盘的“口”键上连击三次,即可完
成输入;而传统的编码方法中则要在拆分为“口口口”等字根之后,
去“联想”“口口口”与哪些英文字母对应,这无疑会影响输入速度,
也增加了使用者的记忆量。

复杂的字也一样。如“序”字拆为“广 亅”,在过去的编码
方法中,需要记忆每一个字根的英文名,其英文名与字根间其实并无
必然联系,只是靠人为分配而已,同时由于中西文字符的差异,很难
使人产生“联想”;在几何母根编码中,字根与键盘关系是简单而清
楚的,如上面“广 亅”四个字根,与“‖”四个母根
对应,这并不需死记硬背,而是从字根的外形上一看便知,如“广”
与“”、“ 、”与“”外形特征一致,完全可以“看字知
码”。

几何母根方案中最重要一项工作便是记清26个母根的键盘位置。
这也许比记清26个英文字母的键位简单多了。
2、母根键盘记忆方便

母根键盘上汉字母根26个,正好与26个英文字母对应。但其记忆
比英文字母更简单。键盘左区和右区各有其规律性,同时又以列为单
元分布,方便了记忆。如记清“口”的位置,周围8个母便全记下了。
3、由“母”生“子”,特征鲜明

使用的“子根”外形大多与“母根”十分相似,由子根形状一般
可直接得出母根编码,大多数的“子根”并不需去记忆其位置。例如
知道母根“冂”在21号键位(U键)上,则“门、月、用、风、宀、
雨、贝、几”等众多形状大同小异的“子根”便可方便地记忆。
4、容错性强

对汉字的局部笔画人们往往会存在“模糊记忆”,如“礼”字左
边是“礻”还是“衤”(一点还是两点),“直”字下面是几横,都
是人们书写中常弄不清的,而在本方案中,这此笔画即便记忆有误,
也不影响编码的正确性,因为众多形状相似让人容易记混的字根,恰
恰都汇集在同一个母根下。
5、更适用于词组快速输入

在词组输入时,主要取各字的首码(有时用到第二码),即字的
首部形状,具体拆分毋须进行,而字首的外形人们一般记忆清楚,容
易转换成“母根”编码。

如“司空见惯”这一成语,应取字根为“ 宀冂忄”,按其外形
可迅速“翻译”成母根:“冂冂‖”,亦即编码。

又如“国庆节”应取字根“口广艹卩”,对应的母根码是一目了
然的:“口十”。

词组输入重码率低,不用细拆单字,不用加打识别码,而且汉字
的首码(以及第二码)常是常用字根,利于记忆,易于快速“转换”
成“母根”码。
6、繁体字的编码同样适用

繁体汉字由于笔画多,字型复杂,字根笔顺与简体字不一致造成
编码困难。本方案由于完全以字根几何形状分类,对繁体字的字根分
类同样适用,绝大多数的字根毋须变动。个别没有的繁体字根可以其
几何特征分配到各“母根”下,如取消“讠”由“言”代替(在82号
母根“亠”下)。编码规则完全一致。〖完〗

计算机汉字几何母根编码方案唐码.pdf_第1页
第1页 / 共24页
计算机汉字几何母根编码方案唐码.pdf_第2页
第2页 / 共24页
计算机汉字几何母根编码方案唐码.pdf_第3页
第3页 / 共24页
点击查看更多>>
资源描述

《计算机汉字几何母根编码方案唐码.pdf》由会员分享,可在线阅读,更多相关《计算机汉字几何母根编码方案唐码.pdf(24页珍藏版)》请在专利查询网上搜索。

本发明提出一种汉字形码编码方案。依据汉字几何学特征,提出汉字“几何母根”的概念,并创造出“母根键盘”,使100多个杂乱的字根由规则的26个“母根”来管理,常用的字根都可依几何特征归属为各个母根的“子根”。汉字可直接进行“母根”编码。母根在键盘上有序性规律性排列,记忆简便;拆分的字根仅依据外形,即可准确分辨出其母根,编码快捷,实现“看字便知码、知码即知键”。制定了单字、词组编码细则。母根、子根键位分。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1