计算机汉字几何母根编码方案(唐码)一、汉字字根的几何特征
二、几何母根的构成
三、“子根”的选用
四、“母根键盘”设计
五、几何母根编码的规则
六、识别码与简码方案
七、几何母根编码的先进性
概述
本发明属中文信息处理技术中一项新的设计方案,是汉字计算机
键盘输入方案中的一种编码方法(以及键盘设计)。
汉字计算机键盘输入技术是中文信息处理技术中的一项重要内容。
众多的汉字计算机编码方案为汉字的计算机录入提供了方便。多数上
机使用的汉字编码方法,主要以“形码”、“音码”以及“形音”
结合为主。如“五笔字型”、“表形码”、“钱码”都是以汉字字根
的外形或笔划为特征进行组码的;“大众音形码”综合使用了汉字的
音、字根外形特征等信息,为一种形音编码方案。多数的编码方案使
用键盘的键位数在25-40之间,使用字根数在100-200左右,单字编
码长度以4键为主。字根在各键位上的分布以字根的笔画、外形、发
音等特征来分配。
本发明是以完成汉字在计算机上的输入为目的的一种编码方案,
同时实现汉字字根在键位上的有序性与规律性分布,以易学、易记、
方便输入、面向大众为目标。
本发明所述的“汉字几何母根编码方案”(简称为“唐码”),是
一种形码方案,方案中提出了“母根输入”的思想。众所周知,英文
字母仅有26个,经不等长的组合,构成了众多的“词”。而汉字输入
的困难,在于汉字的“字母”(即通常所言的“字根”)有数百个之多,
而常用的就有100-200个。任何一种输入方法,都需要把这众多的汉
字字根分配到有限的键位上,如以字根的读音或字根的笔画分类等等,
都是常见的编码方法。
几何母根编码方案,在设计中充分依据汉字“从圆到方,从曲变
直”,完全向几何构形发展的特征,结合用户对汉字拆分中只以“第
一印象”为主,凭外形能最迅速产生联想与识别这一特点,创造出26
个汉字“形母”(即“母根”,相当于英文的字母),它以简单有序的
几何构图,统领众多的汉字字根,改变了长期以来汉字字根只能由英
文字母或字符来表述的局面,汉字母根在键盘上的位置具有明显的规
律性,这是英文键位所不能比拟的。以汉语为母语的人对“汉字母根”
的反应远比西文字母要敏感;同时,汉字“母根”在键盘上有序排
列,记忆十分简便;拆分的字根只要依据外形,即可准确地分辩出其
母根,从而迅速得到其编码。实现看字知码,知码便知键位。
一、汉字字根的几何特征
汉字起源于“图画”。人类最初使用的象形文字就是一种图形文
字。时到今日,我们还能从“日、月、山、川、弓、伞”等众多文
字中想象它们所表达的意义(尽管它们的形体已与古文字有巨大差异)
。但经长期的演变,现代汉字已转变为“方块”文字,汉字笔画经历
了由曲变直、由圆变方的过程,整体上向几何形体演变。汉字笔画讲
求“横平竖直”,也就是向几何笔型转化。汉字内部结构上看,汉字
为多线条组合体,每个汉字包含了不同数量的线条,以及线条构成的
平行、交叉、垂直、四边形、包围等几种简单的几何图形。
其实汉字最基础的五种笔画就是以几何特征不同而分为“横、
竖、撇、捺、折”的,它们本身就是几何线条。如:
“一”:横,即水平线(horizontal)。
“丨”:竖,即垂线(vertical)
“丿”:撇,即左斜(left-falling)
“丶”:捺,即右斜(right-falling)
“乙”:折,即连折线(turing)
以上是单笔画的几何意义。而汉字字根常为多笔组合而成,构成
新的几何特征,如交叉、垂直、折角(包围)等等。简单的如:
“口”:四面包围
“冂”:三面包围
“十”:交叉
“丁”:垂直
依据字根的几何特征,可对其进行分类。
二、几何母根的构成
汉字字根虽然众多,但依据其几何特征可明确归纳分类。如“一、
二、三”三个字根都由水平线组成,不构成向某一方向的包围,我
们称为“线条型”;而“匚、口、、”等以多个线条起点与终点
相连,对某个区域构成包围,我们称为“包围型”。下面分别介绍:
1、包围型母根
包围型也就我们常说的“包围”和“折”两种字根(如“口”、
“冂”、“匚”、“厂”、“乚”等)。从包围方向上而言,这种构
图特征有以下9种:
![]()
这9种形状我们即称为“母根”,对应的数字为其编码。它们的
形状可以代表许多字根。如码11(母根“”)特征为上左包围,如字
根中的“厂、广、尸、斤”等与其特征一致,故又称为其“子根”。
在汉字字根中,1-8种形状的母根又各自代表许多“子根”。但
33号母根一般少见,因为长期以来汉字以右手执笔从左向右书写为
主,向左折笔或组字情况较少。向左运笔的字根只有“丿、丨”两个,
与33号母根形状差异很大,因而这一母根不参与编码。下面是各种母
根的基本特征:
①“”:编码11,左上方包围,如“厂广尸斤”等字根。
②“”:编码12,左面三包围,如“匚”。
③“”:编码13,左下方包围,如“乚厶∠
匕”。
④“”:编码21,上方三包围,如“冂门月风宀。
⑤“囗”:编码22,四面全包围,如“口囗”。
⑥“”:编码23,下方三包围,如“山臼”。
⑦“”:编码31,右上方包围,如“勹
卩ㄋ”
⑧“”:编码32,右面三包围,如“彐”。
⑨“”:编码33,右下方包围,编码未用。
22号母根(“囗”)表示汉字中常见的四面包围结构。这种结构的
字根十分多.会导致重码的产生。因而这里规定,22号母根只表示
“外面包围内部全空”的字根,如“口、囗、
”等。其余的字根按
其特征总结出三种新的母根,称为“囗”的“变异母根”,具体如下:
①囗水平分割:母根为“曰”,编码41,其外部为标准的四面包
围结,内部被水平线分割,如“日曰目”等字根。
②囗竖向分割:母根为
,编码42,外部亦为标准四包围结
构,内部被竖线分割(包括斜线),如“四口”。
③囗复合变异:母根
,编码43,它表示字根主体为四面
包围,内部被复合分割、或外部形状不规则、方框外面添加线条(笔
画)等特征。如“田
白西早”等,其中“田、
”外部为标准标“
囗”,内部被复合分割,“白、西”字主体为“日或囗",上部或下
部加有笔画,造成主体变异。
对一些特别常用的字根,也依据其主体特征编入41或42号码,如
“虫”主体以“囗竖向分割”为主,故编入42号码中。
上面为11种常见“包围型”母根。它们的线条常连结成平面图形,
存在平面上的区域包围结构。
2、线条型母根
汉字中的线条(笔画)除如上所述的连结(端点相接)外,大多数以
相交、分散形态存在。如“十、扌、丰”主体几何特征呈几何学中的
“正交”特征;”丁、干、
、土”主体为“垂直”(T型结构);
“一、二、三、丨、川、丿、彡”等主体特征为线条间的“平行”。
对大量常用字根分析,归纳出线条型母根5大类15种:
(1)、交叉类3种:两个线条相交并互相穿过。
①正交型:母根为“十”,编码51,主线条相交成直角。如“十、
、丰、扌”等字根。
②斜交型:母根为“乂”,编码52,主线条斜向相交,如“乂、
又、夂、大、犭”等字根。
③混交型:母根为“米”,编码53,线条间同时存在正交、斜
交型,如“木、米”等字根。
(2)、垂直类3种:两个线条相交连但不穿过,如“T”状结构,
以构成直角为主。
①顶垂型:母根为“”,编码61,顶部为水平线(横),与下
面的竖线或斜线构成T型结构。如“丁、干、
”等,同时这
里将“丆、
、
”等也归于这一类中。
②双垂型:母根为“工”,编码62,顶部与底都为水平线(横),
中部为竖线相连。如“工、王、五”等字根。
③底垂型:母根为“”,编码63,底部为水平线,其上有垂
线相连结。如“土、士、
”等,特征与61号母根相反。
(3)平行类3种:多个同一方向的线条相互平行,如同几何学中的
平行线。
①横平行:母根为“=”,编码71,全部由水平线构等。如“一、
二、三”等字根。单线条(“一”)视为自身平行;字根“ ”(即笔
画“提”)依习惯也归于横平行。
②竖平行:母根为“‖”,编码72,全由竖向线条(可局部含有
“丿”)构成,如“丨、刂、川”等。单线条(“丨”)视为自身平行。
③斜平行:母根为“∥”,编码73,以左倾线条构成为主,如“
丿、
、彡”等,字根“彳”亦归此类之中。
(4)散倾类3种:字根中线条常是分散的(不交叉),但又不平行,
成不规则的相互倾斜。
①点倾型:母根为“丶”,编码81,全由单点组成,如“丶、氵、
灬”等。
②点平型:母根为“亠”,编码82,起笔都由“亠”开头,如“
亠、六、文、立、方”等。另外,由于“”(“提”笔画)归于水
平线,“冫”应属“点平”特征,因而归于92码,而不属91码。
③对倾型:母根为“八”,编码83,线条左右两边分开,相互对
应倾斜,如“八、人、儿、小、水、”
(5)折角类3种:线条间构成不规则交角。
①斜平型:母根为“”,编码91,起笔为“”,如“、
、钅、攵”。
②斜直型:母根为“亻”,编码92,字根主体包含“亻”,如“
亻、千、禾、手”。
③连折型:母根为“乙”,编码93,多笔连折,构成折角,如“
乙、之、ㄣ、ㄋ”等。
以上介绍了27个母根(实用26个)的基本特征,它们可以分为9组
(如编码11-13为第1组,21-23为第2组,91-93则为第9组),每组
3种,呈9×3分布,以便记忆。
表1集中列出了所有母根的几何特征。
表1 27个几何母根的基本特征
![]()
三、子根的选用
汉字的高频字根近200个,本编码方案中对字根进行了筛选和分
类,并主要以GB2312-80字符集中汉字编码进行了实际编码分析,根
据6763个汉字的编码分析,选用了以下140多个字根,由其外形分配
到各个“母根”下面,做为它的“子根”。参见表2中母根、子根的
表2几何母根-子根健位分布表
![]()
键位分布图。
括号中的子根可认为是由母根或子根进一步衍生出来的。
四、“母根键盘”设计
传统的键盘输入方法中,计算机键盘都是以英文字母或字符为主
导,对汉字字根进行归类、管理、记忆。而英文字母在健盘上的分布
上是无序的,同时由于语系的巨大差异,它的特征与汉字字根几乎无
相近之处,使人很难对二者产生“联想”。
27个汉字几何母根的确立,可以说成为汉字字根管理的一种新“
字母”,同时由于它的总体规律性和有序性,将更加有利于字根的
分类和记忆。
27个几何母根可以分为9列、3行,为9×3结构,与计算机键盘
上的三行英文字母一一对应(表3)。母根子根在键盘上的分布见说明
书附图,其中包围型母根(11-43)11个分配键盘右半区5列上,与11
个英文字母对应,并保持11-33等9个编码的平面对称性,以利于记
忆;线条母根(51-93)15个分配在键盘左半区,按意义分为5列,与
15个英文字母对应。表3为母根键位分配表。编码数字的首位代表列
号,第二位代表行号,整个键盘从中间分开,向右为第1、2、3、4
列;向左为第5、6、7、8、9列。这就是“几何母根键盘”。见表3。
表3几何母根键位分配表
![]()
上排键
中排键
下排键
键盘分布中以列为单位,每列3行,只有43号母根
移到P键
上,仍视为第4列中的一个键位;第3列中33未号母根用,所以此列只
有2行。
右区键盘1-3列以22号母根“囗”为中心,成全对称分布,形
面“四面八方”向内包围的特征,上下左右方向上为三包围,四个角
上为半包围,中心为全包围,因而记准中心母根“囗”(J键)的位置,
其余的母根位置便能一目了然。
左区母根分为5列,自右向左几何构形由规则向杂乱、由复合向
单线过渡。如5、6、7三列都是比较常见的几何构图,但第5列“交
叉”是线条中最复杂的构图,第6列“垂直”则只是线条间的接触关
系,第7列“平行”中线条基本无接触发生,这种变化趋势利用对键
位的记忆。在每一列中,自上而下也存在规律性变化,如第5列“交
叉”自上而下为“正交”、“斜交”、“混交”,由规则构图向不规
则变化;第6列以中间列为中心呈上下对称分布。
说明书附图1为“几何母根键位分布图”。
图2为“几何母根-子根键位分布图”(分图1、分图2为图2的局
部局放大图)。
母根健盘的创造,使汉字录入变得简单,因为它甩开了英文键盘
的束缚。如“朋”拆为“月月”,只需连击“冂冂”键;“崩”则击
“凵冂冂”键。所击的键盘母根与拆分的字根外形十分接近(如“月”
与“冂”、“山”与“凵”)。只要熟记26个母根的形状、位置,其
本可直接上机输入,因为大多数字根单凭形状,即可确定母根。
五、编码规则
本方案中单字编码最长取4码(词组一律取4码),则编码容量达
47万以上,理论上完全满足汉字编码需要(一般汉字字库量为数千到
数万个)。本方案中提出“母根编码”思想。由于26个母根与英文字
母一一对应,“母根码”与“英文编码”的代表的意义是一致的,
但是,汉字母根在键盘上的位置具有明显的规律性,这是英文键位所
不能比拟的。
编码时,将汉字依次拆为单个字根(“子根”),由“子根”即可
得出其母根编码(或英文代码)。
单字拆分规则为:
1、“自左而右、自上而下、自外而内、遵从习惯”
左右结构从左向右,局部有上下区分时再“自上而下”,如:
“操”-“扌口口口木”
上下结构时从上向下拆分,如:
“号”-“口一ㄣ”。
包围结构(全包围、三包围)从外向内,如:
“国”-“囗王丶”
“同”-“冂一口”
半包围字拆分时依“自上而下”规则为主,如:
“句”-“勹口”
“过”-“寸辶”
“匕”-“丿乚”
混合结构按书写习惯顺序拆分,如:
“册”-“冂冂一”
2、“拆码最少、力求取大”
按拆分顺序前面尽量取大,使拆出的码数最少。如“弓”有两种折法:
“弓”-“一ㄣ”(错误)
“弓”-“ㄣ”(正确)
前一种拆分方法违反了“力求取大、拆码最少”的原则。
“拆码最少”是所的规则中最基本的原则。
3、“避免交叉、兼顾独立”在拆分码数不增加的前下,拆出的字根
力求不相互交叉,这时可以违反“力求取大”的原则。如:
“干”-“二丨”(错误)
“干”-“一十” (正确)
有些字根在人们的视觉和习惯中是做为一种整体的,拆分中要
保持其完整性,以便与常规习惯一致,即“兼顾独立”的规定。这一
规则主要指含以81号码为头的字而言。如:
“主”一般认为由“丶王”组成,而不拆分为“亠土”。
“兰”由“丷三”组成,而非“二”。
当然,以上各规则都不能违反“拆码最少”的基本原则。
编码中的取码规则为:
1、不多于4码的依次取码。
如:“温”字拆为“氵日四”码长为3,对应的母根编码为“丶
日
”(WOL)。
2、超过4码,则取第1、2、3、未等四码。
如“输”字拆为“车人一月刂”共5部分,取“车人一刂”,对
应的母根编码为“乚乙八=‖”(NXED)。3、对选为字根的字(键面
字),编码时第一码规定为母根,再对其拆分取码,拆分时仍按上述
规则。如
“雨”为“冂”的子根,其第一码为“冂”,再拆为“一巾∷”,
故为“冂一巾∷”,母根编码为“冂=冂丶”(UEUW)。
3、词组编码
词组编码一律取4码。方法如下:
①双字词:每字取前两码。如:
“团员”所取字根为“囗
口贝”母根编码为“口十囗冂”(J
TJU)。
②三字词:取前两字首码及第三字一、二码。如:
“联合国”应取字根为“耳人囗王”,母根码为“
八囗工”
(PXJF)。
“参考书”应取字根为“厶土”,母根码为“”
(NVII)。
③四字词:取各字首码。如:
“脚踏实地”应取字根为“月口宀土”,母根码为“冂囗冂”
(UJUV)。
④多字词:取前三字和末字首码。如:
“中国人民解放军”取字根“口囗人冖”,母根码为“口囗八冂”
(JJXU)。
六、识别码与简码方案
1、尾部结构识别方案
汉字重码是影响输入速度的主要因素之一。在汉字的拆分取码
输入中,愈是笔画少的汉字愈易形成重码。如“刘”、“齐”的母根
编码都为“亠‖”,出现重码。但“刘”为左右结构,“齐”为上
下结构,可由考虑由此信息来区分。
又如,本方案中“匕”、“厶”的母根都为“”,则“公”、
“仑”的母根编码都为“八”。但“公”未码以“丶”收笔,为
“散倾”结构,“仑”未码以“乚”收笔,为“包围”结构,如果在
编码中加入这一信息,则可把它们分开。
因而,针对本方案中的特点,提出“尾部结构识别方案”,它
在汉字不足四码的情况下,加打一个识别码,体现汉字的字体结构、
尾部结构等信息。
具体方法:
(1)首先确定字的尾部结构,尾部结构是指最后一笔与其它笔画形成
的几何构形。如“单”最后一笔为“丨”,与其它笔画形成“十”形
交叉。则尾部结构为“十”。
然后以几何母根中每列为单元,由尾部结构确定识别码所在的列,
如“十、X”结尾,则由第5列(交叉列)识别,“乚”结尾则由第1列
识别。
(2)每一列中,第一行(即上排键)代表字型为左右结构、第二行(
即中排键)代表上下结构、第三列(即下排键)代表混杂结构。
如“什”字以“十”结尾,应由第5列识别(交叉列),字型为左
右结构,则取第一行中的母根为识别码,因而“什”的全码应为“亻
十十”;而“付”字以“丶”结尾,应由第8列中左右结构码识别(
第一行),因而“付”的母根全码为“亻十丶”。
(3)尾部结构的具体规则:
①“日口不拆”汉字中以“口”、“日”为尾的较多,故这类
结尾直接用于识别。即“日口不拆”的原则。键盘第2列用于尾部为
“口”的识别,第4列用于尾部为“日”的识别。
一般情况下,汉字结尾为标准四方形,则尾部结构不是“日”
便是“口”。如“洒”、泪、首”尾部结构为“口”;“泊”尾部
结构为“日”。
②包围型母根中用于尾部结构识别的除“日、口”外还有“、
”,它们都为单笔画(其它的如“匚凵冂”都为复合笔画,即
笔画为2笔或多笔),如:
“皂”的尾部结构为“乚”,字为上下结构,识别码应为12,
即“H”(母根“匚”),所以母根全码为“
匚”(ONH)。
③“包围优先、大码优先”“包围优先”,如“七”的未笔为
“乚”,同时与“一”形成“交叉”,但“乚”为包围码,具有优
先性,所以尾部结构不定为“交叉”。也就是说,未尾为”日、口”
或未笔为“”类的折笔字根时,直接定为尾部结构。如:
“间、泊”:尾部结构为“日”
“拓、洒”:尾部结构为“口”
“说、七”:尾部结构为“”
“今、片”:尾部结构为“”等。
“大码优先”,如以“日”结尾时,取“日”不取“口”;以
“乂”结尾时取“乂”不取“”等等。
④“连折看尾”连折线型的尾部结构由结尾处包围方向确定。如
“乙”的结尾处包围形状为“乚”,因而其尾部结构为“”;如
“号”的最后字根为“ㄣ”,它的尾部包围形状为
,因而“号”
的尾部结构为“”。
⑤“非点即线”若尾部结构不属包围(“日口”)、交叉(“
十乂”)、垂直(“”)中的一种,则取其自身,即点(“丶、”
)或线(“一、丨、丿”)。线(“一、丨、丿”)由平行列(第7列)识
别;点(“丶、”)由散倾列(第8列)识别(汉字笔画中的“点(丶)”
与“捺()”,意义较为相近,在此通称为“点”;“横(一)、竖(丨)
、撇(丿)因同在平行线一列(第7列),故通称为“线”)。
如“去、林、构”的尾部结构都为“丶”;“刁、马、立”的尾
部结构为“一”;“别、出、而”的尾部结构为“丨”。
下面是一些字例:
例字 未笔 尾部 结构 规则
阳 一 日(正) 一(误) 日口不拆
同 一 口(正) 一(误)
早 丨 十(正) 丨(误) 大码优先
折 丨 (正) 丨(误)
机 乙 (正) (误) 连折看尾
号 ㄣ (正) (误)
林 丶(正) 乂(误) 非点即线
云 丶 丶(正) (误)
马 一 一(正)
表4为尾部结构识别码。它与母根键位分布图是一致的,即1
8列参与识别,第9列未用。
由于33号母根未参与编码,因而第3列缺少第3行,造成尾
部结构为“”的杂合型汉字无识别码,这时规定32号码(K键)
同时识别“上下型”和“杂合型”汉字。如:
“万”拆为“丆
”,尾部结构为“”,杂合型汉字,其识
别码借用32号码(K键),故全码为“(RIK)”。
表4尾部结构识别码
![]()
2、简码
本方案中汉字编码最长取4码,即输入一个汉字最多用到4个键
位,但对一些常用字可以减少码数,提高输入速度,一键一字称为
“一级简码”;二键一字称为“二级简码”;三键一字称为“三级
简码”。
对应26个母根键位,规定个26个一级简码:
Q
91
年
W
81
主
E
71
一
R
61
不
T
51
十
Y
11
民
U
21
同
I
31
了
O
41
日
P
43
的
A
92
和
S
82
就
D
72
上
F
62
工
G
52
大
H
12
是
J
22
国
K
32
多
L
42
中
:
;
Z
93
已
X
83
人
C
73
我
V
63
地
B
53
来
N
13
以
M
23
出
<
,
>
.
?
/
其它一些常用字,可以取其前2码或3码,利用二、三级简码
进行输入。
有些十分常用的汉字码长短,易出现重码字,可特别强调其简
码形式,加强记忆,以提高汉字输入速度。如:
江(丶工)
全(八工)
内(冂八)
比()
双(乂乂)
因(口乂)
2、特别码
“一二三”在同一键位上,特规定其编码,以方便使用:
一:一(E)
二:一一(EE)
三:一一一(EEE)
七、几何母根编码的先进性
1、创造“母根键盘”,实现“看字知码”
本方案中提出“母根编码”的思想。由于26个母根与英文字母
一一对应,“母根码”与“英文编码”代表的意义是一致的,但是,
汉字母根在键盘上的位置具有明显的规律性,这是英文键位所不能比
拟的。以汉语为母语的人对“汉字母根”的反应远比西文字母要敏
感。也就是说,在进行键盘编码时,如果对英文键盘“视而不见”,
而当做标有26个汉字母根的“汉字母根键盘”,则对高速输入有较大
作用。
如对“品”这样一个简单汉字,子根拆为“口口口”,母根编码
为“口口口”,由于外形一致,子根与母根二者间的“转换”在“不
加思索”中完成的,只要在母根键盘的“口”键上连击三次,即可完
成输入;而传统的编码方法中则要在拆分为“口口口”等字根之后,
去“联想”“口口口”与哪些英文字母对应,这无疑会影响输入速度,
也增加了使用者的记忆量。
复杂的字也一样。如“序”字拆为“广
亅”,在过去的编码
方法中,需要记忆每一个字根的英文名,其英文名与字根间其实并无
必然联系,只是靠人为分配而已,同时由于中西文字符的差异,很难
使人产生“联想”;在几何母根编码中,字根与键盘关系是简单而清
楚的,如上面“广
亅”四个字根,与“‖”四个母根
对应,这并不需死记硬背,而是从字根的外形上一看便知,如“广”
与“”、“
、”与“”外形特征一致,完全可以“看字知
码”。
几何母根方案中最重要一项工作便是记清26个母根的键盘位置。
这也许比记清26个英文字母的键位简单多了。
2、母根键盘记忆方便
母根键盘上汉字母根26个,正好与26个英文字母对应。但其记忆
比英文字母更简单。键盘左区和右区各有其规律性,同时又以列为单
元分布,方便了记忆。如记清“口”的位置,周围8个母便全记下了。
3、由“母”生“子”,特征鲜明
使用的“子根”外形大多与“母根”十分相似,由子根形状一般
可直接得出母根编码,大多数的“子根”并不需去记忆其位置。例如
知道母根“冂”在21号键位(U键)上,则“门、月、用、风、宀、
雨、贝、几”等众多形状大同小异的“子根”便可方便地记忆。
4、容错性强
对汉字的局部笔画人们往往会存在“模糊记忆”,如“礼”字左
边是“礻”还是“衤”(一点还是两点),“直”字下面是几横,都
是人们书写中常弄不清的,而在本方案中,这此笔画即便记忆有误,
也不影响编码的正确性,因为众多形状相似让人容易记混的字根,恰
恰都汇集在同一个母根下。
5、更适用于词组快速输入
在词组输入时,主要取各字的首码(有时用到第二码),即字的
首部形状,具体拆分毋须进行,而字首的外形人们一般记忆清楚,容
易转换成“母根”编码。
如“司空见惯”这一成语,应取字根为“
宀冂忄”,按其外形
可迅速“翻译”成母根:“冂冂‖”,亦即编码。
又如“国庆节”应取字根“口广艹卩”,对应的母根码是一目了
然的:“口十”。
词组输入重码率低,不用细拆单字,不用加打识别码,而且汉字
的首码(以及第二码)常是常用字根,利于记忆,易于快速“转换”
成“母根”码。
6、繁体字的编码同样适用
繁体汉字由于笔画多,字型复杂,字根笔顺与简体字不一致造成
编码困难。本方案由于完全以字根几何形状分类,对繁体字的字根分
类同样适用,绝大多数的字根毋须变动。个别没有的繁体字根可以其
几何特征分配到各“母根”下,如取消“讠”由“言”代替(在82号
母根“亠”下)。编码规则完全一致。〖完〗