字根拼形规范码汉字输入方法 本发明涉及一种计算机汉字输入方法,更具体地说,涉及一种字根拼形码的计算机汉字输入方法。
汉字编码是实现中文信息传递和处理的关键。十多年来,国内学者提出了数百种汉字编码方案,其中形码方面,根据汉字的偏旁、部首、笔形的不同特征,用“0-9”个数字作为代码组成编码向计算机输入汉字,如《结构笔画四位编码法及键盘》(公开号1042017,公开日900509)。该专利把汉字结构划分为单部件字、两部件字、三部件字和多部件字四大类,又把汉字笔画分成基本笔画、派生笔画和组合笔画三大类进行编码,因此编码输入方法复杂。王永民申请并取得专利权的《优化五笔字型编码法及其键盘》(CN85100837)虽已取得了广泛应用,但存在两点不足,其一是把一些特别重要的部首拆开了,例如将“牛”字的一竖拆掉,“羊”字头的倒八拆开等,其二是五笔字型的130个字根的键位记忆比较困难。传统汉字最显著的特点就是形音义的统一体,从字形来说则是一种“准拼形文字”。汉字的结构可分为整字、字根和笔画三个层次,而字根又是核心的一环。字根是构字的基本单位,有确切的定义,不能把字根看成是笔画的任意组合加以切分。因此在汉字信息处理的过程中,对字根的定义、切分、选取、分类和键位映射,提出了新的要求。另一方面国家教委“全国中小学计算机教育研究中心”于1994年制订的《中小学计算机课程指导纲要》中明确要求将汉字信息处理及汉字输入方法列入我国中小学计算机课程,因此,研制教学用的计算机汉字输入系统,就成了当务之急。
本发明的目的是提供一种简单易学,易记高效地字根拼形规范码计算机汉字输入方法,供公众和中小学教学使用。
本发明的汉字输入方法,包括:
基本字根一律不分解,用“根码”编码;普通字根为末级部件,用“笔码”进行编码,根据这样的原则进行取码,
设置基本字根集为:亻彳白比匕不贝八(丷)鼻卜(_)疒勹宀冖采艹(廾)寸大歹斗豆刀(刂)癶儿耳而阝卩()方非父缶风扌广工干骨弓瓜甘鬼革谷戈艮鬲火(灬)黑禾户虍止支至隹中竹(_)舟爪(爫)豸斤见巾角几金(钅)臼已(巳)丬口囗(匚冂凵) 力里龙隶立(亠)耒鹿耂木母面民门米马毛目(皿)皿矛麻女牛()鸟廿()氵冫片疋皮气欠去齐其青(_)犬(犭)人日(曰)肉纟(糸)厶彡巛田土(士)天车臣虫赤尺辰齿厂长(镸)十尸氏石生矢舌鼠水束手是山(彐)食(饣)身示(礻)豕殳无韦瓦戊兀王(玉)文(攵夂)丸亡心(忄)夕西(覀)血小(_)穴辛又页鱼用业牙雨羽亦()由羊()衣(衤)酉言(讠)亚月(月)音聿幺弋子足(_)走辶(廴)自设置各基本字根与字母键的映射关系为:a 亻彳;b白比匕不贝八(丷)鼻卜(_)疒勹宀冖采;c艹(廾)寸;d大歹斗豆刀(刂)癶;e儿耳而阝卩();f方非父缶风扌;g广工干骨弓瓜甘鬼革谷戈艮鬲;h火(灬)黑禾户虍;i止支至隹中竹(_)舟爪(爫)豸;j斤见巾角几金(钅)臼已(巳)丬;k口囗(匚冂凵);l力里龙隶立(亠)耒鹿耂;m木母面民门米马毛目(罒)皿矛麻; n女牛()鸟廿();o氵冫;p片疋皮;q气欠去齐其青(_)犬(犭);r人日(日)肉;s纟(糸)厶彡巛;t田土(士)天;u车臣虫赤尺辰齿厂长(镸);v十尸氏石生矢舌鼠水束手是山(彐)食(饣)身示(礻)豕殳;w无韦瓦戊兀王(玉)文(攵夂)丸亡;x心(忄)夕西(覀)血小(_)穴辛;y又页鱼用业牙雨羽亦()由羊()衣(衤)西言(讠)亚月(月)音聿幺弋;z子足(_)走辶(廴)自。
设置一种笔画与字母键的映射系统;
其字或词语的输入步骤为:
(1)对单字输入,独根字按笔顺取码、多根字按根顺取码以及基本字根集以外的独体字按笔画或声母取码,基本字根根据上述的基本字根与字母键的映射关系取码输入,普通字根根据笔画与字母键的映射系统取码输入,单字全码为四码,不足四码用笔画码补足;
(2)对词语输入,双字词语用两字的首根和次根取码依次输入,三字词语用三字的首根和第三字的次根取码依次输入,四字词语用四字的首根取码依次输入,以及五字以上的词语用前三字和末字的首根取码依次输入。
由于本发明的汉字输入方法采取了上述的技术方案,建立了基本字根集,使整字分解具有客观性,按笔顺和根顺取码,和基础教育取得一致。基本字根集与键位的映射关系时,采用“音托”为主,辅以“笔托”的方法映射键位,有助于记忆。另一方面,对常用的高频字采用了一级、二级和三级简码,实现了高效输入,还设置了两千个高频词简码,大大缩短了码长。
图1是各基本字根与国际通用小键盘字母键的映射关系图
本发明的汉字拼形编码方法以字根为主,即以基本字根集为主。表一是本发明的基本字根集。
表一
亻 彳 白 比 匕 不 贝 八(丷) 鼻 卜(_) 疒 勹宀 冖 采 艹(廾) 寸 大 歹 斗 豆 刀(刂) 癶 儿耳 而 阝 卩() 方 非 父 缶 风 扌 广 工 干 骨弓 瓜 甘 鬼 革 谷 戈 艮 鬲 火(灬) 黑 禾 户 虍止 支 至 隹 中 竹 (_) 舟 爪(爫) 豸 斤 见 巾 角几 金(钅) 臼 已 (巳) 丬 口 囗(匚冂凵) 力 里 龙隶 立(亠) 耒 鹿 耂 木 母 面 民 门 米 马 毛目(罒) 皿 矛 麻 女 牛() 鸟 廿() 氵 冫 片疋 皮 气 欠 去 齐 其 青(_) 犬(犭) 人 日(曰) 肉纟 (糸)厶 彡巛 田 土(士) 天 车 臣 虫 赤 尺 辰 齿 厂 长(镸) 十 尸 氏 石 生 矢 舌 鼠 水 束 手是 山(彐) 食(饣) 身 示(礻) 豕 殳 无 韦 瓦 戊兀 王(玉) 文(攵夂) 丸 亡 心(忄) 夕 西(覀) 血 小(_) 穴 辛 又 页 鱼 用 业 牙 雨 羽 亦() 由羊() 衣(衤) 酉 言(讠) 亚 月(月) 音 聿 幺 弋子 足(_) 走 辶(廴) 自
基本字根集的制订原则:基本字根集全部采用部首。理由是:①部首表意功能强,质量高;②部首的组字能力,特别是作为首根的统率能力强;③各家基本统一的部首约200个,数量上用作键位映射比较合适;④部首的范围是封闭性的,选用高频的,删掉低频的,不会引起争议。
建立“基本字根集”是本方案的一项核心技术。基本字根集,采用五种部首“投票”的方法建立。成字的部首从宽,非字的部首从严。这五种部首是:①国家语委的201推荐部首;②(B2312-80的部首;③辞海的部首;④新华字典的部首;⑤现代汉语词典的部首。
基本字根条的数量定为200个。理由是:
①国际通用小键盘只有26个字母键,而末级字根却有600多个,全部映射到键位上,既不可能也没有必要。建立200个基本字根集,平均每个键位负担不到7.5个,是比较合适的。
②汉字的结构是以字根为核心的,这是大家的共识。但是字根和笔画的使用频率,在汉字拼形码类型的系统中,常常处在动态之中,此消彼长,字根数从五十个到四百个,相差悬殊。为了充分体现字根的核心地位,不管是字根的动态使用频度还是静态组字频度,都必须达到85%以上,让笔画的作用降到15%以下。
③千百年来,传统的部首一直保持在200个左右,《康熙字典》的部首为214个,《辞海》部首250个,《新华字典》部首189个,国家语委的推荐部首为201个。
④基本字根集不光能统率GB2312的6763个国标汉字,也要能统率国际标准《中日韩大字符集》20902个汉字。
基本字根集的定序
①先按笔画数排序,同笔画数的按笔形(横竖撇点折)定序,同笔形的按降频定位。
②每个字根的栏目有:①编号②字根③繁体④读音⑤名称⑥动态降频序号⑦静态组字频率⑧首根出现次数⑨是否部首(国标、语委、辞海、新华、现汉)⑩说明。
接着,参照图1说明本发明输入方法的基本字根与国际通用小键盘的字母键的映射关系。键位映射采用音托和笔托的方法。将基本字根集(195个字根和5个基本笔画)映射到国际通用小键盘26个字母键上。键位映射的基本要求是:帮助记忆;一步到位。
采用“音托”的方法
①通用键盘上的iuv分别表示双字母声母zh ch sh,和全拼双拼码中的双拼键位图完全一致。
②成字字根,包括其变体(键位表上用括号表示),均用该汉字发音首字母进行映射,例如:将“几斤见巾角金(钅)臼己(巳)”映射到J键上。
③非字字根中,凡有名称的一律取发音首字母进行映射。例如:勹(包字头),映射到b键上。
采用“笔托”的方法
采用“笔托”的方法映射键位的只有3个,均取其首笔和字母的首笔相似,以便联想。它们是:
亻彳的首笔是撇,映射到大写字母A键上
氵冫的首笔是点,映射到大写字母O键上
扌 的首笔是横,映射到大写字母F键上
另外,还设置了两种笔画与字母键的映射系统。笔画映射有五个,如表二所示。
表二 笔画系统 结构类型 横 竖 撇 点 折 元音笔画系统 非左右结构 E I A O U 辅音笔画系统 左右结构 H S P D Z
元音字母笔画系统,采用“形托”的方法:
①大写字母E的首笔,和笔画“横(-)”相似
②大写字母I的形状,和笔画“竖(丨)”完全相同
③大写字母A的首笔,和笔画“撇(丿)”相似
④大写字母O的形状,和笔画“点(丶)”有点近似
⑤大写字母U的首笔,和笔画“折(_)”有点近似
辅音字母笔画系统,采用“音托”的方法:
①字母H,是“横(-)”的发音首字母
②字母S,是“竖(丨)”的发音首字母
③字母P,是“撇(丿)”的发音首字母
④字母D,是“点(丶)”的发音首字母
⑤字母Z,是“折(_)”的发音首字母
两套笔画系统的作用如下:
①用“笔码”对普通字根进行编码;
②如果“根码”不足四码时,用“笔码”进行补码;
③由于是两套笔画系统,故大大离散了重码;
④区分汉字的间架结构,和国民识字教学相结合;
⑤对同一结构类型的汉字编“笔码"时,要么是辅音笔画系统,要么是元音笔面系统,具有检验功能。
为保证取码方法的规范性,本发明的汉字拼形编码方法,采取按根取码的方案。
按照本发明的汉字输入方法,整字分解的规则包括:
①基本字根一律不分解
200个基本字根中,全部都是传统部首。因为是一部之首,处在首根的位置.对键位布局,具有决定性的作用,因此基本字根不管是独体型(例如:大、马、豕)还是复合型(例如:鱼、角、鹿、羽、赤),一律不分会解。
②普通字根为末级部件
普通字根约400个,但动态使用频度和静态组字频度均在l5%以下.因此必须将整字分解到末级.一般不能是复合型字根。
整字分解的细则是:
①相聚型:不分解
所谓相聚型,是指单笔和单笔相聚。
例如:氵冫_
②相交型:不分解
所谓相交型,墨捏笔面之间有交叉,例如:“又母女 西重垂”。有一种特殊情况是:倒八(丷)嵌在
其中,也一律不分解,例如:半办平伞。但是
像_坐",要分解成“人人土”。
③相离型:分解
所谓相离型,是指字根彼此之间有距离,例如:和(禾口)
型(开刂土)圆(口口贝)解(角刀牛)临(
)北(匕)曹(日)。
④相接型:有分解和不分解两种情况
分解:是指字根之问相接而不相交,(左右型结构的汉字
一般不存在这种情况),例如:帛(白巾)奂(
卡(上卜)叔(上小又)典(
不分解:是指单笔和多笔相接,例如:千方玉术。
按照本发明的汉字输入方法,单字编码的原则包括:
①200个基本字根(基根)用“根码”进行编码
所谓根码,是指分布在26个字母键上的字根代码。由
于根码的频率已达85%以上,故在编码中起主导作用。
②400个普通字根(善根)用“笔码”进行编码
所谓笔码,是指分布在两套笔画系统共10个键位上的笔画
代码,元音笔画系统,用于非左右结构;辅音笔画系统,
用于左右结构。由于笔码的频率在15%以下,在鳊码中只
起辅助作用,从而保证了根码的核心地位。另外需要说明
的是,笔码的作用有五条:(1)对普通字根进行编码;(2)
如果“根码”不足四码时,用“笔码”进行补码;(3)由
于是两套笔画系统,大大离散了重码;(4)有利于误码纠
错,因为同一个字的笔码,要么都是元音笔画,要么都是
辅音笔画;(5)符合小学语文教学大纲中关于掌握汉字结
构类型的要求。
③独根字桉“笔顺”取码:多根字按“根顺”取码。
众所周知,汉字的结构只能分成垫字、字根和笔画三级,基本字根用“根码”编码,普通字根用“笔码”编码,不仅具有科学性,而且有很强的以简驭繁的统率作用。例如:“单”,上面的丷,是基本字根,用根码B编码;下面的“”是普通字根,很难称说,用笔码IUI(首次末三笔)编码就显得很简易了。
单字简码(分别为一、二、三码)和全码(四码)兼容
①单字简码约5500个,按降频定为一、二、三码;
②全码为四码,不足四码者补足(如果只有一笔,则自身重复),多于四码者取前三末一。
下面更具体地说明本发明输入单字的方法:
①独根字
独根字有两种取码的方法并存并用,互相兼容。需要说明的是,独根字属于非左右结构,要用元音笔画系统进行编码。另外,键位图上的基根中的独体字只能用第二种方法。
●取“前三末一”四个笔画
示例:巨eueu丙秉个凡事
●先取一个声母,然后取“首次末”三个笔画
示例:气qaeu我大里鸟自
②双根字
双根字的编码在整个编码系统中,有举足轻重的作用,原因有三条:①双根字达2000多个,占了三分之一,而且多是常用字;②词语编码一般只取首根和次根,对双根字来说,无论是单字或词语编码,都是“全息”的:③双根字的编码如果不加分化,重码率非常高。故采取以下两条重要措施:①双根字的首根只取一码;②取码一直往下走,不允许走回头路。
需要说明的是:双根字中有的普通字根本身就是一个汉字,故有两种取码的方法并存并用,互相兼容。(三根以上的字类此)。例如“鸭”字,其中“甲”是普根,“鸟”是基根,其两种编码方式分别是: snph或jnph。
基根和普根的组合有如下四种模式:基根+基根(数量很大)、基根+普根(数量不少)、普根+基根(有一定数量)、普根+普根(只有几个字)。这里再一次说明:双根字的首根,不管是普根还是基根,都只取一码:双根字的次根取三码。
示例:杜mthh 笔 取 有 爸 某 光
示例:捷fhzd 姬 免 缺 畏 象 单
示例:那zuzs 制 向 北 惠 卑 旧
示例:拜phhs 亏 畅 棘 师 兆
③三根字
取“首次末”,不管是根码或笔码;第四码用笔码补足。
示例:鞋gtth 唐 替 芬 娶 查 迎
巫grro 艳 粥 旗 鞍 临 监
④四根字
取“首次次末”,不管是根码或笔码。需要说明的是:当第四根是普根时,一律取末笔。例如“流”字,可分解为“氵亠厶”,第四码应取“”的末笔。
示例:楷mbbh 说 慧 逼 蠢 糜 座
敬cbkw 燃 荷 蕊 嘴 阅 撬
⑤五根以上字
取字根的前三末一,即“首次次末”,不管是根码或笔码。需要说明的是:当末根是普根时,一律取末笔。
示例:燥hkkm 髓 赢 藻 癌 燥 器
本发明的单字输入法,有平面型和层次型两种。平面型指的是:四码时才构成一个平面,一、二、三键为简码字,每提示行只出现一个高频字,后面紧跟高频词语(与全码词语兼容)。所谓层次型,是指每一提示行有十个字,依降频排列,如果击一键没有出现,就打第二键,依此类推。上键出现的字,不在下键重复出现。
本发明的词语输入的原则,采用“非全息”的等长四码,以及设置一、二、三码的高频词语,并与四码词语完全兼容。
本发明的词语输入的方法:
●双字词语用两字首根和次根依次输入
示例:相信mmay●三字词语用三字的首根和第三字的次根依次输入
示例:对不起ybzj●四字词语用四字的首根依次输入
示例:全心全意rxry●五字以上用前三末一字的首根依次输入
示例:中华人民共和国 iark