形声传智码及其输入法 形声传智码,是取汉字具有形声组合的特点,组成形声传智输入码,来传送知识和智慧的方法。
汉字是形声组合的表意文字,有确定的字形、读音和含意,用单个汉字组合成多字词。汉语也以单音节字组合成多音节词,来适应日益增多的信息含量。常用汉字约4000个左右就能表达99.9%的内容。
象机器一样,可以把汉字看成是组成中文的零部件,也可以分为标准汉字和非标准汉字,可把汉字规范化,让它有固定的形态,标准的读音和准确的含义,称为标准汉字,使其成为国家标准,并推向世界,成为国际标准《通用多八位编码字符集》ISO 10646 UCS的一部分:国际统一汉字区CJK的标准汉字集。国际标准现已将汉字定名为东亚统一表意文字,给了一个最大的文字区域,并规定了同形同码的原则,要求汉字规范化。
汉字是世界上三大象形文字发展成为表意文字的唯一文字。经过甲骨文、金文、大篆到秦时采用书同文,推行小篆和民间的棣书,才使汉字的形状逐步统一。以后中国的历史,就是以统一为主体的历史:通过统一的字形,来理解同一字的含义。对中央政府发出的文书,各地都能正确的理解和执行,各地政府地行政官员是由中央政府任命,在政府内部逐步形成统一的读音,这些都与使用统一的汉字有关。
形成汉字的规则,自古就有六书的规定。就是通过象形、象事、象意、象声这四象来表示文字的含义。用四象表达的事物,都是类似象形的表意方法,其中象事也称指事,象意又称会意,象声又称谐声或形声,它们都属于象形字阶段,但只用这些方法产生的汉字数量有限,满足不了互相交流的需要。为了区别同一声音所表示的不同事物,于是利用假借和转注方法,将象形字和象声字组合成形声字,为了书写方便,又各取一部份来组合成新字,从而进入汉字的形声阶段。但汉字的字形通过棣书到楷书的变化,使字形与象形的差别较大,逐步成为一种文字符号,其中形符和音符也不规则,使汉字处于百花齐放状态,从而进入文字的符号阶段,且发展至今。经过简化字形,便于书写和识别,但字的个数更多,而汉字的字形与汉字读音的关系更为复杂。汉语拼音方案,采用国际通用的26个拉丁字母,作为汉字的注音字母,为推广普通话和统一汉字的读音打下了基础,也有利于国际交流。但字形的规范化是复杂的,要寻找标准化的力法使其统一。
汉字是单音节字,汉字的读音是由一个声母和一个韵母拼成音节,每个音节又有五种声调。可用一个汉字代表这个音节的标准音,声调可不区分,再由这些单音节字的线性组合成多音词。现阶段的汉字拼音方案,主要是为汉字注音,不宜考虑多音节连写,宜用一个声母和一个韵母连写成音节,为减少声韵连写的书写长度,和消除非字母符号,用26个拼音字母先表示声母再表示韵母,用这两个字母的组合来表示一个音节。21个辅音字母用于21个声母,其中CH、SH、ZH三个双符声母,可用V、W、Y表示。5个元音字母作为韵母汉字的零声母,又是韵母的第一个字母,韵母u用字母V表示,37个韵母要用26个拼音字母表示,并按字母次序排序,其中5个单元音韵母:A、E、I、O、U的排序位置保持不变。ER、UENG、e这三个韵母不与声母相拼,还有34个韵母要与声母相拼,就有8个字母要表示两个韵母,为减少韵母的书写长度,用G代替NG,先依字母顺序选排26个韵母,保持单元音字母次序不变,剩下8个韵母:AI、OG、UAG、UO、V、VAN、VE、VN与IA、O、IAG、IOG、UA、UAN、UEI、UEN相对应,共用一个字母。不带声母的运母音节,也用两个字母表示,单字母韵母用两个同一元音表示,双字母韵母用原来两个字母表示,多字母韵母保持第一个字母不变,剩余字母看成韵母再转换成字母,与第一字母组成双字母,但V为韵母的第一个字母时,按韵母直接转换成字母,并在前面加U组成双字母。
汉字是由笔画组成的方块字,汉字的基本笔划可分为横、竖、撇、点、折(—、丨、丿、丶、乙)五类有36种笔形,依次用1、2、3、4、5编码,带钩与不带钩的笔画同码,左弯为3,右弯为4,圆圈为5。它们相互组成若干个紧密笔划集团,称为字根。有些字根本身就已成为汉字,称为成字字根,也称为单体汉字。未形成汉字的,叫部件字根。按功能可分为表意的形部字根,表音的声部字根,其余的叫其它字根共三种。字根的编码,按上部左、右两笔取码,如“日”取左上丨,右上为25,上部只有一笔时,按上下两笔取码,如“白”取上部丿,下部一为31,若字根只有一笔,就重复笔画码,仍为两个码,如“一”取11。于是字根码用两个笔画码组成,从11—55共25类字根码,用从A—Y的25个字母与它对应,作为形部字根的键码。
字根之间以散、连、包、夹四种松散形式组成汉字。其中很多是单体字和形声两部份的组合字,有形部表意,声部表音的含义。
现代汉字已纳入国家标准GB 2312—80《汉字编码字符集基本集》的有6763个,其中一级常用汉字有3755个,以拼音为序;二级普通汉字有3008个,以部首为序。GB7589—87《第二辅助集》有7237个,GB7590-87《第四辅助集》有7039个。三集共计21039个汉字。另外繁体汉字对应于简体,编排在GB12345—90《第一辅助集》、《第三辅助集》和《第五辅助集》。
国际标准ISO 10646 UCS《通用多八位编码字符集》的汉字区CJK是经过中、日、韩三国协商确定的。有82行,每行256个字位,共20992个字位,存放三国共同制定的20902个汉字,包括简体、繁体、日文、韩文,从总的数目来看,字量很多,但经常使用的不多,从大陆报刊上的用字统计资料,最多的字是“的”,占用字总量的3.84%,累计到4000号,已达用字总量的99.9%,约多于国家标准一级汉字。
本发明提供一种形声传智码及其输入法,直接采用国际交换码UCS的基本平面BMP,为4位16进制数码,按256行256列排列,使汉字与ASCII码在同一文字平面上,ASCII码只占00行的256个字位,汉字区CJK占4E—gF这82行,共20992个字位,每一个汉字占一个16位2进制数码,由于汉字的数量巨大,本发明采取分集处理,每集16行,有4096个字位。第一集为常用汉字集,占50—5F共16行的4096个字位;第二集方普通汉字集,占60—6F这16行的4096个字位;第三、四、五集为专用汉字集,分别占70—7F、80—8F、90—9f这16行的4096个字位。
4E和4F这两行,先安排128个基本符号,代表128个数码,与ASCII的前128个字符为基础,按数字顺序排列,用48键分三挡输入。第一挡为英文数字,第二挡为汉字,第三挡为图形制表。按0—9的10个数字,A—Z的26个字母和标点符号的次序排列。再安排384个双码汉字,第一码为字形码,第二码为空格或数码,安排11个高频字,其中D类汉字只有7个。
本发明只在汉字的左上角取一个字根码为形码,把它称为首根,汉字的首根,很容易选取,用它来代表形码就很方便,把每集汉字按首根分为25类,其中有的类别汉字很多,有的很少,再将常用汉字集中数量最多的十个字根(扌、艹、木、口、钅、亻、火、月、氵、辶),提出单独列码,用0—9的十个数字键表示,形码增至35类。第二键为声母码,用一二两键组合而成的形声类型,扣去D类首根,有34*26=884个类型。
每个汉字集都用三键输入,第一键为字形码,第二键为声母键,第三键为韵母键,用空格键确认为双码字,用数字键处理两键后同类型字的重码。
第一集为标准汉字,有固定形态,标准读音和准确含义,一般人都会拼读,采用形声码,第三键为韵母,另用数字键处理重码,有35*26*36=32560个码位。致于其它字集不知读音的字,可用首尾字根码,即第二键为尾根键,因此形声传智码,包括形声码和首尾字根码两种,尾根码也有35种,可有35*35=1225个双码位,第三码用声母排序,也用数字键处理重码。有35*35*36=44100个码位。
形声码的取码方法是按字形、声母和韵母三码的顺序取码,如:“的”的首根为“白”,声韵母为DE。第一键取上下两笔为31转成K,第二键取声母为D第三键取韵母为E,组成KDE三码,其双键简码为KD加空格。
本发明与其它方案比较:目前汉字编码种类很多,一般分为形码、声码和混合码,形码由于字形复杂,难于拆分,声码由于读音有限而重码严重,多采用双音输入来减少重码,也出现由形声结合的方法以字形码来补充。本发明根据汉字数量很多的特点采用将汉字分为五集的方法,使每集编码在4096个字的范围内进行,又因形声组合字很多,固采用很易区别的首根分类,再使每一个类型的汉字在220个以内。并用声韵组合的声码排序,使重码大大减少。经处理后达到三键不重码的效果,并用形码和声码组成双键简码,有35*37=1295个字位,安排1150个常用汉字。
本发明特点为:按频率分集,依字形归类,用声音排序。并采用形声韵母写成三键输入码,直接压缩成国际标准交换码,建立在国际标准汉字区CJK内,并用键盘位置码通过汉字形声传智码,在键盘上直接转换成国际标准文字平面BMP的通用字符,再送入主机,为了便于位置码的转换,可将键盘排序与字符排序统一起来,按数字顺序排列,由两个控制键与字符键组合成从0—127的数字顺序,用48键分三挡输入。第一挡为英文数字,第二挡为汉字,第三挡为图形制表。按0—9的10个数字,A—Z的26个字母和标点符号的次序排列。
字母声母韵母汉字对照表 附表1字 声 母 韵 母
拼 汉 声母 音 字 韵 拼 音 简 写 汉字 声韵码A A 啊 A a 啊 AAB B 玻 BO an 安 ANC C 雌 CI ang 昂 AGD D 得 DE ao 熬 AOE E 鹅 E e er 鹅儿 EE ERF F 佛 FO ei EIG G 哥 GE en 恩 ENH H 喝 HE Heng ueng Heg ueg 亨翁 HH UHI I 衣 I i 衣 IIJ J 基 JI ia ai 呀哀 IA AIK K 科 KE ian 烟 IBL L 勒 LE iang uang iag uag 央汪 IC UCM M 摸 MO iao 腰 IDN N 讷 NE ie 耶 IEO O 喔 O o Hong o Hog 喔轰 OO HOP P 坡 PO ou 欧 OUQ Q 欺 QI in 因 INR R 日 RI ing 英 IGS S 思 SI iong uo iog uo 雍窝 IO UOT T 特 TE iou 优 IPU U 乌 U u 乌 UUV CH 蚩 VI ua v 娃迂 UA UVW SH 诗 WI uai 歪 UJX X 希 XI uan van 弯冤 HB UXY ZH 知 YI uei ve 威约 UF UEZ Z 资 ZI uen vn 温晕 UG UN
字母声母韵母字节汉字对照表 附表2
第二韵母 ueg ai uag og eruo v vanve vn一 a ag e en i ian iao o in iog u uai uei韵 an ao ei eg ia iag ie ou ig iu ua uan uen
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z韵 第 二 韵 母 翁 哀 汪 轰 儿窝 迂 冤 约 晕母 啊安昂熬鹅 恩亨衣呀 烟央 腰耶喔 欧因英雍 优乌娃 歪弯 威 温啊A 阿 昂 爱 安奥 5玻B 巴般邦包 杯奔绷逼白 边 标别玻 宾兵 布 16雌C 擦参仓操测 岑层雌猜 葱 凑 撮 粗 窜 催 村 16得D 搭担当刀的 登低呆 颠 刁爹东 兜 丁多 丢都 端 对 敦 20鹅E 鹅 恩 儿 3佛F 发帆方 非分风 佛 否 夫 9哥G 嘎干刚高哥给根庚 该 光 工 沟 郭 姑瓜 乖官 规 棍 19喝H 哈寒杭耗喝黑很哼 海 荒 轰 侯 活 呼花 怀欢 灰 昏 19衣I 鸦烟央要耶 英 衣 因雍 优 10基J 鸡家 间江 交街 斤京窘 纠 居 捐 决 均 14科K 咖看康考科龈肯坑 开 筐 空 口 阔 枯夸 快宽 亏 困 19勒L 拉兰郎老勒雷 冷梨来 连良 撩列龙 楼林零罗 溜炉吕 乱 掠 论 25摸M 妈瞒忙猫么梅闷蒙迷买 棉 秒灭摸 谋民名 谬木 19讷N 拿男囊脑讷内嫩能泥奶 年娘 鸟捏农 您宁挪 牛奴女 暖 虐 23喔O 喔 欧 2坡P 爬潘旁抛 胚喷烹批拍 偏 飘撇坡 剖拼平 铺 17欺Q 欺恰 千腔 敲切 亲青穷 秋 区 圈 缺 群 14日R 然嚷绕热 人扔日 绒 柔 弱 如 软 锐 闰 14思S 萨三桑骚色 森僧司腮 松 搜 所 苏 酸 虽 孙 16特T 他摊汤掏特 滕梯胎 天 挑贴通 偷 听托 秃 团 腿吞 19乌U 娃弯汪 威温翁 歪 窝 乌迂 冤 约 晕 13蚩V 插产昌超车 陈成吃差 窗 充抽 戳 出 揣川 吹 春 19诗W 沙山商烧奢 身生诗筛 双 收 说 书刷 衰拴 水 顺 18希X 希瞎 先香 消歇 新星兄 休 虚 宣 学 勋 14知Y 渣占张招遮 针争知摘 庄 中舟 桌 朱抓 拽专 追 准 19资z 杂簪臧遭则贼怎增滋灾 宗邹 作 租 钻 嘴 尊 17