一种全字母无重码不限量的汉语字词语句拼音编码系统及其键盘。目前用于电脑汉字信息处理外码、电子汉字打字、排版编辑等输入外码的拼音编码一种是由汉语拼音声母加韵母加同音定字字母A、B、C……所组成的三段码。其缺点是未包含汉字的声调元素(声调声元),而不能准确拼读,二是定同音汉字的序号是简单的挪用因而往往发生序号字母与前边的声母韵母组合后误生新的音节造成拼读和识别错误。另一种是第三段是用数字1、2、3、4、5代表五个声调,然后用第四段字母A、B、C……定字,因而造成字母数字混合,构不成全字母的文字性。还有一种是为一、二段采用声母(不全是声母,对只有韵母音节字是用韵母首字母)、韵母,为三段不表声调,而是用汉字的形部(偏旁部首,但并非全为通用定义的)的音首字母定字,其缺点是:除无法准确拼读外,重码多,并使用户思维逆转,又随字量的增多而重码更加增多,必要时尚需进行系统修改,且难于做到对使用高频字的优化。 近几年出现的“中文声数编码”(以下简称声数码),比上述的三段、四段码先进。它由四段组成1:声母 2:韵母 3:代表五个声调的字母 4:从0到9的十个阿拉伯数字及其组合做区分同音字的序号。该编码的优点是声韵调序声元齐全,但它是字母数字混合型编码,文字感差,其键入定字方式是按翻页选字方式,而未做到无重码。
本发明的任务是,以汉语拼音为基础,克服上述编码的各种缺点,发明一种码元少、全字母组成的、包含全部汉语音节的声韵调序声元,并结合优化高频字词,而能达到迅速高效、准确无重码地,可广泛应用,特别能直接用为难度最高的汉语字词通信传输和汉语字词数据库、电脑自然语言等各个方面的,而且不限量的“中文声序拼音编码(又称声序码、唐码)系统”。
它文字感强、可读性好、做到不限字词数量的无重码(重码为零),解决了汉语拼音区别不了同音字的缺点,结合汉语语音单位声元组成音节,而成为一个汉字的特点,分有64个声元,包括24个声母(其中有3个复合声母、1个零声母、2个半声母),35个韵母(其中有6个单字母韵母),5个声调(用四个符号代表四声;阴平、阳平、上声、去声和无符号代表轻声,也叫五声),符号汉语拼音方案,以26个字母做本发明的码元,将全部64个声元和10个序号字母,都符合规律地按排在各自的码元字母位子上,并以声元为单位实现了书写、键入(不用字词领示符)、通信传输等一系列系统工程的技术环节;按汉语字词高频优化的原则,实现了字字有全码、高频字还有简码(一码字有26×4=104,二码字有408个),全码字中即包括了国标码的6763个汉字,又包括了标准电(报)本的7081个汉字(其中并未全含有国标码汉字),全码字中有1330个三码字,有5200个四码字和1400个五码字(包括国标码没有而电报码有的汉字码量可按需扩充),语词有全码词:6万条二字词、三字词和四字词,有简码词:22个特优词,近4万条等量词(码数和字数相等而得名),其中有高频优化的二字词2500个,三字词和四字词,(包括成语)、五字词(包括五言古诗等)、六字词、七字词(包括七言古诗等)、八个词、九个词、十字词……十五字词,近几千条“4+1”(前四末一)和“6+1”(前六末一)多字词;本发明采用字词统一的整体多行予提示法,使用户刚做这一步,便可予先知道下一步(甚至下两步的目标做法)而让用户处于最大方便自由为要求,主要靠对本编码系统的理解,和汉语语言思维的自然结合,强调熟而生巧而不需死记;在操作方面采用窗口菜单提示系统,而不需操作那些繁杂的程序用语;本发明还提供了3千多字不(难)识汉字的三元识字法(可用唐码汉字元素八挂图),可查找或互查六种码(唐码、纯拼音、电报码、区位码、国标码和机内码)的电码字典,方便书写和键入的模糊符和保持符键入法,本编码固有特点的简繁体同键位自适应和通信的自控遥控,并能对一百多个一简多异繁体字进行正确的简繁体转换,加上标有相对应全部声元的注音符号和26x4个一码字的国际通用键盘或采用张贴的不干胶键位,并容有唐诗二百首和一部分方言字词码,从而使广大用户和学习汉语的人皆能易学易用,通用性强,因而构成一种比较完美的能区分同音字的汉语拼音字。
本发明由26个汉语拼音字母做码元组合而成。其字码结构从左至右顺序是:声母、韵母、声调字母、区分同音字的序号字母共四段。第一段是24个声母:BPMFDTNLGKHJQX和ZH(U)CH(I)SH(V) RZCSYWO,其中的三个复合声母都用相应的单字母代表,另有两个半声母Y、W和一个零声母0。第二段是35个韵母,其中的六个是单元音字母AEIOU和ü,但后者在通用的键盘和传输字母中没有,所以它和其余的29个复合音素韵母,需要以复合汉语语音声韵结合规律和兼顾到韵母频度及键位分布,在21个字母中选佳代表字母,它们是:ai(Y).an(H)……(见表1),其中,没有母音只有辅音作韵母的是用N代表,另外韵母üo是利用相似音0代表。第三段声调的一声阴平(-)、二声阳平()、三声上声()、四声去声()、五声轻声(无标符号)分别用J、X、V、H、W字母代表,本发明的选用根据是以象形各自声调符号(为主),取意汉字及其拼音,以及符合与前后声元互不影响及符合唐码代表字,这就是:均(Jǖn)、斜(Xíe)、上(shǎng=Vgv)声、吓(Hè)、五声(Wü);符合代表字:坚(Jjj)、狭(Xxx)、闪(Vhv)、汉(Hhh)、哇(Waw)。第四段字母序号,其字母的选择当然只能是二十六个字母码元之中,除去容易误生新音节的五个元音字母AEIOU和三个易误韵尾的N、G、R(儿音)上有18个:BCDFHJKLMPQSTVWXYZ可以选择;选择字母序号的原则是:1.采用后,与其前面的声韵调声元字母不可误生新的音节;2.具有数字含义,根据字量需要能容易有规律地增加而不限量,其基本数字最好是群众习惯的十个自然数,亦可是十六个或八个;3.最好与第三段声母区别开。于是,本发明选定TBCDKLMPQS;它们与阿拉伯数字0123456789相对应,其进行十进制字母组合叫做序号字母。它对汉字可用为区分同音字或同音重码字,对语词可用为区别同码词,序号还表示出频次作用,频度高者在前。例如,汉字中数量最多的同音字(按国标码汉字)是YI音节为四声,最多有59个,其中使用频度最高的是“义”其唐码是“Yiht”(在编码中,t是第0位,可用间隔键代之、或省略书写为“Yih”,汉字“诣”排序为“27”,即为“CP”,所以其唐码为“Yihcp”,汉字“刈”字排序最后为“59”即为“LS”,因此,其唐码为“YihLS”。总之,精选的用为不发声、区别同音字、同码词的字母序号,是个不限量的十进“字母数字”组合,是唐码达到唯一性(无重码)和不限量的源泉。
本发明当前收集有汉语语词全码词六万多条和简码词四万多条。各不同专业用户,可以结合需要自行再造词,这就是说,可按照唐码全码词和简码词的规律,自行增加唐码字词库中尚未包括的和系统中允许的简码词和全码词。对使用唐码汉卡的用户,暂时只能在软盘、内存或硬盘上自行存储造词。
本发明结合国际国内的26个拉丁字母的电脑、打字、电传的通用键盘,设计唐码键盘,图1给出了唐码键位图,表1是唐码键盘的键位细目。
表1 唐码键盘的键位细目
键盘上的26个汉语拼音或拉丁字母,正是唐码的26个码元。就是说,唐码的全部字词码:简码字、全码字和简码词、全码词,都是全通过这26个键位来实现的。键位图中除包括了全部声元(24声母,35个韵母,5个声调,10个序号字母)是既用汉语拼音、又用注音符号标注外,还有26x4个多属最常用的一码字,作为使用者一用户的硬提示。在104个一码字中,有93个直接与声母有关;7个(爱啊安按而二儿)与韵母为音节结构的首字母相关;6个(巨中国口品一)与字形和字音相似。
唐码键盘为电脑、电子打字编辑、电传机的用户提供了使用操作唐码指南,为清晰分明,可在白底基础上分为二色:黑色(为基础色)和红或橘红色(包括汉拼韵母和声调符号)。对不具有唐码键盘者,或采用唐码汉卡的用户,可采用唐码键位不干胶贴,分别贴在相应的26个键位上;或藉助于说明书、唐码键位图,以便向导你操作。需要指出,标准键盘上有个键位上是冒号,不是分号键位,当应用冒号作定字符号时,可视为冒号在下。其它全保持一样。
唐码系统的设计,贯穿一条原则,要立足于人民群众使用操作自由方便,并最大限度地利用码元资源。因此,本发明不采用不太方便、又浪费部分码元、且限制了扩大词组码量的“词码邻示符”方式。例如,《声数码》采用“A、E、'”为三字词、四字词和“3+1”(前三未一)多字词的领示符,而唐码则采用在一定范围内不受语词限制的定词符“,·和:”方式。
表2 多字词“3+1”与“4+1”、“6+1”组码方案的比较
如上述,唐码系统采用“4+1”和“6+1”(前四未一和前六未一)的简码词多字词结构,而不采用比较流行的“3+1”(前三未一)。应当指出《声数码》是最早具有简码多字词的方案之一,其结构就是有领示符的“3+1”加数字序号。近些年来,采用这种结构的不仅是音码和音形码,甚至有些形码也是这种“前三未一”的结构。唐码之所以排除了这种“3+1”的结构,是因为它会造成词愈多而数愈大的人为重码,然后又不得不进行选择方式,而影响效率或限制多字词数量,或不得不采用分词和按字的办法。举例下述四项实例多字词,并分别用多字词“3+1”与“4+1”以及必要时用“6+1”组码,即可得出结论。
综合表2四项实例的多字词组码结果表明:用“3+1”组码,对四项多字词全部造成人为重码;而用“4+1”组码,只在较多的第4项5个多字词中,出现了一个重码词;如用“6+1”组码,则可全部区别开。不过,对这第4项情况可按分词方法解决,例如可先按一个“YDB”,然后在按其余的多字词或分词解决。综上所述,“4+1”组码优于“3+1”;而“6+1”只适用于前缀为二、三个字构成的通用词的多字词。唐码(声序码)与声数码的差异综合示于表3。
唐码的最初发明目的和任务是能为汉字通信,并能以优取胜而逐渐取代需要译电只能为专业人员用的四位数字电报码。它的产生过程是一项系统工程,可用于脱网的单体设施,电脑、汉字信息处理、电子打字的汉字输入,而且还可以用于在网的全程全网的和多种网络的通信,五单位信号传输的国际国内用户电报网、公众电报网,用八单位信号传输的数据通信网和计算机局部通信网、可视图文查询通信网、卫星通信图像插入文字通信网,无线电摩氏电码通信网(包括点对点、点对多点)的汉字通信传输和终端设施。本发明也立足于符合国际国家的有关通讯信号传输标准、文字信息处理等标准、协议和要求。大家知道,通讯传输效率的难度是五单位信号的字符传输:这是因为它的最大组合数为2的5次方等于32,而需要传输的却有26个字母、10个数字、5个表能符及11个基本标点符号和6个功能代码(回车、换行、字母、数符、间隔、空行),因而也分为字母档和数符档,因此,除了两档公用的功能信号组合相同外,每一组信号组合要代表双重意思:或一个字母或一个数符(例如信号“10011”既代表字母w,又代表数字2),假如字母是基本档,则如果是要代表数符时,则必须在其前,先加一个“数符档”领示符信号串“11011”,然后再传数字的信号组合串,之后,还需要恢复到基本的字母档,即需传个“字母档”邻示符信号串“11111”。因此,不论是那种汉字编码,如果要能达到五单位电报电传的高水平通讯传输,除要求编码具有唯一性(重码为0)的基本特点外,尚需算计其传输效率。凡是字母、数字或数符混合编码,假如即便是具有唯一性,如用于五单位信号通讯网的通讯传输,则会造成降低通讯效率或降低速度的结果。本发明则属于拼音基础的不限量、无重码的全字母声元编码;而声数码是字母数字混合编码。举例通讯传输汉字“磊”字,唐码是“LVVK”;声数码是“LVV4”,则它们传输的信号串分别是,唐码:10010 11110 11110 01111 00100 5串;声数码:10010 11110 11110 11011 01010 11111 00100 7串。(其中各有“00100”为间隔信号串)。
本发明之所以称为一种比较完美的汉语拼音字,它除能符合汉语文字规律外,还具有系统的唐码字词书写法、键入法,以及通讯传输法。
在唐码的字词书写中,不论如何混用而都能分明。其字码规则是第一个字母(声母)总是大写;全码词的字首字母(声母)也总是大写,韵母小写;简码词的字首字母全是大写,其中特优词和多字词之后带个冒号后缀。由于键入码和通讯传输码的共同特点,是字母不宜分大小写,要么全是大写或反之;又唐码键入码不采用任何领示符,而是采用定字(词)符:字码是用间隔键,全码词是“,”,简码词的特优词和多字词是“:”,等量词全是“·”;对于全码词的重码词是在书写码和键入码后加序号:简码词的等量词书写码加右单引号“'”之后加序号;多字词是加右双引号“””之后加序号。只有一码字和简码词两字词各另有三个和四个自带符号的字词特例,它们的书写码和键入码都相同,五单位通信传输可尽量用其二码字或三码字。
本发明为能最大限度地在通信传输中获得高效率,不仅要在字词的编码中,尽可能在满足通信基本要求前提下进行压缩,而且是取全字母,尽量避免换档,并将定字、定词符号,也选用最佳可用字母:全码词取“0”,简码词的等量词取“u”,多字词取用或“V”(只为多字词专用)或用“uu”,如有重码词序号,则各都加在它们之后。对数量极少的特优词,则也可取用书写码;考虑到八单位信号传输通信的特点,其传输码也可用书写码或键入码。唐码系统中还有一个一万字容量的电码字典,装有全部国标码汉字(6763个)和标准电(报)码本汉字(7081个),由于两者并不统一容纳,所以实际容有数多于后者,字码实有数连同简码字为9800字。电码字典是以电报码本排序为基础,其中任一个汉字都有部首归属,其电报码的前两位数是页数,后两位是字的号码,原本是用汉字的部首笔画索引查找汉字电码,另有按汉语拼音字母顺序排列、并陪有声调的汉字读音索引查找汉字和电报码方式。为给查找汉字和相应各种电码提供敏捷途径,电码字典陪有多种电码和查找方法:汉字、唐码、唐码纯拼音、电报码、区位码、国标码、机内码,共六种码可相互查找。
表4 唐码系统的电码字典实例表
本发明还有表达方言的功能。
本发明具有键盘方式的外文(国标范围的英、俄、日、希)键入法,英文是“ASCLL”方式,其字母方式全同各自文种通用键盘的布局,当换到俄文档时则可将33个俄文字母全按其俄文标准键位分布,并有提示,以方便键入,日文或希腊文亦同理。
本发明的各种数字包括罗马数字,带各种外扩符号的数字和汉字大写数字等,除了按正常的编码输入外,都可直接利用确定的领示符再与键盘上的十个阿拉伯数字相联系,以利键入。
本发明可用于摩氏电码无线电通信、光语通信、旗语通信。众所周知,摩氏电码是一套表达字母数字的点划组合电码,最短的是一个点或划,最长的是五个,另外还规定有点划、字母或数字的两种时长间隔。摩氏电码无线电通信是一种简易的方法,但由于唐码具有唯一性和通信传输法的特点,所以它可以用于通信传输。如“我们是解放军”这六个汉字的通信:唐码是“W M S JFJU”,摩氏电码是“· -- -- ···· -- ·· - ·· --- ·· -”。
本发明“唐码系统”利用汉语拼音26个字母码元,基于汉语拼音,解决了一直被视为汉语拼音区别不了同音字,汉语拼音不能准确表达汉字,汉语拼音更不能用于通信传输,汉语拼音即使能用于通信也必然太慢,不用说比不上外文快,就连比四数电报码也会慢得多等等不可愈越的许多难题。我们不仅解决了“能”,而且解决了汉语字词、以词为主的准确、迅速(不仅快于四数电报码,而且快于任一外文)、与汉语思维一致、与汉语字词读音相通,而可读易写,并且具有不限数量的可扩性、符合语言文字规律的文字性、可用于一切汉语文字所应用的领域,包括电脑自然语言和数据库高科技领域。本发明对促进普及普通话、加速汉字学习效率、促成我国汉字电报通信逐步走向现代化、大众化和普及化,以及促进我国办公室自动化都有很好的前景。
本发明是一项不需死记、主要是靠理解和自有的汉语基础,熟能生巧。本发明是一项具有巨大社会效益的系统工程。