汉字SY码.pdf

摘要
申请专利号：	CN90109286.X	申请日：	1990.11.16
公开号：	CN1061480A	公开日：	1992.05.27
当前法律状态：	撤回	有效性：	无权
法律详情：	\|\|\|公开
IPC分类号：	G06F3/023	主分类号：	G06F3/023
申请人：	广西壮族自治区中医药研究所;
发明人：	覃乐松; 韦宝伟; 张文洁
地址：	530012广西壮族自治区南宁市古城路20号
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明是一种汉字编码法，它是以传统部首为基础，优选出120部首作为编码部件，以部件读音的声母和韵母作代码，按照部件代码的字母顺序排列成代码表，编码时，按部件起笔的书写顺序取码。本法编码简便，速度快，重码率低；不仅能见字识码，还可部分见码识字；代码助记性、可读性较好，通用性强，适用范围广。

权利要求书

1：一种汉字SY码，其特征在于从传统部首中优选120个正式部件，以部件读音的声母和韵母作代码。
2：如权利要求1所述的汉字SY码，其特征在于一般部件用两个字母作代码，五种笔画和使用频率较高的20个部件号用一个字母作代码，每个部件的代码具有唯一性。
3：如权利要求1、2所述的汉字SY码，其特征在于部件代码只有一个字母的称为S（声）码;有两个字母的，第一个字母称为S（声）码，第二个字母称为Y（韵）码。
4：如权利要求1-3所述的汉字SY码，其特征在于部件按其代码的字母顺序排列。
5：如权利要求1-4所述的汉字SY码，其特征在于一般按笔顺规则把汉字分解成部件进行编码;但对于传统部首，不管笔顺是否连续，均作为一个部件处理。
6：如权利要求5所述的汉字SY码，其特征在于一个笔画与其它笔画连接构成两个部件时，允许从中断开，分属两个部件。
7：如权利要求5所述的汉字SY码，其特征在于对单部件字的编码是直接取该部件的代码，异体、繁体加首尾画代码，不足4位码则加，“V”至4位等长码;如作为不等长码处理，可以不加“V”。
8：如权利要求5所述的汉字SY码，其特征在于对双部件字的编码，分别取两个部件的代码，没有Y码的部件则加“V”;如作为不等长码处理，可以不加“V”。
9：如权利要求5所述的汉字SY码，其特征在于对三部件字的编码，分别取三个部件的S码和按先后顺序取其中一个部件的Y码;若三个部件都没有Y码则加“V”;如作为不等长码处理，可以不加“V”。
10：如权利要求5所述的汉字SY码，基特征在于对四个以上部件字以前两个部件和最后两个部件编码，前两个部件取第一部件的SY码，若没有Y码，加取第二部件的S码，最后两个部件均取S码。
11：如权利要求5所述的汉字SY码，其特征在于对二字词的编码，分别取两个字的首尾部件的S码;若是单部件字，则取其SY码，无Y码者则加“V”。
12：如权利要求5所述的汉字SY码，其特征在于对三字词的编码，第一个字取首尾部件的S码，第二、三个字取首部件的S码;若第一个字为单部件字，取其SY码，无Y码者则加“V”。
13：如权利要求5所述的汉字SY码，其特征在于对四个字以上词组的编码，取第一、二、三和末字的第一部件的S码。

说明书

本发明属于汉字编码技术领域。
    目前，汉字编码方案很多，据报道已达几百种，但是，能上机应用的却很少，能普遍推广应用的就更少。现在所使用的几种编码输入法，还不能令人满意。主要原因是除了部分方案需要增加硬件设备，一时难于上机应用外，多数方案不是人为规则过多过杂，难学难记、难用;就是重码、误码率高，操作不便，效率不高。

    最近，杜冰蟾发明的“汉字全息码”，比以往的的编码法具有较多的优点，如信息全、重码少，易学、易用等。但是，该编码法也是有缺点的，主要是：

    1、部首归类不妥。如用“用”字作“角”字的本体，用“廾”作“艹”的本体，既不符合习惯，又难读难记。“用”字与其它部首又不能组成另外一个汉字，用来作部首实无必要。把“厂、疒”作“广”的异体，重码多，如“座”与“痤”等。

    2、每个部首只用一个字母作代码，达不到唯一性，必须用笔画作区分码。这样，不仅编码复杂，速度慢，而且各人书写习惯不同，容易造误码。如“方”字的末笔，很多人写法都不一致，连该码的发明者也定错（族FPHR）。

    3、使用八种笔画，不符合目前公认并广泛应用的五种笔画。横与挑，点与捺，在很多情况下可相互转化，弯与钩有时也难于区分。使用八笔，实际上使用了汉字的不确定信息，容易产生误码。如“驴”字与“码”字，都有一个“马”，但末笔却不同，稍不注意就会出错。

    4、完全按笔顺分解汉字，会把传统的部首分解得支离破碎。如“国”字分解成“冂王、一”，“必”字分解成“丿丶丶”，“酉”字分解成“一冂儿二”，“戈”字拆成“一”，都不符合人们的传统习惯，一般难以掌握。

    5、汉字全息Ⅱ码由于代码与部首没有直接联系，必须死记100个部首的代码，否则无法使用。

    为了使汉字编码输入既简便又实用，我们在总结现有编码方法的基础上，发明了汉字部声码。部声码是利用汉语拼音的声母和韵母作每个部件的代码。它是以传统部首为基础（主要参考《新华字典》），优选出组字能力强，或者是难于再分解的120个部首作为编码部件。部件首先按其读音归类，用其声母的第一个字母和一个单韵母作部件的代码，然后对重码的部件进行调整，尽量使码的读音与部件的读音相近似;以便于记忆。五个单笔部件（笔画），除“丿”外，均用单韵母作代码;组字能力较强的20个部件只用一个字母（声母）作代码、其余95个部件的代码均为双字母，每个部件地代码均具有唯一性。为了编码方便，我们把只有一个字母的代码称为S（声）码;两个字母的代码，第一个字母称为S（声）码，第二个字母称为Y（韵）码。120个部首按其代码字母顺序排列（见表）。

    汉字SY码在编码时，一般先按笔顺规则，即先横后竖，先撇后捺，从上到下，从左到右，从外到内，先里头后封口，先中间后两边，把汉字分解成编码所需要的部件。但是，对传统的部首，不管其笔顺是否连续，均作为一个部件处理。例如，“国”字只分解成“口王、”，“必”字分解成“心丿”。当一个笔画的两头连接其它笔画构成两个部件时，允许从中断开，分属两个部件。例如，“果”字可分解成“田木”，“重”字分解成“千里”，“垂”字分解成“千艹士”，“戊”分解成“厂戈”，“出”分解成“山山”。每一步只分解到最多笔画的部件为止。按部件起笔的顺序取码。

    汉字SY码可以对单字和词组进行编码。为了计算机处理的方便，一般以4个字母组成一个字或词组的代码，但也可编成不定长码。具体编码方法如下：

    一、字的编码

    1、单部件字：包括120部件字及其异体和繁体。编码时，直接取该部件的代码，异体、繁体加起末笔画，不足4码则加“V”至4位码。（如作为不等码，可不加“V”，也不用加笔画码）例如：

    贝BEVV  见BEIU  貝BEIO  一AVVV  木MVVV

    2、双部件字：由两个部件组成的字，编码时分别取两个部件的代码;没有Y码的部件则加“V”（作为不等长码，可不加“V”）。例如：

    汉SVYO  字BOJE  取FUYO  码DVMA  沐SVMV

    3、三部件字：由三个部件组成的字，编码时，第一部件取SY码，第二、三部件取S码;若第一部件没有Y码，按顺序取第二或第三部件的Y码;若三个部件没有Y码，则加“V”（如作为不等长码可不加“V”）。例如：

    桂MTUT  花NRBI  图KUWL  算ZMUN  淋SMMV

    4、四部件字：由4个或4个以上部件组成的字，最前两个部件和最后两个部件编码。前两个部件取第一部件的SY码，若没有Y码，加取第二部件的S码。后两个部件均取S码。例如：

    照RIKH  障FURH  湖SHKY  椅MDDK

    为了减少重码，对4个以上部件字，如果前两个部件与后两个部件相同，或者由两个相同字组成一个字时，可改按顺序取第一至第四部件的S码。例如：

    器KKQK  嚣KKYK  辩LHYL  兢HKEH

    二、词组的编码：

    1、二字词：分别取两个字的首尾部件的S码，若是单部件字，则取其SY码，无Y码者则加“V”。例如：

    汉字SYBJ  编码CNDM  方法FASS  中心KIXV

    2、三字词：第一个字首尾部件的S码，第二、三个字取首部件的S码;若第一个字为部件字，取其SY码，无Y码则加“V”。例如：

    计算机YHZM  文化宫WERB  人生观RVPY  石家庄DVBG

    3、四字以上词：取第一、二、三和最末个字的首部件的S码。例如：

    汉字编码SBCD  科学研究HXDB  计算中心YZKX  中国科学院KKHF

    汉字SY码与现有的编码法相比，其优点是显著的。

    1、首次提出用双字母作部件代码，使部件的代码具有唯一性。不仅能见字识码，还可以部分做到见码识字。例如：

    奋DATI  孩JEHA  好NUJE  闯MEMA  放FAWE

    2、基本上以部件编码，一个汉字有几个部件就用几个部件编码，最多也不超过4个部件，不用加笔画区分码。编码简便，速度快，还可以避免因笔顺不一致造成的误码。

    3、本法是由声母和韵母组成一个部件的代码，代码的助记性和可读性都较好。例如：

    方FA  西XI  女NU  灯HODI  妈NUMA  抬TSID  识YKBA  张GOCA

    4、编码规则较简单，易学、易记、易用，一般不需要专门培训。

    5、可以在普通标准键盘上操作，不用更改键盘和增加硬件设备。

    6、重码率低。处理《GB2312-80》的6763汉字，重码率＜1%。

    汉字SY码可以应用于以下几个方面：

    1、可作为计算机，电子打字机、各种文字处理机的汉字输入码。

    2、可作为邮电部门的电报、电传的明码。

    3、可作为自动翻译机，电子对照词典的输入码。

    4、可作为辞书、书目、索引的编排和查检。

    汉字SY码部件代码表

    A一（）丶 GI鬼（） N艹（廾艹） TO冂（ㄇ）

    B 疒 GO弓（工） NA廿（） TU土（士）

    BA八（丷八）  GU骨  NE乜（也）  U乙

    BE贝（见貝見） H禾 NI牛（） UA于（亍牙）

    BI匕（七） HA亥 NO鸟（） UE鱼（魚）

    BO宀（） HE艮（） NU女 UI雨

    BU卜（） HI乂（十） O丶（） W王（）

    C纟（幺糹） HO火（灬） OU区（匚） WA瓦

    CA长（長镸） HU户（尸） P丿（） WE文（攵夂）

    CE车（車） I丨（刂） PA片（爿丬） WI韦（）

    CI川（巛彡） J金（钅） PI平（） WO巫（亚业）

    CO虫（） JA巾 Q犬（犭勿） WU毋（母）

    CU寸  JE孑（子了）  QA千  X心（忄）

    D石 JI己（） QE欠 XA夕

    DA大（尢） JO角 QI（礻示） XE习

    DE歹 JU臼（） QO丘 XI西

    DI丁（丅了） K口 QU曲 XO小（）

    DO刀（刂） KU囗 R人（亻） XU彐（）

    DU豆 L冫（ㄑ） RE壬 Y言（讠）

    E二（亠巜） LA来（耒） RI日（曰） YA羊（）

    ER儿（几凡） LE力 RU入 YE页（頁）

    F丰（） LI里（） S氵（水氺） YI衣（衤）

    FA方 LO龙（） SA山（屮凵） YO又

    FE风（几） LU六（立） SE食（饣食） YU月（月）

    FI非（） M木（） SI厶（） Z竹（）

    FO缶 MA马（） SO勺（勹） ZA爪（爫）

    FU阝（卩耳） ME门（） SU殳 ZE身（）

    G广（厂） MI米 T扌（手） ZI止（）

    GA干（） MO毛（乇） TA天（夭） ZO走（辶廴）

    GE戈（弋） MU目（罒皿） TI田（由） ZU舟

    注：部件代码只有一个字母的称为S（声）码;有两个字母的，第一个字母称为S（声）码，第二个字母称为Y（韵）码。