计算机汉字模糊码输入方法.pdf

摘要
申请专利号：	CN92103668.X	申请日：	1992.05.11
公开号：	CN1078562A	公开日：	1993.11.17
当前法律状态：	撤回	有效性：	无权
法律详情：	\|\|\|公开
IPC分类号：	G06F3/023	主分类号：	G06F3/023
申请人：	王希曾;
发明人：	王希曾
地址：	363600福建省南靖县山城镇溪边新村1-303
优先权：
专利代理机构：	厦门市专利代理事务所	代理人：	车世伟
PDF下载：	PDF下载

内容摘要

模糊码是一种计算机汉字输入方法，涉及打字机及汉字资料检索系统。它对计算机的26个英文字符键赋予模糊码形定义诀，使其成为定义码。建立起一套模糊码形表，使用了一种具有自动识别功能的伸缩笔形。在汉字的起笔、部件的重心及收笔部位依次取1—4码。规则简单，无需强记。极少字形拆分，不必“交叉识别”，重码率很低。繁、简、异体字及词汇兼容。适宜不识拼音，认识汉字不多、不同方音、不同专业和年龄层次的人士使用。

权利要求书

1：一种计算机汉字编码输入方法，其特征是在计算机的26个英文字符键上分别赋予模糊码形定义诀，使其成为定义码，定义码将300多种汉字组字单元重新组合，编成包含汉字基本笔画、基本笔形和藏有暗码的伸缩笔形的模糊码形表，并根据模糊码形表，在汉字的起笔、部件的重心和收笔部位依次分别取码，每个汉字或词取1-4码作为计算机的输入编码。
2：根据权利要求1所述的编码输入方法，其特征是：26个英文字符键的模糊码形定义诀为：一王A，双口B，开口C，双斜D，三爪E，木干F，勾点G，双直H，单直I，撇捺J，走衣K，单折L，竹筐M，双折N，小口O，耳朵P，大口Q，单人R，鸟马S，十士T，穿口U，点点V，乱串W，交叉X，挑牛Y，扭丝Z。
3：根据权利要求1所述的编码输入方法，其特征是：使用了一种可以连续两次用定义码进行取码的伸缩笔形。
4：根据权利要求1所述的编码输入方法，其特征是：汉字部件的重心部位即为汉字部件的右上半部。

说明书

一种计算机汉字输入方法，特别是采用模糊码形为编码的计算机汉字输入方法，涉及打字机及汉字资料检索系统。
    现有的计算机汉字输入方法，根据其应用的汉字属性，可分为：音码、形码、和音形码三大类。其中音码的重码率很高，操作人员必须熟悉汉字拼音。形码有笔画码和笔形码2种。笔画码须认真计较每个字的笔画特征，不易掌握。笔形码以五笔字型为代表，它有130多个字根及其复杂的编组需要强记，字形拆分及“交叉识别”过程都较麻烦，操作人员必须经过严格培训。音形码既需拼音也要字形拆分，也不易高速输入。总之，现有的输入方法取码位置都没有严格顺应汉字的信息重心，每个笔形都只能一次取码，没有直接利用其潜在的识别功能。所以普遍存在记忆量大，识码困难，适应范围不广等缺点。

    本发明的目的在于提出一种识码直观，取码形象，无须拼音，记忆量小，字形拆分少，具有自动识别的功能，重码率低，简单易学的计算机汉字模糊码输入方法。

    本发明的目的是这样实现的：对计算机的26个英文字符键赋予模糊码形定义诀，使其成为定义码。定义码将300多种汉字组字单元重新组合，建立起一套包含有汉字基本笔画、基本笔形和藏有暗码的伸缩笔形的模糊码形表，再根据模糊码形表，对每个汉字的起笔、部件的重心和收笔等部位，依次分别取码，每个汉字或词取1-4码作为计算机的输入编码。同时建立相应的取码规则。

    26个英文字符键的模糊码形定义诀为：一王A，双口B，开口C，双斜D，三爪E，木干F，勾点G，双直H，单直I，撇捺J，走衣K，单折L，竹筐M，双折N，小口O，耳朵P，大口Q，单人R，鸟马S，十土T、穿口U，点点V，乱串W，交叉X，挑牛Y，扭丝Z。

    300多种组字单元（即通常的笔画、笔形、部首、“字根”等），按照“形义双关、模糊相似，直观形象、繁简互通”的要求，依循模糊码形定义诀重新组合，编成了包含汉字基本笔画、基本笔形和藏有暗码的伸缩笔形地模糊码形表。

    根据模糊码形表和在汉字的起笔、部件的重心和收笔等部位依次分别取码的规则，对每个汉字或词取1-4码作为计算机输入相应汉字或词的编码。

    下面我们将结合本发明方法的几个应用例，对本发明的方法作进一步说明。图1是模糊码形表，图2是伸缩笔形暗码表，图3是合体字的取码位置图解。

    模糊码形是根据“形义双关，模糊相似，直观形象，繁简互通”的原则而创立的。如：

    而模糊码形表，正是依循模糊码形定义诀将300多个汉字组字单元重新组合，最后归位于26个英文字符键的汇总表。

    伸缩笔形是一种藏有暗码的码形，具有灵活性，伸缩性和自动识别功能。如：王、目、罒、口、日等。按照本发明建立的取码规则，伸缩笔形可以连续两次用定义码进行取码。

    伸缩笔形按其使用部位，分为首码伸缩笔形和尾码伸缩笔形两种。首码伸缩笔形如：口、日、山、罒;尾码伸缩笔形如：王、目、女等。

    伸缩笔形的取码规则是：在取码过程中，同基本笔画、基本笔形一样它所包含的全部笔画仅作一次取码，一般不作字形拆分。但遇有下述特殊情况，可连续两次用定义码进行取码：

    （1）首码伸缩笔形单独位于上下型字的最上方部位时，首先取其定义码，紧接着以其公共暗码2作第2码。然后按正常情况继续取码。如：

    OZCR    BZYA    QZTB

    员  口(Z)∏人    星  日(Z)牛一    署  罒(Z)土日

    这样就将它们与呗（OCR）甠（BYA）睹（QTJB）等汉字自动识别开来。

    （2）尾码伸缩笔形位于汉字的收笔部位或最后取码的位置，且全字少于4码时，除了取一次定义码外，还应拆出其暗码作尾码，如

    尾码伸缩笔形的暗码是这样确定的：暗码笔形对于基本笔形是附加笔画，或者是另一种定义码形，或者是具有显著特征的笔画。首码伸缩笔形的暗码则一律规定为“Z”。下面例举几个尾码伸缩笔形的暗码确定依据。

    这样的暗码无需强记，顺势拆出，见形拆暗码，十分直观。

    重心部位取码。

    汉字及其部件的右上半部笔画密集，信息丰富，是其重心部位。如：

    全字的重心

    本发明所述的汉字的部件，是指汉字中彼此有明显的界限或间隔、可以用方框简单地划分开来的构成部分。由部件合成的字，称合体字，其余称独体字。本发明将合体字归纳成左右型

    五种基本构型。兼有2种以上基本构型的，称复合式。

    本发明建立了以下取码规则。

    （1）取码方法：一般规定，起笔部位取首码，部件的重心部位取中码，收笔部位取尾码，每个字或词取1-4码。沿先左后右，先上后下，先外后内的方向依次取码。在一组编码中，中码即首码与尾码之间的代码，一般是第2、第3码。当一个字的码形（包括应拆的暗码）少于4码时，有几码就取几码。如：

    GR    CAK    JTUT    IV

    认讠人定宀一重丿十中土心心(丶)

    （2）取码位置

    a.独体字。从上到下，从外到内顺序取码。如：

    TNV    XV    AY

    专土ㄣ丶叉又丶五一

    CM    MC    HR

    凸ㄇ凹ㄩ天工人

    b.伸缩笔形单独成字的编码：先取其定义码，再取其暗码，即为该字的编码。首码伸缩笔形单独成字时，即以其定义码作编码。如

    YT    DC    QH

    午  午(+)    月  月(ㄇ)    目  目(二)

    XI    BN    O

    也  也(丨)    巴  巴(乚)    口  口

    B    BI

    日  日    山  山(丨)

    c.合体字，即按起笔部位取首码，部件的重心部位取中码，收笔部位取尾码的规定取码。规律是，中码要尽量靠上，靠右。由两种以上基本构型组成的复合式合体字，只要先取其首码，剩余部分即呈现基本构型。如：

    （3）取码规则。

    a.一个代码所取的码形包含的笔划越多、笔形越大越好。拆分时，也应尽可能拆出较大的笔形。同时，应注意直观自然，保持下一码的完整。拆得好，码数少，是基本要点。如：

    RW    RTT

    佳  亻圭    不拆作  亻土土

    AKA    TAIA

    正一止(一) 不拆作一丨一因为"止"是一完整的伸缩笔形

    TEF    TATJ

    来  十木    不拆作  十丷十八

    b.伸缩笔形的使用。

    首码伸缩笔形单独位于上下型字的最上方部位时，首先取其定义码，紧接着以其暗码作第二码，然后按正常情况取码。如：

    BZAX    OZO

    最  日(Z)一又    吕  口(Z)口

    “山”是兼有首尾码伸缩的笔形。其独立成字的编码按尾码伸缩处理，即BI。

    尾码伸缩笔形位于收笔部位或最后取码的位置，且全字少于4码时，除了取一次定义码，还应拆出其暗码作尾码。如：

    XSN    ELA    SESC

    鸡  又鸟(ㄣ)    浅  氵戋(一)    粥  弓弓(コ)

    c.联叠笔形可以逐个连取。但如果联叠的单元系由两个以上笔形组成的，则只需对其中一个单元进行拆分，接笔顺取用所需码数。如：

    d.当收笔是个点画，且落在字（或部件）的右上方时，这个点画不被当作收笔，而被当作此字（或部件）的起笔（或第一笔）。在这种情况下，应在次收笔部位取尾码。如：

    VXJ    RVXJ    EVTT

    犬  丶丶    伏  亻丶丶    浦  丶十十

    E.笔画可以分段使用。如：

    TUC    FTI

    事十中本木十(丨)

    e.露头的笔形先取码。如：内，肉，弗。

    RC    RCR    HS

    内人ㄇ肉人ㄇ人弗弓

    （4）词汇输入法。

    词汇输入一律只取单字的首码及第2码。

    a.二字词：每个字各取其首码和第2码，共4码，组成编码。单字只有一码的，该字就只取1码。如：

    汉字    EXCZ    小心    EIV

    （EXL    CZA）    （E    IV）

    b.三字词：每字各取一首码，再加第3字的第2码，共4码，组成编码。第3字只有一码的，该字就取1码。如：

    哈尔滨    ONEC    星期日    BHB

    （ORAO    NE    ECJV）（BZYA    HAVD    B）

    c.四字以上的词：第1、2、3字及最末一字各取首码，共4码，组成编码。如：

    中华人民共和国    URRQ

    （UI    RGTI    R    PK    HV    KO    QAV）

    （5）编码规则助记歌决。

    a.《编码方法歌》

    首尾各一码，联叠拆一件，

    中码重心查。尾点不上爬。

    取大拆也大，“伸缩”若需拆，

    “伸缩”优先抓。顺手拉暗码。

    b.《取码位置歌诀》

    [总则]    首码起笔尾收笔，[内外型]    内外型，外当先，中码部件重心取。内有通式从头取。

    [左右型]    左右分，各2码，[三合型]    三合体，各分一，两边互相可调剂    中码紧挨右上区。

    [左中右型]    左中右，头顶取，[复合式]    复合式，有规律右部一码也可以。取了首码见通式。

    [上下型]    上下型，往上挤，[独体字]    独体连续顺序取，中间并列靠右取。[笔形字]    笔形成字暗码记。

    本发明具有以下优点：

    （1）符合视觉规律和心理习惯，便于准确迅速输入。汉字计算机键盘输入的准确性及速度取决于操作人员的手眼配合。首先是“眼”，如何让汉字信息迅速“入眼”，不假思索地转换给手指，这是设计汉字编码方案必须重视的关键问题。汉字中左形右声或上形下声结构共占90%以上，其中表声的形式是间接的，归根结底是象形字，要以形为本。人们的视觉规律要求识别对象必须形象、直观显眼。就是说，取码要形象，容易被识别，识码要直观，避免拆分、分析等信息加工，取码位置要显眼。常言道“有边读边，无边读上下”恰恰揭示了人们的视觉规律。本发明建立的模糊码形表及取码规则，特别是在部件的重心部位取中码，符合视觉规律，尤其适合词组输入。

    在快速输入过程中，人们承受的心理压力比较大。如果要求操作人员仔细辨认笔画，势必增加劳动强度，加速产生疲劳感。本发明利用了人们模糊意识的作用，顺应了这一心理规律。在码型设计中运用模糊规律解除了强记负担。例如：

    这样的设计使人过目不忘，识码轻松，可大大减轻操作人员的心理压力。

    （2）字形拆分率低。本发明与迄今为止各种形码方案的不同之处，在于“改拆为砍。”把整个字形“砍”下来，而不象通常（如五笔字型）那样把所需笔画（或字根）“拆”出来。模糊码形的设计，又能使取码时左右逢源，见形即有代码，无需大动刀斧。如：

    相似的笔形以各种形态出现时，都有合适的代码可用，从而大大减少了拆分机会。如：

    此外，在重心部位取码，也有助于减少拆分。

    （3）伸缩笔形具有自动识别功能，充分挖掘了汉字字形的信息潜力。不必象五笔字型那样，为了迁就若干汉字的重码问题而设计一套复杂的“交叉识别”操作及规则，把大量汉字拖进了“交叉识别”的漩涡，加重了操作者的劳动强度和工作量。所以能大大提高识码速度。

    （4）笔形设计合理。有一套可灵活识码，运用自如的笔形。如：

    运用这种设计不仅仅具有自识别功能，还能自动适应字形左右上下变化，十分简便，减少繁杂的拆分：

    SN    XSN    SCG    SBI

    鸟鸟(ㄣ) 鸡又鸟() 鸵鸟宀七岛山(丨)

    （5）重码率低。重码率是汉字编码方案的重要质量指标，是影响输入速度及输入质量的重要因素。比较理想的结果应该是：常用字与常用字不重码，贬义字与褒义字不重码。本发明在设计中注意到了这一问题。对GB2312-80规定的汉字编码的重码率为2%。这主要是本发明赋予代码定义诀时，精心铺排使首码分散度很高，即26个英文字符各自覆盖的字数相当，大部分“同旁不同部首”的汉字（如：奴权汉等）能被首码离散，从根本上减少重码。伸缩笔形又使若干“同笔形不同构型”的汉字（如：呗、员;叻、另;睹署等）自动识别离散。合理的笔形设计和简明的规则，重心部位取码，等技术措施科学有效地降低了重码率。

    重码率＝ (重码字数（对）)/6763 ×100%

    （6）码长适中，容量大，繁简异体字和词组兼容。本发明理论容量为475254个汉字符。单字编码平均码长3.6码，词组输入平均字码长1.4码。设计时已考虑了繁体、异体字和词汇的兼容性。

    （7）记忆量小，适用范围广。

    由于码形易记，规则简单，从根本上解除了操作人员的强记负担。由于“改拆为砍”，识码直观，取码形象，不必拼音，不强调笔顺或逐笔计较笔画，不必交叉识别，很少拆分。所以认识汉字不多和不识拼音的人也可掌握。就是说，可适应不同专业，不同方音，不同国家、地区，不同年龄层次的人员运用。一般几十分钟就能学会，稍作练习便可掌握;无须进行严格培训。

    本发明的方法是一种简单、易学、好记、快速、科学的通用型计算机汉字输入方法，特别适合词组输入。