计算机汉字模糊码输入方法.pdf

上传人:n****g 文档编号:713417 上传时间:2018-03-07 格式:PDF 页数:22 大小:691.22KB
返回 下载 相关 举报
摘要
申请专利号:

CN92103668.X

申请日:

1992.05.11

公开号:

CN1078562A

公开日:

1993.11.17

当前法律状态:

撤回

有效性:

无权

法律详情:

|||公开

IPC分类号:

G06F3/023

主分类号:

G06F3/023

申请人:

王希曾;

发明人:

王希曾

地址:

363600福建省南靖县山城镇溪边新村1-303

优先权:

专利代理机构:

厦门市专利代理事务所

代理人:

车世伟

PDF下载: PDF下载
内容摘要

模糊码是一种计算机汉字输入方法,涉及打字机及汉字资料检索系统。它对计算机的26个英文字符键赋予模糊码形定义诀,使其成为定义码。建立起一套模糊码形表,使用了一种具有自动识别功能的伸缩笔形。在汉字的起笔、部件的重心及收笔部位依次取1—4码。规则简单,无需强记。极少字形拆分,不必“交叉识别”,重码率很低。繁、简、异体字及词汇兼容。适宜不识拼音,认识汉字不多、不同方音、不同专业和年龄层次的人士使用。

权利要求书

1: 一种计算机汉字编码输入方法,其特征是在计算机的26个英文字符键上分别赋予模糊码形定义诀,使其成为定义码,定义码将300多种汉字组字单元重新组合,编成包含汉字基本笔画、基本笔形和藏有暗码的伸缩笔形的模糊码形表,并根据模糊码形表,在汉字的起笔、部件的重心和收笔部位依次分别取码,每个汉字或词取1-4码作为计算机的输入编码。
2: 根据权利要求1所述的编码输入方法,其特征是:26个英文字符键的模糊码形定义诀为:一王A,双口B,开口C,双斜D,三爪E,木干F,勾点G,双直H,单直I,撇捺J,走衣K,单折L,竹筐M,双折N,小口O,耳朵P,大口Q,单人R,鸟马S,十士T,穿口U,点点V,乱串W,交叉X,挑牛Y,扭丝Z。
3: 根据权利要求1所述的编码输入方法,其特征是:使用了一种可以连续两次用定义码进行取码的伸缩笔形。
4: 根据权利要求1所述的编码输入方法,其特征是:汉字部件的重心部位即为汉字部件的右上半部。

说明书


一种计算机汉字输入方法,特别是采用模糊码形为编码的计算机汉字输入方法,涉及打字机及汉字资料检索系统。

    现有的计算机汉字输入方法,根据其应用的汉字属性,可分为:音码、形码、和音形码三大类。其中音码的重码率很高,操作人员必须熟悉汉字拼音。形码有笔画码和笔形码2种。笔画码须认真计较每个字的笔画特征,不易掌握。笔形码以五笔字型为代表,它有130多个字根及其复杂的编组需要强记,字形拆分及“交叉识别”过程都较麻烦,操作人员必须经过严格培训。音形码既需拼音也要字形拆分,也不易高速输入。总之,现有的输入方法取码位置都没有严格顺应汉字的信息重心,每个笔形都只能一次取码,没有直接利用其潜在的识别功能。所以普遍存在记忆量大,识码困难,适应范围不广等缺点。

    本发明的目的在于提出一种识码直观,取码形象,无须拼音,记忆量小,字形拆分少,具有自动识别的功能,重码率低,简单易学的计算机汉字模糊码输入方法。

    本发明的目的是这样实现的:对计算机的26个英文字符键赋予模糊码形定义诀,使其成为定义码。定义码将300多种汉字组字单元重新组合,建立起一套包含有汉字基本笔画、基本笔形和藏有暗码的伸缩笔形的模糊码形表,再根据模糊码形表,对每个汉字的起笔、部件的重心和收笔等部位,依次分别取码,每个汉字或词取1-4码作为计算机的输入编码。同时建立相应的取码规则。

    26个英文字符键的模糊码形定义诀为:一王A,双口B,开口C,双斜D,三爪E,木干F,勾点G,双直H,单直I,撇捺J,走衣K,单折L,竹筐M,双折N,小口O,耳朵P,大口Q,单人R,鸟马S,十土T、穿口U,点点V,乱串W,交叉X,挑牛Y,扭丝Z。

    300多种组字单元(即通常的笔画、笔形、部首、“字根”等),按照“形义双关、模糊相似,直观形象、繁简互通”的要求,依循模糊码形定义诀重新组合,编成了包含汉字基本笔画、基本笔形和藏有暗码的伸缩笔形地模糊码形表。

    根据模糊码形表和在汉字的起笔、部件的重心和收笔等部位依次分别取码的规则,对每个汉字或词取1-4码作为计算机输入相应汉字或词的编码。

    下面我们将结合本发明方法的几个应用例,对本发明的方法作进一步说明。图1是模糊码形表,图2是伸缩笔形暗码表,图3是合体字的取码位置图解。

    模糊码形是根据“形义双关,模糊相似,直观形象,繁简互通”的原则而创立的。如:

    而模糊码形表,正是依循模糊码形定义诀将300多个汉字组字单元重新组合,最后归位于26个英文字符键的汇总表。

    伸缩笔形是一种藏有暗码的码形,具有灵活性,伸缩性和自动识别功能。如:王、目、罒、口、日等。按照本发明建立的取码规则,伸缩笔形可以连续两次用定义码进行取码。

    伸缩笔形按其使用部位,分为首码伸缩笔形和尾码伸缩笔形两种。首码伸缩笔形如:口、日、山、罒;尾码伸缩笔形如:王、目、女等。

    伸缩笔形的取码规则是:在取码过程中,同基本笔画、基本笔形一样它所包含的全部笔画仅作一次取码,一般不作字形拆分。但遇有下述特殊情况,可连续两次用定义码进行取码:

    (1)首码伸缩笔形单独位于上下型字的最上方部位时,首先取其定义码,紧接着以其公共暗码2作第2码。然后按正常情况继续取码。如:

    OZCR    BZYA    QZTB

    员  口(Z)∏人    星  日(Z)牛一    署  罒(Z)土日

    这样就将它们与呗(OCR)甠(BYA)睹(QTJB)等汉字自动识别开来。

    (2)尾码伸缩笔形位于汉字的收笔部位或最后取码的位置,且全字少于4码时,除了取一次定义码外,还应拆出其暗码作尾码,如

    尾码伸缩笔形的暗码是这样确定的:暗码笔形对于基本笔形是附加笔画,或者是另一种定义码形,或者是具有显著特征的笔画。首码伸缩笔形的暗码则一律规定为“Z”。下面例举几个尾码伸缩笔形的暗码确定依据。

    这样的暗码无需强记,顺势拆出,见形拆暗码,十分直观。

    重心部位取码。

    汉字及其部件的右上半部笔画密集,信息丰富,是其重心部位。如:

    全字的重心

    本发明所述的汉字的部件,是指汉字中彼此有明显的界限或间隔、可以用方框简单地划分开来的构成部分。由部件合成的字,称合体字,其余称独体字。本发明将合体字归纳成左右型

    五种基本构型。兼有2种以上基本构型的,称复合式。

    本发明建立了以下取码规则。

    (1)取码方法:一般规定,起笔部位取首码,部件的重心部位取中码,收笔部位取尾码,每个字或词取1-4码。沿先左后右,先上后下,先外后内的方向依次取码。在一组编码中,中码即首码与尾码之间的代码,一般是第2、第3码。当一个字的码形(包括应拆的暗码)少于4码时,有几码就取几码。如:

    GR    CAK    JTUT    IV

    认 讠人 定 宀一重 丿十中土 心 心(丶)

    (2)取码位置

    a.独体字。从上到下,从外到内顺序取码。如:

    TNV    XV    AY

    专 土ㄣ丶 叉 又丶 五 一

    CM    MC    HR

    凸 ㄇ凹ㄩ 天 工人

    b.伸缩笔形单独成字的编码:先取其定义码,再取其暗码,即为该字的编码。首码伸缩笔形单独成字时,即以其定义码作编码。如

    YT    DC    QH

    午  午(+)    月  月(ㄇ)    目  目(二)

    XI    BN    O

    也  也(丨)    巴  巴(乚)    口  口

    B    BI

    日  日    山  山(丨)

    c.合体字,即按起笔部位取首码,部件的重心部位取中码,收笔部位取尾码的规定取码。规律是,中码要尽量靠上,靠右。由两种以上基本构型组成的复合式合体字,只要先取其首码,剩余部分即呈现基本构型。如:

    (3)取码规则。

    a.一个代码所取的码形包含的笔划越多、笔形越大越好。拆分时,也应尽可能拆出较大的笔形。同时,应注意直观自然,保持下一码的完整。拆得好,码数少,是基本要点。如:

    RW    RTT

    佳  亻圭    不拆作  亻土土

    AKA    TAIA

    正 一止(一) 不拆作一丨一 因为"止"是一完整的伸缩笔形

    TEF    TATJ

    来  十木    不拆作  十丷十八

    b.伸缩笔形的使用。

    首码伸缩笔形单独位于上下型字的最上方部位时,首先取其定义码,紧接着以其暗码作第二码,然后按正常情况取码。如:

    BZAX    OZO

    最  日(Z)一又    吕  口(Z)口

    “山”是兼有首尾码伸缩的笔形。其独立成字的编码按尾码伸缩处理,即BI。

    尾码伸缩笔形位于收笔部位或最后取码的位置,且全字少于4码时,除了取一次定义码,还应拆出其暗码作尾码。如:

    XSN    ELA    SESC

    鸡  又鸟(ㄣ)    浅  氵戋(一)    粥  弓弓(コ)

    c.联叠笔形可以逐个连取。但如果联叠的单元系由两个以上笔形组成的,则只需对其中一个单元进行拆分,接笔顺取用所需码数。如:

    d.当收笔是个点画,且落在字(或部件)的右上方时,这个点画不被当作收笔,而被当作此字(或部件)的起笔(或第一笔)。在这种情况下,应在次收笔部位取尾码。如:

    VXJ    RVXJ    EVTT

    犬  丶丶    伏  亻丶丶    浦  丶十十

    E.笔画可以分段使用。如:

    TUC    FTI

    事 十中本 木十(丨)

    e.露头的笔形先取码。如:内,肉,弗。

    RC    RCR    HS

    内 人ㄇ 肉 人ㄇ人 弗弓

    (4)词汇输入法。

    词汇输入一律只取单字的首码及第2码。

    a.二字词:每个字各取其首码和第2码,共4码,组成编码。单字只有一码的,该字就只取1码。如:

    汉字    EXCZ    小心    EIV

    (EXL    CZA)    (E    IV)

    b.三字词:每字各取一首码,再加第3字的第2码,共4码,组成编码。第3字只有一码的,该字就取1码。如:

    哈尔滨    ONEC    星期日    BHB

    (ORAO    NE    ECJV)(BZYA    HAVD    B)

    c.四字以上的词:第1、2、3字及最末一字各取首码,共4码,组成编码。如:

    中华人民共和国    URRQ

    (UI    RGTI    R    PK    HV    KO    QAV)

    (5)编码规则助记歌决。

    a.《编码方法歌》

    首尾各一码,联叠拆一件,

    中码重心查。尾点不上爬。

    取大拆也大,“伸缩”若需拆,

    “伸缩”优先抓。顺手拉暗码。

    b.《取码位置歌诀》

    [总则]    首码起笔尾收笔,[内外型]    内外型,外当先,中码部件重心取。内有通式从头取。

    [左右型]    左右分,各2码,[三合型]    三合体,各分一,两边互相可调剂    中码紧挨右上区。

    [左中右型]    左中右,头顶取,[复合式]    复合式,有规律右部一码也可以。取了首码见通式。

    [上下型]    上下型,往上挤,[独体字]    独体连续顺序取,中间并列靠右取。[笔形字]    笔形成字暗码记。

    本发明具有以下优点:

    (1)符合视觉规律和心理习惯,便于准确迅速输入。汉字计算机键盘输入的准确性及速度取决于操作人员的手眼配合。首先是“眼”,如何让汉字信息迅速“入眼”,不假思索地转换给手指,这是设计汉字编码方案必须重视的关键问题。汉字中左形右声或上形下声结构共占90%以上,其中表声的形式是间接的,归根结底是象形字,要以形为本。人们的视觉规律要求识别对象必须形象、直观显眼。就是说,取码要形象,容易被识别,识码要直观,避免拆分、分析等信息加工,取码位置要显眼。常言道“有边读边,无边读上下”恰恰揭示了人们的视觉规律。本发明建立的模糊码形表及取码规则,特别是在部件的重心部位取中码,符合视觉规律,尤其适合词组输入。

    在快速输入过程中,人们承受的心理压力比较大。如果要求操作人员仔细辨认笔画,势必增加劳动强度,加速产生疲劳感。本发明利用了人们模糊意识的作用,顺应了这一心理规律。在码型设计中运用模糊规律解除了强记负担。例如:

    这样的设计使人过目不忘,识码轻松,可大大减轻操作人员的心理压力。

    (2)字形拆分率低。本发明与迄今为止各种形码方案的不同之处,在于“改拆为砍。”把整个字形“砍”下来,而不象通常(如五笔字型)那样把所需笔画(或字根)“拆”出来。模糊码形的设计,又能使取码时左右逢源,见形即有代码,无需大动刀斧。如:

    相似的笔形以各种形态出现时,都有合适的代码可用,从而大大减少了拆分机会。如:

    此外,在重心部位取码,也有助于减少拆分。

    (3)伸缩笔形具有自动识别功能,充分挖掘了汉字字形的信息潜力。不必象五笔字型那样,为了迁就若干汉字的重码问题而设计一套复杂的“交叉识别”操作及规则,把大量汉字拖进了“交叉识别”的漩涡,加重了操作者的劳动强度和工作量。所以能大大提高识码速度。

    (4)笔形设计合理。有一套可灵活识码,运用自如的笔形。如:

    运用这种设计不仅仅具有自识别功能,还能自动适应字形左右上下变化,十分简便,减少繁杂的拆分:

    SN    XSN    SCG    SBI

    鸟 鸟(ㄣ) 鸡 又鸟() 鸵 鸟宀七 岛山(丨)

    (5)重码率低。重码率是汉字编码方案的重要质量指标,是影响输入速度及输入质量的重要因素。比较理想的结果应该是:常用字与常用字不重码,贬义字与褒义字不重码。本发明在设计中注意到了这一问题。对GB2312-80规定的汉字编码的重码率为2%。这主要是本发明赋予代码定义诀时,精心铺排使首码分散度很高,即26个英文字符各自覆盖的字数相当,大部分“同旁不同部首”的汉字(如:奴权汉等)能被首码离散,从根本上减少重码。伸缩笔形又使若干“同笔形不同构型”的汉字(如:呗、员;叻、另;睹署等)自动识别离散。合理的笔形设计和简明的规则,重心部位取码,等技术措施科学有效地降低了重码率。

    重码率= (重码字数(对))/6763 ×100%

    (6)码长适中,容量大,繁简异体字和词组兼容。本发明理论容量为475254个汉字符。单字编码平均码长3.6码,词组输入平均字码长1.4码。设计时已考虑了繁体、异体字和词汇的兼容性。

    (7)记忆量小,适用范围广。

    由于码形易记,规则简单,从根本上解除了操作人员的强记负担。由于“改拆为砍”,识码直观,取码形象,不必拼音,不强调笔顺或逐笔计较笔画,不必交叉识别,很少拆分。所以认识汉字不多和不识拼音的人也可掌握。就是说,可适应不同专业,不同方音,不同国家、地区,不同年龄层次的人员运用。一般几十分钟就能学会,稍作练习便可掌握;无须进行严格培训。

    本发明的方法是一种简单、易学、好记、快速、科学的通用型计算机汉字输入方法,特别适合词组输入。

计算机汉字模糊码输入方法.pdf_第1页
第1页 / 共22页
计算机汉字模糊码输入方法.pdf_第2页
第2页 / 共22页
计算机汉字模糊码输入方法.pdf_第3页
第3页 / 共22页
点击查看更多>>
资源描述

《计算机汉字模糊码输入方法.pdf》由会员分享,可在线阅读,更多相关《计算机汉字模糊码输入方法.pdf(22页珍藏版)》请在专利查询网上搜索。

模糊码是一种计算机汉字输入方法,涉及打字机及汉字资料检索系统。它对计算机的26个英文字符键赋予模糊码形定义诀,使其成为定义码。建立起一套模糊码形表,使用了一种具有自动识别功能的伸缩笔形。在汉字的起笔、部件的重心及收笔部位依次取14码。规则简单,无需强记。极少字形拆分,不必“交叉识别”,重码率很低。繁、简、异体字及词汇兼容。适宜不识拼音,认识汉字不多、不同方音、不同专业和年龄层次的人士使用。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1