快速中文编码输入法.pdf

上传人:n****g 文档编号:656555 上传时间:2018-03-02 格式:PDF 页数:9 大小:366.62KB
返回 下载 相关 举报
摘要
申请专利号:

CN91108136.4

申请日:

1991.08.14

公开号:

CN1061858A

公开日:

1992.06.10

当前法律状态:

驳回

有效性:

无权

法律详情:

||||||公开

IPC分类号:

G06F3/023

主分类号:

G06F3/023

申请人:

黄河清;

发明人:

黄河清

地址:

210016江苏省南京市清溪路4号3-88

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明公开了一种快速中文编码输入法。它以现有的输入法(拼音码输入最佳)为基础,对双音节词和多音节词采用原输入码为输入码;其特征在于对中文句子中单音节词的原输入码之后加一词性识别码,连同原输入码一起作为新输入码。这样它能提供一种适用范围广、易学、可靠性高、可连续快速输入的中文输入法。此方法的广泛推广应用,必将大大提高办公室工作效率,为借助微机进行中文信息处理、编辑写作等打开广阔的应用之路。

权利要求书

1: 一种中文编码输入方案,它以现有的输入法为基础:对双音节词和多音节词采用原输入码为输入码;其特征在于对中文句子中单音节词的原输入码之后加一词性识别码,连同原输入码一起作为新输入码。
2: 根据权利要求1所述的方案,其特征在于分别以1、2、
3: 6作为中文句子中单音节的动词、形容词及副词、代词、数量词、虚词(介词、连词、助词及叹词);名词的词性识别码。 3、根据权利要求1或2所述的方案,其特征为对中文句子中,出现频率极高的如下14个常用单音节词: 不、从、的、个、和、及、了、其、是、同、为、下、又、在、分别以其拼音的头字母为其输入码。 4、根据权利要求1或2或3所述的方案,其特征为它要求实现此方案的软件最好在遇到单音节词词性识别码或标点符号时,即自动对前面所有的输入码进行汉字变换;变换时,以带词性识别码的最优先变换,其次为字词库中含有字词的输入码较长的优先变换;变换后,按从前至后的顺序,对有重码的字词可依次进行选择确认。

说明书


本发明属于一种中文编码输入方法。现有的中文编码输入方案尽管有几百种,从根本上看可大致分为两种(常用汉字编码字典,宇航出版社,1990年1月第一版,pp1121-1190);音码输入(全拼音输入、简化拼音输入等)及形码输入(五笔字形输入、五笔画输入等)。还有一些为声形结合的输入法。

    无论那种输入法都存在着较大的缺陷。首先看音码输入,因同音字很多,对同一发音来说,有十几、几十个汉字是常有的事,从这么多的同音字中选出所需的字是一件费时、费力的事,大大影响了输入速度。

    关于形码输入,存在一个致命的缺陷,那就是它不符合人们正常的思维习惯,不适合于边思考边输入(想打)或边听边输入(听打)。平常我们思考或说话时,都是平凭字音来进行的,若输入时要考虑字形的话,看打即看着文稿打还凑合;听打、想打的话势必要影响人们正常的思维,影响输入速度,并且字形码一般都需将字分解为字根,字根的划分存在着相当的不确定性,其学习记忆也是一件困难的事。

    无论是现在的音码输入,还是形码输入,都存在一个很大的、共同的缺陷,那就是只考虑了字词的编码输入,而未考虑输入的根本目地是句子构成的文章;输入一个字或词就需确认一下,再进行下一个字或词的输入,致使输入效率较差。这实际上是由中文的下述两个特点所客观限制的:

    1.同音字多。

    2.单字的很强的灵活组词能力。

    同音字多使我们不得不选择确认,单字的很强的灵活组词能力使我们不能连续流畅地输入中文。不然的话,输入码间混乱地自由组合,变换出的字词很可能就根本不是我们所希望的。比如说输入“大家听音乐”的如下全拼音输入码:

    dajiatingyinyue

    不选择确认的话,变换出来的可能就是“打家庭隐约”,真可以说是牛头不对马嘴了。

    本发明的目的就是要最大限度地解决上述已有编码输入方案缺陷,提供一种适用范围广的、易学的、重码率少的、可靠性高的、可连续快速输入的中文输入法。为实现上述目的,本发明最好以符合人们思维习惯的拼音输入法为基础,尽管中文单字的同音字极多,但同音的双音节词、多音节词并不多,一般不过几个,绝大多数为一词一音;所以对双音节词、多音节词以现有的原输入码输入并不存在大的问题。其他输入法也同样。

    问题的关键在于中文句子中的单音节词。汉字属性包括四方面:字形、字音、字义及字频。字形、字音前面已经分析过了,下面要考虑的无非就是字义及字频。考查一下中文句子的特点,可清楚地看出:出现频率极高的正是一些单音节的助词(的、地、得、了...)、介词、连词(从、同、和、就、为...)及一些动词、副词(是、有、最、很...)等,几乎每一行中文里至少要出现好几个、其使用频率大大高于其它汉字。如果使这些字一字一码的话,或最起码做到减少重码率的话,即可大大提高输入准确度及输入速度。

    很自然地想到对这些单音节词加一词性区别码至原输入码上作为新的输入码。虚词中的介词、连词中有不少是重复的,和助词、介词加在一起数量也不多,给以一个词性区别码;形容词、副词都是起修饰作用的,又经常连用,也给以一个词性区别码;其它代词、数量词、名词、动词也各给一个词性区别码。这样共需六个词性区别码,因26个字母通常被用作一般输入码,为避免混淆,同时考虑输入的简便性选择1-6这六个数字作为词性区别码。左手拇指以外的4个手指可方便地打这六个数字。词性区别码若太多的话,对记忆和使用会带来不便。此外,这六个词性区别码的次序并不是任意定下的,比如说,使用频率相对较高的虚词词性区别码为5,考虑了左手食指可方便地打阿拉伯数字5。

    为进一步提高输入速度,根据对输入经验的总结并参照“汉字频度统计”(电子工业出版社,1988年4月第一版)一书,提出了权利要求3所述的字频极高的14个如下构成中文句子的常用单音节词:

    不、从、的、个、和、及、了、其、是、同、为、下、又、在

    它们大都是各自声母所包含的字中字频最高的常用单音节词,有的考虑到重音同码的问题,未选择字频最高的,而选择了字频较次但有重码的,比如说,以声母“j”开头的字中,“就”的字频最高,但因“及”的同音虚词单音节词多(即、既),固选择了“及”;同样地以“y”为声母的字中,“一、有”的字频高,但考虑到“又、由”同音,固选择了“又”,这样就进一步提高了一字一码率。分别以其拼音的头字母为输入码,一输入码一字,易记又易用。26个字母中还有其他字母未定义字,可让使用者根据自己的用字特点定义自己认为是必要的字,使软件具有灵活性。对这14个单音节词就可以不再加词性区别码了,一来如前述可减少重码率,二来可以强迫使用者尽快记住并使用这些字的最快输入方法。

    给中文句子中的单音节词加一词性区别码,具有一箭双雕的双重重要作用:

    第一,它极大地解决了中文单字拼音重码多的问题,出现频率高的常用代词、助词、介词、连词、形容词及副词的单音节词基本上达到了一字一码;尽管名词和动词还有一定的重码,数量也大大减少了,一般不过几个。使原输入速度慢的拼音输入的速度可超过形码输入的速度,为符合人们思维习惯的拼音输入的广泛应用开辟了道路。

    第二,它为我们带来了中文可以象英语等拼音文字一样可连续输入的可能,一改传统的必须一字一词地确认之后方可再输入的慢速输入方法。因为一字一码率的提高,重码率的大大降低,以及带词性区别码的单音节词在句子中自然划分音节的作用,可极大地防止前面所谈的因汉字组词的灵活性所带来的乱变字词的现象,完全可以让软件去控制输入码实行自由变换。

    即如权利要求4所述,将软件设计成在遇到单音节词词性识别码或标点符号时,即自动对前面的所有输入码进行自由变换;变换时,以带词性识别码的最优先变换,其次为字词库中含有的相连较长的输入码优先变换;变换后,按从前至后的顺序,对有重码的字词可依次进行选择确认;若一次变换全部正确无须选择确认的话(很多情形都是这样),继续进行下文的输入,前面的字词即自动进入确定的状态。同时将软件设计成可以按光标键至词节正确划分处或需修改处进行修改后,再按空格键使其重新变换,以防在个别的字词相连处有词节判断错误(尽管这种情况很少出现)或输入错误。

    下面综合地谈一下本发明的优点及积极效果:

    1.广泛的适用性。不仅可以用于音码输入,也可用于形码输入。特别是将之应用于拼音输入上,有关拼音输入的一切简化方案(如CC-DOS的以h代替ang等)均适用,符合人们的思维习惯,有利于快速输入。

    2.简单易学,容易掌握。尽管对单音节词加了词性识别码,但划分简单,具小学水平的话,几分钟即可学会。

    3.重码率低,可靠性高,出现频率高的介词、连词、助词或代词等的单音节词都几乎达到了一字一码。

    4.可连续输入,输入速度快,有利于想打和听打,具极大的实用价值。此方法的广泛推广应用,必将大大提高办公室工作效率,为借助微机进行中文信息处理、编辑写作等打开广阔的应用之路。

    本方案简单易行易学易用,正应了一句老话:最好的方法也是最简单的方法。因形码不符合人们的思维习惯,再次强调最好将此法用于音码输入。本发明的一大贡献我想正在于使音码输入的优点超过了形码输入。下面仅谈谈应用于音码输入的细节,形码输入可方便地类推。

    1.在字词库内存入以音码为输入码的所有汉字,确保所有的汉字都可以音码查到。

    2.在字词库内存入以音码为输入码的常用双音节词及三音节词。不仅包括一般意义上的词,也包括一些常连用在一起的起重要句法作用的常用高频字的组合,如:对于,不是、不但、而且、没有、这样、那样、一个、一种、不得不、不能不等等;这样就可不必每个字都要加一词性码地输入,影响输入速度。只在这些字在句中单独作为词使用时,才加词性码输入。

    3.在字词库内存入以各字拼音的头字母为输入码的四字成语及权利要求3所列的14个常用单音节词;以头三字及后2字的拼音头字母为输入码的五字及五字以上的常用词或词组。

    4.在字词库内存入如下带词性区别码为输入码的各类单音节词。选字时参照了“汉字频度统计”(电子工业出版社,1988年4月第一版)一书,大都从占出版及日常用字98。074%的字频在前2千以内的一、二、三级及四级字的前五百中选出,可以说日常使用时基本上够用了,但不包括全部。我想这样来理解比较好:这里提供了一些选字时的思考方法,一些例子,不同的人、不同的专业领域会有不同的用字特点,按这里提供的方法登录上必要的字,越使用越熟练,就会有如鱼得水的感觉了。

    选词时注意一条重要的选择标准,那就是一定要选中文句子中的单音节词。古汉语中常用汉字单音节词,然而至现代,双音节词及多音节词的使用增多,如名词的“虎”在古代一般单用,现代多以“老虎”的形式出现,这种单音节词是可以考虑不给词性区别码的,以常用单音节词优先,如“家、水、刀”等,再看以下动词的“吃、跳、跑”等在句中常单独作谓语,固动词中它们被选为给以词性区别码。动词“签”很少单独作谓语,一般常以“签名、签署、签发”等双音节词的形式出现,就可以不选,而只将这些双音节词及多音节词登录进词库中就可以了,以减少不必要的重码增多。现代汉语用双音节词及多音节词的增多,常用单音节词的减少,也为此方法的应用带来了可能和方便。

    选名词时注意把一些构词性很强的词选上,如“局(公安局、人事局、税务局、专利局...)、省、市、性(新颖性、创造性、重要性...)等,就可不必将括号里的词都登录至词库中以减少词库容量,又可快速准确地输入。

    动词(1)

    爱按熬

    变比办搬包抱帮被背编补败把拔辩逼

    产传采除查擦插测称吃沉催拆闯凑尝缠超抄炒

    动到度斗当带打断顶定读滴掉吊捣

    发放翻飞附缝逢赴扶

    过干关改管给搞跟盖灌敢挂顾刮会活害含划换喝获混画喊慌恨

    进加经解建教叫浇交讲卷夹揭剪寄揭借接

    开看考刻靠扣哭肯

    来量邻流拉练留累漏录

    磨摸骂卖买忙鸣

    弄闹捏

    判配派喷凭评怕跑扑飘披劈盼

    起去气切取求圈缺请欠牵劝

    任让溶染

    生说思数属胜收升死塞送杀烧守扫算拾撕使

    提推谈听投突退拖托痛跳吞偷掏

    问围望挖挽玩吻

    学削行想修选吸笑洗姓象需

    用要育压引养移游演迎愿摇咬饮仰晕

    种长争治制选做整抓走装占战找扎坐摘住祝作增遮奏醉追赚掷占

    形容词、副词(2)

    大小高低深浅强弱多少快慢长短粗细好坏早晚美丑胖瘦精贫富远近冷热紧松生熟敢干湿厚薄真假老少古新旧正负平奇先后轻重斜宽窄浓淡方圆红黄兰绿青白紫黑贵

    正已才将就又再还也非很更太极最顶越都只光净必准倒偏颇却挺无不较

    代词(3)

    我你它他她您这那哪每各某等谁几多者们

    数量词(4)

    一二三四五六七八九十百千万亿零兆第初安倍班半本部版把场尺次寸层车度吨点对打顶滴袋段伏分付幅根国个回户件架斤级届阶间节卷圈颗两里轮列厘粒辆秒免面幕类年匹批片遍品篇瓶群起期日省市双所升岁天头套条瓦晚位下顶箱员页只种丈张组章

    虚词(介词、连词、助词、叹词、5)

    才都还及即既就可每愈越又再在只啊吧把被比并便才朝从自但当趁到对地的得过者着了和或后将据连吗呢且前若如时所使为同向往象于与以由之则非用按照替跟被叫给教

    (下面的一些常用字可看成是名词助词、动词助词,登录在虚词类中可减少名词及动词中的重码,提高一次成功率,加快输入速度。)

    里中上下(在...中[上],房间里...),成出起来到(描绘成、说成、写出、画出、唱起歌来、考虑到...)

    名词(6)

    部表病笔鼻北豹

    处车厂虫床草域菜春茶词窗蝉唇醋

    电党刀力冬灯岛蛋洞东度

    法风饭

    工国根光馆官鼓歌

    话化花火河灰湖海壶货

    机家金界脚井键酒局句江箭

    科口壳课孔

    力脸量路论林卵雷龙狼泪鹿例率

    面毛马米门苗煤猫

    内泥脑娘牛南

    品皮

    钱情区琴权球桥枪

    人日

    省生水所式事史石市上山手书树纱诗蛇伞

    体头土铁铜炭塘图汤藤

    碗瓦舞雾

    县乡线性心信校血雪星夏下胸系西鞋型

    院员右油叶药盐眼羊鱼雨云夜牙烟银月鸭

    针纸猪中钟字嘴

    5.使软件具备第三页倒数第二段所谈的功能。

    通过对“汉英词典”(商务印书馆,1980年10月第一版)的5万多双音节词及多音节词,5千多成语及所列单音节词的验证,完全可自由自在地输入中文,证明所述方法切实可行,优于现存一切中文输入方案。

快速中文编码输入法.pdf_第1页
第1页 / 共9页
快速中文编码输入法.pdf_第2页
第2页 / 共9页
快速中文编码输入法.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《快速中文编码输入法.pdf》由会员分享,可在线阅读,更多相关《快速中文编码输入法.pdf(9页珍藏版)》请在专利查询网上搜索。

本发明公开了一种快速中文编码输入法。它以现有的输入法(拼音码输入最佳)为基础,对双音节词和多音节词采用原输入码为输入码;其特征在于对中文句子中单音节词的原输入码之后加一词性识别码,连同原输入码一起作为新输入码。这样它能提供一种适用范围广、易学、可靠性高、可连续快速输入的中文输入法。此方法的广泛推广应用,必将大大提高办公室工作效率,为借助微机进行中文信息处理、编辑写作等打开广阔的应用之路。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1