“多声递推联想”汉语词字编码.pdf

摘要
申请专利号：	CN93106650.6	申请日：	1993.06.08
公开号：	CN1081773A	公开日：	1994.02.09
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回\|\|\|专利申请的驳回公告日:1994.2.9\|\|\|沈在驳回决定\|\|\|\|\|\|公开
IPC分类号：	G06F3/023	主分类号：	G06F3/023
申请人：	福州大学;
发明人：	沈在爱
地址：	350002福建省福州市工业路50号
优先权：	1992.06.10 CN 92104477.1
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

“多声递推联想”汉语词字编码，涉及计算机汉字编码输入技术，提供一种适用于各种工作方式，适合于各类使用人员的汉字键盘输入方法。直接对词进行编码，实现字编码与词编码的完全统一。一方面以通常的拼音的声母(以及韵母)作为部分代码，另一方面以通过递推联想得到的若干字的声母作为部分代码。既能满足易学易用的要求，又能满足输入速度的要求，真正使汉字输入变得容易，轻松，并且快速，真正能够推广普及。

权利要求书

1：一种计算机汉字编码输入方法，对于单字词，双字词，三字词，四字词以及更多字词，其编码可以由几个部分代码组成，可以包括由其中(N个)字的拼音的声母(或拼音首字母，或其代表字母，下同)构成的部分代码(简称为声母代码)，或者还包括由其中(M个)字的拼音的韵母(或其代表字母)构成的部分代码(简称为韵母代码)，或者还包括根据其他取码方式构成的部分代码，本发明的特征在于：对于单字词，双字词，或者还对于三字词，四字词或者更多字词，其编码包括由通过从其中某个字(第K字)开始递推联想(即以该字作为词首字，联想出一个事先确定的双字词的词尾字，再以这个词尾字作为词首字，再联想出一个事先确定的双字词的词尾字，如此递推进行)得到的若干(L个)字的拼音的声母构成的部分代码(简称为联想代码)，或者还包括由通过从其中另一字(第K′字，单字词除外)开始递推联想得到的若干(L′个)字的拼音的声母构成的部分代码(简称为另一联想代码)。
2：根据权利要求1所述的汉字编码输入方法，其特征在于：对于双字词，三字词，其编码由所述的声母代码和联想代码组成，所述的N，K，L分别为2，2，2与3，3，1，对于单字词，其编码即为事先确定的一个双字词的编码（或者加一单字区分码），对于四字词和更多字词，其编码只由所述的声母代码组成，所述的N均为4。
3：根据权利要求1所述的汉字编码输入方法，其特征在于：对于双字词，其编码由所述的声母代码，联想代码和另一联想代码组成，所述的N，K，L，K′，L′分别为2，2，1，1，1，对于单字词，其编码即为事先确定的一个双字词的编码（或者加一单字区分码），对于三字词，其编码由所述的声母代码和联想代码组成，所述的N，K，L分别为3，3，1，对于四字词和更多字词，其编码只由所述的声母代码组成，所述的N均为4。
4：根据权利要求1所述的汉字编码输入方法，其特征在于：对于双字词，其编码由所述的声母代码，联想代码和另一联想代码组成，所述的N，K，L，K′，L′分别为2，2，2，1，1，对于单字词，其编码即为事先确定的一个双字词的编码（或者加一单字区分码），对于三字词，四字词，其编码由所述的声母代码和联想代码组成，所述的N，K，L分别为3，3，2与4，4，1，对于更多字词，其编码只由所述的声母代码组成，所述的N为5。
5：根据权利要求1所述的汉字编码输入方法，其特征在于：对于双字词，三字词，其编码由所述的声母代码，韵母代码和联想代码组成，所述的N，M，K，L分别为2，1，2，2与3，1，3，1，对于单字词，其编码即为事先确定的一个双字词的编码（或者加一单字区分码），对于四字词，其编码由所述的声母代码和韵母代码组成，所述的N，M分别为4，1，对于更多字词，其编码只由所述的声母代码组成，所述的N为5。
6：根据权利要求1，2，3，4或5所述的汉字编码输入方法，其特征在于：在递推联想时如果遇到一个后置字，便在该字的拼音的声母之后加上一个特定字母构成部分代码。
7：根据权利要求1，2，3，4或5所述的汉字编码输入方法，其特征在于：在递推联想时如果遇到一个后置字，便取该字中能成字的字根或部件代替该字继续递推联想构成部分代码。
8：根据权利要求1，2，3，4或5所述的汉字编码输入方法，其特征在于：在递推联想时如果遇到一个后置字，便取该字中能成字的字根或部件作为联想出的词尾字继续递推联想构成部分代码。
9：根据权利要求1，2，3，4或5所述的汉字编码输入方法，其特征在于：安排一种备用编码，该编码将字分为两个能成字的部分（字根或部件，不能成字的可按照规定等效为字），将这两部分看作一个双字词，按双字词的方式进行编码。
10：根据权利要求1，2，3，4或5所述的汉字编码输入方法，其特征在于：安排进行输入报警，即每次输入时，一直按键直到没有重码，该词（或字）便自动输入，同时发出声响，表示此次输入已经完成，下次按键开始下次输入。

说明书

本发明属于计算机汉字编码输入技术领域。
    计算机汉字键盘输入技术仍然是一个没有解决的问题。虽然近十几年来涌现了几百种汉字编码方案，音码，形码，音形码已形成三大编码体系，但是一种适合于各类人员使用的汉字键盘输入方法尚未出现，汉字编码输入技术还是影响我国计算机普及应用的关键问题，还远远不能满足信息产业高速发展的需要。

    早期的编码方案着重于面向专业录入人员单一工作方式-看打方式的使用，虽然经过强化训练能够达到较高的输入速度，但是当需要面向普通人员，需要以各种方式-看打，听打，想打等方式工作时，便不能适用。人们逐渐认识到通过字形取码的方案，难以满足各种工作方式的需要，难以满足易学易用和输入速度同时兼顾的需要。为了面向普通人员，为了能够推广普及，出现了许多通过字音和字义取码的方案。如文献《汉字拼音联想编码及双拼键盘》（中国专利CN85100094），采用汉语拼音和联想词的声母构成汉字编码;文献《四码拼音词组编码输入方法》（中国专利88107832.8），以两字以上词组的拼音构成词组编码;文献《音义式汉语拼音编码》（中国专利89106069.3），以汉语拼音和表示意义的辅音构成字和词的编码;文献《词类词尾附加法全拼汉字输入方案》（中国专利90105421.6），以汉语拼音和表示分类的词尾代码构成汉字编码。这些方案具有一定的优点，但是还没有解决易学易用和输入速度的问题，因而仍然不能推广普及。

    本发明的目的在于提供一种适用于各种工作方式，适合于各类使用人员（特别是普通人员）地汉字键盘输入方法，使汉字编码既满足易学易用的要求，又满足输入速度的要求，使汉字输入真正变得容易，轻松而又快速，从而真正能够推广普及。

    本发明直接对词进行编码，以汉语中大量出现的双字词为编码重点，将字作为词的特例-单字词处理，使单字词，双字词以及多字词的编码统一起来。

    对于单字词，双字词，三字词，四字词以及更多字词，其编码可以看成由几个部分代码组成，比如可以由其中字的声母（没有声母的字可取拼音首字母，各个声母也可用其他字母代表，下同）构成部分代码，可称为声母代码;可以由其中字的韵母（各个韵母也可用其他字母代表，下同）构成部分代码，可称为韵母代码;还可以通过其他任何取码方式构成部分代码，如可取其中字的声调构成部分代码，可取其中字的部首或字根的读音的声母构成部分代码，可取其中字的所属类别的名称构成部分代码，等等。各个部分代码对应的按键数目可以不同，各个部分代码的排列可以互相穿插（如声母代码和韵母代码可以逐字穿插，一键声母，一键韵母）。对于字数较多的词，只要声母代码就可基本区分重码，对于双字词，采用声母代码和韵母代码的组合还有一定重码，对于单字词，采用声母代码和韵母代码的组合还有大量重码。

    本发明使用一种新的方式构成一种部分代码：对于单字词，双字词，或者还对于三字词，四字词以及更多字词，从其中某个字开始进行递推联想，即以该字作为词首字，联想出一个事先确定的双字词的词尾字，再以这个词尾字作为词首字，再联想出一个事先确定的双字词的词尾字，如此递推进行，将这样得到的若干字的拼音的声母构成部分代码，可称为联想代码。一般可根据需要取前面得到的一至三个字的拼音的声母作为联想代码，越后面的字区分重码的作用越小。根据需要还可再从其中另一字开始进行递推联想，将得到的若干字的拼音的声母作为另一联想代码。递推联想时如果遇到不能作为词首字的字，可以按照特殊规定构成部分代码。

    可以由声母代码和联想代码组成词的编码，或者再加上另一联想代码组成词的编码，或者再加上韵母代码组成词的编码，或者再加上任何其他部分代码组成词的编码。

    为了进行递推联想，可以对于每个可以作为词首字的构词字，选择一个以该字作为词首字的双字词，作为递推联想时想出的双字词，称为该字的首字第一词，所有这些字的首字第一词便构成一个首字第一词表。选择首字第一词的原则可以是使人当只看到其词首字时能够最容易地想到其词尾字，可以根据使用频度，意义，以及构词规范等方面的标准或规则进行选择，通常是选择极其常用的意义单纯的双字词，同时还可考虑尽量避免相应编码产生重码。

    为了容易掌握，而又避免重码，有些字的“首字第一词”可以不止一个，由此导致一个词可以有多个编码，其中有的编码可能比较容易掌握，有的编码可能只需前面较少键数就已没有重码。

    可见单字词的编码也就是该字的首字第一词的编码，可以加一单字区分代码输入单字，或者先输入该字的首字第一词再删去其第二个字从而输入单字。可见字编码和词编码完全统一。

    有关资料表明，现代汉字中有构词字3785个，可构常用词94164个;这些构词字基本上也就是常用字，其中不定位字（可前置也可后置）有3269个，占86.4%;定位字（只能前置或后置）有516个，占13.6%，其中前置字380个，占10%，后置字136个，只占3.6%。

    又有资料表明，现代常用汉字相当有限，2500个常用字覆盖率可达99.63%，3500个常用字覆盖率则达99.97%，国标两级汉字基本集6763字覆盖率在99.99%以上，其中有三分之一强已是“死”字。

    可见由于现代汉字绝大部分是构词字，而构词字又极少后置字，因而首字第一词表的构造是切实可行的;又由于现代常用汉字十分有限，因而首字第一词的数量也就十分有限。可将常用字分为两级或三级，每级2000字左右，一般人员只须掌握第一级常用字的首字第一词就可以基本满足需要;其余字的首字第一词可以一边使用，一边熟悉积累。

    首字第一词的掌握只需要在看到其词首字时能够想到并确认其词尾字。可以通过计算机辅助掌握，例如先在屏幕上显示一个词首字，以供试想，然后显示其词尾字，以供对照，如此逐个词地进行下去;或者从一个字开始，逐次递推出现尽可能多的一串词;也可以在输入过程中随时要求提示所需字的首字第一词。

    对于少量不能作为词首字的字，可以按照特殊规定得到代码。特殊规定多种多样。比如可以规定如果遇到一个后置字（或不可构词字），便在该字的拼音的声母之后加上一个特定字母（如字母“A”，“E”或“O”）作为部分代码的结束;或者根据该字的拼音的韵母或声调加上不同字母作为部分代码的结束;或者取该字中能成字的字根或部件代替该字继续递推联想得到部分代码;或者取该字中能成字的字根或部件作为联想出的词尾字继续递推联想得到部分代码;或者取该字中能读音的字根或部件或笔划的拼音的声母构成部分代码。

    为了便于输入不常用字，可以安排备用汉字编码，该编码简单易学，允许较多重码。比如可以采用简单拼音输入法，或采用二分编码法，即将字分为两个能读音或能成字的字根或部件，以该字的拼音和两个字根或部件的拼音的声母构成编码。

    可以使用这样一种汉字编码作为备用编码，将字分为两个能成字的部分（字根或部件，不能成字的可按照规定等效为字），将这两部分看作一个双字词，按双字词的方式进行编码。

    为了提高输入速度，同时可以采用高频优先编码技术，比如可以安排26个常用字作为一键输入，安排几百个字（或词）作为二键输入，若有重码词（或字）则高频先见。

    为了减少按键次数，可以设计输入报警，即每次输入时，一直按键直到没有重码，该词（或字）便自动输入，同时发出声响，表示此次输入已经完成，下次按键开始下次输入。这样，大部分词可以三键输入，小部分词需要四键输入，极少数词需要五键输入。

    或者可以设计重码报警，即每次输入时，按了确定数目的键（如三键）之后，如果没有重码，就自动输入，没有声响;否则发出声响，提示还需键入代码或者进行选择，此后只要还有重码，按键都要发出声响，直至完成此次输入。

    本发明的主要优点在于以下几个方面：

    1.适合于各种工作方式：由于编码只需要字音和字义，不需要字形，因而适合于看打，听打，想打等各种工作方式。

    2.适合于各类使用人员：易学易用程度满足普通人员的要求，输入速度又满足专业录入人员的要求;初学可以只取三码，然后可以取四码，五码，可以完全避免重码，可以盲打。

    3.对于拼音知识要求最低：可以只用拼音的声母，从而避免韵母输入的麻烦，特别适合读音不准确或不熟悉拼音的使用人员。

    4.字编码与词编码完全统一：字编码就是以该字为词首字的双字词的编码，输入字和词可以随心所欲，完全一样。

    5.具有简单有效的学习方法：学习编码就是掌握首字第一词表，不需要任何理解，不需要重新记忆，只要在头脑原来的基础上熟悉一下，并且可以在计算机辅助下进行。

    6.基于自然记忆的使用方式：一旦掌握首字第一词表，形成编码就不依赖任何规则或者推理，即一开始使用就是以自然记忆方式得出编码的，人脑不易疲劳，可以迅速提高速度。

    7.与西文完全相同的键盘：汉语拼音的声母或拼音首字母都可用单个西文字母表示，可以直接采用西文键盘，不必增加键位符号，特别适合于在通用微机上使用。

    8.编码可以自动生成：只要有一个汉字与拼音声母（或还包括韵母）对照表和一个首字第一词表，任何词的编码就都可由程序自动生成，便于编码优化，特别便于用户词库的实时自动编码。

    9.符合人脑思维特点：由字组词，特别是由词首字想到相应词尾字，是人脑十分熟悉的，人脑对此反应速度极快，极易完成;头脑出现一字对应按下一键，与思维完全同步，特别适合于想打。

    10.符合现代汉语发展趋势：现代汉语的发展趋势是，汉字字种集逐渐缩小，汉语词汇量迅速扩大;单字词的使用越来越少，双字词的使用越来越多。只要掌握十分有限的字的首字第一词，便能完成几乎无限的词的编码，显然是十分经济，十分高效的。

    本发明的具体实施具有多种类型或方式可以选择。

    首字第一词表可以进行优化，从而建立国家标准。其中一部分首字第一词的“唯一性”很好，有利于迅速掌握，比如许多字作为单字词与加上词尾字构成的双字词的意义基本相同，如：“学”与“学习”，“帮”与“帮助”，“国”与“国家”，“但”与“但是”;许多字互相之间具有并列关系或对称关系，如：“今天”与“昨天”，“上面”与“下面”，“快速”与“慢速”，“多数”与“少数”;许多字只有相应一个双字词是十分常用的，如：“问题”，“题目”，“迅速”，“速度”，“谨慎”，“慎重”，“宏伟”，“伟大”。另外一部分首字第一词有一定的选择余地，有利于避免重码。

    下面是一些首字第一词的例子：

    道路，惯例，国家，欢乐，会议，技术，

    家庭，街道，究竟，竟然，科学，例如，

    论述，乐趣，路途，趣味，情况，如果，

    然而，术语，述说，事情，途径，学习，

    习惯，喜欢，语言，言论，研究，议论。

    下面是又一些首字第一词的例子：

    春天，东方，前面，因为，眼睛，看见，

    夏天，南方，后面，所以，耳朵，听见，

    秋天，西方，左边，虽然，嘴巴，幸福，

    冬天，北方，右边，但是，鼻子，愉快。

    从某一个字开始，可以递推联想出一串词，例如：

    科学，学习，习惯，惯例，例如，如果……

    技术，术语，语言，言论，论述，述说……

    递推联想可能出现循环，大致有下列几种情况：

    1.一字循环：爸爸;妈妈;哥哥;妹妹;常常;迢迢。

    2.二字循环：兄弟，弟兄;兵士，士兵;色彩，彩色。

    3.三字循环：儿子，子女，女儿;掌握，握手，手掌。

    4.多字循环：度过，过去，去年，年度;语言，议论，论述，述说，说话，话语。

    5.进入循环：红色，色彩……;数量，量度，度过……;理论，论述……;告诉，诉说，说话……。

    6.没有循环：导师，师傅;尊敬，敬礼，礼貌，貌似，似乎。

    为了方便，可以不必严格考究词语切分，比如“吃饭”，“喝水”，“读书”，“写字”这样极其常用的搭配也可以作为首字第一词。

    少量字的“首字第一词”可以选择两个，比如“言论”，“言谈”;“议论”，“议程”。前一个比较自然，后一个可以避免重码。

    对词的具体编码可以有多种类型，下面举例说明几个典型的实施类型，其中单字词的编码采用该字的首字第一词的编码（或者加上一个单字区分代码），五字或更多字词的编码由其中四个或五个字的声母组成;其中括号中的单字表示递推联想得到的字;其中三个双字母声母ZH，CH，SH分别用字母V，I，U代表。

    实施类型之一：

    双字词编码：由声母代码（由两字的声母构成）和联想代码（由从第二字开始递推联想得到的两个字的声母构成）组成，如：

    科学（习）（惯）    KXXG

    祖国（家）（庭）    ZGJT

    三字词编码：由声母代码（由三字的声母构成）和联想代码（由从第三字开始递推联想得到的一个字的声母构成）组成，如：

    共和国（家）    GHGJ

    唯物论（述）    WWLU

    四字词编码：由声母代码（由四字的声母构成）组成，如：

    集成电路    JIDL

    理所当然    LSDR

    实施类型之二：

    双字词编码：由声母代码（由两字的声母构成），联想代码（由从第二字开始递推联想得到的一个字的声母构成）和另一联想代码（由从第一字开始递推联想得到的一个字的声母构成）组成，如：

    科技（术）（学）    KJUX

    道理（论）（路）    DLLL

    三字词编码：与实施类型之一相同。

    四字词编码：与实施类型之一相同。

    实施类型之三：

    双字词编码：由声母代码（由两字的声母构成），联想代码（由从第二字开始递推联想得到的两个字的声母构成）和另一联想代码（由从第一字开始递推联想得到的一个字的声母构成）组成，如：

    科技（术）（语）（学）    KJUYX

    道理（论）（述）（路）    DLLUL

    三字词编码：由声母代码（由三字的声母构成）和联想代码（由从第三字开始递推联想得到的两个字的声母构成）组成，如：

    共和国（家）（庭）    GHGJT

    唯物论（述）（说）    WWLUU

    四字词编码：由声母代码（由四字的声母构成）和联想代码（由从第四字开始递推联想得到的一个字的声母构成）组成，如：

    集成电路（途）    JIDLT

    理所当然（而）    LSDRE

    实施类型之四：

    在实施类型之一或之二的基础上，所有词的编码都在第一个字母之后插入该词第一个字的韵母，韵母可以用全拼，简拼或双拼字母表示。适合于熟悉拼音，特别是熟悉双拼键盘的人员使用。

    还可以类推出其他实施类型，上述实施类型可以作各种变化。比如实施类型之一可以只要前面三个字母，实施类型之三可以再次联想增加第六个字母，实施类型之四可以不要最后一个字母，等等，不同类型可能适合于不同人员与不同场合。

    关于特殊规定和备用编码举例：

    对于后置字，可以规定加上一个字母“E”作为代码的结束：

    我们    WMEE

    山峰（峦）    UFLE

    或者可以取该字中能成字的字根或部件代替该字进行递推联想：

    我们（口）（头）    WMKT

    实际（意）（思）    UJYS

    或者可以取该字中能成字的字根或部件作为联想出的词尾字进行递推联想：

    我们（门）（口）（头）    WMMKT

    实际（示）（意）（思）    UJUYS

    一种备用编码：将字分为两个能成字的部分（字根或部件），将两个部分看作一个双字词，按双字词的方式进行编码：

    础-石出（来）（到）    UILD

    镑-金旁（边）（缘）    JPBY

    本发明所述的递推联想可以由计算机通过软件（程序）根据首字第一词表自动完成，比如计算机自动编码与计算机辅助学习时所需要的，这种情况下“联想”实际上就是“查找”，“递推联想”实际上就是“递推查找”;递推联想也可以由已经具有但尚未掌握首字第一词表的人员以书面手工方式完成，比如编码设计人员不依赖计算机而进行编码时所需要的，这种情况下“联想”实际上也是“查找”，“递推联想”实际上也是“递推查找”;递推联想也可以由已经掌握首字第一词表的人员通过头脑记忆方式完成，比如编码使用人员进行汉字输入时所需要的。无论是“递推联想”还是“递推查找”，都是指一种产生或组成或构成或形成词（或字）编码的方式。使用“联想”与“递推联想”的术语有利于普通技术人员对本发明的理解与实施。

    本发明可以在通用计算机上以软件（程序）形式或者以汉卡（扩充电路卡）形式实现和使用，也可以在电脑打字机，汉字终端，中文信息处理系统及各种专用计算机系统等设备上实现和使用。