汉字自然部件编码.pdf

摘要
申请专利号：	CN94111115.6	申请日：	1994.08.08
公开号：	CN1124366A	公开日：	1996.06.12
当前法律状态：	终止	有效性：	无权
法律详情：	专利权的终止(未缴年费专利权终止)授权公告日：2002.12.4\|\|\|授权\|\|\|公开
IPC分类号：	G06F3/023	主分类号：	G06F3/023
申请人：	曹述交;
发明人：	曹述交
地址：	422001湖南省邵阳市教学仪器站
优先权：
专利代理机构：	邵阳市专利事务所	代理人：	刘泽球
PDF下载：	PDF下载

内容摘要

汉字自然部件编码是一个拼形的编码方案。它以汉字自然部件为设码基础，以不饱和共码方法为编码技巧，把上万的全部汉字，拆分为数百种自然部件，再从20-40范围内任取一个数，作为自然部件分族总数。本方案使用附标数字符号，把自然部件分成35个族，组成一个二维部件拼字表。编码时，取部件族序码或族序码加部序码组成每个单字不多于四码的没有重码的编码，表达出汉字的全部形体信息；字典检字时，按数字和附标顺序排列编码顺序，解决了汉字无重码和汉字排序的技术难题。

权利要求书

1：一种汉字自然部件编码，其特征在于：先把汉字按自然部件拆分法拆分成自然部件，然后用一种虚设的符号分别表示这些自然部件，这些虚设的符号叫作“设码”。用不多于四个的设码组成编码，形成一个只有少量设码编码与汉字对应的不饱和的设码编码集合。指定某一数量的自然部件，再用这些指定之内的自然部件设码组成的没有汉字对应的“虚编码”，替代指定之外的自然部件设码组成的有汉字对应的“实编码”，并保证这些替代后的设码编码与汉字之间的单一对应性，从而由指定的自然部件设码形成一个实编码占有率比原设码编码集合高得多的设码编码子集合，它就是汉字自然部件编码集合。这一替代过程叫做指定外的自然部件设码与指定内的自然部件设码共码。共码的具体操作是一种多次的按程序的数学排列组合和选择。指定之内的自然部件设码与指定之外的能够作上述替代的自然部件设码共码后，这些设码所表示的自然部件便形成“部件族”，把设码编码子集合中各个指定之内的自然部件设码所形成的部件族，组织在一个具有直角坐标性质的二维表格之中，这个表格叫作“部族表”。它就是自然部件进行编码的基础。部件族在部族表中占据固定的位置，部族表的一个坐标方向形成部件的排列顺序，另一个坐标方向形成部件族的排列顺序。由于各部件族的各个自然部件设码都不相同，在部族表中部件的排列顺序，统一改用一套新的符号表示，这套新的符号叫部序码，简称“部码”。部件族的排列顺序在部族表中形成族序，在各族中，再通过部件的入序排列，使表示族序的族码与部码可以共码，而且它们都改用从1至9的数字加上区别标志进行循环所形成的数字循环符号。进行汉字编码时，使用部族表中与该自然部件对应的族码，有时也用部码进行编码。这时的族码和部码便成为编码中的单码，从而使汉字的编码具有设码--单码-编码三个层次。设码是汉字编码的基本层次，单码是汉字编码的中间层次。使用单码进行编码，对于部族表内的成字单字，先取族码作单码，后取部码作单码，两者组合成该字的编码；对于二至四个部件构成的单字，分别取各个部件的族码作单码，再依据部件书写成字的顺序构成其编码。
2：根据权利要求1所述的汉字自然部件编码，其特征在于：自然部件拆分法为“两不两可取大件，每字不超四部件”。“两不” 即：不拆分部首，不拆分交连笔画构件。“两可”即：可拆分复合交连笔画构件，可把笔画、组件及成字等视作为自然部件。“取大件”要求：当一个单字中包含有复合的自然部件时，应先拆分为较大的复合部件，以求得拆分的部件数量最少。“每字不超四部件”，即每个单字拆分的自然部件不超过四个，因此对多笔画和多笔画构件的单字，采用字形全部信息的原则，部首或交连笔画构件组合的方式，拆分成部族表内存在的组件。
3：根据权利要求1所述的汉字自然部件编码，其特征在于：部族表的一个坐标依顺序排列部件，另一个坐标依顺序排列部件族。族码是该族部件共码的一种表达，而部码是该族部件共码表达的一种补充。它们形成一种编码单码选择的常用备用条件。部族表中每一个族的前几个部件是常用字部件，常用字部件的前面部分是高频部件，常用字部件后面是重码字部件，低频部件，古籍字部件等。部族表中同一个族内的每一个自然部件与本族内其他自然部件相互拼形组合，不会产生实际存在的汉字；在对编码进行解码时，如果把编码充当单码的部码当作了族码，该族中的各个部件不会与这个部件拼形组合成实际存在的汉字。
4：根据权利要求1所述的汉字自然部件编码，其特征在于：重码处理方法为，部件相同，部件书写成字的顺序也相同的二部件重码字，统一在部件横排字的编码后加上末笔部件的部码，构成其区别码；首笔部件不同但又共码，其他部件又完全相同的二或三部件重码字，在首笔部件族码后增加该部件的部码作为编码的单码，构成其区别码；首笔部件和其他部件都不相同，但它们又都共码的重码字，当它是二部件字时，将两个部件的部码分别加到自己的族码之后作为编码的单码，构成其区别码；当它是三部件字时，将首笔部件的部码加在自己的族码后作为编码的单码，构成其区别码。
5：根据权利要求1所述的汉字自然部件编码，其特征在于：族码表是部族表中各个自然部件按“点起笔”、“横起笔”、“竖起笔”、“撇起笔”分成四个大类形成的，“横起笔”类里又分成 “横不出头”和“横出头”两个部分。各个自然部件都根据首笔、第二笔、第三笔等的笔形顺序，排定各个自然部件的线性位置顺序，部件的下面附上族码，部件之间具有一种形体相近而又渐变的规律，形成一种形体相近的自然部件段。

说明书

汉字自然部件编码
    本发明为汉字自然部件编码，它是一个科学拼形的汉字编码方案。

    汉字自然部件编码，以汉字的自然部件为设码基础，以共码方法为编码技巧，把上万的全部汉字，拆分为数百种自然部件，再从20--40范围内任取一个数，作为自然部件分族的总数。本方案把自然部件暂分成36个族，并把这些自然部件族组织在一个编码用的部族表内。编码时，取族码作为编码的单码，组成每个单字不多于四码的编码，表达出汉字的全部形体信息，解决了一个多信息体的编码技术难题。

    汉字自然部件编码可以应用于：

    1、汉字电脑键盘输入；

    2、各种汉字辞书排序检字；

    3、汉字替代拼形和速记；

    4、汉字电传通讯；

    5、汉字字形结构教学；

    6、汉字文化娱乐等。

    汉字自然部件编码方案的内容包括：汉字自然部件拆分规则，自然部件共码方法，自然部件共码形式，编码通用的单码形式，单字编码规则，重码处理规则，词语编码规则，简缩码编码规则，电脑输入键盘形式，单码遗忘补救形式，汉字自然部件拆拼表等，形成一个完整的体系。

    1、汉字自然部件拆分规则

    汉字由笔画构成。笔画有基本笔画和复合笔画。基本笔画有点横竖撇捺提等，它们是点或者直线。基本笔画之间的差别只在于它们运笔的方向不同，它们都可以用线性方程y＝kx＋b表示。复合笔画则是二种以上的基本笔画连笔复合而成，《新编小学生字典》上列出了二十多种。如果继续研究汉字笔画构成的规律，会发现汉字中有一些相对位置不发生变化的笔画构件，它们就是习惯称呼的部首、偏旁、字头、字底等，我们统称它们为部件。因此，笔画看作为汉字构成的基本层次，部件就是汉字构成的中间层次。

    在电脑编码中，“五笔字型”把汉字拆分成“字根”，如“申”(日，丨)、“柬”(一，四，小)、“里”(日，土)、“敷”(一，月，丨，攵；、，方)、“果”(日，木)等。拆分时，一个笔画不能割断在两个“字根”中；设码时，形体相近使用通代，或丢掉一部分笔画构件；成字时，“字根”相互穿插套叠。因此，拆分难记忆难掌握，编码难移植难通用，成字难直观难想象。尽管人们认为，不同的应用目的，汉字可以拆分成不同地“字根”，“字根”就是部件。实际上，汉字存在一种真正的符合汉字结构和成字规律的部件，它就是自然部件。自然部件的主要形式是部首和交连笔画构件，还有几种特殊形式。汉字拆分成自然部件的方法就叫自然部件拆分法。自然部件拆分法有如下规则：

    “两不两可取大件，每字不超四部件”。

    “两不”即：一不拆分部首，如“黾、音、青、麦、里”等复合部首完全予以保留，不论它所拥有的单字有多少。当然，以后发生渐变是不可避免的，全部保留是为了与现在的字典相统一。二不拆分交连笔画构件，如“本、未、末、束、束、柬”等都作为一个自然部件。

    “两可”即：一可拆分由几个交连笔画构件相连而成的复合交连笔画构件，如“果”可拆分成“田、木”，“堇”可拆分成“廿、中、王”。这种拆分是自然部件基本拆分的一种延伸。二可把基本笔画或复合笔画，几个部首或交连笔画构件组成的组件及成字等视作为自然部件，如“才”(，丿)，“瀛”(氵，，女，凡)等字中的“丿”和“”都是自然部件。这是自然部件基本拆分另一个方向的延伸。自然部件的检验标准是，在部件成字过程中，形成字整体或部分的自然部件之间，只存在上下或左右、包围相连的位置关系，而且互不穿插套叠。

    “取大件”要求：当一个单字中包含有复合的自然部件时，应先拆分为较大的复合部件，以求得拆分的自然部件数量最少；如“隋”应拆分为“阝，左，月”，而不应拆分为“阝，ナ，工，月”。

    “每字不超四部件”，即每个单字拆分后的部件最多不能超过四个，因此要求对多笔画或多笔画构件的单字，采用字形全部信息的原则，部首或交连笔画构件组合的方式，拆分成部族表内存在的组件，如“嚼”和“襟”，“嚼”被拆分成“口，，寸”，“襻”被拆分成“衤，樊，手”。

    根据自然部件拆分法，“五笔字型”中的“申”、“柬”(笔画交连)，“里”(部首)都被作为自然部件，“敷”被拆分为“甫，方，攵”三个自然部件，“果”被拆分成“田，木”两个自然部件。它们直观明了，用不着强记。

    2、自然部件共码方法

    自然部件拆分法把全部汉字拆分成五百个左右的自然部件，若要用它们进行编码，会令人瞠目！这是汉字编码中一个期待解决的多信息体编码技术难题。但一观现代计数方法，比成千上万更多的计数对象，只用十个数码，加上数位和进位规则，其数量便表达得那样简单和明了。获得这种成功，究其原因，主要是依靠了一种“数位共码方法”。汉字多信息体编码也应该存在这样一种方法，它就是“不饱和共码方法”。

    不饱和共码方法：先用一些符号分别表示这些自然部件，这些符号叫作“设码”。用不多于四个的设码组成编码，这种编码叫做“设码编码”。在设码编码中只有少量编码与汉字对应。这种有汉字对应的设码编码叫“实编码”，没有汉字对应的设码编码叫“虚编码”。由设码组成的所有编码叫做“设码编码集合”。自然部件的这个设码编码集合中，因为存在没有汉字对应的虚编码，所以它是一个“不饱和的编码集合”。由于它具有不饱和的性质，我们可以指定其中的一部分自然部件设码，并用这些指定之内的自然部件设码组成的没有汉字对应的虚编码，替代指定以外的自然部件设码组成的有汉字对应的实编码，同时保证替代后的设码编码与汉字对应的单一性，从而由指定的自然部件设码形成一个实编码占有率比原设码编码集合高得多的“设码编码子集合”。这个设码编码子集合就是自然部件编码集合。这一替代过程叫做指定外的自然部件设码与指定内的自然部件设码共码。共码的具体操作是多次的按程序的数学排列组合和选择。它指定的自然部件设码数量，可以从20--40这个范围内取任一数字。不过，“20”这个指定自然部件设码数量的小限，还未作数学计算上的论证，只是一种粗略的估计。因为小限取得太小，使设码编码子集合太接近于饱和，它就会给操作带来诸多不便，得不偿失。指定自然部件设码的大限，当然是设码的总数，取这样的大限就转变为传统的编码方法，失去了共码这一形式的意义。

    3、自然部件共码的表达形式

    自然部件通过设码进行共码后，这些设码所代表的自然部件便形成了“部件族”。一个部件族内的自然部件拼形组合后不会相互产生实际存在的汉字。我们把设码编码子集合中各个指定之内的自然部件设码所形成的部件族，组织在一个具有直角坐标性质的二维表格之中，这个表格就叫“部族表”，如图1所示。部件族在部族表中形成固定的位置，部件在部族表的一个坐标方向形成排列顺序，部件族在部族表的另一个坐标方向形成排列顺序。部件的排列顺序叫部序。由于各个部件族的各个自然部件设码都不相同，在部族表中部件的排列顺序，统一改用一套新的符号表示，这一套新的符号叫“部序码”，简称“部码”。部件族的排列顺序在部族表中形成族序，原来指定的设码符号便成为“族序码”，简称“族码”。由于这些自然部件设码充当的族码没有习惯的顺序，再通过部件在各族中的入序排列，使部码和族码可以共码。并且它们都统一使用一种数字循环符号，这就是部族表中部码和族码形式选择的理由之一。进行汉字编码时，就使用部族表中的族码作为单码进行编码，有时也使用部码作为单码进行编码。可以看出，族码和部码表示平面上的一个点，当编码中使用部码后，编码中的部码和相应的族码便确定一个唯一的自然部件。

    部族表是自然部件编码的基础，为了使它有利于操作和记忆，部族表中每个族的前几个部件布置为常用字部件，而常用字部件的前面部分是高频部件，常用字部件后面才是重码字部件，低频部件，古籍字部件等。在对编码进行解码时，如果把编码中充当单码的部码当作为族码，由于部件在部件族中进行了入序排列，与部码对应的该族中的各个部件，不会与这个部码对应的部件拼形组合成实际存在的汉字。

    图1所给出的部族表，只是一个用于自然部件编码举例的部族表，并未经编定的电脑程序甄别检验。真正的部族表，还需要按照设定的条件用电脑计算优化，通过实践修改后才能完善，设定条件也需要征求辞书文字，语文教育，电脑编码各界的意见，最后将形成象汉语拼音“声韵表”一样的国家标准的汉语拼字“部族表”。

    图1所给出的部族表，部码的数字取二十一，族码的数字取三十六，只是在形式上与汉语拼音声母韵母数量一致，并无内容上的必然联系。部码数字的多少取决于部件族中部件最多者的数量；族码数字的多少取决于电脑键盘的容量，设码编码集合的不饱和程度等多种因素。

    4、编码通用的单码形式

    在图1部族表中已经看到，部码是以1--7的数字加上点、圈区别标志进行循环所形成的数字循环符号，族码是以1--9的数字加上点、圈、横区别标志进行循环所形成的数字循环符号。为什么采用这样一种符号？按传统的方法，一个族的部件数量及部件族的数量都大于十，只能采用字母编码和排序。用字母作为单码进行编码，其编码就是一种字母码。而用字母排序，字母的总数就相当于一种进位制的进位数。人们习惯于十进位制，字母排序的顺序感不强。这对于简单平面分布的电脑键盘并不产生困难，但作为字典检字编码最需要的是编码的顺序感，以加快搜索编码目标的速度。所以族码和部码都不宜采用字母表示。如果我们先用字母表示，再转换成数字码，像几种电脑码一样，四码的字母编码便变成了八码的数字编码，得不偿失。所以采用一种既与数字相通，又能满足单个符号超十要求的数字循环符号。

    从图1可知，数字循环符号的结构分两个部分，符号的主体是数字，符号的区别标志是放在数字下的点、圈、横等。汉语声母，韵母，俄文字母，希腊字母，一年十二个月，它们都可以用数字循环符号表示。

    族码部码使用数字循环符号，能使汉字编码达到准数字化水平。这种汉字编码，用电脑键盘输入，只需要在原拉丁字母键帽上对应一个数字循环符号，数字循环符号便表现出字母功能。这种编码用于字典排序检字，只需要按数字从小到大，区别标志从无到点、到圈、到横予以排列，数字循环符号便表现出数字功能；这种汉字编码作为汉字的一种替代拼形，它便成为与汉字草书体脱离原字形一样的汉字编码体，但它形体并不草，而只是数，它能最简单地激起对汉字字形的想象，它又不会刺激民族情感，因为现代数字早已被世界各族人民视作一种世界文化。由此可见，数字循环符号是汉字编码走向多个领域通用的基础。

    5、单字编码规则

    汉字自然部件编码，单字编码有四种情况：

    (1)表内成字单字。部族表内所有成字作为单字的编码，先取族码作为编码的单码，再取它的部码作为编码的单码，两者联合组成一个二码编码。如“言”(1，1)编码为“11”，“禾”(1，1)编码为“11”。小括号中前面的循环数字符号为族码，后面的循环数字符号是部码。一些部首与成字在笔形上有差别，成字直接采用部首编码。如“”(4，1)，“竹”被编为“41”，不应把“竹”拆分为(，丨，，)而编为“5152”。

    (2)、二部件单字。这种单字的编码一般取其两个部件的族码作编码的单码，按两个部件书写成字的顺序组成为一个二码编码。如“汉”[氵(1，1)，又(9，3)]编码为“19”。

    (3)、三部件单字。这种单字的编码一般取其三个部件的族码作编码的单码，再按三个部件书写成字的顺序组成一个三码编码，如“拼”[扌(4，1)、(5，7)、廾(8，4)]编码为“458”。

    (4)、四部件单字。这种单字的编码取其四个部件的族码作为编码单码，按部件书写成字的顺序组成其编码。如“缩”[纟(8，1)、宀(7，1)、亻(6，1)、百(6，3)]编码为“8766”。

    对于词语编码，一般取单字编码的第一个，或第一、二个单码，简缩成三个或四个单码的编码，和拼音文字的缩写体一样，但在设计时需要经过统一的处理。

    汉字的编码体就是单字的编码。

    6、重码处理规则

    汉字自然部件编码有三种重码字：

    (1)、部件相同，部件书写成字的顺序相同的重码字。这种重码字在全部汉字中只有十几对，如“邑”和“吧”，“只”和“叭”等。处理方法是统一在部件横排字的编码后面，再加上一个末笔部件的部码作为编码的单码，构成其区别编码。如“邑”[口(3，1)、巴(8，5)]的编码为“38”，“吧”[口(3，1)、巴(8，5)]的编码为“385”，“只”的编码为“37”，“叭”的编码为“372”。规则易懂易记。

    (2)首笔部件不同但又共码，其他部件又完全相同的二或三部件重码字。这种重码字，在首笔部件族码后增加该部件的部码作为编码的单码，构成其区别编码。如“匪”[(7，3)、非(4，1)]和“罪”[四(7，2)、非(4，1)]，“匪”的编码为“734”。“罪”的编码为“724”。

    (3)首笔部件和其他部件都不相同，但它们又都共码的重码字。当这种重码字是二部件字时，将其两个部件的部码分别加到自己的族码后，作为编码的单码，构成其区别编码；当它是三部件字时，将首笔部件的部码加在自己的族码之后作为编码单码，构成其区别编码。例如“亩”[亠(1，2)、田(9，7)]和“汩”氵(1，1)、曰(9，6)]，“亩”的编码为“1297"，“汩”的编码为“1196”。

    7、电脑输入键盘形式

    汉字自然部件编码，应用于电脑键盘输入，可利用现在电脑的标准键盘作为输入工具。标准键盘的打字区有“0--9”及“A--Z”三十六个键，先保留“1--9”的键名不变，因为自然部件编码中没有“0”，再把“0”键和“A--Z”键的键帽分别标上“1--9”、“1--9”、“1--9”三组数字循环符号，正好二十七键，然后利用软件对键盘加以定义，自然部件编码就可以在标准键盘上使用。

    8、单码遗忘补救形式

    汉字自然部件编码，应用于电脑键盘输入，操作者偶尔记不起部件的族码，这是难以避免的，应该有一种补救措施。这种措施之一是，把部族表中前几个常用字部件标在键帽上，其他未标出的部件，通过软件和具体的操作命令把族码表(图2)中形体相近的自然部件段显示在屏幕上。

    汉字自然部件编码应用于字典排序检字，操作者记不起部件的族码，被查字的编码就不能确定，检字就无法进行。这和四角号码检字，音序检字是一个道理，需要一个管用的补救措施。这种补救措施就是在自然部件编码检字表前，设置一个如图2的族码表。

    族码表把部族表中各个自然部件，按“点起笔”、“横起笔”、“竖起笔”、“撇起笔”分成四个大类，并作一次重新排列，下面再附上族码。族码表的“横起笔”类里部件过多，又分为“横不出头”和“横出头”两个部分。族码表中各个自然部件，根据首笔、第二笔、第三笔等的笔形顺序(、，一，丨，5)，排定各个自然部件的位置顺序，从而使得部件之间具有一种形体相近而又渐变的规律，最适宜于使用扫视获得搜索目标，产生比部首检字法中《难检字笔画索引》高得多的效率。