字部文字排序法 本方法的名称是字部文字排序法(简称字部排序法)。
本方法的所属领域是文字排序、文字编码。
常用的从字形排序的文字排序法有笔画排序法、部首排序法。由于这些排序法没有明文规定的排序规则,可操作性差,所以有改进的必要。
本方法的目的是改进部首排序法而确立一种规范性的文字排序法和用于文字编码的规范性的文字字形数据表。
字素和笔画。文字是由字格中的字素和其它的次要的字形特征构成的。字格是字形所占的方形平面。字格有上、下、左、右四个基本方位。标准字格是正方形地。字素是构成字形的最小单位。字素有一(横)、丨(竖)、/(撇)、\(捺)四种。字素本身可分为头部、中部、尾部。一、头部在左、尾部在右;丨、头部在上、尾部在下;/、头部在右上、尾部在左下;\、头部在左上、尾部在右下。通过字素下部或右部的端点作一条水平线,经过字素两头的端点的直线与水平线的夹角为0度的是横,为90度的是竖,95至175度之内的是撇,5至85度之内的是挎。撇为分三种,95至115度之间的是竖式撇,115至155度之间的是正撇,155至175度之间的是横式撇。挎也分为三种,5至25度之间的是横式挎,25至65之间的是正挎,65至85之间的是竖式挎。距字素头部和字素尾部的距离相等的点是字素中点。由两个以上字素组成的字是多字素字。多字素字就存在字素之间的关系。可以将字素一、丨、/、\分别分在四个键上与空格键进行汉字输入。笔画是文字的最小书写单位。写字时由落笔到起笔所留下的痕迹是一笔或一画。
文章中用到的符号包括文字和字符。字符形体是由一、丨、/、\、弧和特殊的字符填实共九种最小单位构成的。弧有(上弧)、(下弧)、((左弧)、)(右弧)四种。字符填实用●表示。上弧的头部在左、尾部在右;下弧的头部在左、尾部在右;左弧的头部在上、尾部在下;右弧头部在上、尾部在下。
字部是构成文字的基本单位。只有一个字部的字是独体字(用“独”表示);有两个以上字部的字是合体字。合体字中两个字部间有左右(用“左”表示)、上下(用“上”表示)、包围(用“包”表示)、隔离(用“隔”表示)四种关系。
字部文字排序法排序规则:
规则1排序总则:
在确定字素、字素关系、字素关系点、字素长短、字素中点、字部、字部状况的基础上以主要特征单字中的字部、字部中的字素和次要特征字部状况、字素关系、字素长短、字素中点为前后次序进行字集中单字的排序;以字符排序规则进行字符排序;排序规则应用时,特殊规则优先于一般规则。
规则2确定字素、字素关系、字素关系点、字素长短的规则:
确定字素的规则:
一般的,把字中的笔画对照字素的形状进行分解,即可得到这个字的字素;如:卖一丨一/\\一/\搏一丨\/\一丨一丨一一丨一丨\辖一/一丨/\/一/一一一丨丨一丨一武一\一\丨丨一/儿/丨一丫\/丨
特殊的,除去“冖饣宀买疋欠矛虎皮”类的所有横下勾中的勾,“扌丁于”类的竖左勾中的勾,“比”类的竖右勾中的勾是字素之外;其它笔画中的勾(横上勾、挎勾、其它竖勾)都不是字素。如:“钅艮独匕寸讠水隶刂”中的勾不是字素。多数的勾在字中只起美化字形的作用,是写字时产生的笔锋,区别字的作用很小,几乎没有区别字的作用。
另外,有些字中丨与/处于两可之间,不容易区分,“匀 勺 九”中的是丨,“刀 马 鸟 乌 弓 勿 韦 亏 弓”中带勾的字素是/;有些字中的一与/不容易区分,“马 土 牛 子 正 己 山 车 王 血 立 县 肆 玄”类的字中的是一,“驮 坏 牡 孑 政 改 峡 转 理 衅 竣”类中的是/。
确定字素关系、字素关系点的规则:
相离字素的确定规则:相邻的两个字素之间有空隙的是相离关系,这两个字素互为相离字素(用“离”表示)。如:八 三 心 州 中的各个字素是相离字素。
相切字素的确定规则:一个字素中部与另一个字素尾部之间无空隙的或一个字素中部与另一个字素头部之间无空隙的是相切关系,这两个字素互为相切字素(用“切”表示)。如:丁 人 个 下。
相交字素的确定规则:一个字素中部与另一个字素中部之间无空隙的是相交关系,这两个字素互为相交字素(用“交”表示)。如:十 七 九。
相接字素的确定规则:一个字素头部与另一个字素头部之间无空隙的或一个字素尾部与另一个字素尾部之间无空隙的是相接关系,这两个字素互为相接字素(用“接”表示)。如:厂 区 口。
相连字素的确定规则:一个字素尾部与另一个字素头部之间无空隙的是相连关系,这两个字素互为相连字素(用“连”表示)。如:乙 了。
(丨的尾部与一的头部之间无空隙、这个一的尾部又与另一个丨的尾部之间无空隙时、并且另一个丨的头部与另一个一的尾部之间无空隙或另一个丨的中部与另一个一的中部之间无空隙的,丨与一的关系在些场合可作为相接关系而不作为相连关系。丨的尾部与/的尾部之间无空隙时,丨与/的关系在些场合可作为相连关系而不作为相接关系。)
除一、丨、/、\四种外的笔画,绝大多数是由相连字素组成的,少数是是由丨与/或\相接而组成的。字部中字素的排序规则体现在笔画中就是笔画的排序规则,也就是字的书写规则。
字素关系点是指一个字素与另一个字素之间发生相切、相交、相接、相连关系的地方。
字素长短是字中字素的一种客观属性,多字素字中的字素之间相互是有对比的,这种对比有区分不同的字的作用。字形中有区分字的作用的字素长短一般分为长(用“长”表示)、中(用“中”表示)、短(用“短”表示)三种。字集较大时字素长短可以分成三种以上,从而更好的区分字集中的字。
连属字素和孤立字素。一组字素中的字素之间有相连、相交、相接、相切关系或通过其它字素有连络的这组字素中的字素之间是连属关系,这组字素为连属字素。一个字素与所有的其它字素之间是相离关系的这个字素与其它字素间是孤立关系,这个字素为孤立字素。一个字素与另一个字素之间有相连、相交、相接、相切关系的是直接连属字素,这两个字素互为直接连属字素。一个字素通过另一个字素或几个相连字素与其它字素有连络的是间接连属关系,这两个字素互为间接连属字素。
规则3确定字部的规则:
一般的,单字中的连属字素、连属字素和其周围的某几个孤立字素、几个孤立字素的边缘之间有空隙的字素是一个字部。从字素组成字部的角度表述则如下:
由连属字素组成一个字部;如:亠 人 十 口 久 车 弗 予 左 九 聿 有 两 束离 册 在 早 垂 事 象 扁 舞是一个字部;
由连属字素和这个连属字素周围的一个孤立字素组成一个字部,两个字素的连属字素优先与一个孤立字素组成一个字部;如:乒 乓 书 刁 寸 义 弋 亍 甫 玉 丹是一个字部、合 含 司 会 气是两个字部
由连属字素和被连属字素隔开的两个以上的孤立字素组成一个字部;如:办 东乐 舟 母是一个字部;黑是两个字部
一个孤立字素与哪个连属字素组成的字部的形状较方正,则这个孤立字素与哪个连属字素组成一个字部,孤立字素与其上面、下面的连属字素组成的都形状较方正时,孤立字素优先与两个字素的连属字素组成一个字部,其它的孤立字素与其下面的连属字素组成一个字部;如:会的两个字部是/\一和一/一\同的两个字部是丨一丨和一丨一丨一
一个孤立的一或丨、/、\与相邻的某个四个以上字素的连属字素形成以左右或上下对称的,并且这个字素所占的字格面积与对称的连属字素大小相当时,这个孤立字素是一个字部,否则不是字部;一个孤立的一或丨、/、\与相邻的某个含两个字素的连属字素优先组成一个字部;如:引 旧 旦 示是两个字部、亘 丽 丝 同是三个字部、彳 么 亍 儿是一个字部
几个孤立字素与相邻的几个连属字素形成以左右或上下对称的,则几个孤立字素组成与连属字素的个数相应个数的字部;如;是四个字部
由没有连属字素隔开的两个以上的相邻的孤立字素组成一个字部;如:二 刂 冫三 氵 忄 彡 小 川 心 州是一个字部。匀头斗是两个字部
特殊的,形状如“门”的字素组成一个字部,是指“门”是一个字部;(“门”的字素排序是\丨一丨;这条也可以不采用,“门”是\丨和一丨两个字部。)
形状如“口”和“門”的连属字素中包围的一个孤立字素是一个字部。如:閂是两个字部;
规则4字集中单字的排序规则:
字集中的单字在单字中字部的排序、字部中字素的排序基础上,以一、丨、/、\为次序对同位字素(即相同位数上的字素)进行排序(也就是说每位上的字素都以一、丨、/、\为次序进行排列);在同位字素排序中,前一字部相同的单字,以后一字部排列。或者单字排序时不用分字部排列,只依照字部中字素的排列次序为序排列单字中的字素,这就是字素文字排序法。
规则5单字中字部的排序规则和确定字部关系的规则:
对单字或单字中用字部关系确定线分出的部分,首先,用上下关系的字部关系确定线“一等,沿单字或单字中用字部关系确定线分出的部分的上部边沿平向下移动,如果与字部边界吻合,这时分成上下两个部分,则上面的部分排列在下面的部分的前面;若不吻合时,再用左右关系的字部关系确定线“丨、”等,沿单字或单字中用字部关系确定线分出的部分的左部边沿平向右移动,如果与字部边界吻合,这时分成左右两个部分,则左面的部分排列在右面的部分的前面;若不吻合时,然后用包围关系的字部关系确定线“口、”等,沿单字或单字中用字部关系确定线分出的部分的上部或左部边沿平向下向右移动,分成的两个部分,除左下右被三面包围的部分和下右被两面包围的部分排列在前之外,其它被包围的部分排列在后;对于单字中用字部关系确定线分出的部分中含有字部的,再依照上述步骤,直到分出的部分是一个字部为至,划分出的部分也依照上述步骤中的排列次序进行排列。
一前一后排列的两个字部之间的字部关系确定线是什么字部关系确定线的,这两个字部之间就是什么字部关系;一前一后排列的两个字部被其它字部隔离的,这两个字部之间是隔离关系。如:
圆中口与口是包围、口与冂是上下、冂与人是上下关系
衍中彳与氵是左右、氵与亍是左右关系
凛中冫与亠是左右、亠与口是上下、口与口是包围、口与一是隔离关系…
有些字中有的字素是一个字素、还是两个字素,如:“走圭哥”中的丨是几个字素,“美类男”中的与一相交的是一个/、还是一个丨和一个/,按照传统和目前的笔顺规范是两个笔画,从字形看很象是一个字素。这个矛盾是由两个原因引起的,一是由于计数笔画的传统;二是由于字形的不标准。有些字素组合是不是一个字部,如:“庄库底应”等前三个字素组成形状如“广”的字中的字素组合“广”,在有的字中是一个字部,在有的字中不是字部,又如:“景”从字形看是两个部,“晾”从字形看是三个字部。对于这类字的字素、字部及其关系的确定和这类字的排序要选择是从习惯,或是从字形进行。
规则6字部中字素的排序规则:
字部中的字素分为孤立字素和直接连属字素、间接连属字素进行排列,孤立字素的排序规则优先于直接连属字素的排序规则,直接连属字素的排序规则优先于间接连属字素的排序规则;排序规则相互矛盾时,首先满足较优先的排序规则,然后尽量满足其它排序规则。如:女一/\/练/一/一/一一丨/一/\
孤立字素的排序规则:有孤立字素的字部中的孤立字素排列于孤立字素中点与连属字素中点同样高的连属字素的后面,排列于孤立字素中点比连属字素中点高的连属字素的前面;如:玉一一丨\一必\/\/\叉一/\\刃一///亦\一/丨/\为\一//\办一///\以\丨//\
字部中的字素都是孤立字素的,字素中点较上较左的排列在前。如:州//\丨\丨小丨/\心\/\\川丨/丨丨
直接连属字素的排序规则:
字素关系点重合的字素,以直接连属字素的排序规则排列;如:木一丨/\
相切字素的排序规则:一般的,一个字素的中部与其它字素的头部相切,字素关系点在中部的字素排列在字素关系点在头部的字素的前面;如:人/\入\/下一丨\从/\/\亍一一丨卜丨\
横或横式撇、正撇、横式挎、正挎的中部与其它字素的尾部相切,字素关系点在中部的字素排列在字素关系点在尾部的字素的后面;如:火\//\上丨一一
竖或竖式撇、竖式挎的中部与其它字素的尾部相切,字素关系点在中部的字素排列在字素关系点在尾部的字素的前面。如:北丨一/丨一/兆/\/丨一/\豕一/\///\飞一\/\疒\一/\/
特殊的,一的头部与丨或/的中部相切,这个一的尾部与另一个丨的尾部相接,并且另一个丨的头部与另一个一的尾部相连,另一个一的头部与这个丨或/的头部相接的,丨或/连续排列于一的后面。如:艮一丨一一丨/\尸一丨一/眉一丨丨一/丨一丨一一一
相交字素的排序规则:一般的,一与丨或/、\相交,一排列在丨或/、\的前面;如:事一丨一丨一一丨一一丨戋\一一\/夫一一/\卅一/丨丨
其它相交字素,以字素中点较高的字素排列在前面,字素中点相同高度的字素以丨、/、\为次序排列,字素中点相同、字素相同的,以字素头部较高的字素排列在前。如;戈\一\/姊一/\//丨一/丨/
特殊的,一与丨或/、\相交,丨或/、\的头部连着其它字素时,一排列于丨或/、\的后面;如:丹/一丨\一母丨一一丨\一\子一/一一册/一丨/一丨一冉丨一丨一丨一船//一丨\一\孑一/丨/孓一/丨\
一与丨或/、\相交,并且一的尾部与两个以上的字素相连时,丨或/、\排列于一的前面;如:九/一丨一
相接字素的排序规则:一般的,一的头部与丨或/、\的头部相接,一排列在丨或/、\的前面;如:厂一/匹一丨一/丨一臣一丨一丨一丨一丨
丨的头部与/或\的头部相接,丨排列在/或\的前面;如:不一/\丨
/的头部与\的头部相接,/排列在\的前面;
一的尾部与丨或/、\的尾部相接,一排列在丨或/、\的后面;
丨的尾部与/或\的尾部相接,丨排列在/或\的前面;
/的尾部与\的尾部相接,\排列在/的前面。如:羊\/一一一丨
特殊的,一的头部与丨或/的头部相接,一的尾部与其它字素相连,一的尾部的相连部分的最后一个字素的尾部比丨或/以及丨或/的尾部的相连部分的最后一个字素的尾部的高低相同或高的,丨或/排列于一的前面;如:月/一丨一一且丨一丨一一一身/丨一丨一一一/
丨的尾部与/或\的尾部相接,以丨、/、\为次序连续排列。如:比一丨一丨一/打一丨\/一丨\收丨丨//一/\
丨的头部与/的头部相接,这个丨与其它字素是相离关系,并且/与另外的丨或/相交的,丨和/以/、丨的次序排列在另外的丨或/的前面;如:也/丨丨丨一
相连字素的排序规则:一般的,相连字素以其字素中点为次序连续排列;如:乙一/一与一丨一/一几/一丨一乃一/一//了一/丨
特殊的,丨的尾部与一的头部相连,这个一的尾部又与另一个丨的尾部相接,并且另一个丨与另一个一相连或相交时,这个丨排列在另一个丨的前面,这个一排列在另一个丨的后面,(这种情况的相连字素也可以连续排列);如:甘一丨丨一一日丨一丨一一屯一丨一丨丨一(甘一丨一丨一日丨一一丨一)
一个字素的尾部与多个字素的头部相连时,多个字素以一、丨、/、\为次序中的第一个字素连续排列于这一个字素的后面,其它字素以与第一个字素的关系排列于这组相连字素的后面;多个字素的尾部与一个字素的头部相连时,多个字素以一、丨、/、\为次序中的第一个字素连续排列于这一个字素的前面,其它字素以与第一个字素的关系排列于这组相连字素的后面。
间接连属字素的排序规则:一般的,对于直接连属字素的排序规则不能确定其前后次序的字素,用间接连属字素的排序排序规则进行排列。一个字素与多个字素之间有相接、相切、相交关系的,以上部的字素排于下部的字素的前面,左部的字素排于右部的字素的前面为次序接连排列。从字素关系的角度表述具体内容如下:
一个字素是横或横式撇、正撇、横式挎、正挎与多个字素之间有相接、相切、相交关系,并且多个字素处于这个字素上面或左面时,多个字素以字素关系点从左到右排列于这个字素的前面;如:皿丨一丨丨丨一学\\//一/一/丨一
一个字素是横或横式撇、正撇、横式挎、正挎与多个字素之间有相接、相切、相交关系,这个字素的头部与另一个字素的中部相切,另一个字素的头部高于右边第一个字素的头部时,另一个字素排于右边第一个字素的前面、否则排于右边其它字素的后面;如:足丨一丨一丨一/\
一个字素是竖或竖式撇、竖式挎与多个字素之间有相接、相切、相交关系,并且多个字素处于这个字素左面时,多个字素以字素关系点从上到下排列于这个字素的后面;如:非丨一一一丨一一一
一个字素是横或横式撇、横式挎与多个字素之间有相接、相切、相交关系,并且多个字素处于这个字素下面时,多个字素以字素关系点从左到右排列于这个字素的后面;如:爪//丨\虎丨一一//丨一//一丨一
一个字素是竖或正撇、竖式撇、正挎、竖式挎与多个字素之间有相接、相切、相交关系,并且多个字素处于这个字素下面或右面时,多个字素以字素关系点从上到下排列于这个字素的后面;如:片/丨一一丨(衣\一//\丨)
一个连属字素中的一个或一组字素与一个或另一组字素形成对称关系时,首先以上部的排于下部的前面,再以左部的排于右部的前面为次序接连排列。如:父/\/\介/\/丨兹\/一/一/一\/一/一\韭丨一一一丨一一一一臼/丨一一丨一一瓜//丨/\\死一/一/\丨一/(我/\一丨/\/)亞一丨一丨一丨丨一丨一丨一與/丨一一丨丨一丨一丨一/\雍\一/一/一//\一丨一一丨一
一与丨或/、\相交时,处于一的上部的字素都排列于一的前面;如:来一\/一丨/\一一丨一丨一丨一一
含有形状如“凵”的字部中的字素组合“凵”所包围的字素排列于“凵”的前面;如:齒丨丨一一/\/\一/\/\丨一丨豊一丨丨一一一丨丨一丨一丨一丨一\/一齿丨丨一一/\丨一丨
含有形状如“戈”的字部中的字素组合“戈”排列于与“戈”中的一下面相切、相接的字素,与“戈”中的一相交的字素的前面,或者不包括“我”字;(这条规则也可以不采用,含有形状如“戈”的字部以其它排序规则进行排序。)如:武一\一\丨丨一/成\一\//一/载一丨\一\/一/一丨/(成\一/一/\/载一丨\一一/一丨/\/)
含有形状如的字部中一上面的字素排列于的前面;如:鸟/一丨\丨一/一馬一一一丨丨一//\\\
规则7次要特征字部状况、字素关系、字素长短、字素中点的排序规则:
主要特征相同的字,首先,对于字部排序相同、字素排序相同的单字,以同位字部与其后继字部之间关系的左右、上下、包围、隔离的前后次序排列,字素文字排序法以字部状况的左右、上下、包围、隔离、独体的前后次序排列;如:吧邑、呗员、旰旱、加召、旮旭、迦迢
第二,对于字部状况还排序相同的字,以字部(或单字)中的同位字素和其后继字素之间关系的相离、相切、相交、相接、相连的前后次序排列;如:八人、亍干、工士、大丈、已己、石右、父爻、肛肚、
第三,对于同位字素和其后继字素之间关系还排序相同的字,以字部(或单字)中的同位字素有区别特征的字素长短的短、中、长的前后次序排列;如:刀力、开井、目且、天夫、甲申、已巳、土士、午牛、未末、田由、由冉、央史、夕久、曰日
最后,对于同位字素有区别特征的字素长短还排序相同的字,以同位字素的字素中点较高的字排列于字素中点较低的字素的前面。对于字集中的字排序进行到这一步时,如果还有字无法排定次序,就要认真辨别无法排定次序的字,是一个字,还是几个字。7000个汉字的《现代汉语通用字表》中,只有“夕久”两个字略具以字素中点区分的意味,但是“夕久”两个字还能粗略的以字素长短区分。
规则8字符的排序规则:
把字符对照横、竖、撇、挎、上弧、下弧、左弧、右弧、字符填实进行分解,即可得到这个字符的最小构成单位。先以字符的最小构成单位排列字符,再以字符的最小构成单位的中点的位置的高低左右排列字符。
排序后的字符排列在排序后的文字的前面或后面,从而便利文章的检索。
规则9附加规则:结合语音排序法组成语音加字部排序法或字部加语音排序法。
文字排序举例如表1所示:
方法的作用是用于各种各样的文字排序、文字检索、文字编码场合。
表1一些字的字形数据排序举例字字素、字部、字部状况关系长短噩珏未末于聪惠酌藏地捣陋随鹦呵咕吗吧邑固鼎鄙默龈慷镶毽肛肚丝线馏饿飕貌诼书旋疲威糯一一丨一包丨一丨一隔丨一丨一隔丨一丨一隔丨一丨一一一丨/左一一丨一一一丨/独一一丨/独一一丨独一丨丨一一/左/上丨一丨一上/\一-丨一丨一一丨/上/\一丨一丨/一一左/一丨一丨丨上一//丨一一/包一丨一丨一丨一丨一丨/左丿丨丨丨一一丨/左/一丨丨一丨包丨 丨一丨一/丨左丨一包一丨一丨/一/丨左一/包一/丨一丨一一丨一丨上/左丨一丨上/上一//左/一丨丨一//丨一丨一左一丨包丨一丨一丨一丨一左一丨丨一丨一丨一丨一左一丨丨一丨一丨一丨一左一丨丨一丨一丨一丨一上一丨丨一丨一丨一丨一包一丨丨一丨一丨一丨一一一包丨一丨一/左丨一丨一丨丨一丨一一丨 丨一丨一包丨一丨一左一/丨丨一丨/一一丨/上/\左一/丨丨一一/丨一丨左一丨一一丨/丨丨左一/一丨一一丨///一上一一丨左一上丨一丨一丨一丨一一丨 丨一/丨//一一丨一包一/一/包一丨一一丨/一丨一一左一丨一/一丨一一左一丨一/一/一左/一/一上一/一/一/左一一//一/丨左/丨/左一//上丨一丨一丨一/一/丨左/一丨///一包/包/丨一一丨一一丨一//\///左/丨一丨一一/丨一一丨左一////一丨一/丨独一/一/左/一上一/丨一/一//包一/丨/一/一//一一//独/一丨/左一丨一丨丨包\包\上一/丨一丨丨丨交连离连接切交短长