汉字笔形码编码方法 本发明是关于汉字的一种编码方法。
目前汉字编码方法很多,已经在计算机上使用的汉字编码方法有几十种,其中包括最常见的拼音码、首尾码、五笔字型码、大众码和表形码等。这些编码都未能很好地同时解决汉字拆码的简易性、汉字输入的快速性和编码方法易记易学三方面的矛盾。例如拼音码,虽然简单易学,但重码率高,输入速度慢。首尾码、五笔字型码、大众码和表形码等虽然能实现汉字的快速输入,但汉字拆码难,部件或字根难以记忆。最近出现的自然码,是在双拼法的基础上发展起来的,它采用以词为主导、字词混合的编码方法,其汉字输入速度更高。但是这种编码方法仍存在汉字不易拆码、部件多、难以记忆等缺点。
本发明的编码方法在于不另外引入部件、字根等,而是通过选择汉字中的子汉字对汉字拆分,然后采用声码、韵码和笔形码对汉字和汉字拆分成的各个部分(下面统称为子部)进行编码。这样使汉字的拆分变得十分简单,因此彻底克服了许多编码方法中存在的汉字难以拆分、部件和字根多、不易记忆等缺点。对于熟练掌握、一般掌握和完全不懂汉语拼音的人(只需记住26个非常易记的笔形码)都能做到汉字拆分容易、编码方法简单、易记易学,且重码率低,可实现汉字的更高速度输入。
下面对本发明进行详细说明。
按汉字拆分成的子部数目不同,本发明地编码体系分为两分体系(汉字最多拆分成两部分)、三分体系(汉字最多拆分成三部分)和四分体系(汉字最多拆分成四部分)。对于不同的编码体系,有不同的编码方法。在每种体系中,包括全笔形码法和部分笔形码法两大类方法,部分笔形码法又分为声韵笔形码法和声笔形码法,它们又包括许多方法。声韵笔形码法适用于熟练掌握汉语拼音的人,声笔形码法适用于一般掌握汉语拼音的人,全笔形码法适用于完全不懂汉语拼音的人。本发明一共提供了38种基本编码方法,可采用任何一种方法对所有汉字和词组进行编码。
子汉字是指一个汉字中所包含的汉字。我们规定交式单体字都不拆分,因此交式单体字不包含子汉字。本发明对汉字的拆分原则是:
1.按照二分体系或三分体系或四分体系将汉字最多拆分成二或三或四部分。如“辞”拆分成两部分时,为“舌”和“辛”,拆分成三部分时,为“舌”、“立”和“十”,拆分成四部分时,为“千”、“口”、“立”和“十”。
2.按照二分体系、三分体系和四分体系将汉字尽可能拆分成二或三或四部分。如“旺”拆分成四部分时,为“日”、“一”、“十”和“一”四部分。
3.汉字拆分时,尽量先取最大部分作为子汉字,如有需要,子汉字还可进一步拆分。如“暮”先拆分成“莫”和“日”,在三分和四分体系中,“莫”可再逐步拆分出“大”、“日”。“熊”也类似。
4.汉字中的各部分尽可能多地参与编码。如“赣”拆分成四部分时,先拆分出“章”后,再从其右半部拆分出“贡”,“贡”再拆成“工”和“贝”。
5.完全按汉字笔画顺序进行拆分。如从“产”的前部分拆分出子汉字“立”,而不从后部分拆分出子汉字“厂”。“疑”拆分成三部分时,第一、第二部分别为“匕”、“矢”,剩余部分为第三部。
6.汉字尽可能多地拆分出子汉字。如在四分体系中,“躁”拆分成“口”、“止”、“品”和“木”。“檐”则拆分出“木”、“八”和“言”,而不拆分出“木”和“厂”。
7.在部分笔形码法中,笔画一横“一”不是子汉字,在全笔形码法中,对于单部字(无子汉字的汉字),规定笔画“一”是子汉字。二分体系中汉字编码方法
按子汉字将汉字最多拆分成两部分时,会出现表1中八种情况。
表1 汉字在两分体系中拆分的结果
注:(1)√表示子汉字。(2)×表示非子汉字。(3)○表示字的某些部分不存在。
(4)□表示字的中间部分存在。(5)除串、羔为单部字外,其余都是双部字。
将汉字按表1拆分后,就可以采用表4所述的方法对汉字进行编码。每个汉字都包含有声码、韵码和最多两个笔形码(第一笔形码和第二笔形码),分别记为声0、韵0、形01和形02。子汉字包含有声码和最多两个笔形码,非子汉字最多只有两个笔形码,没有声码。如果第一部为子汉字,其声码、第一笔形码和第二笔形码可分别记为声1、形11、形12,如此类推,例如形22表示第二子部的第二笔形码,形41表示第四子部的第一笔形码。声码和韵码分别取汉字或子汉字拼音的声母和韵母部首字母或者按双拼法取码。笔形码的代码规则见表3。为便于说明,我们采用表2中的数字表示各种笔画的组合特征。
表2 笔画组合特征的数字表示方法 次 笔 画 无 横 竖 撇 捺 折 首 笔 画 横 11 11 12 13 14 15 竖 21 21 22 23 24 25 撇 31 31 32 33 34 35 捺 41 41 42 43 44 45 折 51 51 52 53 54 55
注:首笔画指第一或第三笔画。
次笔画指第二或第四笔画。
所有笔形码由汉字或子部的最前面的1-4笔画所决定,对二笔画以下(包括二笔画)的汉字和子部,它们的笔形码只有一个,分别用形01、形11和形21等表示。对二笔画以上的汉字或子部,其笔形码有两个:第一和第二笔形码,可以分别用形01、形11、形21、形02、形12和形22表示。第一笔形码由第一和第二笔画决定或仅由第一笔画(当其为单一笔画时)决定,第二笔形码由第三和第四笔画决定或仅由第三笔画(当其由三笔画构成时)决定。
笔形码代码可选择表3中的某一种规则。
表3 笔形码代码规则 Q W E R T Y U I O P A S D 规则一 11 12 13 14 15 21 22 23 24 25 31 32 33 规则二 15 14 13 12 11 21 22 23 24 25 35 34 33 规则三 42 53 15 43 45 55 51 24 35 41 11 44 14 F G H J K L M X C V B N 规则一 34 35 41 42 43 44 45 51 52 53 54 55 规则二 规则三 32 31 41 42 43 44 45 55 54 53 52 51 21 22 23 25 31 32 33 54 13 52 12 34
注:在全笔形码法中,笔画一撇的数字组合为23,笔画横“一”
的笔形码为“Z”。
当然,还可以选择其它不同的笔形码代码规则,使重码率进一步降低。
二分体系中笔形码编码方法和编码规则如表4所示。
表4 二分体系中单字的笔形码编码方法和编码规则 编 码 方 法字型 编 码 规 则 码长[注1]全笔形码法1.全笔形码法单部双部形01+形02 [注2]形11+形12+形21+形22 [注3] 1-2 2-4部分笔形码法声韵笔形码法︵笔形音码法︶2.声韵形1形2法单部双部声0+韵0+形01声0+韵0+形11+形21 3 43.声韵声1声2法单部双部声0+韵0+形01声0+韵0+声1(形11)+声2(形21) [注4] 3 44.声韵形1声2法单部双部声0+韵0+形01声0+韵0+形11+声2(形21) 3 45.声韵声1形2法单部双部声0+韵0+形01声0+韵0+声1(形11)+形21 3 4声笔形码法︵笔形声码法︶6.声形1形2法单部双部声0+形01+形02 [注5]声0+形11+形21+形22 [注6] 2-3 3-47.声声1声2法单部双部声0+形01+形02 [注5]声0+声1(形11)+声2+形21 [注7] 2-3 3-48.声形1声2法单部双部声0+形01+形02 [注5]声0+形11+声2+形21 [注7] 2-3 3-49.声声1形2法单部双部声0+形01+形02 [注5]声0+声1+形11+形21 [注8] 2-3 3-4
注1:按编码规则,有些汉字因笔画较少,码长会少1-2个码。
注2:可加声码作为第三码,以减少重码。
注3:形12或形22之一不存在时,为三码;形12和形22均不存在时,为两码。
注4:声1(形11)、声2(形21)表示声码不存在时,使用笔形码,即声码优先。
注5:形02不存在时,为两码。
注6:形22不存在时,为三码。
注7:声2不存在时,为三码。
注8:声1不存在时,为三码。
词组编码方法见表5。在词组中,单个汉字的取码规则见表5中单字取码规则栏。
表5 不同编码方法中词组的笔形码编码规则 全笔形码法 声韵笔形码法 声笔形码法单字取码规则 第一码 第二码 第一码 第二码 第一码 第二码 第一码 第二码单部字 形01 形02 声0 韵0 声0 形01 声0 形01双部字 形11 形21 声0 韵0 声0 形11 声0 形11 双字词码 形形 形形 ① ② [注1] 声韵 声韵 ① ② 声韵 声形 ① ② 声形 声形 ① ② 声形 声韵 ① ② 声形 声形 ① ② 三字词码 形形 形 形 ① ② ③ 声韵 声 声 ① ② ③ 声 声 声韵 ① ② ③ 声形 声 声 ① ② ③ 声 声 声形 ① ② ③ 声形 声 声 ① ② ③ 声 声 声形 ① ② ③ 四字词码 形 形 形 形 ① ② ③ ④ 声 声 声 声 ① ② ③ ④ 声 声 声 声 ① ② ③ ④ 多字词码 形 形 形 形 ① ② ③ 末 声 声 声 声 ① ② ③ 末 声 声 声 声 ① ② ③ 末
注:①、②、③、④和“末”分别表示词组中的第一、二、三、四和最后一个单字。
注1:形形 表示第一个形字取第一个汉字的形01或形11码,第二个形字取第
①: 一个汉字的形02或形21码,其余类推。
三分体系中汉字的编码方法
在三分体系中,汉字分为单部字、双部字和三部字。
汉字按照二分体系拆分后,有的单部字仍为单部字,一部分双部字和单部字可按字首、字中和字尾三部分直接“看成”三部字,例如表1中的5、6、7和8栏所示的双部字和单部字,另一部分双部字(表1中的1、2和3栏)如果可继续拆分,则可拆成三部字。如果仅第一部或第二部可拆分成两部分,则只要将其拆分,就可拆成三部字。如果第一部和第二部均可拆分成两部分,则它们的拆分原则是:
如果第一、第二部拆分以后,得到的子汉字数目分别为α和β,当α≤β时,则拆分第二部。注意:如果拆分第一部后各部所包含的子汉字总数大于拆分第二部后各部所包含的子汉字总数,则拆分第一部。如按三分法拆分“殿”,拆分左半部后子汉字有“尸”、“共”和“殳”,总数为三,拆分右半部后的子汉字只有“几”和“又”,总数为二,所以应拆分左半部。如果第一、第二部都不包含子汉字,则汉字仍为双部字。
下面具体对单部字、双部字和三部字进行详细说明。
1.单部字:具有下列特征的汉字都称为单部字。
(1)交式单体字:如东、未、申、中、串和丰等。
(2)无法拆分出子汉字的连或散式单体字:如心、瓜、爪和予等。
(3)无法拆分出子汉字的双体字或三体字:如卵、扎和巡等。
2.双部字:具有下列特征的汉字都称为双部字。
(1)只能拆分出一个子汉字或只能拆分成两个子汉字的连式或散式单体字,如土、父、太、白、今、矛、产、亚、名、易、星和岁等。例如“太”拆分为“大”和“、”,“岁”拆分为“山”和“夕”。
(2)双体字中至少有一体为子汉字,且此二体不能再分出子汉字,如从、明、订、江、过、闭、畅、春、鹅、汞、纯和氙等。如“明”拆分为“日”和“月”,“鹅”拆分为“我”和“鸟”。
(3)仅字首或字尾部分为子汉字的汉字,前者如足、走等,后者如受、帝、字、着、允、帚和学等。“足”拆分为“口”和,而“受”拆分为和“又”等。
(4)三体字或多体字中,拆分成两部分后,不能再拆分出子汉字,如昂拆分为“日”和。
3.三部字:具有下列特征的汉字都称为三部字。
(1)可拆分出子汉字、且该子汉字可再拆分出子汉字的连或散式单体字,如王、光、矢、百、卓、丢、午、舌和缶等。例如“舌”拆分为“千”和“口”,“千”再拆分为“ノ”和“十”。
(2)可拆分出两个子汉字的连或散式单体字,如桌和卒等。“卒”拆分为“亠”、“从”和“十”。
(3)仅中间部分为子汉字的汉字,如鱼、羔和荒等。“鱼”拆分为“”、“田”和“一”,“荒”拆成“艹”、“亡”和。
(4)至少有一体为子汉字、并且该子汉字可再拆分出子汉字的双体字,如敌、独、柏、玻、残、泵、吉、墨、柔、肩、闰、迟和庆等。例如从“玻”拆分出“皮”,从“皮”再拆分出“又”。
(5)三体字中至少有两体为子汉字,如享、崇、冀、崽、品、崭、想、枷、湘、斑、辑、昭、部、尉、阔、厢和屡等。如“崽”拆分为“山”、“田”和“心”,“斑”拆分为“王”、文”和“王”。
(6)三体字中有两体可构成子汉字、且该子汉字可再拆分出一个子汉字,如彻、喂、漕和褓等。例如“褓”的最右面两体可构成子汉字“保”,从“保”中可再拆分出一个子汉字“呆”。
(7)具有下列特征的三体字或多体字,
如赢和嚣等,它们均由五个独立的子汉字构成,则拆分出最前面两个子汉字作为第一、第二部,剩余部分作为第三部。如“赢”拆分为“亡”、“口”和。又如疑和嶷等,可采取类似的方法进行拆分。例如“疑”拆分为“匕”、“矢”和。
三分体系中笔形码编码方法和编码规则如表6所示。
表6 三分体系中单字的笔形码编码方法和编码规则 编 码 方 法字型 编 码 规 则 码长全笔形码法1.全笔形码法单部双部三部形01+形02形11+形12+形21+形22形11+形21+形22+形31 1-2 2-4 3-4 部 分 笔 形 码 法 声 韵 笔 形 码 法 ︵ 笔 形 音 码 法 ︶2.声韵形1形2法单部双部三部声0+韵0+形01声0+韵0+形11+形21同上 3 4 43.声韵声1声2法单部双部三部声0+韵0+形01声0+韵0+声1(形11)+声2(形21)同上 3 4 44.声韵形1声2法单部双部三部声0+韵0+形01声0+韵0+形11+声2(形21)同上 3 4 45.声韵声1形2法单部双部三部声0+韵0+形01声0+韵0+声1(形11)+形21同上 3 4 4 声 笔 形 码 法 ︵ 笔 形 声 码 法 ︶6.声形1形2形3法单部双部三部声0+形01+形02声0+形11+形21声0+形11+形21+形31 2-3 3 47.声声1声2声3法单部双部三部声0+形01+形02声0+声1(形11)+声2(形21)声0+声1(形11)+声2(形21)+声3(形31) 2-3 3 48.声形1声2形3法 [注1]单部双部三部声0+形01+形02声0+形11+声2(形21)声0+形11+声2(形21)+形31 2-3 3 49.声声1形2形3法 [注2]单部双部三部声0+形01+形02声0+声1+形11+形21声0+声1(形11)+形21+形31 2-3 3-4 410.声1声2声3法单部双部三部声0+形01+形02声1(形11)+声2+形21 [注3]声1(形11)+声2+形21+声3(形31) [注4] 2-3 2-3 3-4
注1:还有声形1声2声3法和声形1形2声3法。
注2:还有声声1形2声3法和声声1声2形3法。
注3:声2不存在时,为两码。
注4:声2不存在时,为三码。
三分体系中词组编码方法完全采取二分体系的词组编码方法,即词组中的单字采取二分体系方法拆分。四分体系中汉字的编码方法
在四分体系中,汉字分为单部字、双部字、三部字和四部字。
汉字按照二分法和三分法拆分后,有些可继续拆分成三部字和四部字。有些汉字应直接从二分体系中双部字拆分成四部字,不应经过三部字。如“槁”不是三部字,而是四部字。又如“糕”经过三拆分后,为“丷”、“木”和“羔”,而它在四分体系中应拆为“米”、“丷”、“王”和“灬”。类似地还有“鳖”等。
对三分体系中的三部字,如果第一、第二和第三部拆分后,得到的子汉字数目分别为α、β和γ,当α≤β和γ≤β时,规定拆分第二部。当α≤γ和β<γ时,则规定拆分第三部。如果拆分第一部后各部所包含的子汉字总数分别大于拆分第二和第三部后各部的子汉字总数,则拆分第一部,例如“壁”拆分为尸、口、辛和土。如果拆分第三部后各部包含的子汉字总数大于拆分第二部后各部包含的子汉字总数、且不小于拆分第一部后各部的子汉字总数,规定拆分第三部。如果第一、第二和第三部都不包含子汉字,则这些汉字仍为三部字。
具体地说,三分体系中关于单部字和双部字的说明仍然适合于四分体系,而三部字的说明在四分体系中有些不同。下面详细说明。
1.三部字:具有下列特征的汉字都称为三部字。
(1)可拆分出一个子汉字、且该子汉字只可再拆分出一个子汉字的连式或散式单体字,如王、光、矢、百、卓、丢、午、舌和缶等。
(2)只可拆分出两个子汉字的连或散式单体字,如桌等。
(3)仅中间部分含有子汉字的汉字,如参、鱼、羔和荒等。
(4)至少有一体为子汉字、并且仅该子汉字只可再拆分出一个子汉字的双体字,如独、柏、残、泵、吉、墨、柔、肩、迟和庆等。
(5)三体字中至少有两体为子汉字,且三体都不能再拆出子汉字,如享、崽、森、品、崭、想、枷、树、湘、辑、昭、凯、部和厢等。
(6)三体字中仅两体可构成子汉字、且该子汉字只可再拆分出一个子汉字,而另一体不能拆分出子汉字,如彻、喂、漕和褓等。
2.四部字:具有下列特征的汉字都称为四部字。
(1)在至少有一体为子汉字的双体字中,至少有一体含有两个以上的子汉字,例如说、膀、熊、鲩、糅、糍和荜等。
(2)在至少有一体为子汉字的双体字中,两体中各含有一个以上的子汉字,例如踉和粝等。
(3)象渔、鲜这样的双体字,鱼拆分为三部分。
(4)三分体系中的三部字,至少有一部还可分出一个子汉字,例如智、壁、鹄、解、煤、蜘、弼、凰、屡、盗、哭和阔等。
(5)汉字拆分成四部分后,至少有三部为子汉字,如燠、潭、蹉、蹁、腐、摩、鼓、骥、蟑和鳎等。
(6)中间部分可拆分出两个子汉字,如烹和卒等。
(7)汉字拆分成四部分后,至少第一和第三部均为子汉字或至少第二和第四部均为子汉字,前者如都、煮、熹、亟和嬗等,后者如复、敢、褚、靠、灌、疑和摄等。
(8)具有下列特征的多体字,如赢和嚣等,它们均由五个独立的子汉字构成,则拆分出最前面的三个子汉字作为第一、第二、第三部,剩余部分作为第四部。又如嶷,可采取类似的方法进行拆分。
四分体系中笔形码编码方法和编码规则如表7所示。
表7 四分体系中单字的笔形码编码方法和编码规则 编 码 方 法字型 编 码 规 则 码长全笔形码法 1.全笔形码法单部双部三部四部形01+形02形11+形12+形21+形22形11+形21+形22+形31形11+形21+形31+形41 1-2 2-4 3-4 4部分笔形码法声韵笔形码法☆ 2.声韵形1形2法 [注1]单部双部三部四部声0+韵0+形01声0+韵0+形11声0+韵0+形11+形21同上 3 3 4 4 3.声韵声1声2法单部双部三部四部声0+韵0+形01声0+韵0+声1(形11)声0+韵0+声1(形11)+声2(形21)同上 3 3 4 4声笔形码法︵笔形声码法︶ 4.声形1形2形3法单部双部三部四部声0+形01+形2声0+形11+形21声0+形11+形21+形31同上 2-3 3 4 4 5.声声1声2声3法单部双部三部四部声0+形01+形02声0+声1(形11)+声2(形21)声0+声1(形11)+声2(形21)+声3(形31)同上 2-3 3 4 4 6.声声1形2形3法 [注2]单部双部三部四部声0+形01+形02声0+声1(形11)+形21声0+声1(形11)+形21+形31同上 2-3 3 4 4 7.声形1声2形3法 [注3]单部双部三部四部声0+形01+形02声0+形11+声2(形21)声0+形11+声2(形21)+形31同上 2-3 3 4 4 8.声1声2声3声4法单部双部三部四部声0+形01+形02声1(形11)+声2+形21声1(形11)+声2(形21)+声3(形31)声1(形11)+声2(形21)+声3(形31)+声4(形41) 2-3 2-3 3 4
注1:类似地,还有声韵形1声2法和声韵声1形2法。
注2:类似地,还有声声1形2声3法和声声1声2形3法。
注3:类似地,还有声形1声2声3法和声形1形2声3法。☆:即笔形音码法。
四分体系中词组编码方法完全采取二分体系的词组编码方法,即词组中的单字采取二分体系方法拆分。
同一汉字在不同的体系中具有不同的字型,从而会有不同的拆分结果,下面举例说明(详见下表)。
注:重在全形码法中是双部字。
综上所述,本发明的编码方法就是按照汉字拆分成的子部数目的不同,将编码体系分为二分体系、三分体系和四分体系,对于不同的编码体系,汉字单字有不同的编码方法,在每种体系中,包括全笔形码法和部分笔形码法两大类方法,部分笔形码法又分为声韵笔形码法和声笔形码法,它们又包括下列多种方法:
(1)全笔形码法:
a.编码规则:形01+形02,
适用范围:用于二、三和四分体系中单部字,
b.编码规则:形11+形12+形21+形22,
适用范围:用于二、三和四分体系中双部字,
c.编码规则:形11+形21+形22+形31,
适用范围:用于三和四分体系中三部字,
d.编码规则:形11+形21+形31+形41,
适用范围:用于四分体系中四部字,
(2)声韵形1形2法:
a.编码规则:声0+韵0+形01,
适用范围:用于二、三和四分体系中单部字,
b.编码规则:声0+韵0+形11,
适用范围:用于四分体系中双部字,
c.编码规则:声0+韵0+形11+形21,
适用范围:用于二分体系中双部字和三分体系中双部字、三
部字以及四分体系中三部字和四部字,
(3)声韵声1声2法:
a.编码规则:声0+韵0+形01,
适用范围:用于二、三和四分体系中单部字,
b.编码规则:声0+韵0+声1(形11),
适用范围:用于四分体系中双部字,
c.编码规则:声0+韵0+声1(形11)+声2(形21),
适用范围:用于二分体系中双部字和三分体系中双部字、三
部字以及四分体系中三部字和四部字,
(4)声韵形1声2法:
a.编码规则:声0+韵0+形01,
适用范围:用于二、三和四分体系中单部字,
b.编码规则:声0+韵0+形11,
适用范围:用于四分体系中双部字,
c.编码规则:声0+韵0+形11+声2(形21),
适用范围:用于二分体系中双部字和三分体系中双部字、三
部字以及四分体系中三部字和四部字,
(5)声韵声1形2法:
a.编码规则:声0+韵0+形01,
适用范围:用于二、三和四分体系中单部字,
b.编码规则:声0+韵0+声1(形11),
适用范围:用于四分体系中双部字,
c.编码规则:声0+韵0+声1(形11)+形21,
适用范围:用于二分体系中双部字和三分体系中双部字、三
部字以及四分体系中三部字和四部字,
(6)声形1形2形3法(二分体系中为声形1形2法):
a.编码规则:声0+形01+形02,
适用范围:用于二、三和四分体系中单部字,
b.编码规则:声0+形11+形21,
适用范围:用于三和四分体系中双部字,
c.编码规则:声0+形11+形21+形22,
适用范围:用于二分体系中双部字,
d.编码规则:声0+形11+形21+形31,
适用范围:用于三分体系中三部字和四分体系中三部字、四
部字,
(7)声声1声2声3法(二分体系中为声声1声2法):
a.编码规则:声0+形01+形02,
适用范围:用于二、三和四分体系中单部字,
b.编码规则:声0+声1(形11)+声2+形21,
适用范围:用于二分体系中双部字,
c.编码规则:声0+声1(形11)+声2(形21),
适用范围:用于三和四分体系中双部字,
d.编码规则:声0+声1(形11)+声2(形21)+声3(形31),
适用范围:用于三分体系中三部字和四分体系中三部字、四
部字,
(8)声声1形2法:
a.编码规则:声0+形01+形02,
适用范围:用于二分体系中单部字,
b.编码规则:声0+声1+形11+形21,
适用范围:用于二分体系中双部字,
(9)声形1声2法:
a.编码规则:声0+形01+形02,
适用范围:用于二分体系中单部字,
b.编码规则:声0+形11+声2+形21,
适用范围:用于二分体系中双部字,
(10)声声1形2形3法:
a.编码规则:声0+形01+形02,
适用范围:用于三和四分体系中单部字,
b.编码规则:声0+声1(形11)+形21,
适用范围:用于四分体系中双部字,
c.编码规则:声0+声1+形11+形21,
适用范围:用于三分体系中双部字,
d.编码规则:声0+声1(形11)+形21+形31,
适用范围:用于三分体系中三部字和四分体系中三部字、四
部字,
(11)声形1声2形3法:
a.编码规则:声0+形01+形02,
适用范围:用于三和四分体系中单部字,
b.编码规则:声0+形11+声2(形21),
适用范围:用于三和四分体系中双部字,
c.编码规则:声0+形11+声2(形21)+形31,
适用范围:用于三分体系中三部字和四分体系中三部字、四
部字,
(12)声1声2声3声4法(三分体系中为声1声2声3法):
a.编码规则:声0+形01+形02,
适用范围:用于三和四分体系中单部字,
b.编码规则:声1(形11)+声2+形21,
适用范围:用于三和四分体系中双部字,
c.编码规则:声1(形11)+声2+形21+声3(形31),
适用范围:用于三分体系中三部字,
d.编码规则:声1(形11)+声2(形21)+声3(形31),
适用范围:用于四分体系中三部字,
e.编码规则:声1(形11)+声2(形21)+声3(形31)+声4(形41),
适用范围:用于四分体系中四部字,
(13)类似地,还有下列的方法:声形1声2声3法、声形1形2声3法、声声1形2声3法和声声1声2形3法,其编码规则和适用范围也类似。
而词组编码方法是:在各种不同体系中,对于不同的编码方法,词组中的单字有不同的取码规则,双字词码分别由第一字的第一码、第二码和第二字的第一码、第二码构成,三字词码分别由第一字的第一码、第二码和第二字的第一码、第三字的第一码或分别由第一字的第一码、第二字的第一码和第三字的第一码、第二码构成,四字词码分别由第一、第二、第三和第四字的第一码构成,而多字词码分别由第一、第二、第三和最后一个字的第一码构成,注意:
①全笔形码法中双部字第三码(形21码)作为词组中单字第二码,
②声韵笔形码法中单字的第二码(韵0码)作为词组中单字的第二码,也可统一规定其第三码(形01或形11码)为词组中单字的第二码,
③在其它编码方法中单字的第二码即词组中单字的第二码,
④当全笔形码法中,单部字码长为1时,规定其第二码与第一码相同。
另外,在声母和韵母不按双拼法取码的部分笔形码法中,笔形码可采取下述编码方法:将各种笔画分为横、竖、撇、捺和折共五种,第一笔形码由汉字或子汉字或非子汉字部分的第一笔画的种类决定,第二笔形码由汉字或子汉字或非子汉字部的第三笔画种类决定,笔画横、竖、撇、捺和折的笔形码分别用英文字母V、A、E、I、和U作为代码,但第一笔画和第二笔画均为捺时,规定其笔形码为O。
在上述各种体系中,对一些易混淆的字可采用容错码方法,同时为减少重码,对于一些常用部首,可规定与之对应的声码,例如部首“木”的声码为“V”,部首“三点水”(即“汉”字左半部)是子汉字,其声码为“O”。
本发明的汉字编码方法具有规律性强优点,对于熟练掌握、一般掌握和完全不懂汉语拼音的人,可以选择不同的编码方法,都能做到易记易学,汉字拆分十分简单,重码率低和汉字输入速度快。