中文信息排序码 本发明设计出一种精确反映汉字笔划笔顺结构的中文信息排序码,作为汉字排序定位的科学依据。供汉字编目、排序、检索和电子计算机使用。中文信息排序码结束了汉字没有序的历史。在字的形、音、义之外有了第四属性--“序”的属性和“序值”。是中文信息处理上一次创造性的发展和进步。完全消灭了重码,达到了“ 1对1”映射。开拓了以“序”为原则、依据和手段的中文信息处理新领域。推动笔划笔顺编目检索的自动化进程。
在日常生活中,经常会遇到汉字按笔划笔顺排序和检索的情况。如选举名单,图书馆的汉字书名笔划笔顺目录,字典、辞书条目的编检,电话号码人名编检,公安部门户口管理的人名编检等等。汉字笔划笔顺编检是汉字使用历史悠久,应用广泛的一种常用排检法。但汉字本身并不具备笔划笔顺结构的直观显示性,无法一眼“看”出来,或“读”出来。所以编排某字时,需要重复一遍字的笔划笔顺,才能知道它的结构和相应的排序位置,但也仅仅是知道了这个字,还必须找到在结构上与它相邻的乙字之后,才能安排出它的位置。相同的道理,乙字的笔划笔顺结构也照样“看”不出来,“读”不出来,还需要把乙字也重复一遍,才能知道某字是在乙前,还是在乙后。不仅编目时要经过这种繁琐的重复和比较的过程。检索时,仍然要用手和眼睛在目录上再重复一次这个过程,才能“怎样编进去,再怎样找出来”。编目时如果笔划“数”得不准,笔顺“分解”得不对,就会造成某字并没有排在应有的位置上,检索时在应有地位置上就找不到它,从而又人为的增加了检索的难度,使检索难上加难。无计可施时,只好“盲索”--从头查到尾,有如大海捞针。这个“海”很大,象辞书、图书馆目录中某字下的词条、卡片多至上百个,大城市电话号码中相同的姓多至上千个,公安户籍中相同的姓多至上万个。编起来累死人,查起来急死人。稍不留神“漏”过去,就还得从头再来,怎么查也查不到的情况也有发生。汉字笔划笔顺结构不能直观显示的缺欠,不仅给编制目录,资料归档和使用目录造成很大的麻烦和时间上的浪费,还会贻误重要的寻访、洽谈、安检、侦察工作的有利时机,造成无法弥补的损失和遗憾。
本发明就是针对以上缺撼而设计出的一种能够直观的、准确的反映出汉字笔划笔顺结构的中文信息排序码,作为编检笔划笔顺目录时排序定位的科学依据。排序时准确无误,检索时一目了然。
本发明是这样实现的,将汉字按笔划笔顺顺序分解成单笔,再将单笔归纳为5种笔形,即:
横 一 -- 1
竖 丨 -- 2
撇 丿 -- 3
点 丶 -- 4
折 乙 -- 5
这5种笔形依次赋号为:1,2,3,4,5,五个代号。这样每个汉字的单笔笔顺笔形都会对应出一组数字,组成单笔笔顺笔形码,作为中文信息排序码的主体,前面冠以该字的总笔划数。总笔划数不足两位者,前面补“0”占位。后边缀以字的拼音。总笔划数和单笔笔顺笔形码相同的字,依拼音排序。如:“末”为0511234MO,“未”为0511234EEI。“札”为0512345ZA。“末”列“未”前。
这样每一个汉字都会对应出一个中文信息排序码,是这个字按笔划笔顺排序和检索时的精确位置,是中文信息处理中科学的排序定位依据。适用于中文繁体字。也适用于使用汉字的外国文字信息处理。中文信息排序码是直观的,又是可读的,大小分明,前后清楚,确准无误,给汉字的笔划笔顺排序和检索带来极大的方便,如在白城市电话号码簿2158个同是姓王的名单中,查找王仁富的电话号码须3-5分钟。应用中文信息排序码“标引”后,仅用26-56秒。图书馆目录也是众多读者经常使用的,应用中文信息排序码后,也会节省读者的宝贵时间。
应用时,根据需要灵活掌握,可以取全部,也可以取一部分。编目检索“标引”应当分级。可用第一个汉字总笔划数为“类标”或“页标”,以首字总笔划数加该字笔划笔顺形号为“第一标引”,第二字为“第二标引”,第三字为“第三标引”,以此类推。遇相同的字可以跳过去,续查下一个字。
电话号码是供公众使用的,追求通俗易懂。所以可取字的总笔划数加起笔笔形作检索“标引”,内部查询可以加细。如查王仁富的电话号码,先找出相应的号码:王是4划横起,为“4一”。仁是4划撇起,为“4丿”。富是12划点起,为“12丶”。先借助“页标”找到“4一”(王),再借助“二标”找到“4丿”(仁),再借助“三标”找到“12丶”(富),查找即告完成。电话号码这样编排和查询,好处是借助姓名的总笔划数加上起笔笔形的约束,有效地缩小了查找的范围,当然就缩短了查找的时间。再借助数码+笔形“标引”的直观可读,就更加快了检索速度。为了醒目,“标引”可以加颜色显示,书页可用“马蹄缺口”。
词条的排列可以比照电话号码,取二位或三位数。图书馆卡片可以取四位或五位。公安部门是专业检索,可以取多位或全部。“标引”精密度提高后,不是查找,而是准确地提取,手到擒来。
依据本码编成字序表可作学习笔划笔顺的字帖和编制各类目录的指导。制成软盘,可实现汉字笔划笔顺编目排序的自动化,排序时间接近为“0”。该软片亦可单独显示某字的排序号,供编制条目、卡片时使用。