一、所属技术领域及用途 信息化社会的主要标志是使用电子计算机的现代化手段进行信息处理。其内容包括信息贮存、信息网络、信息传输、信息共享。信息的载体是符号,是语言文字。文字录入机就是属于计算机技术领域的一种作为文字信息输入贮存的专用工具。
例如:保险、银行、户籍、病历的姓名科目;图书、文档的目录摘要;各行各业的商品名称;各专业用辞典……这些具有时间性储存价值的大量信息源都适宜用录入机来输入而不必占用电脑主机。录入机在日本已普遍使用,在我国则刚刚起步。由于汉字的特殊性(包括日文汉字),如何为文字录入机设计一种既快而准又适于持久操作减轻疲劳强度的输入方法是当前文字录入机迫切要求解决的一项新课题。
本项发明的目的,就是为录入员提供一种为专业使用的与文字录入机对口的新输入方法。
二、国内外现有技术水平
国内外现有的汉字编码方案多属于通用型方案。虽然多至数百种,归纳起来看不外“两类四型”:一类是拼音编码,包括音素型和声韵型;一类是字形编码,包括笔画型和部件(字根)型。拼音类方案由于汉语音节少(400个)同音字多,(如yi音节117字-新华字典)不适于高速输入。字形类方案,其中笔画型使用符号少(5~10个)但码位长;部件型方案使用符号多码位稍短,但记忆量大。例如,美国王安《三角编号法》的“九九表”,规定为99组代码300个符号。国内众多的方案及台湾《仓颉编码》(天龙法)通常是用24~26个字母代表130种~250种部件符号,每种部件之中又包含若干个随从部件。以130种部件(字根)分类为例,其中用“T”字母代表“己、已、巳”三个本位部件,其随从部件又包括“乙、、尸、、心、忄、、习”等九个,共计12个字符共容于一个“T”键。如果按“个”计量,其总数也不少于“九九表”的300个符号。《三角编号法》码长六位,其它部件(字根)方案码长不低于四位。因此,现有的部件型方案也达不到录入机地高速而持久的操作要求。
现有的汉字编码方案为提高速度多采用词汇编码或夹以简码的输入手段。这在普通书面用语中起到些辅助作用,但具体到录入机输入的文字信息源方面与此截然不同。例如“我们”、“但是”、“因为”……这些高频词在录入机的带有专业性的文字信息源方面几乎是用不到的词。录入机面对的包罗万象的专用关键词组仍得以单字输入。
编码方案的设计占主导地位的是编码符号。编码符号与码长和速度的关系是:符号少记忆量小则码位长输入速度慢;符号多记忆量大则码位短输入速度快。这是现有编码方案的通则界限。
本项发明从最短码位最小记忆量的技术要求出发,跳出界外,借用日文片假名五十音图的现成键符作为《中日汉字合璧输入法》的编码符号,而无须重新定义键位,无须记忆数百个部件(字根)符号。
三、本项发明的技术特征
本项发明根据中日文字之渊源,采用日文片假名50音图作为编码符号设计了《中日汉字合璧输入法》。
日本汉字与我国汉字本属同文。据统计80%的日文汉字与我国汉字(包括繁体字)形体相同。不同形字多属于日本当用汉字(1850个,于1946年公布)之列的日文简化字,因此,中日汉字可以合璧编码,采用一致的输入方法。
日文字母50音图本源于汉字。例如:
平假名之“”(),本系汉字草书“”(安)之原型字。
片假名:“卩”(a)取自汉字“阿”之部首。(以“卩”代“阿”原称“省文”)
“亻”(i)取自汉字“伊”之部首。
“宀”(u)取自汉字“宇”之部首。
“工”(e)取自汉字“江”之声旁。(以“工”代“江”原称“训文”。)
本发明《中日汉字合璧输入法》的技术特征如下:
1、根据汉字的部首和笔组以片假名为样板提取其具有共性的形象特征部分,归纳出假名-部首相对应的“象形符号。”
片假名 部首 片假名 部首
(卩) 尸、阝 リ(ri) 刂
ウ(u) 宀、门 乇(mo) 钅
才(o) 扌 サ(sa) 艹、廾
亍(te) 广、方 礻(ne) 礻、衤
……
与片假名相对应的笔组,作为编码符号之复笔笔形,相当于“代部首”。
片假名 复笔 例字
(wa)军(冖)、同(冂)、月()
……
リ(ri) ‖ 归(リ)、坚()、齐(リ)
……
根据字源学和汉字部件的组合频度综合平衡归纳为47种编码符号,命名为“假名-部首象形符号对照表。”如图1所示。
2、47种象形符号各以一个部首作代表与假名键符相对应标志在Qwerty键盘的同一键位上,构成一种中日汉字合璧编码的通用键盘。即“假名-部首统一键位图“如图2所示。该键盘对于英、日文字母和汉语拼音字母同样适用。
3、按“假名-部首象形符号对照表”每个字顺取两个符号,两键输入一字。
例字:化-亻、匕 仅-亻、又
们-亻、宀 闭-宀、才
夘-夕、卩 広-テ、ㄙ
沢-氵、卩-八、力
顺取之符号,以象形符号为准,多余的笔画可以略过:
屋-尸、厶 冨-、口
卡-卜、卜 辺-ヘ、ク
包含多个象形符号的字,按汉字结构两分法划界,每部各取其首位的象形符号:
静-キ、ク 栁-ホ、タ
桜-ホ、ッ 蟲-厶、ム
4、本项发明对于同符字(同号字)组内排序采用自动调频方式。
根据《汉字频度表》两千万字次抽样统计。常用汉字其前558个字占使用频度的80.02%;递增到977个字占使用频度的90.57%;递增到1334个字占使用频度的95%……因此,同号字组中的首字位置至关重要-首位字可不经选字键直接输入。
具体到本项发明,其同号字的首字位置更加重要。录入机的文字信息源涉及各行各业的专用字。例如,日常用语中最常用的“的”字(使用率独占4%),如果在人名姓氏用字中要比不太常用的“刘”字逊色。
本发明针对文字录入机信息源的特点,对于同号字内部排序提出自动调频的设计结构。即:同号字之首位字,根据需要随选字键输入而自动调整。
例如:“错、锚、锘”三字同符号-乇、サ(钅、艹),如果要输入“锘”字,加击选字键后,“锘”随即移到首字位置:“锘、错、锚。”当再次输入“锘”字时,“锘”已在首字位置可两键输入,无须再击选字键。
这种同符号字自动调频的设计可适应各专业用字和同一主题文章重复出现字的需求。使相对地常用字经常居于同符号字的首位,除第一次选用时需要三键输入外,再次输入该字时则可两键输入。
本发明《中日汉字合璧输入法》的主导设计思想是突出感性作用,运用直观象形的编码符号-假名、部首合二而一,无须多记,中日人士皆可通用。另外,使单字维持等长码并压缩到最短极限,每字各取两个符号,两位码长,使录入员在轻松的心理状态下具有节奏感地持久操作,以适应文字录入机大信息量的输入要求。
本发明可使用Qwerty通用键盘。Qwerty键盘在日本是兼作英、日两种文字的输入键盘,实现本发明只需在Qwerty键盘上对应日文假名键符标志出汉字的部首符号即可,而无须搞转换程序或重新定义键位。
附图说明:
图1:假名-部首象形符号对照表
加注*号的对应笔画为单笔部首:横、竖、撇、点、捺、折、弯。
图2:假名-部首统一键位图
每个键位左上角为假名,右上角为部首。