一种利用笔写屏技术的汉字输入系统 本发明涉及一种汉字编码计算机轴入系统,特别涉及一种利用笔写屏技术和PDA技术对计算机进行汉字、调输入的输入系统。
当前的计算机汉字输入技术,大体可以分为两类:汉字编码输入技术和汉字识别输入技术。编码输入是把汉字和一定的数字字母序列对应起来,输入一个确定的数字字母序对,相应的汉字就被输入到了计算机中。识别输入则是用计算机自动辨识已经写好的或人正在写的汉字,属于横式识别和人工智能的范畴。
现存的汉字编码方案大体分成表形码和表音码两种,分别利用汉字的字形和读音作为编码的依据。
传统的汉字编码技术,大多是基于电脑键盘,近期随着笔写屏和PDA技术的出现和发展,新的基于笔输入的编码录入方法开始出现,但还很少。传统基于键盘的编码方案,由于受到二十六个英文字母键盘和十个数字键盘的限制,要将几百个汉字偏旁部首分布在三十六个键盘内,每个键盘对应几个偏旁部首;为了把几百个汉字部首都与英文字母或数字建立起联系,不仅不得不把很大一部分部首进一步拆分为更小的部件,使得学习使用起来很困难,而且部件的分类和在键盘上地分布往往没有规律,或规律不明显,需要强记,又容易遗忘。
当前同样是基于笔写屏的汉字录入方法,除了联机手写输入外,还有西安凯特集团推出的一套汉字录入系统(已申请专利)。该系统同时利用了汉字的读音和字形信息,采用与查字典相类似的方法,将所有的英文字母和汉字部首不加分类编码直接显示在屏幕上,由用户直接加以选择。这种方法虽然简便易学,但占用屏幕面积较大,不能够满足PDA屏幕面积较小的特点;而且所有几白个部首不能同时显示在屏幕上,不仅需要切换,查找也较费时,输入速度较慢。
联机手写汉字识别输入也是利用笔输入将汉字输入到计算机中,但识别输入是用户一笔一划将汉字写入,由计算机在用户写入的过程中进行辨识,与本发明属于完全不同的范畴。目前的联机手写识别技术还不能完全满足实用的需要,对用户书写的要求严格,识别速度较慢(平均需要0.5秒),识别率受限制,而且对计算机硬件的要求也较高。
因此,本发明的一个目的就是要提供一种汉字输入方法,本方法利用笔输入的特点,把汉字以部首为单位进行拆分,部首之间一般不交叉,在极少数情况下有一笔交叉;所有部首分成十三类,类中又按部首的起笔笔划或第二笔笔划的不同分成五个小组,按部首所属类别和组别的不同作为部首编码的依据,取汉字的首笔部首和末笔部首编码的组合作为汉字的编码,成为一种新的两笔编码输入方案。
本发明的另一个目的就是要提供一种汉字输入方法,该方法面向笔写屏和PDA技术,完全摆脱了传统键盘的限制,直接对汉字部首进行分类,不必再对部首进行拆分,也不必再将部首与英文字母或数字强行对应起来;部首之间基本没有交叉,拆分起来失误较少,容易学习;在屏幕上显示提示信息,减少了用户的记忆量;而且利用屏幕分辨率高和笔输入可以有不同笔划的特点,在较小的屏幕面积上,只需两笔,就可输入大量信息,因此重码率很低。是一种全新的输入方法。
本发明还有一个目的就是要提供一种汉字输入方法,利用本方法只利用汉字的字形信息,对汉字部首进行分类编码,只将十三个对应于类别的图符显示在屏幕上,占用面积较小,而且用户直接对部首进行判断分类即可完成输入,不需要在几百个部首中进行查找,也无须切换,速度较快。是一种完全不同的输入方法。
本发明还有一个目的就是要提供一种汉字输入方法,利用该方法将汉字以偏旁部首为单位进行分类录入,不仅速度比联机手写识别一笔一划写入要快得多,对硬件的要求也较低,是一种更加实用的笔输入方法。
图1示出了根据本发明将组成汉字的部首依其特征分成13类的类别及其代表符号;
图2示出了本发明采用的所有部首及其分类和编码;
图3示出了本发明屏幕输入提示部分及每个图符的组成部分。
图4示出了本发明采用的笔划刻度条的格式;
图5示出了本发明对于部分汉字的编码举例。
参见图1,本发明将汉字的部首按如下规则分为十三类:
1.点起笔类:部首本身是中文数字或不成字,并且部首的起笔笔划是点。
2.横起笔类:部首本身是中文数字或不成字,并且部首的起笔笔划是横。
3.竖起笔类:部首本身是中文数字或不成字,并且部首的起笔笔划是竖。
4.撇起笔类:部首本身是中文数字或不成字,并且部首的起笔笔划是撇。
5.折起笔类:部首本身是中文数字或不成字,并且部首的起笔笔划是折。
6.动物类:部首本身成字,并且所成字的含义是动物的名称。
7.植物类:部首本身成字,并且所成字的含义是植物的名称。
8.自然现象类:部首本身成字,并且所成字的含义是自然现象或自然景物
的名称。
9.人称类:部首本身成字,并且所成字的含义是对人的称呼或对应于人的
量词。
10.器官类:部首本身成字,并且所成字的含义是动物器官的名称。
11.名词类:部首本身成字,并且所成字的含义是对事物的名称或量词。
12.修饰及动词类:部首本身成字,并且所成字的含义表示动作或对事物的
修饰。
13.单笔类:部首仅由一笔组成,即单笔笔划本身。
参见图2,所有这十三类部首,前五类按照部首的第二笔笔划,后八类按照部首的起笔笔划为点、横、竖、撇、折五种情况,都再分为五个组(组号1-5),分别对应每一类中以这五种笔划为第二笔或起笔的部首集。每个部首的编码,由它所属的部首类别以及它的第二笔或起笔笔划所属的类中的组别完全决定,共有65种编码(13×5)。将每个部首的编码规定为:(所属类号-1)×5+所属组号。
汉字以部首为单位进行分解。部首之间最多有一笔交叉;部首本身可以是汉字,也可以是汉字的一部分;每个汉字的编码由其拆分出的两个部首的编码组成,规则如下:
1:如果汉字本身不是部首,则其必可分解为两个或两个以上的部首,选取其中的首笔部首(首笔笔划所在的部首)和末笔部首(末笔笔划所在的部首)编码的组合作为汉字本身的编码;
2:如果汉字本身不是部首,并且其首笔部首和末笔部首为同一个部首,选取汉字的首笔部首和次末笔部首(汉字除去首笔部首以外,其末笔笔划所在的部首)编码的组合作为汉字本身的编码;见图5举例中的“式”字,应拆分为“弋”和“工”。
3:如果汉字本身即为部首,用汉字本身对应部首的编码,末尾加上00,作为该汉字的编码;见图5举例中的“火”字。
4:对汉字的分解遵循“大为先”的原则,即在顺序拆分首笔部首和末笔部首时,以所取的首笔部首和末笔部首尽可能大为原则;见图5举例中的“曲”字,应拆分为“日”和“丨”,而不是“囗”和“丨”。
因为每个部首的编码是由两个十进制数字组成,所以一个汉字的编码是由4个十进制数字组成。一些常用的汉字编码参见图5。
本发明的输入提示屏设置十三个矩形图符,对应十三个部首类别,既作为信息输入的区域,又作为所输入信息的提示图符。当用来接收用户的笔输入时,每个矩形图符又分成五个小区:中央区、左上区、右上区、左下区、右下区,分别对应每一类部首中第二笔(前五类)或起笔(后八类)笔划为点、横、竖、撇、折的五个组。二十六个英文字母(包括大小写),从A开始,相邻两个字母成对分布在十三个图符的左上、右上两个区(同一字母的大小写分布在一个区),十个数字(同一数值的阿拉伯数字、中文数字分布在一个区)分布在前十个图符的中央区,六个基本算术符号(小数点、等号、加号、减号、乘号、除号)成对分布在后三个图符的中央区,系统定义的符号成对分布在十三个图符的左下区和右下区,用户可以自定义符号,令其分布在右下区中尚未定义系统符号的区域。
本发明所定义的任一图符的显示由五部分组成:中部,左上部、右上部、左下部、右下部。中部显示该图符对应的汉字部首类别代表符;左上部和右上部各显示图符该输入小区对应的一个英文字母;左下部和右下部各显示图符该输入小区对应的两个系统定义的符号;图符中央区所对应的十个数字和六个算术基本符号,依次为0-9,(.=),(+-),(*/),由于顺序性较强,不再显示提示信息。
系统定义的符号成对列举如下:
$¥ &@ %^ !? () []
‘’ “” 〈〉 《》 →← ↑↓ :;
,。 、— /\ - ~`
系统定义的13个图符显示如图3所示。
本发明利用笔可点可划并且可以有不同方向的特点,在每个图符的五个小区内又都可以识别五种笔划输入:点(丶)、横线(-)、竖线(|)、斜线(\)、反斜线(/),用这五种笔划选图符小区作为5种输入方式,具体含义如下:
1:点选:字输入方式,选中某一个部首进行组字;
2:横线笔划选:词输入方式,选中某一个部首进行组词;
3:竖线笔划选:带部首信息的字输入方式,选中某一个部首进行组字;系统在用户选字时提供所选中输入小区的部首信息,作为提示;
4:斜线笔划选:英文小写字母方式,如果选图符的左上区或右上区,则选中该区所对应的英文小写字母;如果选左下区或右下区,则选中该区所对应的符号对的第一个符号;如果选前十个图符的中央区,则选中该区所对应的阿拉伯数字;如果选后三个图符的中央区,则选中该区所对应基本算术符号对的第一个符号;
5:反斜线笔划选:英文大写字母方式,如果选图符的左上区或右上区,则选中该区所对应的英文大写字母;如果选左下区或右下区,则选中该区所对应符号对的第二个符号;如果选前十个图符的中央区,则选中该区所对应的中文数字;如果选后三个图符的中央区,则选中该区所对应基本算术符号对的第二个符号。
本发明利用汉字笔划数多少的模糊信息,采用了刻度条拖动的选字方式。用笔点刻度条的相应刻度部位,笔划数在该刻度代表的数值附近的汉字就会显示在选字行上,用笔在刻度条上拖动,选字行上的汉字就随着笔在刻度条上所点刻度的变化而变化。直到用户所需要的汉字在选字行上出现。
刻度条的格式如图4所示。
本发明对于汉字的输入过程具体说明如下:
1单字的输入:
单字输说选用字输入方式或带部首信息的字输入方式,用点笔划或竖线笔划作为笔选笔划。
如果汉字本身不是部首,则其必可分解为两个或两个以上的部首,首先对其进行拆分,确定它的首笔部首和末笔部首。先选字的首笔部首对应的图符小区,这时以该部首为起笔部首的常用汉字便在选字行上显示出来。可以通过如下两种办法进一步完成汉字的输入。第一种办法是:用户所要输入的汉字如果已经在选字行上出现,直接用笔在选字行上点选该字,便完成输入;否则可以通过在刻度每上点选相应刻度,或用笔在刻度条上拖动,使选字行上的汉字随之改变,直到用户所要的汉字出现为止。这种办法容易使用,但重码率高,输入速度慢。第二种办法是,再选字的末笔部首对应的图符小区,这时满足这两笔编码的汉字会在选字行上显示出来,用户可以直接在选字行上点选或通过拖动笔划刻度条然后再在选字行上点选,选中所需汉字。这种方法重码率较低,输入速度较快。
如果汉字本身就是部首,直接选该部首即该汉字所对应的图符小区,再在十三个图符以外的废笔区用笔选一次,部首就会在选字行上显示出来,用笔在选字行上点选该部首,便完成输入。
如果选用字输入方式进行输入,在用户点选图符小区的过程中,系统不提供该小区所对应的部首集作为提示信息;如果选用带部首信息的字输入方式进行输入,在用户选图符小区的过程中,系统会设置一显示区域用于显示用户所选的图符小区所对应的部首集,作为用户进行笔输入时的提示信息。
2词的输入:
词输入选用词输入方式,采用三笔输入,用横线笔划作为笔选笔划。
对于二字词,第一个字只用横线笔划选该字首笔部首对应的图符小区;第二个字用横线笔划顺序选该字首笔和末笔部首对应的图符小区;第二个字本身即为部首时,顺序选该汉字所对应的图符小区和废笔区,作为输入。
在进行完第一个字的首笔部首和第二个字的首笔部首两笔输入后,选字行上便已显示出满足这两笔编码的常用两字词,用户也可以不进行第二个字末笔部首的输入,而直接在选字行上点选所要的二字词,或通过刻度条拖选出所要的二字词。
对于三字词,每个字都只用横线笔划选一笔:选取每个字的首笔部首所对应的图符小区。
对于四字词或四字以上的词,选取它的头两个字和最后一个字的首笔部首,每个字用横线笔划选一笔。
按照以上所描述的方式,对每个词都进行了三笔输入后,选字行上就会显示出满足编码的词,用户可以直接在选字行上点选所要输入的词,或先通过刻度条拖选,然后再点选所要的词。词的排序原则是:首先按词中第一个字的笔划数多少排序,如果词的第一个字相同,则按照词中第二个字的笔划数多少排序,以此类推。
本发明对于英文字母、数字及符号的输入过程具体说明如下:
1英文字母的输入:二十六个英文字母(包括大小写),从A开始,成对分布在十三个矩形图符的左上及右上区,(同一英文字母的大小写分布在同一个区),如果要输入英文小写字母、则用斜线笔划选中该英文字母所对应的图符小区;否则如果要输入大写英文字母,则用反斜线笔划选中该英文字母所对应的图符小区
2数字的输入:十个阿拉伯数字和十个中文数字,成对分布在十三个图符中前十个图符的中央区(同一个数值,阿拉伯数字和中文数字分布在一个区中)。如果要输入阿拉伯数字,则用斜线笔划选中该数字对应的图符中央区;否则如果要输入中文数字,则用反斜线笔划选中该数字对应的图符中央区。
3符号的输入:系统定义的符号和用户自定义的符号都成对分布在十三个图符的左下区和右下区,另外还有六个基本算术符号成对分布在后三个图符的中央区。如果要输入这其中的一个符号,只要直接用斜线笔划或反斜线笔划选中符号对应的图符小区:用斜线笔划,则选中小区所对应符号对的第一个符号;用反斜线笔划,则选中小区所对应符号对的第二个符号。