一种汉语输入法及其系统 所属技术领域
本发明涉及一种汉语输入法及其系统。 背景技术 现有的汉语输入法主要有三大类型 : 一种是以现代汉语拼音方案为编码基础的拼 音输入法 ; 一种是以汉字的字形特征为编码基础的字形输入法 ; 另一种是以汉字的字音字 形相结合的特征为编码基础的音形输入法。 然而尽管汉字输入法是百家争鸣、 万 “码” 奔腾, 却没有一种输入法能够让使用者既易学易用易记又能获得较快的输入速度。 现行的拼音输 入法的缺点是有些拼式太长影响录入速度, 同时也因重复字的出现要求选择而降低了输入 效率。字形 ( 字根 ) 输入法的缺点是字根庞大繁复且规律性不好使得使用者难学难记且过 一段时间不使用就会忘记。音形输入法同样存在上述问题。
针对上述缺点, 出现了一些改进的方法。如针对拼音输入法的简拼、 双拼以及混 拼。这几种方法都是拆了东墙补西墙。简拼的缺点是简拼不 “简” , 简拼的结果是重复字的
增加和不确定性的增加, 使用者不知何时该 “简拼” 何时该 “全拼” 。双拼的缺点是不利于记 忆。 字形、 音形输入法的改进也没取得明显的效果。 现行汉语输入法的改进在基础层次 ( 编 码方法 ) 上都没有取得实质性的突破, 于是又出现了一些在词汇或整句层次上改进的输入 法 ( 具有智能型的、 联想型的 ), 这些改进都是在另一个层次上的改进, 不是在基础层次的 改进。现行汉语输入法 ( 特别是拼音输入法 ) 的改进效果都不是很明显, 因为它们的改进 都是小的修修补补, 都没有改进拼音输入法的基础——现代汉语拼音方案。
众所周知, 现行汉语拼音方案的字母表采用的是拉丁字母 ( 另加一个 ü 和一个隔 音符号’ ), 不包括 ü 和隔音符号 “’ ” 在内共有 26 个字母。除 ü 外实际参与拼写的拉丁字母 有 25 个, v 不参与拼写——这是对稀缺字母资源的极大浪费。由于在拉丁字母中没有与 ü 对应的字母, 有些输入法便让 v 充当 ü 的角色, 其实这更是一个对稀缺字母资源的极大大浪 费, 因为 ü 在汉语拼音中的使用频率并不高。
现行汉语拼音方案的韵母系统是一个效率非常低下的编码系统, 使用的码元是 10 个, 使用的位是 4 位。按其使用的资源计算, 理论上可以表示 11111 种信息 ( 个韵母 ), 而实 际上却只表示了 36 种信息 ( 个韵母 ), 这还不包括起分隔作用的 w 和 y。现行汉语拼音方 案的韵母里还把声母用的字母也包含进来, 以致音节在连写时分不清, 造成不少麻烦。 发明内容
本发明要解决的问题是 :
提供一种汉语输入法及其系统, 解决汉语输入过程中存在的汉语拼音拼式太长导 致的问题、 汉语拼音声韵共用导致的问题以及 “简化拼音” 到 “完整拼音” 的自然变换的问 题。
本发明解决上述问题所采用的技术方案是 :
本发明解决上述问题的整体思想是, 汉语拼音矢量化 ( 平面二维矢量化 )——通过韵母矢量化, 来缩短现行汉语拼音拼式的长度, 并使得声韵最大程度的分离 ; 在矢量化过 程中确保极大的规律性和极小的改动性以达到既易学易用易记又能获得较快的输入速度 的目的。本发明有三个技术方案。
第一个技术方案, 其核心思想是 : 省略。
通过对汉语拼音方案的观察和分析, 我们不难发现造成汉语拼音拼式过长的原因 是部分单韵母自身过长以及由它组成的复韵母拼式过长。我们把字母个数 ( 长度 ) 在三个 和三个以上的韵母作为目标韵母, 现把这些韵母分组罗列如下 :
第一组 : ang、 eng ;
第二组 : ing、 ueng、 ong、 iong ;
第三组 : iao、 iou、 uai、 uei ;
第四组 : ian、 iang、 uan、 uang ;
第五组 : üan
通过观察分析, 我们发现, 将韵母中的 ng 用 v 来代替的话, 许多拼式会缩短, 所以 本方案的第一个规则就是将所有韵母中的 ng 用在汉语拼音方案里没有实际使用地方的 v 代替 ( 这条规则和第二个方案里提到的借代规则有相似的地方, 但有又所不同, 故我们把 它放在第一个方案里 )。 通过这一步, 我们得到一个规整的韵母系统。 我们的目标韵母变成 如下的样子 :
第一组 : av、 ev ;
第二组 : iv、 uev、 ov、 iov ;
第三组 : iao、 iou、 uai、 uei ;
第四组 : ian、 iav、 uan、 uav ;
第五组 : üan
可以看到, 上面的五组字母比原来简短了不少, 但依然像原来一样易于拼读和辨 认。把这个规则运用到输入法里, 就是权利要求 1 里所述的 “用 v 表示后鼻韵母中的 ng 来 完成其输入” 的方法。其实, 上面第二组中的 uev 是可以再简化的, 它的 e 可以像 iv 的 e 一 样被省略。
接下来, 我们看第三组韵母。 由音韵学的知识我们知道 : ao 的原形应该是 au, 也就 是说 au 是 ao 的原形 ; ou 的原形应该是 eu, 也就是说 eu 是 ou 的原形。通过观察和分析, 我 们可以引入下面两条规则中的任意一条 :
规则 1 : i 和 u 中间的 a、 e(o) 可以省略, 当中间的字母是 a 时, a 省略后, u 要写作 o。
规则 2 : i 和 u 中间的 a、 e(o) 可以省略, 当中间的字母是 e 时, e 省略后, u 要写作 o。
至此我们的目标韵母变成如下的样子 :
第一组 : av、 ev ;
第二组 : iv、 uev、 ov、 iov ;
第三组 : io、 iu、 oi、 ui ;
第四组 : ian、 iav、 uan、 uav ;
第五组 : üan( 使用规则 1)
或者
第一组 : av、 ev ;
第二组 : iv、 uev、 ov、 iov ;
第三组 : iu、 io、 ui、 oi ;
第四组 : ian、 iav、 uan、 uav ;
第五组 : üan
( 使用规则 2)
可以看到, 上面的五组字母比原来又简短了不少, 但依然易于拼读和辨认。 这个规 则使第三组韵母得到了统一处理。把这个规则 ( 规则 1) 运用到输入法里, 就是权利要求 1 里所述的 “用 io、 oi 分别表示 iao、 uai 来完成其输入” 的方法。
为了实现声韵分离的目的, 我们引入一个新字母 л, 用它来替换前鼻韵母中的 n。 替换后则在新韵母系统里除了 r 是声母韵母共同使用的字母外, 再也没有像以前 n、 g 那样 共用的字母了。因为 r 在汉语拼音里用的比较少, 所以基本上实现了声韵分离的目的。把 这个规则运用到输入法里, 就是权利要求 1 里所述的 “用 л 表示前鼻韵母中的 n 来完成其 输入” 的方法。在某些情况下, 为了兼容现行的汉语拼音方案, 可以不使用该规则, 不对 n 进 行替换。 在本技术方案里, 对第四组韵母不再进行处理, 可以认为它是完备的, 或者说不通 过本方法简化 ( 但可以通过别的方法简化 )。
现行汉语拼音方案里的韵母其实是有两种形式的, 即有声形式和零声形式, 也就 是汉语拼音方案里所说的前面有声母和没有声母时韵母的不同形式。 只不过汉语拼音方案 里没提这两个概念, 只是在韵母表下面的说明里, 用列举的形式列举了 i 行、 u 行以及 ü 行 韵母的零声形式, 没有系统阐述。 但不少韵母确实在前面有声母和无声母的不同情况下, 拼 式是不同的。 基于这一点, 我们可以以统一的观点认为韵母是有两种形式的, 即有声形式和 零声形式。至少可以认为 i 行、 u 行以及 ü 行的韵母是有两种形式的, 只是有的韵母其两种 形式一样罢了。
接下来, 我们处理 ü 和 ü 行的韵母。因为 j、 q、 x 不和合口呼的韵母 ( 以 u 开头的 韵母 ) 相拼, 而和撮口呼的韵母 ( 以 ü 开头的韵母 ) 相拼的声母除了 n 和 l 以外就只剩 j、 q、 x 了, 所以 j、 q、 x 和撮口呼的韵母 ( 以 ü 开头的韵母 ) 相拼时可以将 ü 写成 u, 因为即使 这样也不会混淆。考虑到 n、 l 和 ü 相拼的汉字不多, 又有 nu( 奴 ) 和 nü( 女 ) 的区别以及 lu( 鲁 ) 和 lü( 吕 ) 的区别, 所以在 n、 l 后的 ü 不可以写成 u, 故将其写成 ur——加个不发 音的韵尾 r 以示区别, 并无实际意义。
由于 ü 具有以上特点, 故 ü 行的韵母 üe、 üan、 ün 实际可以看作是 u 行相应韵母的 影子, 也就是说 üe、 üan、 ün 在形成音节的拼式中可以写作 ue、 uan、 un, 只要它处于拼式里, 就可以根据其声母来分辨出 u 代表的真实字母究竟是 u 还是 ü。这里需要说明的是 üe, 因 为在现行汉语拼音方案里 u 和 e 是不相拼的, 所以 ue 无论何时都可以被分辨出是 üe。
接下来看 iong, iong 在现行汉语拼音方案的韵母表里处于 i 行, 但它实际是 üeng, 是 ü 行的韵母。汉语拼音方案的韵母表里, iong 旁边的注音字母明确的写为ㄩㄥ, 而ㄩ是 ü 的注音字母, ㄥ是 eng 的注音字母, 所以 iong 实际是 ü 行的韵母, 那么它就具有 ü 行韵母
的特点。所以可以把 iong 看作是 ueng 的影子, 所以可以把 iong 写作 uev, 并且 e 可以省略 ( 同前 )。又因为它只和声母 j、 q、 x 相拼, 而 j、 q、 x 不和 ong 拼, 所以在拼式中又可以将其 省略为 ov。
第二个技术方案的核心思想是 : 借代。
我们把第一个技术方案里提到的目标韵母再罗列一遍, 如下 :
第一组 : ang、 eng ;
第二组 : ing、 ueng、 ong、 iong ;
第三组 : iao、 iou、 uai、 uei ;
第四组 : ian、 iang、 uan、 uang ;
第五组 : üan
我们使用与第一个技术方案相同的方法来处理 ng 的问题, 得到如下的目标韵母 :
第一组 : av、 ev ;
第二组 : iv、 uev、 ov、 iov ;
第三组 : iao、 iou、 uai、 uei ;
第四组 : ian、 iav、 uan、 uav ; 第五组 : üan
在本技术方案里, 因第三组韵母不在我们的技术范畴内, 所以不予讨论, 可以认为 它是完备的, 或者说不通过本方法简化 ( 但可以通过别的方法简化 )。
现行公有的简化技术方案都会遇到上述第四组韵母的简化问题, 有的方案会用四 个不同的字母代替, 而本方案则用两个字母来解决这个问题——我们定义一个新字母 л, 再加上原来的 v 一共有两个字母, 若允许最多使用两个信息位则两个字母可以表示六种信 息, 这样我们就可以做一个规定, 规定 л 代表 ian、 v 代表 uan、 лv 代表 iang、 vv 代表 uang, 这样我们通过借代的方法实现了上述韵母的简化。我们再来考察一下这个方法的渊源 : 我 们已经看到, 在第一个方案里, 我们让 v 充当 ng 的角色, 也即 v 有表示后鼻音的功能, 我们 在此处也用了它的这层意思。 实际上, 发生单纯借代的只是两个韵母 ian 和 uan, 而 iang 和 uang 则是上述两个规则的推论。
通过上面的处理, 我们已经完成了第四组韵母的简化, 接下来, 我们处理 ü 和 ü 行 的韵母。
我们使用与第一个技术方案相同的方式处理 ü 和 ü 行的韵母以及韵母 iong。
第三个技术方案是第一个技术方案和第二个技术方案的组合。
到此为止, 我们已达到了如下目标 : 缩短现行汉语拼音拼式的长度, 并使得声韵最 大程度的分离。接下来我们根据已实现的目标, 再提供一些能够提高输入速度的方法。
“声韵乱序” 法, 它是指 : 在两字或三字或多字词的输入过程中, 可以先输入词的简 拼, 若系统没有给出所需的词, 则接着输入最后一个字的韵母, 补全最后一个字的拼音 ; 通 过上一步, 若找到所需的词, 则本次输入任务完成, 若没有找到所需的词则接着输入第一个 字的韵母, 补全第一个字的拼音 ; 通过上一步, 若找到所需的词, 则本次输入任务完成, 若没 有找到所需的词则接着输入第二个字的韵母, 补全第二个字的拼音 ; 通过上一步, 若找到所 需的词, 则本次输入任务完成, 若没有找到所需的词则接着输入下一个字的韵母, 补全下一 个字的拼音 ; 这样直到补全所有字的拼音为止。在这个过程中, 单独的 a、 o、 e、 i、 u 可能导
致韵母的界限不清, 这时可以通过重复自身将韵母补全为两位来解决。该方法避免了简拼 转换为全拼时的回退回溯问题, 解决了简拼的不确定性带来的效率问题。
“鼻韵母交替” 法, 它是指 : 在前鼻韵母和后鼻韵母的输入过程中, 为了实现不回退 而转换前鼻韵母和后鼻韵母的目的, 而在输入过程交替输入 л、 v。 如先输入 a 再输入 л, 则 输入法程序解释为 aл, 若此时再输入一个 v 则输入法程序就解释为 av, 然后若再输入一个 л 则输入法程序就解释为 aл, 这样无需回退就可实现前鼻韵母和后鼻韵母之间的转换。
最后, 我们说一下上述字母在输入设备上的表示方法。上述编码有 27 个字母, 包 含 26 个拉丁字母和一个新字母 л。 对于可以输入拉丁字母的输入设备, 则上述字母使用输 入设备上对应的代表拉丁字母的按键 ( 或区域 ), 新加的 л 使用剩余按键 ( 或区域 ) 中的 任一键 ( 或区域 ) ; 对于标准手机键盘来说, 则上述字母使用标准手机键盘上对应的代表拉 丁字母的按键 ( 或区域 ), 新加的 л 使用剩余按键 ( 或区域 ) 中的任一键 ( 或区域 ), 并采 用智能识别的方法从输入的音节集合中挑出最可能的子集 ; 特别地, 根据上述汉语拼音矢 量化的技术方案, 在矢量输入设备上实现该输入法时, 韵母可以作为一个矢量来输入。
在某些退化的实施例中可以只让表示 ian 的 л 使用一个代表非拉丁字母的按键 ( 或区域或矢量 ) 或者所有的 л 都使用代表 n 的按键 ( 或区域或矢量 )。 本发明的原理与方法在说明书附图图 1 中也可以看到。图 1 中上半部分是音理音 路图, 结合前面的文字说明, 可以知道, 按一定的方法取两个字母就可以完成韵母矢量化的 目标, 而下半部分则描述了这种韵母矢量化的方法和结果。
本发明的有益效果 :
本发明有效地缩短了韵母的长度, 并且基本实现了声韵分离的目标, 实现了简拼 到全拼的自然切换, 实现了前后鼻音的自然切换。 通过这样的改进, 提高了汉语拼音输入法 的输入速度, 并且在速度提高的同时保持了易学易记易用的特点, 用户的学习成本很低。
新韵母和原韵母的交集其意思表示是一致的, 所以新韵母和原韵母可以共存于一 个汉语拼音方案里, 也就是说一个编码系统里可以同时使用两套韵母方案而不会产生二义 性的问题, 这样用户可以根据使用偏好自由选择某一韵母方案, 极大的方便了用户。 用户可 以渐进地由原方案过渡到新方案。
附图说明
下面结合附图和实施例对本发明进一步说明。 图 1 是本发明的原理与方法图。 图 2 是本发明的一个实施例。( 优选实施例 ) 图 3 是本发明的另一个实施例。( 优选简化实施例 )具体实施例
实施例一 :
我们可以根据上述技术方案得出一个韵母表, 并将它和原韵母表同列如下 :
这是一个最接近原方案的韵母方案, “新韵母” 的 i、 u、 ü(u[r]) 列里, 列出了韵母 的两种形式 : 上面的是有声形式, 下面的是零声形式。
与原韵母相比, 新韵母的有声形式主要有以下变化 :
① “两个代替” , 即用 л 和 v 分别表示前鼻韵母和后鼻韵母中的 n 和 ng ;
② “两个借代” , 即用 л 和 v 分别表示 ian、 uan 以及用 лv 和 vv 分别表示 iang、 uang ;
③ “五个省略” , 即用 io、 oi、 ov、 ue、 ur 分别表示 iao、 uai、 iong、 üe、 ü。
与原韵母相比, 新韵母的零声形式主要有以下变化 :
在原韵母零声形式的基础上通过 “两个代替” 的规则进行了简化 ; ü 行的韵母直接 在其有声形式前面加 y。
可以看出, 原方案到新方案的过渡是很有规律的, 并且简单而不繁多, 是易于接受 和学习的。
当具体实施该方案时, 声母不变, 韵母使用上面的 “新韵母” 。对于新字母 л, 若 输入设备是一个电脑键盘, 则它用分号来输入 ; 若输入设备是一个手机键盘, 则它用 O 来输
入。其余的键则使用对应的拉丁字母键或代表相应拉丁字母的键 ( 或区域或矢量 )。
对两字或三字或多字词的输入, 除可以输入词的简拼或者全拼外, 还可以使用 “声 韵乱序” 法来输入。前鼻韵母和后鼻韵母的转换使用 “鼻韵母交替” 法。
新韵母和原韵母的交集其意思表示是一致的, 所以新韵母和原韵母可以共存于一 个汉语拼音方案里, 也就是说一个编码系统里可以同时使用两套韵母方案而不会产生二义 性的问题, 这样用户可以根据使用偏好自由选择某一韵母方案, 极大的方便了用户。
在本实施例中, 若使用第一个技术方案中的 “规则 2” , 即用 iu、 io、 ui、 oi 分别表示 iao、 iou、 uai、 uei, 则可得到另一个新的实施例, 该新实施例其余的地方与本实施例相同, 不再详述。
实施例二 :
我们可以根据上述技术方案得出一个韵母表, 并将它和原韵母表同列如下 :
这是一个规则而精简的韵母方案, 上面的表中, “新韵母” 的 i、 u、 ü(u[r]) 列里, 列 出了韵母的两种形式 : 上面的是有声形式, 下面的是零声形式。
与第一个实施例的新韵母相比, 本实施例的新韵母的有声形式主要有以下变化 :
ao 和 ou 分别使用了它们的原形 au 和 eu。
与第一个实施例的新韵母相比, 本实施例的新韵母的零声形式主要有以下变化 :
iao、 iou 的零声形式分别为 yo、 yu ; uen、 ueng 的零声形式分别为 wл、 wv ; ü 的零 声形式为 yur。
可以看出, 原方案到新方案的过渡是很有规律的, 并且简单而不繁多, 是易于接受 和学习的 ; 新方案的零声形式更加具有规律性。
当具体实施该方案时, 声母不变, 韵母使用上面的 “新韵母” 。 其实施方法可以按照 实施例一的方法进行。
最后应说明的是 : 以上实施例仅用以说明本发明的技术方案, 而非对其限制 ; 尽 管参照前述实施例对本发明进行了详细的说明, 本领域的普通技术人员应当理解 : 其依然 可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替 换; 而这些修改或者替换, 并不使相应技术方案的本质脱离本发明各实施例技术方案的精 神和范围。