本发明属于电子计算机中文信息处理技术领域,使用通用键盘和计算机输入中文(汉字)。 关于汉字编码计算机输入,近二十年来,国内外许多人进行了研究。据统计,已提出了几百种汉字编码方案。CCDOS4.0版本是汉字输入方式配备较多的系统,基本上包括目前国内外常用的汉字输入方式。CCDOS4.0版本配备了如下汉字输入方式
1.区位码 2.首尾码 3.拼音码 4.快速码
5.五笔字型 6.大众码 7.电报码 8.广音输入法
9.仓颉输入码 10.拼形码 11.声声码 12.声韵码
13.笔形码
迄今大多数汉字输入方案基本上是以汉字的部首笔划为特征进行编码,以字输入为主,辅以较强或较弱的词组输入。用户需要在学习和使用中去记各种各样的编码规律,及对汉字作部首笔划的分解。正是这些或简或繁的编码规律及在输入过程中对汉字的分解编码思维过程,造成了用户额外的脑力负担,不便于广大非专业输入操作人员学习和使用计算机汉字输入。
与此相比,采用拼音方式输入汉字,具有易学好用的优越性。但迄今的拼音输入方式存在着如下几个很大的问题。
1.在拼音音节的输入上,为了减少击键数,基本上采取双拼输入方式,即用某几个键分别代替某几个声母和韵母,造成了一键多用,不易记忆的问题。
2.没有解决区别同音字的问题,基本上每字必选,影响了输入速度。
3.基本上按字输入,不能用拼音输入词组,欲输入词组需转入词组输入方式。
4.拼音需很准确,对于几组易混音素,在选字过程中,往往需多次翻页,才能找到所需的字。
众所周知,语言的最小单元是词(包括单字词)。符合人们语言思维方式的中文输入单元,应该是表达完整意义的词。而且,在思维和语言中,人们所使用的词在一个句子中总是互相关联,用来共同表达某种思想或某件事物,而不是各不相干的词的混合物。从中文信息计算机输入的发展来看,以词为主的输入技术较之按字编码输入方式更符合人们的语言思维方式,必然会越来越受到人们的欢迎。
从目前的以词为基础的输入技术来看,主要有联想输入技术、字词混合码输入技术。但迄今地词组输入技术在以下三方面存在问题:
1.在输入方面,目前的词组联想输入技术是通过输入词组第一个字的编码,然后出现一批与第一个字关联的字,需要由用户选择。这种输入过程间断性较大,通常需要频繁地进行选字,不利于用户在输入过程中保持思维的连续性。另一类词组编码输入技术则需要用户学习和记忆词组编码,增加了用户的脑力负担。
2.在字与词组的处理方面,迄今的词组输入基本上还是与单字编码输入类似,词组之间互不关联,较少发挥计算机的逻辑功能。
3.为了实现词组输入,通常需要系统词库。系统词库,既不能过大,又必须能适合各类用户的不同需要。对于目前的词组联想输入技术,若联想词库小,则词组联想命中率受影响,若联想词库大,则会增加选词翻页数。这两者的结果都会影响到输入速度。这主要原因之一是目前的联想词库一般都是静态的,缺乏较强的动态词技术。
随着计算机中文信息处理在我国的普及和发展,越来越多的非专业输入操作人员需要使用计算机进行中文信息处理。对广大用户来说,需要易学好用、输入速度快的中文输入方案。从目前情况来看,中文的计算机输入仍然是一个有待进一步研究和提高输入方案水平的问题。
本发明的目的是针对上述存在的问题,提供一种“智能”地处理中文信息的计算机输入技术,使其既具有易学好用的拼音输入特点,又能快速准确地按词(字)连续输入中文;并有效地解决以拼音形式输入中文时的同音词(字)的自动区别问题;以及配备很强的学习和高级动态自动造词技术等,使“中文智能化输入技术”实用化,实现易学好用,快速准确的计算机中文信息输入。
为了实现上述目的,“中文智能化输入技术”这一发明,在中文信息输入中,引入人工智能技术,改造和创新拼音输入方式,赋予计算机以语言分析和学习功能。本发明的最显著特征是:具有“全拼”、“速拼”、“混拼”、和多字词组的快速输入等灵活、方便、快速、多样的拼音输入方式;以连续的输入方式按词(字)输入拼音,有利于用户保持思维的连续性;在输入过程中,由计算机自动进行语言分析,以区别同音词(字);在输入过程中,不需编码,自动学习和生成新的动态词和动态词组。本发明达到了既易学好用,又能快速准确地输入中文的目标。
“中文智能化输入技术”这一发明,适用于一切大、中、小、微型计算机中文(汉字)信息处理系统和通讯系统,并将在中文终端、中文电传、中文电脑打字、计算机汉字排版印刷和计算机汉语语音识别输入等方面获得广泛应用。
“中文智能化输入技术”这一发明,可以根据如附图所示的几大部分进行具体实施。其中,外码生成模块由本发明提供的各种输入方式组成;学习模块实施本发明的动态自动造词技术;语言分析模块对输入的中文信息进行语言分析,自动区别同音词(字);词库检索模块完成对基本词库和动态词库的检索任务;选词模块处理计算机智能化语言分析之后存在的同音词(字);总控模块协调和控制各模块的执行和相互之间的通讯,完成中文(汉字)的输入。
“中文智能化输入技术”这一发明具有三种输入方式,即“全拼”输入方式、“速拼”输入方式和“混拼”输入方式。
1.“全拼”输入方式
“全拼”输入方式的提示符为“智拼”。在“全拼”输入方式下,中文以词(字)为单位输入时,输入每词拼音的全部字符。
范例:“中国是一个伟大的社会主义国家”,按词拼音输入为:
“zhongguo shi yige weida de shehuizhuyi guojia”。
2.“速拼”输入方式
“速拼”输入方式的提示符为“速拼”。在“速拼”输入方式下,中文以词为单位输入时,输入每词各字拼音的第一个字符,可用此种输入方式输入两字以上的词及动态词库中的一些单字词。若基本词库中没有相应的词,则可生成和输出相应的动态词。
范例:用“速拼”输入方式输入上面例句时,输入为:
“zg s yg wd d shzy gj”。
3.“混拼”输入方式
在“全拼”和“速拼”两种基本方式下,均可采用“混拼”方式输入。
① 当基本输入方式为“全拼”时,不需改变“全拼”基本输入方式,可以随时插入以“速拼”形式输入一个词。
范例:在“全拼”输入方式下,输入上面例句时,可输入
“zhongguo shi yige weida de shzy guojia”
其中“社会主义”一词即是以“速拼”方式输入。
② 当基本输入方式为“速拼”时,不需改变“速拼”基本输入方式,可以随时插入以“全拼”形式输入一个词。
范例:在“速拼”输入方式下,输入上面例句时,可输入
“zg shi yg wd de shzy gj”。
其中“是”和“的”两词即是以“全拼”方式输入。
4.在“全拼”和“速拼”两种基本方式下,不但可以按词“混拼”输入,对于每个词,其中各字亦可按字“混拼”输入。
范例:“上海”的拼音为“shanghai”,
“全拼”输入为“shanghai”
“速拼”输入为“sh”
按字“混拼”输入“上海”这个词时,可以为
“s'hai”,或“shangh′”
“速拼”与字词“混拼”输入的优越性除了输入速度快以外,还为不熟悉拼音的用户提供了很大的方便。一些用户在用拼音输入时,对于“c”和“ch”、“s”和“sh”、“z”和“zh”、“en”和“eng”以及“in”和“ing”这几组音素往往不易分清。本发明具有的灵活方便的输入方式可以解除用户这一困惑,能很好地帮助用户快速准确地输入中文。
对于用户在输入过程中,通过第一次输入而自动生成的多字动态词组,本发明还提供了另一种在“速拼”状态下,仅需输入多字词组前几个字的每字拼音的第一个字符,紧接着输入后几个字的字数或一个特定功能键,即可输出所需词组的快速输入方法。
范例:欲输入多字词组“浙江大学化学工程系”,快速输入为
“z8”或“zjd6”或“zjd-”或“zjdx-”
其中,减号“-”为本发明在后述具体实施中定义的特定功能键。
“中文智能化输入技术”这一发明,对于中文词(字)定义了语言特性,将中文词(字)按其语法和语义特性划分为类、属和组。并对中文定义了语言特性,将中文这一语言中词与词之间的相互关系,按其语法和语义特性,归纳和表达为一系列语言规则。根据这些中文词(字)和中文的语言特性和规则,赋予计算机以语言分析功能。在输入过程中,计算机对已输入的中文信息进行分析处理,区别同音词(字),输出所需要的中文。用户可以连续输入,由计算机自动区别同音词(字)直至计算机响铃,提示用户辅助选词。在“速拼”状态下,存在着广义同音词,即各字拼音的第一个字母相同的词。通过智能选词,可以大大减少用户的选词量,加快输入速度。
范例:输入“我们要有一个正确的认识”,输入拼音为
women yao you yige zhengque de renshi
其中,“要”和“有”是动态词,“的”有同音字“德”和“得”,“认识”有同音词“人士”和“人事”。由于本发明赋予计算机以语言分析功能,在输入上述例句时,输入操作人员可以不需选词,不间断地连续输入上述拼音,由计算机进行语言分析,区别同音词(字),正确地输出上述例句。
对不同的各类用户来说,除了普通常用词外,一般均有其专业常用词。如欲在基本词库中包括广泛的不同专业的常用词,从计算机容量及输入方式来讲,是不实际的。为了使系统既具有普通常用词,又能适应广大不同类型的用户对本专业常用词的需要,就需使系统具有动态词处理功能。
本发明具有很强的学习和动态词处理技术,能很好地适应各类不同用户的需要。
1.在输入过程中,自动生成动态词,不需另外启动其他软件或中断输入过程。如输入基本词库和动态词库中没有的人名“谭善光”,通过第一次输入“tanshan′guang”以后,“谭善光”就成了动态词库中的三字词,以后可以任意使用。(注:在“tanshanguang”中,为了区分音节“shan”与“shang”,故用符号“′”加以区别。)
2.在输入过程中,既可由输入一个个的单字,自动生成动态词;也可由输入基本词库和动态词库中已有的词(字),自动生成动态词组。
用户如欲用几个词库中已有的词,组成一个组合词组,则可使用特定功能键来生成一个相应的动态组合词组。首先,在输入相应的第一个词(字)的拼音后,紧接着按特定功能键,开始生成过程。接着,正常输入其它词(字)。最后,在输入相应的最未一词(字)的拼音后,再紧接着按同一特定功能键,结束生成过程。这样,就生成了一个所需的动态组合词组。
范例:欲生成“浙江大学化工机械研究所”这个组合词组,则当输入
“zhejiang+daxue huagong jixie yanjiusuo+”后,就可生成上述动态组合词组。其中,加号“+”为在本发明的后述具体实施中定义的特定功能键。
3.对中文输入中的高频常用词(字)能以动态词的形式优先出现及在输入过程中能灵活方便地处理动态词。
由于本发明具有很强的学习和高级动态自动造词技术,可以让用户在输入过程中自动生成自己所需的专用词组。因此,只需配备一个较小的基本词库,就可适应各类不同用户的需要。在本发明的下述具体实施中,向用户提供了一个具有六千多条词的基本词库,与系统软件一起仅占内存80K左右。
在由本发明人谭善光研制成功的“中文智能拼音计算机输入系统”中,具体实施了“中文智能化输入技术”这一发明。从实用上考虑,将输入词的最大长度定为十二字词。输入拼音字符为小写字符。“全拼”输入方式的提示符为“智拼”,“速拼”输入方式的提示符为“速拼”。在CCDOS状态下,当装入本系统后,按ALT+F10即进入智能拼音输入状态。在智能拼音输入状态下,按ALT+F10可进行“全拼”基本输入方式和“速拼”基本输入方式之间的转换。定义“混拼”功能键为“;”,在“全拼”或“速拼”基本输入方式下,欲以另一种方式输入一个词,在输入该词拼音之前,先按“混拼”功能键“;”(输入窗口并不显示此字符),然后按该词拼音(“速拼”或“全拼”)输入。在“全拼”或“速拼”基本输入方式下,欲按字混拼输入一个词,当该词的第一个字是以“速拼”方式输入时,即可用“混拼”方式输入该词中余下的字。无须在输入该词前先按“混拼”功能键。
本系统定义了输入功能键。其使用为在输入拼音后,紧接着按功能键,即有相应功能。功能键在输入时并不显示出来。
1.输入状态下功能键
“′”-分开拼音音节;实现“混拼”输入时拼音音节的切分。(输入时显示)
“〔”-指定生成动态词
“〕”-不选动态词
“+”-生成动态组合词组
“/”-取消智能选词
“回车”-取消当前输入
“空格”-空格键切分拼音输入的词(输入时显示)
“←”-退格键删除当前输入的最后一词拼音
2.选词状态下功能键
“n”-单字选择时,改正拼音错误;或在选两字词状态下,转入单字选择,造两字动态词。
“s”-选择二级字库中的同音字
“<”-列出前页同音词
“>”-列出后页同音词
“/”-列出全部同音词供选择
“〔”-在选择当前双字同音词状态下,按此键后,再选词,从而生成双字动态词。
“回车”-取消当前选词和输入
3.范例及说明
(1) 对音节易混淆的词,如“西安”,需用“′”键来分开两个音节。其输入应为
“xi′an”,而不是“xian”(先)。
(2) 对基本词库中没有的词,但有其同音词的情况,或需从同音词中取出常用词作为动态词,则可用功能键“〔”来指定生成动态词。如
“振动”一词有其它同音词,但“振动”在输入时要经常使用,故可将“振动”一词生成为动态词。
示例:输入:“zhendong〔”,
提示行出现“1.震动 2.振动”
只要选择2,“振动”即进了动态词库。
(3) 如已生成动态词“振动”,而欲输入同音词“震动”,为了避免由于动态词优先出现原则而出现“振动”的情况,可采用功能键“〕”,即可对当前输入取消优先出现动态词原则;输入:“zhendong〕”。
(4) 用户如欲用几个词库中已有的词,组成一个组合词组,则可使用功能键“+”来生成一个相应的动态组合词组。首先在输入相应的第一个词的拼音后,紧接着按功能键“+”,开始生成过程,最后在输入相应的最未一词的拼音后,再紧接着按功能键“+”,结束生成过程。这样,生成了一个所需的动态组合词组。
例:生成“浙江大学化工机械研究所”这个组合词组,则当输入
“zhejiang+ daxue huagong jixieyanjiusuo+”
后,则可生成上述动态组合词组。
(5) 如当智能选词不准确时,可通过功能键“/”,对当前输入取消智能选词。
(6) 当通过智能选词后,出现一些同音字词,但未包括所需的词时,可按功能键“/”即出现全部同音词。
(7) 在输入过程中,不论输入几个词,若要立即显示,则按功能键“/”。
(8) 如在单字选择时发现拼音错误,可按功能键“n”,改正拼音错误,如当输入“赵小兰”,其拼音应为
“zhaoxiaolan”,但错输入拼音“zaoxiaolan”,在选词过程中发现输入错误,此时,按功能键“n”即可重新输入拼音“zhao”,而不需再输入下面已输入的拼音。或如:欲输入“石岩”一词,拼音为“shiyan”,但是选词表明基本词库中仅有“实验”、“誓言”、“食盐”和“试验”等词。此时,按“n”键转入单字选择,“石岩”一词即进入动态词库。
(9) 通常选同音字词时,出现的是一级字库中的字。如欲输入二级字库中的字时,可按功能键“s”,即可出现二级字库中的同音字供选择。
(10) 在提示行选词状态,提示行末指示当前页前或当前页后的页数。通过选择键“<”和“>”进行提示行翻页。
(11) 在提示行输入或选词状态下,按<回车>键即可取消当前的输入或选择。
在本系统下,按帮助功能键ALT+H,即在提示行中出现各功能键的使用说明。
采用人工智能技术,“智能”地处理中文信息的计算机输入,是中文信息处理的一个重要研究课题。本发明有效地处理了以拼音形式输入时的同音词(字)的自动区别,提供了灵活、方便、快速、多样的拼音输入方式,以及很强的学习和高级动态自动造词技术,使“中文智能化输入技术”能够实用化,在计算机中文信息输入技术中,达到了易学、易用、迅速和准确的目标。依据本发明,由本发明人谭善光研制成功的上述具体实施:“中文智能拼音计算机输入系统”,其使用性能表明了本发明的实用性和先进性。
同时也需要指出,由于中文是一种内容极为丰富,形式极为灵活的语言,并且其同音词(字)占了相当大的比例,而使得由计算机自动区别同音词(字)的问题复杂化。不少同音词(字)不但从语法上难以区别,而且从语义上也难以区别。甚至考虑到上下文,也是如此。例如:同音字“在”和“再”、“他”和“她”、“作”和“做”
以及同音词“实验”和“试验”,在下面句子中:
今天下午,他在做实验。
在老师的指导下,她再作试验。
就很难从拼音中区别出来。若仍由计算机自动选词,就可能选词不准确。在这种情况下,可由人工辅助选词。
综上所述,“中文智能化输入技术”这一发明,将计算机中文信息输入,从现有的大多数主要按字编码的汉字输入方式提高到智能化地按词输入中文。与其它输入方式相比,本发明的这一输入方式,不但更符合人们的语言思维方式,而且能在输入过程中,部分地代替人的语言思维,智能地自动进行中文的语言分析,以区别同音词和同音字。
本发明具有灵活、多样的拼音输入方式,极大地方便了用户。用户在稍会拼音的基础上,几乎不需学习,或稍加学习就可以轻松自如,快速和准确地输入中文。对于广大中文输入操作人员来说,既减轻输入时的脑力负担,又提高了中文输入速度。节省了用户的精力和时间,其社会效益是很明显的。
本发明具有很强的学习和高级动态自动造词技术,可以在输入过程中自动生成动态词,并能灵活方便地使用动态词。这一技术很好地解决了系统词库和内存容量,基本词库和专业词库的矛盾,能以较小的基本词库适合各类用户的不同需要。
从中文信息处理的发展来看,智能化地由计算机处理中文信息,既是一个重要的理论课题,也是一个重要的实用性课题,在这方面取得的每一进展都将有益于我国计算机使用的普及和提高。
我们相信,“中文智能化输入技术”这一发明,能有益于进行计算机中文信息处理的广大用户,能受到广大用户的欢迎。