语言识别方法和装置 及语言翻译系统 本发明涉及一种语言识别装置、一种语言识别方法和一种语言翻译系统,本发明适用于例如识别语言以及将这种语言识别结果的语言翻译成另一种语言的情况。
图1概要地示出了用来识别基本句子/语言(会话语言识别或语言理解)的常规语言识别装置的一个例子。语言输入单元1例如由一用来将空气波动的声音变换成电波动的声音(语言)信号的用来变换声音的微音器以及一用来放大由这个微音器所输出的语言信号的放大器所构成。A/D变换电路2以一预选的时钟时序对由语言输入单元1输出的模拟语言信号取样以执行量化过程,从而使得这种模拟语言信号被转换为数字语言信号(数字数据)。
分析单元3对由A/D变换单元2所输出的数字语言信号进行声学上分析,以便提取语言特征参量:例如,在特定范围内的语言功率、线性预测系数(LPC)和倒频谱(Cepstrum)系数。换句话说,分析单元3通过一滤波器组相对于预选范围执行语言信号的滤波。之后,为了计算各个区域的语言功率,该分析单元3校正和平滑被滤波的语言信号。另一方面,分析单元3例如可以对所输入的语言执行线性预测分析处理以便获得线性预测系数。另外,分析单元3可以处理这个线性预测系数而获得倒频谱系数。
在分析单元3中所获得地特征参量被直接输出到识别单元50,或者是在分析单元3中进行矢量量化并随后将该矢量量化特征参量输出到识别单元50。
识别单元50依照诸如动态编程(DP)匹配方法和隐藏马尔可夫(Markoff)模型(HMM)之类的语言识别算法,根据由分析单元3所获得的特征参量(或者由矢量量化特征参量获得的符号)执行语言识别。在这种情况下,当在识别单元50中对于音素单元执行语言识别时,作为语言识别结果的推荐候选物获得的推荐音素候选物例如以一种点阵数据形式被输出到语法分析程序单元51(下面的“推荐音素主题点阵”)。
语法分析程序单元51首先参照单词词典52,其中已记录了单词(或形态)标题的索引(例如,如果单词是“读出”,则其标题为“读出”)、其音素信息(读)、语言部分和其它必要信息。然后,语法分析程序单元51将包含在由识别单元50所提供的推荐音素主题点阵中的推荐音素候选物组合形成一个以上单词,并随后再将一个以上单词组合形成一词串(句子)。之后,根据一预选清除(purg-ing)算法,语法分析程序单元51将寄存在语法规则词典53中的语法规则提供给词串。语法分析程序单元51反复地将语法规则提供给自识别单元50所得出的可由推荐音素点阵形成的这种词串,从而使得最适合该语法规则的词串(即一句子)作为句子/语言识别结果(在其它情况下,作为语言理解结果)而被输出。应注意的是,该语法规则是例如由语言识别领域的专家们所制定的。
在具有上述配置的语言识别装置中,当语言被输入到语言输入单元1时,该语言作为语言信号通过A/D变换单元2输出到分析单元3。在分析单元3中,语言信号被作声学上分析以从该语言信号中提取语言特征参量。该语言特征参量被提供给识别单元50。在识别单元50中,通过使用该语言特征在音素单元中执行语言识别,并将所得推荐音素候选物点阵输出到语法分析程序单元51。语法分析程序单元51参照单词词典52和语法规则词典53,从而可对自识别单元50所提供的由推荐音素主题点阵所得到的单词串进行语言识别(语言理解),以输出该语言识别结果。
另一方面,按照在语法分析程序单元51中用来执行句子/语言识别的清除算法,以下的方法是已知的:即,基于例如上下文无关的语法以并行方式分析句子/语言,同时保留未分析结果的方法(通过这种方法用来执行清除操作的语法分析程序称之为“图表语法分析程序”),还有用来根据上下文无关的语法预先计算分析所需信息以自动地产生称之为“LR分析表”的表格,并依据该LR分析表执行分析的方法(通过这种方法执行清除操作的语法分析程序称之为“扩展LR语法分析程序”)。
上述LR语法分析程序的“LR”具有如下的意思:即,“LR”的符号“L”是意思表示“Left to right(左至右)”的缩写,意思是从左方向至右方向扫描一句子。另一符号“R”是意思表示“Ri-ghtmost derivation(最右导出)”的缩写,意思是在该上下文无关的语法的重写规则中一规则提供给最右边非末端符号。还应注意的是,还存在有称之为“LL语法分析程序”的另一个语法分析程序的类型。该LL语法分析程序从左方向到右方向扫描一句子,并且执行与上述最右导出相反的最左导出。
另一方面,已提出了几种改进的方法,例如,发表在1990年的信息处理学会学报31卷第3期第472至480页由Kita等撰写的“Cont-inuous speech Recognition by using HMM phonemic Recogniti-on and Expanded LR Structural Analyzing Method”,和在电子信息通信学会报告SP 90-74由Ito等撰写的“Continuous SpeechRecognition by using the Expanded LR Structural AnalyzingMethod”。也就是说,在语法分析程序单元中提供这种方法,使得扩展的LR语法分析程序单元预测将出现音素串,并且识别单元利用HMM执行相应于预测音素的音素识别。按照这种方法,还可能在识别处理期间降低计算量。
此外,在由Kita撰写的发表在人工智能学会研究报告SIG-SLUD-9204-6的“Speech Language processing by using pro-bability Grammar”中提出了另一种方法。在这种方法中,当选择了适当的语法规则时,考虑在扩展LR语法分析程序中与所应用的语法规则的比率有关的信息。换句话说,使用这种方法,首先,当上下文无关语法被用作为语法规则时,大量学习用文本被考虑以找出应用产生规则的比率。当这种上下文无关语法随后被显示在LR分析表中时,这种比率数据也被示于该LR分析表中。在用该扩展LR语法分析程序分析期间,进行出现率计算。结果,对于经常出现的语言表示得到高的比率值,同时对于非文本(语法不正确文本),则得到一极小的比率值。因而,使用这种方法,计算量可进一步减小。
另一方面,与上述方法形成对照,在已提出的其它方法中,通过使用计算负荷小的这种信息首先得到多个假设,随后通过选择较高等级信息逐渐减小这些假设,即将该语言限制细分为两个阶段。这些不同方法,例如被披露在语言和自然语言论文集,DARPA,PP.12-19(1990)上由F.K.Soong等撰写的“A Tree-Trellis BasedFast Search for Finding the N Best Sentence Hypotheses inContinuous speech Recognition”中和在ICASSP 90论文集,PP.81-84(1990)上由R.Schwartz等撰写的“The N-best algorithm:An efficient and exact procedure for finding the N mostlikely sentence hypotheses”中。
在这种方法中,当使用由分析单元(例如HMM)所得到的分析结果在识别单元中首先执行该识别处理时,利用统计语言模型和诸如二字母组或三字母组之类的一有限状态网络来进行不严谨的语言限制。例如该二字母组和三字母组相应于第一马尔可夫和第二马尔可夫模型,其中根据文本数据库的大量数据而研究音素、词组、单词等的链接概率。这个二字母组和三字母组是已知的模型,因而自然语言的局部特性可以具有较高的准确性。
在这种限制下,通过例如使用Viterbi算法的已知束搜索来正确地执行切割处理操作。因而,在该切割处理操作之后输出剩余的多个推荐句子候选物。之后,为了执行句子/语言识别(语言理解)而将更精确的语法规则应用于这些多个推荐句子候选物。
在上述常规方法中,为了理解人们所说的各种句子格式,在语法分析程序单元中所使用的语法规则是由专家们来制定的。但是,为了能够进行正确的句子/语言识别而要以适当的方式来描述这种规则是非常困难的。换句话说,当太过严格地制定该语法规则时,所有不能满足这种严格规则的语句将不能被识别。反之,当该语法规则被制定得过于不严密时,未进行语法断定的句子(语法上不正确的句子)将被认作为识别结果。
因此,一般来说,未进行适当地语法分析的句例被搜索,并且随后根据这个句例改变语法规则。但是,总的来说还没有有关如何有效地纠正语法规则的明确解决办法。另外,当语法规则变化时,要预测该识别处理操作如何变化是困难的。因此,虽然在该语法规则改变之前可能已进行适当的处理,但在该语法规则变化之后存在对句子执行错误处理的风险。因此,不易于进行该语法规则的校正。
本发明力图解决上述存在的问题。因此,本发明的目的是提供一种语言识别方法/装置和一种语言翻译装置,它无需使用语法规则就能够判断语言识别结果的推荐主题的语法合格性,从而以更大准确性实现句子/语言识别(语言理解)。
本发明的语言识别装置包括有一用来存储多个范例的范例存储装置,和一用来计算在每个识别结果候选物和每个存储在该范例存储装置中的范例之间的相似度,并根据所计算的相似度得到一语言识别结果的计算装置。
本发明的语言识别方法包括有一用来存储多个范例的范例存储装置。它是一种执行书写/语言识别并用来对每个识别结果候选物和存储在范例存储装置中的每个范例之间的相似度进行计算,并用来根据所计算的相似度得到一语言识别结果的语言识别装置的语言识别方法。
本发明的语言翻译装置包括有一用来存储多个范例的范例存储装置和一用来计算在每个识别结果候选物和每个存储在该范例存储装置中的范例之间的相似度,并根据所计算的相似度得到一语言识别结果的计算装置,以及一用来将由该计算装置所输出的语言识别结果的语言翻译成另一种语言的一翻译装置。
图1是一用来表明常规语言识别装置的配置的一个例子的示意性框图;
图2是一用来示出根据本发明第一实施例的一语言识别装置的一种配置的示意性框图;
图3是一用来说明在图2中所示的范例检索单元5的工作的流程图;
图4是一用来说明图3流程图中S1步骤所规定的处理操作的示图;
图5是一用来说明图3流程图中S1步骤所规定的处理操作的示图;
图6是一用来表明在图2的同义词词汇存储单元8中所存储的同义词词汇的说明;
图7的示意性框图用来表明根据本发明的第二实施例的语言识别装置的一种配置;
图8示出了应用于本发明的一种语言模型的一个例子(单词二字母组);
图9是一用来表明根据本发明第三实施例的语言识别装置的一种配置的示意性框图;
图10是一用来表明根据本发明第一实施例的语言翻译装置的一种配置的示意性框图;和
图11A到图11E是用来说明图8中所示语言翻译装置工作的图解。
图2概要地表明了根据本发明的第一实施例的语言识别装置的一种配置。应注意的是,那些表示相同或类似电路元件的均采用图1中所示的相同标号来表示,并省略其说明。
类似于图1的识别单元50,根据一种预定语言识别算法,识别单元4(识别装置)使用自分析单元3所得到的一特征参量(其它情况下,矢量量化该特征参量产生的符号)来执行语言识别。还应注意的是,虽然常规识别单元50通过音素单元执行语言识别,而该识别单元4通过单词单元例如参照一单词词典6(下面讨论)来执行语言识别。之后,在该识别单元4中,由在单词单元中语言识别结果所得到的单词的推荐主题(推荐单词主题)被作为语言识别结果的一推荐主题而以例如一点阵形式输出(以这种点阵形式输出的推荐单词主题后面将称之为“推荐单词主题点阵”)。
一范例检索单元5(计算装置)将包含在自识别单元4得到的推荐单词主题点阵中的推荐单词主题组合在一起因而形成由至少一个单词构成的多单词队列(句子)。之后,该范例检索单元5计算这些多单词队列(句子)中每一个和在范例数据库7(下面说明)中存储的每个范例之间的相似程度。该范例检索单元5可确定根据所计算的相似程度送入语言输入单元1的语言的识别结果(句子)。
应了解在范例检索单元5中进行的相似程度的计算是通过使用在同义词词汇存储单元8中所存储的同义词词汇来执行的。还有,用来通过组合包含在推荐单词主题点阵中的推荐单词主题形成由至少一个单词构成的多单词队列(句子)的处理操作可不由范例检索单元5而由识别单元4来执行。
在单词词典6(单词存储装置)中,存储有单词索引,其音素信息(读),和语言的更多的部分,如需要的话还有相应的其它信息。在识别单元4,按照在单词词典6中存储的单词执行语言识别。
在范例数据库7(范例存储装置),存储或寄存有若干范例。这些范例例如是根据报纸上所描述的句子来构成的,并且是根据由一播音员读的原文所描述的句子构成。
同义词词汇存储单元8(单词概念存储装置)内至少存储了在单词词典6中所寄存的单词,同时按概念对这些单词分类。在这个实施例中,如图5所示,根据在同义词词汇存储单元8中所存储的概念,一同义词词汇以一分层树型结构形成这些单词。
在具有上述配置的语言识别装置中,进入语言输入单元1的语言由A/D变换单元2进行处理,并进一步由分析单元3(析取装置)处理,因而被转换成一特征参量(另外方式为符号),随后被输出到识别单元4。在识别单元4,例如通过使用自分析单元3的输出按照HMM执行由单词单元的语言识别。
现在将对该HMM作一简要说明。HMM被定义为非决定有限状态自动操作。这种模型由几个状态和表示这些状态间的转移的路径所构成。在这样一种模型中,来自各自状态的一状态转移过程是马尔可夫过程。当一状态被转移时,输出一单一符号并执行一学习模式。假设现在存在有N个模型状态并从该模型输出K种符号,在该学习过程中使用了大量学习数据以便计算从一状态“i”到一状态“j”转移的概率(状态转移概率)“aij”,和此时输出一符号“YK”的概率“bij(YK)”(输出符号概率)。(注意,0<i,j<N+1,0<K<K+1)。
还应注意的是,当开始时在状态“i”,HMM的参量具有一概率(初始状态概率)“πi”。通常,使用一左到右(left to right)模型,使得在语言识别中一状态仅被转移到其本身,或仅转移到右侧。这样,初始状态是该模型的最左状态(最初,该模型处在最左状态下时,该概率被选择为1,而当该模型处在另外状态下时,该概率被选择为0)。因此,通常在学习过程中不需要计算初始状态概率。
另一方面,在语言识别期间,进行一概率(出现概率)的计算,由此使用从该学习过程的结果得到的状态转移概率和输出符号概率自分析单元3输出的符号串被监视(出现)。较高的出现概率被认作为识别结果。
在本实施例中,例如在识别单元4中存储由以前执行的学习过程已得到的音素单元(音素模型)中的一模型。参照在单词词典6中寄存的单词音素信息,该识别单元4将这些音素模型相互耦合,并因此产生一寄存在单词词典6中的单词模型。随后,如上所述,利用这个模型计算出现概率,并且将由高概率单词构成的一点阵作为一推荐单词主题点阵输出。
另外,在没有音素模型,但这些在单词单元中的模型(即,单词模型)被存储在识别单元4中时,可通过直接使用这个模型执行连续语言识别。
从识别单元4输出的推荐单词主题点阵被加至范例检索单元5。一旦收到该推荐单词主题点阵,范例检索单元5例如根据图2的流程图执行处理操作。也就是说,首先,在步骤S1,将用于构成单词点阵的单词相互组合,随后形成由至少一个单词构成的一单词列或单词串(句子)。此时应注意的是,推荐单词主题点阵的单词沿时间基准方向并不相互重叠,并且按时间顺序它们被相互组合。
换句话说,如图4所示,现在假定从识别单元4输出其语言部分被规定为从一时刻t1到另一时刻t5的一推荐单词主题点阵。图4示出了这样一种情况,即在从时刻t1到时刻t2、从时刻t2到时刻t4、从时刻t4到时刻t5、从时刻t1到时刻t3、和从时刻t3到时刻t5所规定的语言部分之中,单词“a”、“b”、“c”、“d”和“e”可作为每一个具有最高出现概率的单词而被识别。
在这种情况下,存在有四组按时间顺序的单词组合,即(a,b,c)、(d,e)、(a,e)、和(d,c),它们沿时间基准方向相互不重叠。
在步骤S1,形成上述组合中的任何一个。
值得一提的是,因为在语言识别期间,一误差可能碰巧出现在该音素分段部分,所以如图4所示基本上不会出现某个单词的语言部分之后没有设置另一单词的语言部分的情况。通常,如图4中所指出的,即使当单词A、B和C被连续地产生,从时间透视单词A的语言部分与单词B的语言部分相重叠,而从时间透视单词B的语言部分与单词C的语言部分分开。因此,在步骤S1,虽然在理想条件下沿时间基准方向单词组合并不重叠,但允许在该语言部分有微小的重叠,除非在相同时刻所产生的不同单词可被清楚地识别,并且随后形成单词组合。
在已形成单词组合之后,该处理操作进行到步骤S2。在步骤S2,进行该单词组合的相似度和在范例数据库7中所寄存的范例的相似度之间的计算。根据该优选实施例,作为用来计算相似度的方法,例如采用了1991年12月6日公开的日本待批专利申请3-276367(申请号)中所披露的一种方法,在该方法中,基于这些单词的意思的相似性(概念),在一树形分层结层中用单词构成同义词词汇。也就是说,在相应于第K层的一概念层的情况下,用来构成单词组合的某个单词和用来构成相应于这个单词的范例的一个单词是属于同一类别,现在假定表示这两个单词之间的概念相似性的单词相似度是(K-1)/n(注:符号“n”是同义词词汇的分层数),则计算有关用来构成单词组合的相应单词和用来构成该范例的相应单词的相似度。然后,所计算的结果被用作为单词组合和范例之间的相似度。
具体地说,现在假定在同义词词汇存储单元8中存储了如图6所示的这样一种同义词词汇,则相似度将按下述方式进行计算:
注意在图6中,矩形框中的条目是一概念,而椭圆形框中的条目是一单词。在该图中,属于最上层(第四层)的概念“变动”、“行动”、“人物”,和“社会”与其它的概念一起被分类。例如,在这些最上层的概念中,概念“人物”与包含在其内的概念“人称”和“亲属”以及其它概念一起归为一类。另外,概念“人称”又分类为“第一人称”和“第二或第三人称”等。对于在这些概念中的概念“第二或第三人称”来说,将单词“他”和“她”以及其它相关的词归入其类。
在图6中,最低的概念层被定义为第一层,从最底层数的第二概念层定义为第二层,从最底层数的第三概念层定义为第三层,而最上面的概念层定义为第四层。由于图6的同义词词汇是由四个层次所构成,通过将同义词词汇返回到第一层,概念相互叠合的那些单词的词相似度等于0(=(1-1)/4)。此外,通过将同义词词汇返回到第二层,那些概念相互叠合的单词的词相似度等于1/4(=(2-1)/4)。类似地,通过将同义词词汇返回到第三层或第四层那些概念相互叠合的单词的词相似度分别等于1/2或3/4。
例如,在单词词典6中,现在假定仅仅寄存有独立的单词。结果,在识别单元4中仅对独立单词执行连续的语言识别。因此,在步骤S1,单词“他”,“新岗位”和“到,动身”被组合以形成一输入词串(“他”,“新岗位”,“到,动身”)。另外,作为一个例子,在考虑组成“我去学校”时,在用来构成输入词串的各个单词和相应于“他”,“新岗位”,“到,动身”构成例子“我去学校”的单词“我”,“学校”,“去”之间的相似度如下所述给出。现在将单词X和Y之间的词相似度表示为d(X,Y)。
换言之,由于通过将同义词词汇返回到第二层,由概念“人称”看来,单词“他”的概念与单词“我”的概念叠合,故单词相似度“d”(“他”,“我”)变为1/4。此外,由于通过将同义词词汇返回第三层由概念“社会”看来,单词“新岗位”的概念与单词“学校”的概念叠合,故单词相似度“d”(“新岗位”和“学校”)变为1/2。而且,由于通过将同义词词汇返回到第一层由概念“往返”看来,单词“到,动身”的概念与单词“去”的概念叠合,所以单词相似度“d”(“到,动身”,“去”)变为0。
当将上述单词相似度累加时,所得累加值变为3/4(=1/4+1/2+0)。这个值作为在输入词串(“他”),“新岗位”,“到,动身”)和例子“我去学校”之间的相似度而被识别。
对于在范例数据库7中所寄存的所有范例,将相对于输入词串(“他”,“新岗位”,“到,动身”)而执行上述相似度的计算。
再参见图3,当在步骤S2中完成了该相似度的计算时,该处理操作前进到步骤S3。在步骤S3,判断是否已相对于由识别单元4的推荐单词主题点阵所得到的所有单词组合执行了在步骤S2中定义的相似度计算。当在步骤S3判断还没有相对于由推荐单词主题点阵得到的所有单词组合来执行相似度计算时,该处理操作返回到前面的步骤S1,在步骤S1重新形成一单词组合(输入词串),然后重复类似的处理操作。
换句话说,在步骤S1,例如,当形成新的输入词串(“她”,“母亲”,“像”)时,类似于上述步骤S2的情况,单词相似度“d”(“她”,“我”),另一单词相似度“d”(“母亲”,“学校”),和另一单词相似度“d”(“像”,“去”)分别计算为1/4,3/4和3/4。这些单词相似度“d”在用来构成该输入词串的单词“她”,“母亲”(注意单词“像”是作为单词“相像”理解的)用来构成上述例子“我去学校”的相应于单词“她”,“母亲”,“像”的单词“我”,“学校”,“去”之间是相关的。结果,在输入词串(“她”,“母亲”,“像”)和例子“我去学校”)之间的相似度计算为7/4(1/4+3/4+3/4)。
另一方面,当在步骤S3判断出已经针对由推荐单词主题点阵得到的所有单词组合执行了相似度计算时,则处理操作前进到步骤S4。在步骤S4,选择一相似度最高的例子和输入词串,随后处理操作前进到步骤S5。在步骤S5,在构成在步骤S4中所选例子的单词之中,由构成该输入词串的单词来置换相应构成在步骤S4中所选择的输入词串的那些单词。被置换的单词作为句子/语言识别结果输出,因而完成该处理操作。
也就是说,为了简化说明起见,仅仅“我去学校”是存储在范例数据库7中的例子,并且仅构成两组输入词串(“他”,“新岗位”,“到,动身”和(“她”,“母亲”,“像”)。如上所述,在输入词串(“他”,“新岗位”,“到,动身”)或(“她”,“母亲”,“像”)与范例“我去学校”之间的相似度变为3/4或7/4。在本实施例中,高相似度意指相似度的值小。(这是由于在图6中,最低概念层被视为第一层,然后到达第二层等等,所有层构成了同义词词汇)。相反,当将最高概念层被定义为第一层,接下来层为第二层等等,所有层构成该同义词词汇时,高相似度意指相似度的值大。),结果,在步骤S4,选择输入词串“(他”,“新岗位”,“到,动身”和例子“我去学校”。
然后,在步骤S5,在用来构成例子“我去学校”的单词中,相应于构成输入词串(“他”,“新岗位”,“到,动身”)的单词的这些单词由构成该输入词串的单词“他”,“新岗位”,“到,动身”来置换。即,“我”,“学校”,“去”相应于“他”,“新岗位”,“到,动身”。然后,所置换的结果“他动身到新岗位”被作为句子/语言识别结果输出。
如上所述,根据该语言识别装置,当多个输入词串作为推荐语言识别结果候选物而被输出时,这些推荐候选物根据该范例分类。然后,相应于该范例具有最高相似度的输入词串可作为语言识别结果而获得。因此,为了对多个推荐语言识别结果候选物分类(即,从多个推荐语言识别结果候选物中选择一语言识别结果),不需使用语言专家们所给出的语法规则。另外,因为这些范例可以从报纸等的说明中很容易地构成,所以可容易地研制(制造)该语言识别装置。
另外,在输入未得到正确的语言识别结果的输入语言的情况下,这种语言仅作为范例加到该范例数据库7,由此可以容易地改善识别性能水平。在这种情况下,因为仅仅增加了应在步骤S2中计算相似度的范例,所以加入这些范例之后并不存在在增加这些范例之前可正确地识别的语言未被正确识别的风险。
此外,结合这些范例,可在范例数据库7中寄存它们的意思表示,这样可以容易地了解所输入语言的有关详细意思。
接着,图7示出了根据应用本发明的第二实施例的一种语言识别装置的配置。应注意的是,在图2中所标的相同标号也应用于该第二实施例的相同或类似的单元。就是说,除了图2的识别装置的原有配置之外,这种语言识别装置使用了一种新的配置,即由一识别单元11(识别装置)来替代原来的识别单元4,并且还采用了一种新的语言模型存储单元12(语言模型存储装置)。
例如,该语言模型存储单元12存储了诸如二字母组或三字母组的统计语言模型。在本实施例中,语言模型意指根据诸如报纸和杂志信息的大量句子数据所计算的出现概率,用来计算在某一单元中偶然出现的链路的次数。换句话说,结合单词的组合,一语言模型相应于一用来表示某一单词可与另外某个单词相连接的出现概率的一表格。一统计单位是一音素,一单词,一部分语言等等。存在若干统计方法,即,统计诸单位单独出现(一字母组)的概率,特定单位以二链路方式(二字母组)出现的概率,和特定单位以三链路方式(三字母组)出现的概率。
在图8中,给出了一单词单位二字母组的一个范例。
例如,类似于识别单元4,以根据存储在语言模型存储单元12中的语言模型而限制不严谨语言的一种方式该识别单元11来执行一语言识别处理,并且例如在这种不严谨语言限制条件之下,使用Viterbi算法通过束搜索方式正确地执行一修剪处理操作。然后,作为多个保留语言识别结果获得多个推荐句子候选物。各推荐句子候选物通过删除例如一极小量被转换成仅包含独立单词的词串。把被转换的词串输出到范例检索单元5。
在范例检索单元5中,从识别单元11送入作为输入词串的多个词串,并且参照这些范例计算其相似度。
结果,因为基于该语言模型的限制是不严谨的,所以可以想象,从识别单元11输出的推荐句子主题可能不仅包含有语法正确和有意义的句子候选物,也还包含有错误的句子候选物。但是,在范例检索单元5中,由于这种错误句子候选物具有较低的相似度,这些错误句子候选物不作为最终语言识别结果而被处理。在这种情况下,因为在识别单元11中该输入词串由该语言模型所限制,因而由范例检索单元5计算相似度的输入词串的数目变得比图2中的数目要少。结果,可以高速地进行句子识别处理。
应注意,该语言限制不仅可基于该语言模型而形成,而且可采用例如有限状态网络而形成。
图9示出了根据应用本发明的第三实施例的一语言识别装置的配置。应注意的是,在图2中所标注的相同的标号也在第三实施例中的相同或相似单元中使用。也就是,除了图2识别装置的保留配置之外,该语言识别装置采用了一新配置,以一识别/范例检索单元21来替代识别单元4和范例检索单元5,并且进而采用了一扩展单词词典22来替代单词词典6和同义词词汇存储单元8。
该识别/范例检索单元21是将识别单元4与范例检索单元5相结合而形成的,并将它设计成可以并行方式执行连续语言识别处理和相似度计算。另外,扩展单词词典22是将在同义词词汇存储单元8中存储的同义词词汇与单词词典6相结合而形成的,如图6所示,在该扩展单词词典22中相应于该同义词词汇的单词存储有音素信息、语言部分和其它必要的信息。
在具有上述配置的语言识别装置中,类似于识别装置4,在该识别/范例检索单元21中,同时参考该扩展单词词典22来执行语言识别。当检索该扩展单词词典22时,不仅从这里读出需要识别该语言的信息(例如,单词的音素信息),而且还读出计算相似度所需的其它信息。
结果,当随后计算相似度时,由于无需再参考扩展单词词典22,所以可以高速执行语言识别处理操作。另外,在这种情况,与该单词词典6或同义词词汇存储单元8中的任何一个独立实现时所需的存储量相比较,可减小扩展单词词典22中的存储量。
图10示出了根据应用本发明的一实施例的一种语言翻译装置的配置。这种语言翻译装置包括有一语言识别装置41,一翻译单元42和一原始/已翻译单词词典43。语言识别装置41以类似于图2所示的语言识别装置的方式配置。翻译单元42(翻译装置)可根据该原始/已翻译单词词典43而将由语言识别装置41所输出的一种语言翻译成另一种语言。该原始/已翻译单词词典43中存储有例如日文单词和由该日文单词所翻译成的英文单词(其它情况下,英文词串)。
可见,构成该语言识别装置41的单词词典6、范例数据库7、和同义词词汇存储单元8的存储内容适于例如日文。但是,在范例数据库7中存储有日文范例,并且还有相对它们的相应日文范例翻译成英文的范例。
参见图11A到图11E来说明该语言翻译装置的工作。当将日语输入到该语言翻译装置时,由该语言识别装置41执行如图2所示的一种类似的语言识别处理操作。因此,在范例检索单元5中,得到一输入词串和一相似度最高的范例。然后,将所得到的输入词串和范例输出到该翻译单元42。
现在假定一相似度为最高值的输入词串和一范例分别是(“wa-tashi”,“Gakkou”,“Iku”)和“watashi wa Tera ni Iku”),该输入词串(“watashi”,“Gakkou”,“Iku”)和“whatashi waTera ni Iku”)与相应于首次提及范例的写成为英文的一范例共同被输出到翻译单元42。应注意的是,如图11A所示,日文范例“wa-tashi wa Tera ni Iku”和英文范例“I go to the temple”是以单词结构上相互对应的方式定义的,即(“watashi”=“I”),(“Tera”=“temple”),(“Iku”=“go”)。
在翻译单元42,相应于用来构成日语范例“Watashi wa Terani Iku”的单词中的输入词串的单词“Watashi”,“Tera”,“Iku”,如图11B所示,由用来构成输入词串的单词“Watashi”,“Gakkou”,“Iku”所替代。结果,日语范例“Watashi wa Terani Iku”被变换成日语范例“Watashi wa Gakkou ni Iku”。因此,如图11C所示,根据相应于日语范例“Watashi wa Tera ni Iku”的英文范例“Igo to the temple”而形成该日语范例“Watashiwa Gakkou ni Iku”。
之后,翻译单元42参照原始/已翻译单词词典43,将用来构成输入词串的单词转换成英语单词或一英语词串。换句话说,如图11D表示,在这种情况中,构成输入词串的单词“Watashi”,“Gakkou”,“Iku”被分别翻译成单词“I”,“shool”,“go to”。
然后,如图11E所示,翻译单元42用相应于“Watashi”的“I”,相应于“Gakkou”的“school”,相应于“Iku”的“goto”(见图11D)来替代相应于“Watashi”的“I”,相应于“Ga-kkou”的“the temple”,相应于“Iku”的“go to”(见图11C)。结果,输出所得到的英语句子“I go to school”。这个翻译结果在一显示器或类似器件上被表示出来,或输入到一语言合成装置作为一合成语音被输出。
在常规语言翻译装置中,当一句子作为一语言识别结果而被输出时,这个被输出的句子通过机器翻译的方式而被翻译。常规机器翻译的主要方法是如下执行的:首先将一输入句子转换成一中间语言,然后根据这种中间语言理解输入句子的意思。之后,它被转换成目的语言。但是,近来为可能用途一直研究一种根据下面范例实施翻译过程的方法。换句话说,根据这种方法,一类似输入文本的范例被检索。根据两种语言(即,输入文本的语言和翻译语言)的原始/已翻译单词词典由目的语言的单词来置换,构成该结果范例的单词。因此,可以得到翻译结果。根据这种常规方法,不需要将输入句子转换成中间语言。
相反,因为图10的语言翻译装置根据在语言识别期间所形成的一范例来实施处理操作,所以在该语言识别中所采用的范例可直接地用在翻译中。结果,根据图10所示的语言翻译装置,与语言识别装置和机器翻译装置分开构成并相互连接的语言翻译装置相比较,可以简化该翻译过程并还可高速执行翻译处理。
虽然对本发明的各种优选实施例进行了说明,但本发明并不限于上述的实施例,还可适用于例如一种能够处理所输入的语言的装置中。
在上述实施例中,这些单词的相似度被直接地累加,并将该累加的结果用作为相似度。另外,合乎要求的相似度可以这样一种方式得到,例如根据同义词词汇而对单词相似度加权,并且累加经加权单词的相似度。
虽然在上述实施例中使用了该同义词词汇以便计算相似度,但用来计算相似度的方法并不仅限于此。
而且,在图10的语言翻译装置中,执行从日语到英语的语言翻译。另一方面,通过改变单词词典6、范例数据库7、同义词词汇存储单元8和原始/已翻译单词词典43中寄存的内容,例如可将除日语之外的任何语言翻译成英语,或将日语翻译成除英语之外的任何语言。
另外,图10所示的语言翻译装置装备有类似于图2所示的语言识别装置所构成的语言识别装置。另一方面,该语言识别装置41可以配置成类似于图7和图9所示的这种语言识别装置。
根据本发明的语言识别装置和语言识别方法,计算每个推荐识别结果和每个范例之间的相似度,并且随后根据这个所计算的相似度可得到所期望的语言识别结果。总之,无需使用语法规则就可对多个推荐识别结果候选物分类,这就可获得所希望的识别结果。
另外,根据本发明的语言翻译装置,在每个推荐识别结果候选物和每个范例之间进行计算,然后基于计算的相似度得到该语言识别结果。随后,将这种语言识别结果的语言翻译成另一种语言。因此,作为声音输入的语言可容易地被翻译。