语音识别方法 本发明涉及一种识别语音的方法,该种方法可以减少在一组可能的识别对象中进行检索的负担。
近来,自动识别连续讲述的语音的设备和方法变得越来越重要。的确,有广泛的领域,诸如信息服务、客户支持等等,其中,通过使用自动响应客户询问的设备可以避免相当数量与人有关的成本。
用于自动语音识别的装置和方法所必须满足的最重要的条件是这些装置和方法必须独立于特定讲述条件可靠识别和理解客户的语音输入,诸如讲话速度、音调、清晰度、背景噪声等。
有许多设备,诸如自动电话服务、时刻表信息服务等,其仅在应用于客户所有可能地说话中很好定义的和很窄的范围内才能以可靠的方式工作。这些方法和设备一般仅设计为管理非常窄范围的词汇和嗓音的情形。
在大词汇语音识别的领域,大多数方法和设备如下工作:
在接收到一个语音短语时,产生一个代表所接收到的语音短语的信号。然后该信号相对于一组预定的规则进行预处理,该组规则可以包括数字化、傅里叶分析和类似的信号评估技术。存储预处理信号的结果。
根据预处理的信号,至少产生一系列假设语音元素,其用作决定至少一系列为可能的候选对象的词,以对应所述接收到的语音短语。为决定该系列词,必须特别对至少所述系列假设语音元素应用一个预定的语言模型。
用于大词汇语音识别的常规方法和设备的一个主要缺点是很大的复杂性和大量要被检索和测试的语音片段或元素的可能的候选对像。不限制主题范围,因此词汇范围,所有为语音元素或语音片段可能的候选对象必须用不同的检索技术评估。
因此,本发明的目的是提供一种识别语音的方法,其中,在语音元素或语音片段的可能的候选对象中检索的负担减少到在所应用的语言模型内,使得语音识别可能以减少的时间消耗以一种特别可靠的方式进行。
该目的通过按照权利要求1所述的本发明的语音识别方法实现。本发明方法的优选实施例在从属权利要求的范围之内。
本发明方法包括如下步骤:接收语音短语和产生代表所接收的语音短语的信号。产生的信号相对于一组预定的规则预处理并存储。预处理后的信号用于产生至少一系列假设的语音元素或片段。使用所产生的语音元素或语音片段来决定至少一系列最可能相应于所述接收到的语音短语的词。
此外,在本发明的方法中,在决定该系列词期间,首先决定最可能在所述接收到的语音短语中包含的至少一个子词、词或词的组合作为一个最初的、开始的或种子子短语。然后,与所述种子子短语一致并在所述接收到的语音短语中包含的词或词的组合被决定为至少是第一成功子短语。后面的决定过程通过使用和评估在短语之间的附加的和特别是成对的和/或更高阶的信息实现,从而减少在所述语言模型中的检索负担。
本发明的一个基本思想是首先在接收到的语音短语中决定一个种子子短语,它可以以适当高的可靠程度亦即以足够的概率识别,或者可以决定多个可能的候选种子子短语,并相对于它们的概率评估。
然后评估信息和特别是所述决定的开始或种子子短语对所接收的语音短语的其它可能的子短语的关系,并使用在所使用的语言模型中的另外的信息避免不必要的检索动作来描述和决定其它子短语。子短语之间的关系和附加的信息使其可能集中在最可能的候选子短语并舍弃在某种意义上与种子子短语或较高阶子短语可能不连接的候选子短语。
在本发明的方法中,使用可能以较高概率识别的语音片段以限制在所使用的语言模型不能适当地限制该检索的其它区域语音信号中的检索。
根据本发明方法的一个特别的实施例,对至少所述系列假设语音元素应用一个预先定义的语言模型以获得所述种子子短语。此外,从所述语言模型获得所述附加的和成对的和/或较高阶信息。因此,通过对该系列假设语音元素或语音片段应用一个预先定义的语音模型实现决定过程。
在本发明方法的一个优选实施例中,使用一个语言模型,其中,使用在子短语之间的语义的和/或实际的信息等作为附加信息。
语义信息本质上描述信息内容。而实际信息相对于互相连接的子短语与实际情景、应用、动作等连接,亦即实际信息依赖于在子短语之间的连接的具体实现。
根据本发明方法的另一个优选的实施例,在所述使用的语言模型中的附加信息作为连接的子短语的前置词关系的说明实现。
特别是,这些前置词关系可以说明由子短语说明的空间的、时间的和其它的关系。
根据本发明方法的另一个优选的实施例,使用在所述使用的语言模型中的附加信息,用于描述两个、三个和/或更多个或者n个子短语。
因此,有可能实现句子/子句关系到语言模型以及主体/客体关系中。
如果为识别处理使用的语言模型具有至少一个信号能较肯定识别的区域,亦即例如词的茫然性(word-perp1exity)较低的区域,则本发明的方法特别有用,所述区域嵌入其它正确识别能力特别低的区域,亦即词的茫然性较高的区域。
因此,使用由至少一个低茫然性部分和一个高茫然性部分建立的、包含至少一个识别语法-特别是具有低茫然性或低复杂性的-的语音模型是十分有利的,所述低茫然性部分和高茫然性部分的每一个代表不同的低和高茫然性或复杂性的语音片段或元素类。
概念茫然性说明必须以常规检索图或检索树实现的检索的复杂性或深度。因此,它说明该检索图或检索树的分支级。
因此,本发明的方法通过在言辞中识别至少一个语音元素以高可靠性识别的区域而简化了查找适当候选对象的检索。接收到的语音短语的其它部分或子短语作为高茫然性或高复杂性部分对待。
查找适当的候选对象作为被识别的子短语的检索因此把整个短语至少分为一个低茫然性或低复杂性部分,它可以以高度可靠性分析和识别。接收到的语音短语的其它部分或子短语作为高茫然性或高复杂性部分对待。
在另一个优选的实施例中,通过使一个语法或语言模型的某些片段标记为所谓的“低茫然性区域”亦即其内能较可靠地识别语音元素的区域而实现识别。
在另一个实施例中,可以通过分析识别过程自身例如计算信任度来识别高可靠性片段。
在本发明方法的另一个优选的实施例中,使用词类或子词类作为用于语音片段或元素的类。
当然,可以使用甚至更微小的语音片段或元素,诸如音素或音节。但是,词或子词的使用简化了抽取过程,因为词或子词的组合要比音素或音节的组合更加接近要被识别的实际语音短语。
根据本发明方法的另一个优选的实施例,使用其中从常规识别语法获得低茫然性识别语法的语言模型是有利的。以这种方法,可以使用、修改常规的识别语法并成功地应用来改进常规识别语法,通过从常规语法中识别和抽取高茫然性词类,所用方式简单,费用不高。另外,产生高茫然性词类的一种语音的、音素的和/或音节的说明,特别通过对其应用子词单元语法编译器。这导致为每一高茫然性词类产生子词单元语法-特别是高茫然性的子词单元语法。最后该子词单元语法必须与常规语法的剩余低茫然性部分合并,以便产生一个完整的低茫然性识别语法。
在本发明方法的另一个实施例中,为接收的要被识别的语音短语产生一个包括产生的子短语和/或它们的组合的假设图,作为为要被识别的接收到的语音短语的候选对象。使用子短语之间的附加信息来约束和限制在假设图内查找最可能的候选对象。
优选在检索候选子短语期间,在假设图中插入高茫然性词类中的子词。使用为高茫然性词类的子词单元语法以及各附加的语义的和/或实际的信息作为对检索的约束。
为最后产生为要被识别的接收到的语音短语最可能的一个或多个候选对象,在由所述约束施加的限制下扩展基本假设。可以使用一种打分方法来跟踪语言模型、声学证据和附加约束的可能性。当扩展一个假设来描述所有接收到的语音信号时,将其输出。如果它比其它假设明显差,则可以抑制该假设输出。这种抑制可以在一个假设完全扩展前发生。在极端场合,只可以使用熟悉本技术领域的人所熟知的A*检索来有效实现假设的扩展。
因此,可以使用约束从假设图中来删除不太可能的候选对象以减少检索的负担,特别产生相应于并说明为要被识别的所接收到的语音短语最可能的候选对象的一个无分支结果图。
上述本发明的方法至少把高茫然性或高复杂性区域与可以以高度可靠性识别的低茫然性或低复杂性区域配对,并进一步使用通过从该组附加的语义的或实际的信息中识别低茫然性区域得到的信息来决定高茫然性区域。因此,可以容易识别的低茫然性区域和信息的附加内容一道用作对只能以非常低的可靠程度识别的语音片断的说明。
对于讲话者来说,这种在低和高茫然性区域之间的配对非常自然。用户和讲话者一般直觉地使用在接收到的语音短语的部分或子短语之间的这种配对或较高阶结构。
根据本发明方法的另一个优选的实施例,可为语音短语除种子子短语之外的剩余部分应用的词汇-特别是所述语言模型的词汇-至少限制为一个剩余部分,以便减少检索的负担。
下面根据优选的实施例借助原理附图详细解释本发明的语音识别方法,附图中:
图1表示说明本发明方法的一个优选实施例的原理方框图;
图2表示说明产生一个低茫然性识别语法的方框图,该语法由本发明的一个优选实施例使用;
图3A-3C表示低和高茫然性子短语的时间关系;
图4表示对图3C例子的结构的另一种说明;
图5表示一个用本发明方法分析的具有低和高茫然性区域的典型的假设图。
图1以原理方框图表示按照本发明方法的语音识别过程。
通过一个输入信道,语音输入10供给语音识别器11。语音识别器11使用一个根据要应用的语言模型的低茫然性识别语法12。
作为语音识别器11所做分析的结果,输出一个词/子词单元图14。通过给高茫然性词类13使用子词单元语法,对输出的词/子词单元图14应用一个约束检索过程15。在加上另外的语义的和实际的信息后,语义约束17被供给约束检索过程,产生代表要识别的所述语音短语的最后的词图16。
在图1的实施例中,由语音识别器11产生的词/子词单元图14用作用词和子词单元作成的假设图。如上所述,一个附加的约束检索过程15把从原来高茫然性词类中的另外的候选词或子词插入该假设图14。这通过为高茫然性词类13使用子词单元语法和如上所述的另外的实际的和语义的(句子)约束17而实现。从假设图14中删除子词单元,而结果图只包含词作为最后的词图16。于是可以输出最后的词图16作为相应于接收到的语音短语的识别的结果。
通过建立两种或两级假设可以实现根据图1的另一个实施例,第一种假设是由图1的语音识别器11产生的假设图14。于是检索以最可能识别的片断开始,并包括使用约束向不太可能被识别的部分扩展。从而产生另外的假设,它以一种单独的数据结构控制和组织。在所述单独的数据结构中,产生词或句子假设并如果必需的话在评估不好的场合被取消。最后,该单独的或者第二数据结构包含可以被输出的一个或几个假设。根据该特别的实施例,子词单元不从在第一数据结构中的第一假设图中取消。在第一数据结构中的一个给定的句子假设内的子词假设在这里没有意义,但对于另一个句子假设可以很重要并具有一定值。
用于根据图1的本发明方法的例子中的语法或语音模型可以作为低茫然性识别语法21借助原理方框图从按照图2所示的过程的常规结构的一个原来的识别语法20中导出。
原来的识别语法20分成为类1到N的高茫然性词类22。另一方面,原来的语法20的剩余部分作为语法26的一个低茫然性部分处理。
在下一步骤23中,把为词类1到N的高茫然性词类22供给子词单元语法编译器,在步骤24产生为高茫然性词类1到N的子词单元语法。
在后继步骤25,合并原来的识别语法20的低茫然性部分26和为高茫然性词类1到N的导出的子单元语法24以产生低茫然性识别语法21,它将应用在根据图1的本发明方法的优选实施例的约束检索内。
一般说,在识别过程之前产生低茫然性识别语法。一个或者多个高茫然性词类,例如城市名、人名等,在原来的识别语法中识别,并抽取这些类。子词单元语法编译器在每一个高茫然性词类1到N的场合产生这些高茫然性词类相对于在音素或音节组合的意义上的子词单元一个适当的说明。然后,被编译的语法被重新插入原来的识别语法的剩余的低茫然性部分以产生最后的低茫然性识别语法,用于按照本发明方法的语音识别过程。
因此,对于本发明的方法来说,原来的识别语法的高茫然性区域或高茫然性部分被一个低茫然性语法交换,这是很重要的。然而,该低茫然性语法能够覆盖原来的高茫然性识别语法的所有词或子词。通过改变语音片断或语音单元的长度从一个词的长度为一个音节的长度允许这一事实。因此,概念“茫然性”可以相对于各语音片断或语音单元指定。因此,可以使用概念“高的词茫然性”和“低的音节茫然性”等。
图3A、3B、3C表示在接收到的不同的语音短语内的片断的高和低茫然性部分的不同关系。从这些例子中可以看出,在一个给定的语音短语PH中,低茫然性部分LP可以跟随高茫然性部分HP,如图3A所示。低茫然性部分LP在一个给定的短语PH内也可以在一个高茫然性部分HP之前,如图3B所示。
在图3A给出的语法图中,短语PH表示讲话者通过拼读介绍他的姓的情形。
表示姓的语音元素或片断定义短语PH的高茫然性部分HP,其后随说明的低茫然性部分LP。可以把低茫然性部分LP细分为最可靠的可识别引入部分LP1,它宣布拼读过程,和拼读部分,它由低茫然性部分LP21到LP2N建立。
在图3A的场合,为高茫然性部分HP的解释被包含在低茫然性部分LP的一部分中,亦即由低茫然性部分LP21到LP2N建立的拼读序列中。这是一个低茫然性部分自身包括相对于要由低茫然性部分LP解释的高茫然性部分HP的实际信息的例子。
另一个包含关于高茫然性部分HP的实际信息的低茫然性部分LP的例子在图3B的语法图中给出。
这里,短语PH的低茫然性部分LP位于该短语的高茫然性部分HP之前。该图描述了用邮政编码说明城市名的情形,邮政编码在德国用5个整数数字串表示。
这样,语言模型或低茫然性识别语法包含语义信息,即德国城市可以用它们的名字说明,组成高茫然性部分,另一方面,用一个5位邮政编码说明。此外,低茫然性部分LP本身包含5位邮政编码的实际信息。每一数字LP1-LP5自身形成一个低茫然性部分,作为整数可以用非常高的可靠度识别。
因此,在图3A和3B的例子中,在短语PH的低茫然性部分LP和高茫然性部分HP之间的语义信息和实际信息指示特别的候选对象,它可以插入到一个假设词图中,以减少查找代表接收到的要被识别的语音短语的最可能的候选对象的检索负担。
在图3C的例子中,要被识别的短语PH再次由一个位于前面的高茫然性部分HP和一个后随的低茫然性部分LP建立。
在该种场合,地理条目以相对于每一另外的、关于相对于它们的邻居的概念的局部关系而说明。
低茫然性部分LP可以细分为第一低茫然性部分LP1和后随的第二低茫然性部分LP2,后者说明一个大城市的名字,而第一低茫然性部分LP1介绍在用短语PH的高茫然性部分HP说明的一个小城市和该大城市之间的邻居概念。
在图3C的例子中,语言模型的语义信息包含小城市可以用它们靠近一个大城市的局部安排表征。因此,在所有小城市中的检索可以限制到在某种意义上接近或靠近被识别的大城市的小城市的子集。
图4表示使用为小城市名的音节模型分析图3的例子。除语义和实际信息外,可以引入音节模型信息来进一步减少相对于查找用接收的短语PH的高茫然性部分HP说明的小城市的适当的名字的检索的负担。
图5原理表示图3C和4的例子的假设词图。
为一个接收到的短语PH的假设词图由一系列在该语法的低茫然性区域中匹配的子词单元,例如1、3、5、7,和一系列在该语法中的高茫然性区域中找到的子词单元,例如2、4、6,组成。一般说,与语法不同,词图本身不能分为高和低茫然性区域。
这里子词单元1、3说明城市之间的邻居概念,而子词单元5、7表示城市的候选对象。
依赖于为从该语法的低茫然性部分中选择的城市的候选对象,必须分析该系列子词单元以便在该语法的高茫然性区域内找到适当的候选对象。
在某些场合,由语法的低茫然性部分提供的附加的语义的和/或实际的信息不足以决定言辞或短语的高茫然性子词单元。但是,附加的语义的和/或实际信息可以减少给定短语的复杂性或茫然性。
本发明方法探究在高茫然性的语音元素或语法片断和相应于该语法一部分、具有低得多的茫然性的一个元素之间的关系,后者用作对前者的说明或解释。当在语法或语言模型中使用包括大量词例如名字等的词类例如街道名、姓、城市名等、词的口语组合和连续词类时,经常发现高茫然性片断或元素,词类是具有大量为一系列代表接收到的要被识别的语音短语的词的可能的候选对象或实现。
相应的低茫然性片断或元素可以是一个词、一个词类或连续的词或词类,它们可以非常简单和以较高程度的概率或可靠性识别。
在本发明的一个优选的实现中,语言模型或低茫然性识别语法包含一个另外的高茫然性语法片断连同其配对的低茫然性对方的数据库。通常,这样的数据库是语法结构的一部分,语言模型由识别过程使用,它可以嵌入这样的语法中。
在这样的语法中,还指示出为低和高茫然性片断的相对位置,示于图3A、3B和3C,这些位置可以改变。
此外,为每一个高茫然性片断或元素,可以根据语言模型意义上的有限数目的较小单元给一个语法的或形式的说明。这些较小单元可以是音素、语音元素或音节等。因此,高茫然性部分的说明也可以根据为这种表达的音节或音素语法实现。
这样一部分语法可以按照各种公知的格式表示,其中有限状态和上下文无关(context-free)格式是表示存在于接收的短语的高茫然性部分内的语音的、音素的和音节(phontetic)关系的例子。
对于图3C的例子,图4表示这种包括基于一个有限状态音节语法的音节模型的语法。
一个如图4所示的语法片断可以嵌入一个丰富的多的语法。可以在同一语法内嵌入多于一个高和低茫然性部分。这种在其内由一个子单元模型表示高茫然性部分的语法可以称为识别语法。
当然,可以使用公知的现有技术识别器和识别方法来把识别语法与输入言辞匹配并产生一些言辞假设。根据公共的实践,这种多重假设可以以假设图的形式表示。由识别器匹配的每一图、每一可能的词、子词或子短语都形成该图的一个条目。通常,每一条目与该言辞中它对应的时间间隔取齐。另外,在图中一个给定的词可以发生多于一次,在该种场合通常与多个时间间隔取齐。对于每一个词,还分配一个得分,它可以表示代表该特定时间间隔的词的概率或可能性,且其用来决定最可能的、因此是最好的系列或序列。
相应于低茫然性语法部分的词、子词或子短语通常可以比相应于高茫然性语法部分的词、子词或子短语以较高准确度和可靠性识别。
在附图中给出的例子中,为图4表示的图中的城市名的音节模型将包含不同的音节条目并因此有多个对该图不同的路径或分支,对应于不同的音节序列。因此,出现不同的城市名是可能的,尽管对于后者将有少得多的路径或分支,对应于短语PH的低茫然性部分。
在本发明的语音识别方法的一个优选实施例中,在重新建立图5中作为例子表示的词图作为假设图后开始检索。该检索从在匹配或相应于为识别接收的短语而使用的语法或语言模型的低茫然性片断或部分的假设图中存在的词、词序列等开始。
这些词序列,在图5中是4个大城市名,形成基本假设。把每一基本假设扩展为词、子词或子短语,不管在其前或之后。不同的部分依赖于匹配高茫然性部分的子词单元在匹配基本假设对应的低茫然性部分的子词单元之前还是之后。这意味着,基本假设扩展到在假设词图内的高茫然性子词单元中。
一般说,有许多可能的序列,它可以从高茫然性子词单元构造。一般说,高茫然性子词单元分布在依赖于基本假设的假设词图之上,使得与语法对比不可能严格拆分该词图为LP和HP区域。
然而,如上所述,基本假设提供关于可能的子词单元序列的附加信息。使用该信息通过放弃与基本假设不一致的子词序列来限制和约束检索空间。以这种方式,可以产生有限数目的一致识别结果作为为相应于接收到的、要被识别的语音短语的词系列。
此外,通过使用称为A*检索的检索技术,可以同时分析多重基本假设以寻找具有最高概率或可能性的一致的假设,甚至不要费力的检索。