用于构成语音识别参数的方法 【技术领域】
本发明一般涉及语音识别,更具体地说,涉及分布式语音识别。
背景技术
语音识别技术是众所周知的。许多语音识别技术是用于将语音信息数字化和进行后续的处理以利于支持语音识别信息本身的模式匹配工作的。这种处理过程通常包括将语音信息的某个方面特征化并以某种形式(诸如用倒谱系数(cepstral coefficient))将那些特征化的方面表现出来。一般来说,随着模式匹配资源的增加,使用任何给定的特征化方法的给定的语音识别技术的精度、速度、和可靠性都将提高。不幸的是,对于很多应用来说,在那些只有非常有限地资源的小型、便携式用户设备中通常会需要语音识别活动的结果。而这些设备上的语音识别通常需要忍受缺乏这种资源的痛苦。一种建议的解决方案是至少部分地在用户设备中将语音进行特征化,然后将特征化的信息提供给具有大量资源的远程设备(诸如语音识别服务器)。然后就可以使用这些资源来完成识别过程并将其结果提高到预想的精度。其中一种这样的分布式解决方案是这样设计的:将适当地在8KHz频段内处理和特征化语音信号,从而提供所谓的服务的电话波段等级。然而,也有的实例希望在具有更宽频段的波段(诸如16KHz的频段)的情况下工作的。不幸的是,这种8KHz的解决方案不易于进行伸缩以简单适应增加了带宽的信号。然而,与此同时,许多8KHz的解决方案在它们的所被期望的使用领域中是有效的并代表了这种应用的理想实施例。
一种解决方案是为了处理更大带宽的信号而简单地提供完全分离的实施例。然而,这种解决方案需要完全类似的方法,其需要提供相应的高等级的资源。
【附图说明】
通过提供在下面详细描述的、特别结合附图来研究的用于构成语音识别参数的方法,至少可以部分地满足上述需要,在这些附图中:
图1是图解说明样本语音信号的时间/频率图;
图2是根据本发明的实施例的高级流程图;和
图3是根据本发明的实施例的框图。
本领域一般技术人员应当理解,图中的元素是出于简化和清楚的目的而示出的,并且不需要将它们按比例画出。例如,为了有助于更好的理解本发明的各种实施例,图中的一些元素的尺寸相对于其它元素来说是夸大了的。
【具体实施方式】
语音信息通常在较低的频率下会比在较高的频率下包含更多的信息。例如,参看图1,一连串的语音话语在较低的频率区域11(例如从0Hz到4KHz)中通常将会比在较高的频率区域12(例如从4KHz到8KHz)中包含更多的声谱内容。因此,只处理语音信号的较低频率的内容就至少可以进行一定程度上的语音识别。然而,对于许多语音样本来说,在较高的频率确实包含一些内容,有或者没有较高频率的内容可以并将会影响到语音识别引擎对给定的语音话语的识别能力。因此,如同前面注明的,在特征化给定的语音话语时有时希望包括这种高频声谱内容。
一般来说,参看图2,依照下面提出的各种实施例,提供了数字化的语音信号(步骤21),然后根据它,提供至少两个信号(信号1和信号2)(步骤22)。根据信号1生成第一组频谱信息(步骤23),根据信号2生成第二组频谱信息(步骤24)。然后使用这两个组频谱信息来生成对应于数字化的语音信号的语音识别参数(步骤25)。在一个实施例中,信号1属于经过低通滤波的数字化语音信号,而信号2属于经过高通滤波的数字化语音信号。语音识别参数可以是(例如)倒谱系数,该系数是基于为两个有限带宽的信号通路提供的频谱信息的。在一个实施例中,可以对信号1进行加强处理的降噪处理。然后降噪处理带来的好处可以扩展到信号2中而不需要对它的资源进行同等的处理。如果希望的话,可以使用所建立的电话波段分布式语音识别技术来构成第一组频谱信息,从而可以当支持电话波段专用的分布式语音识别技术时允许使用信号1的通路,而当支持带宽较宽的分布式语音识别技术时则允许结合信号2的通路来使用信号1的通路。
现在参看图3,将对上面一般性描述的实施例进行详细描述。
数字化语音信号31(在这个例子中,数字化语音信号包含构成以奈奎斯特采样率(Nyquist sampling rate)采样的8KHz语音信号的16KHz的信号)输入到第一通路32(包含低频通路)和第二通路33(包含高频通路)中。
如本领域技术人员所知,低频第一通路32具有作为低通滤波器34(在这个例子中,被校准为具有0到4KHz的带通范围)使用的正交镜像滤波器(QMF)。然后有限频率的结果输出到抽取器(decimator)35,在这里结果按2的倍数抽取以减少表示位的个数。然后如同已知的,就把经过抽取的有限频率的结果传递给降噪和语音识别参数特征化单元36。单元36包括降噪器37、信噪比波形处理器38、和测定mel频标倒谱系数(mel frequency cepstral coefficient)的单元39。降噪器37实质上是进行初次降噪。这种降噪器可以基于维纳(Wiener)滤波器理论并通过(例如)诸如在Agarwal和Cheng所著的“Two-StageMel-Warped Wiener Filter for Robust Speech Recognition(用于鲁棒语音识别的两级mel弯曲维纳滤波器)”(ASRU Keystones,1999年12月)中提出的两极Mel频域处理来实施。信噪比波形处理器38进行额外的降噪处理,它加强高信噪比的波形部分并降低低信噪比的波形部分,其可以通过(例如)在Macho和Cheng所著“SNR-DependentWaveform Processing for Improving the Robustness of ASR Front-End(用于提高ASR前端鲁棒性的基于SNR的波形处理)”(Proceeding ICASSP2001,Salt Lake City,2001年5月)中所讲的处理技术来实施。mel频标倒谱系数测定仪39为低频除噪的信号处理(通常使用快速傅立叶变换)谱估计信息(通常用23个这种系数来表示低频信息)。除倒谱系数之外,测定仪39通常还将产生构成能量参数的另一个参数,这个参数表示整个信号1的频段的能量的对数值。对这个系数的测定在本领域中是公知的。
上述单元实质上都是支持生成用于适当地特征化初始语音信号(具体地说,在这个例子中,是初始语音信息的0-4KHz部分)的低频分量的语音识别参数的。如同在前面所注明的,这种配置不容易伸缩以适应具有更宽的频带宽度的输入。具体地说,降噪器37相对来说是比较复杂的、资源密集的,并且是专门为使用有限带宽的输入而设计的,当希望适应更宽的带宽输入的时候就会遇到很大的设计挑战。
第二信号通路33作为对上述第一信号通路32的能力的补充,可以让单元结合起来适当地处理更宽的带宽输入。
第二信号通路33包括另一个作为高通滤波器40(具体地说,让4KHz到8KHz之间的原有语音信息通过)使用的正交镜像滤波器。这个高通滤波的结果输出到抽取器和频谱变换器41,抽取器和频谱变换器41将输入的位作为“2”的函数进行抽取并由此转换频谱内容,并且,因此,就将原来的4KHz到8KHz的频段搬移到0Hz到4KHz的频段。然后谱估计器42就使用快速傅立叶变换来估计该结果的频谱内容。然后这个谱估计信息就穿过mel滤波器组50以得到三个计算出的能量来表示高通信号的频谱内容。
然后沿着两个不同的通路来处理这些计算结果。在第一条通路中,结果传送给语音活动探测器和频谱减法器43。在这里,简单的基于能量的语音活动探测器使用三个mel滤波器组的能量来估计在高频段能量中的噪音(这里用N(1)表示)。然后频谱减法器就应用这三个带噪音的高频段能量。这可以用下式表示:
(1)S^_SSHF(l)=log(max{XHF(l)-αN(l),βXhf(l)})]]>
其中,XHF(l)是对数运算之前的mel间隔的高频段能量,α和β是常数,如本领域技术人员所知。然后就按照下述方式使用频谱减法处理的结果。
在第二条通路中,三个mel滤波器组的能量就在编码器46中作为来自低通信号通路32的信息的函数进行编码。具体地说,来自降噪器37的谱估计值在充分地(或任意地)降噪之前,由三个mel滤波器组45处理以产生三个mel间隔的、频率范围从2到4KHz的低频段能量的对数(在这里用表达式SLF(k)表示)。然后使用这些能量来对由高通信号通路33的mel滤波器组50提供的三个mel间隔的高通波段能量的对数进行编码(在这里用表达式SHF(l)表示)。因此,编码可以表示成:
(2)Code(k,l)=SLF(k)-SHF(l)
然后在解码器48中将这些编码的值作为降噪的低通波段信号的函数而解码(具体地说,在表示降噪后的谱估计值的系数计算器30中得到快速傅立叶变换的结果)。除噪后的低通波段谱估计值穿过另一个mel滤波器组47以提供三个mel间隔的低频波段能量的对数(在这里用表达式表示)。因此解码器48的输出可以表示成:
(3)S_codeHF(l)=Σk=1wcode(k)·(SLF(k)-Code(k,l))]]>
其中wcode(k)根据经验设置的基于频率的权。
然后,如上所述的解码器48的输出和语音活动探测器和频谱减法器43的输出由合并器44合并。这个操作可以
表示为:
(4)S^HF(l)=λ·S^_codeHF(l)+(1-λ)·S^_SSHF(l)]]>
其中λ是为了适于的具体应用而选择的根据经验设置的常数。对于上述的实施例和所选择的频率范围来说,将λ设置为0.7可以得到好的结果。
这个解码过程的结果是解码的高频段频谱内容,它反映了不同于低通信号通路单元36所提供的降噪结果。在测试的时候,上述实施例获得了显著提高的识别性能。具体地说,当基于识别器引擎的训练和测试之间的各种不同的不匹配度,用E.T.S.I标准化工程STQ WI008中使用的语音数据库测试的时候,:单独与低波段结构的例子相比,上述实施例平均识别率相对提高了9.7%。
本领域中的一般技术人员应当认识到,在不背离本发明的精神和范围的前提下,可以对上述实施例进行各种修改、变更和合并,并且这些修改、变更和合并可以看作是在本发明的概念的范围之内的。