用于构成语音识别参数的方法.pdf

摘要
申请专利号：	CN02807774.1	申请日：	2002.12.18
公开号：	CN1500260A	公开日：	2004.05.26
当前法律状态：	授权	有效性：	有权
法律详情：	专利权的转移IPC(主分类):G10L 15/02登记生效日:20160516变更事项:专利权人变更前权利人:摩托罗拉移动有限责任公司变更后权利人:谷歌技术控股有限责任公司变更事项:地址变更前权利人:美国伊利诺伊州变更后权利人:美国加利福尼亚州\|\|\|专利权人的姓名或者名称、地址的变更IPC(主分类):G10L 15/02变更事项:专利权人变更前:摩托罗拉移动公司变更后:摩托罗拉移动有限责任公司变更事项:地址变更前:美国伊利诺伊州变更后:美国伊利诺伊州\|\|\|专利权的转移IPC(主分类):G10L 15/02变更事项:专利权人变更前权利人:摩托罗拉公司变更后权利人:摩托罗拉移动公司变更事项:地址变更前权利人:美国伊利诺斯州变更后权利人:美国伊利诺伊州登记生效日:20110107\|\|\|授权\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	G10L15/02; G10L15/06; G10L15/20	主分类号：	G10L15/02; G10L15/06; G10L15/20
申请人：	摩托罗拉公司;
发明人：	杜尚·马踌; 程燕鸣
地址：	美国伊利诺斯州
优先权：	2002.01.30 US 10/061,048
专利代理机构：	中原信达知识产权代理有限责任公司	代理人：	谢丽娜;张天舒
PDF下载：	PDF下载

内容摘要

一种适于在分布式语音识别环境中使用的语音样本特征化前端。将数字化的语音样本(31)在低频通路(32)和高频通路(33)之间进行分割。两条通路都用于判断频谱内容，这适用于判断用于识别的、特征化语音样本的语音识别参数(诸如倒谱系数)的情况。所述低频通路(32)具有彻底的降噪能力。在一个实施例中，所述高频通路33使用降噪的结果来帮助除噪，而不需要具有与所述低频通路32所使用的相同级别的资源能力。

权利要求书

1：一种方法，包括： -提供数字化的语音信号； -使用所述数字化的语音信号来提供： -只包括所述数字化的语音信号的第一部分的第一信号；和 -只包括所述数字化的语音信号的第二部分的第二信号，其中所述数字化的语音信号的所述第一部分和所述第二部分至少部分不同； -使用所述第一信号来生成第一组频谱信息； -使用所述第二信号来生成第二组频谱信息； -根据所述第一和第二组频谱信息来生成语音识别参数，其中所述语音识别参数对应于所述数字化语音信号。
2：如权利要求1中所述方法，其中使用所述数字化语音信号来提供第一信号的步骤包括提供包含所述数字化语音信号的低频分量的第一信号。
3：如权利要求1中所述方法，其中使用所述数字化语音信号来提供第二信号的步骤包括提供包含所述数字化语音信号的高频分量的第二信号。
4：如权利要求1中所述方法，其中根据所述第一和第二组频谱信息来生成语音识别参数的步骤包括根据所述第一和第二组频谱信息的组合来生成所述语音识别参数。
5：如权利要求1中所述方法，其中使用所述第一信号来生成第一组频谱信息的步骤包括使用所述第一信号为预设数量的频段生成第一组频谱信息。
6：如权利要求1中所述方法，其中使用所述第二信号来生成第二组频谱信息的步骤包括使用所述第二信号为预设数量的频段生成第二组频谱信息。
7：如权利要求1中所述方法，其中： -使用所述第一信号来生成第一集合的频谱信息的步骤包括使用所述第一信号为预设数量的频段生成第一组频谱信息； -使用所述第二信号来生成第二集合的频谱信息的步骤包括使用所述第二信号为预设数量的频段生成第二组频谱信息；和其中所述第二组频谱信息的频段比所述第一组频谱信息的频段的频率高。
8：一种方法，包括： -提供数字化的语音信号； -使用所述数字化的语音信号来提供： -只包括所述数字化的语音信号的第一部分的第一信号；和 -只包括所述数字化的语音信号的第二部分的第二信号，其中所述数字化的语音信号的所述第一部分和所述第二部分至少部分不同； -对所述第一信号进行处理以至少减少可能在所述第一信号中出现的部分噪音，从而提供降噪的第一信号； -对所述第二信号进行处理以至少减少可能在所述第二信号中出现的部分噪音，从而提供降噪的第二信号； -使用所述第一降噪信号来生成第一组频谱信息； -使用所述第二降噪信号来生成第二组频谱信息； -根据所述第一和第二组频谱信息来生成语音识别参数，其中所述语音识别参数对应于所述数字化语音信号。
9：如权利要求8中所述方法，其中： -对所述第一信号进行处理以至少减少部分噪音的步骤包括使用谱估计；和 -对所述第二信号进行处理以至少减少部分噪音的步骤包括使用谱估计。
10：如权利要求8中所述方法，其中对所述第二信号进行处理以至少减少部分噪音的步骤包括： -预先对所述第二信号进行处理以至少减少可能在所述第二信号中出现的部分噪音，从而提供预先降噪的第二信号； -进一步将所述预先降噪的第二信号至少部分地作为所述第一降噪信号的函数而进行处理，从而提供所述第二降噪信号。
11：如权利要求10中所述方法，其中进一步处理所述预先降噪的第二信号的步骤包括进一步将所述预先降噪的第二信号至少部分地作为所述第一信号和所述第一降噪信号的函数而进行处理，从而提供所述第二降噪信号。
12：如权利要求11中所述方法，其中对所述第一信号进行处理以至少减少部分噪音的步骤包括使用谱估计。
13：如权利要求12中所述方法，其中生成语音识别参数的步骤包括生成对应于由所述第一和第二组频谱信息表示的所述数字化语音信号的倒谱系数。
14：一种方法，包括： -提供数字化的语音信号； -对所述数字化的语音信号进行低通滤波以提供第一数字化的语音信号； -对所述数字化的语音信号进行高通滤波以提供第二数字化的语音信号； -使用第一处理过程来处理所述第一数字化的语音信号，从而： -提供相应的谱估计；和 -至少减少可能在所述第一信号中出现的部分噪音，从而提供降噪的第一数字化的语音信号； -根据所述第二数字化的语音信号提供经过处理的信号； -将所述经过处理的信号至少部分地作为所述相应的谱估计的函数而进行处理，从而提供编码的表示； -将所述编码的表示至少部分地作为所述降噪的第一数字化语音信号的函数而进行处理，从而提供解码的表示； -将基于所述第二数字化的语音信号的信号至少部分地作为所述解码表示的函数而进行处理，从而至少降低可能在所述信号中出现的部分噪音并提供生成的对应于所述数字化的语音信号的高频信息； -将所述生成的高频信息与对应于所述数字化的语音信号的低频信息进行合并，从而为所述数字化的语音信号提供合并的频谱信息； -根据所述合并的频谱信息来生成语音识别参数，其中所述语音识别参数对应于所述数字化语音信号。
15：如权利要求14中所述方法，其中所述低通滤波的步骤和所述高通滤波的步骤中至少有一个步骤包括对正交镜像滤波器的使用。
16：如权利要求15中所述方法，其中所述低通滤波的步骤和所述高通滤波的步骤都包括对正交镜像滤波器的使用。
17：如权利要求14中所述方法，其中根据所述第二数字化语音信号来提供经过处理的信号的步骤包括： -使用快速傅立叶变换来获得谱估计； -使用Mel滤波器组来测定关于所述谱估计的特定能量。
18：如权利要求17中所述方法，其中将所述经过处理的信号至少部分地作为所述相应的谱估计的函数而进行处理，从而提供编码的表示的步骤包括： -使用快速傅立叶变换来获得对应于所述第一数字化语音信号的谱估计； -使用Mel滤波器组来测定关于对应于所述第一数字化语音信号的所述谱估计的特定能量； -将对应于所述第二数字化语音信号的所述特定的能量作为对应于所述第一数字化语音信号的所述特定的能量的函数进行处理，从而提供所述编码的表示。
19：如权利要求18中所述方法，其中将所述编码的表示至少部分地作为所述降噪的第一数字化语音信号的函数而进行处理，从而提供解码的表示的步骤包括： -使用快速傅立叶变换来获得对应于所述降噪的第一数字化语音信号的谱估计； -使用Mel滤波器组来测定关于对应于所述降噪的第一数字化语音信号的所述谱估计的特定能量； -将所述解码的表示作为对应于所述降噪的第一数字化语音信号的所述特定的能量的函数进行处理，从而提供噪音的解码的表示。
20：如权利要求14中所述方法，还包括通过计算能量参数的对数而生成对应于整个频段的至少大部分频段的信号能量的参数，这个频段包括所述数字化语音信号。
21：如权利要求20中所述方法，其中计算能量参数的对数的步骤包括使用源于所述第一和第二数字化语音信号的低频和高频信息来计算能量参数的对数。

说明书

用于构成语音识别参数的方法
    【技术领域】

    本发明一般涉及语音识别，更具体地说，涉及分布式语音识别。

    背景技术

    语音识别技术是众所周知的。许多语音识别技术是用于将语音信息数字化和进行后续的处理以利于支持语音识别信息本身的模式匹配工作的。这种处理过程通常包括将语音信息的某个方面特征化并以某种形式(诸如用倒谱系数(cepstral coefficient))将那些特征化的方面表现出来。一般来说，随着模式匹配资源的增加，使用任何给定的特征化方法的给定的语音识别技术的精度、速度、和可靠性都将提高。不幸的是，对于很多应用来说，在那些只有非常有限地资源的小型、便携式用户设备中通常会需要语音识别活动的结果。而这些设备上的语音识别通常需要忍受缺乏这种资源的痛苦。一种建议的解决方案是至少部分地在用户设备中将语音进行特征化，然后将特征化的信息提供给具有大量资源的远程设备(诸如语音识别服务器)。然后就可以使用这些资源来完成识别过程并将其结果提高到预想的精度。其中一种这样的分布式解决方案是这样设计的：将适当地在8KHz频段内处理和特征化语音信号，从而提供所谓的服务的电话波段等级。然而，也有的实例希望在具有更宽频段的波段(诸如16KHz的频段)的情况下工作的。不幸的是，这种8KHz的解决方案不易于进行伸缩以简单适应增加了带宽的信号。然而，与此同时，许多8KHz的解决方案在它们的所被期望的使用领域中是有效的并代表了这种应用的理想实施例。

    一种解决方案是为了处理更大带宽的信号而简单地提供完全分离的实施例。然而，这种解决方案需要完全类似的方法，其需要提供相应的高等级的资源。

    【附图说明】

    通过提供在下面详细描述的、特别结合附图来研究的用于构成语音识别参数的方法，至少可以部分地满足上述需要，在这些附图中：

    图1是图解说明样本语音信号的时间/频率图；

    图2是根据本发明的实施例的高级流程图；和

    图3是根据本发明的实施例的框图。

    本领域一般技术人员应当理解，图中的元素是出于简化和清楚的目的而示出的，并且不需要将它们按比例画出。例如，为了有助于更好的理解本发明的各种实施例，图中的一些元素的尺寸相对于其它元素来说是夸大了的。

    【具体实施方式】

    语音信息通常在较低的频率下会比在较高的频率下包含更多的信息。例如，参看图1，一连串的语音话语在较低的频率区域11(例如从0Hz到4KHz)中通常将会比在较高的频率区域12(例如从4KHz到8KHz)中包含更多的声谱内容。因此，只处理语音信号的较低频率的内容就至少可以进行一定程度上的语音识别。然而，对于许多语音样本来说，在较高的频率确实包含一些内容，有或者没有较高频率的内容可以并将会影响到语音识别引擎对给定的语音话语的识别能力。因此，如同前面注明的，在特征化给定的语音话语时有时希望包括这种高频声谱内容。

    一般来说，参看图2，依照下面提出的各种实施例，提供了数字化的语音信号(步骤21)，然后根据它，提供至少两个信号(信号1和信号2)(步骤22)。根据信号1生成第一组频谱信息(步骤23)，根据信号2生成第二组频谱信息(步骤24)。然后使用这两个组频谱信息来生成对应于数字化的语音信号的语音识别参数(步骤25)。在一个实施例中，信号1属于经过低通滤波的数字化语音信号，而信号2属于经过高通滤波的数字化语音信号。语音识别参数可以是(例如)倒谱系数，该系数是基于为两个有限带宽的信号通路提供的频谱信息的。在一个实施例中，可以对信号1进行加强处理的降噪处理。然后降噪处理带来的好处可以扩展到信号2中而不需要对它的资源进行同等的处理。如果希望的话，可以使用所建立的电话波段分布式语音识别技术来构成第一组频谱信息，从而可以当支持电话波段专用的分布式语音识别技术时允许使用信号1的通路，而当支持带宽较宽的分布式语音识别技术时则允许结合信号2的通路来使用信号1的通路。

    现在参看图3，将对上面一般性描述的实施例进行详细描述。

    数字化语音信号31(在这个例子中，数字化语音信号包含构成以奈奎斯特采样率(Nyquist sampling rate)采样的8KHz语音信号的16KHz的信号)输入到第一通路32(包含低频通路)和第二通路33(包含高频通路)中。

    如本领域技术人员所知，低频第一通路32具有作为低通滤波器34(在这个例子中，被校准为具有0到4KHz的带通范围)使用的正交镜像滤波器(QMF)。然后有限频率的结果输出到抽取器(decimator)35，在这里结果按2的倍数抽取以减少表示位的个数。然后如同已知的，就把经过抽取的有限频率的结果传递给降噪和语音识别参数特征化单元36。单元36包括降噪器37、信噪比波形处理器38、和测定mel频标倒谱系数(mel frequency cepstral coefficient)的单元39。降噪器37实质上是进行初次降噪。这种降噪器可以基于维纳(Wiener)滤波器理论并通过(例如)诸如在Agarwal和Cheng所著的“Two-StageMel-Warped Wiener Filter for Robust Speech Recognition(用于鲁棒语音识别的两级mel弯曲维纳滤波器)”(ASRU Keystones，1999年12月)中提出的两极Mel频域处理来实施。信噪比波形处理器38进行额外的降噪处理，它加强高信噪比的波形部分并降低低信噪比的波形部分，其可以通过(例如)在Macho和Cheng所著“SNR-DependentWaveform Processing for Improving the Robustness of ASR Front-End(用于提高ASR前端鲁棒性的基于SNR的波形处理)”(Proceeding ICASSP2001，Salt Lake City，2001年5月)中所讲的处理技术来实施。mel频标倒谱系数测定仪39为低频除噪的信号处理(通常使用快速傅立叶变换)谱估计信息(通常用23个这种系数来表示低频信息)。除倒谱系数之外，测定仪39通常还将产生构成能量参数的另一个参数，这个参数表示整个信号1的频段的能量的对数值。对这个系数的测定在本领域中是公知的。

    上述单元实质上都是支持生成用于适当地特征化初始语音信号(具体地说，在这个例子中，是初始语音信息的0-4KHz部分)的低频分量的语音识别参数的。如同在前面所注明的，这种配置不容易伸缩以适应具有更宽的频带宽度的输入。具体地说，降噪器37相对来说是比较复杂的、资源密集的，并且是专门为使用有限带宽的输入而设计的，当希望适应更宽的带宽输入的时候就会遇到很大的设计挑战。

    第二信号通路33作为对上述第一信号通路32的能力的补充，可以让单元结合起来适当地处理更宽的带宽输入。

    第二信号通路33包括另一个作为高通滤波器40(具体地说，让4KHz到8KHz之间的原有语音信息通过)使用的正交镜像滤波器。这个高通滤波的结果输出到抽取器和频谱变换器41，抽取器和频谱变换器41将输入的位作为“2”的函数进行抽取并由此转换频谱内容，并且，因此，就将原来的4KHz到8KHz的频段搬移到0Hz到4KHz的频段。然后谱估计器42就使用快速傅立叶变换来估计该结果的频谱内容。然后这个谱估计信息就穿过mel滤波器组50以得到三个计算出的能量来表示高通信号的频谱内容。

    然后沿着两个不同的通路来处理这些计算结果。在第一条通路中，结果传送给语音活动探测器和频谱减法器43。在这里，简单的基于能量的语音活动探测器使用三个mel滤波器组的能量来估计在高频段能量中的噪音(这里用N(1)表示)。然后频谱减法器就应用这三个带噪音的高频段能量。这可以用下式表示：

    (1)S^_SSHF(l)=log(max{XHF(l)-αN(l),βXhf(l)})]]>

    其中，XHF(l)是对数运算之前的mel间隔的高频段能量，α和β是常数，如本领域技术人员所知。然后就按照下述方式使用频谱减法处理的结果。

    在第二条通路中，三个mel滤波器组的能量就在编码器46中作为来自低通信号通路32的信息的函数进行编码。具体地说，来自降噪器37的谱估计值在充分地(或任意地)降噪之前，由三个mel滤波器组45处理以产生三个mel间隔的、频率范围从2到4KHz的低频段能量的对数(在这里用表达式SLF(k)表示)。然后使用这些能量来对由高通信号通路33的mel滤波器组50提供的三个mel间隔的高通波段能量的对数进行编码(在这里用表达式SHF(l)表示)。因此，编码可以表示成：

    (2)Code(k，l)＝SLF(k)-SHF(l)

    然后在解码器48中将这些编码的值作为降噪的低通波段信号的函数而解码(具体地说，在表示降噪后的谱估计值的系数计算器30中得到快速傅立叶变换的结果)。除噪后的低通波段谱估计值穿过另一个mel滤波器组47以提供三个mel间隔的低频波段能量的对数(在这里用表达式表示)。因此解码器48的输出可以表示成：

    (3)S_codeHF(l)=Σk=1wcode(k)·(SLF(k)-Code(k,l))]]>

    其中wcode(k)根据经验设置的基于频率的权。

    然后，如上所述的解码器48的输出和语音活动探测器和频谱减法器43的输出由合并器44合并。这个操作可以

    表示为：

    (4)S^HF(l)=λ·S^_codeHF(l)+(1-λ)·S^_SSHF(l)]]>

    其中λ是为了适于的具体应用而选择的根据经验设置的常数。对于上述的实施例和所选择的频率范围来说，将λ设置为0.7可以得到好的结果。

    这个解码过程的结果是解码的高频段频谱内容，它反映了不同于低通信号通路单元36所提供的降噪结果。在测试的时候，上述实施例获得了显著提高的识别性能。具体地说，当基于识别器引擎的训练和测试之间的各种不同的不匹配度，用E.T.S.I标准化工程STQ WI008中使用的语音数据库测试的时候，：单独与低波段结构的例子相比，上述实施例平均识别率相对提高了9.7％。

    本领域中的一般技术人员应当认识到，在不背离本发明的精神和范围的前提下，可以对上述实施例进行各种修改、变更和合并，并且这些修改、变更和合并可以看作是在本发明的概念的范围之内的。