多麦克风声音活动检测器 交叉相关申请案
本申请案涉及2006年10月20日申请的共同转让的美国专利申请案第11/551,509号的共同待决的申请案“用于盲源分离的增强技术(Enhancement Techniques for BlindSource Separation)”(代理人案号061193)及共同待决的申请案“多麦克风音频系统中的噪声和回波减少的设备及方法(Apparatus and Method of Noise and Echo Reduction inMultiple Microphone Audio Systems)”(代理人案号061521),其与本申请案共同申请。
【技术领域】
本发明涉及音频处理领域。明确地说,本发明涉及使用多个麦克风的声音活动检测。
背景技术
可使用例如声音活动检测器的信号活动检测器来最小化电子装置中的不必要处理的量。声音活动检测器可选择性地控制麦克风之后的一个或一个以上信号处理级。
举例来说,记录装置可实施声音活动检测器以最小化对噪声信号的处理及记录。声音活动检测器可在无声音活动的周期期间断开或以其它方式减活信号处理及记录。类似地,例如移动电话、个人装置助理或膝上型计算机的通信装置可实施声音活动检测器以降低分配到噪声信号的处理功率且减少传输到或以其它方式传达到远程目的装置的噪声信号。声音活动检测器可在无声音活动的周期期间断开或以减活声音处理及传输。
声音活动检测器良好操作的能力可能由于改变噪声条件及具有显著噪声能量的噪声条件而被阻止。当将声音活动检测集成于经受动态噪声环境的移动装置中时,声音活动检测器的性能可能进一步复杂化。移动装置可在相对无噪声的环境下操作,或可在相当大的噪声条件下操作,其中噪声能量与声音能量近似。
动态噪声环境的存在使得声音活动决策变得复杂。对声音活动的错误指示可导致对噪声信号的处理及传输。对噪声信号的处理及传输可产生不良的用户体验,尤其是在归因于声音活动检测器指示无声音活动,噪声传输周期不时地被不活动周期打断的情况下。
相反,不良的声音活动检测可导致声音信号的相当大部分的丢失。声音活动的初始部分的丢失可导致用户需要有规律地重复对话的部分,其为不合需要的条件。
传统的声音活动检测(VAD)算法仅使用一个麦克风信号。早期VAD算法使用基于能量的标准。此类型的算法估计阈值以做出关于声音活动的决策。单个麦克风VAD对于固定噪声可良好地运行。然而,单个麦克风VAD在处理非固定噪声时具有一些困难。
另一VAD技术对信号的零交叉进行计数且基于零交叉率来进行声音活动决策。当背景噪声为非语音信号时,此方法可良好地运行。当背景信号为类似语音的信号时,此方法无法做出可靠的决策。还可使用例如音高、共振峰形状、倒频谱及周期性的其它特征用于声音活动检测。检测到这些特征且将其与语音信号进行比较以做出声音活动决策。
替代使用语音特征,还可使用语音存在及语音缺失的统计模型来做出声音活动决策。在所述实施方案中,更新统计模型且基于统计模型的似然比来做出声音活动决策。另一方法使用单个麦克风源分离网络来预处理信号。使用拉格朗日编程神经网络(Lagrange programming neural network)的平滑化误差信号及活动适应性阈值来做出决策。
还已研究基于多个麦克风的VAD算法。多个麦克风实施例可组合噪声抑制、阈值调适及音高检测以实现稳健的检测。实施例使用线性滤波以最大化信号干扰比(SIR)。接着,使用基于统计模型的方法以使用增强的信号来检测声音活动。另一实施例使用线性麦克风阵列及傅里叶变换以产生阵列输出向量的频域表示。可使用频域表示来估计信噪比(SNR),且可使用预定阈值来检测语音活动。又一实施例提议在基于两个传感器的VAD方法中使用幅值平方相干(MSC)及适应性阈值来检测声音活动。
声音活动检测算法中的许多算法在计算上昂贵且不适合于移动应用,其中功率消耗及计算复杂性值得关注。然而,部分归因于动态噪声环境及传入于移动装置上的噪声信号的非固定性质,移动应用还呈现出具有挑战性的声音活动检测环境。
【发明内容】
可基于语音参考麦克风与噪声参考麦克风中的每一者处的能量之间的关系来进行使用多个麦克风地声音活动检测。可确定从语音参考麦克风及噪声参考麦克风中的每一者输出的能量。可确定语音与噪声能量比且将其与预定声音活动阈值进行比较。在另一实施例中,确定语音的相关的绝对值及噪声参考信号的自相关及/或自相关的绝对值,且确定基于相关值的比率。超过预定阈值的比率可指示存在声音信号。可使用加权平均值或通过离散帧大小确定语音及噪声能量或相关。
本发明的方面包括一种检测声音活动的方法。所述方法包括:接收来自语音参考麦克风的语音参考信号;接收来自与所述语音参考麦克风不同的噪声参考麦克风的噪声参考信号;至少部分地基于所述语音参考信号来确定语音特征值;至少部分地基于所述语音参考信号及所述噪声参考信号来确定组合特征值;至少部分地基于所述语音特征值及所述组合特征值来确定声音活动量度;及基于所述声音活动量度确定声音活动状态。
本发明的方面包括一种检测声音活动的方法。所述方法包括:接收来自至少一个语音参考麦克风的语音参考信号;接收来自与所述语音参考麦克风不同的至少一个噪声参考麦克风的噪声参考信号;基于所述语音参考信号确定自相关的绝对值;基于所述语音参考信号及所述噪声参考信号确定交叉相关;至少部分地基于所述语音参考信号的所述自相关的所述绝对值与所述交叉相关的比率来确定声音活动量度;及通过将所述声音活动量度与至少一个阈值进行比较来确定声音活动状态。
本发明的方面包括一种经配置以检测声音活动的设备。所述设备包括:语音参考麦克风,其经配置以输出语音参考信号;噪声参考麦克风,其经配置以输出噪声参考信号;语音特征值产生器,其耦合到所述语音参考麦克风且经配置以确定语音特征值;组合特征值产生器,其耦合到所述语音参考麦克风及所述噪声参考麦克风且经配置以确定组合特征值;声音活动量度模块,其经配置以至少部分基于所述语音特征值及所述组合特征值来确定声音活动量度;及比较器,其经配置以将所述声音活动量度与阈值进行比较且输出声音活动状态。
本发明的方面包括一种经配置以检测声音活动的设备。所述设备包括:用于接收语音参考信号的装置;用于接收噪声参考信号的装置;用于基于所述语音参考信号来确定自相关的绝对值的装置;用于基于所述语音参考信号及所述噪声参考信号来确定交叉相关的装置;用于至少部分地基于所述语音参考信号的所述自相关与所述交叉相关的比率来确定声音活动量度的装置;及用于通过将所述声音活动量度与至少一个阈值进行比较来确定声音活动状态的装置。
本发明的方面包括处理器可读媒体,其包括可由一个或一个以上处理器利用的指令。所述指令包括:用于至少部分地基于来自至少一个语音参考麦克风的语音参考信号来确定语音特征值的指令;用于至少部分地基于所述语音参考信号及来自至少一个噪声参考麦克风的噪声参考信号来确定组合特征值的指令;用于至少部分地基于所述语音特征值及所述组合特征值来确定声音活动量度的指令;及用于基于所述声音活动量度来确定声音活动状态的指令。
【附图说明】
当结合图式阅读时,本发明实施例的特征、目标及优势将在下文陈述的详细描述中变得更显而易见,在图式中,相同元件具有相同参考标号。
图1为在噪声环境中操作的多麦克风装置的简化功能框图。
图2为具有经校准的多麦克风声音活动检测器的移动装置的实施例的简化功能框图。
图3为具有声音活动检测器及回波消除的移动装置的实施例的简化功能框图。
图4A为具有带有信号增强的声音活动检测器的移动装置的实施例的简化功能框图。
图4B为使用波束成形的信号增强的简化功能框图。
图5为具有带有信号增强的声音活动检测器的移动装置的实施例的简化功能框图。
图6为具有带有语音编码的声音活动检测器的移动装置的实施例的简化功能框图。
图7为声音活动检测的简化方法的流程图。
图8为具有经校准的多麦克风声音活动检测器的移动装置的实施例的简化功能框图。
【具体实施方式】
本发明揭示用于使用多个麦克风进行声音活动检测(VAD)的设备及方法。所述设备及方法利用配置于嘴参考点(MRP)的大体近场中的第一组或群组麦克风,其中MRP被认为是信号源的位置。第二组或群组麦克风可配置于大体降低的声音位置上。理想地,第二组麦克风定位于与第一组麦克风大体相同的噪声环境中,但大体上不耦合语音信号中的任一者。一些移动装置不允许此最佳配置,而允许第一组麦克风中所接收的语音始终大于第二组麦克风所接收的语音的配置。
相对于第二组麦克风来说,第一组麦克风接收并转换通常具有较佳质量的语音信号。由此,可认为第一组麦克风为语音参考麦克风,且可认为第二组麦克风为噪声参考麦克风。
VAD模块可首先基于语音参考麦克风及噪声参考麦克风中的每一者处的信号来确定特征。使用对应于语音参考麦克风及噪声参考麦克风的特征值来做出声音活动决策。
举例来说,VAD模块可经配置以计算、估计或以其它方式确定来自语音参考麦克风及噪声参考麦克风的信号中的每一者的能量。可在预定语音及噪声样本时间处计算能量或可基于语音及噪声样本的帧来计算能量。
在另一实例中,VAD模块可经配置以确定语音参考麦克风及噪声参考麦克风中的每一者处的信号的自相关。自相关值可对应于预定样本时间或可以预定帧间隔进行计算。
VAD模块可至少部分地基于特征值的比率来计算或以其它方式确定活动量度。在一个实施例中,VAD模块经配置以确定来自语音参考麦克风的能量相对于来自噪声参考麦克风的能量的比率。VAD模块可经配置以确定来自语音参考麦克风的自相关相对于来自噪声参考麦克风的自相关的比率。在另一实施例中,使用先前描述的比率中的一者的平方根作为活动量度。VAD将活动量度与预定阈值进行比较以确定存在或缺失声音活动。
图1为包括具有声音活动检测的多个麦克风移动装置110的操作环境100的简化功能框图。虽然在移动装置的情形下进行描述,但显而易见,本文中所揭示的声音活动检测方法及设备不限于应用于移动装置中,而可实施于固定装置、便携式装置、移动装置中且可在主机装置为移动或固定时操作。
操作环境100描绘多麦克风移动装置110。多麦克风装置包括此处描绘为位于移动装置110的正面上的至少一个语音参考麦克风112及此处描绘为位于移动装置110的与语音参考麦克风112对置的侧面上的至少一个噪声参考麦克风114。
虽然图1的移动装置110(且大体来说,图中所示的实施例)描绘一个语音参考麦克风112及一个噪声参考麦克风114,但移动装置110可实施语音参考麦克风群组及噪声参考麦克风群组。语音参考麦克风群组及噪声参考麦克风群组中的每一者可包括一个或一个以上麦克风。语音参考麦克风群组可包括若干麦克风,其与噪声参考麦克风群组中的麦克风的数目不同或相同。
此外,语音参考麦克风群组中的麦克风通常不包括噪声参考麦克风群组中的麦克风,但此并非绝对限制,因为可在两个麦克风群组之间共享一个或一个以上麦克风。然而,语音参考麦克风群组与噪声参考麦克风群组的联合包括至少两个麦克风。
语音参考麦克风112描绘为位于移动装置110的与具有噪声参考麦克风114的表面大体对置的表面上。对语音参考麦克风112及噪声参考麦克风114的放置不限于任何物理方位。对麦克风的放置通常由将语音信号与噪声参考麦克风114隔离的能力管控。
大体来说,两个麦克风群组中的麦克风安装在移动装置110的不同位置处。每一麦克风接收其自身版本的所要语音与背景噪声的组合。可假设语音信号来自近场源。两个麦克风群组处的声压电平(SPL)可能视麦克风的位置而为不同的。如果一个麦克风较接近嘴参考点(MRP)或语音源130,则其可接收高于定位在离MRP较远处的另一麦克风的SPL。具有较高SPL的麦克风称作语音参考麦克风112或主要麦克风,其产生标记为sSP(n)的语音参考信号。具有来自语音源130的MRP的降低的SPL的麦克风称作噪声参考麦克风114或辅助麦克风,其产生标记为sNS(n)的噪声参考信号。注意,语音参考信号通常含有背景噪声,且噪声参考信号还可含有所要语音。
如下文中进一步详细描述,移动装置110可包括声音活动检测以确定来自语音源130的语音信号的存在。声音活动检测的操作可能由于操作环境100中可能存在的噪声源的数目及分布而变得复杂。
传入于移动装置110上的噪声可具有显著的非相关白噪声分量,但还可包括一个或一个以上有色噪声源,例如,140-1到140-4。此外,移动电话110自身可能产生干扰,例如,以从输出变换器120耦合到语音参考麦克风112及噪声参考麦克风114中的一者或两者的回波信号的形式。
一个或一个以上有色噪声源可产生噪声信号,所述噪声信号各自源自相对于移动装置110来说不同的位置及方位。第一噪声源140-1及第二噪声源140-2可各自经定位以更接近语音参考麦克风112或位于通向语音参考麦克风112的更直接的路径中,而第三噪声源140-3及第四噪声源140-4可经定位以更接近噪声参考麦克风114或位于通向噪声参考麦克风114的更直接的路径中。此外,一个或一个以上噪声源(例如,140-4)可产生噪声信号,其从表面150反射出或以其它方式穿过多个路径到达移动装置110。
虽然噪声源中的每一者可向麦克风提供显著信号,但噪声源140-1到140-4中的每一者通常定位在远场中,且因此向语音参考麦克风112及噪声参考麦克风114中的每一者提供大体类似的声压电平(SPL)。
与每一噪声信号相关联的幅值、位置及频率响应的动态性质促成了声音活动检测过程的复杂性。此外,移动装置110通常由电池供电,且因此与声音活动检测相关联的功率消耗可能值得关注。
移动装置110可通过处理来自语音参考麦克风112及噪声参考麦克风114的信号中的每一者以产生对应的语音及噪声特征值来执行声音活动检测。移动装置110可至少部分基于语音及噪声特征值来产生声音活动量度,且可通过将声音活动量度与阈值进行比较来确定声音活动。
图2为具有经校准的多麦克风声音活动检测器的移动装置110的实施例的简化功能框图。移动装置110包括语音参考麦克风112(其可为麦克风群组)及噪声参考麦克风114(其可为噪声参考麦克风群组)。
语音参考麦克风112的输出可耦合到第一模/数转换器(ADC)212。虽然移动装置110通常实施例如滤波及放大的对麦克风信号的模拟处理,但为清晰及简洁起见而未展示语音信号的模拟处理。
噪声参考麦克风114的输出可耦合到第二ADC 214。对噪声参考信号的模拟处理通常可大体上与对语音参考信号执行的模拟处理相同以保持大体上相同的频谱响应。然而,模拟处理部分的频谱响应无需相同,因为校准器220可提供一些校正。此外,校准器220的功能中的一些或全部可实施于模拟处理部分而非图2所示的数字处理中。
第一ADC 212及第二ADC 214各自将其相应信号转换为数字表示。第一ADC 212及第二ADC 214的数字化输出耦合到校准器220,校准器220操作以在声音活动检测之前大体均等化语音与噪声信号路径的频谱响应。
校准器220包括校准产生器222,校准产生器222经配置以确定频率选择性校正且控制与语音信号路径或噪声信号路径中的一者串联放置的标量/滤波器224。校准产生器222可经配置以控制标量/滤波器224提供固定校准响应曲线,或校准产生器222可经配置以控制标量/滤波器224提供动态校准响应曲线。校准产生器222可控制标量/滤波器224基于一个或一个以上操作参数提供可变校准响应曲线。举例来说,校准产生器222可包括或以其它方式接近信号功率检测器(未图示),且可响应于语音或噪声功率而改变标量/滤波器224的响应。其它实施例可利用其它参数或参数的组合。
校准器220可经配置以确定在校准周期期间由标量/滤波器224提供的校准。移动装置110可(例如)最初在制造期间校准,或可根据校准时间表进行校准,所述校准时间表可依据一个或一个以上事件、时间或事件与时间的组合来起始校准。举例来说,校准器220可在移动装置每一次通电时或仅在从最近一次校准起过去预定时间的情况下于通电期间起始校准。
在校准期间,移动装置110可能处于其位于存在远场源的情况的条件下,且不在语音参考麦克风112或噪声参考麦克风114处经历近场信号。校准产生器222监视语音信号及噪声信号中的每一者且确定相对频谱响应。校准产生器222产生或以其它方式特征化校准控制信号,所述校准控制信号在施加到标量/滤波器224时使得标量/滤波器224补偿频谱响应的相对差异。
标量/滤波器224可引入放大、衰减、滤波或可大体补偿频谱差异的某种其它信号处理。标量/滤波器224描绘为置于噪声信号的路径中,其可能便于防止标量/滤波器使语音信号失真。然而,可将标量/滤波器224的部分或全部置于语音信号路径中,且其可分布于语音信号路径及噪声信号路径中的一者或两者的模拟及数字信号路径上。
校准器220将经校准的语音及噪声信号耦合到声音活动检测(VAD)模块230的相应输入。VAD模块230包括语音特征值产生器232、噪声特征值产生器234、对语音及噪声特征值进行操作的声音活动量度模块240及经配置以基于声音活动量度来确定声音活动的存在或缺失的比较器250。VAD模块230可任选地包括组合特征值产生器236,组合特征值产生器236经配置以基于语音参考信号及噪声参考信号的组合来产生特征。举例来说,组合特征值产生器236可经配置以确定语音与噪声信号的交叉相关。可获取交叉相关的绝对值,或可对交叉相关的分量求平方。
语音特征值产生器232可经配置以至少部分基于语音信号产生值。语音特征值产生器232可经配置以(例如)产生特征值,例如特定样本时间处的语音信号的能量(ESP(n))、特定样本时间处的语音信号的自相关(ρSP(n))或某一其它信号特征值,如可获取语音信号的自相关的绝对值或自相关的分量。
噪声特征值产生器234可经配置以产生补充噪声特征值。即,噪声特征值产生器234可经配置以在语音特征值产生器232产生语音能量值的情况下于特定时间产生噪声能量值(ENS(n))。类似地,噪声特征值产生器234可经配置以在语音特征值产生器232产生语音自相关值的情况下于特定时间产生噪声自相关值(ρNS(n))。还可获取噪声自相关值的绝对值或可获取噪声自相关值的分量。
声音活动量度模块240可经配置以基于语音特征值、噪声特征值及(任选地)交叉相关值产生声音活动量度。声音活动量度模块240可经配置以(例如)产生声音活动量度,其在计算方面并不复杂。VAD模块230因此能够大体上实时地且使用相对较少的处理资源来产生声音活动检测信号。在一个实施例中,声音活动量度模块240经配置以确定特征值中的一者或一者以上的比率或特征值中的一者或一者以上与交叉相关值的比率或特征值中的一者或一者以上与交叉相关值的绝对值的比率。
声音活动量度模块240将量度耦合到比较器250,所述比较器250可经配置以通过将声音活动量度与一个或一个以上阈值进行比较来确定语音活动的存在。阈值中的每一者可为固定的预定阈值,或阈值中的一者或一者以上可为动态阈值。
在一个实施例中,VAD模块230确定三个不同相关以确定语音活动。语音特征值产生器232产生语音参考信号的自相关ρSP(n),噪声特征值产生器234产生噪声参考信号的自相关ρNS(n),且交叉相关模块236产生语音参考信号及噪声参考信号的绝对值的交叉相关ρC(n)。此处,n表示时间索引。为避免过度延迟,可使用使用以下方程式的指数窗口方法来大致地计算相关。对于自相关,方程式为:
ρ(n)=αρ(n-1)+s(n)2或ρ(n)=αρ(n-1)+(1-α)s(n)2。
对于交叉相关,方程式为:
ρC(n)=αρC(n-1)+|sSP(n)sNS(n)|或ρC(n)=αρC(n-1)+(1-α)|sSP(n)sNS(n)|。
在以上方程式中,ρ(n)为时间n处的相关。s(n)为时间n处的语音或噪声麦克风信号中的一者。α为0与1之间的常数。|·|表示绝对值。还可如下使用具有窗口大小N的平方窗口来计算相关:
ρ(n)=ρ(n-1)+s(n)2-s(n-N)2或
ρC(n)=ρC(n-1)+|sSP(n)sNS(n)|-|sSP(n-N)sNS(N-N)|。
可基于ρSP(n)、ρNS(n)及ρC(n)做出VAD决策。大体来说,
D(n)=vad(ρSP(n),ρNS(n),ρC(n))。
在以下实例中,描述两类VAD决策。一类为基于样本的VAD决策方法。另一类为基于帧的VAD决策方法。大体来说,基于使用自相关或交叉相关的绝对值的VAD决策方法可允许较小的交叉相关或自相关的动态范围。动态范围的减小可允许VAD决策方法中的更稳定的过渡。
基于样本的VAD决策
VAD模块可基于在时间n处计算的相关在时间n处对每一对语音与噪声样本做出VAD决策。作为实例,声音活动量度模块可经配置以基于三个相关值之间的关系来确定声音活动量度。
R(n)=f(ρSP(n),ρNS(n),ρC(n))。
可基于ρSP(n)、ρNS(n)、ρC(n)及R(n)来确定量T(n),例如,
T(n)=g(ρSP(n),ρNS(n),ρC(n),R(n))。
比较器可基于R(n)及T(n)做出VAD决策,例如,
D(n)=vad(R(n),T(n))。
作为特定实例,可将声音活动量度R(n)界定为来自语音特征值产生器232的语音自相关值ρSP(n)与来自交叉相关模块236的交叉相关ρC(n)的比率。在时间n处,声音活动量度可为界定为如下的比率:
R(n)ρSP(n)ρC(n)+δ,]]>
在声音活动量度的以上实例中,声音活动量度模块240对值进行约束。声音活动量度模块240通过将分母约束为不小于δ来对值进行约束,其中δ为小正数以避免除零。作为另一实例,可将R(n)界定为ρC(n)与ρNS(n)之间的比率,例如,
R(n)ρC(n)ρNS(n)+δ.]]>
作为特定实例,量T(n)可为固定阈值。当所要语音存在直到时间n时,使RSP(n)为最小比率。当缺失所要语音直到时间n时,使RNS(n)为最大比率。可确定或以其它方式选择阈值T(n)以使其在RNS(n)与RSP(n)之间,或等同于:
RNS(n)≤Th(n)≤RSP(n)。
阈值还可为可变的,且可至少部分地基于所要语音及背景噪声的变化而改变。在所述情形中,可基于最新的麦克风信号来确定RSP(n)及RNS(n)。
比较器250将阈值与声音活动量度进行比较(此处为比率R(n))以做出关于声音活动的决策。在此特定实例中,可将决策做出函数vad(·,·)界定如下
基于帧的VAD决策
还可做出VAD决策以使得样本的整个帧产生并共享一个VAD决策。可在时间m与时间m+M-1之间产生或以其它方式接收样本帧,其中M表示帧大小。
作为实例,语音特征值产生器232、噪声特征值产生器234及组合特征值产生器236可确定整个数据帧的相关。与使用平方窗口计算的相关相比,帧相关等同于在时间m+M-1处计算的相关,例如ρ(m+M-1)。
可基于两个麦克风信号的能量或自相关值来做出VAD决策。类似地,声音活动量度模块240可基于如上文中在基于样本的实施例中描述的关系R(n)来确定活动量度。比较器可基于阈值T(n)来做出声音活动决策。
基于信号增强后的信号的VAD
当语音参考信号的SNR低时,VAD决策趋于冒进。可将语音的开始及偏移部分归类为非语音片段。如果当存在所要语音信号时,语音参考麦克风与噪声参考麦克风的信号电平类似,则上文所描述的VAD设备及方法可能不会提供可靠的VAD决策。在所述情形中,可将额外信号增强应用于麦克风信号中的一者或一者以上以协助VAD做出可靠的决策。
可实施信号增强以在不改变所要语音信号的情况下减少语音参考信号中的背景噪声的量。还可实施信号增强以在不改变背景噪声的情况下减少噪声参考信号中的语音的电平或量。在一些实施例中,信号增强可执行语音参考增强与噪声参考增强的组合。
图3为具有声音活动检测器及回波消除的移动装置110的实施例的简化功能框图。移动装置110描绘为无图2所示的校准器,但在移动装置110中实施回波消除并不排除校准。此外,移动装置110在数字域中实施回波消除,但回波消除中的一些或全部可在模拟域中执行。
移动装置110的声音处理部分可大体上类似于图2所说明的部分。语音参考麦克风112或麦克风群组接收语音信号,且将SPL从音频信号转换为电语音参考信号。第一ADC212将模拟语音参考信号转换为数字表示。第一ADC 212将数字化语音参考信号耦合到第一组合器352的第一输入。
类似地,噪声参考麦克风114或麦克风群组接收噪声信号且产生噪声参考信号。第二ADC 214将模拟噪声参考信号转换为数字表示。第二ADC 214将数字化噪声参考信号耦合到第二组合器354的第一输入。
第一组合器352及第二组合器354可为移动装置110的回波消除部分的部件。第一组合器352及第二组合器354可为(例如)信号求和器、信号减法器、耦合器、调制器及类似装置或经配置以组合信号的某一其它装置。
移动装置110可实施回波消除以有效地移除可归因于从移动装置110输出的音频的回波信号。移动装置110包括输出数/模转换器(DAC)310,输出数/模转换器(DAC)310接收来自例如基带处理器的信号源(未图示)的数字化音频输出信号且将数字化音频信号转换为模拟表示。可将DAC 310的输出耦合到例如扬声器320等输出变换器。扬声器320(其可为接收器或扬声器)可经配置以将模拟信号转换为音频信号。移动装置110可在DAC 310与扬声器320之间实施一个或一个以上音频处理级。然而,出于简洁的目的未说明输出信号处理级。
数字输出信号还可耦合到第一回波消除器342及第二回波消除器344的输入。第一回波消除器342可经配置以产生施加到语音参考信号的回波消除信号,而第二回波消除器344可经配置以产生施加到噪声参考信号的回波消除信号。
第一回波消除器342的输出可耦合到第一组合器342的第二输入。第二回波消除器344的输出可耦合到第二组合器344的第二输入。组合器352及354将组合信号耦合到VAD模块230。VAD模块230可经配置而以相对于图2所描述的方式操作。
回波消除器342及344中的每一者可经配置以产生减少或大体消除相应信号线中的回波信号的回波消除信号。每一回波消除器342及344可包括输入,其对相应组合器352及354的输出处的经消除回波的信号进行取样或以其它方式监视。组合器352及354的输出作为可由相应回波消除器342及344使用以最小化残余回波的误差反馈信号而操作。
每一回波消除器342及344可包括(例如)放大器、衰减器、滤波器、延迟模块或其某种组合以产生回波消除信号。输出信号与回波信号之间的高相关可允许回波消除器342及344更容易地检测并补偿回波信号。
在其它实施例中,可能需要额外信号增强,因为将语音参考麦克风置于较接近嘴参考点处的假设不成立。举例来说,可将两个麦克风彼此接近地放置以使得两个麦克风信号之间的差异极小。在此情形中,未增强的信号可能无法产生可靠的VAD决策。在此情形中,可使用信号增强来帮助改进VAD决策。
图4为具有带有信号增强的声音活动检测器的移动装置110的实施例的简化功能框图。如前所述,除信号增强外,还可实施上文中相对于图2及图3描述的校准及回波消除技术及设备中的一者或两者。
移动装置110包括语音参考麦克风112或麦克风群组,其经配置以接收语音信号且将SPL从音频信号转换为电语音参考信号。第一ADC 212将模拟语音参考信号转换为数字表示。第一ADC 212将数字化语音参考信号耦合到信号增强模块400的第一输入。
类似地,噪声参考麦克风114或麦克风群组接收噪声信号且产生噪声参考信号。第二ADC 214将模拟噪声参考信号转换为数字表示。第二ADC 214将数字化噪声参考信号耦合到信号增强模块400的第二输入。
信号增强模块400可经配置以产生增强的语音参考信号及增强的噪声参考信号。信号增强模块400将增强的语音及噪声参考信号耦合到VAD模块230。VAD模块230对增强的语音及噪声参考信号进行操作以做出声音活动决策。
基于波束成形或信号分离后的信号的VAD
信号增强模块400可经配置以实施适应性波束成形,从而产生传感器方向性。信号增强模块400使用一组滤波器且将麦克风当作传感器阵列来实施适应性波束成形。可使用此传感器方向性以于存在多个信号源时提取所要信号。多种波束成形算法可用以实现传感器方向性。波束成形算法或波束成形算法的组合的示例称作波束成形器。在两麦克风语音通信中,可使用波束成形器将传感器方向引导到嘴参考点,以产生增强的语音参考信号,其中可减少背景噪声。还可产生增强的噪声参考信号,其中可减少所要语音。
图4B为对语音参考麦克风112及噪声参考麦克风114进行波束成形的信号增强模块400的实施例的简化功能框图。
信号增强模块400包括包含第一麦克风阵列的一组语音参考麦克风112-1到112-n。语音参考麦克风112-1到112-n中的每一者可将其输出耦合到对应的滤波器412-1到412-n。滤波器412-1到412-n中的每一者提供可由第一波束成形控制器420-1控制的响应。每一滤波器(例如,412-1)可经控制以提供可变延迟、频谱响应、增益或某一其它参数。
可通过对应于预定波束集合的预定滤波器控制信号集合来配置第一波束成形控制器420-1,或第一波束成形控制器420-1可经配置以根据预定算法来改变滤波器响应从而以连续方式有效地操纵波束。
滤波器412-1到412-n中的每一者向第一组合器430-1的对应输入输出其经滤波的信号。第一组合器430-1的输出可为经波束成形的语音参考信号。
可使用包含第二麦克风阵列的一组噪声参考麦克风114-1到114-k以类似方式对噪声参考信号进行波束成形。噪声参考麦克风的数目k可与语音参考麦克风的数目n不同或可相同。
虽然图4B的移动装置110说明不同的语音参考麦克风112-1到112-n及噪声参考麦克风114-1到114-k,但在其它实施例中,可使用语音参考麦克风112-1到112-n中的一些或全部作为噪声参考麦克风114-1到114-k。举例来说,所述组语音参考麦克风112-1到112-n可为用于所述组噪声参考麦克风114-1到114-k的相同麦克风。
噪声参考麦克风114-1到114-k中的每一者将其输出耦合到对应的滤波器414-1到414-k。滤波器414-1到414-k中的每一者提供可由第二波束成形控制器420-2控制的响应。每一滤波器(例如,414-1)可经控制以提供可变延迟、频谱响应、增益或某一其它参数。第二波束成形控制器420-2可控制滤波器414-1到414-k以提供预定离散数目的波束配置,或可经配置而以大体连续的方式操纵波束。
在图4B的信号增强模块400中,使用不同的波束成形控制器420-1及420-2来独立地对语音及噪声参考信号进行波束成形。然而,在其它实施例中,可使用单个波束成形控制器对语音参考信号及噪声参考信号两者进行波束成形。
信号增强模块400可实施盲源分离。盲源分离(BSS)为使用对独立源信号的混合物的测量来恢复这些信号的方法。此处,术语“盲”具有双重含义。第一,原始信号或源信号未知。第二,混合过程可能未知。存在多种可用以实现信号分离的算法。在两麦克风语音通信中,可使用BSS来分离语音与背景噪声。在信号分离之后,可略微减少语音参考信号中的背景噪声,且可略微减少噪声参考信号中的语音。
信号增强模块400可(例如)实施以下任一者中所描述的BSS方法及设备中的一者:S·阿玛里(S.Amari)、A·斯科奇(A.Cichocki)及H·H·杨(H.H.Yang)的“用于盲信号分离的新学习算法(Anew learning algorithm forblind signal separation)”,神经信息处理系统8中的进步(Advances in Neural Information Processing Systems 8),MIT出版社(MIT Press),1996年;L·莫尔哥第(L.Molgedey)及H·G·斯古斯特(H.G.Schuster)的“使用时间延迟相关的独立信号的混合物的分离(Separation of a mixture ofindependent signals using time delayed correlations)”,物理评论快报(Phys.Rev.Lett.),72(23):3634-3637,1994年;或L·葩拉(L.Parra)及C·斯奔思(C.Spence)的“非固定源的卷积盲源分离(Convolutive blind source separation of non-stationary sources)”,IEEE语音和音频处理会刊(IEEE Trans.on Speech and Audio Processing),8(3):320-327,2000年5月。
基于更具冒进性的信号增强的VAD
有时背景噪声电平很高以使得波束成形或信号分离的后信号SNR仍不佳。在此情形中,可进一步增强语音参考信号中的信号SNR。举例来说,信号增强模块400可实施频谱相减以进一步增强语音参考信号的SNR。在此情形中,可能需要或可能不需要增强噪声参考信号。
信号增强模块400可(例如)实施以下任一者中所描述的频谱相减方法及设备中的一者:S·F·保尔(S.F.Boll)的“使用频谱相减的语音中的声噪声的抑制(Suppression ofAcoustic Noise in Speech Using Spectral Subtraction)”,IEEE声学、语音及信号处理会刊(IEEE Trans.Acoustics,Speech and Signal Processing),27(2):112-120,1979年4月;R·穆凯(R.Mukai)、S·阿拉奇(S.Araki)、H·萨瓦达(H.Sawada)及S·玛奇诺(S.Makino)的“使用LMS滤波器的盲源分离中的残余串扰的移除(Removal of residualcrosstalk components in blind source separation using LMS filters)”,关于用于信号处理的神经网络的第12期IEEE专题讨论会的会议记录(Proc.of 12th IEEE Workshop onNeural Networks for Signal Processing),第435到444页,玛提格尼(Martigny),瑞士,2002年9月;或R·穆凯(R.Mukai)、S·阿拉奇(S.Araki)、H·萨瓦达(H.Sawada)及S·玛奇诺(S.Makino)的“使用时间延迟的频谱相减的盲源分离中的残余串扰分量的移除(Removal of residual cross-talk components in blind source separation using time-delayedspectral subtraction)”,ICASSP 2002的会议记录(Proc.of ICASSP 2002),第1789到1792页,2002年5月。
潜在应用
本文中描述的VAD方法及设备可用以抑制背景噪声。下文中提供的实例并非穷尽可能应用,且不限制本文中描述的多麦克风VAD设备及方法的应用。所描述的VAD方法及设备可潜在地用于其中需要VAD决策且多个麦克风信号可用的任何应用中。VAD适合实时信号处理,但并不限制其在离线信号处理应用中的潜在实施。
图5为具有带有任选信号增强的声音活动检测器的移动装置110的实施例的简化功能框图。可使用来自VAD模块230的VAD决策来控制可变增益放大器510的增益。
VAD模块230可将输出声音活动检测信号耦合到经配置以控制施加到语音参考信号的增益的增益产生器520或控制器的输入。在一个实施例中,增益产生器520经配置以控制可变增益放大器510所施加的增益。可变增益放大器510展示为实施于数字域中,且可实施为(例如)定标器、乘法器、移位寄存器、寄存器旋转器等或其某一组合。
作为实例,可将两麦克风VAD所控制的标量增益施加到语音参考信号。作为特定实例,当检测到语音时,可将可变增益放大器510的增益设定为1。当未检测到语音时,可将可变增益放大器510的增益设定为小于1。
可变增益放大器510展示于数字域中,但可将可变增益直接施加到来自语音参考麦克风112的信号。如图5所示,还可将可变增益施加到数字域中的语音参考信号或施加到从信号增强模块400获得的增强的语音参考信号。
本文中描述的VAD方法及设备还可用以协助现代语音编码。图6为具有控制语音编码的声音活动检测器的移动装置110的实施例的简化功能框图。
在图6的实施例中,VAD模块230将VAD决策耦合到语音编码器600的控制输入。
大体来说,现代语音编码器可具有内部声音活动检测器,其传统上使用来自一个麦克风的信号或增强的信号。通过使用例如由信号增强模块400提供的两麦克风信号增强,内部VAD所接收的信号可具有优于原始麦克风信号的SNR。因此,使用增强的信号的内部VAD很可能可做出更可靠的决策。通过组合来自使用两个信号的内部VAD与外部VAD的决策,有可能获得更可靠的VAD决策。举例来说,语音编码器600可经配置以执行内部VAD决策与来自VAD模块230的VAD决策的逻辑组合。语音编码器600可(例如)对两个信号的逻辑“与”或逻辑“或”进行操作。
图7为声音活动检测的简化方法700的流程图。可由图1的移动装置或相对于图2到图6描述的设备与技术中的一者或其组合来实施方法700。
方法700描述为具有可在特定实施方案中省略的多个任选步骤。此外,仅出于说明目的,方法700描述为以特定次序执行,且可以不同次序执行步骤中的一些。
方法在框710处开始,其中移动装置首先执行校准。移动装置可(例如)引入频率选择性增益、衰减或延迟以大体上均等化语音参考与噪声参考信号路径的响应。
在校准之后,移动装置进行到框722,且接收来自参考麦克风的语音参考信号。语音参考信号可包括声音活动的存在或缺失。
移动装置进行到框724,且基于来自噪声参考麦克风的信号同时接收来自校准模块的经校准的噪声参考信号。噪声参考麦克风通常(但不要求)相对于语音参考麦克风耦合降低电平的声音信号。
移动装置进行到任选框728且对所接收的语音及噪声信号执行回波消除,例如,当移动装置输出可耦合到语音及噪声参考信号中的一者或两者的音频信号时。
移动装置进行到框730,且任选地执行语音参考信号及噪声参考信号的信号增强。移动装置可包括归因于(例如)物理限制而无法将语音参考麦克风与噪声参考麦克风显著分离的装置中的信号增强。如果移动台执行信号增强,则可对增强的语音参考信号及增强的噪声参考信号执行后续处理。如果省略信号增强,则移动装置可对语音参考信号及噪声参考信号进行操作。
移动装置进行到框742,且基于语音参考信号来确定、计算或以其它方式产生语音特征值。移动装置可经配置以基于多个样本、基于先前样本的加权平均值、基于先前样本的指数式衰减或基于样本的预定窗口来确定与特定样本相关的语音特征值。
在一个实施例中,移动装置经配置以确定语音参考信号的自相关。在另一实施例中,移动装置经配置以确定所接收的信号的能量。
移动装置进行到框744,且确定、计算或以其它方式产生补充噪声特征值。移动台通常使用与产生语音特征值所用相同的技术来确定噪声特征值。即,如果移动装置确定基于帧的语音特征值,则移动装置同样确定基于帧的噪声特征值。类似地,如果移动装置确定自相关作为语音特征值,则移动装置确定噪声信号的自相关作为噪声特征值。
移动台可任选地进行到框746,且至少部分地基于语音参考信号及噪声参考信号两者来确定、计算或以其它方式产生补充的组合特征值。举例来说,移动装置可经配置以确定两个信号的交叉相关。在其它实施例中,例如当声音活动量度并非基于组合特征值时,移动装置可省略确定组合特征值。
移动装置进行到框750,且至少部分地基于语音特征值、噪声特征值及组合特征值中的一者或一者以上来确定、计算或以其它方式产生声音活动量度。在一个实施例中,移动装置经配置以确定语音自相关值与组合交叉相关值的比率。在另一实施例中,移动装置经配置以确定语音能量值与噪声能量值的比率。移动装置可类似地使用其它技术来确定其它活动量度。
移动装置进行到框760,且做出声音活动决策或以其它方式确定声音活动状态。举例来说,移动装置可通过将声音活动量度与一个或一个以上阈值进行比较而做出声音活动确定。阈值可为固定的或动态的。在一个实施例中,如果声音活动量度超过预定阈值,则移动装置确定存在声音活动。
在确定声音活动状态之后,移动装置进行到框770,且至少部分基于声音活动状态来改变、调整或以其它方式修改一个或一个以上参数或控制。举例来说,移动装置可基于声音活动状态来设定语音参考信号放大器的增益,可使用声音活动状态来控制语音编码器或可结合另一VAD决策使用声音活动状态来控制语音编码器状态。
移动装置进行到决策框780以确定是否需要再校准。移动装置可在传递一个或一个以上事件、时间周期等或其某一组合后执行校准。如果需要再校准,则移动装置返回到框710。否则,移动装置可返回到块722以继续监视语音及噪声参考信号是否有声音活动。
图8为具有经校准的多麦克风声音活动检测器及信号增强的移动装置800的实施例的简化功能框图。移动装置800包括语音参考麦克风812及噪声参考麦克风814、用于将语音及噪声参考信号转换为数字表示的装置822及824,以及用于消除语音及噪声参考信号中的回波的装置842及844。用于消除回波的装置结合用于将信号与来自用于消除的装置的输出进行组合的装置832及834而操作。
被消除回波的语音及噪声参考信号可耦合到用于校准语音参考信号路径的频谱响应使其大体类似于噪声参考信号路径的频谱响应的装置850。语音及噪声参考信号还可耦合到用于增强语音参考信号或噪声参考信号中的至少一者的装置856。如果使用用于增强的装置856,则声音活动量度至少部分基于增强的语音参考信号或增强的噪声参考信号中的一者。
用于检测声音活动的装置860可包括:用于基于语音参考信号来确定自相关的装置;用于基于语音参考信号及噪声参考信号来确定交叉相关的装置;用于至少部分基于语音参考信号的自相关与交叉相关的比率来确定声音活动量度的装置;及用于通过将声音活动量度与至少一个阈值进行比较来确定声音活动状态的装置
本文中描述用于语音活动检测及基于声音活动状态改变移动装置的一个或一个以上部分的操作的方法及设备。可单独使用本文中提出的VAD方法及设备,其可与传统VAD方法及设备加以组合以做出更为可靠的VAD决策。作为实例,所揭示的VAD方法可与零交叉方法加以组合以对声音活动做出更为可靠的决策。
应注意,所属领域的技术人员将认识到,电路可实施上文所述的功能中的一些或全部。可能存在实施所有功能的一个电路。还可能存在与第二电路组合的电路的多个区段,其可实施所有功能。大体来说,如果在电路中实施多个功能,则其可为集成电路。通过当前的移动平台技术,集成电路包含至少一个数字信号处理器(DSP)及至少一个ARM处理器以控制及/或传达到至少一个DSP。可按区段地来描述电路。通常重新使用区段以执行不同功能。因此,在描述何电路包含以上描述中的一些的过程中,所属领域的技术人员理解,电路的第一区段、第二区段、第三区段、第四区段及第五区段可为同一电路,或其可为作为较大电路或一组电路的部分的不同电路。
电路可经配置以检测声音活动,所述电路包含适于接收来自语音参考麦克风的输出语音参考信号的第一区段。同一电路、不同电路或同一电路或不同电路的第二区段可经配置以接收来自噪声参考麦克风的输出参考信号。此外,可能存在同一电路、不同电路或同一电路或不同电路的第三区段,其包含耦合到第一区段的经配置而确定语音特征值的语音特征值产生器。包含耦合到第一区段及第二区段的经配置而确定组合特征值的组合特征值产生器的第四区段还可为集成电路的部分。此外,包含经配置以至少部分基于语音特征值及组合特征值来确定声音活动量度的声音活动量度模块的第五部分可为集成电路的部分。为将声音活动量度与阈值进行比较且输出声音活动状态,可使用比较器。大体来说,所述区段中的任一者(第一、第二、第三、第四或第五)可为集成电路的部分或与其分离。即,所述区段可各自为一个较大电路的部分,或其可各自为单独的集成电路或两者的组合。
如上文所述,语音参考麦克风包含多个麦克风,且语音特征值产生器可经配置以确定语音参考信号的自相关及/或确定语音参考信号的能量,及/或基于先前语音特征值的指数式衰减来确定加权平均值。如上文所述,语音特征值产生器的功能可实施于电路的一个或一个以上区段中。
如本文中使用,术语“耦合”或“连接”用以意味着间接耦合以及直接耦合或连接。在耦合两个或两个以上块、模块、装置或设备的情况下,在两个被耦合的块之间可存在一个或一个以上介入块。
可通过通用处理器、数字信号处理器(DSP)、精简指令集计算机(RISC)处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以执行本文描述的功能的任何组合来实施或执行结合本文所揭示的实施例而描述的各种说明性逻辑块、模块及电路。通用处理器可为微处理器,但在替代例中,处理器可为任何处理器、控制器、微控制器或状态机。还可将处理器实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合,或任何其它所述配置。
可直接以硬件、由处理器执行的软件模块,或两者的组合来实施结合本文所揭示的实施例而描述的方法、过程或算法的步骤。可以所示的次序执行方法或过程中的各种步骤或动作,或可以另一次序来执行。此外,可省略一个或一个以上过程或方法步骤或可将一个或一个以上过程或方法步骤添加到方法及过程中。可在方法及过程的开始、结束或介入的现有要素中添加额外步骤、块或动作。
提供所揭示的实施例的以上描述以使所属领域的任何技术人员能够进行或使用本发明。所属领域的技术人员将易于了解对这些实施例的各种修改,且可在不脱离本发明的精神或范围的情况下将本文所界定的一般原理应用于其它实施例。因此,不希望将本发明限于本文所示的实施例,而应赋予其与本文所揭示的原理及新颖特征一致的最广范围。