通过使用频域非线性处理 抑制反射信号的方法和设备 【发明领域】
本发明涉及通信系统,更具体地,涉及在双向通信链路中的反射信号抑制。
【发明背景】
在许多通信系统(例如地面线路和无线电话系统)中,话音信号常常通过双向通信链路在两个系统用户之间传输。在这样的系统中,近端用户的语音典型地在通信链路的一端的近端话筒处被检测,然后通过链路被发送到远端扬声器,以便重现和呈现给远端用户。相反,远端用户的语音被远端话筒检测,然后通过通信链路被发送到近端扬声器,以便重现和呈现给近端用户。
在通信链路的任一端,被邻近的话筒检测到的扬声器输出会非故意地通过通信链路发送回去,导致产生从用户看来可能是不能接受的破坏性反馈或反射信号。这个问题在免提电话时特别显著,在此,用户的身体没有有效地把话筒与扬声器相隔离。而且,在地面线路中混合汇接装置处的阻抗失配会导致类似的破坏性反射信号。
传统上,反射信号抑制是通过使用反射信号抵销电路完成的,该电路采用自适应滤波器来估值和去除通信信号的不想要的反射信号分量。例如,1995年12月12日颁发的题目为“Echo-Canceling Systemand Method Using Echo Estimate to Modify Error Signal(通过使用反射信号估值来修改误差信号地反射信号抵销系统和方法)”的美国专利No.5,475,731描述了将最小均方(LMS)和归一化最小均方(NLMS)算法用来更新有限冲击响应(FIR)自适应滤波器。
虽然这种已知的反射信号抵销技术确实能去除某些反射信号,但即使在抵销以后常常仍将有可听见的剩余反射信号。这样的剩余反射信号,尽管其电平相对较低,但仍对用户造成相当的打扰,所以应当被加以去除。今天,剩余反射信号抑制典型地是通过使用跟随在反射信号抵销器后面的某种形式的非线性处理器(NLP)来完成的。例如,参阅上述的美国专利No.5,475,731,它描述传统的中心限幅NLP的使用。
大多数已知的NLP完全地去除通信信号中包含剩余反射信号的那些部分。结果,当近端和远端扬声器工作时(即,在双向说话时),这种已知NLP或者传送通过剩余反射信号、或者同时去除近端语音和剩余反射信号。另外,当已知的NLP被使用于带有复杂的背景噪声的情况下时(例如,在汽车收音机播音时,而同时驾驶员正在使用免提移动电话),背景声音连同剩余反射信号一起被去除。虽然预计的舒适的噪声由于为了试图填充所导致产生的空洞而被添加上,但已处理的信号常常被削除,从而使进行收听的用户感到讨厌。
因此,需要一种去除通信信号中的剩余反射信号的改进方法和设备。
发明概要
本发明通过提供改进的频域非线性处理技术而满足上述的和其它需要。总体上,按照本发明的非线性处理器的滤波特性可以通过比较通信信号的剩余反射信号分量的功率谱与总的通信信号本身的功率谱而动态地被调整。更具体地,非线性处理器的滤波特性被调整成为使得非线性处理器只阻挡其中剩余反射信号占优势的那些信号频率。有利地,按照本发明的非线性处理器使得有可能在整个对话期间进行全双工通信,同时有效地减小剩余反射信号。
按照本发明的示例性反射信号抑制器包括一个处理器,用来计算通信信号的功率谱和估值通信信号的剩余反射信号分量的功率谱。示例性反射信号抑制器还包括一个自适应滤波器,用来处理通信信号,由此抑制剩余反射信号分量。自适应滤波器的滤波特性是根据通信信号的功率谱和根据估值的剩余反射信号分量的功率谱而被调整的。
按照本发明的、用于抑制通信信号中剩余反射信号的示例性方法包括计算通信信号的功率谱和估值剩余反射信号的功率谱的步骤。按照示例的方法,滤波特性是根据计算的通信信号功率谱和根据估值的剩余反射信号分量功率谱而被调整的,以及通信信号通过使用调整的滤波特性被滤波,从而抑制剩余反射信号。
按照实施例,滤波特性可通过使用频谱相减技术而被调整。可替换地,滤波特性的各个系数可以根据剩余反射信号中的功率与在相应于这些系数的频率上的总通信信号的功率的直接比较结果而被设置。
对于独立的配置(即,其中不存在超前反射信号抵销器),剩余反射信号的功率谱的估值可以通过以下步骤:估计反射信号返回路径的衰减因子,以及用所述估计的衰减因子来换算反射信号源信号的功率谱样本,由此提供剩余反射信号的估值的功率谱样本。当存在领先的自适应反射信号抵销器时,剩余反射信号的功率谱的估值可以通过计算反射信号抵销器提供的反射信号分量估值的功率谱、和换算反射信号分量估值的功率谱(根据自适应反射信号抵销器的运行)来实现,由此提供剩余反射信号的功率谱的估值。
换算反射信号分量估值的功率谱可包括以下步骤:确定自适应反射信号抵销器的反射信号反射损耗增强量,以及把反射信号分量估值的功率谱与反射信号反射损耗增强量相乘,以提供剩余反射信号的功率谱的估值。可替换地,换算反射信号分量估值的功率谱可包括以下步骤:确定自适应反射信号抵销器的反射信号反射损耗增强量,计算反射信号分量估值的功率谱的平均值,把该平均值与反射信号反射损耗增强量相乘从而提供一个饱和值,把反射信号分量估值的功率谱与反射信号反射损耗增强量相乘从而提供已换算的频谱,以及在饱和值处限幅(Clipping)已换算的频谱,由此提供剩余反射信号的功率谱的估值。
有利地,本发明还提供了用于把适当的舒适的噪声附加到滤波的(即,反射信号抑制的)通信信号中的方法和设备。总体上,通信信号的噪声分量的功率谱被估值,以及根据估值的噪声分量功率谱和根据占优势的反射信号抑制滤波特性来产生舒适的噪声。按照本发明的示例性实施例,舒适的噪声在被抑制的频率处附加上能量(即,在滤波特性中能去除能量以及由此能抑制反射信号的频率上),以使得在这些频率上的总的能量等于占优势的噪声的能量。
本发明的上述的和其它的特性和优点在后面参照附图显示的说明性实例被详细地说明。本领域技术人员将会看到,上述实施例被提供来用于说明和理解,以及这里预期有多个等同的实施例。
附图简述
图1是其中可以实施本发明的教导的示例性声学反射信号抑制系统的方框图。
图2是其中可以实施本发明的教导的示例性网络反射信号抑制系统的方框图。
图3提供典型的反射信号信号与相应的剩余反射信号信号的频域比较,由此进一步提供对于本发明的某些方面的推动情况。
图4是描绘按照本发明的剩余反射信号抑制的示例性方法的步骤的流程图。
发明详细说明
本发明的频域非线性处理技术在声学和网络反射信号抑制方面同样可应用的。因此,图1和2分别描绘了其中可以实施本发明的教导的、示例性声学和网络反射信号抑制系统100,200。如图所示,示例性声学反射信号抑制系统100包括话筒110,扬声器120,线性反射信号抵销器130,非线性处理器140,舒适噪声发生器150,以及第一和第二加法装置160,170。示例性网络反射信号抑制系统200包括图1的反射信号抵销器130,非线性处理器140,舒适噪声发生器150,和加法装置160,170,以及混合汇接装置210和第三加法装置220。本领域技术人员将会看到,以下描述的、图1和2的各种单元的功能可以通过使用已知的数字信号处理部件,一个或多个专用集成电路(ASIC),或通用数字计算机,而被实施。
在运行时,图1的扬声器120接收远端音频信号x(t)以及输出相应的声音信号给近端系统用户(未示出)。同时,话筒110接收声音信号,其中包括近端语音分量v1(t),近端噪声分量v2(t),和由扬声器输出端的反射造成的反射信号分量s(t)。话筒110把接收的声音信号变换成相应的音频信号y(t),后者被耦合到第一加法装置160的相加输入端。另外,线性反射信号抵销器130通过使用已知的自适应滤波技术处理远端音频信号x(t),以便提供话筒信号y(t)的反射信号分量s(t)的估值(t)。结果的反射信号估值(t)被耦合到第一加法装置160的相减输入端,因此它从话筒信号y(t)被减去,从而提供反射信号抵销的信号,或误差信号e(t)。
误差信号e(t)被反馈到线性反射信号抵销器,以便在提供反射信号估值(t)时被使用,以及被耦合到非线性处理器140的输入端。正如下面详细地描述的,非线性处理器140根据反射信号估值(t)来滤波误差信号,从而提供反射信号抑制的输出信号eNLP(t),后者被耦合到第二加法装置170的相加输入端。正如下面详细地描述的,舒适的噪声发生器150根据误差信号e(t)和根据非线性处理器140的占优势的滤波特性来提供舒适噪声信号c(t)。舒适噪声信号c(t)被耦合到第二加法装置170的第二相加输入端,由此被附加到非线性处理器140的反射信号抑制的输出eNLP(t)上,从而提供反射信号抑制的、和舒适噪声增强的输出信号eNLP+CN(t)。
在图2的网络系统200中,混合汇接装置210接收远端音频信号x(t)以及提供相应的网络信号给近端系统用户(未示出)。另外,在混合汇接装置210处的阻抗失配造成远端信号x(t)的反射信号s(t)被加性地与接收的近端话音和噪声信号v1(t),v2(t)相耦合(概念地通过第三加法装置220显示),以及被反馈回第一加法装置160的相加输入端。正如图1中的系统100那样,线性反射信号抵销器130通过使用已知的自适应滤波技术处理远端音频信号x(t),从而提供近端信号y(t)的反射信号分量s(t)的估值(t)。结果的反射信号估值(t)被耦合到第一加法装置160的相减输入端,因此它从近端信号y(t)中被减去,从而提供反射信号抵销的或误差信号e(t)。非线性处理器140和舒适噪声发生器150对误差信号e(t)所进行的处理正如参照图1描述的和下面详细描述的那样,从而可以提供反射信号抑制的、和舒适噪声增强的输出信号eNLP+CN(t)。
在声学和网络系统100,200中,误差信号e(n)等于近端语音v1(n),背景噪声v2(n)和反射信号s(n)的和,再减去估值的(n)(其中变量n被使用来表示时域样本):
e(n)=v1(n)+v2(n)+s(n)-(n)
另外,剩余反射信号(n)被规定为小于估值反射信号s(n)的真实反射信号s(n):
(n)=s(n)-(n)
按照本发明,非线性处理器140的滤波特性根据误差信号e(n)和剩余反射信号(n)被动态地计算。具体地,误差信号e(n)的频谱分量与剩余反射信号的频谱分量的估值(n)进行比较,以及非线性处理器140的滤波特性被调整成只传送在其中剩余反射信号(n)在某种意义上是误差信号e(n)的主要分量的那些频率。
为了比较误差信号e(n)的频谱分量与剩余反射信号(n)的频谱分量,误差信号e(n)和反射信号估值(n)首先被变换成频域。例如,M点快速富立叶变换(FFT)可被使用来直接从时域样本计算相应的频域信号E(k),(k)(其中k代表从0到0.5的离散频率,其步长为2/M)。可替换地,为了减小频域结果中的方差,首先根据每个信号的一组N个时域数据样本,来针对误差信号e和反射信号估值计算阶数p的自回归(AR)模型。零填充的AR(p)序列的M点FFT然后提供所需要的离散频域变量E(k)和(k)。实际上,变量p,N和M的适当的数值分别是10,160和256。当然,用于对误差信号e建模所使用的阶数p可以是与用于对反射信号估值建模所使用的阶数不同的。
一旦频域序列E(k)和(k)被计算出,对于每个序列的相应的功率谱密度(PSD)就可以通过把每个序列与它的复数共轭序列如下地以样本的方式进行相乘而被计算出来:
Φe(k)=E(k)E*(k)
Φ(k)=(k)*(k)
接着,剩余反射信号的功率谱密度Φ可以根据估值的反射信号的功率谱密度Φ未估值。通过使用由反射信号抵销器提供的反射信号反射损耗增强值(ERLE),可以得到一级近似。反射信号抵销器的ERLE提供由反射信号抵销器达到的反射信号抑制级别的指示,以及用于计算反射信号抵销器的ERLE的方法是公知的。假定剩余反射信号的频谱类似于估值的反射信号的频谱,则剩余反射信号的功率谱密度可以如下地被估值为低于估值的反射信号的功率谱密度的ERLE dB: Φ^s^(k)=ERLEΦs^(k)]]>
然而,观察实验数据可以看到,剩余反射信号比反射信号估值低的数值实际上常常比ERLE dB高得多,特别是对于具有低能量(相对于频谱中最大能量来说)的频率(对于语音,通常是较高的频率)而言。例如,参阅图3,其中实际剩余反射信号曲线320比起实际估值的反射信号曲线310而言,对于较低的频率范围(图上的0到0.25),低大约ERLE dB(图上约15dB),以及对于较高的频率范围(图上的0.25到0.5),则低出的数值大于ERLE dB。
为了提供较好的近似,ERLE测量可被做成与频率相关的。然而,这样做,需要稳定的分布(当实际上ERLE常常随时间以及频率变化时),以及在其中重大的近端能量存在在较高的频带的情况下,会引入不希望的近端信号限幅程度。更实际的解决办法可通过在比估值的反射信号的功率谱密度的平均电平低ERLE dB的地方,使剩余反射信号的功率谱密度的估值饱和而达到: Φs^(k)≈Max(ERLEΦs^(k),ERLEΦs^‾)]]>
剩余反射信号的功率谱密度的估值然后可被使用来导出对于非线性处理器的适当的滤波特性或转移函数H(k)。例如,频谱相减的教导(它常常被使用于减小噪声方面)可被应用来如下地提供直观的正确的反射信号限幅滤波器H(k): H(k)=Φs^(k)-δ1Φi(k)Φs^(k)]]>
其中δ1是相减因子。实验研究表明δ1的数值在1-4的范围内对于反射信号抑制是适当的。
实际上,直接从上式确定滤波器H(k)是过分复杂的(即,通过标准数字信号处理部件计算平方根,经常是不希望的),而且,反射信号衰减的程度由于估值误差因而可能是不满意的。更简单的和更严格的限幅解决办法可以通过去除在其中剩余反射信号在一定程度上是占优势的频率点处的所有的功率、同时传送在其中剩余反射信号在一定程度上不占优势的频率点处的所有的功率(所以已被可感觉地屏蔽),而被达到。例如,对于每个频率点k的限幅准则可被形成为: H(k)=0ifΦe(k)<δ1Φ^s^(k),elseH(k)=1]]>
由于以上的方程将提供快速改变的功率谱密度(由于随着时间而在H(k)=1和H(k)=0之间急剧地改变),滤波特性实际上可被平滑或加以平均,从而提供软过渡。通过这样就可以给出具有最小的失真的高的性能(诸如音乐的音调)。例如,平滑NLP滤波器Hav(k)可被更新为:
Hav(k)=H(k)(1-α(1-Hav(k)))
其中实验研究表明对于α的适当的值是0.6。
误差信号E(k)的频域形式(通过进行时域误差信号e(n)的M点FFT而得出)然后通过使用平滑NLP转移函数Hav(k)来进行滤波,以及该结果最后通过使用逆快速富立叶变换(IFFT)而被变换回时域。换句话说,反射信号抑制的NLP输出被给出为:
eNLP(n)=IFFT(Hav-E)
其中表示矢量Hav和E的按元素方式(elementwise)的乘法。可替换地,频域矢量Hav和E首先可被变换成时域,然后被进行卷积,从而给出NLP输出。
虽然由以上的方程给出的NLP输出可以按需要地有效地抑制剩余反射信号,但应当指出,在进行接收的用户看来,被去除的频率也将导致产生变化的背景电平。按照本发明的另一个方面,然而,这个影响可以通过在策略上替代这些被去除的能量而得到减轻。具体地,输出信号可以通过附加上在被抑制的频率处的能量而被平滑,从而使得在这些频率处的能量等于占优势的背景噪声电平。
例如,话音活动性检测器(VAD)可被使用来确定在NLP的输入端处是否存在语音(无论是源还是反射信号)。在语音暂停期间,VAD表示只存在噪声,以及占优势的背景噪声的功率谱密度的估值可被更新为: Φ^v2(k)=βΦ^v2(k)+(1-β)V2(k)V2*(k)]]>
用于实施VAD的功能的方法是熟知的。另外,实验研究表明,当更新噪声估值时,可以合理地假定:背景噪声在移动电话的情况在大约一秒的范围、以及在固定电话网的情况在更长的时间范围是平稳的。
在语音暂停期间内估值的背景噪声然后在具有剩余反射信号(或者单向说话或者双向说话)的时间间隔期间被使用来提供舒适的噪声频谱,它可以有效地填充由滤波器Hav(k)产生的空洞。换句话说,舒适噪声频谱C(k)可被创建为: C(k)=(1-H(k)H(k))Φv2(k)N(k)]]>
其中N(k)是具有单位方差的白噪声序列的富立叶变换。
可替换地,舒适噪声频谱C(k)可被创建为: C(k)(1-H(k)H(k))Φv2(k)e1φ(k)]]>
其中相位φ(k)对于在从1到(M/2-1)的间隔中的k是随机地分布在-π和π之间的,以及φ(0)=φ(M/2)=0。对于奈奎斯特频率M/2以上的频率,相位被给定为:
φ(k)=-φ(M-k) k∈[M2+1,M-1]]]>
由于C(k)中的相位是共轭对称的,所以保证是实数时域序列c(n)。结果得到的舒适的噪声然后被附加到反射信号抑制输出信号上,从而得出如下的反射信号抑制的、和舒适噪声增强的输出信号:
eNLP+CN(n)=eNLP(n)+c(n)
可替换地,反射信号抑制的、和舒适噪声增强的输出信号首先在频域中被计算,然后如下地被变换成时域:
ENLP+CN(k)=Hav(k)·E(k)+C(k)
eNLP+CN=IFFT(ENLP+CN)
总之,本发明提供用于例如反射信号抑制的频域的非线性处理技术。通常,按照本发明构建的非线性处理器可以去除在通信信号中那些剩余反射信号占优势的频率处的能量(例如,其中剩余反射信号功率占据了通信信号的总功率的一定的百分数以上)。本发明还教导用于替代所去除的能量的方法,由此能平滑结果产生的信号,从而改善接收用户对经过反射信号抑制的信号的感觉。有利地,按照本发明的非线性处理器可以在整个对话期间抑制剩余反射信号。本领域技术人员将会看到,本发明的上述算法可以按样本方式或按组的方式来应用。本领域技术人员将会看到,通过在实行上述的程序时把频率点编组,可以使计算复杂性减小,以及可以得到提高速度的优点。
现在通过图4的流程图描绘按照本发明的具体的有用的算法400。在步骤410,阶数p的自回归模型根据时域估值被计算(例如,使用熟知的Levinson-Durbin算法),在步骤402,结果产生的时域模型被变换成频域(例如,借助FFT)。同样地,在步骤415和425,时域误差信号被建模(使用阶数q的自回归模型),以及被变换成频域。结果产生的频域序列然后在步骤430被比较,从而提供用于非线性处理器的滤波器转移函数H。例如,NLP滤波器H的每个抽头可被设置为1或0,这取决于对于相应的频率的估值反射信号的功率是否大于误差信号功率的一个预定的百分数。
在步骤440,误差信号的FFT被计算,以及在步骤450,结果产生的频域误差序列被NLP滤波器H滤波(即,按元素相乘),以提供在频域中的反射信号抑制的输出信号。同时,滤波函数H在步骤460被换算,以及在步骤470产生其幅度等于误差信号背景噪声的占优势的电平的随机化的舒适噪声。如上所述,舒适的噪声是根据占优势的背景噪声的估值而产生的,只有当误差信号中不存在语音时噪声估值才被更新(在图上,在步骤445通过VAD显示)。步骤460和470的结果在步骤480被组合起来,从而提供特别定做的舒适噪声,以便合适地替代由NLP滤波器H从误差信号中去除的能量。在步骤490,结果产生的舒适的噪声按元素方式地被附加到反射信号抑制的输出信号中,从而提供在频域中经过反射信号抑制的和舒适噪声增强的输出信号。最后,在步骤495,使用IFFT来把经过反射信号抑制的、和舒适噪声增强的输出信号变换到时域。
本领域技术人员将会看到,本发明不限于这里为了说明而描述的、特定的示例性实施例,并且也预期存在着多种替换的实施例。例如,虽然参照包括领先的反射信号抵销器在内的系统描述了所揭示的NLP实施例,但这些同样的NLP实施例也可以被用作为独立的装置来提供优于通过传统的通/关转换方式而提供的抵销器的解决方案。以上参照领先的反射信号抵销器和结尾的NLP所提供的推导体系可以通过在任何情况下用反射信号产生的信号x(t)代替反射信号估值,而被容易地应用到独立的NLP。在这样的情况下,剩余反射信号可以根据预期的或测量的反射信号返回路径而在低于反射信号产生的(例如,扬声器)信号的某个固定的或动态调整的电平上进行估值。所以,本发明的范围由附属权利要求而不是由上述的说明来规定,以及与权利要求的意义一致的、所有的等同物都应被包括在内。