频谱建模 本发明涉及通过确定具有近似于目标频谱的频率响应的滤波器的滤波参量而建立目标频谱的模型。
P.Stoica和R.L.Moses,在“Introduction to spectral analysis(频谱分析导论)”,Prentice Hall,New Jersey,1997,pp.101-108,中公开了用于建立合理的频谱模型的参量方法。通常,运动平均(MA)信号是通过用全零点滤波器滤波白色噪声而得到的。由于这个全零点结构,不可能使用MA方程来建立带有尖的峰值的频谱的模型,除非MA阶数被选择为“足够大”。这与自回归(AR)的能力,或通过使用相当低的模型阶数建立窄带频谱的模型的、全极点的方程,成为对比。MA模型提供对于其特征为宽的峰值和尖的零点的那些频谱的良好的近似。这样的频谱在应用中比起窄带频谱更不经常遇到,因此,使用MA信号模型用于频谱估值在工程上的兴趣,多少是有限的。这种有限地兴趣的另一个原因在于,MA参量估值问题基本上是非线性问题,它的求解方法比起AR参量估值问题难得多。无论如何,MA和ARMA估值问题的困难的类型相当类似。
具有尖的峰值和深的零点的频谱不能通过合理的小的阶数的AR或MA方程来建立模型。正是在这些情形下,其中更一般的ARMA模型,也被称为极点-零点模型,是有价值的。然而,ARMA频谱估值的很大的初始约定减小到某个程度,因为从理论和实践观点看来,对于ARMA参量估值还没有很好地建立的算法。“理论上最佳ARMA估值器”是基于其总的收敛不能保证的迭代程序过程。“实践的ARMA估值器”是计算上简单的以及常常是可靠的,但它们的统计精度在某些情形下可能是差的。现有技术公开了两级的模型,其中首先执行AR估值,然后执行MA估值。两个方法都给出不精确的估值,或在其中ARMA模型描述的极点和零点一起接近于单位圆附近的位置处的情形下需要高的计算工作量。这样的ARMA模型,具有接近于一的、几乎重合的模数的极点和零点,相应于窄带信号。在两个方法中,零点的估值转换为非线性最优化问题。
本发明的一个目的是提供不太复杂的ARMA频谱建模。为此,本发明提供如在独立的权利要求中规定的、用于建立目标频谱的模型的方法和设备,编码音频信号的方法,译码编码的音频信号的方法,音频编码器,音频单放机,音频系统,编码的音频信号,和存储媒体。在所附的权利要求中限定了独到的实施例。
在本发明的第一实施例中,要被建模的频谱被分割成第一部分和第二部分,其中第一部分由第一模型被建模,得到自回归参量,以及第二部分由第二模型被建模,得到运动平均参量。构成的处理过程的组合提供精确的ARMA模型。分割优选地是以迭代处理过程来执行的。在按照本发明的方法中,非线性最优化问题可被省略。
本发明提供适合于实时实施的ARMA模型估值。本发明认识到,AR或MA模型在输送功率谱估值的信息时不总是精确的或非常节俭的。在对数尺度上,用线性预测编码(LPC)方法(全极点建模),函数的峰值常常被很好地建模,但谷底是欠估值的。在全零点模型中出现相反的结果。在音频和语音编码中,这是本发明最想要的应用领域,对数尺度比起线性尺度是更适当的。所以,最好是在对数尺度上很好地适配于功率谱。按照本发明的模型给出在复杂性与精度之间的较好的折衷。在本模型中的误差可以在对数尺度上被评估。
在本发明的优选实施例中,第二建模运行包括对目标频谱的第二部分的倒数使用第一建模运行的步骤。在本实施例中,只需要规定一个建模运行,其中自回归参量是通过频谱的第一部分的建模而得到的,以及运动平均参量是通过由同样的运行(即,第一建模运行)对频谱的第二部分的倒数建模而得到的。虽然不太好,但也有可能使用第二建模运行,它产生第二部分的运动平均参量,以及也有可能通过对频谱的第一部分的倒数使用同样的第二建模运行,而得到自回归参量。
本发明优选地被使用于对音频信号中的噪声分量的参量建模。音频信号可包括声音,通常像音乐,但也可以是语音。除了上述的优点以外,按照本发明的ARMA模型具有另外的优点:对于噪声分量的精确的建模,它比起在全AR或MA建模时的情形下在可比较的精度下需要较少的参量。较少的参量是指较好的压缩。
虽然本发明优选地被使用于音频信号中噪声分量的参量建模,但本发明也可使用于噪声抑制方案,其中噪声频谱的估值从信号中被减去。
在按照Stoica和Moses的现有技术方法中,计算负担在于矩阵求逆。而且,不清楚AR模型的阶数应当被设置为什么数值,除了需要零点高度接近于单位圆。所以,计算复杂性很难接近。在按照本发明的方法中,计算负担在于分割处理过程的迭代性质以及到频域的变换(Stoica和Moses主要在时域上进行计算)。本发明在零点接近于单位圆的情形下,提供更好的结果。而且,到频域的变换开创操作的可能性。例子是根据现有的和测量的数据进行分割的频率。另一个优点是对于频率数据的可应用性。正如下面说明的。为了保证实时ARMA建模,应当应用到频域的快速变换,例如,技术上熟知的、Welch平均周期图方法。
自回归和运动平均参量可以用多项式、多项式的零点(连同增益因子)、反射系数或对数(区域)比值,以不同的方式被表示。在音频编码应用中,自回归和运动平均参量的代表法优选地是以对数(区域)比值。在按照本发明的ARMA建模中确定的自回归和运动平均参量被组合来得出被发送的滤波器参量。
WO 97/28527公开了通过确定背景噪声PSD估值、确定具有噪声的语音参量、从语音参量确定具有噪声的语音PSD估值、从具有噪声的语音PSD估值中减去背景噪声PSD估值、以及从增强的语音PSD估值来估计增强的语音参量,而增强语音参量。增强的参量可被使用于滤波具有噪声的语音,以便抑制噪声,或在语音编码时被直接使用作为语音参量。PSD的估值可通过自回归模型而被得到。应当指出,在本文件中,这样的估值并不是统计上一致的估值,但在语音信号处理中这不是严重的问题。
美国专利5,943,429公开了在基于帧的数字通信系统中的频谱相减噪声抑制方法。方法是通过基于非语音帧的背景噪声的功率谱密度的估值和语音帧的背景噪声的功率谱密度的估值的频谱相减功能被执行的。每个语音帧通过减小自由度的数目的参量模型被近似。每个语音帧的功率谱密度的估值根据近似的参量模型被估值。另外,在这种情形下,参量模型是AR模型。
美国专利4,188,667公开了ARMA滤波器和用于得出对于这样的滤波器的参量的方法。这个方法的第一步骤包括执行任意选择的幅度频谱的离散富立叶逆变换,得出稳定的纯运动平均滤波器模型的截断的系数序列,即,非回归滤波器模型的参量。截断的系数序列,具有N+1项,然后与随机序列进行卷积,得出与随机序列有关的输出。然后,执行时域收敛参量识别,以使得整个误差函数范数最小化,得出具有想要的幅度和相位频率响应的模型的接近最小阶数的自回归和运动平均参量。参量是离线地识别的。本实施例的目的是提供最小的或接近最小的稳定的ARMA滤波器。参量是在分批滤波程序中被确定的。
总之,估值功率谱密度函数不同于表征一个线性系统在于尤其是在这样的特征中,输入和输出信号是可提供和被使用的,而在估值功率谱密度函数时,仅仅功率谱密度函数是可提供的(不是相关的输入信号)。
参照此后描述的实施例将了解和说明本发明的上述的和其它的方面。
在附图上:
图1显示按照本发明的、包括音频编码器的说明性实施例;
图2显示按照本发明的、包括音频单放机的说明性实施例;
图3显示按照本发明的、音频系统的说明性实施例;
图4显示示例性映射函数m;以及
图5显示按照本发明的、噪声抑制装置的实施例。
附图只示出了对于了解本发明必须的那些单元。
本发明优选地应用于其中利用合成的噪声生成的音频和语音编码方案。典型地,音频信号按逐帧的原则被编码。在一帧中的噪声的功率谱密度函数(或是它的可能非均匀采样的版本)被估值,以及找到来自某个类型的滤波器的一组平方幅度响应的函数的最好的近似。在本发明的一个实施例中,使用迭代程序过程来根据用于使AR和MA模型适合于功率谱密度函数的、现有的低复杂性的技术估值ARMA模型。
图1显示按照本发明的、示例的音频编码器2。音频信号A是从音频源1,诸如话筒、存储媒体、网络等得出的。音频信号A被输入到音频编码器2。音频信号A在音频编码器2中逐帧地被参量地建模。编码单元20包括分析单元(AU)200和合成单元(SU)201。AU 200执行音频信号的分析,以及确定在音频信号A中的基本波形。而且,AU 200产生表示基本波形的波形参量或系数Ci。波形参量Ci被提供给SU 201,以便得出重新构建的音频信号,它包含合成的基本波形。这个重新构建的音频信号被提供给减法器21,从原先的音频信号A中被减去。这个剩余的信号S被看作为是音频信号A的噪声分量。在优选的实施例中,编码单元20包括两级:执行瞬时建模的一级,以及在减去建模的瞬时分量以后对音频信号执行正弦建模的另一级。
按照本发明的一个方面,音频信号A中的噪声分量S的功率谱密度函数被ARMA建模,导致自回归参量pi和运动平均参量qi。噪声分量S的频谱在噪声分析器(NA)22中按照本发明被建模,得出滤波器参量(pi,qi)。参量(pi,qi)的估值通过确定在NA 22中具有转移函数H-1的滤波器的滤波参量而被执行,该转移函数使得函数S在滤波(即,H-1(S))后频谱尽可能平坦,即,“使得频谱白化”。在译码器中,重新构建的噪声分量可以通过用具有与在编码器中使用的滤波器相反的转移函数H的滤波器滤除白色噪声而被产生为近似地具有与噪声分量S相同的性质。这个相反的滤波器的滤波运行是由ARMA参量pi和qi确定的。滤波器参量(pi,qi)连同波形参量Ci一起在复接器23中被包括在编码的音频信号A’。音频信号A’在通信信道3上从音频编码器被提供到音频单放机,该通信信道可以是无线连接,数据总线或贮存媒体等等。
按照本发明的、包括音频单放机4的实施例被显示于图2。音频信号A’从通信信道3得出,以及在分接器40中被分接,得出被包括在编码的音频信号A’中的参量(pi,qi)和波形参量Ci。参量(pi,qi)被提供给噪声分析器(NS)41。NS 41主要是具有转移函数H的滤波器。白色噪声信号y被输入到NS 41。NS 41的滤波运行由ARMA参量(pi,qi)被确定。通过用与在编码器2中使用的滤波器(NA)22相反的NS 41滤波白色噪声y,噪声分量S’被产生为近似具有与在原先的音频信号A中的噪声分量S相同的随机性质。噪声分量S’在加法器43中被加到从合成单元(SU)42得到的、其它的重新构建的音频信号,以便得出重新构建的音频信号(A”)。SU 42类似于SU 201。重新构建的音频信号A”被提供到输出端5,它可以是扬声器等等。
图3显示按照本发明的音频系统,包括图1所示的音频编码器2和图2所示的音频单放机4。这样的系统提供重放和记录特性。通信信道3可以是音频系统的一部分,但常常是在音频系统以外。万一通信信道3是贮存媒体,则贮存媒体可被固定在系统中,或是可移动的软盘,存储器棒,磁带等等。
下面,进一步描述S的频谱的建模。假设S是离散时间实时数值信号的功率谱密度函数。而且,S是被定义在间隔I=(-π,π)上的实数函数。S被假设为对称的,具有min(S)>0和max(S)<∞。为了方便起见,假定S的对数平均值等于零,即
扩展到在对数尺度上的平均值不等于零的情形是直接了当的,但可以以各种方式来处理。应当指出,S可以通过适当的内插和归一化从实际测量的功率谱密度函数得出。
令H是按照H=B/A的、具有A=∏i=1N(1-z-1pi)和B=∏i=1M(1-z-1qi)的分式转移函数。这里,pi和qi分别是转移函数H的极点和零点。应当指出,|H|2的对数平均值也等于零。
目标函数用H的平方模来近似,即,S≈|H|2。
对于近似的正确性的度量通过下式给出:
准则(2)根据S和|H|2具有等于零的对数平均值而被重写为:而且如果对于每个θ,S(θ)/|H(ejv)|2≈1,则准则(2)被近似为J’-1,其中
这意味着,在最佳解的相邻区域中,准则(2)和(4)实际上是相同的。
众所周知,在H=1/A(即,B=1)的情形下,(4)与前向线性预测(FLP)有关,这是LPC方法的例子。所以,多项式A可以通过计算(或至少近似)与S有关的自相关函数以及求解Wiener-Hopf方程而找到。这样的程序过程的定量结果也是熟知的。以上概述的程序过程将给出对S的峰值的良好的近似(当在对数尺度上被测量或被看出),但通常对S的谷底值提供差的适配值。为了作出以上的结论,标准的程序过程可供使用于从功率谱密度函数估值全极点模型,它通过(2)提供最佳解的近似,以及它在S的峰值建模时基本上是良好的。
应当指出,lnS的峰值和谷底基本上具有相同的特性,除了符号相反以外:峰值是正的振幅,而低谷是负的振幅。因此,取=1/S,全零模型可以通过使用以使得概述的程序过程而被估值。根据这个程序过程的结果,可以预期对S的谷底的良好的适配,但对S的峰值只是差的或至多相当适配。
本发明的目的是提供对于峰值和谷底时S的良好的代表。在本发明的实施例中,提供了ARMA模型,其中全极点模型和全零点模型按以下的方式被组合。S被分割成两个部分,作为S=SA/SB。从SA,估值全极点模型,产生多项式A,以及从SB,估值全零点模型,产生多项式B。组合|H|2=|B|2/|A|2被认为是S的近似式。
按照本发明的优选的方面,S的分割按迭代过程被执行。迭代步骤被称为l。在每个迭代步骤,产生新的分割SA,l和SB,l以及计算Al和Bl。在SA和SB中的S的再划分被使用来开始,此后,没有被精确地建模的SB的部分贡献给SA,反之亦然。在迭代方案的步骤l-1中,Hl-1=Bl-1/Al-1。此后,考虑部分函数SA,l=S/|Bl-1|2和SB,l=1/S|Al-1|2。这样,可以由全极点模型来建模的S的那些部分被排除在提供贡献给SB。同样地,可以由全零点滤波器来建模的S的那些部分被排除在提供贡献给SA。从SA,l和SB,l,估值函数Al和Bl。这样,在以前的迭代中不能被近似地建模的部分被交换。
下一个步骤,优选地,考虑以下的四个可能的组合:
G0=Bl-1/Al-1 G1=Bl-1/Al
G2=Bl/Al-1 G3=Bl/Al
这四个候选滤波器的S的最好的适配被规定为具有最小误差的那个;相关的滤波器是步骤l的最后结果。优选地,Hl(以及从而是Al和Bl)被选择为候选者Gi(i=0,1,2,3)中对于按照下式的对数准则来说最好的一个:由此,程序过程进到步骤l+1,取SA,l+1=S/|Bl|2和SB,l+1=1/S|Al|2。
任何通常的停止过程可被使用,例如,最大数目的迭代,当前的估值的足够的精度,或在从一个步骤进行到另一个步骤时不足的进展。
替换地,稍微不同的程序过程执行AR和MA建模。如果以前的步骤返回分母Bl-1的改进的估值,则SA,l=S/|Bl-1|2以及计算Al。Bl被取作为Bl-1。
如果以前的步骤返回分母Al-1的改进的估值,则SB,l=1/S|Al-1|2以及计算Bl。Al被取作为Al-1。
从Al和Bl,构建Hl,以及估值误差(例如,在对数尺度上的均方差值)。
有许多进行初始化迭代方案的替换例。不作为限制,提及以下的可能性:
首先,通过取SA,0=S和SB,0=1以及SA,0=1和1/SB,0=S,提供初始化的简单的方法。接着,计算A0和B0。从这两个初始的估值,选择最好的适配值(按照某个准则)。这样,第一猜测或者是全极点或全零点。
第二,S可以按照SA,0=1/SB,0=S]]>被分割为相等的部分。
第三,由于SA应当包含峰值以及SB包含谷底,所以最好的分割是把在平均对数电平以上的每个项贡献给SA,0,以及在所述电平以下的任何项贡献给SB,0。这种划分可以按总的对数平均值作出,但也可以按某个本地对数平均值作出。
第四,进一步的分割处理过程考虑到,在对数尺度的功率谱密度函数中,接近于单位圆的极点和零点分别引起显著的峰值和谷底。数据S是在logS中的峰值和谷底分别由全极点和全零点模型更适当地被处理的概念上被分割的。定义:
P=logS
PA=logSA
PB=logSB
考虑变换函数m,m:R→[-1,1]。从对数尺度上的极点和零点的对称性看来,变换函数典型地将是非递减的、点对称的S形函数。然而,也可以使用非对称函数,它具有给予极点或零点建模更大的权重的效果。图4上显示示例的变换函数。
考虑以下的产生分割:PA=1+m(P)2P]]>PB=-1-m(P)2p]]>
这样,P的正的振幅(峰值)占优势地贡献给PA,因此,它由全极点滤波器建模。P的负的振幅(谷底)是大多数贡献给PB,因此,它由全零点滤波器建模。从PA和PB,构建SA和SB,以及计算下一个A0和B0。
M有两个限制的情形(它类似于上面讨论的第二和第三初始化):
-m=0,则SA,0=1/SB,0=s]]>
-m是正负号函数:
在这种情形下:
所提出的频谱建模在建模峰值和谷底是非常合适的,因为,基本上,这些方法构成通过由极点和零点提供的自由度产生的图案。因此,程序过程对于外围事物很敏感:而不是平滑化,这些将在近似式中出现。所以,输入数据S必须是精确的估值(在每个频率样本的标准偏差与平均值的小的比值的意义上)或S必须被预处理(例如,被平滑),以便压缩不想要的外围事物建模。如果模型中自由度的数目相对于作为功率谱密度函数的依据的数据点的数目是相当大的,则这种看法特别被保持。
不知道实际的最佳化步骤A和B依据选择的准则,就不能建立收敛。不能保证,在迭代过程的每个步骤中误差减小。
在许多情形下,希望在对数尺度的频率轴上具有功率谱密度函数的良好的近似。例如,通常的实践是以Bode图的形式视觉地估值频谱的适配的结果。同样地,对于音频和语音应用项,最好的尺度是Bark或等价的矩形带宽(ERB)尺度,它或多或少是对数尺度。按照本发明的方法适合于频率打包建模。频谱密度度量值无论如何可以在任意的频率栅格上被计算。在频率打包接近于一阶全通段的打包的条件下,这可以被重新打包,而同时保持ARMA模型的阶数。
本发明的应用领域包括音频编码,嵌入数据技术,噪声成形和快速滤波器设计。图5上显示本发明的另一个示例性实施例。在图5上,音频信号A以与图1相同的方式从源1被得出。音频信号A在噪声抑制装置6中被处理。噪声抑制装置包括噪声分析器(NA)60和噪声合成器(NS)61。在本实施例中,NA 60直接分析音频信号中的噪声。噪声的频谱是通过按照本发明确定ARMA测量而被建模的。NS 61,主要是滤波器,具有近似于噪声频谱的频率响应。NS 61通过滤波白色噪声y而产生重新构建的噪声,其中NS 61的滤波性质由ARMA参量(pi,qi)确定。在加法器61中,从音频信号(A)中减去重新构建的噪声,得出噪声滤波的音频信号({A})。优选地,噪声频谱在一个或多个(以前的)帧中被建模,它除了噪声外不包含很多信号,例如在语音编码时的无语音的帧。重新构建的噪声可以在包含更多的信号的帧(例如,在语音编码时的语音帧)中被减去。
应当指出,上述的实施例是说明而不是限制本发明,本领域技术人员将能够设计许多替换的实施例而不背离所附权利要求的范围。在权利要求中,在括号内放置的任何标号不打算限制权利要求。词组“包括”并不排除存在除了在权利要求中所列出的以外的其它的单元或步骤。本发明可以通过包括几种不同的单元的硬件,和通过适当地编程的计算机来实施。在列举的几个装置的设备权利要求中,几个这样的装置可以由同一个硬件元件来实施。某些度量是在互相不同的从属权利要求中被阐述的事实,并不表示这些度量的组合不能被用来利用。
总之,通过确定具有近似于目标频谱的频率响应的滤波器的滤波参量,提供了目标频谱的建模,其中目标频谱被分割成至少第一部分和第二部分,第一建模运行被使用于目标频谱的第一部分上,得出自回归参量,第二建模运行被使用于目标频谱的第二部分上,得出运动平均参量,以及自回归参量和运动平均参量被组合来得出滤波参量。本发明优选地应用于音频编码,其中对信号中的噪声分量的频谱进行建模。
说明了用于从功率谱密度数据进行快速ARMA估值的模型。它使用了用于估值多项式的分子和分母的FLP技术,和迭代程序,用来对功率谱密度数据进行最适当的分割,以便把一部分数据贡献给全极点模型和把另一部分数据贡献给全零点模型。