音频信号传输系统 本发明涉及一种传输系统,它包括具有用来对音频信号编码的编码器的发射器,而该编码器又包括用来确定至少一种周期性分量的频率的装置,所述发射器还包括用来向接收器发送表示至少一种周期分量的所述频率的信号的发射装置,所述接收器包括用于从发射器接收表示所述频率的信号的接收装置和用于根据至少一种周期性分量的所述频率导出重构的音频信号的解码器。
本发明还涉及发射器、接收器,编码器、解码器、记录系统、再现系统、编码和解码方法、包括执行所述方法的计算机程序的有形媒体、一种信号和一种承载信号的记录媒体。
从美国专利NO.4,937,873可了解根据本序言的传输系统。
这些传输系统和音频编码器用于如下地应用中:音频信号需要经传输能力有限的传输媒体进行传输或需要存储在有限存储容量的存储媒体中。
这些应用的示例有:通过互联网传输音频信号;从移动电话向移动台传输音频信号,反之亦然;在CD-ROM、固态存储器或硬盘驱动器上存储音频信号。
对音频编码器尝试了各种不同操作原理,以实现适度位速率下的良好音频质量。在这些操作方法之一中,要传输的音频信号被分为多个10-20ms长度的片断。在每一个所述片断中,该音频由多个用其振幅和频率定义的正弦波来表示。这些正弦波的振幅和频率在该编码器中被确定。
发射装置将这些振幅和频率的表示方法发送给接收器。发射器所执行的操作可以包括信道编码、交错和调制。
接收装置从传输信道接收表示音频信号的信号,然后执行类似解调、去交错和信道解码的操作。解码器从接收器获取该音频信号的表示,然后通过产生由编码信号描述的多个正弦波并将其组合成重构的音频信号来从所述音频的表示导出重构音频信号。
虽然现有技术系统提供良好的编码质量,但是重构音频信号和原始音频信号之间仍存在可听辨的差异。
本发明的目的在于提供一种根据序言的传输系统,其中重构的音频信号的质量被进一步地提高。
为了实现所述目的,根据本发明的传输系统具有如下特征:其编码器还包括频率变化确定装置,用于确定所述至少一种周期性分量经历预先确定的时间量的频率变化。
通过确定所述至少一种周期性分量的频率变化,还可以以两种途径提高重构音频信号的质量,第一种途径是将该频率变化发送给接收器,该接收器可以使用所述频率变化来导出重构音频信号。第二种途径是使用频率变化来获取音频信号频率的更精确的值。例如,它可以是语音信号中的音调,或音频信号中任意的周期性分量。利用经历预定时间量的频率变化,可以更精确地确定对应于所述基频的平均频率值。
本发明的一个实施例具有如下特征:安排所述发射装置将表示所述频率变化的另一种信号发送到接收器;安排所述接收器接收所述另一种信号;以及安排所述解码器根据所述频率的所述变化导出所述重构音频信号。
通过用发送到接收器的附加信号表示频率变化,可以实现利用在一个合成时间间隔内频率(轻微)变化的正弦波来产生重构音频信号。这更加符合实际音频信号的属性,从而提高了重构音频信号的质量。
本发明的另一个实施例具有如下特征:其编码器包括时间变换装置,用于获取时间变换的输入信号;其中安排时间变换装置以这样的方式在预定时间量的前部分对输入信号进行时间压缩、并且在预定时间量的后部分对输入信号进行时间扩展,使得时间变换后的输入信号的频率变化比输入信号的小。
利用时间变换(也称时间变形(time warping))来获取时间变换的音频信号已经被证明是一种用来处理需要编码信号的频率变化的有效方式。利用适当的时间变换,有可能将频率变化的信号变换为具有基本上恒定的频率的时间变换信号。
它的一个示例是一种其线性频率扫描在片断开始部分以低频率起始而在片断结束部分以高频率结束的音频信号。通过在片断前部分对输入信号进行时间压缩,时间变换信号的频率将比原始输入信号的频率高。通过在片断后部分对输入信号进行时间扩展,时间变换的输入信号的频率将比原始输入信号的频率低。
这样就获得一种时间变换后的输入信号,其在片断开始部分的频率增高而在片断结束部分的频率降低。如果时间变换的选择适当的话,就有可能获得降低了频率变化的变换后的输入信号。
本发明的又一个实施例具有如下特征:安排所述时间变换确定装置导出多个时间变换的输入信号,后者各自对应于不同的时间变换,以及所述编码器包括确定装置,用于选择时间变换,后者对应于经历所述预定时间量后频率变化最小的时间变换的输入信号。
确定最适当的时间变换的方式是尝试多种不同的时间变换,然后选择使变换后的音频信号的频率变化最小的那一种。
本发明的又一个实施例具有如下特征:安排所述时间变换确定装置通过选择具有其自相关函数的最高峰值的时间变换输入信号来选择经历所述预定时间量后频率变化最小的时间变换输入信号。
确定频率变化最小的时间变换信号的有效方式是计算不同时间变换输入信号的自相关函数。具有其自相关函数的最高峰值的时间变换音频信号具有最小的频率变化。或者,也可以计算时间变换输入信号的快速傅里卟变换(FFT)。产生FFT域中最高峰值的时间变换音频信号具有最恒定的频率。
根据本发明的传输系统的又一个实施例具有如下特征:所述时间变换定义为实际时间和变换后的时间之间的二次关系。
实际时间和变换后的时间之间的二次关系可以很容易地计算,并可以实现时间片断前部分的时间压缩和时间片断后部分的时间扩展。
根据本发明的传输系统的又一个实施例具有如下特征:实际时间t和变换后的时间τ之间的二次关系是由表达式:τ(t)=aT·t2+(1-a)·t]]>;0≤t≤T来定义的,其中a是定义时间变换的参数,T是信号片断的持续时间。
上述二次时间变换只有一个参数,且仍可以在一个信号片断期间获得时间压缩和时间扩展。只有一个参数的优点在于减少了将优化的时间变换发送到发射器所需的位数。另外,可以指出,这种时间变换函数可以完全消除输入信号的线性频率变化。
下面将参照附图解释本发明。
图1显示根据本发明的用于发送音频信号的传输系统。
图2显示对于若干参数值a的时间变换函数的曲线图。
图3显示根据图1的传输系统所用的变换确定装置8的实施例。
图4显示通过根据图1的时间变形器(warper)6涉及时间变换的离散时间信号的图形。
图5显示通过根据图1的时间去变形器(de-warper)26涉及反向时间变换的离散时间信号的图形。
在根据图1的传输系统中,待发送的音频信号加到发射器2所包括的音频编码器4的输入端中。在音频编码器4中,输入音频信号加到频率变化确定装置8的输入端和时间变换装置(此处为时间变形器6)的输入端。
频率变化确定装置8的携带输出信号a的第一个输出信号连接到时间变形器6的控制输入端。输出信号a表示输入信号的周期性分量的频率变化。时间变形器6对其输入信号执行由参数a定义的时间变换。这样选择参数a,使得时间变形器6的输出信号中周期性分量的频率最小。
在频率变化确定装置8的第二个输出处,存在一个表示音频信号中周期性分量的平均频率的信号PITCH。在语音编码中,信号PITCH表示语音信号的音调。
时间变形器6的输出端连接到分析器10的输入端,分析器10被安排来确定表示时间变形器6的输出信号的参数。一种可能性是,分析器10是一个线性预测分析器,它确定输入信号的多个线性预测编码器(LPC)系数。另外一种可能是,分析器10直接确定存在于时间变形器6的输出信号中的多个正弦波分量的振幅和频率。
信号a、信号PITCH和分析器10的表示音频信号的其他属性的输出信号(LPC系数或正弦波的振幅和频率)加到复用器12的各对应输入端。复用器12的输出端连接到发射装置14的输入端,该发射装置将复用器14的输出信号发送到接收器16。
发射装置14执行类似于对准备通过RF载波发送的信号进行信道编码、交错和调制的操作。在本发明用于将编码的音频信号记录在如硬盘或光盘(CD,DVD)这样的记录媒体上的情况下,就可以免去调制这个步骤。在此情况下,调制码常常被用于对要写在记录媒体上的信号的频谱进行整形。
在接收器16中,从发射器2接收来的信号首先由接收装置18进行处理。接收装置18被安排用于执行解调、去交错和信道解码。接收装置18的输出信号连接到解码器20的输入端。在解码器20中,接收装置18的输出信号连接到分接器22的输入端。
分接器在它的各输出端提供了输出信号a、PITCH和LPC。信号PITCH和LPC用在合成器24中,该合成器从这些参数中导出重构的音频信号。根据音调信号和多个LPC参数导出重构的音频信号的这种合成器的操作在国际专利申请WO99/03095-Al中有详细的介绍。
合成器24的输出端连接到反向时间变换装置(此处为去变形器26)的输入端。去变形器26将被时间变形器6从输入信号中除去的频率变化重新引入。在去变形器26的输出端可以得到重构的音频信号。
如下所示为时间变形器6中使用的适当的时间变换函数:τ(t)=aT·t2+(1-a)·t;0≤t≤T]]>(1)
在(1)中,a是变形参数,T是语音片断的持续时间,t表示实际的时间,τ是变换后的时间。变形参数a的值具有一定的范围,以确保变形函数始终随时间t递增。得出:
|a|≤1 (2)
这样选择变形函数,使得变形后的音频片断的总持续时间等于原始音频片断的持续时间。变形后的片断的起始值和结束值等于原始音频片断的起始值和结束值。
可以通过求(1)对t的微分来确定是否发生时间压缩或时间扩展。其结果为:dτdt=2atT+(1-a)]]>(3)
当dτ/dt小于1时发生时间压缩而当dτ/dt大于1时发生时间扩展。从(3)可得到,当a>0时,t<T/2发生时间压缩而t>T/2发生时间扩展。当a<0时,t>T/2发生时间压缩而t<T/2发生时间扩展。
根据(1)的时间变形函数的反函数是根据如下表达式定义的:(4)
图2示出对于不同的a值作为t/T的函数的τ/T。如果a=0,则τ等于t而不发生时间变形。
下面对由(1)定义的时间变形操作进行分析。如果信号s(t)是一个随时间周期变化的信号,如语音,则它可以写成如下形式:s(t)=Σk{xkcoskΦ(t)+yksinkΦ(t)]]>(5)
在(5)中k是谐波序数,xk和yk是振幅因子,Φ(t)是一个相位角。对于时间变换信号,s'(τ)可以写成:s′(τ)=Σk{xkcoskψ(τ)+yksinkψ(τ)]]>(6)
当(5)和(6)表示同一个物理信号时,Φ(t)等于Ψ(τ)。s(t)的第k次谐波的瞬时角频率ωk(t)由如下表达式给出:ωk(t)=kdΦ(t)dt]]>(7)s'(τ)的第k次谐波的瞬时角频率Ω(τ)由如下表达式给出:Ωk(τ)=kdψ(τ)dτ]]>(8)
因为Φ(t)=Ψ(τ),所以它们对时间t的导数值也相等。使用链式法则,则可以写成:dΦ(t)dt=dψ(τ)dτ=dψ(τ)dτdτdt]]>(9)Ωk(τ)和ωk(t)之间的关系可以利用(9)来找出:Ωk(τ)=ωkdτdt]]>(10)
时间变形器的另一个重要属性是,变形后的信号的第k次谐波的平均频率等于原始信号的第k次谐波的平均频率。这个结果很容易从如下表达式得出:Ω-k=1T∫0TΩk(τ)dτ=1T∫0Tωk(t)dτdtdτ=∫0Tωk(t)dt=ω-k]]>(11)
下面将说明上述时间变形函数可以从输入信号中除去线性频率的变化。
将(3)代入(10)得出:Ωk(τ)=ωk(t)1-a+2aTt]]>(12)
假定输入信号具有其角频率ω(t)随时间线性变化的正弦输入信号。此信号的角频率可以写成:ω(t)=α+βtT]]>(13)将(13)代入(12)得出:Ω(τ)=α+βtT1-a+2aTt]]>(14)如果Ω(τ)应该是常数,则下列算式成立:α1-a^=β2a^⇒a^=ββ+2α]]>(15)将(15)代入(14)得出:Ω^=Ω(τ)|a=a^=α+β2]]>(16)
它对应于一个常数,该常数等于在具有持续时间T的片断内角频率ω(t)的平均值。
在根据图3的频率变化确定装置8中,音频信号首先加到加权滤波器30。加权过滤器30是一个自适应LPC反向滤波器。加权过滤器30的输出信号是LPC残数。使用预测残数替代输入信号具有确定基频(音调)的频率所受到的共振峰交互影响最小的优点。
加权过滤器30的输出端连接到低通滤波器32的输入端。此低通滤波器有大约1100 Hz的截止频率。该低通滤波器32的输出端连接到多个时间变形器34、42和50的输入端。安排时间变形器34,42和50来执行根据(1)的时间变换,但是,它们的参数a的值都不同。
时间变形器34、42和50的输出端连接到相关器37、41和51的输入端,相关器37、41和51分别确定一个测度,该测度为对应的时间变形器的输出信号的自相关函数的近似值。
相关器37、41和51利用这样的属性:可以通过从所分析的信号的功率谱计算反向FFT来确定自相关函数。也可以使用快速傅立叶变换的绝对值作为功率谱的近似值。提供了64 msec比较长持续时间的分析窗口,以便处理很长的音调周期(长达25 msec),这种情况可能发生在某些男性语音中。由于时间变形操作,使得选择这种长分析窗口成为可能,因为该操作提供一种更稳定的时间变换后的信号。
在傅立叶变换器36、44和52中对相关器37、41和51的输入信号进行傅立叶变换。这些傅立叶变换确定了其输入信号的FFT的绝对值。接着,通过借助快速傅立叶逆变换器38、46和54计算振幅谱的逆FFT来确定被称为“零相位函数”的快速傅立叶变换器36、44和52的输出信号zi(n)。
在规范器40、48和56中将零相位函数zi(n)相对于其值zi(0)归一化。
规范器40、48和56的输出端连接到选择装置58的输入端,该选择装置选择对应于具有关于非零值n的最高峰值的零相位函数的时间变形参数a作为最优化值。其依据是,优化变形后的信号显示最稳定的频率Ωk(τ)。因此,该信号具有其自相关函数的最大峰值。
迄今以连续时间操作的形式描述了时间变形器和去变形器。在实际实现过程中,这些操作应该是在离散时间系统中实现的。如果具有持续时间T的输入信号片断由N个样值来表示,则变形的片断也具有持续时间T,且也应该由N个样值表示。但是,时间变形后的信号的取样时刻并不对应于原始输入信号的取样时刻。这一点反映在图5的时间变形器和图6的时间去变形器上。
在图5中,图形60对应于输入信号,而图形62对应于变形后的输出信号。如图4中箭头64所示,图形62中的取样时刻j=2对应于图形60中取样时刻i=2和i=3之间的时间。这种情况对应于时间压缩。如图4中箭头66所示,图形62中的取样时刻j=N-1对应于图形60中取样时刻N-2和N-1之间的时间。这种情况对应于时间扩展。
对于此问题,需要为每个τj的当前值计算样值,具体由如下表达式给出:τj=j·TN;l≤j≤N]]>(17)
利用(4)从τj,计算出对应的t值。从该t值,确定取样网格上的最接近值。根据如下表达式得出两个i值:(18)在(18)中,表示比其自变量小的最接近整数;表示比其自变量大的最接近整数。最后,根据如下表达式,计算出τj的一个线性内插样值:s(τj)=s(i1)·(N·tT-i1)+s(i2)·(1-N·tT+i1)]]>(19)
显然,除了线性内插外,还有其他类型的内插也可以使用,如平方内插和立方内插。
图5中的图形68显示的是变形后的时标;而图形74显示的是对应的未变形的时标。
可以按照图5中所示的类似方式进行反向变形。首先通过如下计算得出需要确定所对应的样值的ti值:ti=i·TN;1≤i≤N]]>(20)
然后利用表达式(1)计算出箭头72和74所指示的给定ti值所对应的τ值。从该t值确定取样网格上的最接近值。根据如下表达式得出两个j值:(21)最后,根据如下表达式计算出ti的线性内插样值:s(ti)=s(j1)·(N·τT-j1)+s(j2)·(1-N·τT+j1)]]>(22)
显然,可以利用专用的硬件或运行于可编程处理器上的程序来实现本发明。也可以设想使用这些实现方式的组合。