部分加密的声频编码 本发明涉及声频信号的编码和解码。具体地说,本发明涉及用于固态声频或因特网声频的低比特率声频编码。
兼容加扰是一种加扰(部分)比特流的技术,其加扰方式可使加扰的比特流仍能解码,但解码的信号导致信号恶化。因此,在复制控制的环境中压缩的声频比特流解码后,兼容加扰可用来控制质量。所述技术已对AAC变换编码器(先进的声频编码,MPEG-2标准的一部分)公开,见“Secure Delivery of Compressed Audio by CompressedBit-Stream Scrambling”,E.Allamanche and J.Herre,AES 108thConvention,Paris,2000 February 19-22。
此处,AAC比特流用一个密钥加密,以致在比特率不增加的情况下质量可以设定为任何所需水平(低于未加扰流所获得的质量)。如果加密密钥已知(通过某种事务处理),比特流就可解密至其原来状态。Allamanche并且提出所述兼容加扰方法也适用于其他压缩方案。
但是,对于AAC变换编码器,或任何其他波形编码器,频谱通常用粗略或精细频谱表示法来编码。用一个比例因数集来描述频谱地粗略表示法,用随后比例因数之间的一种精细划分来描述频谱的精细结构。Allamanche的兼容加扰是通过在一定程度上改变(加扰)频谱的精细结构来获得某种较低质量等级的信号。
对于参量编码方案,例如,PCT专利申请No.PCT/EP00/05344(Attorney Ref:N017502)和同时提交的欧洲专利申请No.01201404.9(Attorney Ref:PHNL010252)所描述的正弦解码器类型,信号分量都不是以粗略或精细频谱表示法来描述的。而是,正弦参数描述所谓的轨迹,轨迹是正弦的,在某一特定时刻开始,演变一段时间,然后停止。在正弦波有效的时间间隔内,演变一般是缓慢变化。所以,Allamanche建议的兼容加扰技术不适用于正弦编码方案。
根据本发明,提供一种对声频信号进行编码的方法,所述方法包括以下步骤:对声频信号进行取样以产生取样信号值;分析所述取样的信号值以产生所述声频信号的参量表示;加密所述参量表示的至少某些参数;以及产生包括代表所述声频信号的所述加密参量表示的编码声频流,它使得能够以比用未加密参量表示所产生的低的质量等级从所述编码声频流合成所述声频信号。
在本发明的最佳实施例中,参量表示包括代表声频信号的等幅正弦分量的代码,对于它们,在正弦波有效的时间间隔内以差分方式更新频率和/或振幅参数。为了加扰差分编码的频率和/或振幅值,差分值映像到其他差分值。改变这些数值,比特流仍可解码但结果轨迹会具有随机的频率和/或振幅改变。于是,信号便会降级。
现参考附图说明本发明的各种实施例,附图中:
图1示出按本发明的声频编码器的实施例;
图2示出按本发明的声频重放机的实施例;以及
图3示出包括声频编码器和声频重放机的系统。
在本发明的最佳实施例(图1)中,描述了兼容加扰应用于参量编码方案中,其中编码器是欧洲专利申请No.00200939.7,2000年3月15日提交(Attorney Ref:PH-NL000120)或同时提交的欧洲专利申请No.01201404.9(Attorney Ref:PHNL010252)所描述的那种类型的正弦编码器。在这两个相关申请以及最佳实施例中,声频编码器1以某一取样频率对输入声频信号取样,产生所述声频信号的数字表示x(t)。这就使时标t取决于取样速率。然后编码器1将取样的输入信号分为三个分量:瞬态信号分量,持续确定性(正弦)分量以及持续随机(噪声)分量。声频编码器1包括瞬态编码器11、正弦编码器13和噪声编码器14。该声频编码器还任选地包括增益压缩装置(GC)12。
在本发明的所述实施例中,先进行瞬态编码,然后再进行持续编码。这样做比较有利,因为瞬态信号分量不能在持续编码器中做有效和最佳的编码。如果用持续编码器来对瞬态信号分量编码,就需要做大量的编码工作,例如可以设想,仅用持续正弦是很难对瞬态信号分量进行编码的。因此,在进行持续编码之前先从待编码的声频信号中去除瞬态信号分量是有利的。也可看出在瞬态编码器中得出的瞬态开始位置也可在持续编码器中用于自适应分段(自适应成帧)。
不过,本发明并不仅限于具体应用在欧洲专利申请No.00200939.7所公开的瞬态编码,提出上述应用仅仅是为了举例而已。
瞬态编码器11包括瞬态检测器(TD)110、瞬态分析器(TA)111,以及瞬态合成器(TS)112。首先,信号x(t)进入瞬态检测器110。检测器110估计是否有瞬态信号分量及其位置。所述信息馈入瞬态分析器111。所述信息也可用在正弦编码器13和噪声编码器14中以获得有利的由信号引出的分段。如果确定了瞬态信号分量的位置,瞬态分析器111就试图提取所述瞬态信号分量(的主要部分)。它使形状函数与最好在预计的起始位置处开始的信号段相匹配,并利用例如少量正弦分量来确定在形状函数之下的内容。所述信息包含在瞬态代码CT中,在欧洲专利申请No.00200939.7中提供了有关产生瞬态代码CT的更详尽的信息。
总之,显然,例如在瞬态分析器采用类似Meixner形状函数时,瞬态代码CT将包含瞬态开始的起始位置;基本上能表示(信号电平)初始增高速率的参数;基本上能表示衰减速率的参数;以及关于所述瞬态的正弦分量的频率、振幅和相位数据。
如果编码器1产生的比特流要由解码器合成,而与用来产生比特流的取样频率无关,则所述起始位置应以时间值来传送,而不是例如以一帧中的取样数来传送,而正弦频率则应以绝对值或利用代表绝对值的标识符来传送,而不是以仅能从变换的取样频率导出的或与之成比例的数值来传送。不过,从下面可知,本发明可以用上述任一种方案实现。
还可看出,如果瞬态信号分量是振幅包络中的阶梯形变化,那么,形状函数还可以包含阶跃表示。在此情况下,瞬态位置仅在对正弦和噪声模块合成时对分段有影响。同上,虽然本发明不限于上述任一种实现方案,但是,阶跃形变化的位置可以以时间值来编码,而不是以与取样频率有关的取样数来编码。
瞬态代码CT被提供给瞬态合成器112。在减法器16中从输入信号x(t)中减去合成的瞬态信号分量,得到信号x1。假定,省略GC12,则x1=x2。信号x2被提供给正弦编码器13,由正弦分析器(SA)130进行分析,正弦分析器130确定(确定性)正弦分量。所得到的信息包含在正弦代码CS中,在PCT专利申请No.PCT/EP00/05344(AttorneyRef:N 01752)中提供了说明产生示范正弦代码CS的更详尽的实例。另一方面,在“Speech analysis/synthesis based on sinusoidalrepresentation”,R.McAulay and T.Quartiere,IEEE Trans.Acoust.,Speech,Signal Process.,43:744-754,1986或“Technicaldescription of the MPEG-4 audio-coding proposal from theUniversity of Hannover and Deut sche Bundepost Telekom AG(revised)”,B.Edler,H.Purnhagen and C.Ferekidis,Technicalnote MPEG95/0414r,Int.organization for StandardisationISO/IEC JTC1/SC29/WG11,1996等文中公开了一种基本的实现方案。
但是,简言之,本最佳实施例的正弦编码器以从一个帧段与下一个帧段相联系的正弦分量的轨迹对输入信号x2进行编码。这些轨迹在某一特定时刻开始,演变一段时间,然后停止。这些轨迹从一段到下一段的更新以频率、振幅以及任选的相位信息来描述。在正弦波有效的时间间隔内,演变一般变化缓慢。因此,以差分方式更新频率和振幅参数的比特率是非常有效的。这样,初始时,以给定段正弦始端-起源的开始频率、开始振幅和开始相位来表示所述轨迹。然后在随后的段中以频率差、振幅差、可能还有相位差(连续)来表示所述轨迹,直到轨迹终止(衰亡)的段。实际上,可以确定,在对相位差编码方面的增益很小。因此,根本不需要对相位信息进行连续编码,而可以利用连续的相位重构来产生相位信息。
而且,如果要使比特流与取样频率无关,那么,开始频率应在正弦代码CS范围内编码为绝对值或表示绝对频率的标识符以确保编码信号与取样频率无关。
正弦信号分量由正弦合成器(SS)131从正弦代码CS重构。在减法器17中从输入信号x1中减去所述信号,送至正弦编码器13,得到没有(大)瞬态信号分量和(主要)确定性正弦分量的余留信号x3。
假定余留信号x3主要包含噪声,且所述最佳实施例的噪声分析器14可产生代表此噪声的噪声代码CN。传统上,例如在2000年5月17日提交的PCT专利申请号PCT/EP00/04599,(Attorney Ref:PHNL000287)中,由噪声编码器按照等效矩形带宽(ERB)比例、利用组合的AR(自动回归)MA(移动平均)滤波参数(pi,qi)将噪声频谱模型化。在图2的解码器中,所述滤波器参数被馈入到噪声合成器NS33中,NS33大抵上是一个其频率响应接近于噪声频谱的滤波器。NS33利用ARMA滤波参数(pi,qi)对白色噪声信号进行滤波而产生重建的噪声yN,并将它加到下面将作说明的合成的瞬态信号yT和正弦yS信号上。
但是,所述ARMA滤波参数(pi,qi)还是取决于噪声分析器的取样频率,因而,如果要使编码的比特流与取样频率无关,那么,这些参数在编码前应转换为线谱频率(LSF),又称为线谱对(LSP)。可以把这些LSP参数表示在绝对频率网或与ERB比例或Bark比例有关的网上。关于LSP的更详尽的信息,请参阅“Line SpectrumPair(LSP)and speech data compression”,F.K.Soong andB.H.Juang,ICASSP,pp.1.10.1,1984。总之,从一种类型的预测滤波型系数(在此例中为取决于编码器取样频率的(pi,qi))转换为与取样频率无关的LSF,或相反的转换(如在解码器中所要求的),已众所周知,在此不再赘述。但是可以看出,在解码器中将LSF转换为滤波系数(p’i,q’i)可以根据噪声合成器33产生白色噪声样值的频率进行,从而使解码器产生噪声信号yN的方式与其最初的取样方式无关。
可以看出,与正弦编码器13的情况类似,噪声分析器13也可使用瞬态信号分量的开始位置作为开始一个新分析块的位置。因此,正弦分析器130和噪声分析器14的段的大小不一定要相等。
不过,从下面可知,本发明可以用包括上述方案在内的任何噪声编码方案实现。
在本发明的最佳实施例中,对正弦分析器130产生的正弦代码CS要进行加扰。具体地说,在最佳实施例中,在正弦分析器130和多路复用器15之间设置加密模块18。加密模块18利用提供的密钥对轨迹连续段的正弦代码CS的差分编码频率和/或振幅值进行加扰。换句话说,模块18将差分值映像到其它差分值上,产生加密的正弦代码CSe。改变这些数值,含有代码CSe的比特流仍可解码,但得到的是在轨迹生命周期中具有随机频率变化和/或随机振幅变化的轨迹。结果是,如果没有正确的密钥,解码器产生的合成信号的质量就会下降。
下降的数量可以由这些差分编码的频率和/或振幅改变的量和范围来控制。这样,例如,就可以确定:某些类型的声频信号比其他类型对加扰更为敏感,以及某些类型的信号对频率加扰比对振幅加扰更为敏感等。所以,如果信号包含有大的正弦分量,而且,例如是古典音乐,轨迹就会比较长,即它们要经过许多段,因此它们会比例如某些现代流行音乐对加扰更为敏感。这样,就可相应地选择用于进行加扰的密钥以及映像。
最后,在多路复用器15中,构成包括代码CT、CSe和CN的声频流AS。声频流AS提供给例如数据总线,天线系统,存储介质等。因此可以看出仅有加密的信号被传送或存储。
图2示出按本发明的声频重放机3。从数据总线、天线系统、存储介质等获得由图1的编码器或非加扰编码器产生的声频流AS’。声频流AS’在多路分解器30中多路分解,获得代码CT、CSe和CN。CT和CN代码分别提供给瞬态合成器31和噪声合成器33,如欧洲专利申请00200939所述。在瞬态合成器31中从瞬态代码CT中计算出瞬态信号分量。如果瞬态代码表示形状函数,则根据接收到的参数计算形状。而且,根据正弦分量的频率和振幅计算形状内容。如果瞬态代码CT表示步骤,则没有瞬态可计算。总瞬态信号yT是全部瞬态之和。
如果采用自适应成帧,则从瞬态位置计算正弦合成SS32和噪声合成NS33的分段。噪声代码CN用来产生噪声信号yN。为此,首先将帧段的线谱频率转换成专用于噪声合成器产生白色噪声的频率的ARMA滤波参数(p’i,q’i),这些参数再与白色噪声值组合,产生声频信号的噪声分量。然后,用叠加方法加上随后的帧段。
但是,按照本发明,如果有解码密钥,那么,假定CSe已经过被加扰并首先馈入到解密模块38。解密模块利用通过传统的事务处理技术获得的密钥将加密的CSe代码解密,产生未加扰的代码CS。可以看出,只要给解码器以及解密模块38提供正确的密钥,解码器就不必知道比特流已经过加扰或所述信号编码时选用的具体映像。
如果没有密钥可用,例如,比特流未经加扰或者没有获得密钥,则使用未对提供的CSe代码作任何改变的正弦代码CS来产生信号yS,以给定段上的各正弦波的总和来描述它。
如果比特流未进行加扰,则该比特流以其原有取样质量合成,如同假定没有提供密钥的情况。
另一方面,如果可以得到关于已加扰信号的正确的密钥,则产生对应于代码分析器130产生的原有代码的正弦代码CS,并将这些代码提供给合成器32,产生信号yS。
总信号y(t)包括瞬态信号yT和任何振幅解压缩(g)乘积之和以及正弦信号yS和噪声信号yN之和。声频重放机包括两个加法器36和37来总加各信号。总信号提供给输出单元35,例如扬声器。
所以,在没有密钥或使用错误的密钥时,就会得到比原有的取样信号x(t)降级的信号y(t)。另一方面,如果使用正确的密钥,信号y(t)的正弦分量将会以原有的取样质量合成,而产生原有质量的总信号。
图3示出包括图1的声频编码器1和图2的声频重放机3的本发明的声频系统。所述系统具有播放和记录特征,但可防止未经授权复制原有质量材料。加密的声频流AS从声频编码器通过通信频道2提供到声频重放机,通信频道2可以是无线连接、数据20总线或存储介质。如果通信频道2是存储介质,那么,所述存储介质可以固定在系统内,也可以是可更换的盘、固态存储器件、例如Sony公司生产的Memory StickTM。通信频道2可以是声频系统的一部分,但通常是在声频系统之外。
可以看出,有可能对所述最佳实施例作各种改动。例如,一方面噪声分量CN通常仅构成总信号的相对较小的一部分,因此没有这一部分并不能证明听众就不能接受,对噪声分量加扰,比如说随机偏置信号中噪声分量的频谱频率,就可提供所需的效果。这样,除模块18之外,或代替模块18,在噪声分析器14和多路复用器15之间可以设置一个加密模块(未示出)。在解码器中,在多路分解器30和噪声合成器33之间可以加上一个相应的解密模块(未示出),对来自比特流的噪声代码进行解扰(如果提供了密钥的话)。
另外,虽然一方面瞬态分量CT通常在比特流中仅是定期编码、因此没有这些分量并不能证明听众就不能接受,但是,对瞬态分量加扰、比如说随机偏置由包络函数加权的正弦参数的振幅和频率参数、就可提供所需的效果。这样,除模决18之外、或代替模块18和/或任何噪声加扰模块,在瞬态分析器111和多路复用器15之间可以设置加密模块(未示出)。在解码器中,在多路分解器30和瞬态合成器31之间可以加上相应的解密模块(未示出),对来自比特流的瞬态代码进行(或不进行)解扰。
应当指出,在实现本发明时,代码CS、CT或CN的加扰可以发生在多路复用前进行的代码任何量化之前或之后。
而且,如上所述,加密和解密模块可以以多种方式工作。例如,密钥不一定仅仅直接加在比特流上,实际上它可用来对信号加扰和解扰所用的映像进行加密和解密。不过,所述复合映像和密钥可以被认为是本发明的密钥。
本发明可以用在需要对压缩声频进行版权管理的应用中,例如,SSA(固态声频),EMD(电子音乐分发),超级分发及因特网。
可见本发明可以用专用硬件,在DSP上或在通用电脑上运行的软件实现。本发明可以用例如载有执行本发明的编码方法的电脑程序的CD-ROM、DVD-ROM等有形介质实施。本发明也可以作为在例如因特网等数据网络上传送的信号,或由广播业务传送的信号来实施。
应当指出,上述实施例说明了而非限制了本发明,本专业的技术人员能够不背离所附权利要求书的范围而设计不同的实施例。在权利要求书中,括弧内的参考符号不应被认为是对权利要求的限制。“包括”一词并不排除存在有权利要求列举之外的其他元件或步骤。本发明可以用包括数个不同元件的硬件,并用适当编程的电脑来实现。在列举数个装置的装置权利要求中,数个这种装置可以由同一项硬件来实施。某些措施在各不相同的权利要求中引述的这一事实并不表明这些措施不能有利地组合使用。
总之,本发明提供在编码的比特流含有声频信号的参数表示时对声频信号进行编码。参数表示的一个分量包括链接的各正弦分量的轨迹,其中,根据已确定的链接分量的参数以差分方式对随后链接的分量进行差分编码。编码器通过将差分数值映像到其他差分数值来对差分编码的频率和/或振幅值进行加扰。改变这些数值,比特流仍可解码但得到的轨迹会具有随机的频率和/或振幅改变。于是,信号便会降级。