空间声频的参数表示 本发明涉及声频信号的编码,尤其是多通道声频信号的编码。
在声频编码领域中,例如为了降低传送该信号的比特率和存储该信号的存储要求,通常期望对声频信号进行编码,但并不过度地损害声频信号的感知质量。当声频信号通过有限容量的通信信道来发送时或当它们要被存储在一个有限容量的存储媒介时,就出现了重大的问题。
为了减少立体声节目材料的比特率,以前的被建议过的声频编码器的解决方案包括:
“强立体声”。该算法中,高频(典型地为5kHz以上)由单一地声频信号(即单声道信号)结合时变和依赖于频率的比例因子来表示。
“M/S立体声”。该算法中,信号被分解为一个总信号(又称为中央信号或称为公共信号)和一个差分信号(又称为辅助信号,或称为非公共信号)。所述分解有时与要素成分分析或时变比例因子相结合。然后通过变换编码器或波形编码器把这些信号独立地编码。利用该算法所获得的信息衰减的总量非常依赖于源信号的空间特征。例如,如果源信号是单声道的,那么差分信号就是0,该信号差可以被丢弃。然而,如果左右声频信号的相关性比较低(通常是这种情况),该算法就提供不了什么优势。
过去的几年中,很多人都对声频信号的参数表示感兴趣,尤其在声频编码领域中。研究已经表明,发送描述声频信号的(已量化的)参数仅需要很少的传输容量就在接收端重新合成感觉相同的信号。然而,目前参量声频编码器主要集中在编码单声道信号,而立体声信号通常作为双单声道(dual mono)信号来处理。
欧洲专利申请EP 1 107 232公开了一种编码具有L和R成分的立体声信号的方法,其中,所述立体声信号由所述立体声成分中的一个和捕获该声频信号相位差与级差的参量信息来表达。在解码器端,基于该编码的立体声成分和该参量信息来再现另一个立体声成分。
本发明的目的是为了解决如下的问题,即提供一种改进的声频编码,它产生高感知质量的再现信号。
通过一种对声频信号进行编码的方法来解决上述和其他问题,该方法包括:
—生成一个单声道信号,该单声道信号包括至少两个输入声道的组合,
—确定一组指示该至少两个输入声道的空间特征的空间参数,该组空间参数包括一个表示该至少两个输入声道波形相似性度量的参数,以及
—生成一个编码的信号,该编码信号包括所述单声道信号和所述一组空间参数。
本发明人已经意识到,通过把一个多通道声频信号作为一个单声道声频信号和多个包括相应波形相似性度量的空间属性来编码,就可以再现高感知质量的多通道信号。本发明的另一个优点在于:提供了多通道信号的高效编码,所谓多通道信号是指,一个信号包括至少第一和第二通道,例如立体声信号、四通道信号等等。
因此,根据本发明的一个方面,多通道声频信号的空间属性被参数化。在普通声频编码应用中,与那些单独地处理各个通道的声频编码器相比,发送仅结合有一个单声道声频信号的这些参数则大大降低了发送立体声信号所必需的传输容量,同时保持着原始信号的空间印记。一个重要的问题在于,尽管人们两次接收听觉对象的波形(一次是通过左耳,另一次通过右耳),但只在某一位置上以及以某一量(或称为空间漫射)感知了一个单一的听觉对象。
因此,看起来不必把声频信号描述成两个或更多(独立)的波形,而最好把多通道声频描述成一组听觉对象,每一个听觉对象都有自己的空间特征。随之而来的一个困难是,几乎不可能从一个给出的听觉对象整体,例如一个音乐录音,自动分离出单个的听觉对象。该问题可以这样来规避:不用把节目材料分割为单个的听觉对象,而是以类似用听觉系统进行有效(外围设备)处理的方式来描述空间参数。当空间属性包括相应波形的(非)相似性度量时,就可以完成保持高感知质量的高效编码。
特别的,这里提出的多通道声频的参量描述与Breebaart等人提出的两路立体声(binarual)处理模型有关。该模型目的在于描述两路立体声听觉系统的有效信号处理。对于Breebaart等人的两路立体声处理模型的描述,参见Breebaart,J.,van de Par,S.和Kohlrausch,A.(2001a).Binaural processing model based oncontralateral inhibition.I.Model setup.(基于对侧禁止的两路立体声处理模型。1.模型设置)J Acoust.Soc.Am.,110,1074-1088;Breebaart,J.,van de Par,S.和Kohlrausch,A.(2001b).Binaural processing model based on contralateral inhibition.II.Dependence on temporal parameters.(基于对侧禁止的两路立体声处理模型。2.依赖于时间参数)J Acoust.Soc.Am.,110,1089-1104;以及Breebaart,J.,van de Par,S.和Kohlrausch,A.(2001c).Binaural processing model based on contralateralinhibition.III.Dependence on spectral parameters.(基于对侧禁止的两路立体声处理模型。3.依赖于空间参数)J.Acoust.Soc.Am.,110,1105-1117.。下面给出简略的解释,以帮助理解本发明。
在优选实施例中,所述一组空间参数包括至少一个定位提示(localizationcue)。当所述空间属性包括一个或多个,最好是两个定位提示和该相应波形(非)相似性度量时,就获得保持特别高等级感知质量的极高效率的编码。
定位提示这个术语包括传达对声频信号产生影响的听觉对象定位信息的任何合适的参数,例如听觉对象的方向和/或距离。
本发明的优选实施例中,所述一组空间参数包括至少两个定位提示,这两个定位提示包括一个通道间级差(ILD),以及通道间时差(ITD)和通道间相位差(IPD)当中选定的一个。这里要提到的是,通道间级差和通道间时差被认为是水平面上最重要的定位提示。
对应于第一和第二通道的波形的相似性度量可以是任何合适的函数,该函数用来描述相应的波形有多么相似或多么不相似。因此,相似性度量可以是一个相似性的增长函数,例如,由通道间互相关性(函数)确定的参数。
根据一个优选实施例,相似性度量对应于一个互相关函数在该互相关函数最大值处的值(也称为一致性)。该最大限度的通道间互相关性与声源的感性空间扩散(或紧密度)有着非常大的关系,即,它提供了上述定位提示并没有说明的附加信息,因此提供了一组具有通过其所传达的低冗余度信息的参数,从而提供了高效率的编码。
要指明的是,替代地,可以使用其他的相似性度量,例如,随波形非相似性而增大的函数。该类函数的一个例子是:1-c,其中c表示假定值介于0到1的互相关性。
根据本发明的优选实施例,确定一组指示空间特征的空间参数的步骤包括:确定一组作为时间和频率的函数的空间参数。
本发明者洞察到,通过指定ILD,ITD(或者IPD)以及最大相关性作为时间和频率的函数,就足以描述任何多通道声频信号的空间属性。
在本发明另一个优选实施例中,确定一组指示空间特征的空间参数的步骤包括:
—把至少两个输入声道的每一个划分为相应的多个频带;
—对所述多个频带的每一个,确定一组指示相应频带中该至少两个输入声道的空间特征的空间参数。
因此,进入的声频信号被分割为几个限定频带的信号,该信号在ERB-比率范围内(最好)是线性分布的。最好分析滤波器在时域和/或频域表现出空间重叠。这些信号的带宽在ERB比率下依赖于中心频率。随后,最好对每一个频带,分析该进入信号的以下特征:
—通道间级差,或称为ILD,由源自左右信号的限带信号的相对级数来定义。
—通道间时差(或相位差)(ITD或IPD),由通道间互相关函数的峰值位置所对应的通道间延迟(或相移)来定义,以及
—不能通过ITD或ILD来说明的波形(非)相似性,该(非)相似性可以用最大限度的通道间互相关性(即,被标准化的互相关函数在最大峰值处的值,也称为一致性)来参数化。
以上描述的三个参数都是随时间而变化的;然而,由于两路立体声听觉系统在其处理过程中是很迟缓的,所以这些特征的更新速率是相当慢的(典型的是几十毫秒)。
这里可以假设,以上提到的(慢)时变特征是两路立体声听觉系统具有的、可利用的唯一空间信号特征,并且根据这些依赖时间和频率的参数,被感知的听觉世界通过更高级别的听觉系统被重建。
本发明一个实施例的目的在于描述多通道声频信号,通过:
一个单声道信号,包含该输入信号的某种组合,和
一组空间参数:对每个时隙/频隙来说,优选地是两个定位提示(ILD,和ITD或IPD)和一个不能通过ILD和/或ITD说明的、描述波形相似性或非相似性的参数(例如,互相关函数的最大值)。最好,每个附加的听觉通道都包括空间参数。
参数传输的一个重要问题是参数表达的精确性(即,量化误差的大小),这直接关系到所必需的传输容量。
根据本发明的又一个优选实施例,生成一个包括所述单声道信号和所述一组空间参数的编码信号的步骤包括:生成一组量化空间参数,每一个量化空间参数引入一个与相应的已确定的空间参数有关的相应的量化误差,其中至少一个引入的量化误差被控制得依赖于至少一个所述已确定的空间参数的值。
因此,根据人类听觉系统对这些参数中变化的灵敏度,而对由参数量化而引入的量化误差进行控制。所述的灵敏度高度依赖于参数值本身。因此,通过把量化误差控制得依赖于参数值,便得到改善的编码。
本发明的优点在于,提供了声频编码器中单声道信号和两路立体声信号参数的退耦。因此,立体声声频编码器的困难大大减低了(例如,耳间无关量化噪声相比于耳间相关量化噪声的能听度,或者是以双单声道模式编码的参数编码器中的耳间相位的不一致性)。
因为空间参数需要低的更新率和低的频率分解,所以本发明另一个优点在于实现了声频编码器的比特率的大幅减少。空间参数编码的联合比特率典型地是每秒10k比特或更低(参见下面所描述的实施例)。
本发明另一个优点在于很容易和现有的声频编码器结合。所提议的这个方案生成一个单声道信号,该单声道信号可以用现有的任何编码策略进行编码和解码。在进行单声道解码后,本文描述的系统就生成一个具有适当空间属性的立体声多通道信号。
该组空间参数可以用作声频编码器的增强层。例如,如果只允许低的比特率,就发送一个单声道信号,而借助于包括着该空间增强层,解码器就可以再生立体声的声音。
要指明的是,本发明不仅仅局限于立体声信号,而是可以应用于包括n(n>1)个通道的任何多通道的信号。尤其是,如果发送了(n-1)组空间参数,本发明就可用来从一个单声道信号生成n个通道。这种情况下,空间参数描述了如何从该单一的单声道信号形成n个不同的声道。
本发明可以用不同的方式来实现,包括以上和随后描述的方法,即:对编码的声频信号进行解码的方法、编码器的方法、解码器的方法、和其它产品装置的方法,每一种方法都会产生结合第一种方法所描述的一个或多个益处和优点,并且每一种方法都有一个或多个优选实施例,这些优选实施例对应于结合第一种方法所描述的、并在从属权利要求中公开的那些优选实施例。
要指明的是,以上和随后描述的方法的特征可以用软件方式来实现,并在通过执行计算机可执行的指令而引发的数据处理系统和其他处理装置中运行。所述指令可以是从存储介质或通过计算机网络从其他电脑中加载到例如RAM的内存中的程序代码方法。替代地,所描述的特征也可以通过硬件电路而不是软件或与软件联合的方法来实现。
本发明还涉及一种对声频信号进行编码的编码器,该编码器包括:
—生成单声道信号的装置,该单声道信号包括至少两个输入声道的组合,
—确定一组指示该至少两个输入声道的空间特征的空间参数的装置,该组空间参数包括表示该至少两个输入声道波形相似性度量的参数,以及
—生成编码信号的装置,该编码信号包括所述单声道信号和所述一组空间参数。
要指明的是,以上用于生成单声道信号的装置、用于确定一组空间参数的装置和用于生成编码信号的装置可以通过任何合适的电路或设备来实现,例如象通用或专用的可编程微处理器、数字信号处理器(DSP)、特定用途集成电路(ASIC)、可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、专用电子电路等等,或它们的组合。
本发明还涉及一种提供声频信号的设备,该设备包括:
—接收声频信号的输入端,
—如以上和随后描述的编码器,用于对声频信号进行编码以获得编码的声频信号,以及
—提供编码的声频信号的输出端。
该设备可以是任何电子设备或这种电子设备的一部分,例如台式或便携式电脑、固定或便携式移动无线通信设备、或其他手持或便携式设备,例如媒体播放器、录音设备等等。所述便携式无线电通信设备包括所有的设备,例如移动电话、寻呼机、发报机(即电子组织器)、智能电话、个人数字助理(PDA)、笔记本电脑等等。
所述输入端可以包括任何合适的电路或设备,用于接收模拟或数字形式的多通道声频信号,例如,通过如线路塞孔的有线连接,通过如无线信号的无线连接,或者以任何其他合适的方式。
类似的,所述输出端可以包括任何合适的电路或设备,用于提供编码的信号。这样的输出端的实例包括:用于把信号提供给计算机网络(例如LAN,因特网或类似网络)的网络接口,用于通过通信信道(例如无线通信信道等等)来传送信号的通信电路。在其他实施例中,所述输出端可以包括一个用于把信号存储在存储介质上的设备。
本发明还涉及一种编码的声频信号,该信号包括:
—一个包括至少两个输入声道的组合的单声道信号,和
—一组指示该至少两个输入声道的空间特征的空间参数,该组空间参数包括一个表示该至少两个输入声道波形相似性度量的参数。
本发明还涉及一种存储媒介,它具有存储于其上的如上所述的编码信号。这里,存储媒介这个术语包括但不限于磁带、光盘、数字视频光盘(DVD)、压密盘(CD或CD-ROM)、迷你盘、硬盘、软盘、铁—电存储器、电可擦除可编程只读存储器(EERPOM)、闪存、EPROM(可擦可编程只读存储器)、只读存储器(ROM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、铁磁存储器、光储存器、充电耦合设备、智能卡、PCMCIA卡等等。
本发明还涉及一种对编码声频信号进行解码的方法,该方法包括:
—从编码声频信号中获得一个单声道信号,该单声道信号包括至少两个声道的组合,
—从编码声频信号中获得一组空间参数,该组空间参数包括一个表示该至少两个声道波形相似性度量的参数,和
—由所述单声道信号和所述空间参数生成多通道输出信号。
本发明还涉及一种用于对编码声频信号进行解码的解码器,该解码器包括:
—从编码声频信号中获得一个单声道信号的装置,该单声道信号包括至少两个声道的组合,
—从编码声频信号中获得一组空间参数的装置,该组空间参数包括一个表示该至少两个声道波形相似性度量的参数,和
—由所述单声道信号和所述空间参数生成多通道输出信号的装置。
要指明的是,以上装置可以通过任何合适的电路或设备来实现,例如象通用或专用可编程微处理器,数字信号处理器(DSP),专用集成电路(ASIC),可编程逻辑阵列(PLA),现场可编程门阵列(EPGA),专用电子电路等等,或它们的组合。
本发明还涉及到一种提供解码的声频信号的设备,该设备包括:
—接收编码声频信号的输入端,
—如以上和随后描述的解码器,用于对编码声频信号进行解码以获得多通道输出信号,
—提供或再生所述多通道输出信号的输出端。
该设备可以是以上描述的任何电子设备或这种电子设备的一部分。
所述输入端可以包括任何合适的电路或设备,用于接收编码声频信号。这样的输入端的实例包括:用于通过计算机网络(例如LAN、因特网或类似网络)来接收信号的网络接口,用于通过通信信道(如无线通信通道等等)来接收信号的通信电路。在其他实施例中,所述输入端可以包括一个用于从存储介质读取信号的设备。
类似地,所述输出端可以包括任何合适的电路或设备,用于提供数字或模拟形式的多通道信号。
从以下参考附图所描述的实施例中,本发明的这些和其他方面将显而易见,并被予以阐述,在图中:
图1示出了依照本发明一个实施例的对声频信号进行编码的方法的流程图;
图2示出了依照本发明一个实施例的编码系统的示意性方框图;
图3图示出了合成声频信号时所使用的滤波方法;和
图4图示了合成声频信号时所使用的解相关器。
图1示出了依照本发明一个实施例的对声频信号进行编码的方法的流程图。
在初始步骤S1中,进入信号L和R被分解为用附图标记101来指示的带通信号(优选的,使用随频率而增大的带宽),这样使得它们的参数可以作为时间的函数来分析。一种可能的时/频限制方法是使用时间窗,然后再进行转换操作,当然也可以使用时间连续的方法(例如,滤波器组)。这个过程的时频分解优选地适应于该信号;对瞬时信号,一个精细的时间分解(以几毫秒的量级)和一个粗糙的频率分解是优选的,而对于非瞬时信号,一个精细的频率分解和一个粗糙的时间分解(以几十毫秒的量级)是优选的。随后,在步骤S2中,确定相应的子带信号的级差(ILD);在步骤S3中,确定相应的子带信号的时差(即ITD或IPD);以及在步骤S4中,描述了不能通过ILD或ITD来说明的波形相似性或非相似性的总量。下面讨论对这些参数的分析。
步骤S2:ILD分析
对于给定的频带,ITD由在某一时间场合的信号的级差来确定。确定ILD的一种方法是测量两个输入声道相应频带的均方根值(即rms)并计算这些rms值的比率(优选的是用dB表达)。
步骤S3:ITD分析
ITD由给出了两个通道波形间最佳匹配的时间或相位队列来确定。一种获得ITD的方法是计算两个相应的子带信号的互相关函数并且搜寻最大值。与在互相关函数中这个最大值对应的延迟就可以用来作为ITD值。另一种方法是计算左右子带的分解信号(即,计算相位和包络值),然后把通道之间的(平均)相位差作为IPD参数。
步骤S4:相关性分析
相关性是这样获得的:首先找到ILD和ITD,这两个参数给出了相应子带信号之间的最佳匹配,然后,在对ITD和/或ILD补偿后,测量波形相似性。因此,在这种构架中,相关性被定义为不能归结于ILD和/或ITD的、相应子带信号的相似性或非相似性。这个参数的合适的量就是互相关函数的最大值(即,一组延迟当中的最大值)。不过,也可以使用其他的量,例如,在ITD和/或ILD补偿之后,与相应子带的总信号相比的差分信号的相对能量(优选地也对ILD和/或ITD补偿)。这个差分参数基本上是所述(最大)相关性的线性变换。
在接下来的步骤S5、S6和S7中,对所确定的参数进行量化。参数传输的一个重要问题是参数表达的精确性(即,量化误差的大小),这直接关系到所必需的传输容量。在这一节中,将讨论几个关于空间参数量化的问题。基本思想是将量化误差建立在空间提示的所谓刚刚能被察觉的差异(JND)之上。更具体而言,量化误差是由人类听觉系统对所述参数中变化的灵敏度来确定。由于对参数中变化的灵敏度高度依赖于参数值本身,我们就应用以下方法来确定离散的量化步长。
步骤S5:ILD的量化
心理声学的研究表明,对ILD中变化的灵敏度依赖ILD本身。如果ILD用dB表达,则可觉察离基准0dB约1dB的偏离,而如果基准级差总量为20dB,则需要3dB量级的变化才能觉察。因此,如果左右通道的信号有着更大的级差,则量化误差就可以大一些。例如,可以如下地来应用这一点:首先测量通道间级差,接着对获得的级差进行非线性(压缩)变换,随后再进行线性量化处理,或者通过使用一个查找表来查找可用的具有非线性分布状态的ILD值,下面的实施例将给出这样的查找表的例子。
步骤S6:ITD的量化
人类主观意识对ITD变化的灵敏度的特征可以在于有一个固定相位阈值。这意味着在时延方面,ITD的量化步长应该随着频率而减小。另一方面,如果ITD用相位差的形式来表示,那么量化步长应该独立于频率。实现这一点的一个方法是使用固定相位差作为量化步长,以及为每一个频带确定相应的时延。该ITD值然后被用作量化步长。另一个方法是遵照频率独立的量化方案来发送相位差。我们还知道在某一频率上,人类听觉系统对微细结构波形中的ITD并不敏感。可以通过只发送达到某一频率(典型的是2kHz)的ITD参数来利用这种现象。
降低比特流的第三种方法是对依赖于同一子带ILD和/或相关性参数的ITD量化步长进行合并。对于大的ILD值,ITD可不精确地编码。此外,如果相关性很低,那么可知人类对ITD变化的灵敏度也降低。因此,如果相关性小的话,则可以应用大一点的ITD量化误差。该思想的一个极端的例子就是,如果相关性低于某个阈值和/或如果同一子带的ILD的值充分大(典型的是20dB左右)的话,那么就根本不发送ITD。
步骤S7:相关性的量化
相关性的量化误差依赖于(1)相关值本身,并可能依赖于(2)ILD。对+1附近的相关值采用高精确度编码(即采用一个小量化步长),而对0附近的相关值采用低精确度编码(即采用一个大量化步长)。实施例中给出了一组非线性分布的相关值的例子。第二个可能性是,对依赖于的同一子带已测量的ILD的相关性使用量化步长:对于大的ILD(即,在能量方面占主导地位的一个通道),相关性的量化误差变大。该原则的一个极端的例子就是,如果某一子带的ILD绝对值超过某一阈值的话,那么根本不发送该子带的相关值。
在步骤S8中,通过确定一个主导信号,从进入的声频信号中生成一个单声道信号S,例如作为进入信号成分的总信号,其中确定一个主导信号是通过从输入信号成分中生成一个主要成分信号或类似方法,。该过程优选地使用提取的空间参数来生成单声道信号,即,在组合之前首先使用ITD或IPD来矫正子带波形。
最后,在步骤S9中,从所述单声道信号和所确定的参数中生成一个编码信号102。替代地,所述总信号和所述空间参数可以作为分离的信号通过相同或不同的信道传送。
要指明的是,以上方法可以通过相应的装置来实现,例如,通用或专用可编程微处理器,数字信号处理器(DSP),专用集成电路(ASIC),可编程逻辑阵列(PLA),现场可编程门阵列(FPGA),专用电子电路等等,或它们的组合。
图2示出了依照本发明一个实施例的编码系统的示意性方框图。该系统包括编码器201和相应的解码器202。编码器201接收具有L(左)和R(右)两个成分的立体声信号,并生成编码信号203,编码信号203包括总信号S和空间参数P,它们被传送至解码器202。信号203可以通过任何合适的通信信道204来传送。替代地,或作为补充,该信号可以存储在可移动存储介质214中,例如可以从所述编码器转送到所述解码器的存储卡。
编码器201包括分析模块205和206,分别用于优选地为每一个时隙/频隙分析进入的L和R信号的空间参数。该编码器还包括:参数提取模块207,它生成量化的空间参数;和组合器模块208,它生成总(或主导)信号,所述总信号包括至少两个输入信号的某种组合。该编码器还包括编码模块209,它生成作为结果的编码信号203,编码信号203包括所述单声道信号和所述空间参数。在一个实施例中,模块209还执行以下一个或多个的功能:比特率分配,组帧,无损编码等等。
合成(在解码器202中)是通过把所述空间参数应用到所述总信号以生成左右两个输出信号而完成的。因此,解码器202包括解码模块210,它执行模块209的逆操作并从编码信号203中提取总信号S和参数P。该解码器还包括合成模块211,它从所述总(或主导)信号和所述空间参数中再现立体声成分L和R。
在该实施例中,将空间参数的表达与用来编码立体声声频信号的单声道(单声道)声频编码器相结合。应指明的是,虽然所描述实施例是针对立体声信号进行工作的,但其总体思想可以应用于n个通道的声频信号,这里n>1。
在分析模块205和206中,左右进入信号L和R分别被分解为不同的时帧(例如,在取样速率为44.1kHz的情况下,每一个包括2048个抽样),并且分别用平方根汉宁窗对其进行加窗。随后,计算FFT值。负FFT频率被丢弃并且作为结果的FFT被细分为FFT仓(bin)组(子带)。结合成子带g的FFT仓的数量依赖于频率:较高频率相比于较低频率结合着更多的FFT仓。在一个实施例中,相当于大约1.8ERB(等价矩形带宽)的FFT仓被分组,结果产生20个子带以表示整个可听频率范围。每个随后的子带(从最低频率开始)的FFT仓的最终数量S[g]为
S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]
因此,最先的三个子带包含4个FFT仓,第4个子带包含5个FFT仓,等等。对于每一个子带,计算相应的ILD、ITD和相关性(r)。ITD和相关性的计算仅仅是通过:把属于其它组的所有FFT仓设为0,把来自左右通道的、作为结果的(限定带宽的)FFT相乘,然后再进行逆FFT变换。扫描所产生的互相关函数以查找在-64到+63样本之间的通道间延迟内的峰值。与该峰值相对应的内部延迟就用作为ITD值,并且互相关函数在该峰值处的值就用作为该子带的通道间相关性。最后,对每一个子带通过获得其左右通道的能量比来简单地计算ILD。
在组合器模块208中,在相位校正(暂时对准)后,左右子带被计算总和。该相位校正是从为该子带所计算的ITD中得出的,并且该相位校正包括左通道子带ITD/2和右通道子带-ITD/2的延迟。通过适当地修改每一个FFT仓的相位角度该延迟在该频域中被执行。接着,再通过加上左右子带信号的相位修改的样式来计算总信号。最后,为了补偿无关联的或相关联的附加,每一个总信号的子带乘以sqrt(2/(1+r)),其中r代表相应子带的相关性。必要的时候,总信号可以通过以下方式转换为时域:(1)在负频率处插入复共轭,(2)FFT逆变换,(3)加窗,以及(4)加重叠。
在参数提取模块207中,所述空间参数被量化。ILD(用dB表示)被量化为与如下组I中最接近的值:
I=[-19-16-13-10-8-6-4-2 0 2 4 6 8 10 13 16 19]
ITD量化步长可以用每0.1弧度子带的固定相位差来确定。因此,对于每一个子带,与0.1弧度子带中心频率对应的时差被用作为量化步长。对于2kHz以上的频率,不发送ITD信息。
通道间相关值r被量化成与下列组R中最接近值:
R=[1 0.95 0.9 0.82 0.75 0.6 0.3 0]
每一个相关值将另外占用3个比特。
如果当前子带的(已量化的)ILD的绝对值总计为19dB,那么就不为该子带发送ITD值和相关值。如果某一子带的(已量化的)相关值总计为0dB,那么就不为该子带发送ITD值。
这样,每一帧需要最多233比特来发送空间参数。以1024帧的帧长,最大的传输比特率总计为10.25k比特/秒。应指明的是,使用熵编码或差分编码,所述比特率可以进一步降低。
所述解码器包括合成模块211,在该模块中把所接收的总信号和所述空间参数合成为立体声信号。因此,为了说明起见,假设该合成模块接收上述总信号的频域表达。这个表达可以通过对所述时域波形加窗并进行FFT操作而获得。首先,所述总信号被复制到左右输出信号。随后,用解相关器修正左右信号之间的相关性。在一优选实施例中,使用如下所述的解相关器。随后,左信号的每个子带被延迟-ITD/2,右信号被延迟ITD/2,这是在给定该(量化的)ITD对应于那个子带时。最后,左右子带根据该子带的ILD被缩放。在一个实施例中,以上修正由如下所述的滤波器来执行。为了把输出信号转换成时间域,执行以下步骤:(1)在负频率处插入复共轭,(2)FFT逆变换,(3)加窗,以及(4)加重叠
图3图示了合成声频信号时所使用的滤波方法。在初始步骤301中,进入的声频信号x(t)被分割为许多帧。该分割步骤301把所述信号分解为合适长度的帧xn(t),例如在500到5000个样值的范围内,例如1024个或2048个样值。
优选的,所述分割是通过使用重叠分析和合成窗函数来执行的,由此避免了可能在帧边界上出现的非自然信号(参见Princen,J.P.和Bradley,A.B.所写的“Analysis/synthesis filterbank design based on time domain aliasing cancellation”(基于时域交接点取消的分析/合成滤波器组设计),IEEE transactions onAcoustics,Speech and Signal processing,vol.ASSP 34,1986(关于声学、语音的信号处理的IEEE学报,ASSP 34,1986卷))。
在步骤302中,每一个帧xn(t)通过运用傅立叶变换被转换成频域,优选地是运用快速傅立叶变换(FFT)。所产生的第n个帧xn(t)的频率表达包括许多频率成分X(k,n),其中,参数n表明帧数,参数k表明频率成分或对应于频率ωk的频率仓,0<k<K。通常,频域成分X(k,n)是复数。
在步骤303,当前帧所期望的滤波器根据接收到的时变空间参数来确定。对于第n帧,所期望滤波器被表示成一个期望的滤波响应,该响应包括一组K个复数加权因子F(k,n),0<k<K。根据F(k,n)=a(k,n)·exp[j(k,n)],该滤波响应F(k,n)可以用两个实数来表达,即它的振幅a(k,n)和它的相位(k,n)。
在频域,被滤波的频率成分为Y(k,n)=F(k,n)·X(k,n),即,被滤波的频率成分由该输入信号的频率成分X(k,n)和所述滤波响应F(k,n)相乘而产生。对于技术人员来说很明显,该频域的乘法相当于输入信号帧xn(t)和相应滤波器fn(t)的卷积。
在步骤304,所期望的滤波响应F(k,n)在应用到当前帧X(k,n)之前被修正。尤其是,实际要应用的滤波响应F’(k,n)被确定为该期望的滤波响应F(k,n)的函数和前一帧信息308的函数。优选地,根据下式,该信息包括一个或多个先前帧的实际和/或期望的滤波响应:
F’(k,n)=a’(k,n)·exp[j’(k,n)]
=φ[F(k,n),F(k,n-1),F(k,n-2),…,F’(k,n-1),F’(k,n-2),…]。
因此,通过使用依赖于先前滤波响应历史的实际滤波响应,可以有效地避免由连续帧之间滤波响应的变化而引起的非自然信号。优选地,对变换函数φ的实际形式进行选择以减少由动态变化的滤波响应而导致的叠加的非自然信号。
例如,变换函数φ可以是单个先前响应函数的函数,例如F’(k,n)=φ1[F(k,n),F(k,n-1)],或者是F’(k,n)=φ2[F(k,n),F’(k,n-1)]。在另一个实施例中,变换函数可以包括许多先前响应函数的浮动平均,例如,那些先前响应函数的滤波样式等。变换函数φ的优选实施例将在下面更详细地描述。
步骤305中,根据Y(k,n)=F’(k,n)·X(k,n),通过把输入信号当前帧的频率成分X(k,n)和相应滤波响应因子F’(k,n)相乘,而将实际滤波响应F’(k,n)应用于当前帧。
在步骤306中,所产生的已处理的频率成分Y(k,n)被变换回来成为导致滤波帧yn(t)的时域。优选的,该逆变换通过逆快速傅立叶变换(IFFT)来实现。
最后,在步骤307中,通过叠加的方法,滤波帧被重组为已滤波的信号y(t)。这样叠加方法的一个有效实现在下述文章中有描述:Bergmans,J.W.M.:“Digitalbaseband transmission and recording”(数字基带传输和记录),Kluwer,1996。
在一个实施例中,步骤304的变换函数φ被实施为当前帧和前一帧的相位变化限制器。根据该实施例,计算了与应用到相应频率成分的前一个抽样的实际相位修正’(k,n-1)相比的每个频率成分F(k,n)的相位变化δ(k),即δ(k)=(k,n)-’(k,n-1)。
随后,对所期望的滤波F(k,n)的相位成分按如下方式进行修改:如果该变换会导致叠加的非自然信号,则减少跨越这些帧的相位变化。根据该实施例,这一点是通过根据下式确保实际相位差不超过预定阈值c来实现的,例如,通过简单的相位差切断,所述式子为:
阈值c可以是预定的常数,例如在π/8和π/3弧度之间。在一个实施例中,阈值c可以不是常数,而是例如时间、频率函数和/或诸如此类。此外,作为上述相位变化的硬性限制的替代,也可以使用其他相位变化限制函数。
通常,在上述实施例中,单个频率成分所需的跨越持续时间帧的相位变化可以通过输入输出函数P(δ(k))来变换,并且,实际滤波响应F’(k,n)通过下式给出:
F’(k,n)=F’(k,n-1)·exp[jP(δ(k))] (2)
因此,根据该实施例,引入了跨越持续时间帧的相位变化的变换函数P。
在另一个滤波响应变换的实施例中,用适合的音调量来驱动相位限制过程,例如下面描述的预测方法。根据本发明的相位变化限制过程有利于排除发生在类噪声信号中的连续帧间的相位跳变。这是一个有利之处,因为限制这样的类噪声信号中的相位跳变可以使得类噪声信号听起来更加有声调感,而以前,类噪声信号听起来常常象人工合成的或者有刺耳的感觉。
根据该实施例,计算出一个预测的相位误差θ(k)=(k,n)-(k,n-1)-ωk·h。这里,ωk表示对应于第k个频率成分的频率,h表示抽样的跳距。跳距这个术语指的是两相邻窗中心之间的差值,即对称窗的半个分析长度。下面,假设上述的误差被限定在区间[-π,+π]内。
接着,根据Pk=(π-|θ(k)|)/π∈[0,1],计算出第k个频率仓中相位可预测总量的预测量Pk,其中|·|表示绝对值。
因此,上述量Pk产生了一个对应于第k个频率仓的相位可预测总量的、在0到1之间的值。如果Pk接近1,那么下面的信号就被认为具有高音调度,即该信号实质上具有正弦波形。对于这样的信号,例如声频信号的收听者就会容易地觉察到相位跳变。因此,在这种情况下应优先消除相位跳变。另一方面,如果Pk的值接近0,那么下面的信号可以被认为是噪声。对于噪声信号,并不容易觉察到相位跳变,因此允许有相位跳变。
因此,如果Pk超过了预定阈值,即Pk>A,就施以相位限制函数,根据下式R产生实际滤波响应F’(k,n):
这里,A由P的上下界+1和0来限定。A的确切值依赖于实际的实施情况。例如,A可以在0.6和0.9之间选择。
应理解,替代地,可以使用任何合适的用于估算音调的量。在另一个实施例中,上述允许的相位跳变c可以依靠合适的音调量来获得,例如上述量Pk,因此如果Pk比较大就允许比较大的相位跳变,反之亦然。
图4图示了合成声频信号时所使用的解相关器。该解相关器包括全通滤波器401,用来接收单声道信号x和一组空间参数P,空间参数P包括通道间互相关性r和指示信道差的参数c。要指明的是,参数c与通道间级差按ILD=k·log(c)相关联,这里k是常数,即ILD与c的对数成比例。
优选的,全通滤波器包括依赖于频率的延迟,用以在相对于低频来说的高频部分提供相对较小的延迟。这可以通过把固定延迟的全通滤波器替换为含有一段Schroeder相位复数的全通滤波器来实现(参见:例如M.R.Schroeder,“Synthesis of low-peak-factor signals and binary sequences with low autocorrelation”(低峰因子信号与低自相关性二进制序列的合成),IEEE Transact.Inf.Theor.,16:85-89,1970)。该解相关器还包括分析电路402,它接收来自所述解码器的空间参数并提取通道间的互相关性r和通道差c。电路402确定一个混合矩阵M(α,β),这将在下面描述。该混合矩阵的成分被反馈至转换电路403,转换电路403进一步接收输入信号x和已滤波的信号Hx。电路403依照下式执行混合操作:
LR=M(α,β)·xH⊗x---(3)]]>
结果产生输出信号L和R。
根据r=cos(α),信号L和R间的相关性可以表达为信号x和Hx所跨越的空间中分别代表L和R信号的矢量间的角度α。因此,任何表示正确角距离的矢量对都具有指定的相关性。
因此,把信号x和Hx变换成带有预定相关性r的信号L和R的混合矩阵M可以表达为:
M=cos(α/2)sin(α/2)cos(-α/2)sin(-α/2)---(4)]]>
因此,全通滤波信号的总量依赖于所期望的相关性。此外,全通信号成分的能量在两个输出通道中是一样的(但伴有180°的相移)。
要指明的是这种情况,即矩阵M由下式给出:
M=2·111-1,---(5)]]>
即,对应于无关输出信号(r=0)的α=90°的情况,与Lauridsen解相关器相对应。
为了用等式(5)的矩阵来说明问题,我们假设一种极端振幅偏向左通道的状况,即只在左通道中呈现某一信号的情况。我们进一步假设输出端之间所期望的相关性为0。在这种情况下,具有等式(5)混合矩阵的等式(3)所变换的左通道的输出产生为L=1/2(x+H⊗x).]]>因此,该输出由结合其全通滤波样式Hx的原始信号x组成。
然而,这是一种并不期望的情况,因为全通滤波通常使信号的感知质量恶化。此外,原始信号和已滤波信号的叠加导致了梳状滤波器效应,例如输出信号的被感知的配置(coloration)。在这种假设的极端的情况下,最好的解决办法就是左输出信号包含输入信号。这样,两个输出信号的相关性仍然为0。
在级差更适度的条件下,更好的情况是,音量较大的输出通道包含相对多的原始信号,轻柔的输出通道包含相对多的滤波信号。因此,通常情况下,最好把一同呈现在两个输出端的原始信号的总量最大化,而把滤波信号的总量最小化。
根据该实施例,这一点通过引入另一个包括附加公共旋转度的混合矩阵来实现:
M=C·cos(β+α/2)sin(β+α/2)cos(β-α/2)sin(β-α/2),---(6)]]>
这里,β是附加的旋转度,C是一个缩放矩阵,它可以确保输出信号间的相对级差等于c,即:
C=c1+c0011+c.]]>
将等式(6)的矩阵插入等式(3)则产生通过根据本实施例的矩阵操作而生成的输出信号:
LR=c1+c0011+c·cos(β+α/2)sin(β+α/2)cos(β-α/2)sin(β-α/2)·xH⊗x]]>
因此,输出信号L和R仍然具有角度差α,即:根据所期望的级差以及L和R两个信号β角度的附加旋转度,L和R信号间的相关性并不受信号L和R的缩放的影响。
如上所述,优选地,应最大化L和R总输出中的原始信号x的总量。这个规则可以用来确定角度β,根据:
∂(L+R)∂x=0,]]>
产生如下规则:
tan(β)=1-c1+c·tan(α/2).]]>
总的来说,本申请描述了一种心理声学中激发的、多通道声频信号的空间属性的参数表达方法。因为只需发送一种组合有描述该信号空间特征的(已量化的)参数的单声道信号,所以该参数表达方法允许大大地降低声频编码器的比特率。解码器可以使用所述空间参数来形成原始数量的声道。对于接近CD音质的立体声,10k比特/秒或者更小的与这些空间参数关联的比特率看来就足以在接收端再生正确的空间效果。通过减少所述空间参数的频谱分辨率和/或时间分辨率,和/或通过使用无损压缩算法来进行处理,该比特率可以进一步减低。
应指明的是,上述实施例用来对本发明进行了说明而不是进行了限制,本领域技术人员在不背离所附加的权利要求的范围的情况下,能够设计出许多替代实施例。
例如,本发明结合着实施例主要描述了使用两个定位提示ILD和ITD/IPD。在替代实施例中,则可以使用其他的定位提示。此外,在一个实施例中,ILD、ITD/IPD和通道间互相关性可以如上所述地确定,除非和单声道信号一起只发送通道间互相关性,因此可以进一步的降低发送/存储该声频信号所需的带宽/存储容量。替代地,可以发送通道间互相关性外加ILD和ITD/IPD中的一个。在这些实施例中,仅仅基于所发送的参数就从该单声道信号中合成了信号。
在权利要求中,括号中的任何参考标记都不应看作是对权利要求的限制。词“包括”并不排除没有列在权利要求中的元素或步骤的存在。置于一个元素之前的词“一个”并不排除多个这样元素的存在。
本发明可以借助于包括几个独立元件的硬件来实现,还可借助于适当编程的计算机。在设备权利要求中列举了一些装置,这些装置中的几个可以具体化为一个装置或者同一项硬件。起码的事实是,在互不相同的从属权利要求中叙述的某些措施并不表示不能用这些措施的结合来获益。