环境高阶立体混响音频数据的归一化本申请案主张2014年10月7日申请的名称为“环境高阶立体混响音频数据的归一
化(NOMALIZATION OF AMBIENT HIGHER ORDER AMBISONIC AUDIO DATA)”的第62/061,068
号美国临时申请案的权益,所述申请案的全部内容以引用的方式并入本文中。
技术领域
本发明涉及音频数据,并且更确切地说,涉及音频数据的压缩。
背景技术
高阶立体混响(HOA)信号(常由多个球面谐波系数(SHC)或其它分层元素表示)是
声场的三维(3D)表示。HOA或SHC表示可以独立于用以重放从此SHC信号渲染的多声道音频
信号的本地扬声器几何结构的方式来表示此声场。SHC信号还可促进向后兼容性,因为可将
SHC信号渲染为众所周知的且被广泛采用的多声道格式,例如,5.1音频声道格式或7.1音频
声道格式。SHC表示因此可实现对声场的更好表示,其也适应向后兼容性。
发明内容
一般来说,描述用于相对于环境高阶立体混响音频数据执行归一化的技术。
在一个方面,方法包括相对于音频声道执行归一化,所述音频声道提供环境高阶
立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分。
在一个方面,装置包括经配置以存储音频声道的存储器,所述音频声道提供表示
声场的环境分量的至少一部分的环境高阶立体混响系数,以及一或多个处理器,所述处理
器经配置以相对于音频声道执行归一化。
在一个方面,装置包括用于存储音频声道的装置,所述音频声道提供表示声场的
环境分量的至少一部分的环境高阶立体混响系数,以及用于相对于音频声道执行归一化的
装置。
在一个方面,非暂时性计算机可读储存媒体上面存储有指令,所述指令在经执行
时,使一或多个处理器相对于音频声道执行归一化,所述音频声道提供环境高阶立体混响
系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分。
在一个方面,方法包括相对于音频声道执行反归一化,所述音频声道提供经归一
化的环境高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少
一部分。
在一个方面,装置包括经配置以存储音频声道的存储器,所述音频声道提供表示
声场的环境分量的至少一部分的经归一化的环境高阶立体混响系数,以及一或多个处理
器,所述处理器经配置以相对于音频声道执行反归一化。
在一个方面,装置包括用于存储音频声道的装置,所述音频声道提供表示声场的
环境分量的至少一部分的经归一化的环境高阶立体混响系数,以及用于相对于音频声道执
行反归一化的装置。
在一个方面,非暂时性计算机可读储存媒体上面存储有指令,所述指令在经执行
时,使一或多个处理器相对于音频声道执行反归一化,所述音频声道提供经归一化的环境
高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分。
在一个方面,方法包括相对于音频声道执行归一化,所述音频声道提供环境高阶
立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分且与具
有大于零的阶数的球面基函数相关联。
在一个方面,装置包括经配置以存储音频声道的存储器,所述音频声道提供表示
声场的环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联的环境高阶立
体混响系数,以及一或多个处理器,所述处理器经配置以相对于音频声道执行归一化。
在一个方面,装置包括用于存储音频声道的装置,所述音频声道提供表示声场的
环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联的环境高阶立体混响
系数,以及用于相对于音频声道执行归一化的装置。
在一个方面,非暂时性计算机可读储存媒体上面存储有指令,所述指令在经执行
时,使一或多个处理器相对于音频声道执行归一化,所述音频声道提供环境高阶立体混响
系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分且与具有大于零
的阶数的球面基函数相关联。
在一个方面,方法包括相对于音频声道执行反归一化,所述音频声道提供经归一
化的环境高阶立体混响系数,所述经归一化的环境高阶立体混响音频系数表示声场的环境
分量的至少一部分且与具有大于零的阶数的球面基函数相关联。
在一个方面,装置包括经配置以存储音频声道的存储器,所述音频声道提供表示
声场的环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联的经归一化的
环境高阶立体混响系数,以及一或多个处理器,所述处理器经配置以相对于音频声道执行
反归一化。
在一个方面,装置包括用于存储音频声道的装置,所述音频声道提供表示声场的
环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联的经归一化的环境高
阶立体混响系数,以及用于相对于音频声道执行反归一化的装置。
在一个方面,非暂时性计算机可读储存媒体上面存储有指令,所述指令在经执行
时,使一或多个处理器相对于音频声道执行反归一化,所述音频声道提供经归一化的环境
高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分且
与具有大于零的阶数的球面基函数相关联。
在附图和以下描述中陈述所述技术的一或多个方面的细节。这些技术的其它特
征、目标及优点将从所述描述及图式以及所附权利要求书中显而易见。
附图说明
图1是说明具有各种阶数及子阶数的球面谐波基函数的图。
图2是说明可执行本发明中描述的技术的各个方面的系统的图。
图3是说明图2的实例中所示的系统的不同实例的框图。
图4A和4B是各自更详细地说明可执行本发明中描述的技术的各个方面的图2和3
的实例中所示的空间音频编码装置的实例的框图。
图5A和5B是更详细地说明图2和3的空间音频解码装置410的框图。
图6A和6B是各自更详细地说明图2和3的实例中所示的音频解码装置24的不同实
例的框图。
图7是说明音频编码装置在执行本发明中描述的基于向量的合成技术的各个方面
中的例示性操作的流程图。
图8是说明音频解码装置在执行本发明中描述的技术的各个方面中的例示性操作
的流程图。
图9是说明可执行本发明中描述的技术的各个方面的另一系统的图式。
图10是说明示出了测试项目的四阶表示的峰值归一化的图的图式。
图11是说明示出了从表示主导声音切换到提供额外的HOA声道的声道的图的图
式。
图12是大体上示出了当信息由空间音频编码装置进行处理时的信息流动和由规
范化编码器应用的增益控制的相对位置的图式。
图13是说明示出了将归一化因数应用到先前在图中示出为额外的HOA声道帧的额
外HOA声道帧的结果的图的图式。
具体实施方式
环绕声的演进已使得许多输出格式可用于娱乐。此类消费者环绕声格式的实例大
部分为基于“声道”的,这是因为其以某些几何坐标隐含地指定到扩音器的馈送。消费者环
绕声格式包含普遍的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、
左后或左环绕、右后或右环绕,以及低频效果(LFE))、发展中的7.1格式、包含高度扬声器的
各种格式,例如7.1.4格式和22.2格式(例如,用于与超高清电视标准一起使用)。非消费者
格式可跨越任何数目的扬声器(成对称和非对称几何结构),其常常称为“环绕阵列”。此类
阵列的一个实例包含定位在截角二十面体的拐角上的坐标处的32个扩音器。
到未来MPEG编码器的输入任选地为三个可能格式中的一个:(i)传统的基于声道
的音频(如上文所论述),其意图通过处于预先指定的位置处的扩音器播放;(ii)基于对象
的音频,其涉及用于单个音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据
的离散脉码调制(PCM)数据;以及(iii)基于场景的音频,其涉及使用球面谐波基函数的系
数(也称为“球面谐波系数”或SHC、“高阶立体混响”或HOA及“HOA系数”)来表示声场。未来
MPEG编码器更详细地描述于国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/
WG11/N13411的名称为“要求对于3D音频的提议(Call for Proposals for 3D Audio)”的
文献中,所述文献于2013年1月在瑞士日内瓦发布,且可在http://
mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/
w13411.zip获得。
在市场中存在各种“环绕声”基于声道的格式。它们的范围(例如)是从5.1家庭影
院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播
公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望一次产生电影的声迹,
而不用花费精力来针对每个扬声器配置对其进行再混合。近来,标准开发组织(Standards
Developing Organizations)一直在考虑以下方式:提供到标准化位流中的编码,以及后续
解码,其可调适且不知晓重放位置(涉及渲染器)处的扬声器几何结构(和数目)以及声学条
件。
为了向内容创建者提供此类灵活性,可使用分层元素集合来表示声场。所述分层
元素集合可指其中元素经排序以使得较低阶元素的基础集合提供模型化声场的完整表示
的一组元素。在所述集合经扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨
率。
分层元素集合的一个实例为球面谐波系数(SHC)的集合。以下表达式显示使用SHC
对声场的描述或表示:
表达式示出了在时间t,在声场的任一点处的压力pi可由SHC唯一
地表示。此处,c是声速(~343m/s),是参考点(或观察点),jn(·)是阶数n
的球贝塞尔函数,以及是阶数n和子阶数m的球面谐波基底。可认识到,方括号里
的项是信号的频域表示(即,),其可由各种时频变换近似表示,例如离散傅里
叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它实例包含小波变换系数的
集合和多分辨率基函数的系数的其它集合。
图1是说明从零阶(n=0)到四阶(n=4)的球面谐波基函数的图。如可见,对于每一
阶,存在子阶数m的扩展,出于易于说明的目的,在图1的实例中展示所述子阶数但未明确注
释。
SHC可以通过各种麦克风阵列配置以物理方式来获取(例如,记录),或替代
地,它们可以从声场的基于声道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC
可输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更有效的传输或存储。例如,
可使用涉及(1+4)2个(25,并因此为四阶)系数的四阶表示。
如上文所提到,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导
出SHC的各种实例描述于波莱蒂·M(Poletti,M)的“基于球面谐波的三维环绕声系统
(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉
工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004到1025页)中。
为了说明可如何从基于对象的描述导出SHC,考虑以下等式。对应于单个音频对象
的声场的系数可表达为:
其中i是是阶数n的球面汉克尔函数(第二种),以及是对象
的位置。知道随频率而变的对象源能量g(ω)(例如,使用时频分析技术,例如对PCM流执行
快速傅里叶变换)允许我们将每一PCM对象及其对应的位置转换为SHC另外,可展示
(由于上述为线性和正交分解):每一对象的系数具有相加性。以此方式,许多PCM对
象可由系数(例如,作为个别对象的系数向量的总和)来表示。基本上,所述系数含有
关于声场的信息(随3D坐标而变的压力),且上文表示从个别对象到观察点附近
的总声场的表示的变换。下文在基于对象和基于SHC的音频译码的情形中描述其余各图。
图2是说明可执行本发明中描述的技术的各个方面的系统10A的图。如图2的实例
所示,系统10A包含广播网络12A和内容消费者装置14。虽然在所述广播网络12A和所述内容
消费者装置14的情形中描述,但是所述技术可在声场的SHC(其也可被称作HOA系数)或任何
其它分层表示被编码以形成表示音频数据的位流的任何情形中实施。
此外,广播网络12A可表示包括能够实施本发明中描述的技术的任何形式的计算
装置中的一或多个的系统,所述计算装置包含手持机(或蜂窝式电话)、平板计算机、智能电
话、膝上型计算机、桌上型计算机或专用硬件,以提供几个实例或。同样地,内容消费者装置
14可表示能够实施本发明中描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电
话)、平板计算机、智能电话、电视机、机顶盒、膝上型计算机或桌上型计算机,以提供几个实
例。
广播网络12A可表示可产生多声道音频内容和可能地供内容消费者装置,例如由
内容消费者装置14消费的视频内容的任何系统。广播网络12A可捕获事件(例如,体育活动)
的实时音频数据,同时还将各种其它类型的额外音频数据,例如评论音频数据、商业音频数
据、介绍或退出音频数据等等插入到所述实时音频内容中。
广播网络12A包含麦克风5,其记录或另外获得呈各种格式(包含直接作为HOA系
数)的实时记录和音频对象。当麦克风5获得直接作为HOA系数的实时音频时,麦克风5可包
含HOA码变换器,例如图2的实例中所示的HOA码变换器400。换句话说,尽管示出为与麦克风
5分离,但是HOA码变换器400的单独例项可包含在麦克风5中的每一个内,以便将所捕获的
馈送自然地转码成HOA系数11。然而,当不包含在麦克风5内时,HOA码变换器400可将从麦克
风5输出的实时馈送转码成HOA系数11。在这方面中,HOA码变换器400可表示经配置以将麦
克风馈送和/或音频对象转码成HOA系数11的单元。因此,广播网络12A包含HOA码变换器
400,如与麦克风5集成,作为与麦克风5或其某一组合分离的HOA码变换器。
广播网络12A还可包含空间音频编码装置20、广播网络中心402和心理声学音频编
码装置406。空间音频编码装置20可表示能够相对于HOA系数11执行本发明中描述的夹层压
缩技术以获得经中间格式化的音频数据15(其还可被称作“经夹层格式化的音频数据15”)
的装置。尽管下文更详细地描述,但空间音频编码装置20可经配置以通过至少部分地相对
于HOA系数11执行分解(例如下文更详细地描述的线性分解),相对于HOA系数11执行此中间
压缩(其还可被称作“夹层压缩”)。
空间音频编码装置20可经配置以使用涉及线性可逆变换(LIT)的应用的分解来编
码HOA系数11。线性可逆变换的一个实例被称作“奇异值分解”(或“SVD”),其可表示线性分
解的一种形式。在本实例中,空间音频编码装置20可将SVD应用到HOA系数11,以确定HOA系
数11的经分解版本。空间音频编码装置20接着可分析HOA系数11的经分解版本以识别各种
参数,其可促进HOA系数11的经分解版本的重新排序。
空间音频编码装置20可接着基于所识别的参数,将HOA系数11的经分解版本重新
排序,其中如下文进一步详细描述,假定变换可横跨HOA系数的帧将HOA系数重新排序(其中
帧通常包含HOA系数11的M个样本,且在一些实例中,将M设定为1024),那么此重新排序可改
进译码效率。在重新排序HOA系数11的经分解版本之后,空间音频编码装置20可选择HOA系
数11的经分解版本中表示声场的前景(或换句话说,相异、主导或突出)分量的那些经分解
版本。空间音频编码装置20可将HOA系数11的表示前景分量的经分解版本指定为音频对象
和相关联的方向信息。
空间音频编码装置20还可至少部分地按次序相对于HOA系数11执行声场分析,以
识别表示声场的一或多个背景(或换句话说,环境)分量的HOA系数11。假定在一些实例中,
背景分量可仅包含HOA系数11的任何给定样本的子集(例如,对应于零阶和一阶球面基函数
的那些样本而非对应于二阶或更高阶球面基函数的那些样本),那么空间音频编码装置20
可相对于背景分量执行能量补偿。当执行阶数减少时,换句话说,空间音频编码装置20可扩
增(例如,添加能量到/从其减去能量)HOA系数11中的剩余背景HOA系数以补偿因执行所述
降阶而产生的总体能量改变。
空间音频编码装置20可相对于前景方向信息执行一种形式的内插,且接着相对于
经内插前景方向信息执行降阶以产生经降阶的前景方向信息。在一些实例中,空间音频编
码装置20可进一步相对于经降阶的前景方向信息执行量化,从而输出经译码前景方向信
息。在一些情况下,此量化可包括标量/熵量化。空间音频编码装置20接着可输出经夹层格
式化的音频数据15作为背景分量、前景音频对象和经量化方向信息。背景分量和前景音频
对象在一些实例中可包括脉码调制(PCM)输送信道。
空间音频编码装置20接着可向广播网络中心402传输或另外输出经夹层格式化的
音频数据15。尽管在图2的实例中未示出,但是可执行经夹层格式化的音频数据15的进一步
处理,以容纳从空间音频编码装置20到广播网络中心402的传输(例如加密、卫星压缩方案、
纤维压缩方案等)。
经夹层格式化的音频数据15可表示符合所谓的夹层格式的音频数据,其通常是音
频数据的轻度压缩(相对于通过对音频数据应用心理声学音频编码而提供的最终用户压
缩,例如MPEG环绕、MPEG-AAC、MPEG-USAC或其它已知形式的心理声学编码)版本。假定广播
公司偏好于提供低时延混合、编辑和其它音频和/或视频功能的专用设备,广播公司由于此
类专用设备的成本而不想升级所述设备。
为了适应视频和/或音频的增加位速率且提供与可能不适用于高清视频内容或3D
音频内容的较旧或换句话说传统设备的互操作性,广播公司已经采用一般称为“夹层压缩”
的此中间压缩方案来减少文件大小且进而促进传送时间(例如经由网络或在装置之间)和
改进的处理(特别是对于较旧传统设备来说)。换句话说,此夹层压缩可提供可用于促进编
辑时间、减少时延且潜在地改进总体广播过程的内容的较轻型版本。
因此,广播网络中心402可表示负责使用中间压缩方案编辑和另外处理音频和/或
视频内容以在时延方面改善工作流的系统。在一些实例中,广播网络中心402可包含移动装
置的集合。在一些实例中,在处理音频数据的情形下,广播网络中心402可将经中间格式化
的额外音频数据插入到由经夹层格式化的音频数据15表示的实时音频内容中。此额外音频
数据可包括表示商业音频内容(包含电视广告的音频内容)的商业音频数据、表示电视工作
室音频内容的电视工作室节目音频数据、表示介绍性音频内容的介绍音频数据、表示退出
音频内容的退出音频数据、表示紧急音频内容(例如,天气警告、国家紧急状态、本地紧急状
态等)的紧急音频数据或可插入到经夹层格式化的音频数据15中的任何其它类型的音频数
据。
为了允许经夹层格式化的音频数据15的混合、其它编辑操作和监测,广播网络中
心402可包含空间音频解码装置410以相对于经夹层格式化的音频数据15执行空间音频解
压,从而恢复HOA系数11。广播网络中心402接着可相对于HOA系数11执行混合和其它编辑。
关于所述混合和其它编辑操作的额外信息可见于2015年8月27日申请的名称为“高阶立体
混响音频数据的中间压缩(INTERMEDIATE COMPRESSION OF HIGHER ORDER AMBISONIC
AUDIO DATA)”的第14/838,066号美国专利申请案中。尽管在图2的实例中未示出,但广播网
络中心402还可包含类似于空间音频编码装置20的空间音频编码装置(其经配置以相对于
经混合或编辑的HOA系数执行夹层压缩),并输出更新后的经夹层格式化的音频数据17。
在一些实例中,广播网络中心402包含能够处理至多达16个音频声道的传统音频
设备。在依赖于例如HOA系数11等HOA系数的3D音频数据的情形下,HOA系数11可具有超过16
个音频声道(例如,3D声场的4阶表示将每样本需要(4+1)2或25个HOA系数,其等效于25个音
频声道)。传统广播设备中的此局限性可减缓对3D基于HOA的音频格式的采用,例如2014年7
月25日的ISO/IEC JTC 1/SC 29/WG 11的名称为“信息技术-异质环境中的高效率译码和媒
体递送-部分3:3D音频(Information technology-High efficiency coding and media
delivery in heterogeneous environments-Part3:3D audio)”的ISO/IEC DIS 23008-3
文献(可在http://mpeg.chiariglione.org/standards/mpeg-h/3d-audio/dis-mpeg-h-
3d-audio获得,下文称为“3D音频标准的阶段I(phase I of the 3D audio standard)”中
所阐述,或在2015年7月25日的ISO/IEC JTC 1/SC 29/WG 11的名称为“信息技术-异质环境
中的高效率译码和媒体递送-部分3:3D音频,修正3:MPEG-H 3D音频阶段2(Information
technology-High efficiency coding and media delivery in heterogeneous
environments-Part 3:3D audio,AMENDMENT 3:MPEG-H 3D Audio Phase2)”的ISO/IEC
DIS 23008-3:2015/PDAM 3文献(可在http://mpeg.chiariglione.org/standards/mpeg-
h/3d-audio/text-isoiec-23008-3201xpdam-3-mpeg-h-3d-audio-phase-2获得,下文称为
“3D音频标准的阶段II(phase II of the 3D audio standard)”中所阐述。
同样,本发明中描述的技术的各个方面可促进一种形式的夹层压缩,其允许以可
解决传统音频设备基于声道的局限性的方式从HOA系数11获得经夹层格式化的音频数据
15。也就是说,空间音频编码装置20可经配置以执行本发明中描述的技术的各个方面,以获
得具有16个或16个以下的音频声道(给定传统音频设备可在一些实例中,允许处理5.1音频
内容,可能少至6个音频声道,其中‘.1’表示第六音频声道)的夹层音频数据15。
在任何情况下,广播网络中心402可输出更新后的经夹层格式化的音频数据17。所
述更新后的经夹层格式化的音频数据17可包含经夹层格式化的音频数据15和由广播网络
中心404插入到经夹层格式化的音频数据15中的任何额外音频数据。在分布之前,广播网络
12A可进一步压缩更新后的经夹层格式化的音频数据17。如图2的实例中所示,心理声学音
频编码装置406可相对于更新后的经夹层格式化的音频数据17执行心理声学音频编码(例
如,上文所述的实例中的任一个)以产生位流21。广播网络12A接着可经由传输信道将位流
21传输到内容消费者装置14。
在一些实例中,心理声学音频编码装置406可表示心理声学音频编码器的多个例
项,其中的每一个用于对不同音频对象或更新后的经夹层格式化的音频数据17中的每一个
的HOA声道进行编码。在一些情况下,此心理声学音频编码装置406可表示高级音频编码
(AAC)编码单元的一或多个例项。通常,心理声学音频编码装置406可针对更新后的经夹层
格式化的音频数据17的声道中的每一个,调用AAC编码单元的例项。作为AAC的替代方案或
补充,心理声学音频编码装置406可表示统一语音和音频译码器(USAC)的一或多个例项。
关于可如何使用AAC编码单元对背景球谐系数进行编码的更多信息可见于埃里
克·赫卢德(Eric Hellerud)等人的标题为“以AAC编码较高阶立体混响(Encoding Higher
Order Ambisonics with AAC)”的大会论文中,其在第124次大会(2008年5月17日至20日)
上提交且可在http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&context=
engpapers获得。在一些情况下,心理声学音频编码装置406可使用比用于编码更新后的经
夹层格式化的音频数据17的其它声道(例如前景声道)的位速率低的目标位速率来对更新
后的经夹层格式化的音频数据17的各个声道(例如,背景声道)进行音频编码。
尽管图2中示出为直接传输到内容消费者装置14,但是广播网络12A可将位流21输
出到定位在广播网络12A和内容消费者装置14之间的中间装置。所述中间装置可存储位流
21以供稍后递送到可请求此位流的内容消费者装置14。所述中间装置可包括文件服务器、
网络服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储
位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留在能够将位流21流式传
输(且可能结合传输对应视频数据位流)到请求位流21的订户(例如,内容消费者装置14)的
内容递送网络中。
替代地,广播网络12A可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、
高清视频光盘或其它存储媒体,其中大多数能够由计算机读取并且因此可被称为计算机可
读存储媒体或非暂时性计算机可读存储媒体。在此情形下,传输信道可指代借以传输存储
到这些媒体的内容的那些信道(且可包含零售商店和其它基于商店的递送机制)。因此,在
任何情况下,本发明的技术不应就此而言受到图2的实例限制。
如图2的实例中进一步所示,内容消费者装置14包含音频重放系统16。音频重放系
统16可表示能够重放多声道音频数据的任何音频重放系统。音频重放系统16可包含多个不
同的音频渲染器22。所述音频渲染器22可各自提供不同形式的渲染,其中所述不同形式的
渲染可包含执行基于向量的幅度平移(VBAP)的各种方式中的一或多个和/或执行声场合成
的各种方式中的一或多个。
音频重放系统16可进一步包含音频解码装置24。所述音频解码装置24可表示经配
置以对来自位流21的HOA系数11'进行解码的装置,其中所述HOA系数11'可类似于HOA系数
11,但由于有损操作(例如,量化)和/或经由传输信道的传输而不同。也就是说,音频解码装
置24可对位流21中指定的前景方向信息进行解量化,同时还相对于位流21中指定的前景音
频对象和表示背景分量的经编码HOA系数执行心理声学解码。音频解码装置24可进一步相
对于经解码的前景方向信息执行内插,且接着基于经解码的前景音频对象和经内插的前景
方向信息确定表示前景分量的HOA系数。音频解码装置24可接着基于表示前景分量的所确
定的HOA系数和表示背景分量的经解码的HOA系数来确定HOA系数11'。
在对位流21进行解码以获得HOA系数11'之后,音频重放系统16可渲染HOA系数11'
以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器3。
为了选择适当的渲染器或在一些情况下,为了产生适当的渲染器,音频重放系统
16可获得指示扩音器3的数目和/或扩音器3的空间几何结构的扩音器信息13。在一些情况
下,音频重放系统16可使用参考麦克风并以动态地确定扩音器信息13的方式驱动扩音器3
来获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频重放系统16可
促使用户与音频重放系统16介接并输入扩音器信息13。
音频重放系统16可基于扩音器信息13而选择音频渲染器22中的一个。在一些情况
下,当音频渲染器22都不在对在扩音器信息13中指定的渲染器的某一阈值类似性量度(在
扩音器几何结构方面)内时,音频重放系统16可基于扩音器信息13而产生音频渲染器22中
的一个。在一些情况下,音频重放系统16可基于扩音器信息13而产生音频渲染器22中的一
个,而不需首先试图选择音频渲染器22中的现有的一个。
图3是说明可经配置以执行本发明中描述的技术的各个方面的系统10B的另一实
例的框图。图3中所示的系统10B类似于图2的系统10A,除了系统10B的广播网络12B包含额
外的HOA混合器450。HOA码变换器400可向HOA混合器450输出实时馈送HOA系数作为HOA系数
11A。HOA混合器表示经配置以混合HOA音频数据的装置或单元。HOA混合器450可接收其它
HOA音频数据11B(其可表示任何其它类型的音频数据,包含用点麦克风或非3D麦克风捕获
的且转换到球面谐波域的音频数据、HOA域中指定的特殊效果等),并将此HOA音频数据11B
与HOA音频数据11A混合以获得HOA系数11。
图4A和4B是各自更详细地说明可执行本发明中描述的技术的各个方面的图2和3
的实例中所示的空间音频编码装置20的实例的框图。首先参看图4A,空间音频编码装置20
的实例表示为空间音频编码装置20A。空间音频编码装置20A包含基于向量的分解单元27。
尽管下文简单地描述,但关于基于向量的分解单元27和压缩HOA系数的各个方面
的更多信息可在2014年5月29日申请的名称为“用于声场的经分解表示的内插
(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/
194099号国际专利申请公开案中找到。此外,HOA系数的压缩的各个方面的更多细节根据上
文参考的3D音频标准的阶段I和II。如根据3D音频标准的阶段I执行的基于向量的分解的概
述可进一步见于2015年8月的Jürgen Herre等人的名称为“MPEG-H 3D音频-用于沉浸式空
间音频的译码的新标准(MPEG-H 3D Audio-The New Standard for Coding of Immersive
Spatial Audio)”(出版于选题为信号处理的IEEE杂志(the IEEE Journal of Selected
Topics in Signal Processing),第9卷,第5期)的论文。
如图4A的实例中所示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、
参数计算单元32、重新排序单元34、前景选择单元36、能量补偿单元38、夹层格式单元40、声
场分析单元44、系数减少单元46、背景(BG)选择单元48、时空内插单元50、量化单元52、归一
化(norm)单元60和增益控制单元62。
线性可逆变换(LIT)单元30接收呈HOA声道形式的HOA系数11,每一声道表示与球
面基函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样
本的当前帧或块)。HOA系数11的矩阵可具有维度D:Mx(N+1)2。
也就是说,LIT单元30可表示经配置以执行被称作奇异值分解的形式的分析的单
元。尽管相对于SVD进行描述,但可相对于任何类似的线性变换或线性分解(作为一个实例,
其可指代提供线性不相关的输出集合的分解)执行本发明中描述的技术。而且,本发明中对
“集合”的参考一般意图指非零集合(除非特定地相反陈述),且并不意图指包含所谓的“空
集合”的集合的经典数学定义。
替代变换可包括常常被称作“PCA”的主分量分析。PCA指代采用正交变换将可能相
关变量的观测结果集合变换成被称作主分量的线性不相关变量集合的数学程序。线性不相
关变量表示彼此并不具有线性统计关系(或相依性)的变量。可将这些主分量描述为彼此具
有小程度的统计相关性。
所谓的主分量的数目小于或等于原始变量的数目。在一些实例中,以如下方式定
义变换:第一主分量具有最大可能方差(或,换句话说,尽可能多地解释数据中的可变性),
且每一随后分量可能在以下约束下又具有可能的最高方差:此连续分量可与前述分量正交
(可重新表述为不相关)。PCA可执行一种形式的降阶,其在HOA系数11方面可产生HOA系数11
的压缩。取决于情形,PCA可由数个不同名称指代,例如(仅举几例)离散卡亨南-洛维变换
(Karhunen-Loeve transform)、霍特林变换(Hotelling transform)、本征正交分解(POD),
以及特征值分解(EVD)。
假设出于说明的目的,仅有LIT单元30执行奇异值分解(其同样可被称为“SVD”),
出于实例的目的,LIT单元30可将HOA系数11变换成两个或两个以上的经变换的HOA系数集
合。变换HOA系数的“集合”可包含经变换的HOA系数的向量。在图4A的实例中,LIT单元30可
相对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵和U矩阵。在线性代数中,SVD可按如下
形式表示y乘z实数或复数矩阵X(其中X可表示多声道音频数据,例如HOA系数11)的因数分
解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多声道音频数据的左奇异
向量。S可表示在对角线上具有非负实数的y乘z矩形对角矩阵,其中S的对角线值被称为多
声道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中
V*的z列被称为多声道音频数据的右奇异向量。
在一些实例中,以上提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以
反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换
句话说,V*矩阵)可被视为V矩阵的转置。下文中为容易说明的目的,假设HOA系数11包括实
数,结果是经由SVD而非V*矩阵输出V矩阵。此外,尽管在本发明中表示为V矩阵,但对V矩阵
的参考应理解为在适当的情况下指代V矩阵的转置。尽管假设为V矩阵,但所述技术可以类
似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,就此而言,所述
技术不应限于仅提供应用SVD以产生V矩阵,而是可包含将SVD应用于具有复数分量的HOA系
数11以产生V*矩阵。
以此方式,LIT单元30可相对于HOA系数11执行SVD以输出具有维度D:Mx(N+1)2的
US[k]向量33(其可表示S向量和U向量的组合版本)以及具有维度D:(N+1)2x(N+1)2的V[k]向
量35。US[k]矩阵中的个别向量元素还可被称为XPS(k),而V[k]矩阵中的个别向量还可被称
为v(k)。
所述U、S和V矩阵的分析可揭示所述矩阵携带或表示上文由X表示的基本声场的空
间和时间特性。在(具有长度M个样本的)U中的N个向量中的每一个可表示随时间(由M个样
本表示的时段)而变的彼此正交且已从任何空间特性(其也可被称作方向信息)解耦的经归
一化的分开音频信号。表示空间形状和位置的空间特性可替代地由V矩阵(每一个
具有长度(N+1)2)中的第i个向量v(i)(k)表示。
v(i)(k)向量中的每一个的个别元素可表示描述相关联的音频对象的声场的空间
特性(例如,包含宽度的形状)和位置的HOA系数。U矩阵和V矩阵中的向量均经归一化而使得
其均方根能量等于单位一。U中的音频信号的能量因此由S中的对角线元素表示。将U和S相
乘以形成US[k](具有个别向量元素XPS(k)),因此表示具有能量的音频信号。SVD分解使音频
时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中描述的技术
的各个方面。另外,通过US[k]和V[k]的向量乘法合成基本HOA[k]系数X的模型产生贯穿此
文献使用的术语“基于向量的分解”。
参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数
(R)、方向属性参数和能量属性(e)。用于当前帧的参数中的每一个可表示为R[k]、θ
[k]、r[k]和e[k]。参数计算单元32可相对于US[k]向量33执行能量分析和/或相关(或
所谓的交叉相关)以识别这些参数。参数计算单元32还可确定前一帧的参数,其中所述前一
帧的参数可基于具有US[k-1]向量和V[k-1]向量的前一帧而被表示为R[k-1]、θ[k-1]、
r[k-1]和e[k-1]。参数计算单元32可将当前参数37和先前参数39输出到重新排序单
元34。
由参数计算单元32计算的参数可供重新排序单元34使用以将音频对象重新排序,
从而表示其自然评估或随时间推移的连续性。重新排序单元34可逐轮地比较来自第一US
[k]向量33的参数37中的每一个与第二US[k-1]向量33的参数39中的每一个。重新排序单元
34可基于当前参数37和先前参数39将US[k]矩阵33和V[k]矩阵35内的各个向量重新排序
(作为一实例,使用匈牙利算法(Hungarian algorithm))以将重新排序的US[k]矩阵33'(其
可在数学上表示为)和重新排序的V[k]矩阵35'(其可在数学上表示为)输出到前
景声音(或主导声音-PS)选择单元36(“前景选择单元36”)和能量补偿单元38。
声场分析单元44可表示经配置以相对于HOA系数11执行声场分析,以便潜在地实
现目标位速率41的单元。声场分析单元44可基于所述分析和/或所接收的目标位速率41,确
定心理声学译码器实例化的总数(其可随环境或背景声道的总数(BGTOT)和前景声道或换句
话说主导声道的数量而变)。心理声学译码器实例化的总数可表示为numHOATransportChan
nels。
再次为了潜在地实现目标位速率41,声场分析单元44还可确定前景声道的总数
(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHOAorder)、表示背
景声场的最小阶数的实际声道的对应数目(nBGa=(MinAmbHOAorder+1)2),以及要发送的
额外BG HOA声道的索引(i)(其在图4的实例中可共同地表示为背景声道信息43)。背景声道
信息42也可被称作环境声道信息43。
保持来自numHOATransportChannels-nBGa的声道中的每一个可为“额外背景/环
境声道”、“作用中基于向量的主导声道”、“作用中基于方向的主导信号”或“完全非作用
中”。一方面,可由两个位将声道类型指示为(作为“ChannelType”)语法元素(例如,00:基于
方向的信号;01:基于向量的主导信号;10:额外的环境信号;11:非作用信号)。可由
(MinAmbHOAorder+1)2+索引10(在以上实例中)呈现为用于所述帧的位流中的声道类型的
次数给出背景或环境信号的总数nBGa。
声场分析单元44可基于目标位速率41而选择背景(或换句话说,环境)声道的数目
和前景(或换句话说,主导)声道的数目,从而在目标位速率41相对较高时(例如,在目标位
速率41等于或大于512Kbps时)选择更多背景和/或前景声道。一方面,在位流的标头部分
中,可将numHOATransportChannels设定为8,而MinAmbHOAorder可设定为1。在此情形中,在
每个帧处,四个声道可专用于表示声场的背景或环境部分,而其它4个声道可在逐帧基础
上,在声道类型上产生变化--例如,用作额外背景/环境声道或前景/主导声道。前景/主导
信号可为基于向量或基于方向的信号中的一个,如上文所描述。
在一些情况下,用于帧的基于向量的主导信号的总数可由ChannelType索引在所
述帧的位流中为01的次数给出。在以上方面中,对于每个额外背景/环境声道(例如对应于
声道类型10),可能HOA系数(超过前四个)中的每一个的对应信息可在所述声道中表示。对
于四阶HOA内容,所述信息可为指示HOA系数5-25的索引。当minAmbHOAorder被设定为1时,
前四个环境HOA系数1-4可一直发送;因此,音频编码装置可能仅需要指示具有5-25的索引
的额外环境HOA系数中的一个。因此,所述信息可使用可表示为“CodedAmbCoeffIdx”的5位
语法元素(用于4阶内容)来发送。在任何情况下,声场分析单元44将背景声道信息43和HOA
系数11输出到背景(BG)选择单元36,将背景声道信息43输出到系数减少单元46和夹层格式
单元40,且将nFG 45输出到前景选择单元36。
背景选择单元48可表示经配置以基于背景声道信息(例如,背景声场(NBG)以及要
发送的额外BG HOA声道的数目(nBGa)和索引(i))确定背景或环境HOA系数47的单元。举例
来说,当NBG等于一时,背景选择单元48可针对具有等于或小于一的阶数的音频帧的每一样
本选择HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i)中的一个识别
的索引的HOA系数11作为额外的BG HOA系数,其中,将所述nBGa提供给在位流21中指定的夹
层格式单元40,以便使得音频解码装置,例如图6和7的实例中所示的音频解码装置24,能够
从位流21解析背景HOA系数47。背景选择单元48可接着将环境HOA系数47输出到所述能量补
偿单元38。环境HOA系数47可具有维度D:M x[(NBG+1)2+nBGa]。环境HOA系数47也可被称作
“环境HOA系数47”,其中环境HOA系数47中的每一个对应于待由心理声学音频译码器单元40
编码的单独环境HOA声道47。
前景选择单元36可表示经配置以基于nFG 45(其可表示标识前景向量的一或多个
索引)选择表示声场的前景或相异分量的经重新排序的US[k]矩阵33'和经重新排序的V[k]
矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重新排序的US[k]1,…,
nFG49、FG1,…,nfG[k]49,或49)输出到心理声学音频译码器单元40,其中nFG信号
49可具有维度D:M x nFG,且各自表示单声道音频对象。前景选择单元36还可将对应于声场
的前景分量的经重新排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到时空内插单元50,其中
对应于前景分量的经重新排序的V[k]矩阵35'的子集可表示为具有维度D:(N+1)2x nFG的
前景V[k]矩阵51k(其可数学表示为)。
能量补偿单元38可表示经配置以相对于环境HOA系数47执行能量补偿以补偿由通
过背景选择单元48去除HOA声道中的各种HOA声道造成的能量损失的单元。能量补偿单元38
可相对于经重新排序的US[k]矩阵33'、经重新排序的V[k]矩阵35'、nFG信号49、前景V[k]向
量51k和环境HOA系数47中的一或多个执行能量分析,并且接着基于所述能量分析而执行能
量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA
系数47'输出到归一化单元60。
归一化单元60可表示经配置以相对于包含经能量补偿的环境HOA系数47'中的至
少一个的音频声道执行归一化以获得包含经归一化的环境HOA系数47'的经归一化音频声
道的单元。实例归一化过程是全三维归一化(其通常简称为N3D)和半三维归一化(其通常简
称为SN3D)。归一化单元60可执行归一化以减少由于增益控制单元62应用自动增益控制或
其它形式的增益控制而引入的伪声。
也就是说,如上所述,再次为了潜在地实现目标位速率41,声场分析单元44可确定
背景(或换句话说,环境)声场(NBG或替代地,MinAmbHoaOrder)的最小阶数、表示背景声场的
最小阶数的实际声道的对应数目(nBGa=(MinAmbHoaOrder+1)2),以及要发送的额外BG
HOA声道的索引(i)(其在图4A的实例中还可共同地表示为背景声道信息43)。声场分析单元
44可动态地作出这些确定,这意味着额外环境HOA声道的数目可在逐帧或其它基础上改变。
将自动增益控制应用到从描述声场的主导(或换句话说,前景)分量转变到提供额外HOA系
数的声道可由于可能出现的增益的巨大改变而导致音频伪声的引入。
例如,考虑图10中所示的图500,其示出了针对测试项目的四阶(即,N=4)HOA表
示,MPEG测试项目(其指代用于在3D音频编码的MPEG标准化期间测试编解码能力的项目)的
峰值(以分贝或dB为单位)N3D归一化。沿着图500的y轴是以dB为单位的峰值,而x轴通过从
最左的0阶、0子阶开始到4阶、+4子阶(其示出为4+)的阶数(第一个数值)和子阶数(第二个
数值)示出了每一系数。与1,1+球面基函数相关联的系数的峰值dB为接近6dB,大大超出了
通常心理声学编码器的动态范围,例如由心理声学音频译码器单元40表示的心理声学编码
器。因此,基于向量的合成单元27包含增益控制单元62,其执行自动增益控制以将峰值dB减
少到在[-1,1]之间。
假定音频编码或压缩过程可在如上所述的四个不同的ChannelType选项之间切
换,当在这些声道类型之间切换时,可执行淡入/淡出操作。图11是示出了图502的图式,所
述图502说明从表示主导(或换句话说,前景)声音切换到提供额外HOA声道(其通常提供与
具有大于零的阶数的单个球面基函数相关联的系数的帧)的声道。图502示出了此切换可如
何在主导声音帧504(其具有约0.4环绕样本400的最大幅度)和额外HOA声道帧506(其具有
约1.2样本环绕1600的最大幅度)之间产生最大幅度接近0.8的差。当增益控制单元62应用
自动增益控制时,这种较大的幅度差可产生音频伪声。
换句话说,在音频压缩过程(编码)期间,空间音频编码装置20A具有动态地填充输
送信道的四个ChannelType选项:0-基于方向的信号;1-基于向量的信号;2-额外环境HOA系
数;以及3-空。当从一种类型改变到另一类型时,执行淡入/淡出操作以潜在地避免边界伪
声。另外,增益控制单元62将增益控制过程应用在输送信道上,其中信号增益经平滑修改以
实现适于感知编码器(例如,由心理声学音频编码装置406表示)的[-1,1]的取值范围。当执
行增益控制时,增益控制单元62使用单帧预看(one-frame look ahead)以避免连续块之间
的严重增益改变。增益控制单元62可在具有由空间音频编码装置20A提供的增益控制旁侧
信息的空间音频解码装置410中进行恢复。
图12是大体上示出了当信息由空间音频编码装置20A进行处理时的信息流和由
MPEG规范化编码器应用的增益控制的相对位置的图式。MPEG规范化编码器大体上对应于图
2到4B的实例中所示的空间音频编码装置20,且在上文参考的3D音频标准的阶段I和II中更
详细地描述。
在任何情况下,当声道类型从类型0或1切换到类型2(其在本实例中指代额外环境
HOA系数)时,如图12的图502中所示,可出现幅度值的显著改变。因此,增益控制单元62可执
行必须显著补偿音频信号的增益控制(例如,在主导声音音频帧504中,增益控制单元62可
放大信号,而在额外环境HOA声道帧506中,增益控制单元62可衰减信号)。此类强增益调适
的结果可对感知编码器(其在图2的实例中可同样表示为心理声学音频编码装置406)的性
能产生非所要的影响。
根据本发明中描述的技术,归一化单元60可相对于音频声道执行归一化,所述音
频声道提供环境高阶立体混响系数,例如,经能量补偿的环境HOA系数47'中的一个。如上所
述,环境高阶立体混响音频系数47'可表示声场的环境分量的至少一部分。如上所述,归一
化单元60可相对于音频声道执行三维归一化,所述音频声道提供环境高阶立体混响系数
47'。归一化单元60还可相对于音频声道执行半三维归一化,所述音频声道提供环境高阶立
体混响系数47'。在一些实例中,环境高阶立体混响系数47'与具有大于零的阶数的球面基
函数相关联。
如上文进一步所述,在一些实例中,环境高阶立体混响系数47'可包含环境高阶立
体混响系数,在多个不同音频声道中除了指定多个环境高阶立体混响系数47'之外还指定
了所述环境高阶立体混响系数,并且所述环境高阶立体混响系数用于在表示声场的环境分
量的过程中扩增多个环境高阶立体混响系数47'。在这方面中,归一化单元60可将归一化因
数应用到环境高阶立体混响系数。
归一化单元60还可确定随与环境高阶立体混响系数相关联的球面基函数的至少
一个阶数而变的归一化因数,并且可将归一化因数应用到环境高阶立体混响系数。在这些
和其它情况下,归一化单元60可根据以下等式确定归一化因数:
其中Norm表示归一化因数,N表示环境高阶立体混响系数与其相关联的球面基函
数的阶数。归一化单元60接着可将归一化因数Norm应用到环境高阶立体混响系数。
如上所述,环境高阶立体混响系数可通过表示声场的多个高阶立体混响系数的分
解进行识别。环境高阶立体混响系数可通过将线性分解应用到表示声场的多个高阶立体混
响系数进行识别。
如在本发明中的上文所描述,空间音频编码装置20A可进一步将音频声道从提供
描述声场的主导分量的主导音频对象转变到提供环境高阶立体混响系数。如在本发明中的
上文所描述,空间音频编码装置20A可进一步将音频声道从提供主导音频对象转变到提供
环境高阶立体混响系数。在此情况下,仅当音频声道提供环境高阶立体混响系数时,归一化
单元60才可相对于音频声道执行归一化。
如在本发明中所描述,空间音频编码装置20A可进一步将音频声道从提供主导音
频对象转变到提供环境高阶立体混响系数。在此情况下,仅当音频声道提供环境高阶立体
混响系数时,归一化单元60才可相对于音频声道执行归一化。空间音频编码装置20A可指定
位流中的语法元素,其指示音频声道已经从提供主导音频对象转变到提供环境高阶立体混
响系数。所述语法元素可表示为“ChannelType”语法元素。
换句话说,当额外环境HOA系数由空间音频编码装置20A选择时,所述技术可在通
过因数Norm的增益控制之前衰减额外环境HOA系数的幅度,作为一个实例,所述因数Norm可
等于图13是说明示出了将归一化因数应用到额外HOA声道帧的结果的图512
的图式,所述额外HOA声道帧先前在图502中示出为额外HOA声道帧506。图512示出了主导声
音帧514,其大体上类似于图502的主导声音帧504。然而,额外HOA声道帧506根据本发明中
相对于归一化单元60描述的技术的归一化导致额外HOA声道帧516具有在[1,-1]动态范围
内的经衰减最大幅度。在本实例中,归一化因数可为其中将N假设为2(意味着额外环
境HOA系数对应于具有阶数二的球面基函数,如1+(2*2)等于5。如图512中所示,信号可进行
更好的幅度调整,并且可因此防止增益控制功能的改变。归一化单元60可通过包含经归一
化的环境HOA系数47”的此音频声道到增益控制单元62。
增益控制单元62可表示经配置以相对于音频声道执行(如上所述)自动增益控制
的单元。然而,如上所述,给定音频声道在每一帧中并未超过[1,-1]的动态范围,如图13的
实例中所示,由于将归一化应用到经归一化的环境HOA系数47”,所以增益控制单元62可确
定自动增益控制不是必需的。在这些情况下,增益控制单元62可不相对于音频声道执行自
动增益控制,所述音频声道有效地穿过归一化环境HOA系数47”到心理声学音频译码器单元
40。同样地,增益控制单元62可相对于下文描述的经内插nFG信号49'(其可示出为图13中的
主导声音帧504和图13中的主导声音帧514)执行自动增益控制62。同样,然而,给定这些帧
504和514并未超过[1,-1]动态范围,增益控制单元62可能不需要应用自动增益控制,这可
同样导致增益控制单元62有效地穿过经内插nFG信号49'到心理声学音频译码器单元40。
在这方面中,在一些情况下,在将增益控制应用到音频声道之前,归一化单元60可
相对于环境高阶立体混响系数执行归一化。在这些和其它情况下,归一化单元60可相对于
环境高阶立体混响系数执行归一化,以便减少增益控制到音频声道的应用。
时空内插单元50可表示经配置以接收第k帧的前景V[k]向量51k以及前一帧(因此
为k-1记法)的前景V[k-1]向量51k-1且执行时空内插以产生经内插的前景V[k]向量的单元。
时空内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重新排序的前景HOA
系数。时空内插单元50接着可将经重新排序的前景HOA系数除以经内插的V[k]向量以产生
经内插的nFG信号49'。
时空内插单元50还可输出用于产生经内插前景V[k]向量的前景V[k]向量51k。音
频解码装置,例如音频解码装置24,可基于输出的前景V[k]向量51k产生经内插的前景V[k]
向量,并由此恢复前景V[k]向量51k。用于产生经内插的前景V[k]向量的前景V[k]向量51k表
示为其余前景V[k]向量53。为了确保相同的V[k]和V[k-1]用在编码器和解码器处(以创建
经内插的向量V[k]),向量的经量化/经解量化版本可用在编码器和解码器处。时空内插单
元50可将经内插的nFG信号49'输出到夹层格式单元40,且将经内插的前景V[k]向量51k输
出到系数减少单元46。
系数减少单元46可表示经配置以基于背景声道信息43而相对于其余前景V[k]向
量53执行系数减少以将减少的前景V[k]向量55输出到量化单元52的单元。减少的前景V[k]
向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]x nFG。就此而言,系数减少单元46可表示经
配置以减少其余前景V[k]向量53中的系数的数目的单元。换句话说,系数减少单元46可表
示经配置以消除前景V[k]向量(其形成其余前景V[k]向量53)中具有极少乃至没有方向信
息的系数的单元。在一些实例中,相异或换句话说对应于一阶和零阶基函数的前景V[k]向
量的系数(其可被表示为NBG)提供极少方向信息,并因此可从前景V向量去除(通过可被称为
“系数减少”的过程)。在此实例中,可提供较大灵活性以不仅从集合[(NBG+1)2+1,(N+1)2]中
识别对应于NBG的这些系数而且识别额外HOA声道(其可由变量TotalOfAddAmbHOAChan表
示)。
量化单元52可表示经配置以执行任何形式的量化从而压缩减少的前景V[k]向量
55以便产生经译码的前景V[k]向量57的单元,这将经译码的前景V[k]向量57输出到夹层格
式单元40。在操作中,量化单元52可表示经配置以压缩声场的空间分量(即,本实例中的减
少的前景V[k]向量55中的一或多个)的单元。量化单元52可执行以下12种量化模式中的任
一个,如由表示为“NbitsQ”的量化模式语法元素指示:
量化单元52还可执行前述类型的量化模式中的任一个的预测版本,其中确定先前
帧的V向量的元素(或执行向量量化时的权数)与当前帧的V向量的元素(或执行向量量化时
的权数)之间的差。量化单元52接着可量化当前帧与前一帧的元素或权数之间的差而不是
当前帧本身的V向量的元素的值。
量化单元52可相对于减少的前景V[k]向量55中的每一个执行多种形式的量化以
获得减少的前景V[k]向量55的多个译码版本。量化单元52可将减少的前景V[k]向量55的译
码版本中的一个选择为经译码的前景V[k]向量57。换句话说,量化单元52可基于在本发明
中论述的标准的任何组合,选择非预测向量量化的V向量、预测向量量化的V向量、非霍夫曼
译码的标量量化的V向量和霍夫曼译码的标量量化的V向量中的一个以用作输出切换量化
的V向量。
在一些实例中,量化单元52可从包含向量量化模式和一或多个标量量化模式的量
化模式集合中选择量化模式,且基于(或根据)所选择的模式量化输入V向量。量化单元52接
着可向夹层格式单元40提供所选择的非预测向量量化的V向量(例如,按照指示其的权值或
位)、预测向量量化的V向量(例如,按照指示其的误差值或位)、非霍夫曼译码的标量量化的
V向量和霍夫曼译码的标量量化的V向量中的一个以作为经译码的前景V[k]向量57。量化单
元52也可提供指示量化模式的语法元素(例如,NbitsQ语法元素)和用于解量化或以其它方
式重构V向量的任何其它语法元素。
包含在空间音频编码装置20A内的夹层格式单元40可表示格式化数据以符合已知
格式(其可指代解码装置已知的格式)并由此产生经夹层格式化的音频数据15的单元。在一
些实例中,夹层格式单元40可表示多路复用器,其可接收经译码的前景V[k]向量57、经归一
化的环境HOA系数47”、经内插的nFG信号49'和背景声道信息43。夹层格式单元40接着可基
于所述经译码的前景V[k]向量57、所述经归一化的环境HOA系数47”、所述经内插的nFG信号
49'和所述背景声道信息43,而产生经夹层格式化的音频数据15。
如上所述,经夹层格式化的音频数据15可包含PCM输送信道和边带(或换句话说,
旁侧声道)信息。边带信息可包含V[k]向量47和在上文参考的2014年5月29日申请的名称为
“声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A
SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中更详细地描述的其它语法元
素。
尽管在图4A的实例中未示出,但空间音频编码装置20A还可包含位流输出单元,所
述位流输出单元基于当前帧将使用基于方向的合成还是将使用基于向量的合成进行编码
而切换从音频编码装置20A输出的位流(例如,在基于方向的位流21与基于向量的位流21之
间切换)。位流输出单元可基于由内容分析单元26输出的指示执行基于方向的合成(由于检
测到HOA系数11由合成音频对象产生)还是执行基于向量的合成(由于检测到HOA系数被记
录)的语法元素执行所述切换。位流输出单元可指定正确的标头语法以指示用于当前帧以
及位流21中的相应一个的此切换或当前编码。
此外,如上所述,声场分析单元44可识别BGTOT环境HOA系数47,所述系数可逐帧改
变(但有时BGTOT可跨越两个或两个以上邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可
产生在减少的前景V[k]向量55中表达的系数的改变。BGTOT的改变可产生逐帧改变(尽管有
时BGTOT可跨越两个或两个以上邻近(在时间上)帧保持恒定或相同)的背景HOA系数(其也可
被称作“环境HOA系数”)。所述改变常常导致声场的各方面的能量改变,所述声场通过额外
环境HOA系数的添加或去除以及系数从减少的前景V[k]向量55的对应去除或系数到减少的
前景V[k]向量55的添加表示。
因此,声场分析单元44可进一步确定环境HOA系数何时逐帧改变,并产生指示环境
HOA系数的改变的旗标或其它语法元素(就用于表示声场的环境分量来说)(其中,所述变化
也可被称作环境HOA系数的“转变”或环境HOA系数的“转变”)。具体来说,系数减少单元46可
产生旗标(其可表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将
所述旗标提供到夹层格式单元40,使得可将所述旗标包含在位流21中(可能地作为旁侧声
道信息的一部分)。
除指定环境系数转变旗标之外,系数减少单元46还可修改产生减少的前景V[k]向
量55的方式。在一个实例中,在确定环境HOA环境系数中的一个在当前帧期间处于转变中之
后,系数减少单元46可指定用于减少的前景V[k]向量55的V向量中的每一个的向量系数(其
也可被称作“向量元素”或“元素”),所述向量系数对应于处于转变中的环境HOA系数。并且,
处于转变中的环境HOA系数可添加到背景系数的BGTOT总数或从背景系数的BGTOT总数中去
除。因此,背景系数的总数的所得改变影响环境HOA系数是否包含在位流中,以及在上文所
描述的第二和第三配置模式中是否针对位流中所指定的V向量包含V向量的对应元素。关于
系数减少单元46可如何指定减少的前景V[k]向量55以克服能量改变的更多信息提供于
2015年1月12日申请的名称为“环境高阶立体混响系数的转变(TRANSITIONING OF AMBIENT
HIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533号美国申请案中。
图4B是说明图2和3的实例中所示的音频编码装置20的另一实例的框图。换句话
说,空图4B的实例中所示的间音频编码装置20B可表示图2和3的实例中所示的空间音频编
码装置20的一个实例。图4B的音频编码装置20B可与图4A的实例中所示的音频编码装置大
体上相同,除了图4B的音频编码装置20B包含表示为基于向量的合成单元63的基于向量的
合成单元27的经修改版本。基于向量的合成单元63类似于基于向量的合成单元27,除了其
经修改以去除增益控制单元62。换句话说,基于向量的合成单元63不包含增益控制单元,或
另外相对于经归一化的环境HOA系数47”或经内插的nFG信号49'执行自动或其它形式的增
益控制。
此增益控制单元62的去除可产生更有效(在延迟方面)的音频编码,其可适应某些
情形,例如广播情形。也就是说,当采用一或多个帧预看机制以便确定是衰减还是另外放大
信号通常需要横跨帧边界时,增益控制单元62可引入延迟。在广播和其它时间敏感编码情
形中,此延迟可防止采用或进一步考虑这些译码技术,尤其对于所谓的在新闻、体育和其它
编程中是共同的“实时”广播来说。此增益控制单元62的去除可减少增益并避免一个或两个
帧延迟(其中帧延迟的每次减少可去除约20毫秒(ms)的延迟),且更好的适应广播情形,所
述广播情形可采用本发明中所阐述的适用作夹层压缩格式的音频编码技术。
换句话说,夹层格式作为PCM未经压缩的音频声道传输,其可允许0分贝(dB)满刻
度范围(FSR)的最大幅度(+/-1.0幅度)。为了防止限幅,最大幅度限制可不超过0dB FSR
(+/-1.0幅度)。在一些实例中,因为输入HOA音频信号已经经N3D归一化,所以最大幅度限制
在传输高阶的环境HOA系数时可能很可能超过0dB FSR。
为了减少或潜在地避免超过0dB FSR,音频编码装置20可在传输信号之前应用自
动增益控制。音频解码装置24接着可应用反自动增益控制以恢复HOA音频信号。然而,应用
自动增益控制可产生指定增益控制数据的额外边带信息,音频解码装置24可使用所述增益
控制数据以执行反自动增益控制。并且,应用自动增益控制可产生上文提到的延迟,这可能
不适于一些情形(例如广播情形)。
不是应用N3D归一化和执行自动增益控制,而是音频编码装置20可将SN3D归一化
应用到HOA音频信号,并且在一些实例中,不执行自动增益控制。通过执行SN3D归一化和不
执行自动增益控制,音频编码装置20可不在位流21中指定用于自动增益控制的边带信息。
此外,通过执行SN3D归一化和不执行自动增益控制,音频编码装置20可由于自动增益控制
过程所需的预看而避免任何延迟,这可适应广播和其它情形。
图5A和5B是更详细地说明图2和3的空间音频解码装置410的框图。首先参看图5A
的实例,图2和3中所示的空间音频解码装置410的实例示出为空间音频解码装置410A。空间
音频解码装置410A可包含提取单元72一基于向量的重构单元92。尽管在下文进行描述,但
是关于空间音频解码装置410A和减压或另外解码HOA系数的各个方面的更多信息可在2014
年5月29日申请的名称为“声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED
REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获
得。此外,HOA系数的解压的各个方面的更多细节根据上文参考的MPEG-H 3D音频编码标准
的阶段I和II。
提取单元72可表示经配置以接收位流15和提取HOA系数11的基于向量的经编码版
本的单元。提取单元72可提取经译码的前景V[k]向量57、经归一化的环境HOA系数47”和对
应的经内插的音频对象49'(其还可被称作经内插的nFG信号49')。音频对象49'各自对应于
向量57中的一个。提取单元72可通过经译码的前景V[k]向量57到V向量重构单元74、通过经
归一化的环境HOA系数47'到反增益控制单元86,以及通过经内插的nFG信号49'到前景制订
单元78。
反增益控制单元86可表示经配置以相对于经归一化的环境HOA系数47'和经内插
的nFG信号49'中的每一个执行反增益控制的单元,其中此反增益控制往复于由增益控制单
元62执行的增益控制。然而,由于经归一化的环境HOA系数47”的经归一化性质(在动态范围
[1,-1]内的减少的幅度方面)和经内插的nFG信号49'的一般性质(在动态范围[1,-1]内的
正常幅度)方面,反增益控制单元86可有效地通过经归一化的环境HOA系数47”到反归一化
单元88(“inv norm单元88”)、通过经内插的nFG信号49'到前景制订单元78,而不需将任何
自动或其它形式的反增益控制应用到经归一化的环境HOA系数47”或经内插的nFG信号49'。
尽管上文提出可能从不应用反增益控制,但是在各种情况中,反增益控制单元86
可将增益控制应用到经归一化的环境HOA系数47”或经内插的nFG信号49'中的任一个或经
归一化的环境HOA系数47”和经内插的nFG信号49'两个。在这些情况下,所述技术可减少反
增益控制的应用,这可减少在经发送以实现反增益控制的应用并由此促进HOA系数11的更
有效译码的旁侧信息方面的开销。
反归一化单元88可表示经配置以相对于经归一化的环境HOA系数47”执行反归一
化,所述经归一化的环境HOA系数47”一般往复于由图4A和4B的实例中所示的归一化单元60
应用的归一化。反归一化单元88可应用或另外相对于音频声道执行反归一化,所述音频声
道包含经归一化的环境HOA系数47”以将经能量补偿的环境HOA系数47'输出到淡化单元
770。
V向量重构单元74可表示经配置以从经编码的前景V[k]向量57重构V向量的单元。
V向量重构单元74可以往复于量化单元52的V向量重构单元的方式操作,以获得减少的前景
V[k]向量55k。V向量重构单元74可通过前景V[k]向量55到时空内插单元76。
时空内插单元76可以类似于上面相对于时空内插单元50描述的方式操作。时空内
插单元76可接收减少的前景V[k]向量55k并相对于减少的前景V[k]向量55k和减少的前景V
[k-1]向量55k-1执行时空内插,以产生经内插的前景V[k]向量55k”。时空内插单元76可将经
内插的前景V[k]向量55k”转发到淡化单元770。
提取单元72还可输出指示环境HOA系数中的一个何时处于到淡化单元770的转变
的信号757,所述淡化单元770接着可确定SHCBG47'(其中SHCBG47'还可表示为“环境HOA声道
47'”或“经能量补偿的环境HOA系数47'”)以及经内插的前景V[k]向量55k”的元素中的哪些
将淡入或淡出。淡化单元770可将经调整的环境HOA系数47”'输出到HOA系数制订单元82,并
将经调整的前景V[k]向量55k”'输出到前景制订单元78。在这方面中,淡化单元770表示经
配置以相对于HOA系数或其衍生物(例如,呈经能量补偿的环境HOA系数47'和经内插的前景
V[k]向量55k”的元素的形式)的各个方面执行淡化操作的单元。
前景制订单元78可表示经配置以相对于经调整的前景V[k]向量55k”'和经内插的
nFG信号49'执行矩阵相乘以产生前景HOA系数65的单元。在这方面中,前景制订单元78可将
音频对象49'(其为表示经内插的nFG信号49'的另一方式)与向量55k”'组合以重构前景,或
换句话说,HOA系数11'的主导方面。前景制订单元78可执行经内插的nFG信号49'与经调整
的前景V[k]向量55k”'的矩阵相乘。
HOA系数制订单元82可表示经配置以将前景HOA系数65与经调整的环境HOA系数
47”组合以便获得HOA系数11'的单元。撇号记号反映HOA系数11'可类似于但不同于HOA系数
11。HOA系数11和11'之间的差异可能是由通过有损传输媒体的传输、量化或其它有损操作
产生的损失导致。
图5B是说明可执行本发明中描述的归一化技术的空间音频解码装置410的另一实
例的框图。图5B的实例中所示的空间音频解码装置410的实例示出为空间音频解码装置
410B。图5B的空间音频解码装置410B可与图5A的实例中所示的空间音频解码装置大体上相
同,除了图5B的空间音频解码装置410B包含表示为基于向量的重构单元90的基于向量的重
构单元92的经修改版本。基于向量的重构单元90类似于基于向量的重构单元92,除了其经
修改以去除反增益控制单元86。换句话说,基于向量的重构单元90不包含反增益控制单元,
或另外相对于经归一化的环境HOA系数47”或经内插的nFG信号49'执行自动或其它形式的
反增益控制。
图6A和6B是各自说明图2和3的实例中所示的经配置以执行本发明中描述的归一
化技术的各个方面的音频解码装置24的不同实例的框图。首先参看图6A,音频解码装置24
的实例表示为音频解码装置24A。音频解码装置24A可大体上类似于图5A中所示的空间音频
解码装置410A,除了提取单元72经配置以提取经编码的环境HOA系数59和经编码的nFG信号
61。空间音频解码装置410A和音频解码装置24A之间的另一差异是音频解码装置24A的基于
向量的重构单元92包含心理声学解码单元80。提取单元72可将经编码的环境HOA系数59和
经编码的nFG信号61提供到心理声学解码单元80。心理声学解码单元80可相对于经编码的
环境HOA系数59和经编码的nFG信号61执行心理声学音频解码,并将经归一化的环境HOA系
数47”和经内插的nFG信号49'输出到反增益控制单元86。
图6B是说明可执行本发明中描述的归一化技术的音频解码装置24的另一实例的
框图。图6B的音频解码装置24B可表示图2和3的音频解码装置24的另一实例。音频解码装置
24B可与图6A的实例中所示的音频解码装置大体上相同,除了图6B的音频解码装置24B包含
表示为基于向量的重构单元90的基于向量的重构单元92的经修改版本。基于向量的重构单
元90类似于基于向量的重构单元92,除了其经修改以去除反增益控制单元86。换句话说,基
于向量的重构单元90不包含反增益控制单元,或另外相对于经归一化的环境HOA系数47”或
经内插的nFG信号49'执行自动或其它形式的反增益控制。
图7是说明音频编码装置(例如图2和3的实例中所示的空间音频编码装置20)在执
行本发明中描述的基于向量的合成技术的各个方面中的例示性操作的流程图。最初,空间
音频编码装置20接收HOA系数11。空间音频编码装置20可调用LIT单元30,其可应用相对于
HOA系数的LIT以输出经变换的HOA系数(例如,在SVD的情况下,经变换的HOA系数可包括US
[k]向量33和V[k]向量35)(107)。
空间音频编码装置20随后可调用参数计算单元32以按上文所描述的方式,相对于
US[k]向量33、US[k-1]向量33、V[k]和/或V[k-1]向量35的任何组合执行上文所描述的分析
以识别各种参数。也就是说,参数计算单元32可基于经变换的HOA系数33/35的分析而确定
至少一个参数(108)。
空间音频编码装置20可接着调用重新排序单元34,其可基于参数而将经变换的
HOA系数(再次在SVD的情形中,其可指代US[k]向量33和V[k]向量35)重新排序,以产生经重
新排序的经变换的HOA系数33'/35'(或换句话说,US[k]向量33'和V[k]向量35'),如上文所
描述(109)。在上述操作或后续操作中的任一个期间,空间音频编码装置20还可调用声场分
析单元44。如上所述,声场分析单元44可相对于HOA系数11和/或经变换的HOA系数33/35执
行声场分析,以确定前景声道的总数(nFG)45、背景声场的阶数(NBG)以及待发送的额外BG
HOA声道的数量(nBGa)和索引(i)(其在图4的实例中可共同地表示为背景声道信息43)
(110)。
空间音频编码装置20还可调用背景选择单元48。背景选择单元48可基于背景声道
信息(BCI)43确定背景或环境HOA系数47(112)。空间音频编码装置20可进一步调用前景选
择单元36,其可基于nFG 45(其可表示识别这些前景向量的一或多个索引)选择经重新排序
的US[k]向量33'和经重新排序的V[k]向量35'中表示声场的前景或相异分量的那些向量
(113)。
空间音频编码装置20可调用能量补偿单元38。能量补偿单元38可相对于环境HOA
系数47执行能量补偿以补偿由于由背景选择单元48去除HOA声道中的各种HOA系数所造成
的能量损失(114),并由此产生经能量补偿的环境HOA系数47'。归一化单元60可归一化经能
量补偿的环境HOA系数47'以产生经归一化的环境HOA系数47”(115)。在一些实例中,例如图
4A中所示的实例,增益控制单元62可相对于经归一化的环境HOA系数47”和经内插的nFG音
频信号49'执行增益控制(116)。然而,在其它实例中,例如图4B中所示的实例,可能没有应
用增益控制。通过使用步骤116的虚线表示增益控制的应用的变化。
空间音频编码装置20也可调用时空内插单元50。时空内插单元50可相对于经重新
排序的经变换的HOA系数33'/35'执行时空内插以获得经内插的前景信号49'(其也可被称
作“经内插的nFG信号49'”)和其余的前景方向信息53(其也可被称作所述“V[k]向量53”)
(116)。空间音频编码装置20可接着调用系数减少单元46。系数减少单元46可基于背景声道
信息43而相对于其余的前景V[k]向量53执行系数减少,以获得减少的前景方向信息55(其
也可被称作减少的前景V[k]向量55)(118)。
空间音频编码装置20可调用量化单元52,以便以上文所描述的方式来压缩减少的
前景V[k]向量55,并产生经译码的前景V[k]向量57(120)。
空间音频编码装置20可调用夹层格式单元40。夹层格式单元40可基于经译码的前
景V[k]向量57、经归一化的环境HOA系数47”、经内插的nFG信号49'和背景声道信息43而产
生经夹层格式化的音频数据15(122)。
图8是说明音频解码装置(图2和3中所示的空间音频解码装置410)在执行本发明
中描述的技术的各个方面的例示性操作的流程图。首先,空间音频解码装置410可接收位流
21。在接收位流之后,空间音频解码装置410可调用提取单元72。提取装置72可解析此位流
以检索上文提到的信息,从而将此信息传递到基于向量的重构单元92。
换句话说,提取单元72可以上文所描述的方式从位流21中提取前景方向信息57
(再次,其也可被称作经译码前景V[k]向量57)、经归一化的环境HOA系数47”和经内插的前
景信号(其也可被称作经内插的前景nFG信号49'或经内插的前景音频对象49')(132)。
空间音频解码装置410可进一步调用量化单元74。量化单元74可对经译码的前景
方向信息57进行熵解码和解量化,以获得减少的前景方向信息55k(135)。
空间音频解码装置410随后可调用时空内插单元76。时空内插单元76可接收经重
新排序的前景方向信息55k'并相对于减少的前景方向信息55k/55k-1执行时空内插以产生经
内插的前景方向信息55k”(136)。时空内插单元76可将经内插的前景V[k]向量55k”转发到淡
化单元770。
空间音频解码装置410可调用反增益控制单元86。反增益控制单元86可相对于经
归一化的环境HOA系数47”和经内插的前景信号49'执行反增益控制,如上文相对于图5A的
实例所描述(138)。在其它实例中,例如图5B中所示的实例,空间音频解码装置410可不应用
反增益控制。为了表示其中可或可不应用反增益控制的这些不同实例,步骤138示出为具有
虚线。
空间音频解码装置410还可调用反归一化单元88。反归一化单元88可相对于经归
一化的环境HOA系数47”执行反归一化以获得经能量补偿的HOA系数47'(139)。反归一化单
元88可将经能量补偿的HOA系数47'提供到淡化单元770。
音频解码装置24可调用淡化单元770。淡化单元770可接收或另外获得(例如,从所
述提取单元72)指示经能量补偿的环境HOA系数47'何时处于转变中的语法元素(例如,
AmbCoeffTransition语法元素)。淡化单元770可基于转变语法元素和保持转变状态信息而
淡入或淡出经能量补偿的环境HOA系数47',从而向HOA系数制订单元82输出经调整的环境
HOA系数47”。淡化单元770也可基于语法元素和保持转变状态信息,并淡出或淡入经内插的
前景V[k]向量55k”的相应一或多个元素,从而向前景制订单元78输出经调整的前景V[k]向
量55k”'(142)。
音频解码装置24可调用前景制订单元78。前景制订单元78可执行nFG信号49'与经
调整的前景方向信息55k”'的矩阵相乘以获得前景HOA系数65(144)。音频解码装置24也可
调用HOA系数制订单元82。HOA系数制订单元82可将前景HOA系数65添加到经调整的环境HOA
系数47”以便获得HOA系数11'(146)。
尽管在广播设置的情形下进行描述,可相对于任何内容创建者执行所述技术。此
外,尽管相对于经夹层格式化的位流进行描述,所述技术可应用到任何类型的位流,包含符
合标准(例如,上文参考的MPEG-H 3D音频编码标准的阶段I或阶段II)的位流。更多一般的
内容创建者情形在下文相对于图10的实例进行描述。
图9是说明可执行本发明中描述的技术的各个方面的系统200的图式。如图10的实
例所示,系统200包含内容创建者装置220和内容消费者装置240。虽然在内容创建者装置
220和内容消费者装置240的情形中进行描述,但是所述技术可在其中声场的SHC(其也可被
称作HOA系数)或任何其它分层表示经编码以形成表示音频数据的位流的任何情形中实施。
此外,内容创建者装置220可表示能够实施本发明中描述的技术的任何形式的计
算装置,包含手机(或蜂窝电话)、平板计算机、智能电话或桌上型计算机(提供几个实例)。
同样,内容消费者装置240可表示能够实施本发明中描述的技术的任何形式的计算装置,包
含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒,或桌上型计算机(提供几个实
例)。
内容创建者装置220可通过电影工作室或可产生用于由内容消费者装置,例如内
容消费者装置240的操作者消费的多声道音频内容的其它实体来操作。在一些实例中,内容
创建者装置220可由希望压缩HOA系数11的个人用户操作。所述内容创建者可产生音频内容
以及视频内容。内容消费者装置240可由个人操作。内容消费者装置240可包含音频重放系
统16,其可指能够渲染SHC以供作为多声道音频内容重放的任何形式的音频重放系统。音频
重放系统16可与图2和3的实例中所示的音频重放系统16相同。
内容创建者装置220包含音频编辑系统18。内容创建者装置220可获得各种格式
(包含直接作为HOA系数)的实时记录7和音频对象9,内容创建者装置220可使用音频编辑系
统18对其进行编辑。麦克风5可捕获实时记录7。在编辑过程期间,内容创建者可渲染来自音
频对象9的HOA系数11,收听所渲染的扬声器馈送以试图识别需要进一步编辑的声场的各个
方面。内容创建者装置220可接着编辑HOA系数11(可能通过操纵可以上文所描述的方式从
中导出源HOA系数的音频对象9中的不同者而间接地编辑)。内容创建者装置220可采用音频
编辑系统18产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出所述音频数据
作为一或多个源球面谐波系数的任何系统。
当编辑过程完成时,内容创建者装置220可基于HOA系数11而产生位流21。也就是
说,内容创建者装置220包含音频编码装置202,其表示经配置以根据本发明中描述的技术
的各个方面对HOA系数11进行编码或另外进行压缩从而产生位流21的装置。音频编码装置
202可类似于空间音频编码装置20,除了音频编码装置202包含心理声学音频编码单元(类
似于心理声学音频编码单元406),其在位流产生单元(其可类似于夹层格式单元40)形成位
流21之前,相对于经归一化的nFG信号47”和经内插的nFG信号49'执行心理声学音频编码。
音频编码装置20可产生位流21以供(作为一个实例)跨越传输信道传输,所述传输
信道可为有线或无线信道、数据存储装置或其类似物。位流21可表示HOA系数11的经编码版
本,且可包含主要位流和另一旁侧位流(其可称为旁侧声道信息)。
尽管图10中示出为直接传输到内容消费者装置240,但是内容创建者装置220可将
位流21输出到定位于内容创建者装置220和内容消费者装置240之间的中间装置。中间装置
可存储位流21以供稍后递送到内容消费者装置240,其可请求所述位流。中间装置可包括文
件服务器、网络服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能电话,或
能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留在能够将位流
21流式传输(且可能结合传输对应的视频数据位流)到请求位流21的订户(例如,内容消费
者装置14)的内容递送网络中。
替代地,内容创建者装置220可将位流21存储到存储媒体,例如压缩光盘、数字视
频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取且因此可称为计算
机可读存储媒体或非暂时性计算机可读存储媒体。在此情形中,传输信道可指代借以传输
存储到媒体的内容的信道(且可包含零售商店及其它基于商店的递送机制)。因此,在任何
情况下,本发明的技术不应就此而言受到图10的实例限制。
如图10的实例中进一步所示,内容消费者装置240包含音频重放系统16。音频重放
系统16可表示能够重放多声道音频数据的任何音频重放系统。音频重放系统16可包含多个
不同的渲染器22。渲染器22可各自提供不同形式的渲染,其中所述不同形式的渲染可包含
执行基于向量的幅度平移(VBAP)的各种方式中的一或多个和/或执行声场合成的各种方式
中的一或多个。如本文所使用,“A和/或B”意味着“A或B”,或“A和B”两者。
音频重放系统16可进一步包含音频解码装置24,其可与图2和3中所示的音频解码
装置24类似或相同。音频解码装置24可表示经配置以对来自位流21的HOA系数11'进行解码
的装置,其中HOA系数11'可与HOA系数11类似,但由于有损操作(例如,量化)和/或经由传输
信道的传输而有所不同。在对位流21进行解码以获得HOA系数11'之后,音频重放系统16可
渲染HOA系数11'以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器3。
为了选择适当的渲染器或在一些情况下产生适当的渲染器,音频重放系统16可获
得指示扩音器的数目和/或扩音器的空间几何结构的扩音器信息13。在一些情况下,音频重
放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动所述扩音器来
获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频重放系统16可促
使用户与音频重放系统16介接并输入扩音器信息13。
音频重放系统16接着可基于扩音器信息13而选择音频渲染器22中的一个。在一些
情况下,当音频渲染器22都不在对在扩音器信息13中指定的扩音器几何结构的某一阈值类
似性量度(在扩音器几何结构方面)内时,音频重放系统16可基于扩音器信息13而产生音频
渲染器22中的一个。在一些情况下,音频重放系统16可基于扩音器信息13而产生音频渲染
器22中的一个,而不需首先试图选择音频渲染器22中的现有的一个。一或多个扬声器3接着
可重放经渲染的扩音器馈送25。
此外,前述技术可相对于任何数目的不同情形和音频生态系统执行,且不应限于
上文所述的情形或音频生态系统中的任一个。下文描述多个实例情形,但所述技术应该限
于所述实例情形。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏
音频工作室、基于声道的音频内容、译码引擎、游戏音频原声、游戏音频译码/渲染引擎,以
及递送系统。
电影工作室、音乐工作室和游戏音频工作室可接收音频内容。在一些实例中,音频
内容可表示获取内容的输出。电影工作室可例如通过使用数字音频工作站(DAW)输出基于
声道的音频内容(例如,呈2.0、5.1和7.1)。音乐工作室可例如通过使用DAW输出基于声道的
音频内容(例如,呈2.0和5.1)。在任一情况下,译码引擎可基于一或多个编解码器(例如,
AAC、AC3、杜比真HD、杜比数字加和DTS主音频)接收并编码基于声道的音频内容以供递送系
统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频原声。游戏音频译码/
渲染引擎可将音频原声译码和/或将音频原声渲染到基于声道的音频内容中以供递送系统
输出。可执行所述技术的另一实例情形包括音频生态系统,其可包含广播记录音频对象、专
业音频系统、消费者装置上捕获、HOA音频格式、装置上渲染、消费者音频、TV和配件以及汽
车音频系统。
广播记录音频对象、专业音频系统及消费者装置上捕获都可使用HOA音频格式对
其输出进行译码。以此方式,可使用HOA音频格式将音频内容译码成单一表示,所述单一表
示可使用装置上渲染、消费者音频、TV和配件以及汽车音频系统重放所述单一表示。换句话
说,可在通用音频重放系统(即,与要求例如5.1、7.1等的特定配置相反)(例如,音频重放系
统16)处重放音频内容的单一表示。
可执行所述技术的情形的其它实例包含音频生态系统,其可包含获取元件和重放
元件。获取元件可包含有线和/或无线获取装置(例如,本征麦克风)、装置上环绕声捕获,以
及移动装置(例如,智能电话和平板计算机)。在一些实例中,有线和/或无线获取装置可经
由有线和/或无线通信信道耦合到移动装置。
根据本发明的一或多个技术,移动装置可用于获取声场。例如,移动装置可经由有
线和/或无线获取装置和/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)来
获取声场。移动装置可接着将所获取的声场译码成HOA系数以供播放元件中的一或多个重
放。举例来说,移动装置的用户可记录实时事件(例如,集会、会议、比赛、音乐会等)(获取实
时事件的声场),并将所述记录译码成HOA系数。
移动装置还可利用重放元件中的一或多个来重放经HOA译码的声场。举例来说,移
动装置可对经HOA译码的声场进行解码,且将致使重放元件中的一或多个重新创建声场的
信号输出到重放元件中的一或多个。作为一个实例,移动装置可利用无线和/或无线通信信
道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒等)。作为另一实例,移动装置可
利用对接解决方案将信号输出到一或多个对接站和/或一或多个对接扬声器(例如,智能汽
车和/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机渲染将信号输出
到一组头戴式耳机(例如)以创建真实的立体声声音。
在一些实例中,特定移动装置可获取3D声场并且在稍后时间重放同一3D声场。在
一些实例中,移动装置可获取3D声场、将所述3D声场编码为HOA,且将经编码的3D声场传输
到一或多个其它装置(例如,其它移动装置和/或其它非移动装置)以供重放。
可执行所述技术的又一情形包含音频生态系统,其可包含音频内容、游戏工作室、
经译码的音频内容、渲染引擎以及递送系统。在一些实例中,游戏工作室可包含可支持HOA
信号的编辑的一或多个DAW。举例来说,所述一或多个DAW可包含可经配置以与一或多个游
戏音频系统一起操作(例如,工作)的HOA插件和/或工具。在一些实例中,游戏工作室可输出
支持HOA的新原声格式。在任何情况下,游戏工作室可将经译码的音频内容输出到渲染引
擎,所述渲染引擎可渲染声场以供递送系统重放。
也可相对于例示性音频获取装置执行所述技术。例如,所述技术可相对于可包含
共同地经配置以记录3D声场的多个麦克风的本征麦克风来执行。在一些实例中,本征麦克
风的多个麦克风可位于具有大约4cm的半径的大体上球面球的表面上。在一些实例中,音频
编码装置20可集成到本征麦克风中以便直接从麦克风输出位流21。
另一例示性音频获取情形可包含可经配置以从一或多个麦克风,例如一或多个本
征麦克风接收信号的制作车。制作车还可包含音频编码器,例如图4A和4B的空间音频编码
装置20。
在一些情况下,移动装置还可包含共同地经配置以记录3D声场的多个麦克风。换
句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可经旋转以相
对于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编
码器,例如图4A和4B的空间音频编码装置20。
加固型视频捕获装置可经进一步配置以记录3D声场。在一些实例中,加固型视频
捕获装置可附接到参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟
时附接到所述用户的头盔。以此方式,加固型视频捕获装置可捕获表示用户周围的动作(例
如,水在所述用户身后的撞击、另一泛舟者在所述用户前方说话等)的3D声场。
还可相对于可经配置以记录3D声场的配件增强型移动装置执行所述技术。在一些
实例中,移动装置可类似于上文所论述的移动装置,其中添加一或多个配件。举例来说,本
征麦克风可附接到上文所提到的移动装置以形成配件增强型移动装置。以此方式,配件增
强型移动装置可捕获3D声场的较高质量版本,而不是仅使用与配件增强型移动装置成一体
式的声音捕获组件。
下文进一步论述可执行本发明中描述的技术的各个方面的实例音频重放装置。根
据本发明的一或多个技术,扬声器和/或声棒可以任何任意配置布置,同时仍然重放3D声
场。此外,在一些实例中,头戴式耳机重放装置可经由有线或无线连接耦合到解码器24。根
据本发明的一或多个技术,可利用声场的单一通用表示来在扬声器、声棒和头戴式耳机重
放装置的任何组合上渲染声场。
多个不同实例音频重放环境还可适合于执行本发明中描述的技术的各个方面。举
例来说,以下环境可为适用于执行本发明中描述的技术的各个方面的环境:5.1扬声器重放
环境、2.0(例如,立体声)扬声器重放环境、具有全高前扩音器的9.1扬声器重放环境、22.2
扬声器重放环境、16.0扬声器重放环境、汽车扬声器重放环境,以及具有耳机重放环境的移
动装置。
根据本发明的一或多个技术,可利用声场的单一通用表示来在前述重放环境中的
任一者上渲染声场。另外,本发明的技术使得渲染器能够从通用表示渲染声场以供在除上
文所述的环境之外的重放环境上播放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器
重放环境的恰当放置(例如,如果不可以放置右环绕扬声器),那么本发明的技术使得渲染
器能够用其它6个扬声器进行补偿,使得可在6.1扬声器重放环境上实现重放。
此外,用户可在佩戴头戴式耳机的同时观看体育比赛。根据本发明的一或多个技
术,可获取运动比赛的3D声场(例如,可将一或多个本征麦克风放置在棒球场中和/或其周
围),可获得对应于3D声场的HOA系数并将所述HOA系数传输到解码器,所述解码器可基于
HOA系数重构3D声场且将经重构的3D声场输出到渲染器,并且所述渲染器可获得关于重放
环境的类型(例如,头戴式耳机)的指示,且将经重构的3D声场渲染成致使头戴式耳机输出
运动比赛的3D声场的表示的信号。
在上述各种实例中的每一个中,应理解,音频编码装置20可执行方法,或另外包括
执行音频编码装置20经配置以执行的方法中的每一步骤的装置。在一些情况下,这些装置
可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时
性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一个
中的技术的各个方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在
经执行时致使一或多个处理器执行音频编码装置20已经经配置以执行的方法。
在一或多个实例中,所描述的功能可用硬件、软件、固件或其任何组合实施。如果
以软件实施,那么所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或通过
计算机可读媒体传输,并且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机
可读存储媒体,其对应于例如数据存储媒体等有形媒体。数据存储媒体可为可由一或多个
计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数
据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样地,在上文所描述的各种例子中的每一个中,应理解,音频解码装置24可执行
方法或另外包括用于执行音频解码装置24经配置以执行的方法中的每一步骤的装置。在一
些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借
助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例
的集合中的每一个中的技术的各个方面可提供其上存储有指令的非暂时性计算机可读存
储媒体,所述指令在经执行时致使一或多个处理器执行音频解码装置24已经经配置以执行
的方法。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM
或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储呈
指令或数据结构形式的期望程序代码并且可由计算机存取的任何其它媒体。然而,应理解,
所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而
是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、
激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方
式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可
读媒体的范畴内。
可由一或多个处理器(例如一或多个数字信号处理器(DSP)、通用微处理器、专用
集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路)执行指令。
因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中描述的技术的任
一其它结构中的任一个。另外,在一些方面中,本文中所描述的功能性可以在经配置以用于
编码和解码的专用硬件和/或软件模块内提供,或者并入在组合编解码器中。而且,所述技
术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)
或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所
揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,
各种单元可以结合合适的软件和/或固件而组合在编码解码器硬件单元中,或者通过互操
作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
此外,如本文所使用,“A和/或B”表示“A或B”,或“A和B”两者。
已经描述了所述技术的各个方面。所述技术的这些和其它方面在所附权利要求书
的范畴内。