《用于编码多对象音频信号的设备和方法.pdf》由会员分享,可在线阅读,更多相关《用于编码多对象音频信号的设备和方法.pdf(23页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102883257 A (43)申请公布日 2013.01.16 C N 1 0 2 8 8 3 2 5 7 A *CN102883257A* (21)申请号 201210381376.2 (22)申请日 2007.12.27 10-2006-0135400 2006.12.27 KR 10-2007-0003897 2007.01.12 KR 10-2007-0007724 2007.01.25 KR 200780051758.6 2007.12.27 H04S 7/00(2006.01) (71)申请人韩国电子通信研究院 地址韩国大田市 (72)发明人白承权 徐廷。
2、一 李泰辰 李用主 张大永 洪镇佑 金镇雄 姜京玉 (74)专利代理机构北京市柳沈律师事务所 11105 代理人张银英 (54) 发明名称 用于编码多对象音频信号的设备和方法 (57) 摘要 本发明提供了一种用于编码和解码具有各种 声道的多对象音频信号的设备和方法,所述设备 和方法提供了与传统的空间音频编码(SAC)比特 流的后向兼容性。所述设备包括:音频对象编码 单元,用于基于空间线索来编码输入到编码设备 的音频对象信号,并创建用于编码后的音频对象 信号的渲染信息,其中所述渲染信息提供了包括 用于音频对象信号的空间线索信息、音频对象信 号的声道信息和音频对象信号的标识信息的编码 设备,并且所。
3、述编码设备使用在音频信号的编码 和解码中。 (30)优先权数据 (62)分案原申请数据 (51)Int.Cl. 权利要求书1页 说明书14页 附图7页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 14 页 附图 7 页 1/1页 2 1.一种用于编码多对象音频信号的设备,包括: 音频对象编码装置,用于基于空间线索来编码输入到编码设备的音频对象信号,并创 建用于编码后的音频对象信号的渲染信息, 其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息 和音频对象信号的标识信息。 2.根据权利要求1的编码设备,还包括: 音频声道编码装置。
4、,用于将输入到编码设备的多声道音频信号变换为音频对象信号, 并创建用于多声道音频信号的渲染信息; 预设声音场景创建装置,用于基于输入到编码设备的控制信号来创建包括音频对象信 号的声音信息和播放信息的预设信息;和 代表性比特流创建装置,用于创建代表性比特流,该代表性比特流包括从音频对象编 码装置输出的渲染信息、从音频声道编码装置输出的渲染信息、和预设信息, 其中从音频声道编码装置输出的渲染信息包括用于多声道音频信号的空间线索信息、 多声道音频信号的声道信息、和多声道音频信号的标识信息。 3.根据权利要求2的编码设备,其中所述音频声道编码装置是运动图象专家组(MPEG) 环绕编码器。 4.一种用于。
5、编码多对象音频信号的方法,包括如下步骤: 基于空间线索来对所输入的音频对象信号进行编码,并创建用于编码后的音频对象信 号的渲染信息, 其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息 和音频对象信号的标识信息。 5.根据权利要求4的编码方法,还包括如下步骤: 将所输入的多声道音频信号变换为音频对象信号,并创建用于多声道音频信号的渲染 信息; 基于所输入的控制信号来创建包括音频对象信号的声音信息和播放信息的预设信息; 和 创建代表性比特流,该代表性比特流包括从所述对所输入的音频对象信号进行编码的 步骤输出的渲染信息、从所述将所输入的多声道音频信号变换为音频对象信号并创建。
6、用于 多声道音频信号的渲染信息的步骤输出的渲染信息、和预设信息, 其中从所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频 信号的渲染信息的步骤输出的渲染信息包括:用于多声道音频信号的空间线索信息、多声 道音频信号的声道信息、和多声道音频信号的标识信息。 6.根据权利要求5的编码方法,其中所述将所输入的多声道音频信号变换为音频对象 信号并创建用于多声道音频信号的渲染信息的步骤是在运动图象专家组(MPEG)环绕编码 器中执行的。 权 利 要 求 书CN 102883257 A 1/14页 3 用于编码多对象音频信号的设备和方法 0001 本申请是申请日为2007年12月27日、申。
7、请号为200780051758.6、发明名称为“包 括信息比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方 法”的发明专利申请的分案申请。 技术领域 0002 本发明涉及一种用于对具有各种声道的多对象音频信号进行编码和解码的设备 和方法;且更具体地,涉及一种包括边信息(side information)比特流转换的用于对具有 各种声道的多对象音频信号进行编码和解码的设备和方法,所述边信息比特流转换用于变 换边信息比特流、并基于变换后的边信息比特流来恢复具有所期望的输出信号(即,各种声 道)的多对象音频信号。 0003 具有各种声道的多对象音频信号表示用于针对每个音频对象具。
8、有不同声道(例 如,单声道、立体声和5.1声道)的多对象的音频信号。 0004 这项工作受MIC/IITA的IT R&D规划2005-S-403-02,“Development of Super-intelligent Multimedia Anytime-anywhere Realistic TV SmarTV Technology (超智能多媒体任何时间任何地点逼真TV智能TV技术的开发)”支持。 背景技术 0005 根据传统的音频编码/解码技术,用户应该被动地(inactively)聆听音频内容。 这样,需要开发一种用于对在用于多个音频对象的多声道中的音频信号进行编码和解码的 设备和方法。
9、,使得可以通过根据用户的需要而控制其每一个具有不同声道的音频对象并以 各种方法而组合一个音频内容,来消费各种音频对象。 0006 传统的空间音频编码(SAC)是一种用于将多声道音频信号代表、传送、和恢复为缩 混后的单声道或立体声信号的技术,并且它可以以低比特率来传送高质量的多声道音频信 号。 0007 然而,由于传统的SAC能够对在仅用于一个音频对象的多声道中的信号进行编码 和解码,所以它不能编码/解码多声道和多对象音频信号,例如,用于多声道(例如,单声 道、立体声和5.1声道)中的各种对象的音频信号。 0008 此外,传统的心理声学编码(BCC:Binaural Cue Coding)技术可。
10、以编码/解码用 于多对象的音频信号。然而,由于音频对象的声道限于单声道,所以不能对具有包括单声道 的各种声道的多对象音频信号进行编码/解码。 0009 总之,由于传统的技术仅可以编码/解码具有单个声道的多对象音频信号、或者 具有多声道的单对象音频信号,所以不能对具有各种声道的多对象音频信号进行编码/解 码。因此,根据传统的音频编码/解码技术,用户应该被动地聆听音频内容。 0010 相应地,需要开发一种用于对在用于每个多音频对象的各种声道中的音频信号进 行编码和解码的设备和方法,以通过控制根据用户的需要而不同的多声道中的每个音频对 象、并根据各种方法而组合一个音频内容来消费各种音频对象。 说 明。
11、 书CN 102883257 A 2/14页 4 0011 此外,需要一种用于将多对象音频比特流转换为传统的SAC比特流并且反之亦然 的设备和方法,以提供在多对象音频编码器中创建的边信息比特流与传统的SAC编码器/ 解码器的边信息比特流之间的后向兼容性。 0012 如上所述,作为用于通过单独控制具有不同声道的多个音频对象并根据各种方法 而组合一个音频内容来对各种声道的多对象音频信号进行编码和解码的设备和方法,需要 开发一种可执行比特流转换的多声道和多对象音频编码和解码设备及方法,以提供与传统 SAC比特流的后向兼容性,并控制具有多声道的每个多音频对象,从而以多样的方法来组合 一个音频对象。 发。
12、明内容 0013 技术问题 0014 本发明的实施例旨在提供一种用于对具有各种声道的多对象音频信号进行编码 和解码、以提供与传统的空间音频编码(SAC)比特流的后向兼容性的设备和方法。 0015 技术解决方案 0016 根据本发明的一方面,提供了一种用于编码多对象音频信号的设备,包括:音频对 象编码单元,用于基于空间线索(spatial cue)来编码输入到编码设备的音频对象信号,并 创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息包括用于音频对象信号的 空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。 0017 根据本发明的又一方面,提供了一种用于创建渲染信息来解码多对。
13、象音频信号的 代码转换设备,包括:第一矩阵单元,用于基于已编码音频对象信号的对象控制信息和播放 信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位 置信息;和渲染单元,用于基于第一矩阵单元所创建的渲染信息和用于从编码设备输入的 已编码音频对象信号的渲染信息,来创建用于要从解码设备输出的音频信号的空间线索信 息。 0018 根据本发明的又一方面,提供了一种用于创建多声道音频信号和用于解码多声道 音频信号的渲染信息的代码转换设备,包括:解析单元,用于从用于由编码设备输入的已编 码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信 号的渲染信息;第。
14、一矩阵单元,用于基于已编码音频对象信号的对象控制信息和播放信息 来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信 息;第二矩阵单元,用于基于由解析单元单独获取的用于已编码多声道音频信号的渲染信 息,来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息,和渲染单元, 用于基于第一矩阵单元所创建的渲染信息、第二矩阵单元所创建的渲染信息、和由解析单 元单独获取的用于已编码音频对象信号的渲染信息,来创建用于从解码设备输出的音频信 号的空间线索信息。 0019 根据本发明的又一方面,提供了一种用于编码多对象音频信号的方法,包括如下 步骤:基于空间线索来对所输入的音。
15、频对象信号进行编码,并创建用于编码后的音频对象 信号的渲染信息,其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信 号的声道信息和音频对象信号的标识信息。 0020 根据本发明的又一方面,提供了一种用于创建渲染信息来解码多对象音频信号的 说 明 书CN 102883257 A 3/14页 5 代码转换方法,包括如下步骤:基于已编码音频对象信号的对象控制信息和播放信息来创 建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息; 和基于在所述创建渲染信息的步骤中创建的渲染信息和用于在编码之后输入的已编码音 频对象信号的渲染信息,来创建用于要在解码之后输出的音频信。
16、号的空间线索信息。 0021 根据本发明的又一方面,提供了一种用于创建渲染信息以解码多声道音频信号和 多对象音频信号的代码转换方法,包括如下步骤:从用于在编码之后输入的已编码音频信 号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染 信息;基于用于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染 信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;基于在所述分出渲染 信息的步骤中单独获取的用于已编码多声道音频信号的渲染信息,来创建包括用于多声道 音频信号的每个声道的功率增益信息的渲染信息,和基于在所述创建包括功率增益信息和 输出位置信息的渲染信。
17、息的步骤中创建的渲染信息、在所述创建包括用于多声道音频信号 的每个声道的功率增益信息的渲染信息的步骤中创建的渲染信息、和在所述分出渲染信息 的步骤中单独获取的用于已编码音频对象信号的渲染信息,来创建用于要在解码之后输出 的音频信号的空间线索信息。 0022 有利效果 0023 通过提供一种能够执行边信息比特流转换的用于编码和解码具有各种声道的多 对象音频信号的设备和方法,本发明可通过有效地编码和解码各种声道中的多对象音频内 容而根据用户的需要来主动地消费音频内容。此外,本发明可通过提供与传统上使用的比 特流的后向兼容性,来提供与传统编码和解码设备的兼容性。 附图说明 0024 图1是示出了根据。
18、本发明实施例的多对象音频编码器和多对象解码器的框图。 0025 图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。 0026 图3是图示了根据本发明实施例的图2的代码转换器(transcoder)103的框图。 0027 图4图示了根据本发明实施例的由图2的比特流格式器(formatter)205创建的 代表性空间音频对象编码(SAOC)比特流。 0028 图5示出了根据本发明另一实施例的图2的代表性SAOC比特流。 0029 图6是示出了根据本发明另一实施例的图2的代码转换器103的框图。 0030 图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象去除器 70。
19、1的情况的框图。 0031 图8是示出了用MPEG环绕编码器和解码器来替换图2的SAC编码器201和SAC 解码器105的情况的框图。 具体实施方式 0032 根据下文中陈述的参考附图的以下实施例描述,本发明的优点、特征和方面将变 明显。下文中将参考附图来详细描述本发明的特定实施例。 0033 图1是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。 0034 参考图1,本发明包括:空间音频对象编码器(SAOC)101、代码转换器103、和空间 说 明 书CN 102883257 A 4/14页 6 音频编码(SAC)105。 0035 根据SAOC方法,输入到编码器的信号被编码为。
20、音频对象。每个音频对象不由解码 器恢复并独立地播放。然而,用于音频对象的信息被渲染(render)以形成所期望的音频场 景,并输出具有各种声道的多对象音频信号。因此,SAC解码器需要用于渲染被输入以获取 所期望的音频场景的用于音频对象的信息的设备。 0036 SAOC编码器101是基于空间线索的编码器,并将输入音频信号编码为音频对象。 所述音频对象是向SAOC编码器101输入的单声道或立体声信号。 0037 SAOC编码器101输出来自多于一个输入音频对象的缩混信号,并通过提取空间线 索和边信息来创建SAOC比特流。所输出的缩混信号是单声道或立体声信号。SAOC编码器 101基于“异类布局SA。
21、OC”或者“Faller”技术来分析所输入的音频对象信号。 0038 所提取的SAOC比特流包括空间线索和边信息,并且所述边信息包括输入音频对 象的空间信息。一般基于频率区域子带单位来分析并提取所述空间线索。 0039 所述空间线索是在编码和解码音频信号中使用的信息。它提取自频率区域,并包 括用于所输入的两个信号之间的大小差、延迟差和相关性的信息。例如,空间线索包括:用 于示出音频信号的功率增益信息的、音频信号之间的声道电平差(CLD);音频信号之间的声 道间电平差(ICLD);音频信号之间的声道间时间差(ICTD);用于示出音频信号之间的相关 信息的、音频信号之间的相关声道间相关(ICC);。
22、和音频信号之间的虚拟源位置信息,但是 不限于这些示例。 0040 此外,所述边信息包括用于恢复并控制空间线索和音频信号的信息。所述边信息 包括标首信息。所述标首信息包括用于恢复并播放具有各种声道的多对象音频信号的信 息,并且可通过定义用于音频对象的声道信息和音频对象的标识(ID)来提供用于具有单声 道、立体声或多声道的音频对象的解码信息。例如,定义用于每个对象的ID和信息,以标识 已编码的特定音频对象是单声道音频信号还是立体声音频信号。作为实施例,所述标首信 息可包括:空间音频编码(SAC)标首信息、音频对象信息和预设信息。 0041 代码转换器103渲染被输入到SAOC编码器101的音频对象。
23、,并基于从外部输入的 控制信号(即,每个对象的声音信息和播放环境信息)来将从SAOC编码器101提取的SAOC 比特流变换为SAC比特流。 0042 也就是说,代码转换器103基于所提取的SAOC比特流执行渲染,以将输入到SAOC 编码器101的音频对象恢复为具有各种声道的多对象音频信号。可以在参数区域执行基于 边信息的渲染。 0043 此外,代码转换器103将SAOC比特流变换为SAC比特流。所述代码转换器103从 SAOC比特流获得输入音频对象的信息,并与所期望的音频场景对应地渲染输入音频对象的 信息。在渲染过程中,代码转换器103预测与所期望的音频场景对应的空间信息,变换并输 出已预测的。
24、空间信息作为SAC边信息比特流。 0044 将参考图3来详细描述代码转换器103。 0045 SAC解码器105是基于空间线索的多声道音频解码器,基于从代码转换器103输出 的SAC比特流而将从SAOC编码器101输出的缩混信号恢复为每个对象的音频信号,并将每 个对象的音频信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用运动图 象专家组(MPEG)环绕解码器和心理声学编码(BCC)解码器来替换。 说 明 书CN 102883257 A 5/14页 7 0046 图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图,并 示出了输入信号是具有各种声道的多对象音频信号的。
25、情况。 0047 参考图2和图1,本发明包括:SAOC编码器101、代码转换器103、SAC解码器105、 SAC编码器201、预设音频场景信息(ASI)203和比特流格式器205。 0048 当SAOC编码器101仅支持单声道或立体声音频对象时,SAC编码器201从所输入 的多声道音频信号输出一个音频对象。所输出的音频对象是缩混后的单声道或立体声信 号。此外,SAC编码器201提取空间线索和边信息,并创建SAC比特流。 0049 SAOC编码器101从包括由SAC编码器201输出的一个音频对象的多于一个音频对 象输出代表性缩混信号,提取空间线索和边信息,并创建SAOC比特流。 0050 预设。
26、ASI 203将从外部输入的控制信号(即,每个对象的声音信息和播放环境信 息)形成为预设ASI,并创建包括预设ASI的预设ASI比特流。将参考图4来详细描述预设 ASI。 0051 比特流格式器205基于由SAOC编码器101创建的SAOC比特流、由SAC编码器201 创建的SAC比特流、和由预设ASI 203创建的预设ASI比特流,来创建代表性SAOC比特流。 0052 代码转换器103渲染向SAOC编码器101输入的音频对象,并基于从外部输入的每 个对象的声音信息和播放环境信息来将比特流格式器205所创建的代表性SAOC比特流变 换为代表性SAC比特流。代码转换器103被包括在SAC解码器。
27、105中并如上所述地起作用。 0053 SAC解码器105基于从代码转换器103输出的SAC比特流,来将从SAOC编码器101 输出的缩混信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用MPEG环绕 解码器和BCC解码器来替换。 0054 图3是图示了根据本发明实施例的图2的代码转换器103的框图。 0055 参考图3,代码转换器103包括:解析单元301、渲染单元303、第二矩阵单元311、 和第一矩阵单元313,并将代表性SAOC比特流变换为代表性SAC比特流。 0056 在图1中,代码转换器103将SAOC比特流变换为SAC比特流。 0057 解析单元301解析由比特流格。
28、式器205创建的代表性SAOC比特流或者由图1的 SAOC编码器101创建的SAOC比特流,并划分在所述代表性SAOC比特流中包括的SAOC比特 流和SAC比特流。此外,解析单元301从已划分SAOC比特流中提取用于输入到SAOC编码 器101的音频对象数目的信息。由于当解析由图1的SAOC编码器101创建的SAOC比特流 时没有SAC比特流,所以不必划分SAC比特流。 0058 第二矩阵单元311基于由解析单元301划分的SAC比特流创建第二矩阵。第二矩 阵是关于输入到SAC编码器201的多声道音频信号的行列式。当在代表性SAOC比特流中 不包括SAC比特流时,即当解析由图1的SAOC编码器。
29、101创建的SAOC比特流时,不需要第 二矩阵单元311。 0059 第二矩阵示出了输入到SAC编码器201的多声道音频信号的功率增益值,并示出 在等式1中。 说 明 书CN 102883257 A 6/14页 8 0060 等式1 0061 通常,在将一个帧划分为子带之后的分析是SAC的基本分析过程。 0062 是从SAC编码器201输出的缩混信号;k是频率系数索引;并且b是子带索 引。是从SAC比特流获得的多声道信号的空间线索信息,并用于恢复第i声道信号的 频率信息,1iM。因此,可以表达为频率系数的大小信息或相位信息。因此,在等 式1的右边项中,是等式1的结果,并示出了从SAC解码器10。
30、5输出的多声道音频信 号。 0063 和是向量,并且的转置矩阵的维数是的维数。例如,这将被 描述为等式2。由于从SAC编码器201输出的缩混信号是单声道或立体声,所以m是1或 2。 0064 等式2 0065 如上所述,是包括在SAC比特流中的空间线索信息。当指示每个声道的子 带中的功率增益时,可以从声道电平差空间线索中预测当被用作用于补偿频率系 数的相位差的系数时,可以从声道时间差空间线索或声道间相干空间线索中预测。 0066 作为示例,将描述被用作用于补偿频率系数之间的相位差的系数的情况。 0067 等式1的第二矩阵应表达每个声道的功率增益值,并且是缩混信号的向量的维 数的逆,使得可以利用。
31、从SAC编码器201输出的缩混信号通过矩阵运算来创建输出信号 0068 当第二矩阵单元311创建满足等式1和2的第二矩阵时,渲染单元303组合所创 建的第二矩阵和第一矩阵单元313的输出。 0069 第一矩阵单元313基于控制信号(例如,对象控制信息和播放系统信息),来创建期 望多于一个的、输入到SAOC编码器101的音频对象的输出,即要被映射到具有各种声道的 多对象音频信号的第一矩阵。 0070 当输入到SAOC编码器101的音频对象的数目是N时,从SAC编码器201输出的缩 混信号被认为是一个音频对象并包括在所输入的N个音频对象中。相应地,除了从SAC编 码器201输出的缩混信号之外的每个。
32、音频对象可以基于第一矩阵而被映射到从SAC解码器 105输出的声道。 0071 当从SAC解码器105输出的声道的数目是M时,第一矩阵可满足接下来的条件。 说 明 书CN 102883257 A 7/14页 9 0072 等式3 0073 其中是用于示出音频对象i的子带信号的信息的向量,1iN-1,并且是可 以从SAOC比特流获得的空间线索信息。当音频对象i是立体声时,是21矩阵向量。 是示出用于将第j音频对象映射到第i输出声道的功率增益信息或相位信息的第一矩阵 的元素向量,并且可以从由外部输入或者被设置为初始值的控制信息(例如,对象控制信息 和播放系统信息)中获得。 0074 满足等式3的条。
33、件的第一矩阵被传送到渲染单元303,并且在渲染单元303中运算 等式3。 0075 将在等式4和5中详细描述等式3的运算符和运算过程。 0076 等式4 0077 0078 等式5 0079 当所输入的音频对象是单声道和立体声时,m是2。 0080 例如,当所输入的音频对象的数目是Y、m2、并且所输出的声道的数目是M时, 第一矩阵的维数是MY,且Y数目个被形成为21矩阵。当包括从SAC编码器201输 出的音频对象时,考虑YY-1。作为等式3的运算结果,应该能够表达包括所输出的声道 的功率增益向量的矩阵。所表达的向量的维数是M2,并反映作为所输出的声道的数 目的M和作为所输入的音频对象的布局的2。
34、。 0081 再次参考图3,渲染单元303从第一矩阵313和第二矩阵311接收第一矩阵和第二 矩阵。渲染单元303获得从由解析单元301划分的SAOC比特流获得的每个音频对象的空 间线索信息通过组合基于第一矩阵和第二矩阵计算的输出向量来获得所期望的空间 线索信息,并创建包括所期望的空间线索信息的代表性SAC比特流。所期望的空间线索指 的是与输出多声道音频信号有关的空间线索,期望由用户从SAC解码器105输出所述输出 多声道音频信号。 说 明 书CN 102883257 A 8/14页 10 0082 如等式6地示出了用于基于第一矩阵和第二矩阵来获得所期望的空间线索信息 的运算。 0083 等式。
35、6 0084 当创建第一矩阵时没有考虑P N ,并且P N 示出了从SAC编码器201输出的音频对象 的功率之和与直接输入到SAOC编码器101的音频对象的功率的比率。 0085 P N 可表达为等式7。 0086 等式7 0087 因此,当是所输出的声道的功率时,在音频对象的渲染之后的每个声道的功 率比被示出为可以从中重新提取所期望的空间线索参数。例如,提取ch_2和 ch_1之间的声道电平差(CLD)参数如等式8所示。 0088 等式8 0089 当所传送的缩混信号是单声道信号时,CLD参数如等式9所示。 0090 等式9 0091 所输出的声道的功率比被表达为作为空间线索参数的CLD,相。
36、邻声道之间的空间 线索参数被表达为来自给定信息的各种组合的格式。渲染单元303基于霍夫曼编码 方法来创建包括从提取的空间线索(例如,CLD参数)的SAC比特流。 0092 在由渲染单元303创建的SAC比特流中包括的空间线索具有根据解码器的特性而 不同的分析和提取方法。 0093 例如,BCC解码器可基于一个声道使用等式8来提取N-1个CLD参数。此外,MPEG 环绕解码器可根据MPEG环绕的每个声道的比较顺序来提取CLD参数。 0094 也就是说,解析单元301划分SAC比特流和SAOC比特流,并且第二矩阵单元311 基于解析单元301所划分的SAC比特流和从SAC解码器105输出的多声道音。
37、频信号来创建 第二矩阵,如等式1所示。第一矩阵单元313创建与控制信号对应的第一矩阵。解析单元 301所划分的SAOC比特流被传送到渲染单元303,并且渲染单元303从所传送的SAOC比特 流中获得对象的信息,利用第一矩阵执行运算,组合运算结果和第二矩阵,创建从 所创建的中提取空间线索,并创建代表性SAC比特流。 说 明 书CN 102883257 A 10 9/14页 11 0095 也就是说,从所创建的中提取的空间线索变成所期望的空间线索。代表性 SAC比特流是根据MPEG环绕解码器或BCC解码器的特性而适当变换的比特流,并且可恢复 为具有各种声道的多对象信号。 0096 图4图示了根据本。
38、发明实施例的由图2的比特流格式器205创建的代表性空间音 频对象编码(SAOC)比特流。 0097 参考图4,由比特流格式器205创建的代表性SAOC比特流是通过组合SAOC编码器 101所创建的SAOC比特流和SAC编码器201所创建的SAC比特流来创建的,并且所述代表 性SAOC比特流包括由预设ASI 203所创建的预设ASI比特流。将参考图5来详细描述所 述预设ASI比特流。 0098 用于组合SAOC比特流和SAC比特流的第一方法是一种用于通过直接多路复用每 个比特流来创建一个比特流的方法。在代表性SAOC比特流中串联连接SAOC比特流和SAC 比特流(参见401)。 0099 第二方。
39、法是一种用于当存在SAOC附属(ancillary)数据区时、通过在SAOC附属 数据区中包括SAC比特流信息来创建一个比特流的方法。在代表性SAOC比特流中串联连 接SAOC比特流和附属数据区域,并且附属数据区包括SAC比特流(参见403)。 0100 第三方法是一种用于表达如下区域的方法,所述区域将在SAOC比特流和SAC比特 流中的类似空间线索编码为相同比特流。例如,代表性SAOC比特流的标首信息区域包括 SAOC比特流标首信息和SAC比特流标首信息,并且代表性SAOC比特流的每个特定区域包括 与特定CLD有关的SAOC比特流和SAC比特流(参见405)。 0101 图5示出了根据本发明。
40、另一实施例的图2的代表性SAOC比特流,并示出了代表性 SAOC比特流包括多个预设ASI的情况。 0102 参考图5,代表性SAOC比特流包括预设ASI区域。所述预设ASI区域包括多个预 设ASI,并且预设ASI包括音频对象的控制信息和布局信息。 0103 当基于代码转换器103渲染音频对象时,应该输入每个音频对象的位置信息、控 制信息和所输出的播放扬声器布局信息。 0104 当没有输入控制信息和播放扬声器布局信息时,在代码转换器103中将每个音频 对象的控制信息和布局信息设置为默认值。 0105 代表性SAOC比特流或代表性SAC比特流的边信息或标首信息包括被设置为默认 值的控制信息和布局信。
41、息、或者所输入的音频对象控制信息和布局信息。控制信息可以用 两种方式来表达。第一,直接表达每个音频对象的控制信息(例如,位置和电平)和扬声器的 布局信息。第二,以第一矩阵格式来表达控制信息和扬声器的布局信息,并且可以使用所述 信息来替代第一矩阵单元313中的第一矩阵。 0106 预设ASI示出了音频对象控制信息和扬声器的布局信息。也就是说,预设ASI包 括扬声器的布局信息以及每个音频对象的位置和电平信息,以形成适合于扬声器的布局信 息的音频场景。 0107 如上所述,直接表达预设ASI或者以第一矩阵格式来表达预设ASI,以便将解析单 元301所提取的预设ASI传送到代表性SAC比特流。 010。
42、8 当直接表达预设ASI时,预设ASI可包括播放系统的布局(例如,单声道/立体声 /多声道)、音频对象ID、音频对象布局(例如,单声道或立体声)、音频对象位置、范围为从0 说 明 书CN 102883257 A 11 10/14页 12 度到360度的方位角、范围为-50度到90度的立体声播放仰角、和音频对象电平信息-50dB 至50dB。 0109 当以第一矩阵格式表达预设ASI时,形成用于反映预设ASI的等式3的P矩阵,并 且将P矩阵传送到渲染单元303。P矩阵包括作为元素向量的用于将每个音频对象映射到 所输出的声道的功率增益信息或相位信息。 0110 预设ASI可定义关于所输入的同一音频。
43、对象的与所期望的播放情景对应的不同 音频场景。例如,可根据内容产生器的对象和播放服务来另外传送在立体声或多声道(5.1、 7.1)播放系统中需要的预设ASI。 0111 图6是示出了根据本发明另一实施例的图2的代码转换器103的框图,并示出了 没有从外部输入控制信号的情况。 0112 参考图6,代码转换器103包括解析单元301和渲染单元303。代码转换器103可 接收第二矩阵单元311、第一矩阵单元313、预设ASI提取单元601和矩阵确定单元603的 帮助。 0113 如上所述,当在代码转换器103中没有从外部输入的控制信号时,应用预设ASI。 0114 解析单元301分开在代表性SAOC。
44、比特流中包括的SAOC比特流和SAC比特流,解析 在代表性SAOC比特流中包括的预设ASI比特流,并将所述预设ASI比特流传送到预设ASI 提取单元601。 0115 预设ASI提取单元601从所解析的预设ASI比特流中输出默认的预设ASI。然而, 当存在对于选择预设ASI的请求时,输出所请求的预设ASI。 0116 当预设ASI提取单元601所输出的预设ASI是所选择的预设ASI时,矩阵确定单 元603确定所选择的预设ASI是否是第一矩阵格式。当所选择的预设ASI直接表达该信息 时,将预设ASI传送到第一矩阵单元313,并且第一矩阵单元313基于预设ASI来创建第一 矩阵。当所选择的预设AS。
45、I是第一矩阵时,使用预设ASI作为直接输入到渲染单元303的 信号。 0117 图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象去除器 701的情况的框图。 0118 参考图7,音频对象去除器701用于从SAOC编码器101所创建的代表性缩混信号 中去除特定的音频对象。音频对象去除器701接收SAOC编码器101所创建的代表性缩混 信号和来自代码转换器103的代表性SAOC比特流信息,并去除特定的音频对象。例如,可 通过渲染单元303提供被传送到音频对象去除器701的代表性SAOC比特流信息。 0119 例如,将描述其中仅将作为SAC编码器201的缩混信号的音频对象(对象N)用 。
46、作SAC解码器105的输入信号的情况。 0120 SAOC编码器101根据每个子带来提取所输入的音频对象的每个功率大小作为CLD 值,并创建包括CLD值的SAOC比特流。可如下获得用于特定子带m的功率信息。 0121 0122 其中是由SAOC编码器101输出的代表性缩混信号的第m频带的功率大小。 因此,u(n)是输入到音频对象去除器701的代表性缩混信号,并且U(f)正将代表性缩混信 号变换到频率区域。 说 明 书CN 102883257 A 12 11/14页 13 0123 当U modified (f)是音频对象去除器701的输出信号(即,SAC解码器105的输入信号) 时,U mod。
47、ified (f)对应于SAC编码器201的缩混信号的音频对象(对象N),并表达为等式10。 0124 等式10 0125 其中A(m)表示第m子带的频率区域中的边界;是用于控制电平大小的特定常 数值;并且U(f)是单声道或立体声。 0126 下文中将描述U(f)是单声道的情况。除了将U(f)划分为左声道和右声道并进行 处理之外,U(f)是立体声的情况与U(f)是单声道的情况相同。 0127 U modified (f)被认为与作为SAC编码器201的缩混信号的音频对象(对象N)相同。 因此,输入到SAC解码器105的代表性SAC比特流是从代表性SAOC比特流中排除SAOC比特 流之后的比特流。
48、,并且可同等地用于从SAC编码器201输出的SAC比特流。也就是说,SAC 解码器105接收对象N,并将对象N恢复为M个多声道信号。然而,整个信号的电平是 通过代码转换器103的渲染单元303、或者通过利用将等式10乘以特定常数值而调制对象 N的信号电平来控制的。 0128 作为实施例,将描述其中仅要从SAC解码器105的输入信号去除作为SAC编码器 201的缩混信号的对象N的情况。 0129 等式10与等式11相同。 0130 等式11 0131 因此,输入到SAC解码器105的代表性SAC比特流是从代表性SAOC比特流中排除 SAC编码器201的SAC比特流之后的比特流,并被认为在渲染单元。
49、303的第二矩阵中没有输 出。也就是说,代码转换器103通过解析代表性SAOC比特流块并仅渲染排除用于对象N 的音频对象信息之外的剩余信息,来创建代表性SAC比特流。 0132 因此,在代表性SAC比特流中不包括用于对象N的功率增益信息和相关信息。在 等式11中,是用于控制电平大小的特定常数值,正如等式10一样,并且可控制整个输出 信号电平。 0133 音频对象去除器701从代表性缩混信号中去除音频对象,并且通过输入到代码转 换器103的控制信号来确定去除命令。音频对象去除器701可以应用时间区域信号和频率 区域信号二者。此外,可使用离散傅立叶变换(DFT)或正交镜像过滤带(QMF:Quadrature Mirr。