用于将数字视频编码和解码的方法以及相关编码和解码设备.pdf

摘要
申请专利号：	CN201380053840.8	申请日：	2013.10.14
公开号：	CN104813657A	公开日：	2015.07.29
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效 IPC(主分类):H04N 13/00申请日:20131014\|\|\|公开
IPC分类号：	H04N13/00; H04N21/236	主分类号：	H04N13/00
申请人：	RAI意大利无线电视股份有限公司; 意大利希思卫电子发展股份公司
发明人：	M.阿雷纳; G.巴洛卡; P.森纳
地址：	意大利罗马
优先权：	TO2012A000901 2012.10.15 IT
专利代理机构：	中国专利代理(香港)有限公司72001	代理人：	张凌苗; 刘春元
PDF下载：	PDF下载

内容摘要

描述了一种用于通过从2D和/或3D视频帧的多个序列开始生成视频流的方法，其中，视频流生成器将来自N个不同源（S1,S2,S3,SN）的视频帧组合成容器视频帧，并且生成被编码器编码的容器视频帧的单个输出视频流，其中，所述编码器向所述输出视频流中输入适于指示容器视频帧的结构的信令。还描述了一种用于重新生成所述视频流的相应方法。

权利要求书

权利要求书1. 一种用于对由一个或多个独立分量区域组成的数字视频流进行编码的方法，包括输入指示一个或多个可独立解码区域的存在的信令的步骤，其特征在于编码方法包括输入指示一个或多个分量区域与一个或多个可独立解码区域之间的关联的信令的进一步步骤。2. 根据权利要求1所述的用于对数字视频流进行编码的方法，还包括输入指示所述一个或多个分量区域的内容的类型的描述符的步骤。3. 根据权利要求1或2所述的编码方法，其中，所述可独立编码区域中的每一个被编码为瓦片。4. 根据权利要求1和2中的任一项所述的编码方法，其中，采用的编码技术是H.264/AVC或HEVC。5. 根据前述权利要求中的任一项所述的编码方法，其中，指示一个或多个分量区域与一个或多个可独立解码区域之间的关联的信令和指示一个或多个分量区域的内容的类型的描述符是SEI消息。6. 根据权利要求1至3中的任一项所述的编码方法，其中，指示一个或多个分量区域与一个或多个可独立解码区域之间的关联的信号和指示一个或多个分量区域的内容的类型的描述符被输入到SPS信令中或PPS信令中。7. 根据前述权利要求中的任一项所述的编码方法，其中，指示一个或多个分量区域与一个或多个可独立解码区域之间的关联的信号由位掩码组成。8. 根据前述权利要求中的任一项所述的编码方法，其中，数字视频流的一个或多个分量区域表示一个或多个独立视频流。9. 根据权利要求8所述的编码方法，其中，独立视频流包括一个或多个以下格式：—一个或多个立体视频对；—视频流和深度图；—帧封装排列格式中的一个或多个视频流；—独立视频的镶嵌。10. 根据权利要求2所述的编码方法，其中，描述符包括一个或多个元数据，其描述：—帧封装排列；—内容解释类型；—视图ID。11. 一种用于将由一个或多个独立分量区域组成的数字视频流解码的方法，包括读取指示一个或多个可独立解码区域的存在的信号的步骤，并且还包括以下步骤中的至少一个：—读取指示一个或多个分量区域与一个或多个可独立解码区域之间的关联的信令，—读取指示一个或多个可独立解码区域中的每一个的内容的类型的描述符，并且包括进一步步骤：——选择由所述信令或由所述描述符指示的可独立解码区域中的一个或多个以用于解码。12. 根据权利要求11所述的解码方法，其中，解码器基于其自己的计算资源的评估来选择可独立解码区域中的一个或多个。13. 根据权利要求11所述的解码方法，其中，使得一个或多个已解码区域可用于在单个显示器上显示。14. 根据权利要求11所述的解码方法，其中，使得一个或多个已解码区域可用于在多个异构设备上显示。15. 根据权利要求11至14中的任一项所述的解码方法，其中，要解码的一个或多个可独立解码区域的选择由外部控制信号确定。16. 根据权利要求15所述的解码方法，其中，作为与一个或多个显示器协商显示格式的过程的结果而自动地生成控制信号。17. 根据权利要求15所述的解码方法，其中，作为由用户手动地选择显示格式的过程的结果而生成控制信号。18. 一种用于生成由一个或多个独立分量区域组成的数字视频流的设备，包括用于将多个分量视频流组成单个视频流的源组成器和实现权利要求1至10中的任一项的编码方法的视频编码器。19. 根据权利要求18所述的生成设备，其中，源组成器和/或视频编码器被实现为编程部件。20. 一种解码设备，其包括适于执行根据权利要求11至14中的任一项所述的解码方法的读取和选择装置。21. 一种包括根据权利要求20所述的解码设备的视频流处理设备，其特征在于其包括适于自动地或手动地选择独立解码的区域中的一个或多个以用于显示的其他装置。22. 一种包括根据权利要求21所述的解码器的智能网关，其特征在于包括适于借助于合适的协商过程来选择独立解码的区域中的一个或多个的显示格式的其他选择装置。

说明书

说明书用于将数字视频编码和解码的方法以及相关编码和解码设备
本发明涉及一种用于将数字视频编码和解码的方法，特别是用于将视频流编码成独立分区的方法以及涉及用于将构成视频流的一个或多个分区独立地解码的相应方法。
本发明还涉及一种用于将视频流编码成独立分区的设备以及涉及用于将所述分区中的一个或多个独立地解码的设备。很长时间以来已知表示相同事件或多媒体服务（多视图视频-免费观看视频）的镶嵌（mosaic）的不同视图的独立视频流的编码和分发。将此类多视图视频分发给用户通常要求对与生成的视图的数量匹配的多个独立视频流进行编码。
例如在文献“ISO/IEC 13818-1 : 2000 (E) - Information technology— Generic coding of moving pictures and associated audio information: Systems”中或在文献“ISO/IEC 14496-10 Information technology— Coding of audio-visual objects Part 10: Advanced Video Coding”且在此后称为H.264/AVC规范的相应文献“ITU-T H.264 - Advanced video coding for generic audiovisual services”中描述了这种编码和解码方法。当前在使用中的编码方法具有若干缺点，诸如：使用等于要分发的视频分量的数量的多个视频编码器的必要性；正在分发的视频流之中和视频流与相应音频流之间的相互困难的同步；由于复制将每个独立流解码所需的类似信令元素的需要而增加的传输视频流所需频带。另一方面，相应的解码方法要求将多个解码器用于解码并显示正在传输的两个或更多视图，这导致用户终端架构的较高复杂性和成本。
还已知的是可以将单个视频流用于分发多个独立视图，例如所谓的“镶嵌”服务的情况就是这样，其中，单个帧由从独立视频提取的并组成为一个图像的n个帧组成，或者由被组成为单个帧的3D立体像对的两个分量视频（所谓的“帧封装排列（Frame Packing Arrangements）”或“帧兼容格式”）组成。通常通过使用可用压缩技术中的任何一个来压缩此类复合视频，可用压缩技术诸如例如MPEG-2、H.264/AVC、HEVC。此类压缩技术未提供允许规范依从解码器独立地将分量视频流中的一个或多个解码的工具。已经开发了允许2D解码器从已解码视频中提取立体像对的两个分量视图中的仅一个的方法，但是这些方法依赖于一旦整个容器帧已被解码就允许解码器切割并显示包含两个视图中的仅一个的帧区域的适当信令的使用。
当前不可能以使得解码器（在用户选择时或者由于有限的计算或存储资源）能够将整个帧的仅所选子集解码这样的方式对视频进行编码。例如，不可能以使得对构成立体像对的两个图像不感兴趣的2D解码器可以仅将与两个视图中的一个（例如左边的一个）相对应的区域解码并显示的方式对包含上述帧封装排列中的一个的视频进行编码。
这意味着浪费计算和能量资源。应注意的是在移动终端领域中尤其感觉到此问题，其中计算资源的任何过度利用可以急剧地缩短电池寿命。
此外，可以在诸如机顶盒或智能网关之类的可以向其连接一个或多个显示器的、不一定具有均匀的特性的设备中使用解码器。让我们考虑例如智能网关从分发网络（例如IP网络或广播网络）接收已编码视频流或从存储设备读取该流的情况。可以通过电缆和/或无线连接向所述智能网关连接多个显示器，其可具有不同的特性（例如HD显示器或平板电脑）。在这种情况下，解码器应能够使已解码视频适应于要服务的一个或多个显示器的特性：如果只有具有比已解码视频低的分辨率的一个显示器被连接到解码器，则后者应能够仅将对于涉及到的终端而言最相关的视频的部分解码。
此外，当前技术仅允许自动地识别分量视频流中的一个（如在以上立体像对示例中），使得不可能明确地向解码器指示附加的一个或多个分量视频流的存在。因此以较少的资源在解码器上施加“默认”选择，并且不能指示替代内容的存在。
此外，除允许在解码过程期间缩放计算资源的利用之外，对单个视频流编码的可能性还允许对单个视频流进行编码以便根据不同的服务模型而服务于以在存储和计算资源方面不同的可用性为特征的终端。例如，可设想将4 HD视频（1920×1080像素）的组成编码为单个4k（3840×2160像素）视频流：在此类视频中，具有有限计算资源的解码器可能将包含HD分量中的仅一个的子集解码；替代地，更强大的解码器可能将整个的4K视频解码，并且例如显示内容的整个镶嵌。
本发明的一个目的是定义一种编码方法，其允许将一个或多个不同的分量视频流编码成单个容器视频流，使得可以独立于其他的而将分量视频流中的至少一个解码。
本发明的另一目的是指定一种解码方法，其允许通过单个解码器的使用将一个或多个分量视频流从单个容器视频流独立地解码。
本发明的又一目的是提供一种编码器，其对由多个分量视频流构成的容器视频流进行编码，从而允许将一个或多个分量视频流被独立地解码。
本发明的另一目的是提供一种解码器，其将被编码为单个容器视频流的多个分量视频流中的至少一个独立地解码。
根据将参考附图来解释本发明的某些实施例的以下描述，本发明的这些及其他方面将变得更加清楚，在所述附图中：
—图1示出了根据H.264/AVC规范将被编码划分成宏块组（“切片”）的图像；
—图2示出了根据HEVC规范将被编码划分成“瓦片”的图像；
—图3示出了四个独立2D视频流到单个视频流的合成的示例；
—图4示出了2D视频对形式的两个独立立体视频流到单个视频流的合成；
—图5示出了用于将组成被编码为单个视频流的立体像对的两个图像中的一个选择性地解码的过程；
—图6示出了立体视频流和关联深度图到单个容器视频流的合成；
—图7示出了2D视频流和立体视频流到单个容器视频流的合成；
—图8是用于组成由n个单独视频流的合成生成的视频流并对其进行编码的过程的框图；
—图9示出了用于对由图8中所述的编码设备生成的视频流进行解码的方法的示例；
—图10示出了用于对由根据图8的编码设备生成的视频流进行解码的进一步方法；
—图11和11bis示出了立体视频流的两个视图到单个容器视频流的合成；
—图12是描述将被输入到已编码视频流中的信令的结构的表；
—图13是包含图12的结构的参数的可能值的表；
—图14a-14d示出了具有对HEVC标准的PPS的语法的修改的表，其是输入图12的信令所需要的；
—图15a-15f示出了具有对HEVC标准的SPS的语法的修改的表，其是输入图12的信令所需要的。
现有视频编码标准以及当前在定义中的那些提供了出于优化编码和解码过程的目的将组成数字视频流的图像分区的可能性。如图1中所示，H.264/AVC规范允许创建宏块的组，其中，要编码的图像被细分成不同类型的组，称为切片，其然后被相互独立地编码。例如，如关于称为“类型2”的细分在图1中所示，可以将宏块分组成具有任意形状的切片，从而允许根据任何“感兴趣区”的位置而选择性地改变已编码视频的质量。
替代地，图2示出了称为“瓦片”的新型的图像细分，其已被引入到新的ITU/ISO/IEC HEVC（高效率视频编码）标准的规范中。基于已经存在在H.264/AVC规范中的切片结构，已经引入此类型的细分以便允许视频流编码和解码过程的并行化：现在甚至在诸如电话和PC平板电脑之类的移动终端上可用的并行图形处理器（所谓的GPU，图形处理单元）的增加的传播和较低的成本已促进了并行化支持工具的引入，其允许甚至在通常具有有限的计算资源的终端上将图像格式带到非常高的分辨率。
HEVC规范已经以允许将组成视频流的图像分段成区域并使得其解码相互独立的这样的方式定义瓦片。然而，即使当并行化时，仍将仅对整个图像执行解码过程，并且不能相互独立地使用各段。
如以上段落中前面所述的，能够以不同的终端可以自动地或在从用户接收到指令时决定应将视频的哪些部分解码并发送到显示器以用于可视化的方式将视频流分区将是有用的。
图3、4、6和7图示出其中这种分区可能证明有用的不同利用情形。
图3示出了容器视频流，其例如可采取4K（3840×2160像素）格式，并且可包含四个独立HD（1920×1080像素）视频。装配有4K解码器的用户可将整个视频解码并显示，而装配有不那么强大的解码器的用户可使解码局限于每次单个HD流。
图4示出了作为单个容器视频流的两个立体视频流（以两个独立左右视频对的形式）的传输，其例如表示相同事件的两个不同立体视图，用户可以从其中选择优选视图而不一定必须要将整个帧解码（在能量消耗方面具有明显的含义）。
图5示出了立体视频和关联深度图到单个视频流的合成。在这种情况下，立体电视机的解码器可以仅将位于图像的上半部中的与立体像对的两个图像有关的部分解码；下部因此将不被解码。事实上，使用众所周知的2D＋Z技术（来自单个图像的合成视图加关联深度图的构造）的自动立体电视机的解码器可能例如仅将图像的左半部解码，而更复杂的自动立体解码器的解码器可使用两个视图和两个深度图来合成中间视图。
图7示出了位于图像的上半部中的双分辨率2D视频（例如意图以21:9格式显式）的合成以及在下部区域中采取并排格式的相应立体视图。
在HEVC规范中描述的瓦片结构不足以允许解码器适当地识别由容器视频传输的内容并将其解码。可以通过输入描述在独立可解码区域中的每一个中正在传输哪个内容和如何按顺序继续进行以适当地将其解码并显示的合适水平的信令来解决此问题。
可以预见至少两个不同的情形。在第一个中，有必要指示单个内容与图像已被分解成的瓦片中的至少一个之间的关联以及其到相干视频流的可能重组（例如，如图11中所示，立体视频流可能被细分成两个瓦片，并且在必须告知2D解码器关于将单一瓦片解码的可能性的信息的同时，3D解码器可能不采用任何特定策略并将整个流解码）。在第二情形中，替代地，其指示单个内容与图像已被分解成的瓦片中的每一个之间的关联以及其到相干视频流的可能重组（例如，立体视频流可被细分成两个瓦片，并且在必须告知2D解码器关于将单一瓦片解码的可能性的信息的同时，必须告知3D解码器关于将整个流解码的必要性的信息）。
提出的技术方案提供输入描述符，其针对瓦片中的至少一个而指示特定特性中的一个或多个：例如，用信号传送内容是否是2D内容或者在立体内容的情况下其帧封装排列的类型必须是可能的。此外，期望指示瓦片之间的任何“关系”（联合解码和/或显示）；视图标识符（例如在多视图内容的情况下将使用）和叙述正在讨论中的视图是立体像对的右视图还是左视图还是深度图的消息。举例来说，将技术方案示为图12的表中的伪代码，其通过使用在H.264/AVC和HEVC规范中已经采用的数据结构来描述将被输入到已编码视频流中的信令的结构。尽管如此，可能采用类似的信令结构，其允许以允许解码器将一个或多个瓦片的内容适当地解码的这样的方式来描述它们。
Frame_packing_arrangement_type是可能例如对应于在MPEG2、H.264/AVC或SMPTE规范中一般使用的值的索引，其对当前已知和使用的立体视频格式编了目录。
Tile_content_relationship_bitmask是针对每个瓦片单义地描述其与已编码视频流已被细分成的其他瓦片的关联的位掩码。
Content_interpretation_type提供解释每个瓦片的内容所需的信息。在图13的表中指定了示例。
参考上述情况，其中，立体视频被编码为两个瓦片，以便确保由2D解码器对仅一个视图的解码，以下信息将与瓦片0相关联：

应注意的是可能连同诸如例如裁剪矩形之类的其他工具一起或作为其替代而使用此类信令。裁剪矩形技术通常已经被用于制作采取要求向单个帧中输入立体像对的帧封装排列中的一个的形式的“3D兼容”立体视频流，根据该技术，强制借助于合适的元数据来裁剪用信号发送的矩形内部的已解码帧的部分。图11bis图示出例如包含所谓的“并排”帧封装排列的帧，其中，在裁剪矩形中仅包含左视图（在图中灰色的一个）。在没有瓦片划分的情况下，2D解码器应将整个帧解码，然后施加裁剪，并且丢弃右视图（在图11bis中白色的一个）。通过使用本发明的方法，替代地可能将两个视图作为单独的瓦片编码并用信号发送，由此允许2D解码器仅仅将包含在裁剪矩形中的区域解码。
假设例如视频流已被划分成四个瓦片，如图4中所示，将用以下值来描述瓦片之中的关系：

此信令向解码器指示瓦片0和1并排地（frame_packing_arrangement_type = 3）属于相同3D视频内容（tile_content_relationship_bitmask = 1100）。tile_content_relationship_bitmask的值允许解码器知道两个视图（其属于相同立体像对，因为对于两个瓦片而言，瓦片view_id＝0）被包含在不同的瓦片中（并且因此在这种情况下处于全分辨率）。Content_interpretation_type允许理解瓦片0对应于左视图，而瓦片1对应于右视图。
该相同考虑适用于瓦片1和2。
替代地，通过以下信令来描述图6的排列：

不同于图4，对于瓦片0和1而言tile_content_relationship_bitmask是1111。这意味着在所有瓦片之中存在关系。特别地，瓦片2和3是分别地与瓦片0（tile_content_relationship_bitmask＝1010）和与瓦片1（tile_content_relationship_bitmask＝0101）相关联的2D内容（frame_packing_arrangement_type＝6），其包含深度图（content_interpretation_type＝5）。
在HEVC规范的语法中，可以将此类信令容易地编码为SEI（补充增强信息）消息：应用信息，其在不改变基本编码和解码机制的情况下允许不仅关于解码、而且关于接下来的可视化过程的附加功能的构造。作为替代，可以将该相同信令输入到图片参数及（PPS）中，即包含将对应于帧的数据集解码所需的信息的语法元素。图14a-14d的表包括用粗体醒目显示的、需要对HEVC标准的PPS的语法进行以便输入上述信令的伪代码形式的修改。
进一步的一般化可能提供将信令输入到序列参数及（SPS）中：包含将对应于连续帧序列的数据集解码所需的信息的语法元素。
图15a-15f的表包括用粗体醒目显示的、需要对HEVC的SPS的语法进行以便输入上述信令的伪代码形式的修改，其中，multiservice_flag是告知关于每个瓦片内的多个服务的存在的变量，并且num_tile是一个帧内的瓦片的数量。
图5图示出选择性瓦片解码过程。视频流包含被编码成两个单独瓦片的一对立体视图。
用被用于表示图4的内容的相同信令来描述后者（然而，在这种情况下，瓦片的数量是2）。
图8是可以实现本发明的编码技术的设备或一组设备的框图。向“源组成器”输入N个视频内容S1-SN。“源组成器”可以是单独部件，或者可集成为适当编码器的输入级。源组成器组成传送N个分量视频流的容器视频流，并且然后将其朝着编码器输出。源组成器可以可选地向编码器添加描述分量视频流的格式及其在容器视频流内的位置所需的信令。
编码器接收容器视频流、以将它们映射到单个分量视频流的结构上的这样的方式来构造瓦片、生成描述瓦片、分量视频流的结构及其关系的信令，并且压缩容器视频流。如果“源组成器”并未自动地生成描述分量视频流的信令，则可以由操作员手动地对编码器进行编程。然后可以以不同的方式对由编码器输出的已压缩视频流进行解码，即通过根据解码器和/或其被连接到的显示器的功能特性和/或计算资源来选择独立部分。可以根据被用于传输的系统层部分的规范来传输每个分量视频流的音频。
2D解码器分析位流、找到包含两个视图的两个瓦片的信令、并决定将单个瓦片解码，仅显示与2D显示器兼容的一个图像。3D解码器替代地将两个瓦片解码，并且将继续进行在3D显示器上的立体可视化。
类似地，图9示出了解码器，其在被连接到显示器时协商要显示的视频的特性（例如，分辨率）并因此以自主方式决定要将视频流的哪个部分解码。此决定还可能由用户的人工干预来规定：例如，在传输的视频是被编码成两个瓦片的立体视频的情况下，并且假设用户虽然装配有3D电视机，但仍想要以2D格式来观看该内容（可通过按下特定遥控键来表明此类决定），解码器可采用与其将在与电视机协商最佳显示格式的同时自动地采用的那个不同的解码策略。
图10替代地示出了其中解码器位于网关内部的情况，该网关接收已编码流且必须服务于异构终端，其特征在于支持视频内容的不同格式的可能性（例如，某些设备可具有显示立体内容的能力，而同时，其他设备可能仅具有2D显示器）。网关自动地与每个设备进行协商或从其接收配置指令，并且然后以使输入内容的一个或多个部分适应于每个请求设备的特性的这样的方式将其解码。
因此，本发明涉及一种用于通过从2D和/或3D视频帧的多个序列开始生成视频流的方法，其中，视频流生成器将来自N个不同源S1, S2, S3, SN的视频帧合成成容器视频帧。随后，编码器通过向其中输入信令而将容器视频帧的单个输出视频流编码，所述信令适于指示容器视频帧的结构。
本发明还涉及一种用于重新生成包括容器帧的序列的视频流的方法，每个容器帧的序列包括来自N个不同源S1, S2, S3, SN的多个2D和/或3D视频帧。解码器读取适于指示容器视频帧的结构的信令，并且通过经由仅将包括已被选择用于显示的视频流的多个2D和/或3D视频帧的那些视频帧的容器视频帧的那些部分解码而提取多个视频帧中的至少一个或子集来重新生成多个视频流。