在视频译码中的低延迟缓冲模型.pdf

摘要
申请专利号：	CN201380065800.5	申请日：	2013.12.10
公开号：	CN104854870A	公开日：	2015.08.19
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):H04N 19/70申请日:20131210\|\|\|公开
IPC分类号：	H04N19/70; H04N19/174; H04N19/42; H04N19/433; H04N19/172	主分类号：	H04N19/70
申请人：	高通股份有限公司
发明人：	王益魁
地址：	美国加利福尼亚州
优先权：	61/739,632 2012.12.19 US; 61/745,423 2012.12.21 US; 14/036,615 2013.09.25 US
专利代理机构：	北京律盟知识产权代理有限责任公司11287	代理人：	宋献涛
PDF下载：	PDF下载

内容摘要

本发明揭示用于在视频译码过程中的低延迟缓冲的技术。视频解码技术可包含：接收用于经解码图片的第一经解码图片缓冲器DPB输出延迟及第二DPB输出延迟；在用于视频解码器的假设参考解码器HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB输出延迟来确定第一DPB输出时间；及在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来确定第二DPB输出时间。

权利要求书

权利要求书1. 一种解码视频的方法，所述方法包括：接收用于经解码图片的第一经解码图片缓冲器DPB输出延迟及第二DPB输出延迟；在用于视频解码器的假设参考解码器HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB输出延迟来确定第一DPB输出时间；及在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来确定第二DPB输出时间。2. 根据权利要求1所述的方法，其进一步包括：接收指示用于所述视频解码器的所述HRD设置处于所述图片级别还是处于所述子图片级别的子图片经译码图片缓冲器CPB旗标；基于所述子图片CPB旗标而解码视频图片；及基于所述第一DPB输出时间或所述第二DPB输出时间而从经解码图片缓冲器输出图片，其中如果所述子图片CPB旗标指示用于所述视频解码器的所述HRD设置指示在所述图片级别处的操作，那么使用所述第一DPB输出时间，且其中如果所述子图片CPB旗标指示用于所述视频解码器的所述HRD设置指示在所述子图片级别处的操作，那么使用所述第二DPB输出时间。3. 根据权利要求1所述的方法，其中确定所述第二DPB输出时间包括将所述第二DPB输出延迟乘以子图片时钟计时周期且将所得值加至CPB移除时间。4. 根据权利要求1所述的方法，其中确定所述第一DPB输出时间包括将所述第一DPB输出延迟乘以时钟计时周期且将所得值加至CPB移除时间。5. 一种编码视频的方法，所述方法包括：在用于视频解码器的假设参考解码器HRD设置指示在图片级别处的操作的状况下使用第一经解码图片缓冲器DPB输出延迟来确定第一DPB输出时间；在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间；及发信所述第一DPB输出延迟及所述第二DPB输出延迟。6. 根据权利要求5所述的方法，其进一步包括：发信指示用于所述视频解码器的所述HRD设置处于所述图片级别还是处于所述子图片级别的子图片经译码图片缓冲器CPB旗标；及基于所述子图片CPB旗标而编码视频图片。7. 根据权利要求5所述的方法，其中确定所述第二DPB输出时间包括将所述第二DPB输出延迟乘以子图片时钟计时周期且将所得值加至CPB移除时间。8. 根据权利要求5所述的方法，其中确定所述第一DPB输出时间包括将所述第一DPB输出延迟乘以时钟计时周期且将所得值加至CPB移除时间。9. 一种经配置以解码视频数据的设备，所述设备包括：视频解码器，其经配置以：接收用于经解码图片的第一经解码图片缓冲器DPB输出延迟及第二DPB输出延迟；在用于视频解码器的假设参考解码器HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB输出延迟来确定第一DPB输出时间；及在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来确定第二DPB输出时间。10. 根据权利要求9所述的设备，其中所述视频解码器经进一步配置以：接收指示用于所述视频解码器的所述HRD设置处于所述图片级别还是处于所述子图片级别的子图片经译码图片缓冲器CPB旗标；基于所述子图片CPB旗标而解码视频图片；及基于所述第一DPB输出时间或所述第二DPB输出时间而从经解码图片缓冲器输出图片，其中如果所述子图片CPB旗标指示用于所述视频解码器的所述HRD设置指示在所述图片级别处的操作，那么使用所述第一DPB输出时间，且其中如果所述子图片CPB旗标指示用于所述视频解码器的所述HRD设置指示在所述子图片级别处的操作，那么使用所述第二DPB输出时间。11. 根据权利要求9所述的设备，其中所述视频解码器经配置以通过将所述第二DPB输出延迟乘以子图片时钟计时周期且将所得值加至CPB移除时间而确定所述第二DPB输出时间。12. 根据权利要求9所述的设备，其中所述视频解码器经配置以通过将所述第一DPB输出延迟乘以时钟计时周期且将所得值加至CPB移除时间而确定所述第一DPB输出时间。13. 一种经配置以编码视频数据的设备，所述设备包括：视频编码器，其经配置以：在用于视频解码器的假设参考解码器HRD设置指示在图片级别处的操作的状况下使用第一经解码图片缓冲器DPB输出延迟来确定第一DPB输出时间；在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间；及发信所述第一DPB输出延迟及所述第二DPB输出延迟。14. 根据权利要求13所述的设备，其中所述视频编码器经进一步配置以：发信指示用于所述视频解码器的所述HRD设置处于所述图片级别还是处于所述子图片级别的子图片经译码图片缓冲器CPB旗标；及基于所述子图片CPB旗标而编码视频图片。15. 根据权利要求13所述的设备，其中所述视频编码器经配置以通过将所述第二DPB输出延迟乘以子图片时钟计时周期且将所得值加至CPB移除时间而确定所述第二DPB输出时间。16. 根据权利要求13所述的设备，其中所述视频编码器经配置以通过将所述第一DPB输出延迟乘以时钟计时周期且将所得值加至CPB移除时间而确定所述第一DPB输出时间。17. 一种经配置以解码视频数据的设备，所述设备包括：用于接收用于经解码图片的第一经解码图片缓冲器DPB输出延迟及第二DPB输出延迟的装置；用于在用于视频解码器的假设参考解码器HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB输出延迟来确定第一DPB输出时间的装置；及用于在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来确定第二DPB输出时间的装置。18. 根据权利要求17所述的设备，其进一步包括：用于接收指示用于所述视频解码器的所述HRD设置处于所述图片级别还是处于所述子图片级别的子图片经译码图片缓冲器CPB旗标的装置；用于基于所述子图片CPB旗标而解码视频图片的装置；及用于基于所述第一DPB输出时间或所述第二DPB输出时间而从经解码图片缓冲器输出图片的装置，其中如果所述子图片CPB旗标指示用于所述视频解码器的所述HRD设置指示在所述图片级别处的操作，那么使用所述第一DPB输出时间，且其中如果所述子图片CPB旗标指示用于所述视频解码器的所述HRD设置指示在所述子图片级别处的操作，那么使用所述第二DPB输出时间。19. 根据权利要求17所述的设备，其中所述用于确定所述第二DPB输出时间的装置包括用于将所述第二DPB输出延迟乘以子图片时钟计时周期且将所得值加至CPB移除时间的装置。20. 根据权利要求17所述的设备，其中所述用于确定所述第一DPB输出时间的装置包括用于将所述第一DPB输出延迟乘以时钟计时周期且将所得值加至CPB移除时间的装置。21. 一种经配置以编码视频数据的设备，所述设备包括：用于在用于视频解码器的假设参考解码器HRD设置指示在图片级别处的操作的状况下使用第一经解码图片缓冲器DPB输出延迟来确定第一DPB输出时间的装置；用于在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间的装置；及用于发信所述第一DPB输出延迟及所述第二DPB输出延迟的装置。22. 根据权利要求21所述的设备，其进一步包括：用于发信指示用于所述视频解码器的所述HRD设置处于所述图片级别还是处于所述子图片级别的子图片经译码图片缓冲器CPB旗标的装置；及用于基于所述子图片CPB旗标而编码视频图片的装置。23. 根据权利要求21所述的设备，其中所述用于确定所述第二DPB输出时间的装置包括用于将所述第二DPB输出延迟乘以子图片时钟计时周期且将所得值加至CPB移除时间的装置。24. 根据权利要求21所述的设备，其中所述用于确定所述第一DPB输出时间的装置包括用于将所述第一DPB输出延迟乘以时钟计时周期且将所得值加至CPB移除时间的装置。25. 一种计算机可读存储媒体，其存储指令，所述指令在执行时致使经配置以解码视频数据的装置的一或多个处理器：接收用于经解码图片的第一经解码图片缓冲器DPB输出延迟及第二DPB输出延迟；在用于视频解码器的假设参考解码器HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB输出延迟来确定第一DPB输出时间；及在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来确定第二DPB输出时间。26. 根据权利要求25所述的计算机可读存储媒体，其中所述指令进一步致使所述一或多个处理器：接收指示用于所述视频解码器的所述HRD设置处于所述图片级别还是处于所述子图片级别的子图片经译码图片缓冲器CPB旗标；基于所述子图片CPB旗标而解码视频图片；及基于所述第一DPB输出时间或所述第二DPB输出时间而从经解码图片缓冲器输出图片，其中如果所述子图片CPB旗标指示用于所述视频解码器的所述HRD设置指示在所述图片级别处的操作，那么使用所述第一DPB输出时间，且其中如果所述子图片CPB旗标指示用于所述视频解码器的所述HRD设置指示在所述子图片级别处的操作，那么使用所述第二DPB输出时间。27. 根据权利要求25所述的计算机可读存储媒体，其中所述指令致使所述一或多个处理器通过将所述第二DPB输出延迟乘以子图片时钟计时周期且将所得值加至CPB移除时间而确定所述第二DPB输出时间。28. 根据权利要求25所述的计算机可读存储媒体，其中所述指令致使所述一或多个处理器通过将所述第一DPB输出延迟乘以时钟计时周期且将所得值加至CPB移除时间而确定所述第一DPB输出时间。29. 一种计算机可读存储媒体，其存储指令，所述指令在执行时致使经配置以编码视频数据的装置的一或多个处理器：在用于视频解码器的假设参考解码器HRD设置指示在图片级别处的操作的状况下使用第一经解码图片缓冲器DPB输出延迟来确定第一DPB输出时间；在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间；及发信所述第一DPB输出延迟及所述第二DPB输出延迟。30. 根据权利要求29所述的计算机可读存储媒体，其中所述指令进一步致使所述一或多个处理器：发信指示用于所述视频解码器的所述HRD设置处于所述图片级别还是处于所述子图片级别的子图片经译码图片缓冲器CPB旗标；及基于所述子图片CPB旗标而编码视频图片。31. 根据权利要求29所述的计算机可读存储媒体，其中所述指令致使所述一或多个处理器通过将所述第二DPB输出延迟乘以子图片时钟计时周期且将所得值加至CPB移除时间而确定所述第二DPB输出时间。32. 根据权利要求29所述的计算机可读存储媒体，其中所述指令致使所述一或多个处理器通过将所述第一DPB输出延迟乘以时钟计时周期且将所得值加至CPB移除时间而确定所述第一DPB输出时间。

说明书

说明书在视频译码中的低延迟缓冲模型
相关申请案
本申请案主张2012年12月19日申请的美国临时申请案第61/739,632号及2012年12月21日申请的美国临时申请案第61/745,423号的权利，所述两个临时申请案的全部内容是以引用方式并入本文中。
技术领域
本发明涉及视频译码，且更明确地说，涉及用于在视频译码过程中的低延迟缓冲的技术。
背景技术
数字视频能力可并入到广泛范围的装置中，所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝或卫星无线电话、所谓“智能电话”、视频电话会议装置、视频流式处理装置，及其类似者。数字视频装置实施视频压缩技术，诸如，由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分的高级视频译码(AVC)定义的标准、目前在开发中的高效率视频译码(HEVC)标准及这些标准的扩展中描述的视频压缩技术。视频装置可通过实施这些视频压缩技术而较有效率地发射、接收、编码、解码及/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测以缩减或移除为视频序列所固有的冗余。对于基于块的视频译码，可将视频切片(即，视频帧或视频帧的部分)分割成视频块，视频块也可被称作树状块、译码单元(CU)及/或译码节点。图片的经帧内译码(I)切片中的视频块是使用关于同一图片中的相邻块中的参考样本的空间预测而编码。图片的经帧间译码(P或B)切片中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测，或关于其它参考图片中的参考样本的时间预测。图片可被称作帧，且参考图片可被称作参考帧。
空间预测或时间预测利用预测性块。残差数据表示原始待译码块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动矢量及指示经译码块与预测性块之间的差的残差数据而编码。经帧内译码块是根据帧内译码模式及残差数据而编码。出于进一步压缩起见，可将残差数据从像素域变换到变换域，从而引起残差变换系数，残差变换系数接着可被量化。可扫描最初以二维阵列而布置的经量化变换系数以便产生变换系数的一维矢量，且可应用熵译码以实现甚至更多的压缩。
发明内容
大体上，本发明描述用于视频译码的技术，且更明确地说，描述用于在视频译码过程中的低延迟缓冲的技术。在一或多个实例中，本发明提议用于发信经解码图片缓冲器(DPB)输出延迟以在视频解码器正在子图片级别处操作时予以使用以便改进视频缓冲器延迟的技术。
在本发明的一个实例中，一种解码视频的方法包括：接收用于经解码图片的第一经解码图片缓冲器(DPB)输出延迟及第二DPB输出延迟；在用于视频解码器的假设参考解码器(HRD)设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB输出延迟来确定第一DPB输出时间；及在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来确定第二DPB输出时间。
在本发明的另一实例中，一种编码视频的方法包括：在用于视频解码器的HRD设置指示在图片级别处的操作的状况下使用第一DPB输出延迟来确定第一DPB输出时间；在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间；及发信所述第一经解码图片缓冲器(DPB)输出延迟及所述第二DPB输出延迟。
在本发明的另一实例中，一种经配置以解码视频数据的设备包括视频解码器，所述视频解码器经配置以：接收用于经解码图片的第一DPB输出延迟及第二DPB输出延迟；在用于视频解码器的HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB输出延迟来确定第一DPB输出时间；及在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来确定第二DPB输出时间。
在本发明的另一实例中，一种经配置以编码视频数据的设备包括视频编码器，所述视频编码器经配置以：在用于视频解码器的HRD设置指示在图片级别处的操作的状况下使用第一DPB输出延迟来确定第一DPB输出时间；在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间；及发信所述第一DPB输出延迟及所述第二DPB输出延迟。
在本发明的另一实例中，一种经配置以解码视频数据的设备包括：用于接收用于经解码图片的第一DPB输出延迟及第二DPB输出延迟的装置；用于在用于视频解码器的HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB输出延迟来确定第一DPB输出时间的装置；及用于在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来确定第二DPB输出时间的装置。
在本发明的另一实例中，一种经配置以编码视频数据的设备包括：用于在用于视频解码器的HRD设置指示在图片级别处的操作的状况下使用第一DPB输出延迟来确定第一DPB输出时间的装置；用于在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间的装置；用于发信所述第一DPB输出延迟及所述第二DPB输出延迟的装置。
在另一实例中，本发明揭示一种计算机可读存储媒体，所述计算机可读存储媒体存储指令，所述指令在执行时致使经配置以解码视频数据的装置的一或多个处理器：接收用于经解码图片的第一DPB输出延迟及第二DPB输出延迟；在用于视频解码器的HRD设置指示在图片级别处的操作的状况下针对所述经解码图片而使用所述第一DPB输出延迟来确定第一DPB输出时间；及在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下针对所述经解码图片而使用所述第二DPB输出延迟来确定第二DPB输出时间。
在另一实例中，本发明揭示一种计算机可读存储媒体，所述计算机可读存储媒体存储指令，所述指令在执行时致使经配置以编码视频数据的装置的一或多个处理器：在用于视频解码器的HRD设置指示在图片级别处的操作的状况下使用第一DPB输出延迟来确定第一DPB输出时间；在用于所述视频解码器的所述HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间；及发信所述第一DPB输出延迟及所述第二DPB输出延迟。
在附图及以下描述中阐述一或多个实例的细节。其它特征、目标及优点将从所述描述及所述附图且从权利要求书显而易见。
附图说明
图1为说明可利用本发明所描述的技术的实例视频编码及解码系统的框图。
图2为说明用于假设参考解码器(HRD)的缓冲器模型的框图。
图3为说明可实施本发明所描述的技术的实例视频编码器的框图。
图4为说明可实施本发明所描述的技术的实例视频解码器的框图。
图5为展示根据本发明的技术的实例编码方法的流程图。
图6为展示根据本发明的技术的实例解码方法的流程图。
具体实施方式
本发明描述用以经由一般的基于子图片的假设参考解码器(HRD)模型而以能共同操作的方式来实现缩减的编码解码器(译码器/解码器)延迟的各种方法及技术，所述模型包含基于子图片的经译码图片缓冲器(CPB)操作及基于子图片时序的经解码图片缓冲器(DPB)操作两者。
用以最小化CPB及/或DPB延迟时间的当前方法展现以下缺点。经解码图片的输出时间等于最后解码单元(即，用于存取单元级别操作的存取单元自身)的解码时间(即，CPB移除时间)加经发信DPB输出延迟。因此，通常使用用以缩减所述延迟的两种方法。一种方法是较早地使解码时间移位。另一方法是缩减经发信DPB输出延迟(相对于CPB移除时间)的值。然而，用于超低延迟缓冲模型的现有解决方案仅涉及基于子图片的CPB操作，且仅利用第一方法以缩减延迟。
鉴于这些缺点，本发明提议用于经由发信及使用相对于CPB移除时间的经发信DPB输出延迟的缩减值而进一步缩减解码延迟的技术。
图1为说明可利用本发明所描述的技术的实例视频编码及解码系统10的框图。如图1所展示，系统10包含源装置12，源装置12产生待在稍后时间由目的地装置14解码的经编码视频数据。源装置12及目的地装置14可包括广泛范围的装置中的任一者，所述装置包含桌上型计算机、笔记本(即，膝上型)计算机、平板计算机、机顶盒、电话手机(诸如，所谓“智能」电话”、所谓“智能”垫、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式处理装置，或其类似者。在一些状况下，源装置12及目的地装置14可经配备用于无线通信。
目的地装置14可经由链路16而接收待解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中，链路16可包括通信媒体以使源装置12能够将经编码视频数据直接地实时发射到目的地装置14。经编码视频数据可根据诸如无线通信协议的通信标准而调制，且发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，诸如，射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于数据包的网络(诸如，局域网、广域网，或诸如因特网的全局网络)的部分。通信媒体可包含路由器、交换机、基站，或可用以促进从源装置12到目的地装置14的通信的任何其它装备。
替代地，可将经编码数据从输出接口22输出到存储装置33。相似地，可由输入接口从存储装置33存取经编码数据。存储装置33可包含多种分布式或本地存取式数据存储媒体中的任一者，诸如，硬盘、蓝光光盘、DVD、CD-ROM、闪速存储器、易失性或非易失性存储器，或用于存储经编码视频数据的任何其它合适数字存储媒体。在另外实例中，存储装置33可对应于可保持由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式处理或下载而从存储装置33存取经存储视频数据。文件服务器可为能够存储经编码视频数据且将那个经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含web服务器(例如，对于网站)、FTP服务器、网络连接存储(NAS)装置，或本地磁盘驱动器。目的地装置14可经由包含因特网连接的任何标准数据连接而存取经编码视频数据。这种数据连接可包含适合于存取存储在文件服务器上的经编码视频数据的无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等等)，或这两者的组合。经编码视频数据从存储装置33的发射可为流式处理发射、下载发射，或这两者的组合。
本发明的技术未必限于无线应用或设置。所述技术可应用于视频译码以支持多种多媒体应用中的任一者，诸如，空中电视广播、有线电视发射、卫星电视发射、流式处理视频发射(例如，经由因特网)、供存储在数据存储媒体上的数字视频的编码、存储在数据存储媒体上的数字视频的解码，或其它应用。在一些实例中，系统10可经配置以支持单向或双向视频发射以支持诸如视频流式处理、视频播放、视频广播及/或视频电话的应用。
在图1的实例中，源装置12包含视频源18、视频编码器20及输出接口22。在一些状况下，输出接口22可包含调制器/解调器(调制解调器)及/或发射器。在源装置12中，视频源18可包含诸如以下各者的源：视频捕获装置，例如，摄像机；视频存档，其含有经先前捕获视频；视频馈送接口，其用以从视频内容提供者接收视频；及/或计算机图形系统，其用于产生计算机图形数据作为源视频；或这些源的组合。作为一个实例，如果视频源18为摄像机，那么源装置12及目的地装置14可形成所谓相机电话或视频电话。然而，本发明所描述的技术可大体上适用于视频译码，且可应用于无线及/或有线应用。
可由视频编码器20编码经捕获、经预捕获或经计算机产生视频。可经由源装置12的输出接口22而将经编码视频数据直接地发射到目的地装置14。又(或替代地)，可将经编码视频数据存储到存储装置33上以供目的地装置14或其它装置稍后存取，以用于解码及/或播放。
目的地装置14包含输入接口28、视频解码器30及显示装置32。在一些状况下，输入接口28可包含接收器及/或调制解调器。目的地装置14的输入接口28经由链路16而接收经编码视频数据。经由链路16而传达或提供在存储装置33上的经编码视频数据可包含由视频编码器20产生以供视频解码器(诸如，视频解码器30)用来解码所述视频数据的多种语法元素。这些语法元素可与通信媒体上发射、存储在存储媒体上或存储在文件服务器上的经编码视频数据一起被包含。
显示装置32可与目的地装置14集成，或在目的地装置14外部。在一些实例中，目的地装置14可包含集成式显示装置，且也经配置以与外部显示装置进行接口连接。在其它实例中，目的地装置14可为显示装置。一般来说，显示装置32向用户显示经解码视频数据，且可包括多种显示装置中的任一者，诸如，液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器，或另一类型的显示装置。
视频编码器20及视频解码器30可根据诸如目前在开发中的高效率视频译码(HEVC)标准的视频压缩标准而操作，且可符合HEVC测试模型(HM)。HEVC正由ITU-T视频译码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频译码联合合作团队(JCT-VC)开发。从2013年7月5日时起，可从http://phenix.int-evry.fr/jct/doc_end_user/documents/11_Shanghai/wg11/JCTVC-K1003-v13.zip得到HEVC的一个工作草案(WD)，其为Bross等人的“High Efficiency Video Coding(HEVC)text specification draft 9”且在下文中被称作HEVC WD9。HEVC WD9的全部内容是以引用方式并入本文中。
替代地，视频编码器20及视频解码器30可根据诸如ITU-T H.264标准(替代地被称作MPEG-4第10部分的高级视频译码(AVC)的其它专有或工业标准或这些标准的扩展而操作。然而，本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2及ITU-T H.263。
尽管图1中未展示，但在一些方面中，视频编码器20及视频解码器30各自可与音频编码器及解码器集成，且可包含适当MUX-DEMUX单元或其它硬件及软件，以处置公共数据流或单独数据流中的音频及视频两者的编码。适用时，在一些实例中， MUX-DEMUX单元可符合ITU H.223多路复用器协议，或诸如用户数据报协议(UDP)的其它协议。
视频编码器20及视频解码器30各自可被实施为多种合适编码器电路系统中的任一者，诸如，一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地以软件来实施技术时，装置可将用于所述软件的指令存储在合适非暂时性计算机可读媒体中，且使用一或多个处理器而以硬件来执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中，所述一或多个编码器或解码器中的任一者可被集成为相应装置中的组合式编码器/解码器(CODEC)的部分。
JCT-VC正致力于HEVC标准的开发。HEVC标准化努力是基于视频译码装置的演进模型，其被称作HEVC测试模型(HM)。HM推测视频译码装置相对于根据(例如)ITU-T H.264/AVC的现有装置的若干额外能力。举例来说，H.264提供九个帧内预测编码模式，而HM可提供多达三十三个帧内预测编码模式。
一般来说，HM的工作模型描述视频帧或图片可划分成包含亮度样本及色度样本两者的树状块或最大译码单元(LCU)序列。树状块具有与H.264标准的宏块相似的目的。切片包含按译码次序的数个连续树状块。视频帧或图片可分割成一或多个切片。每一树状块可根据四叉树而分裂成若干译码单元(CU)。举例来说，树状块(作为四叉树的根节点)可分裂成四个子节点，且每一子节点又可为一父节点且分裂成另外四个子节点。最终未分裂子节点(作为四叉树的叶节点)包括译码节点，即，经译码视频块。与经译码位流相关联的语法数据可定义树状块可被分裂的最大次数，且也可定义译码节点的最小大小。
CU包含译码节点，以及与译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小通常对应于译码节点的大小，且通常必须为正方形形状。CU的大小的范围可为从8×8像素直到具有64×64像素或更大的最大值的树状块的大小。每一CU可含有一或多个PU及一或多个TU。与CU相关联的语法数据可描述(例如)CU成为一或多个PU的分割。分割模式可在CU被跳过或直接模式编码、被帧内预测模式编码还是被帧间预测模式编码之间不同。PU可分割为非正方形形状。与CU相关联的语法数据也可描述(例如)CU根据四叉树而成为一或多个TU的分割。TU可为正方形或非正方形形状。
HEVC标准允许根据TU的变换，所述变换对于不同CU可不同。TU通常是基于针对经分割LCU所定义的给定CU内的PU的大小而定大小，但可不总是这种状况。TU通常具有与PU相同的大小，或小于PU。在一些实例中，可使用被称为“残差四叉树”(RQT)的四叉树结构而将对应于CU的残差样本再分成较小单元。RQT的叶节点可被称作变换单元(TU)。可变换与TU相关联的像素差值以产生变换系数，变换系数可被量化。
一般来说，PU包含与预测过程相关的数据。举例来说，当PU被帧内模式编码时，PU可包含描述用于PU的帧内预测模式的数据。作为另一实例，当PU被帧间模式编码时，PU可包含定义用于PU的运动矢量的数据。定义用于PU的运动矢量的数据可描述(例如)运动矢量的水平分量、运动矢量的垂直分量、用于运动矢量的分辨率(例如，四分之一像素精确度，或八分之一像素精确度)、运动矢量所指向的参考图片，及/或用于运动矢量的参考图片列表(例如，列表0、列表1或列表C)。
一般来说，TU用于变换过程及量化过程。具有一或多个PU的给定CU也可包含一或多个变换单元(TU)。在预测之后，视频编码器20可从由译码节点根据PU而识别的视频块计算残差值。接着，更新译码节点以参考残差值而非原始视频块。残差值包括可使用TU中指定的变换及其它变换信息而变换成变换系数、被量化且被扫描以产生系列化变换系数以供熵译码的像素差值。可再次更新译码节点以参考这些系列化变换系数。本发明通常使用术语“视频块”以是指CU的译码节点。在一些特定状况下，本发明也可使用术语“视频块”以是指包含译码节点以及PU及TU的树状块，即，LCU或CU。
视频序列通常包含一系列视频帧或图片。图片群(GOP)通常包括所述视频图片中的一系列一或多个视频图片。GOP可在GOP的标头中、在所述图片中的一或多者的标头中或在别处包含语法数据，语法数据描述包含在GOP中的数个图片。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作，以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化大小，且其大小可根据所指定译码标准而不同。
作为实例，HM以各种PU大小来支持预测。假定特定CU的大小为2N×2N，那么HM以2N×2N或N×N的PU大小来支持帧内预测，且以2N×2N、2N×N、N×2N或N×N的对称PU大小来支持帧间预测。HM也以2N×nU、2N×nD、nL×2N及nR×2N的PU大小来支持用于帧间预测的不对称分割。在不对称分割中，CU的一个方向未被分割，而另一方向分割成25％及75％。对应于25％分区的CU的部分是由“n”继之以“向上”、“向下”、“左侧”或“右侧”的指示进行指示。因此，举例来说， “2N×nU”是指水平地分割的2N×2N CU，其中2N×0.5N PU位于顶部上且2N×1.5N PU位于底部上。
在本发明中，“N×N”及“N乘N”可互换式地用以是指在垂直维度及水平维度方面的视频块的像素尺寸，例如，16×16像素或16乘16像素。一般来说，16×16块将在垂直方向上具有16个像素(y＝16)且在水平方向上具有16个像素(x＝16)。同样地，N×N块通常在垂直方向上具有N个像素且在水平方向上具有N个像素，其中N表示非负整数值。块中的像素可按行及列而布置。此外，块未必需要在水平方向上与在垂直方向上具有相同数目个像素。举例来说，块可包括N×M像素，其中M未必等于N。
在使用CU的PU进行帧内预测性或帧间预测性译码之后，视频编码器20可计算由CU的TU指定的变换被应用的残差数据。所述残差数据可对应于未经编码图片的像素与对应于CU的预测值之间的像素差。视频编码器20可形成用于CU的残差数据，且接着变换所述残差数据以产生变换系数。
在进行任何变换以产生变换系数之后，视频编码器20可执行变换系数的量化。量化通常是指如下过程：量化变换系数以可能地缩减用以表示所述系数的数据的量，从而提供进一步压缩。量化过程可缩减与所述系数中的一些或全部相关联的位深度。举例来说，可在量化期间将n位值降值舍位到m位值，其中n大于m。
在一些实例中，视频编码器20可利用预定义扫描次序以扫描经量化变换系数，以产生可被熵编码的系列化矢量。在其它实例中，视频编码器20可执行自适应性扫描。在扫描经量化变换系数以形成一维矢量之后，视频编码器20可(例如)根据上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码(CABAC)、基于语法的上下文自适应性二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法而熵编码一维矢量。视频编码器20也可熵编码与经编码视频数据相关联的语法元素以供视频解码器30用来解码所述视频数据。
为了执行CABAC，视频编码器20可将上下文模型内的上下文指派给待发射符号。上下文可关于(例如)符号的相邻值是否为非零。为了执行CAVLC，视频编码器20可选择用于待发射符号的可变长度代码。可构造VLC中的代码字，使得相对较短代码对应于较可能符号，而较长代码对应于较不可能符号。以此方式，VLC的使用相比于(例如)针对每一待发射符号来使用等长度代码字可实现位节省。概率确定可基于指派给符号的上下文。
可使用视频编码器20及视频解码器30的视频应用程序可包含本地播放、流式处理、广播/多播及交谈应用程序。交谈应用程序包含视频电话及视频会议。交谈应用程序也被称作低延迟应用程序，这在于：这些实时应用程序不容许显著延迟。出于良好用户体验起见，交谈应用程序需要全部系统的相对低端对端延迟，即，在源装置处捕获视频帧的时间与在目的地装置处显示视频帧的时间之间的延迟。通常，用于交谈应用程序的可接受端对端延迟应小于400ms。大约150ms的端对端延迟被认为极好。
交谈应用程序的每一处理步骤可促成总端对端延迟。来自处理步骤的实例延迟包含捕获延迟、预处理延迟、编码延迟、发射延迟、接收缓冲延迟(对于去抖动)、解码延迟、经解码图片输出延迟、后处理延迟，及显示延迟。通常，将使编码解码器延迟(编码延迟、解码延迟及经解码图片输出延迟)在交谈应用程序中最小化作为目标。详细地说，译码结构应确保图片的解码次序及输出次序相同，使得经解码图片输出延迟等于或接近于零。
视频译码标准通常包含视频缓冲模型的规范。在AVC及HEVC中，缓冲模型被称作假设参考解码器(HRD)，其包含经译码图片缓冲器(CPB)及经解码图片缓冲器(DPB)两者的缓冲模型。CPB为含有经译码图片以用于解码的先进先出缓冲器。DPB为保持经解码图片以用于参考(例如，帧间预测)、输出重排序、输出延迟及最终显示的缓冲器。CPB行为及DPB行为是由HRD数学上指定。HRD直接地强加对不同时序、缓冲器大小及位率的约束，且间接地强加对位流特性及统计的约束。完整HRD参数集合包含五个基本参数：初始CPB移除延迟、CPB大小、位率、初始DPB输出延迟，及DPB大小。
在AVC及HEVC中，将位流一致性及解码器一致性指定为HRD规范的部分。尽管HRD被称作解码器，但通常也在编码器侧处需要由HRD指定的一些技术以保证位流一致性，而通常在解码器侧处无需由HRD指定的一些技术。指定两种类型的位流或HRD一致性，即，类型I及类型II。而且，指定两种类型的解码器一致性(即，输出时序解码器一致性，及输出次序解码器一致性)。
类型I位流为网络抽象层(NAL)单元流，其仅含有用于所述位流中的所有存取单元的视频译码层(VCL)NAL单元及nal_unit_type等于FD_NUT(填充符数据NAL单元)的NAL单元。类型II位流除了含有用于所述位流中的所有存取单元的VCL NAL单元及填充符数据NAL单元以外，也含有以下各者中的至少一者：除了填充符数据NAL单元以外的额外非VCL NAL单元、所有leading_zero_8bits、zero_byte、start_code_prefix_one_3bytes及trailing_zero_8bits语法元素，所述语法元素用NAL单元流形成字节流。
图2为说明用于假设参考解码器(HRD)的缓冲器模型的框图。HRD操作如下。由假设流调度器(HSS)100递送与根据所指定到达调度而流动到CPB 102中的解码单元相关联的数据。由HSS 100递送的流可为如上文所定义的类型I或类型II位流。在每一解码单元的CPB移除时间由解码过程104(例如，由视频解码器30)移除及解码与所述解码单元相关联的数据。由视频解码器30执行解码过程104。将由解码过程104产生的每一经解码图片放置在DPB 106中。可在解码过程104期间(例如，在帧间预测期间)使用经解码图片作为参考图片。当经解码图片变得不再被需要用于帧间预测参考且不再被需要用于输出时，从DPB 106移除经解码图片。在一些实例中，可在显示DPB 106中的经解码图片之前由输出裁剪单元108裁剪所述经解码图片。输出裁剪单元108可为视频解码器30的部分，或可为经配置以进一步处理视频解码器的输出的外部处理器(例如，显示处理器)的部分。
在AVC模型及HEVC HRD模型中，解码或CPB移除是基于存取单元(AU)，且假定图片解码是瞬时的(例如，图2中的解码过程104被假定为瞬时的)。存取单元为网络抽象层(NAL)单元集合，且含有一个经译码图片。在实际应用中，如果合格解码器严格地遵循(例如)由视频编码器20产生的图片时序补充增强信息(SEI)消息中发信的解码时间以开始AU的解码，那么用以输出特定经解码图片的最早可能时间等于那个特定图片的解码时间(即，图片开始被解码的时间)加解码那个特定图片所需要的时间。在真实世界中解码图片所需要的时间不能等于零。
HEVC WD9包含支持基于子图片的CPB操作以实现缩减的编码解码器延迟，有时被称作超低延迟。CPB可在AU级别(即，图片级别)处操作或在子图片级别(即，小于整个图片)处操作，这取决于子图片级别CPB操作是否受到解码器优选(其可通过HEVC规范中未指定的外部方式而指定)及是否存在子图片CPB参数(在位流中或经由HEVC规范中未指定的外部方式)。当两个条件都为真时，CPB在子图片级别处操作(且在这种状况下，每一解码单元被定义为一AU的子集)。解码单元(DU)为由解码器操作的单元。否则，CPB在AU级别处操作(且在这种状况下，每一解码单元被定义为一AU)。如果语法元素SubPicCpbFlag等于0，那么DU等于AU。否则，DU为AU的子集。
用于子图片级别CPB参数的HEVC语法包含以下各者：
-以下语法位于序列参数集(SPS)的视频可用性信息(VUI)部分中
○是否存在子图片级别CPB参数
○用于推导子计时周期时钟的计时周期除数
○CPB移除延迟长度
○在图片时序SEI消息中还是在解码单元信息SEI消息中发信解码单元CPB移除延迟值
○用于在子图片级别处的CPB操作的CPB大小值的长度
-以下语法位于缓冲周期SEI消息中
○用于子图片级别CPB操作的初始CPB移除延迟及延迟位移集合
-以下语法位于图片时序SEI消息中
○存取单元中的解码单元的数目
○每一解码单元中的NAL单元的数目
○用于解码单元的解码单元CPB移除延迟值
-以下语法位于图片时序SEI消息中
○每一解码单元到存取单元中的解码单元列表的索引
○用于每一解码单元的解码单元CPB移除延迟值
用以最小化CPB及/或DPB延迟时间的当前方法展现以下缺点。经解码图片的输出时间等于最后DU(即，用于AU级别操作的AU自身)的解码时间(即，CPB移除时间)加经发信DPB输出延迟。因此，通常使用用以缩减所述延迟的两种方法。一种方法是较早地使解码时间移位。另一方法是缩减经发信DPB输出延迟(相对于CPB移除时间)的值。然而，用于超低延迟缓冲模型的现有解决方案仅涉及基于子图片的CPB操作，且仅利用第一方法以缩减延迟。
鉴于这些缺点，本发明提议用于经由发信及使用相对于CPB移除时间的经发信DPB输出延迟的缩减值而进一步缩减解码延迟的技术。
具体地说，在本发明的一个实例中，由编码器(例如)在图片时序SEI消息中发信相对于每一AU的CPB移除时间的DPB输出延迟的一个额外经发信值。这个额外经发信DPB输出延迟用来推导用于基于子图片的HRD操作的DPB输出时间。在另一实例中，除了额外经发信DPB输出延迟以外，也使用子计时周期时钟而非计时周期时钟来推导DPB输出时间。
下文提供一些详细实例。如果未特定地提及，那么以下实例的方面可如HEVC WD9中所定义而操作。
根据本发明的一个实例，图片时序SEI消息的实例语法及语义如下。以粗体来展示由本发明变更或引入的语法元素。

在本发明的这个实例中，粗体语法元素可操作如下。语法元素用以计算当HRD在子图片级别处操作时(即，当SubPicCpbFlag等于1时)的图片的DPB输出时间。语法元素指定在从DPB输出经解码图片之前从CPB移除存取单元中的最后解码单元之后要等待多少子时钟计时周期。
在一个实例中，语法元素的长度是由dpb_output_delay_length_minus1+1以位为单位而给出。在另一实例中，语法元素的长度是由另一语法元素的值加1以位为单位而给出，其中(例如)所述语法元素具有的名称且在序列参数集的VUI部分中被发信。
从输出时序合格解码器输出的任何图片的推导的输出时间应在从按解码次序的任何后续经译码视频序列中的所有图片的推导的输出时间之前。在一个实例中，由这个语法元素的值建立的图片输出次序应为与由如HEVC WD9中指定的语法元素PicOrderCntVal的值建立的次序相同的次序。语法元素PicOrderCntVal指示当前图片的图片次序计数(POC)。 POC值为与待从DPB输出的每一图片相关联的变量，其指示按输出次序的关联图片相对于同一经译码视频序列中待从DPB输出的其它图片的输出次序位置的位置。
对于未由“提升”过程(即，供从DPB移除图片的过程)输出的图片，因为其按解码次序在等于1或被推断为等于1的瞬时解码刷新(IDR)或断开链接存取(BLA)图片之前，所以从推导的输出时间应随着PicOrderCntVal相对于同一经译码视频序列内的所有图片的值增加而增加。语法元素指定如何在IDR或BLA图片的解码之后处理DPB中的经先前解码图片。如果等于1或被推断为1，那么在解码IDR或BLA图片之后，将不输出那些经先前解码图片，但将从经解码图片缓冲器(DPB)直接地清空/移除所述经先前解码图片。
在以下状况下调用“提升”过程。
-当前图片为IDR或BLA图片，且no_output_of_prior_pics_flag不等于1且未被推断为等于1。
-当前图片既不为IDR图片又不为BLA图片，且DPB中被标记为“被需要用于输出”的图片的数目大于被允许按解码次序在任何图片之前的图片的最大数目(sps_max_num_reorder_pics[HighestTid])。
-当前图片既不为IDR图片又不为BLA图片，且DPB中的图片的数目等于图片存储缓冲器单元中的DPB的最大所需大小(sps_max_dec_pic_buffering[HighestTid])。
“提升”过程包含以下已排序步骤：
1.选择首先用于输出的图片作为DPB中被标记为“被需要用于输出”的所有图片中的具有PicOrderCntVal的最小值的图片。
2.使用用于所述图片的活动序列参数集中指定的一致性裁剪窗来裁剪所述图片，输出经裁剪图片，且将所述图片标记为“未被需要用于输出”。
3.如果包含被裁剪及输出的图片的图片存储缓冲器含有被标记为“未用于参考”的图片，那么使图片存储缓冲器空白。即，如果图片已被输出用于显示且不再被需要用于帧间预测，那么可“提升”所述图片，即，从DPB移除所述图片。
对于经译码视频序列中的任何两个图片，在子图片级别HRD操作下推导的所述两个图片的输出时间之间的差应相同于在AU级别(即，图片级别)HRD操作下推导的相同差。
实例图片输出过程如下。在存取单元n的CPB移除时间tr(n)瞬时地发生以下情形。基于图片n是否具有等于1的PicOutputFlag(即，使用子图片HRD)，其DPB输出时间to,dpb(n)是由以下方程式推导：
if(！SubPicCpbFlag)//即，HRD在AU级别处操作
to,dpb(n)＝tr(n)+tc*pic_dpb_output_delay(n)
else//即，HRD在子图片级别处操作

其中pic_dpb_output_delay(n)及pic_dpb_output_du_delay(n)分别为与存取单元n相关联的图片时序SEI消息中指定的pic_dpb_output_delay及pic_dpb_output_du_delay的值。变量tc被推导如下且被称为时钟计时周期：
tc＝num_units_in_tick÷time_scale
变量tc_sub被推导如下且被称为子图片时钟计时周期：
tc_sub＝tc÷(tick_divisor_minus2+2)
根据本发明的实例，当前图片的输出被指定如下：
-如果PicOutputFlag等于1且to,dpb(n)＝tr(n)，那么输出当前图片。
-否则，如果PicOutputFlag等于0，那么不输出当前图片，但将会将当前图片存储在DPB中，如由上文所概述的“提升”过程所指定。
-否则(PicOutputFlag等于1且to,dpb(n)>tr(n))，稍后输出当前图片且将会将当前图片存储在DPB中(如由“提升”过程所指定)，且除非当前图片被指示为不在to,dpb(n)之前的时间通过等于1的no_output_of_prior_pics_flag的解码或推断而输出，否则在时间to,dpb(n)输出当前图片。当输出时，应使用活动序列参数集中指定的一致性裁剪窗来裁剪图片。
当图片n为被输出且不为被输出的位流的最后图片的图片时，将Δto,dpb(n)(即，图片之间的DPB输出时间)的值定义为：
Δto,dpb(n)＝to,dpb(nn)-to,dpb(n)
其中nn指示按输出次序在图片n之后且具有等于1的PicOutputFlag的图片。
图3为说明可实施本发明所描述的技术的实例视频编码器20的框图。视频编码器20可执行视频切片内的视频块的帧内译码及帧间译码。帧内译码依赖于空间预测以缩减或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测以缩减或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间的压缩模式中的任一者。诸如单向预测(P模式)或双向预测(B模式)的帧间模式可指若干基于时间的压缩模式中的任一者。
在图3的实例中，视频编码器20包含预测处理单元41、参考图片存储器64、求和器50、变换处理单元52、量化单元54，及熵编码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44，及帧内预测处理单元46。出于视频块重构起见，视频编码器20也包含反量化单元58、反变换处理单元60，及求和器62。也可包含去块滤波器(图3中未展示)以滤波块边界，以从经重构视频移除块效应假象。视需要，去块滤波器通常将滤波求和器62的输出。除了去块滤波器以外，也可使用额外环路滤波器(环路内或环路后)。
如图3所展示，视频编码器20接收视频数据，且预测处理单元41可将所述数据分割成视频块。这种分割也可包含分割成切片、图像块或其它较大单元，以及(例如)根据LCU及CU的四叉树结构的视频块分割。视频编码器20通常说明编码待编码视频切片内的视频块的组件。切片可划分成多个视频块(且可能地划分成被称作图像块的视频块集合)。预测处理单元41可基于误差结果(例如，译码率及失真水平)而选择用于当前视频块的多个可能译码模式中的一者，诸如，多个帧内译码模式中的一者，或多个帧间译码模式中的一者。预测处理单元41可将所得经帧内译码块或经帧间译码块提供给求和器50以产生残差块数据，且提供给求和器62以重构经编码块以用作参考图片。
预测处理单元41内的帧内预测处理单元46可执行当前视频块相对于与待译码的当前块相同的帧或切片中的一或多个相邻块的帧内预测性译码，以提供空间压缩。预测处理单元41内的运动估计单元42及运动补偿单元44执行当前视频块相对于一或多个参考图片中的一或多个预测性块的帧间预测性译码，以提供时间压缩。
运动估计单元42可经配置以根据用于视频序列的预定样式而确定用于视频切片的帧间预测模式。所述预定样式可将所述序列中的视频切片指定为P切片、B切片或GPB切片。运动估计单元42及运动补偿单元44可高度地集成，但出于概念目的而被分离地说明。由运动估计单元42执行的运动估计为产生运动矢量的过程，运动矢量估计用于视频块的运动。举例来说，运动矢量可指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的位移。
预测性块为被发现在像素差方面接近地匹配于待译码视频块的PU的块，像素差可由绝对差总和(SAD)、平方差总和(SSD)或其它差度量确定。在一些实例中，视频编码器20可计算用于存储在参考图片存储器64中的参考图片的次整数像素位置的值。举例来说，视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元42可执行相对于完全像素位置及分数像素位置的运动搜索，且以分数像素精确度输出运动矢量。
运动估计单元42通过比较经帧间译码切片中的视频块的PU的位置与参考图片的预测性块的位置而计算用于所述PU的运动矢量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1)，所述列表中的每一者识别存储在参考图片存储器64中的一或多个参考图片。运动估计单元42将经计算运动矢量发送到熵编码单元56及运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计确定的运动矢量而提取或产生预测性块，从而可能地执行达子像素精确度的内插。在接收到用于当前视频块的PU的运动矢量后，运动补偿单元44就可在所述参考图片列表中的一者中定位所述运动矢量所指向的预测性块。视频编码器20通过从正被译码的当前视频块的像素值减去预测性块的像素值而形成像素差值来形成残差视频块。像素差值形成用于块的残差数据，且可包含亮度差分量及色度差分量两者。求和器50表示执行这种减去运算的组件。运动补偿单元44也可产生与视频块及视频切片相关联的语法元素以供视频解码器30用来解码视频切片的视频块。
作为如上文所描述的由运动估计单元42及运动补偿单元44执行的帧间预测的替代例，帧内预测处理单元46可帧内预测当前块。详细地说，帧内预测处理单元46可确定将用以编码当前块的帧内预测模式。在一些实例中，帧内预测处理单元46可(例如)在单独编码遍次期间使用各种帧内预测模式来编码当前块，且帧内预测处理单元46(或在一些实例中，模式选择单元40)可从经测试模式选择将使用的适当帧内预测模式。
举例来说，帧内预测处理单元46可使用用于各种经测试帧内预测模式的速率-失真分析来计算速率-失真值，且在经测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的失真(或误差)的量，以及用以产生经编码块的位率(即，位的数目)。帧内预测处理单元46可从用于各种经编码块的失真及速率计算比率，以确定哪一帧内预测模式针对所述块展现最佳速率-失真值。
在任何状况下，在选择用于块的帧内预测模式之后，帧内预测处理单元46可将指示用于块的选定帧内预测模式的信息提供给熵编码单元56。熵编码单元56可根据本发明的技术而编码指示选定帧内预测模式的信息。视频编码器20可在经发射位流中包含配置数据，配置数据可包含多个帧内预测模式索引表及多个经修改帧内预测模式索引表(也被称作代码字映射表)、编码用于各种块的上下文的定义，以及将用于所述上下文中的每一者的最可能帧内预测模式、帧内预测模式索引表及经修改帧内预测模式索引表的指示。
在预测处理单元41经由帧间预测或帧内预测而产生用于当前视频块的预测性块之后，视频编码器20通过从当前视频块减去预测性块而形成残差视频块。残差块中的残差视频数据可包含在一或多个TU中且应用于变换处理单元52。变换处理单元52使用诸如离散余弦变换(DCT)或概念上相似变换的变换而将残差视频数据变换成残差变换系数。变换处理单元52可将残差视频数据从像素域转换到变换域，诸如，频域。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步缩减位率。量化过程可缩减与所述系数中的一些或全部相关联的位深度。可通过调整量化参数而修改量化程度。在一些实例中，量化单元54接着可执行包含经量化变换系数的矩阵的扫描。替代地，熵编码单元56可执行所述扫描。
在量化之后，熵编码单元56熵编码经量化变换系数。举例来说，熵编码单元56可执行上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码(CABAC)、基于语法的上下文自适应性二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码，或另一熵编码方法或技术。在由熵编码单元56进行的熵编码之后，可将经编码位流发射到视频解码器30，或对经编码位流存档以供视频解码器30稍后发射或检索。熵编码单元56也可熵编码用于正被译码的当前视频切片的运动矢量及其它语法元素。
反量化单元58及反变换处理单元60分别应用反量化及反变换，以在像素域中重构残差块以供稍后用作参考图片的参考块。运动补偿单元44可通过将残差块加到参考图片列表中的一者内的参考图片中的一者的预测性块而计算参考块。运动补偿单元44也可将一或多个内插滤波器应用于经重构残差块以计算次整数像素值以供运动估计中使用。求和器62将经重构残差块加到由运动补偿单元44产生的运动补偿式预测块，以产生参考块以供存储在参考图片存储器64(也被称为经解码图片缓冲器)中。参考块可由运动估计单元42及运动补偿单元44用作参考块以帧间预测后续视频帧或图片中的块。
视频编码器20可经配置以实施本发明的技术。在一个实例中，视频编码器20可经配置以在用于视频解码器的HRD设置指示在图片级别处的操作的状况下使用第一DPB输出延迟来确定第一DPB输出时间、在用于视频解码器的HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间、在经编码视频位流中发信第一DPB输出延迟及第二DPB输出延迟。下文将参看图5来论述根据本发明的技术的视频编码器20的操作的另外实例。
图4为说明可实施本发明所描述的技术的实例视频解码器30的框图。在图4的实例中，视频解码器30包含经译码图片缓冲器(CPB)78、熵解码单元80、预测处理单元81、反量化单元86、反变换处理单元88、求和器90，及经解码图片缓冲器(DPB)92。预测处理单元81包含运动补偿单元82及帧内预测处理单元84。在一些实例中，视频解码器30可执行与关于来自图3的视频编码器20所描述的编码遍次大体上互逆的解码遍次。
CPB 78存储来自经编码图片位流的经译码图片。在一个实例中，CPB 78为含有按解码次序的存取单元(AU)的先进先出缓冲器。AU为根据所指定分类规则而彼此相关联、按解码次序连续且含有正好一个经译码图片的网络抽象层(NAL)单元集合。解码次序为图片被解码的次序，且可不同于图片被显示的次序(即，显示次序)。CPB的操作可由假设参考解码器(HRD)(诸如，根据本发明的技术而操作的HRD)指定。
在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块及关联语法元素的经编码视频位流。视频解码器30的熵解码单元80熵解码所述位流以产生经量化系数、运动矢量及其它语法元素。熵解码单元80将运动矢量及其它语法元素转递到预测处理单元81。视频解码器30可在视频切片级别及/或视频块级别处接收语法元素。
当视频切片被译码为经帧内译码(I)切片时，预测处理单元81的帧内预测处理单元84可基于经发信帧内预测模式及来自当前帧或图片的经先前解码块的数据而产生用于当前视频切片的视频块的预测数据。当视频帧被译码为经帧间译码(即，B或P)切片时，预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动矢量及其它语法元素而产生用于当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生预测性块。视频解码器30可基于存储在DPB 92中的参考图片而使用默认构造技术来构造参考帧列表：列表0及列表1。
运动补偿单元82通过分析运动矢量及其它语法元素而确定用于当前视频切片的视频块的预测信息，且使用所述预测信息以产生用于正被解码的当前视频块的预测性块。举例来说，运动补偿单元82使用经接收语法元素中的一些以确定用以译码视频切片的视频块的预测模式(例如，帧内预测或帧间预测)、帧间预测切片类型(例如，B切片或P切片)、用于切片的参考图片列表中的一或多者的构造信息、用于切片的每一经帧间编码视频块的运动矢量、用于切片的每一经帧间译码视频块的帧间预测状态，及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元82也可基于内插滤波器而执行内插。运动补偿单元82可使用如由视频编码器20在视频块的编码期间使用的内插滤波器，以计算用于参考块的次整数像素的经内插值。在这种状况下，运动补偿单元82可从经接收语法元素确定由视频编码器20使用的内插滤波器，且使用所述内插滤波器以产生预测性块。
反量化单元86反量化(即，解量化)位流中提供且由熵解码单元80解码的经量化变换系数。反量化过程可包含使用由视频编码器20针对视频切片中的每一视频块而计算的量化参数，以确定量化程度且同样地确定应被应用的反量化程度。反变换处理单元88将反转换(例如，反DCT、反整数变换或概念上相似反变换过程)应用于变换系数，以便在像素域中产生残差块。
在运动补偿单元82基于运动矢量及其它语法元素而产生用于当前视频块的预测性块之后，视频解码器30通过对来自反变换处理单元88的残差块与由运动补偿单元82产生的对应预测性块求和而形成经解码视频块。求和器90表示执行这种求和运算的组件。视需要，也可应用去块滤波器以滤波经解码块，以便移除块效应假象。也可使用其它环路滤波器(在译码环路中或在译码环路之后)以使像素转变平滑，或以其它方式改进视频质量。接着将给定帧或图片中的经解码视频块存储在DPB 92中，DPB 92存储用于后续运动补偿的参考图片。DPB 92也存储经解码视频以供稍后呈现在显示装置(诸如，图1的显示装置32)上。类似于CPB 78，在一个实例中，DPB 92的操作可由HRD指定，如由本发明的技术所定义。
视频解码器30可经配置以实施本发明的技术。在一个实例中，视频解码器30可经配置以接收用于经解码图片的第一DPB输出延迟及第二DPB输出延迟、在用于视频解码器的HRD设置指示在图片级别处的操作的状况下针对经解码图片而使用第一DPB输出延迟来确定第一DPB输出时间，及在用于视频解码器的HRD设置指示在子图片级别处的操作的状况下针对经解码图片而使用第二DPB输出延迟来确定第二DPB输出时间。下文将参看图6来论述根据本发明的技术的视频解码器30的操作的另外实例。
图5为展示根据本发明的技术的实例编码方法的流程图。图5的技术可由视频编码器20的一或多个结构实施。
在一个实例中，视频编码器20可经配置以在用于视频解码器的HRD设置指示在图片级别处的操作的状况下使用第一DPB输出延迟来确定第一DPB输出时间(500)，及在用于视频解码器的HRD设置指示在子图片级别处的操作的状况下使用第二DPB输出延迟来确定第二DPB输出时间(502)。视频编码器20可经进一步配置以在经编码视频位流中发信第一DPB输出延迟及第二DPB输出延迟(504)。
视频编码器20可经进一步配置以发信指示用于视频解码器的HRD设置处于图片级别还是处于子图片级别的子图片CPB旗标(506)，及基于子图片CPB旗标而编码视频图片(508)。
在本发明的一个实例中，确定第二DPB输出时间包括将第二DPB输出延迟乘以子图片时钟计时周期且将所得值加到CPB移除时间。在本发明的另一实例中，确定第一DPB输出时间包括将第一DPB输出延迟乘以时钟计时周期且将所得值加到CPB移除时间。
图6为展示根据本发明的技术的实例解码方法的流程图。图6的技术可由视频解码器30的一或多个结构实施。
在一个实例中，视频解码器30可经配置以接收指示用于视频解码器的HRD设置处于图片级别还是处于子图片级别的子图片CPB旗标(600)，及基于子图片CPB旗标而解码视频图片(602)。
视频解码器30可经进一步配置以接收用于经解码图片的第一DPB输出延迟及第二DPB输出延迟(604)，及在用于视频解码器的HRD设置指示在图片级别处的操作的状况下针对经解码图片而使用第一DPB输出延迟来确定第一DPB输出时间(606)，且在用于视频解码器的HRD设置指示在子图片级别处的操作的状况下针对经解码图片而使用第二DPB输出延迟来确定第二DPB输出时间(608)。
视频解码器30可经进一步配置以基于HRD设置而基于第一DPB输出时间或第二DPB输出时间从经解码图片缓冲器输出图片(610)。如果子图片CPB旗标指示用于视频解码器的HRD设置指示在图片级别处的操作，那么使用第一DPB输出时间，且如果子图片CPB旗标指示用于视频解码器的HRD设置指示在子图片级别处的操作，那么使用第二DPB输出时间。
在本发明的另一实例中，视频解码器30经配置以通过将第二DPB输出延迟乘以子图片时钟计时周期且将所得值加到CPB移除时间而确定第二DPB输出时间。在本发明的另一实例中，视频解码器30经配置以通过将第一DPB输出延迟乘以时钟计时周期且将所得值加到CPB移除时间而确定第一DPB输出时间。
在一或多个实例中，所描述功能可以硬件、软件、固件或其任何组合予以实施。如果以软件予以实施，那么所述功能可作为一或多个指令或代码而存储在计算机可读媒体上或经由计算机可读媒体进行发射，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于诸如数据存储媒体的有形媒体)或通信媒体，通信媒体包含促进(例如)根据通信协议而将计算机程序从一处传送到另一处的任何媒体。以此方式，计算机可读媒体通常可对应于(1)为非暂时性的有形计算机可读存储媒体，或(2)诸如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索指令、代码及/或数据结构以用于实施本发明所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制，这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪速存储器，或可用以存储呈指令或数据结构的形式的所需程序代码且可由计算机存取的任何其它媒体。而且，任何连接被适当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或诸如红外线、无线电及微波的无线技术而从网站、服务器或其它远程源发射指令，那么同轴电缆、光纤电缆、双绞线、DSL或诸如红外线、无线电及微波的无线技术包含在媒体的定义中。然而，应理解，计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体，而是有关于非暂时性有形存储媒体。如本文所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘通过激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。
可由诸如以下各者的一或多个处理器执行指令：一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)，或其它等效集成或离散逻辑电路系统。因此，如本文所使用的术语“处理器”可指上述结构或适合于实施本文所描述的技术的任何其它结构中的任一者。另外，在一些方面中，本文所描述的功能性可提供在经配置用于编码及解码的专用硬件及/或软件模块内，或并入在组合式编码解码器中。而且，所述技术可完全地实施在一或多个电路或逻辑元件中。
本发明的技术可实施在各种各样的装置或设备中，所述装置或设备包含无线手机、集成电路(IC)或IC集合(例如，芯片集)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面，但其未必要求通过不同硬件单元进行实现。更确切地，如上文所描述，各种单元可组合在编码解码器硬件单元中，或由共同操作性硬件单元的集合(包含如上文所描述的一或多个处理器)结合合适软件及/或固件而提供。
已描述各种实例。这些及其它实例是在所附权利要求书的范围内。