无漂移的视频编码和解码方法以及相应的设备.pdf

摘要
申请专利号：	CN03802533.7	申请日：	2003.01.20
公开号：	CN1620815A	公开日：	2005.05.25
当前法律状态：	终止	有效性：	无权
法律详情：	专利权的视为放弃\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	H04N7/26	主分类号：	H04N7/26
申请人：	皇家飞利浦电子股份有限公司;
发明人：	A·布尔格; E·巴尔劳
地址：	荷兰艾恩德霍芬
优先权：	2002.01.22 EP 02290155.7
专利代理机构：	中国专利代理(香港)有限公司	代理人：	程天正;张志醒
PDF下载：	PDF下载

内容摘要

本发明涉及用于压缩视频序列的视频编码方法，包括步骤：通过小波分解的方式从原始视频序列生成低分辨率序列，通过运动补偿空时分析的方式对所述低分辨率序列执行低分辨率分解，通过将由小波分解产生的高频空间子带锚定到所述低分辨率分解的方式从所述低分辨率分解生成全分辨率序列，并且编码所述全分辨率序列和在运动补偿空时分析期间所产生的运动矢量。本发明还涉及对应的解码方法，以及对应的编码和解码设备。

权利要求书

1.  一种视频编码方法，用于被分成连续帧群(GOF)的原始视频序列的压缩，所述方法包括步骤：
(1)通过小波分解的方式从原始视频序列生成低分辨率序列，该低分辨率序列包括连续低分辨率GOF；
(2)通过每个低分辨率GOF的运动补偿空时分析的方式对所述低分辨率序列执行低分辨率分解；
(3)通过将由小波分解产生的高频空间子带锚定到所述低分辨率分解的方式从所述低分辨率分解生成全分辨率序列；
(4)编码所述全分辨率序列和在运动补偿的空时分析期间生成的运动矢量，以便生成输出的编码的比特流。

2.  如权利要求1的方法，其中对于每个帧，依照运动估计方向，将所述高的空间子带直接锚定到低分辨率子带，该低分辨率子带在所述空时分解中看起来最像所述的帧。

3.  如权利要求1的方法，其中预测模式被用来构建该高的空间子带，所述高的空间子带由对一预测误差执行的第二小波分解产生，该预测误差从应用到该原始视频序列的运动补偿获得。

4.  一种编码设备，用于实现根据权利要求1到3的任意一个的视频编码方法。

5.  一种解码借助根据权利要求1到3的任意一个的编码方法而编码的输入比特流的方法，所述解码方法包括步骤：
(1)解码所述输入的编码的比特流，用于生成一个解码的全分辨率序列以及相关的解码的运动矢量；
(2)在所述解码的全分辨率序列中，分离所述解码的高频空间子带以及解码的低分辨率分解；
(3)通过运动补偿的空时合成的方式，从所述解码的低分辨率分解生成解码的低分辨率序列；
(4)从所述解码的低分辨率序列和解码的高频空间子带重构对应于原始视频序列的输出的全分辨率序列。

6.  一种解码设备，用于实现根据权利要求5的视频解码方法。

说明书

无漂移的视频编码和解码方法以及相应的设备
发明领域
本发明涉及用于压缩被分成连续帧群(GOF)的原始视频序列的编码方法，并涉及对应的解码方法。其还涉及对应的编码和解码设备。
发明背景
互联网的发展和多媒体技术的进步使新的应用和服务成为可能。它们中的许多不仅要求编码效率，还要求增强的功能性和灵活性以适应变化的网络条件和终端性能。可扩展性满足了这些需求。当前视频压缩标准经常根据预测方案而使用所谓的混合解决方案，在该预测方案中，在时间上从参考帧预测出每个帧(该预测选项是：用于帧内或I帧的0值预测，用于P帧的前向预测，或用于B帧的双向预测)，并且获得的预测误差在空间上进行转换，以获得空间冗余的优点。于是从MPEG-2到MPEG-4，已经提出了基于标准的可缩放的解决方案。它们依靠一个基础层(base layer)以及一个或若干个增强层的生成，该基础层包括原始视频序列的最低的空间、时间和/或SNR分辨率版本，而该增强层允许(如果被发送或被解码)在空间上、时间上和/或SNR上的精细化的重构。但是，这些基于层的可缩放性方案的缺点在于它们缺乏编码效率。
已经提出了使用诸如三维(3D)子带编码的技术的不同解决途径，这些技术能生成嵌入的比特流。由于它们的多分辨率分析结构，所以这些方案本身就具有可缩放性，并且不削弱它们固有的编码效率。在3D子带编解码器中，如在例子“A fully scalable 3D subbandvideo codec(完全可缩放的3D子带视频编解码器)”，“Proceedingsof International Conference on Image Processing(ICIP2001)，VOL.2，2001，第1017-1020页”中描述的，该嵌入的比特流是完全可缩放的，并且能通过简单地在已知位置截断，便在任何空间和时间分辨率上被解码，且具有任何期望的SNR质量。在这样一个方案中，连续帧群(GOF)按3D结构处理并在空时上滤波，以压紧低频中的能量，还提供了运动补偿以改进整体的编码效率。该3D子带结构在图1中描述：所显示的带有运动补偿的3D小波分解被应用到一个帧群(GOF)，并且这个当前的GOF被首先进行运动补偿(MC)，以便处理具有大的运动的序列，接着利用哈尔(Haar)小波在时间上滤波(TF)(虚线箭头对应高通时间滤波，而其它的箭头对应低通时间滤波)。在运动补偿操作和时间滤波操作后，每个时间子带在空间上被分解为空时子带，该空时子带最终导致一种原始GOF的3D小波表示，分解的三个阶段在图1的例子中示出(L和H＝第一阶段；LL和LH＝第二阶段；LLL和LLH＝第三阶段)。选择从2D扩展到3D的周知的SPIHT算法，以便高效编码与空时分解结构相关的最终系数比特平面(bit-plane)。
如现在所实现的，3D子带编解码器在编码器一方将运动补偿(MC)的空时分析应用于完全的原始分辨率。空间可缩放性通过除去该分解的最高空间子带实现。但是，当运动补偿用在3D分析方案中时，这个方法不允许在较低的分辨率下(甚至是在很高的比特率下)完美地重构该视频序列：这一在后续的描述中被称作为漂移(drift)的现象与按标定的最终显示大小的直接编码相比较，降低了可缩放解决方案的视觉质量。如在文档“Multiscale videocompression using wavelet transform and motion compensation(利用小波变换和运动补偿的多比例视频压缩)”P.Y.Cheng等，Proceedings of the International Conference on ImageProcessing(ICIP95)，VOL.2，1995，第606-609页中解释的，这个漂移起因于小波变换和运动补偿的不可互换的顺序。实际上，当帧(A)在低分辨率(a)下合成时，应用下面的运算：
              a＝DWT_L(L)+MC[DWT_L(H)]
              ＝DWT_L(A)+[MC[DWT_L(H)]-DWT_L(MC[H])]    (1)其中DWT_L表示使用与在3D分析中相同的小波滤波器的分辨率下降抽样(downsample)。在完美的可缩放解决方案中，想要有：
              a＝DWT_L(A)                             (2)因此表达式(1)的剩余部分就对应于该漂移。可以注意到，如果没有应用MC，该漂移就被去除了。如果一个独特的运动向量被应用到该帧上，就会发生相同的现象(除了在图象边界上)。然而，应该知道MC不可避免地会达到很好的编码效率，而一个独特的全局运动地概率小到足以在后续段落中排除这种特殊的情况。
一些作者，比如J.W.Woods等人在文档“A resolution andframe-rate scalable subband/wavelet video coder(分辨率和帧率可缩放的子带/小波视频编码器)”，IEEE Transactions onCircuits and Systems for Video Technology，vol.1，n°9，2001年9月，第1035-1044页中，通过不同的手段除去这个漂移，以达到好的空间可缩放性。但是，在所述的文档中，所描述的方案除了异常复杂外、还暗示了在比特流中发送额外的信息(需要漂移校正以正确地合成较高的分辨率)，这样就浪费了几个比特(在文档“Multiscale video compression…”中描述的解决方案避免了这个瓶颈，但该解决方案作用于预测方案上并且不可换位到3D子带编解码器)。
发明概述
因此，本发明的一个目的就是提出一个避免这些缺陷的解决方案。
为此目的，本发明涉及用于压缩被分成连续帧群(GOF)的原始视频序列的视频编码方法，该方法包括步骤：
(1)通过小波分解的方式从原始视频序列生成低分辨率序列，该低分辨率序列包括连续的低分辨率GOF；
(2)通过每个低分辨率GOF的运动补偿空时分析的方式对所述低分辨率序列执行低分辨率分解；
(3)通过将由小波分解产生的高频空间子带锚定(anchor)到所述低分辨率分解的方式从所述低分辨率分解生成一个全分辨率序列；
(4)编码所述全分辨率序列和在运动补偿的空时分析期间生成的运动矢量，用于生成一个输出的编码的比特流。
所提出的解决方案在以下意义上是值得注意的，即：3DS分析中的分解树的全局结构被保持，并且不发送额外信息以校正该漂移效应(只有分解/重构机制被改变)。如果没有以全分辨率来执行运动估计/补偿，那么它在复杂性方面是一个低成本的解决方案。如果在高空间子带中引入运动补偿，则提供一个更好的编码效率。
本发明还涉及对应的解码方法，包括步骤：
(1)解码所述输入的编码的比特流，以便生成解码的全分辨率序列以及相关的解码的运动矢量；
(2)在所述编码的全分辨率序列中，分离所述解码的高频空间子带以及解码的低分辨率分解；
(3)通过运动补偿的空时合成的方式，从所述编码的低分辨率分解生成解码的低分辨率序列；
(4)从所述解码的低分辨率序列和解码的高频空间子带重构对应于原始视频序列的输出的全分辨率序列。
本发明还涉及被提供用于分别实现所述编码方法和所述解码方法的编码设备和解码设备。

附图简述
现在将参考附图，以更详细的方式来描述本发明，其中：
图1显示3D子带分解；
图2表示在最低分辨率上的运动补偿空间分析；
图3描述根据本发明的编码方案的实施例；
图4描述对应于图3的编码方案的解码方案的实施例；
图5表示高空间子带的重新排序(用于前向运动补偿)；
图6描述根据本发明的编码方案的另一个实施例。
发明详述
现在参考其两个主要步骤来解释所提出的解决方案(即在运动补偿的3D子带编解码器中不带漂移的空间可缩放性)：(a)在最低分辨率下的运动补偿，(b)编码高的空间子带。
首先，为了避免在较低分辨率下的漂移，运动补偿(MC)在这一水平上应用。结果，如图2所示，首先利用小波滤波器缩小GOF的尺寸(引用为d)，然后将通常的3D子带MC分解方案应用到这个缩小尺寸的GOF，而不是应用到全尺寸的GOF。在图2中，根据周知的提升(lifting)方案确定时间子带(L_0，d，H_0，d)和(L_1，d，H_1，d)(首先从A和B定义H，接着从A和H定义L)，并且虚线箭头对应高通时间滤波，连续箭头对应低通时间滤波，而弯曲箭头(在序列帧的低频空间子带A之间，引用为A_0，d，A_1，d，A_2，d，A_3，d，或者在低频时间子带L之间，引用为L_0，d和L_1，d)对应于运动补偿(可能注意到，该方法的一个副作用是减少将要在比特流中发送的运动矢量的量，这就为纹理编码节约了一些比特)。在发送子带到基于树的熵编码器之前(例如到3D-SPIHT编码器，比如文档“Low bit-rate scalable video coding with 3Dset partitioning in hierarchical trees(3D-SPIHT)(在分层结构树中使用3D集合分割的低比特率可缩放视频编码)”，B.J.Kim等人，IEEE Transactions on Circuits and Systems for VideoTechnology，vol.10，n°8，2000年12月，第1374-1387页中的例子所描述的)，放置允许重构全分辨率的高的空间子带。最终的树结构看上去很像3D子带编解码器的树结构，比如在文档“A fullyscalable 3D subband video codec”，IEEE Conference on ImageProcessing(ICIP2001)，vol.2，第1017-1020页，Thessaloniki，Greece，2001年10月7-10日中描述的，并且因此一个基于树的熵编码器能被应用到其上而没有任何限制，正如在图3的新的编码方案中描述的，其中引用如下(对于全分辨率序列的帧)：
FRS：全分辨率序列
WD：小波分解
LRS：低分辨率序列
MC-3DSA：运动补偿的3D子带分析
LRD：低分辨率分解
HS：高的子带
U-HFSS：帧的三个高频空间子带的联合
FR-3D-SPIHT：全分辨率3D SPIHT
OCB：输出的编码的比特流。
在图4中描述的对应的解码方案与该编码器是对称的(在图4中，附加的引用如下：
MC-3DSS：运动补偿的3D子带合成
HSS：高的子带分离
FRR：全分辨率重构)。
为了使得能够实现空间可缩放性，该高频空间子带只是必需如在3DS编解码器的普通版本中那样被切割，图4的解码方案显示了如何自然地获得低分辨率序列。
因此，为了编码高的空间子带，提出了两个主要解决方案，第一个没有MC，而第二个有MC。
A)没有MC
在第一个解决方案中，高子带简单地对应在小波分解中GOF的原始(全分辨率)帧的高频空间子带。那些子带允许在解码器上以全分辨率重构。实际上，这些帧能在低分辨率上解码。但是，这些帧对应原始帧的小波分析中的低的空间子带。因此，只需要将低分辨率帧和对应的高子带放在一起，并且应用小波合成来获得全分辨率帧。至此，在哪里和如何放置这些高子带以便优化该3D-SPIHT编码器呢？在用于3D子带编码器的MC方案中，低的时间子带总是看起来像GOF的原始帧之一。实际上：
L = 1 2 [ A + MC ( B ) ] . - - - ( 3 ) ]]>
这样L看起来像A。结果，A的高的空间子带应当被放置为使低分辨率分解对应L。该解决途径(在前向运动补偿的情况下对高的空间子带重新排序)在图5中表示，其中DWT_II表示高频小波滤波器并且系数c_jt是倍增系数。定义c_jt的方式在后面描述。
但是，在3D子带结构中的运动补偿可以是前向或者后向的(甚至已经显示交替方向提高了编码效率。下面算法中的符号为：
.jt：时间分解级(0用于完全帧速率，jt_max用作最低帧速率)
.t：0用作低的时间子带，1用作高的时间子带
.nt：在时间级jt上的子带索引
.me_dir_desc_tree：一个描述用在给定的时间级jt上的ME方向的字节(LSB描述第一ME/MC的方向，0表示“前向”，1表示“后向”)，该算法依据运动估计方向描述树(Motion Estimation DirectionDescription Tree)而使GOF中的帧GOF_index和最像它的空时子带{jt；n；t}链接。

现在描述定义系数c_jt的方式(在Haar滤波器的情况下)。令α为用于时间2抽头哈尔滤波器中的系数。在传统的3D子带方案中，具有：

在本方案中，如果对于高的空间子带使用c_jt＝α^jt，那么使用时间可缩放性仍然有意义。实际上：

以及

其中UpSample指的是利用小波滤波器的图片尺寸增大。为了在较低帧速率下重构，只合成低的时间子带：

最后，在每一时间级上重构的帧将倾向于看起来象一个“参考”原始帧和另一个的模糊版本(缩小尺寸帧的向上抽样(upsample)版本)的运动补偿的平均，然而在3D子带编解码器的当前版本中，没有引入这个模糊。但是以在时间可缩放性中增加模糊的代价来改善空间可缩放性是一个值得的步骤。
B)有MC
因为在每个子带中使用MC便不允许无漂移的重构，所以如在图6中描述的，有可能部分地使用MC来构建高的空间子带(就编码效率而言更好)而仍能构重构每一分辨率(在图6中，附加引用如下：
ME/MC：运动估计/运动补偿
PRE：预测误差)。代替直接使用小波分解的高频空间子带，对一个预测误差完成小波分解，该预测误差是从对全分辨率序列执行且例如重新使用低分辨率的运动向量的MC获得的。
该解决方案被定义为：

可以注意到，MC只用在高的空间子带中：A首先由于低的时间子带而以全分辨率重构，接着由于H而通过MC得到帧B。系数c_jt像前面那样选择。以全分辨率的所述MC能通过仅仅向上抽样该低分辨率运动向量(这样具有不引入其它运动向量开销的优点)或者通过精细化这些向上抽样的低分辨率向量(这样耗费了一些附加的传送比特，但就纹理编码而言更有效率)来执行。
必须理解，本发明不限于前面提到的实施例，并且变形和修改可不偏离本发明的思想和范围而实行。通过硬件或软件项或者两者，而有许多实现根据本发明的方法的功能的方式，前提是硬件或软件的单独一项能实现若干功能。不排除硬件或软件或两者的项的集合实现一个功能的情况，因此而形成单个功能却不需要修改根据本发明的方法。所述硬件或软件项可通过若干方式实现，比如通过布线的电子电路的方式或者适合编程的集成电路的方式。集成电路能包括在计算机或者编码器或解码器中，并且包括指令集，该指令集例如包含在计算机编程存储器中或包含在编码器或解码器存储器中，并且使得计算机或者解码器执行根据本发明方法的不同步骤。该指令集可通过读取例如盘的数据载体而装载到编程存储器。服务提供商还能够通过例如互联网的通信网络使指令集可用。