以PB帧方式编码视频图象.pdf

摘要
申请专利号：	CN02827466.0	申请日：	2002.12.23
公开号：	CN1615658A	公开日：	2005.05.11
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	H04N7/50; H04N7/26	主分类号：	H04N7/50; H04N7/26
申请人：	皇家飞利浦电子股份有限公司;
发明人：	J·林
地址：	荷兰艾恩德霍芬
优先权：	2002.01.24 EP 02075296.0
专利代理机构：	中国专利代理(香港)有限公司	代理人：	程天正;陈景峻
PDF下载：	PDF下载

内容摘要

一种以PB帧方式编码视频图象的方法，该方法包含以下步骤：a)初始化一个总数值；b)为图象的每个块确定一个块运动矢量，该块运动矢量定义相对先前图象的块运动；c)计算一个表示每个块运动矢量的量的值并将每个指示值与一个第一预定门限值比较；d)对于每个块运动矢量，如果其指示值超过所述第一预定门限值，则递增所述总数值；e)如果在完成对所有块运动矢量的比较后，所述总数值超过一个第二预定门限值，则；f)将视频图象编码为含有至少一个P－图象，但不包含B－图象。

权利要求书

1.  一种以PB帧方式编码视频图象的方法，该方法包含以下步骤：
a)初始化一个总数值；
b)为图象的每个块确定一个块运动矢量，该块运动矢量定义相对先前图象的块运动；
c)计算一个指示每个块运动矢量的量的值并将每个指示值与一个第一预定门限值做比较；
d)对于每个块运动矢量，如果其指示值超过所述第一预定门限值，则递增所述总数值；
e)如果在完成对所有块运动矢量的比较后，所述总数值超过一个第二预定门限值，则
f)将视频图象编码为含有至少一个P-图象，但不包含B-图象，否则将图象编码为含有一个B-图象。

2.  权利要求1的方法，其中，如果所述总数值不超过所述第二门限值，则将图象编码为含有一个B-图象。

3.  权利要求1的方法，其中，如果所述总数值不超过所述第二门限值，则用不同的指示值并且可选地用不同的第一和第二门限值重复步骤a)到e)。

4.  权利要求1的方法，其中，所述指示值是块运动矢量的绝对值。

5.  权利要求1的方法，其中，所述指示值是块运动矢量的x-或y-分量。

6.  将按照权利要求1到5中任一项的方法用于操作多媒体装置，尤其是有视频功能的蜂窝电话、带视频摄影机的个人电脑、信息技术终端、便携式摄影机、数字视频记录器。

7.  一种包含计算机程序代码装置的计算机程序产品，当所述程序被装载时，该计算机程序产品使计算机执行以PB帧方式编码视频图象的过程，该过程包含以下步骤：
a)初始化一个总数值；
b)为图象的每个块确定一个块运动矢量，该块运动矢量定义相对先前图象的块运动；
c)计算一个指示每个块运动矢量的量的值并将每个指示值与一个第一预定门限值比较；
d)对于每个块运动矢量，如果其指示值超过所述第一预定门限值，则递增所述总数值；
e)如果在完成对所有块运动矢量的比较后，所述总数值超过一个第二预定门限值，则
f)将视频图象编码为含有至少一个P-图象，但不包含B-图象，否则将图象编码为含有一个B-图象。

8.  权利要求7的计算机程序产品，其中，如果所述总数值不超过所述第二门限值，则将图象编码为含有一个B-图象。

9.  权利要求7的计算机程序产品，其中，如果所述总数值不超过所述第二门限值，则用不同的指示值并且可选地用不同的第一和第二门限值重复步骤a)到e)。

10.  权利要求7的计算机程序产品，其中，所述指示值是块运动矢量的绝对值。

11.  权利要求7的计算机程序产品，其中，所述指示值是块运动矢量的x-或y-分量。

12.  一种用于以PB帧方式编码视频图象的设备，该设备包含用于执行权利要求1的方法的处理器。

说明书

以PB帧方式编码视频图象
本发明涉及以PB帧方式编码视频图象。
ITU-TH.263标准(ITU-Tstd.H.263-1995，1996年3月出版)提供一种按一个单元编码两个图象的PB帧方式(附录G)，作为几种不同的可选方式的其中之一。术语“PB”来源于P-图象和B-图象类型。PB-帧包含一个从先前解码的P-图象中预测的P-图象和一个从先前解码的P-图象和当前正在解码的P-图象二者中预测的P-图象。按照这个选择，B-图象的各部分可以是从过去和将来的视频图象中双向预测的。
所以，PB帧含有一个额外的内插的B-图象，由此通过提高帧速率而在时域上改善解码的图象质量。B-图象的好处是它与纯粹的P-图象相比产生较少的编码的位。然而，在应用到含有更大的块运动的视频序列(例如快速移动的对象)时，在一个未补偿的B-图象中有明显的模糊和块状人工产物(artifacts)，因此要编码更多的位，以补偿更大的预测误差。
在推荐H.263的第2版(非正式地称作H.263+)中支持另一个名为改进的PB-帧方式(附录M)的可选的方式。在改进的PB-帧方式中有三种不同的编码B-宏块的方式：前向、后向和双向预测。顾名思义，这三种编码方式分别使用先前解码的P-图象、当前正在被解码的P-图象、或者这二者。
按照上述额外的预测方式，可以将H，263中的按P-图象或者按PB帧编码的决定替换为H.263+中的编码方式的决定，因为前向预测方式就是P-图象编码。
在选择由H.263提供的可选的方式时有不同的取舍。因为各方式是可选的，所以并不强求一个适应的解码器支持所有的可选方式。然而，如果解码器支持某个给定方式，编码器可选择启用或禁用该方式。
目前，很少有用于动态地确定是启用还是禁用一个H.263的可选方式的方法。通常，一个可选方式在一个视频数据序列的开始处被启用，并贯穿该视频数据序列的整个长度一直保持可用。这个方法的缺点是对于一些类型的视频来说，该可选方式导致视频质量降低。对于其它类型的视频来说，视频质量的提高并不能成为与启用可选方式相关联的计算开销的增加的理由。
已经知道要计算参数来评估编码误差，例如估计每个宏块的预测误差的总和，如US 5,870,148中所公开的那样。这些计算是相当处理密集的。
运动估计被多数当前的压缩方案采用。一般来说，运动估计能提高相邻图象之间的预测精度，并减少编码预测误差所需的位。
运动补偿的系统中的一个困难是处理场景(scene)变化。US5,218,435的特点是对是否对某特定图象进行运动补偿做出全局决定。在当前和先前的图象之间的差别如此之大且如此广地分布于整个图象，以致预期某场景已经发生变化的概率很高时，做出不运动补偿的决定。优选地用一个位来向解码器传送这个全局决定。由于不发送运动矢量，所以可以利用额外的信道容量。另一方面，这意味着要做出高概率的估计，必须进行大量的计算。
然而，如果预测图象与先前基准图象的相关性较低，运动矢量能形成一种特殊图案(pattern)。这个图案在被检测到时能被用作场景变化的指示。
利用3-DRS运动估计—如在G.De Haan、R.J.Schutten的“Real-time 2-3 pull-down elimination applying motionestimation/compression in a programmable device”(IEEE消费电子国际会议，1998年6月，洛杉矶)所述的那样，则根据试验，场景被剪接的图象(scene cut picture)的多数运动矢量是零，而少部分地运动矢量(经常不到1％)有更大量值。
本发明的目的是提供一种在不引入太多计算开销的情况下以PB帧方式编码视频图象的方法。
这个目的是通过权利要求1中规定的方法实现的。各优选实施例是各从属权利要求的主题。
按照本发明，一种以PB帧方式编码视频图象的方法包含以下步骤：
-初始化一个总数值；
-为每个块确定一个块运动矢量，该块运动矢量定义相对先前图象的块运动；
-计算一个指示每个块运动矢量的量的值，并将每个这样的值与一个第一预定门限值比较；
-对于每个块运动矢量，如果其指示值超过所述预定门限值，则递增所述总数值；
-如果在完成对所有块运动矢量的比较后，所述总数值超过一个第二预定门限值，则
-将视频图象编码为含有至少一个P-图象，但不包含B-图象。
基本上来说，万一达到以上标准，则有可能编码一个单一的P-图象。编码一个PP-图象来作为代替，则可能更均匀，这样，所有图象将是PB帧格式的，但是有不同的两种位配置(bitallocation)。如果有大的块运动，上述策略将产生一个PP图象，其中预测误差被编码；如果有小的块运动，将得到一个PB图象，而预测误差则不被编码。
如果达不到上述的所述总数值超过第二门限值的条件，则可以将图象编码为包含一个B-图象。
所述指示值可以是块运动矢量的绝对值。该指示值也可以是块运动矢量的x-或y-分量。用不同的指示值重复上述方法，可能是适当的。如下文将进一步解释的那样，这将导致对场景剪辑(scene cuts)的有效处理。
在本发明的范围内，可以对本发明的方法中所使用的各种参数的关系进行选择，使得所述判定标准为达不到一个门限值而不是超过该门限值。
以上编码场景能优选地被用于操作多媒体装置，特别是有视频功能的蜂窝电话、带摄影机的个人电脑、各种信息技术终端(其中必须能利用视频信息)、便携式摄影机、数字摄影机等等。
此外，本发明也能由计算机程序产品实现，该计算机程序产品上有计算机程序代码工具，当所述程序被装载时，使计算机执行以PB帧方式编码视频图象的过程，其中该过程包含上述方法的步骤。
以下将参照附图说明本发明，其中
图1是H.263标准中的PB帧的示意图解；
图2是H.263+的附录M中的三种B宏块编码方式的例示，图2(a)例示双向预测，图2(b)例示前向预测，图2(c)例示后向预测；和
图3例示当检测到场景剪辑时的编码方式。
。然而，以内插值替换的B-图象的好处，仅当被应用到没有更大的块运动的视频序列时才能被完全利用。当以PB帧方式编码具有更大的运动的顺序图象时出现的问题是图象的重叠。具有场景变化的图象显露出类似的问题。因此，必须有运动补偿。
图2例示H.263+的附录M中的三种B宏块编码方式。
这三种编码方式是
1.后向预测：编码PB帧的B-图象的前向运动矢量；
2.前向预测：不编码运动矢量，PB帧的B-图象的所述预测等同于PB帧的P-图象；和
3.双向预测：通过缩放PB帧的P图象的运动矢量分配前向和后向运动矢量，这时前向运动矢量没有增量运动矢量。
与H.263的附录G相比，H.263+的附录M在预测方向选择方面被扩展，但是在MV_F的修改方面被简化，因为在双向预测中不包括增量。
下面的表1列出两种版本的H.263编码序列的从高到低的优先次序。
表1

编码序列采用的方式条件H.263PB帧P图象多数零运动矢量多数非零运动矢量H.263+后向双向前向大多数带尖峰的零运动矢量多数零运动矢量多数非零运动矢量

显然，H.263是H.263+的一个子集，且H.263的编码方式决策可以是H.263+的简化版本。因此，H.263序列的PB帧和P图象的策略分别可满足H.263+序列的双向预测和前向预测的策略。
本发明的主要操作是下列各项：
-决定在H.263序列中是按P-图象或PP-图象还是按PB-图象或PB-帧编码；
-确定H.263+序列中附录M的编码方式。
通常，“大运动”指的是运动矢量的约20-100％、或者优选地是约40-100％有非零的绝对值。如果指示值“绝对值”被用来确定图象的类型，这些比例将定义一个第一门限值。如果达不到这种门限值，则可能存在场景剪辑。
假设在第一图象和第二图象之间出现场景剪辑sc。因此这两个图象是低相关的，以致在3DRS中几乎所有的运动矢量是零。通过应用本发明的方法，就能例如确定只有约20％运动矢量有非零的绝对值。换言之，多数运动矢量(本例中大约占80％)绝对值为零。此外，仍然有尖峰，其中，根据实验结果，尖峰是x-或y-分量大于5个象素的运动矢量。这些尖峰也能被用作场景变化的标志，这样，将被与第一门限值比较的指示值，将是具有例如5个象素的门限值的x-或y-分量。x-或y-分量超过所述第一门限值的运动矢量的个数，将被计算或加总，然后被与一个第二门限值比较，第二门限值例如是其中存在尖峰的运动矢量的比例，例如运动矢量的10％。要是在多于约10％的运动矢量中存在尖峰，所述图象就不能视为描述场景剪辑。
如果在PB帧的先前基准P图象与B图象之间出现场景剪辑sc，则把当前PB帧设定为按后向预测编码有明显的好处。就是说，这是因为后向预测产生较少的B-图象的预测误差，从而减少补偿位。这在图3中表示。
由于测试序列的特性不同，所以引入一个参数序列熵(sequenceentropy)来反映每个序列的随机性或信息容量。转到H.263的DPCM结构，把I图象的熵和图象差异的熵包括到所述序列的信息容量中是合理的。因此将序列熵定义为I图象(每个序列的第一个图象)的某个熵与所有图象差异的平均熵的平均，即

在公式(1)中，在检测序列中含有N个图象，第i个图象被记为picture_i，其中i∈[0，N-1]
为了评估三种编码方式对不同类型的视频的性能，引入参数增益，并将其定义为

参数增益是PB帧的B图象的已被换算的PSNR，由于考虑到图象质量(B图象的平均PSNR)和压缩率(序列熵/比特率)，该参数足以反映压缩性能。三种编码方式对各种序列的增益已经被评估。
双向预测在其中大多数块是没有变化的背景的移动少数(movingminority)的序列中有优势，前向预测在其中大多数块是有变化的前景的移动多数(moving majority)的序列中有优势。大的运动矢量往往导致做出不精确的预测，因而需要更多的补偿位。
后向预测在任何序列中都显示不出优势。然而，当在PB帧的先前基准P图象与B图象之间出现场景剪辑时，它有助于减少编码位。
按照本发明，编码方式决策如下：
1.对被编码的图象执行基于宏块的运动估计；
2.决定预测方式
I.当在PB帧的先前基准P图象与B图象之间的检测到场景剪辑时例如如果超过80％的运动矢量绝对值为零，且在不到10％的运动矢量中存在尖峰，则设定后向预测；
II.如果多数(例如70％的)运动矢量绝对值为零，则设定双向预测；
III.否则，设定前向预测。
3.按照所选择的预测方式恢复行列(procession)。
举例
按照本发明的编码决策策略已经被应用于几种视频序列，它们都具有相同的固定量化器和固定的帧速率。可以得出结论，在多数典型的视频会议和电视广告的情况中本发明都具有优势。
在前面的说明中、在权利要求书和/或附图中所公开的特征，无论单独地还是组合地，对于以不同的形式实现本发明，都可能实质性的。本发明借助执行上述方法的处理器被有利地实现。