多视角视频编解码预测补偿方法及装置.pdf

摘要
申请专利号：	CN03148031.4	申请日：	2003.06.27
公开号：	CN1568015A	公开日：	2005.01.19
当前法律状态：	授权	有效性：	有权
法律详情：	专利申请权、专利权的转移(专利权的转移)变更项目:专利权人变更前权利人:中国科学院计算技术研究所地址: 北京市海淀区中关村科学院南路6号中科院计算所数字化室（物理所）邮编: 100085变更后权利人:联合信源数字音视频技术（北京）有限公司地址: 北京市海淀区上地东路1号盈创动力大厦A座701室邮编: 100085登记生效日:2008.3.28\|\|\|授权\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	H04N7/32	主分类号：	H04N7/32
申请人：	中国科学院计算技术研究所;
发明人：	高文; 贾惠柱; 吕岩
地址：	102249北京市海淀区中关村科学院南路6号中科院计算所数字化室（物理所）
优先权：
专利代理机构：	北京同立钧成知识产权代理有限公司	代理人：	刘国伟;刘芳
PDF下载：	PDF下载

内容摘要

本发明公开了一种多视角视频编解码预测补偿方法，编码为：在两个视间，使用其一为参考视，另一视作目标视，经过变形后对参考视进行全局运动预测，获得全局运动预测参数；然后进行每个宏块全局运动预测补偿和运动向量预测补偿；根据选定的预测补偿，获得宏块残差图像；对残差图像进行变换、量化、熵编码，最终输出宏块编码码流；所述解码首先获得目标视中当前帧对参考视的全局运动预测参数，进入每个宏块解码过程；进行熵解码、反量化及反变换，获得宏块采用的预测补偿方式、残差图像等信息。本发明在两个相关视序列间采用全局运动预测补偿和运动向量预测补偿方法，可更充分利用多视角视频中各个视之间的相关性，可有效对多视角视频进行编解码。

权利要求书

1、一种多视角视频编解码预测补偿的方法，其特征在于，所述编码步骤
如下：
在两个视之间，使用其中的一个视作为参考视，另一个相邻视作为目标
视，经过变形后对参考视进行全局运动预测，获得全局运动预测参数；然后
进行每个宏块全局运动预测补偿和运动向量预测补偿；
选择计算获得的全局运动预测代价和局部运动预测代价中较小的预测补
偿，作为宏块的预测补偿；
根据选定的预测补偿，进行宏块的全局运动预测补偿，或者进行宏块的
局部运动补偿，再与原始宏块做差运算，从而获得宏块残差图像；
对残差图像进行变换、量化、熵编码，最终输出宏块编码码流；
所述解码步骤如下：
首先解码获得目标视中当前帧对参考视的全局运动预测参数，然后进入
每个宏块解码过程；
进行熵解码、反量化及反变换，获得宏块采用的预测补偿方式、残差图
像等信息；
利用获得的全局运动预测参数计算获得当前解码宏块的全局运动向量，
并保存；
宏块采用全局运动预测补偿方式，或者采用运动预测补偿，将获得的宏
块补偿图像与解码的残差图像合并，得到解码宏块图像。
2、根据权利要求1所述的多视角视频编解码预测补偿的方法，其特征在
于，所述全局运动预测补偿编码过程包括：
利用获得的全局运动预测参数计算宏块的全局运动预测代价；
计算获得该宏块的全局运动向量，将其保存，已备后用。
3、根据权利要求2所述的多视角视频编解码预测补偿的方法，其特征在
于，所述全局运动预测代价，采用原始宏块与对编码后的宏块进行解码得到
的重构宏块各个象素之间的绝对差来衡量。
4、根据权利要求1所述的多视角视频编解码预测补偿的方法，其特征在
于，所述运动向量预测补偿编码过程包括：
利用获得的该宏块的全局运动向量和前一帧已保存的全局运动向量及已
编码的参考视前后帧之间的运动向量预测获得目标视前后帧之间的运动向
量；
利用预测得到的运动向量计算宏块的局部运动预测代价。
5、根据权利要求1所述的多视角视频编解码预测补偿的方法，其特征在
于，所述解码中进行宏块的全局运动预测补偿，包括：
将参考视中对应的参考帧按照获得的全局运动预测参数进行变形；
利用获得的全局运动向量参考变形后的参考帧对当前解码宏块进行全局
运动补偿，获得宏块补偿图像。
6、根据权利要求1所述的多视角视频编解码预测补偿的方法，其特征在
于，所述解码中进行宏块的运动预测补偿，包括：
利用已保存的解码后的全局运动向量和已解码的参考视前后帧间的运动
向量，计算获得目标视前后帧间的运动向量；
利用计算获得的运动向量参考目标视的前一解码帧对当前解码宏块进行
运动补偿，获得宏块补偿图像。
7、一种运动向量中心点预测方法，其特征在于，包括如下步骤：
步骤1、在全局运动预测补偿过程中，获得全局运动向量GMC0和GMC1，
以及在编码参考视时，获得局部运动向量MV0；
步骤2、计算获得当前宏块的中心点(CurXcent，CurYcent)；
步骤3、通过GMC1运动向量和位置(CurXcent，CurYcent)计算获得点
(CurXcent，CurYcent)在参考视图像中的位置(CurRefX，CurRefY)；
步骤4、利用MV0，计算获得点(CurRefX，CurRefY)在其前一帧参考
视图像中对应的位置(PreRefX，PreRefY)；
步骤5、利用GMC0，通过迭代匹配获得参考视到目标视的全局运动向量
(GMVX，GMVY)；
步骤6、将获得的全局运动向量(GMVX，GMVY)反向，进而利用其计算
位置(PreRefX，PreRefY)在目标视的前一帧图像中的对应位置(PreXcent，
PreYcent)；
步骤7、计算获得运动向量MV1，MV1X＝PreXcent-CurXcent，MV1Y＝
PreXcent-CurYcent。
8、根据权利要求7所述的运动向量中心点预测方法，其特征在于，所述
步骤5通过迭代匹配获得参考视到目标视的全局运动向量，包括：
Minerr初始化，令迭代误差Minerr＝MAXERROR；
计算获得点(PreRefX，PreRefY)所在的宏块位置(PreMBX，PreMBY)，
通过GMC0和宏块位置(PreMBX，PreMBY)获得全局运动向量(GMVX，GMVY)；
点(PreRefX，PreRefY)减去全局运动向量(GMVX，GMVY)，获得新的
位置(PreCurX，PreCurY)；计算获得点(PreCurX，PreCurY)所在的宏块
位置(PreCurMBX，PreCurMBY)；
将迭代后获得的宏块位置(PreCurMBX，PreCurMBY)与迭代前的宏块位
置(PreMBX，PreMBY)比较，进入迭代过程。
9、根据权利要求7所述的运动向量中心点预测方法，其特征在于，所述
迭代后获得的宏块位置与迭代前的宏块位置比较，两者若相等，则表示完全
获得，迭代误差Minerr为0，直接退出迭代过程。
10、根据权利要求7所述的运动向量中心点预测方法，其特征在于，所
述迭代后获得的宏块位置与迭代前的宏块位置比较，如果两者不相等，若在
迭代前的宏块位置的左侧，则获得宏块左边X方向位置和迭代后的对应位置
点的X方向位置的绝对差Xerr，否则获得宏块右边X方向位置和迭代后的
对应位置点的X方向位置的绝对差Xerr；若在上方，则获得宏块上边Y方
向位置和迭代后的对应位置点的Y方向位置的绝对差Yerr，否则获得宏块
下边Y方向位置和迭代后的对应位置点的Y方向位置的绝对差Yerr，最后
Xerr和Yerr的和与Minerr比较，取其最小值给Minerr。
11、根据权利要求7所述的运动向量中心点预测方法，其特征在于，还
包括设置控制最大的迭代次数N，当通过迭代不能获得完全匹配时，控制迭
代结束。
12、一种多视角视频编码预测补偿装置，包括参考视图像编码单元和目
标视图像编码单元，其特征在于：
所述参考视图像编码单元，通过局部运动估计模块处理，获得运动向量，
将其进行熵编码；同时运动向量与前一帧重构参考视图像合作完成参考视运
动补偿，获得补偿后的参考图像，该图像在与原始参考视图像做差，求得残
差图像；残差图像经过变换、量化和熵编码模块，最终输出参考视码流；
所述目标视图像编码单元中，全局运动估计模块接收目标视原始图像和
参考视重构图像作为输入，获得全局运动参数，并由此获得全局运动预测代
价和全局运动向量，并将全局运动向量保存在全局运动向量缓冲区中；
利用存储在缓冲区里的前一帧目标视图像编码时获得的全局运动向量
及当前获得的全局运动向量和对应的参考视图像编码时保存的运动向量，通
过目标视运动向量预测模块进行预测，得到目标视图像参考前一帧重构目标
视的局部运动向量输出到局部运动预测代价模块计算目标视图像的局部运
动预测代价，并通过选择控制器选择它和全局运动预测代价较小的预测补偿
方式；
根据选定的预测补偿方式获得补偿后的目标图像，该图像在与原始目标
视图像做差，求得残差图像；
残差图像经过变换、量化和熵编码模块处理，最终输出目标视码流。
13、根据权利要求12的多视角视频编码预测补偿装置，其特征在于：
经过量化模块处理后的残差图像再输入到反量化和反变换模块中，与参考视
预测图像累加后，将得到的参考视重构图像存储到参考视重构缓冲区中。
14、根据权利要求12的多视角视频编码预测补偿装置，其特征在于：
经过量化模块处理后的残差图像再输入到反量化和反变换模块中，与目
标视预测图像累加，并将到的目标视重构图像存储到目标视重构缓冲区。

说明书

多视角视频编解码预测补偿方法及装置

技术领域

本发明涉及数字图像处理技术，特别是涉及数字图像的编解码技术，具
体地说，涉及一种多视角视频编解码的方法。

背景技术

随着网络及多媒体技术的快速发展，越来越多的图像和视频以数字媒体
的形式出现和传输，而高效的视频编解码技术是实现数字媒体存储与传输的
关键。目前，一种新的数字媒体形式，即三维视频，已经在多媒体应用系统
中广泛采用。所谓的三维视频是指时间上同步，空间上相关的若干视频序列
的集合。与传统的二维视频相比，三维视频可以提供更丰富的视觉信息，因
此可以为用户提供更高质量的主观视觉享受，并可以应用到视频会议，数字
娱乐等应用中。多视角视频(Multiview Video)是一种常见的三维视频。
所谓的多视角视频是指通过多个摄像机在不同的视角同步采集的一组视频
序列。通过某种合成技术，多视角视频可以为用户提供具有三维视感觉的场
景。此外，多视角视频的一个关键特征是场景中的交互性，用户还能够在场
景中选择他自己的视点。

相对于传统的二维视频，多视角视频的数据量更大，实现其功能的一个
代价便是表示场景的视频数据随着视点(即相机数目)的增加以几何速度增
长，因此，对高效的多视角视频数据的处理方法就显得非常重要。为了实现
多视角视频的存储与传输，就需要对多视角视频进行高效地编解码。目前，
先进的视频编解码技术通常以标准的形式存在，典型的视频压缩标准有国际
标准化组织(ISO)下设的运动图像专家组(Moving Picture Expert Group，
简称MPEG)推出的MPEG系列国际标准MPEG-1，MPEG-2，MPEG-4等，以及
国际电信联盟(ITU)提出的H.26x系列视频压缩推荐等。目前，MPEG组织
正在进行三维音视频(3DAV)的标准化工作，但目前还没有形成具体的标准。

对多视角视频数据进行编解码的一个最简单的方法是利用现有的编解
码标准，例如MPEG-1，MPEG-2，MPEG-4，JVT或者H.26x等，将每个视角的
视频数据看成普通的视频序列分别进行编解码。但是，这种方法没有利用各
个视角间的相关性，编码效率并不是很高。虽然MPEG标准中的一些技术可
以用来在某种程度上利用各个视角间的相关性来进行编解码，但是这些技术
提出的初衷并不是专门针对多视角视频编解码，没有充分考虑多视角视频的
特性，因此编码效率没有达到最优。也有一些编解码系统利用了多视角视频
在同一时刻不同视角的图像之间的空间相关性信息，但是，由于它们主要是
针对单视(2D)视频的编码而提出的，它们没有考虑多视角视频各个视之间
的特殊关系，例如，相邻视之间对应图像的场景内容大部分都相同，而且场
景的运动趋势完全相同，只不过角度有所变化而已，这在许多实例中可以看
到(除了快速运动的实例外)，一个视中前后帧间的相似性要比不同视点间
的相似性要高，于是，运动补偿帧间预测很可能替代视通道间的位差补偿(各
个视间的运动预测补偿)预测，而视通道间的位差补偿仅仅在某些地方比分
别编码每个视占优势，其编码效率并不十分理想。

发明内容

本发明要解决的技术问题是提出一种新型的基于全局运动预测补偿和
运动向量预测补偿的多视角视频编解码预测补偿方法及装置，以提高多视角
视频编解码的编码效率。

本发明所述多视角视频编解码预测补偿的方法，在两个视之间使用全局
运动预测补偿来提取各个视之间对应图像的空间相关性，进而提高编码效
率，然后在实现全局运动预测补偿的基础上，以一个视(参考视)的前后帧
之间的运动向量来预测另一个视(目标视)前后帧之间的运动向量。具体的
说：

在编码时，使用其中的一个视作为参考帧，另一个相邻视作为目标视，
目标视图像参考变形(平移、旋转、缩放等)后的参考视图像进行全局运动
预测补偿，获得全局运动预测参数，然后再利用这些参数计算每个宏块的全
局运动预测代价(一般使用原始宏块和对编码后的宏块进行解码得到的重构
宏块各个象素之间的绝对差来衡量)，获得该宏块的全局运动向量。运动向
量预测补偿利用获得的全局运动向量和已编码的参考视前后帧之间的运动
向量，预测获得目标视前后帧之间的运动向量，并计算该方法的运动预测代
价。根据运动预测代价，选择当前宏块采用的编码预测补偿方法，然后根据
选定的预测补偿方法或者进行宏块的全局运动补偿(若是全局运动预测补偿
方法被选中)或者进行宏块的局部运动补偿(若运动向量预测补偿方法被选
中)，进而获得宏块残差图像。最后，对残差图像进行变换、量化、熵编码，
最终输出编码码流。

解码时，首先解码获得目标视中当前帧对参考视的全局运动预测参数，
然后利用这些参数计算获得当前解码宏块的全局运动向量，并保存，以备后
用。再解码获得宏块使用的预测补偿方法及残差图像。根据不同的预测补偿
方法，按照编码时的运动补偿方法重构该宏块的图像，并与解码的残差图像
合并形成最终的宏块解码图像；对每个宏块使用上述方法进行解码，即可得
到该帧的解码图像。

本发明还提出了一种多视角视频编码预测补偿装置，包括参考视图像编
码单元和目标视图像编码单元，参考视图像编码单元经过局部运动预测补偿
进行编码，最终输出编码后的参考视码流；目标视图像编码单元经过全局运
动预测补偿和运动向量预测补偿进行编码，最后输出编码后的目标视码流。

本发明利用在两个相关视序列之间采用的全局运动预测补偿和运动向
量预测补偿方法，较之现有的编码方法，可以更充分利用多视角视频中各个
视之间的相关性，因此可以有效对多视角视频进行编解码。

全局运动预测补偿作用在同一时刻通过多个摄像机采集的多幅图像上，
其目的是提取这些图像的空间相关性，充分考虑了多视角视频相邻视之间的
特性，特别是场景内容大部分相同，运动趋势相同，所不同的地方是或者角
度不同，或者整个场景之间存在相对位移等特性，这些特性使得全局运动预
测补偿较之直接的局部运动预测补偿可以获得更准确的运动预测，而且它不
需要编码运动向量，减少编码运动向量信息的比特，进而提高编码效率。

运动向量预测补偿方式是在实现全局运动预测补偿方式的基础上进行
的，其目的是利用已经编码的某个摄像机采集的序列的运动信息，预测其它
摄像机采集的序列中的运动信息，这种预测可以采用相同的方法分别在编码
器和解码器中实现，因此不需要编码运动向量，减少编码运动矢量信息的比
特，进而提高编码效率。

附图说明

图1是运动向量关系示意图；

图2是本发明提出的运动向量中心点预测流程图；

图3是通过迭代匹配获取参考视到目标视的全局运动向量的流程图；

图4是多视角视频编码预测补偿装置之一示意图；

图5是多视角视频编码预测补偿装置之二示意图；

图6是基于MPEG-4时间可扩展编码方法的预测原理示意图。

具体实施方式

在多视角视频序列中，相邻视角的两个视频序列的对应帧存在着相当大
的相关性，即相邻视角的两个视频序列的对应帧场景内容大部分相同，运动
趋势相同，所不同的地方是角度不同，或者整个场景之间存在相对位移，这
也隐含一个视(目标视)的前后帧之间的运动向量可以通过另一个视(参考
视)前后帧之间的运动向量预测来获得。它们经过简单的变形(平移、旋转、
仿射变换等)后，大部分图像非常相似。如果能利用这些特性，在两个对应
帧之间采用全局运动预测补偿方式，及在目标视的前后帧之间采用运动向量
预测补偿方式，就可以提高多视角视频的编码效率。包括如下步骤：

编码步骤如下：

首先使用其中的一个视作为参考视，另一个相邻视(以下称为目标视)
经过变形后对参考视进行全局运动预测，获得全局运动预测参数。然后进入
每个宏块全局运动预测补偿和运动向量预测补偿的编码过程，其步骤如下：

步骤1、全局运动预测补偿编码过程：

步骤1.1、利用获得的全局运动预测参数计算宏块的全局运动预测代
价(一般使用原始宏块与对编码后的宏块进行解码得到的重构宏块各个象素
之间的绝对差和来衡量)；

步骤1.2、计算获得该宏块的全局运动向量，将其保存，已备后用；

步骤2、运动向量预测补偿编码过程：

步骤2.1、利用获得的该宏块的全局运动向量和前一帧已保存的全局
运动向量及已编码的参考视前后帧之间的运动向量预测获得目标视前后帧
之间的运动向量；

步骤2.2、利用预测得到的运动向量计算宏块的局部运动预测代价；

步骤3、选择计算获得的全局运动预测代价和局部运动预测代价中较小
的预测补偿作为宏块的预测补偿；

步骤4、根据选定的预测补偿或者进行宏块的全局运动补偿(若是全局
运动预测补偿方法被选中)或者进行宏块的局部运动补偿(若运动向量预测
补偿方法被选中)，进而与原始宏块做差获得宏块残差图像；

步骤5、对残差图像进行变换、量化、熵编码，最终输出宏块编码码流。

解码步骤如下：

首先解码获得目标视中当前帧对参考视的全局运动预测参数，然后进入
每个宏块解码过程，其步骤如下：

步骤1、进行熵解码、反量化及反变换，获得宏块采用的预测补偿方式、
残差图像等信息；

步骤2、利用获得的全局运动预测参数计算获得当前解码宏块的全局运
动向量，并保存，以备后用；

步骤3、若宏块采用的是全局运动预测补偿，则按如下步骤进行解码：

步骤3.1、将参考视中对应的参考帧按照获得的全局运动预测参数进
行变形；

步骤3.2、利用获得的全局运动向量参考变形后的参考帧对当前解码
宏块进行全局运动补偿，获得宏块补偿图像；

步骤3.3、宏块补偿图像与解码的残差图像合并得到解码宏块图像。

步骤4、若宏块采用的是运动预测补偿，则按如下步骤进行解码：

步骤4.1、利用已保存的解码后的全局运动向量和已解码的参考视前
后帧间的运动向量，计算获得目标视前后帧间的运动向量；

步骤4.2、利用计算获得的运动向量参考目标视的前一解码帧对当前
解码宏块进行运动补偿，获得宏块补偿图像；

步骤4.3、宏块补偿图像与解码的残差图像合并得到解码宏块图像。

图1是运动向量关系示意图，图1中目标视和参考视是多视角视频序列
中的两个视，一个被作为参考视，另一个作为目标视。它表示的是某一编码
时刻序列参考视和目标视前后帧之间的关系(第i-1帧表示前一帧，第i帧
表示当前帧)，描述了参考视和目标视之间的全局运动向量(在图1中使用
GMC0和GMC1来标明)和同一个视中的运动向量(在图1中使用MV0和MV1
来标明)之间的关系，其中：

上面的两个网格表示某一时刻目标视的前后两帧图像，下面的两个网格
表示某一时刻参考视的前后两帧图像，网格中的每个小方块表示一个宏块
(图像象素块)，目标视网格中的灰色方块表示当前编码宏块。

GMC0表示前一个已编码目标帧到前一个已编码参考帧之间的全局运动
向量；

GMC1表示当前编码目标帧到对应的已编码参考帧之间的全局运动向量；

MV0表示参考视前后帧间的运动向量；

MV1表示目标视前后帧间的运动向量，它也是本发明中需要进行运动向
量预测获得的运动向量。

图2是本发明提出的运动向量中心点预测流程图。它描述的是目标视
序列通过参考视的前后帧运动向量及已获得的全局运动向量，来预测目标视
对应前后帧运动向量的一种预测编码的做法。

具体做法是，当编码目标视的某个宏块(在图1中以灰色方块来表示)
时，完成如下步骤：

步骤1、获得全局运动向量GMC0和GMC1(解释见图1说明，在全局运
动预测补偿过程中已经获得，见编码实施步骤1.2)及局部运动向量MV0(在
编码参考视时产生)；

步骤2、计算获得当前宏块的中心点(CurXcent，CurYcent)，(图1
中用CurCentPos来表示，即灰色方块中的小黑点)；

步骤3、通过GMC1运动向量和位置(CurXcent，CurYcent)计算获得
点(CurXcent，CurYcent)在参考视图像中的位置(CurRefX，CurRefY)，
(图1中用CurPosRef来表示)；

步骤4、利用MV0，计算获得点(CurRefX，CurRefY)在其前一帧参考
视图像中对应的位置(PreRefX，PreRefY)，(图1中用PrePosRef来表示)；

步骤5、利用GMC0，通过迭代匹配获得参考视到目标视的全局运动向量
(GMVX，GMVY)，(即将图1中的GMC0反向)，详细过程将在图3中描述；

步骤6、将获得的全局运动向量(GMVX，GMVY)反向，进而利用其计算
位置(PreRefX，PreRefY)在目标视的前一帧图像中的对应位置(PreXcent，
PreYcent)，(图1中用PrePosCur来表示)；

步骤7、计算获得运动向量MV1，MV1X＝PreXcent-CurXcent，MV1Y＝
PreXcent-CurYcent；(图1中粗虚线表示的向量)。

值得指出的是，如果为了追求更高的预测精度，除了本发明提出的中心
点预测方式外，也可以采用多点预测，然后求其平均值的方式，但这仍然属
于本发明的处理思路。

图3是迭代匹配获取参考视到目标视的全局运动向量的方法。它描述了
图2中加粗功能框的实现。它的输入是经过计算得到的在参考视中的对应位
置点(PreRefX，PreRefY)、目标视到参考视的全局运动向量GMC0，最终
输出获得对应的参考视到目标视的全局运动向量(GMVX，GMVY)。其中，

MBSIZE表示宏块的大小，可以根据不同的环境来取不同的值；

N控制最大的迭代次数，可根据实际需要设置。它用来保证当通过迭代
不能获得完全匹配时，控制迭代结束。它的大小控制迭代搜索的范围；

Minerr初始化时，为MAXERROR，MAXERROR可以根据实际情况取任何最
大阈值。Minerr记录迭代过程中最小的迭代误差，最终采用Minerr(迭代
误差)最小的目标视宏块的全局运动向量来表示参考视到目标视的全局运动
向量(GMVX，GMVY)。

具体地，Minerr初始化，令迭代误差Minerr＝MAXERROR；

计算获得点(PreRefX，PreRefY)所在的宏块位置(PreMBX，PreMBY)，
通过GMC0和宏块位置(PreMBX，PreMBY)获得全局运动向量(GMVX，GMVY)；

用点(PreRefX，PreRefY)减去全局运动向量(GMVX，GMVY)，获得新
的位置(PreCurX，PreCurY)；再计算获得点(PreCurX，PreCurY)所在的
宏块位置(PreCurMBX，PreCurMBY)。

迭代过程是这样的：将迭代后获得的宏块位置(PreCurMBX，PreCurMBY)
与迭代前的宏块位置(PreMBX，PreMBY)比较，若相等，则表示完全获得，
迭代误差Minerr为0，直接退出迭代过程，如果不相等，若在迭代前的宏
块位置的左侧，则获得宏块左边X方向位置和迭代后的对应位置点的X方向
位置的绝对差Xerr，否则获得宏块右边X方向位置和迭代后的对应位置点
的X方向位置的绝对差Xerr，与此类似，若在上方，则获得宏块上边Y方
向位置和迭代后的对应位置点的Y方向位置的绝对差Yerr，否则获得宏块
下边Y方向位置和迭代后的对应位置点的Y方向位置的绝对差Yerr，最后
Xerr和Yerr的和与Minerr比较，取其最小值给Minerr。

图4作为本发明的具体实施例，表示的是多视角视频编码预测补偿装置
1。该装置的输入是多视角视频中任意两个视的原始视频流(相邻视效果更
佳)，其中一个视称为参考视，另一个视称为目标视。参考视图像经过局部
运动预测补偿方法进行编码，最终输出编码后的参考视码流；目标视图像经
过全局运动预测补偿和运动向量预测补偿进行编码，最后输出编码后的目标
视码流。其中，

参考视图像和目标视图像分别是输入的参考视原始视频图像和目标视
原始视频图像；

参考视重构图像缓冲区和目标视重构图像缓冲区分别存储前一帧编码
后重构的参考视图像和目标视图像。

它的工作顺序是首先对一帧参考视图像进行编码，然后再对一帧目标视
图像进行编码。下面分别是参考视图像编码和目标视图像编码的过程：

1、参考视图像编码单元

它实现一帧参考视图像的预测补偿编码。它采用局部运动估计，并由此
获得运动向量，将其进行熵编码。在运动向量缓冲区中保存该运动向量以备
在编码目标视图像时使用。运动向量与前一帧重构参考视图像合作完成参考
视运动补偿，获得补偿后的参考图像，即图4中参考视预测图像，该图像在
与原始参考视图像做差，求得残差图像。残差图像经过变换、量化和熵编码，
最终形成参考视码流。经过量化后的残差图像再经过反量化和反变换，并与
参考视预测图像累加，进而得到参考视重构图像，并将其放入参考视重构缓
冲区，以备下一帧参考视图像和目标视图像编码时使用。

2、目标视图像编码单元

它实现一帧目标视图像的预测补偿编码。

在输入的目标视原始图像和参考视重构图像之间进行全局运动估计，获
得全局运动参数，并由此获得全局运动预测代价和全局运动向量，并将全局
运动向量保存在全局运动向量缓冲区中，以备后用；

利用前一帧目标视图像编码时获得的全局运动向量及当前获得的全局
运动向量和对应的参考视图像编码时保存的运动向量进行目标视运动向量
预测，得到目标视图像参考前一帧重构目标视的局部运动向量；

计算目标视图像的局部运动预测代价，并通过选择控制器选择它和全局
运动预测代价中较小的预测补偿方法进行下面的工作；

根据选定的预测补偿方法或者进行全局运动补偿(若是全局运动预测补
偿方法被选中)或者进行局部运动补偿(若运动向量预测补偿方法被选中)，
获得补偿后的目标图像，即图4中目标视预测图像，该图像在与原始目标视
图像做差，求得残差图像；

残差图像经过变换、量化和熵编码，最终形成目标视码流。经过量化后
的残差图像再经过反量化和反变换，并与目标视预测图像累加，进而得到目
标视重构图像，并将其放入目标视重构缓冲区，以备下一帧目标视图像编码
时使用。

图5是本发明的另一个实施例，表示的是多视角视频编码预测补偿装置
2。该装置2与装置1不同之处在于在编码目标视图像时，全局运动预测补
偿和运动向量预测补偿作为两种预测模式与其它的预测模式共同完成编码
工作。即，目标视图像除了使用全局运动预测补偿和运动向量预测补偿进行
编码外，还可以引入当前已经被使用的其它预测补偿方法(例如，直接预测
补偿方法)，它们有助于多视角视频编码效率的提高。该装置2的输入是多
视角视频中任意两个视的原始视频流(相邻视效果更佳)，其中一个视称为
参考视，另一个视称为目标视。

图5的上半部分(上面矩形框包含的部分)是参考视图像的编码过程，
下半部分(下面矩形框包含的部分)是目标视图像的编码过程；虚粗线框中
包含的是全局运动预测补偿模块和运动向量预测模块，它们作为两种模式加
入到整个装置中；

参考视图像和目标视图像分别是输入的参考视原始视频图像和目标视
原始视频图像；

参考帧缓冲区和目标帧缓冲区分别存储前一帧编码后重构的参考视图
像和目标视图像。

它的工作顺序是首先对一帧参考视图像进行编码，然后再对一帧目标视
图像进行编码。下面分别是参考视图像编码和目标视图像编码的过程：

1、参考视图像编码单元

该过程与装置1中的相同，详细叙述参见图4中参考视图像编码说明。

2、目标视图像编码单元

它实现一帧目标视图像的预测补偿编码。

在输入的目标视原始图像和参考视之间进行全局运动估计，获得全局运
动参数，并由此获得全局运动预测代价和全局运动向量，并将全局运动向量
保存，以备后用。在全局运动估计模块中完成；

利用前一帧目标视图像编码时获得的全局运动向量及当前获得的全局
运动向量和对应的参考视图像编码时保存的运动向量进行目标视运动向量
预测，得到目标视图像参考前一帧重构目标视的局部运动向量，并计算目标
视图像的局部运动预测代价。在运动向量预测模块中完成；

进行其它的预测补偿方法，并由此获得运动向量，将其进行熵编码。计
算该种预测补偿方法的预测代价。在目标帧运动估计模块中完成；

按照预测代价最小的原则选择合适的预测补偿方法。根据选定的预测补
偿方法或者进行全局运动补偿(若是全局运动预测补偿方法被选中，在全局
运动补偿模块中完成)，或者进行局部运动补偿(若运动向量预测补偿方法
被选中，在目标帧运动补偿模块中完成)，或者进行其它方式的补偿(在目
标帧运动补偿模块中完成)，获得补偿后的目标视图像，该图像与原始目标
视图像做差，求得残差图像；

残差图像经过变换、量化和熵编码，最终形成目标视码流。经过量化后
的残差图像再经过反量化和反变换，并与补偿后的目标视图像累加，进而得
到目标视重构图像，并将其放入目标帧缓冲区，以备下一帧目标视图像编码
时使用。

图6描述了基于MPEG-4时间可扩展编码方法的预测原理：

本发明的在两个相关视序列之间采用全局运动估计预测和运动向量预测
方法较之现有编码方法可以更充分利用多视角视频中各个视之间的相关性，
因此可以有效对多视角视频进行编解码。它们可以与MPEG-4编码标准结合
使用，采用如下步骤实现全局运动估计预测和运动向量预测处理(以立体视
序列为例，它只有两个视，分别称为左视和右视，因此是最简单的多视角视
频序列)。

一、编码端处理：

图6中，左视图像作为参考视序列，右视图像作为当前视序列，GMC0表
示前一帧左右图像间的全局运动估计预测，GMC1表示当前帧左右图像间的
全局运动估计预测，MV0表示参考视(即左视图像)前后帧之间的运动预测
向量，MV1表示当前视(即右视图像)前后帧之间的运动预测向量，它需要
通过使用GMC0、GMC1和MV0进行运动向量预测获得。I表示帧内编码，P表
示预测编码，B表示双向预测编码。为了与MPEG-4标准兼容，本发明采用
增加宏块预测模式的方式嵌入全局运动估计预测和运动向量预测。因此，B
图像除了原有的预测模式外，又增加两种预测模式，分别是全局运动预测(使
用GME来表示)和运动向量预测(使用MVP来表示)。其具体的实现过程如
下：

1.参考视图像编码：这一步与MPEG-4原有步骤相同，并由此获
得前后帧之间的运动向量MV0。

2.当前视图像不仅可以参考参考视图像，还可以参考当前视的前
一帧图像，因此这里除了第一帧外使用MPEG-4中的B帧图像来编
码实现。这里局部运动估计预测方式与MPEG-4原有步骤相同。

3.当前视图像与参考视图像间进行全局运动估计和补偿，并获得
全局运动参数GMC1和宏块的全局运动向量。

4.利用已经编码的MV0、GMC0和GMC1进行当前视前后帧之间的
运动向量预测。采用中心点预测的方法，其预测方法见附图2。

5.模式选择方法：

1)在MPEG-4中的B帧原有的模式之间选出最优的，采用MPEG-4
原有的选择策略；

2)在选择出的B帧最优的原有模式、GME和MVP模式中通过率失
真优化(RDO-rate-distortion optimization)策略选择最优
预测模式。选择方法是选择MSE+λRate最小的模式，其中，
MSE是宏块原始图像与宏块重构图像的均方差，Rate是该宏块
编码后的码位。λ是拉格朗日算子，这里λ＝(0.85×2QP/3)1/2，
QP是量化系数。

6.进行运动补偿。GME模式采用全局运动估计补偿，其它的模式
均采用MPEG-4原有的补偿方法。

7.形成宏块码流。采用GME和MVP模式的宏块无需编码运动向量，
其它的采用MPEG-4原有的方法。

二、解码端处理：

1.解码参考视图像，采用MPEG-4原有的解码方法。

2.解码当前视图像，采用如下步骤：

1)解码当前帧的全局运动估计参数；

2)若当前宏块是MPEG-4原有预测模式，则按照MPEG-4原有解码
方法解码，否则若是GME类型，则进行全局运动补偿重构该宏
块，否则若是MVP类型，则按照编码步骤4的方法来预测获得
运动向量，然后在利用MPEG-4原有的补偿方法进行运动补偿。

3)解码残差图像，并与补偿的图像合并产生解码图像。

以上实施例仅用以说明而非限制本发明的技术方案，本领域的普通技术
人员应当理解：可以对本发明进行修改或者等同替换，而不脱离本发明的精
神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当
中。