用于编码视频图象的方法和装置.pdf

摘要
申请专利号：	CN01109493.1	申请日：	2001.03.15
公开号：	CN1313706A	公开日：	2001.09.19
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	H04N5/272	主分类号：	H04N5/272
申请人：	汤姆森多媒体公司;
发明人：	菲利普·博尔德; 菲利普·吉约泰尔
地址：	法国布洛里
优先权：	2000.03.15 FR 0003309
专利代理机构：	中科专利商标代理有限责任公司	代理人：	朱进桂
PDF下载：	PDF下载

内容摘要

视频图像编码方法和装置,方法包括步骤:从图象序列中提取(1)至少一个视频目标,其利用分割嵌入画面结构确定图象中目标的轮廓,按MPEG2标准编码视频目标以便形成基本数据流(ES),根据MPEG2标准编码(3)涉及视频目标的分割嵌入画面以便形成基本数据流,按MPEG2标准编码(5)目标要插入的背景图象以便形成基本数据流,多路复用(4,6,7)涉及一个或多个目标以及背景图象的基本数据流,以便提供节目数据流或者根据MPEG2标准的传输数据流。

权利要求书

1：用于编码视频图象方法，其特征在于它包括：利用确定该图象中目标的轮廓的分割嵌入画面结构，从源于图象序列中提取至少一个视频目标的步骤(1)，一个根据MPEG2标准编码该视频目标以便形成一个基本数据流 (ES)的步骤(2)，一个编码涉及该视频目标的分割嵌入画面的步骤，其根据MPEG2 标准，以便形成一个基本数据流(3)，一个编码一幅目标要插入的背景图象的步骤，其根据MPEG2标准，以便形成一个基本数据流(5)，一个多路复用涉及到一个或多个目标以及背景图象的基本数据流的步骤，以便根据MPEG2标准提供一个节目数据流(PS)或者传输数据流(TS)(4,6,7)。
2：根据权利要求1所述的方法，其特征在于它包括一个计算景深图的附加步骤，该景深图根据层次确定视频目标的相关位置，而这个景深图是根据MPEG2标准编码以致于提供一个与其它基本数据流多路复用的基本数据流，以便在数据传输数据流中输送。
3：根据权利要求2所述的方法，其特征在于所述景深图是从摄象机提供的要编码的图象信息中获得。
4：根据权利要求1所述的方法，其特征在于所述视频目标的编码是通过编码完整的图象来实现的，其仅仅利用DC系数为除目标以外的该图象的部分编码。
5：根据权利要求1所述的方法，其特征在于所述视频目标的编码是通过编码完整的图象来实现的，编码背景的方式是以减少编码位数量这样一种方法被加强。
6：根据权利要求5所述的方法，其特征在于在相同背景的情况下，该背景的编码是仅仅利用DC系数来进行的。
7：根据权利要求5所述的方法，其特征在于涉及图象背景的宏 IN01160 模块根据分割嵌入画面来检测，而MPEG2标准的“跳幅宏模块”方式用来加强暂时固定模块的编码。
8：根据权利要求5所述的方法，其特征在于涉及图象背景的宏模块根据分割嵌入画面来检测以及MPEG2标准的预测方式被用于暂时移动宏模块的编码，通过强制移动矢量到相同的数值和强制预测剩余值到零。
9：用于实现根据权利要求1所述方法的编码装置，其特征在于它包括：一个用于提供确定目标边界的分割嵌入画面的目标提取电路 (1)，一个用于视频目标构造的MPEG编码的电路(3)，一个用于分割嵌入画面的MPEG编码的电路(2)，一个用于背景图象的MPEG编码以便提供一个基本数据流的电路(5)，至少一个用于多路复用该基本数据流以便提供一个节目数据流(PS)或者传输数据流(TS)的电路(4, 6,7)。
10：根据MPEG2标准的节目数据流(PS)和传输数据流(TS)，其特征在于它包括：一个用于视频目标编码的基本数据流(ES)，一个用于背景图象编码的基本数据流，一个用于确定这个视频目标的分割嵌入画面编码的基本数据流。

说明书

用于编码视频图象的方法和装置
    本发明涉及到一种与MPEG2兼容的目标基本编码方法。

    MEPG4标准涉及到对于景物合成的视听目标的编码。目标的分离编码优点大家都知道。例如，较好的数据压缩的获得归功于图象分割使其能够利用一幅取决感性趣的区域的图象质量来编码，或者能够存储在编码器级上目标的编码数据，避免相应数据的重新传送。还有，可以利用较大的灵活性来构造场景，这些场景能够在接收信息独立的编码器级创建或修改。

    根据已有技术，MPEG2类型编码和解码电路不能够使其利用视频目标，因此不允许以象MPEG4标准那样简单和灵活的方法来构成一幅场景。

    本发明的目的是减轻上述缺陷。

    其主题是一种用于编码视频图象的方法，其中该方法包括：

    -利用确定该图象中目标地轮廓的分割嵌入画面结构，从源于图象序列中提取至少一个视频目标的步骤，

    -一个根据MPEG2标准编码该视频目标以便形成一个基本数据流(ES)的步骤，

    -一个编码涉及该视频目标的分割嵌入画面的步骤，其根据MPEG2标准，以便形成一个基本数据流，

    -一个编码一幅目标要插入的背景图象的步骤，其根据MPEG2标准，以便形成一个基本数据流，

    -一个多路复用涉及到一个或多个目标以及背景图象的基本数据流的步骤，以便提供一个节目数据流或者根据MPEG2标准的传输数据流。

    根据一个特殊的实施方案，该方法包括一个计算景深图的附加步骤，该景深图根据层次确定视频目标的相关位置，而这个景深图是根据MPEG2标准编码以致于提供一个与其它基本数据流多路复用的基本数IN01160据流，以便在数据传输数据流中输送。

    根据一个特殊的实施方案，景深图是从摄象机提供的要编码的图象信息中获得。

    根据一个特殊的实施方案，视频目标的编码是通过编码完整的图象来实现的，其仅仅利用DC系数为除目标以外该图象的部分编码。

    根据一个特殊的实施方案，视频目标的编码是通过编码完整的图象来实现的，编码背景的方式是以减少编码位数量这样一种方法被加强。

    根据一个特殊的实施方案，在相同背景的情况下，该背景的编码是仅仅利用DC系数来实现的。后者是胜任的，编码背景的耗费则是非常低的。该方法对于不一致的背景保持有效而在比特率方面具有较高的耗费。

    根据一个特殊的实施方案，涉及图象背景的宏模块根据分割嵌入画面来检测，而MPEG2标准的“跳幅宏模块”方式用来加强这些模块的编码。

    本发明还涉及到一种执行上述的方法的装置，其中它包括：一个用于提供确定目标边界的分割嵌入画面的目标提取电路，一个用于视频目标构造的MPEG编码的电路，一个用于分割嵌入画面的MPEG编码的电路，一个用于背景图象的MPEG编码以便提供一个基本数据流的电路，至少一个用于多路复用该基本数据流以便提供一个节目数据流或者传输数据流的电路。

    本发明还涉及到一个根据MPEG2标准的节目数据流或者数据传输数据流，其中包括：一个用于目标编码的基本数据流，一个用于背景编码的基本数据流，一个用于确定这个目标的分割嵌入画面的编码的基本数据流。

    本发明在于其利用MPEG2多路复用的数据流或传输数据流来分开地发射视听目标。MPEG2传输数据流传送几个连续图象序列，例如一个背景，一个目标，一个人，它们在编码之前已经从原始场景中提取。因此这能够改变一个目标或者以非常简单的方式修改场景的背景，这些元素的每个都涉及到一个特殊的MPEG2数据“节目”。

    本发明的主要优点是使其能够，在依然利用常规的MPEG2类型编IN01160码器和解码器的同时，以灵活，容易和便宜的方式来建立表示MPEG2传输数据流中传送的数据构成场景的图象序列。

    自MPEG2数据的场景创建或者传输场景内容的修改是较容易做的，例如根据区域，用户等广告目标的插入。

    涉及到图象质量的其他优点，因为它可能共同承担编码一幅图象的代价，例如目标与图象背景之间，因此要改进感兴趣目标的编码质量而引起背景的损害，这些目标被合适地确定。例如，背景与目标之间的阻塞影响可以削弱。

    由于涉及到附加基本数据流的数据传输而使比特率的增加是通过更好的以分解一些图象的压缩来补偿这些数据流中的每一个的目标。

    从下面例子以及参照附图的描述，将使本发明的特点和优点变得更清楚。

    图1表示一个根据“色彩影调”技术的场景生成的例子，

    图2示出了一个利用景深图场景生成的例子，

    图3示出了一个对于本发明的传输数据流的结构进行多路复用基本数据流的装置。

    在MPEG2标准的内容中，视频目标没有被确定为是一个即定的，即关于编码，如MPEG4标准中的。本发明建议对分割图象的技术使用，例如根据色度和已知的色彩影调，以便确定和提取图象目标。

    “色彩影调”技术一般用在场景构成的产品中，例如虚拟摄影室。推荐者移动一个虚拟的布景，这个背景或者3D图象合成布景。下面将参照图1a,1b,1c,1d简单回顾这种技术。

    图1a描绘一个由兰色背景和一个视频目标(这里是前景中的一只狗)来构成的一幅图象。依靠颜色的滤出，该目标从背景中分离出来。图象1b称做剪切影调或分割嵌入画面或α平面因此而生成。

    图1c对应人们希望替换的兰色背景的新背景。

    图1d描绘的图象是该目标在这个背景上的重叠。这个重叠或者更准确的是这个混合，作为例子，根据下面的方程式通过计算新图象的亮度/色度来实现：

    α·a+(1-α)·cIN01160其中：

    -α表示图象1b(例如被255除的亮度值)的灰度等级，也可以称做透明度

    -“a”和“c”分别表示图象1a和图象1c的亮度/色度。

    一个中间的灰度等级一般适合于目标和背景之间的边界区域，适合于分割嵌入画面，以致于避免过度地突然转变。当该目标是一个虚拟目标时很容易获得这个分割嵌入画面。

    根据本发明，MPEG2传输数据流从涉及到图象1a,1b,1c的基本数据流创建。然后可以在接收级安放一个目标(这里是一只狗)在背景的前面。

    如果只有涉及该分割嵌入画面的数据被传输，除了对目标和背景的结构信息以外，在一个中间层不可能安放一个目标。

    本发明一个变化在于加一个深度信号到传输数据流，使其能够解决这个问题。一个称做景深图的图象或者Z-平面的编码被实现而相应的基本数据流在传输数据流中传送。这些图象的灰度等级表示对应相关图象象素的相应深度。

    一个考虑景深图的场景结构的例子描绘在图2中。

    图1a和1b分别描绘一个第一视频目标，一只狗，和相应的分割嵌入画面。图2a描绘一幅原始的图象，它是从图2b中另一个视频目标(这里是一个运动员)的分割嵌入画面获得。这个分割嵌入画面用一种方法获得而不是“深度影调”，即通过分割。图2c，这里背景已经由兰色的深度影调替换，以便减小编码耗费，给出这个其它目标的相应结构。图2d描绘对于两个目标的景深图而图2e是重新组合的场景。在图2d中，亮度的等级是深度的代表。因此，白色的目标(运动员)对应最小的深度，灰色的目标(狗)对应中间的深度而黑色的背景对应最大深度。

    在图2e中，狗的头部部分地被运动员遮挡显示出狗是处于运动员目标与比赛黑色背景之间的层次状态。

    用于获得一个景深图的装置属于已有技术。例如，可以用激光辐射耦合到一台摄象机以便测量一些目标和人们构造场景的距离，并且提供一个相应的景深图象。IN01160

    通过利用景深图获得的场景被称为“2D+”或“伪3D”。

    该场景的构成需要六个基本数据流的生成，三个是涉及到狗，运动员和背景的结构，两个涉及到狗和运动员的分割嵌入画面，一个涉及到整个场景的景深图。

    依靠涉及深度的附加信息，可以利用每个基本数据流部分地或者完全地移动其它目标前面的或后面的目标。

    为了补偿或者至少限制由于基本编码目标的附加比特率，要传送的这些图象的编码能够在成本级进行优化，这将在下面描述。

    如果我们考虑一些内部类型的图象组(或者是代表MEPG2标准中图象组的GOP)，兰色的背景编码是利用单独的DC系数实现的。事实上不需要传输其它的频率系数，因为当分割嵌入画面可利用时，质量好的背景图象不是必须的。此外，所有这些系数都可以强制为相同的数值以便DC系数的推算是正确的；这样编码的费用最小。当编码这幅图象时，这些宏模块根据分割嵌入画面来检测。

    至于考虑这个分割嵌入画面和涉及到视频目标结构的图象，为了表示这些假设有兴趣场景的目标以及为了用高精度确定它们的边界，一定图象质量的等级是期望的。因此，无差别权重矩阵的使用有利于高频系数。编码该分割图象的费用一般低于编码这些目标的费用，因为它包括完全相同的灰色电平。

    如果利用暂时的压缩，这就是说如果这些图象组包括以B类与/或P类内模式编码的图象，则该标准中的“调幅宏模块”模式被使用于相同的或固定背景的编码，这种模式需要几个编码比特位。同样的，对应于分割嵌入画面和目标结构图象的宏模块。

    如果背景即不是相同的也不是固定的而在位移是相同的情况下，所有这些宏模块的位移矢量被强制到这个位移值以及要编码的预测误差被强制到零。

    在其它情况下，不使用强制，该编码具有常规的类型。

    通常，编码数据的共享有利于目标而对背景有损害，一般感兴趣的点是视频目标或一些其它目标。根据已知原理，运动还可以考虑以便确定要安排给各种目标的编码费用。当然，目标的分割利用MPEG编码约IN01160束的，这就是说利用图象到宏模块的切割。

    对于分割嵌入画面和目标结构图象的编码，这种编码使其能够以内编码模式在50Mbits/s状态的比特率传送构成内图象的GOP，如果使用双向类型的内编码，比特率状态是18Mbts/s。这些GOP结构和这些比特率通常是用于演播室质量的图象。

    该比特率的监视能够以对于整个传输保证以一个恒定的比特率这样一种方法来设计，同时允许在多路复用的各个信道之间的可变的比特率。例如，涉及到分割嵌入画面的图象可以用比结构更好质量的编码，并且该比特率可以自适应地分配给各个基本数据流作为要编码图象相应复杂性的函数，或者作为依据一个涉及其它图象目标语义重要性的函数。

    图4描绘一个实现根据本发明方法的多路复用装置。

    代表第一幅图象序列的数据流被传送给目标提取电路1的输入端。在这个电路的第一输出端，要提取关于该目标轮廓的数据用来传输到MPEG2编码电路2的输入端。在电路1的第二个输出端，涉及要提取目标结构的数据用来传输到MPEG2编码电路3的输入端。在编码器2和3输出端的基本数据流ES(如大家知道的MPEG2标准的)被传送给数据流多路复用电路4的第一和第二输入端。这个电路还在第三输入端接收相应音频基本系列(音频编码器没有描绘在图中)，并且在辅助输入端，接收专用数据，服务信息，条件访问命令和时钟，这依照可能有利于这些信号的更多信息的参考标准。

    为了表示要被重新构造序列的背景图象的编码，代表第二个序列的第二数据流传送给第三MPEG2编码器5。视频编码器5的输出传送该视频基本数据流给一个第二多路复用器6的第一输入端，音频基本数据流(音频编码器没有描绘在图中)被传送给第二输入端，专用数据，服务信息，条件访问命令，时钟传送给辅助输入端。

    代表各种MPEG2节目的多路复用电路4和6的输出被传送给第三多路复用器7，它的输出是传输数据流TS。

    在这个例子中，第一个多路复用器为此分配给目标的编码而第二个多路复用器分配给背景的编码。这些存在于多路复用器4和6的节目，IN01160它们由一些基本数据流构成，然后就通过多路复用器7被多路复用，以致于提供传输数据流(TS)。

    一个景深图也可以在该传输数据流中传输。除了确定分割图象的基本数据流以外(即在该图象内选择的目标)，一个MPEG基本数据流确定该景深图象(即根据层次目标的各自位置)是与确定一个还是更多目标相关的。这个基本数据流传送给多路复用电路7以便提供另一个节目。

    对于一个节目和同样的节目，从基本数据流构造的各个信道彼此完全是同步的，PCR时钟以及DTS和PTS标记是相同的(在MPEG标准定义的项)。对于每个信道选择的信息包识别符PID(如大家知道在MPEG标准中的)是不同的以致于使其能够在相同的多路复用中区别它们。

    当然，可以从不同图象序列选择目标。在这种情况下，另一个多路复用器可以用来提供一个包括涉及到这个其它序列数据的节目，即该目标的构造，对应于这个其它序列的视频目标的分割嵌入画面和景深图。该景深图可以考虑这个新的目标和以前的一些目标。该传输数据流利用以前的一些目标通过多路复用这个数据流而获得。

    对于该目标的结构基本数据流可以是原始序列的编码，例如对应于图1a的序列，可以是非常低耗费的兰色背景的编码。

    前面的例子描述了从两个节目创建一个传输数据流(TS)。考虑也可以给出简单节目数据流(PS)的建立，例如为了数据的存储，或者也给出从几个节目数据流或几个传输数据流的传输数据流的创建。

    本发明的一个变化不在于传输涉及到分割嵌入画面的信息。这个信息然后根据接收的其它数据重新计算。在这种情况下，参照图1，仅仅图象1a和1c被传输而图象1b根据接收重新计算。这个结果使其能够减少编码要传送信息的耗费与/或能够在给定传输比特率下改进传输图象的质量。然而，大家可能注意到编码该分割嵌入画面的费用一般不是特别大。

    用于获得基本数据流的MPEG编码器是一个基本的MPEG2编码器，合适的优化以便减小编码费用。例如，当编码背景时执行一个强制，如果在内模式中，以致于利用宏模块的跳幅而因此减小相同或固定背景情况的编码费用。这种所选的加权矩阵是平滑矩阵。IN01160

    上述装置的优点涉及到在生产现场执行的色彩影调，即在摄象机存在的地方。因此，不同场景构图的制造，利用提取的视频目标，对于新的色彩影调操作可能不需要。

    本发明没有限制在对提取轮廓的已知色彩影调技术，如兰色背景的使用。特殊摄象机的使用或者该摄象机参数的记录，以致于提取分割平面或者景深图，也形成本发明领域的一部分。

    一些涉及到播放室的应用，例如虚拟演播室和视频传输的应用。