一种基于卷积神经网络的时空一致性深度图序列的生成方法.pdf

摘要
申请专利号：	CN201611244732.0	申请日：	2016.12.29
公开号：	CN106612427A	公开日：	2017.05.03
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):H04N 13/00申请日:20161229\|\|\|公开
IPC分类号：	H04N13/00; G06T7/20(2017.01)I; G06T7/285(2017.01)I	主分类号：	H04N13/00
申请人：	浙江工商大学
发明人：	王勋; 赵绪然
地址：	310018 浙江省杭州市下沙高教园区学正街18号
优先权：
专利代理机构：	杭州求是专利事务所有限公司 33200	代理人：	刘静;邱启旺
PDF下载：	PDF下载

内容摘要

本发明公开了一种基于卷积神经网络的时空一致性深度图序列的生成方法，可用于影视作品2D转3D技术。该方法包括：1)收集训练集：训练集的每一个训练样本是一个连续RGB图像序列以及其对应的深度图序列；2)对训练集中的每一个图像序列进行时空一致性超像素分割，并且构建空间相似度矩阵和时间相似度矩阵；3)构建由单一超像素深度回归网络以及时空一致性条件随机场损失层构成的卷积神经网络；4)对卷积神经网络进行训练；5)对未知深度的RGB图像序列，使用训练好的神经网络通过前向传播恢复深度图序列。本发明避免了基于线索的深度恢复方法对场景假设依赖过强，以及现有基于卷积神经网络的深度恢复方法生成的深度图帧间不连续的问题。

权利要求书

1.一种基于卷积神经网络的时空一致性深度图序列的生成方法，其特征在于，包括下
列步骤：
1)收集训练集。训练集的每一个训练样本是一个包含m帧的连续RGB图像序列，以及其
对应的深度图序列；
2)对训练集中的每一个图像序列进行时空一致性超像素分割，并且构建空间上的相似
度矩阵S(s)和时间上的相似度矩阵S(t)；
3)构建卷积神经网络，该神经网络由包含参数W的单一超像素深度回归网络，以及包含
参数α的时空一致性条件随机场损失层构成。
4)利用训练集中的RGB图像序列和深度图序列对步骤3)中构建的卷积神经网络进行训
练，得出网络参数W和α。
5)对未知深度的RGB图像序列，使用训练好的神经网络通过前向传播恢复深度图序列。
2.根据权利要求1所述的时空一致性深度图序列的生成方法，其特征在于，所述的步骤
2)具体为：
(2.1)对训练集中的每一个连续RGB图像序列进行时空一致性超像素分割。将输入序列
标注为I＝[I1,…,Im],其中It是第t帧RGB图像，共有m帧。时空一致性超像素分割将m帧分别
分割为n1,…,nm个超像素，而且生成后一帧中每个超像素和前一帧中对应相同物体的超像
素的对应关系。整个图像序列包含个超像素。对于每一个超像素p，将其重心位
置的真实深度值记为dp,并定义n个超像素的真实深度向量d＝[d1；…；dn]。
(2.2)建立这n个超像素的空间一致性相似度矩阵S(s)，方法是：S(s)是一个n×n的矩阵，
其中描述了第p个超像素和第q个超像素的帧内相似度关系：

其中cp和cq分别是超像素p和q的颜色直方图特征，γ是手动设定的一个参数，可设定为
所有相邻超像素对||cp-cq||2值的中位数。
(2.3)建立这n个超像素的时间一致性相似度矩阵S(t)，方法是：S(t)是一个n×n的矩阵，
其中描述了第p个超像素和第q个超像素的帧间的相似度关系：

其中，相邻帧超像素的对应关系由步骤(2.1)中的时空一致性超像素分割得出。
3.根据权利要求2所述的时空一致性深度图序列的生成方法，其特征在于，所述的步骤
3)中构建的卷积神经网络由两个部分构成：单一超像素深度回归网络，以及时空一致性条
件随机场损失层：
(3.1)单一超像素深度回归网络由VGG16网络的前31层，1个超像素池化层，和3个全连
接层构成。其中，超像素池化层每个超像素空间范围内的特征进行平均池化。该网络的输入
是m帧连续的RGB图像，输出是一个n维向量z＝[z1,…zn]，其中第p个元素zp是该连续RGB图
像序列经时空一致性超像素分割后的第p个超像素在未考虑任何约束时的深度估计值。该
卷积神经网络的需要学习的参数记为W。
(3.2)时空一致性条件随机场损失层的输入是步骤(3.1)中单一超像素回归网络的输
出z＝[z1,…zn]，、步骤(2.1)中定义的超像素真实深度向量d＝[d1；…；dn]，以及步骤(2.2)
和(2.3)中得出的空间一致性相似度矩阵和时间一致性相似度矩阵损失函数定义
为：
$<mrow> <mi>J</mi> <mo>=</mo> <mo>-</mo> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>|</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msup> <mi>d</mi> <mi>T</mi> </msup> <mi>L</mi> <mi>d</mi> <mo>+</mo> <mn>2</mn> <msup> <mi>z</mi> <mi>T</mi> </msup> <mi>d</mi> <mo>-</mo> <msup> <mi>z</mi> <mi>T</mi> </msup> <msup> <mi>L</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>z</mi> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mo>|</mo> <mi>L</mi> <mo>|</mo> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mi>n</mi> <mn>2</mn> </mfrac> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>π</mi> <mo>)</mo> </mrow> </mrow>$
其中L-1表示L的逆矩阵，并且：

M＝α(s)S(s)+α(t)S(t)
其中，S(s)和S(t)是步骤(2.2)和步骤(2.3)中得出的空间和时间相似度矩阵，α(s)和α(t)
是需要学习的两个参数，是n×n的单位矩阵，D是一个对角矩阵，Dpp＝∑qMpq。
4.根据权利要求3所述的时空一致性深度图序列的生成方法，其特征在于，所述的步骤
4)中卷积神经网络训练过程具体为：
(4.1)使用随机梯度下降法对网络参数W，α(s)和α(t)进行优化，在每一次迭代中，参数用
以下方式更新：
$<mrow> <mi>W</mi> <mo>=</mo> <mi>W</mi> <mo>-</mo> <mi>l</mi> <mi>r</mi> <mfrac> <mrow> <mo>∂</mo> <mi>J</mi> </mrow> <mrow> <mo>∂</mo> <mi>W</mi> </mrow> </mfrac> </mrow>$
$<mrow> <msup> <mi>α</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <msup> <mi>α</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> <mi>l</mi> <mi>r</mi> <mfrac> <mrow> <mo>∂</mo> <mi>J</mi> </mrow> <mrow> <mo>∂</mo> <msup> <mi>α</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> </mrow> </mfrac> </mrow>$
$<mrow> <msup> <mi>α</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <msup> <mi>α</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> <mi>l</mi> <mi>r</mi> <mfrac> <mrow> <mo>∂</mo> <mi>J</mi> </mrow> <mrow> <mo>∂</mo> <msup> <mi>α</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> </mrow> </mfrac> </mrow>$
其中lr是学习率。
(4.2)损失函数J对参数W的偏导数由下述公式计算：
$<mrow> <mfrac> <mrow> <mo>∂</mo> <mi>J</mi> </mrow> <mrow> <mo>∂</mo> <mi>W</mi> </mrow> </mfrac> <mo>=</mo> <mn>2</mn> <msup> <mrow> <mo>(</mo> <msup> <mi>L</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>z</mi> <mo>-</mo> <mi>d</mi> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mfrac> <mrow> <mo>∂</mo> <mi>z</mi> </mrow> <mrow> <mo>∂</mo> <mi>W</mi> </mrow> </mfrac> </mrow>$
其中由卷积神经网络的反向传播逐层计算得到。
(4.3)损失函数J对参数α(s)和α(t)的偏导数和由下述公式计算：
$<mrow> <mfrac> <mrow> <mo>∂</mo> <mi>J</mi> </mrow> <mrow> <mo>∂</mo> <msup> <mi>α</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> </mrow> </mfrac> <mo>=</mo> <msup> <mi>d</mi> <mi>T</mi> </msup> <msup> <mi>A</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mi>d</mi> <mo>-</mo> <msup> <mi>z</mi> <mi>T</mi> </msup> <msup> <mi>L</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>A</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>L</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>z</mi> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>T</mi> <mi>r</mi> <mrow> <mo>(</mo> <msup> <mi>L</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>A</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow>$
$<mrow> <mfrac> <mrow> <mo>∂</mo> <mi>J</mi> </mrow> <mrow> <mo>∂</mo> <msup> <mi>α</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> </mrow> </mfrac> <mo>=</mo> <msup> <mi>d</mi> <mi>T</mi> </msup> <msup> <mi>A</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mi>d</mi> <mo>-</mo> <msup> <mi>z</mi> <mi>T</mi> </msup> <msup> <mi>L</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>A</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>L</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>z</mi> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>T</mi> <mi>r</mi> <mrow> <mo>(</mo> <msup> <mi>L</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>A</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow>$
Tr(·)是求矩阵的迹的运算；其中矩阵A(s)和A(t)是矩阵L对α(s)和α(t)的偏导数，由下述
公式计算：
$<mrow> <msubsup> <mi>A</mi> <mrow> <mi>p</mi> <mi>q</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mo>-</mo> <msubsup> <mi>S</mi> <mrow> <mi>p</mi> <mi>q</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <mi>δ</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>=</mo> <mi>q</mi> <mo>)</mo> </mrow> <msub> <mi>Σ</mi> <mi>q</mi> </msub> <msubsup> <mi>S</mi> <mrow> <mi>p</mi> <mi>q</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> </mrow>$
$<mrow> <msubsup> <mi>A</mi> <mrow> <mi>p</mi> <mi>q</mi> </mrow> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mo>-</mo> <msubsup> <mi>S</mi> <mrow> <mi>p</mi> <mi>q</mi> </mrow> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <mi>δ</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>=</mo> <mi>q</mi> <mo>)</mo> </mrow> <msub> <mi>Σ</mi> <mi>q</mi> </msub> <msubsup> <mi>S</mi> <mrow> <mi>p</mi> <mi>q</mi> </mrow> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow>$
δ(p＝q)当p＝q时取值为1，否则取值为0。
5.根据权利要求4所述的时空一致性深度图序列的生成方法，其特征在于，所述的步骤
5)中，恢复一个未知深度的RGB图像序列的方法具体为：
(5.1)对该RGB图像序列进行时空一致性超像素分割，并且计算空间相似度矩阵S(s)和
时间相似度矩阵S(t)；
(5.2)使用训练好的卷积神经网络对该RGB图像序列进行前向传播，得到单一超像素网
络输出z；
(5.3)经过时空一致性约束的深度输出为由下述公式计算：
$<mrow> <mover> <mi>d</mi> <mo>^</mo> </mover> <mo>=</mo> <msup> <mi>L</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>z</mi> </mrow>$
其中矩阵L由步骤(3.2)中描述的方法计算。表示该RGB图像序列第p个超像素的深度
估计值。
(5.4)将各个赋予该超像素相应帧的相应位置，即可得出m帧图像的深度图。

说明书

一种基于卷积神经网络的时空一致性深度图序列的生成方法

技术领域

本发明涉及计算机视觉立体视频领域，具体涉及一种基于卷积神经网络的时空一
致性深度图序列的生成方法。

背景技术

立体视频的基本原理是将两幅具有水平视差的影像叠加播放，观众通过立体眼镜
分别看到左右眼的画面，从而产生立体感知。立体视频能给人提供身临其境的三维立体观
感，深受消费者欢迎。然而随着3D影视硬件的普及度不断上升，3D影视内容的短缺随之而
来。直接由3D摄像机拍摄成本高，后期制作难度大，通常只能在大成本电影中使用。因此影
视作品的2D/3D转换技术是解决片源紧缺难题的一种有效的途径，不仅能大大拓展立体影
片的题材和数量，还能让一些经典的影视作品重返荧屏。

由于立体视频中的左右视差直接与每个像素对应的深度相关，因此获取视频各帧
对应的深度图是2D/3D转换技术的关键所在。深度图可以由人工对视频的每一帧抠图并赋
予深度值产生，但是成本非常昂贵。同时，也存在一些的半自动的深度图生成方法，即先由
人工绘制视频中一些关键帧的深度图，计算机通过传播算法将这些深度图扩展到其他相邻
的帧。这些方法虽然能节省了一部分时间，但在大批量处理影视作品2D到3D转换时，仍然需
要比较繁重的人工操作。

相比而言，全自动的深度恢复方法可以最大程度的节省人工成本。一些算法可以
通过运动，聚焦、遮挡或阴影等深度线索，使用特定的规则恢复出深度图，但是通常只对特
定场景有效。例如，基于运动推断结构的方法可以根据相邻帧间远处物体相对位移小、近处
物体相对位移大的线索恢复移动摄像机拍摄的静态场景的深度，但是该类方法在拍摄对象
移动或摄像机静止的情况下无效；基于聚焦的深度恢复方法可以恢复浅景深图像的深度，
但在大景深的情况下效果很差。影视作品中通常包含各种场景，因此基于深度线索的深度
恢复方法很难普遍应用。

卷积神经网络是一种特别适用于图像的深度神经网络，它由卷积层，激活层，池化
层和损耗层等基本单元堆叠构成，可以模拟图像输入x到特定输出y的复杂函数，在解决图
像分类，图像分割等各类机器视觉问题中占据了主导性地位。近一两年来，一些方法将卷积
神经网络用于深度恢复，使用大量的数据学习得出从RGB图像输入到深度图输出的映射关
系。基于卷积神经网络的深度恢复不依赖于各种假设，具有很好的普适性，而且恢复精度很
高，因此在影视作品的2D-3D转换中有很大的应用潜力。然而，现存的方法在训练卷积神经
网络时都是基于单幅图像优化的，而忽略了帧间的连续性关系。如果运用于恢复图像序列
的深度，相邻各帧恢复出的深度图会发生明显的跳变。而相邻帧的深度图跳变会造成合成
的虚拟视图的闪烁，严重影响用户观感。此外，帧间的连续性也对深度恢复提供了重要线
索，而在现存的方法里，这些信息被简单的忽略掉了。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于卷积神经网络的时空一致
性深度图序列的生成方法，将RGB图像和深度图在时域上的连续性引入卷积神经网络中，在
训练时将多帧图像联合优化，以生成在时域上连续的深度图，并且改善深度恢复的精确度。

本发明的目的是通过以下技术方案来实现的：一种基于卷积神经网络的时空一致
性深度图序列的生成方法，包括如下步骤：

1)收集训练集。训练集的每一个训练样本是一个包含m帧的连续RGB图像序列，以
及其对应的深度图序列；

2)对训练集中的每一个图像序列进行时空一致性超像素分割，并且构建空间上的
相似度矩阵S(s)和时间上的相似度矩阵S(t)；

3)构建卷积神经网络，该神经网络由包含参数W的单一超像素深度回归网络，以及
包含参数α的时空一致性条件随机场损失层构成。其中单一超像素深度回归网络的作用是
在不考虑时空一致性约束的情况下对每一个超像素回归出一个深度值；时空一致性条件随
机场损失层的作用是使用步骤2)中建立的时间和空间上的相似度矩阵对单一超像素回归
网络的输出进行约束，最终输出时域和空域上平滑的估计深度图。

4)利用训练集中的RGB图像序列和深度图序列对步骤3)中构建的卷积神经网络进
行训练，得出网络参数W和α。

5)对未知深度的RGB图像序列，使用训练好的神经网络通过前向传播恢复深度图
序列。

进一步地，所述的步骤2)具体为：

(2.1)对训练集中的每一个连续RGB图像序列进行时空一致性超像素分割。将输入
序列标注为I＝[I1,…,Im],其中It是第t帧RGB图像，共有m帧。时空一致性超像素分割将m帧
分别分割为n1,…,nm个超像素，而且生成后一帧中每个超像素和前一帧中对应相同物体的
超像素的对应关系。整个图像序列包含个超像素。对于每一个超像素p，将其重
心位置的真实深度值记为dp,并定义n个超像素的真实深度向量d＝[d1；…；dn]。

(2.2)建立这n个超像素的空间一致性相似度矩阵S(s)，方法是：S(s)是一个n×n的
矩阵，其中描述了第p个超像素和第q个超像素的帧内相似度关系：

其中cp和cq分别是超像素p和q的颜色直方图特征，γ是手动设定的一个参数，可设
定为所有相邻超像素对||cp-cq||2值的中位数。

(2.3)建立这n个超像素的空间一致性相似度矩阵S(t)，方法是：S(t)是一个n×n的
矩阵，其中描述了第p个超像素和第q个超像素的帧间的相似度关系：

其中，相邻帧超像素的对应关系由步骤(2.1)中的时空一致性超像素分割得出。

进一步地，所述的步骤3)中构建的卷积神经网络由两个部分构成：单一超像素深
度回归网络，以及时空一致性条件随机场损失层：

(3.1)单一超像素深度回归网络由VGG16网络的前31层，1个超像素池化层，和3个
全连接层构成。其中，超像素池化层每个超像素空间范围内的特征进行平均池化。该网络的
输入是m帧连续的RGB图像，输出是一个n维向量z＝[z1,…zp]，其中第p个元素zp是该连续
RGB图像序列经时空一致性超像素分割后的第p个超像素在未考虑任何约束时的深度估计
值。该卷积神经网络的需要学习的参数记为W。

(3.2)时空一致性条件随机场损失层的输入步骤(3.1)中单一超像素回归网络的
输出z＝[z1,…zn]、步骤(2.1)中定义的超像素真实深度向量d＝[d1；…；dn]，以及步骤
(2.2)和(2.3)中得出的空间一致性相似度矩阵和时间一致性相似度矩阵在这里，
时空一致性条件随机场的条件概率函数为：

其中能量函数E(d,I)定义为：

该能量函数的第一项∑p∈N(dp-zp)2是单一超像素预测值和真实值的差距；第二项
是空间一致性约束，表明如果超像素p和q在同一帧相邻，而且颜
色比较相近(比较大)，则深度应该相仿；第三项是时间一致
性约束，表明如果超像素p和q是相邻两帧中对应同一物体的超像素其深度应该
相仿。将该能量函数用矩阵形式可以写成：

E(d,I)＝dTLd-2zTd+zTz

其中：

M＝α(s)S(s)+α(t)S(t)

S(s)和S(t)是步骤(2.2)和步骤(2.3)中得出的空间和时间相似度矩阵，α(s)和α(t)是
需要学习的两个参数，是n×n的单位矩阵，D是一个对角矩阵，Dpp＝∑qMpq。

而

其中L-1表示L的逆矩阵，|L|表示L的行列式值。

因此，可将损失函数定义为条件概率函数的负对数：

进一步地，步骤4)中的卷积神经网络训练过程具体为：

(4.1)使用随机梯度下降法对网络参数W，α(s)和α(t)进行优化，在每一次迭代中，参
数用以下方式更新：

其中lr是学习率。

(4.2)步骤(4.1)中代价函数J对参数W的偏导数由下述公式计算：

其中由卷积神经网络的反向传播逐层计算得到。

(4.3)步骤(4.2)中代价函数J对参数α(s)和α(t)的偏导数和由下述公式计
算：

其中Tr()表示求矩阵的迹，矩阵A(s)和A(t)是矩阵L对α(s)和α(t)的偏导数，由下述公
式计算：

δ(p＝q)当p＝q时取值为1，否则取值为0。

进一步地，步骤5)中，恢复一个未知深度的RGB图像序列的方法具体为：

(5.1)按照步骤2中的方法对该RGB图像序列进行时空一致性超像素分割，并且计
算空间相似度矩阵S(s)和时间相似度矩阵S(t)；

(5.2)使用训练好的卷积神经网络对该RGB图像序列进行前向传播，得到单一超像
素网络输出z；

(5.3)经过时空一致性约束的深度输出为由下述公式计算：

其中矩阵L由步骤(3.2)中描述的方法计算。表示该RGB图像序列第p个超像素的
深度值。

(5.4)将各个赋予该超像素相应帧的相应位置，即可得出m帧图像的深度图。

本发明的有益效果如下：

第一，相比于基于深度线索的深度恢复方法，本发明使用卷积神经网络学习从RGB
图像到深度图的函数映射，不依赖于对场景的特定假设；

第二，相比于现有的基于卷积神经网络的深度恢复方法只对单帧图像优化，本发
明加入时空一致性约束，通过构造时空一致性随机场损失层对多帧图像联合优化，可以输
出时空一致性的深度图，避免了深度图的帧间跳跃。

第三，相比于现有的基于卷积神经网络的深度恢复方法，本发明加入的是时空一
致性约束，可以提高深度恢复的精度。

本发明在公开数据集NYU depth v2以及一个发明人自己提出的数据集LYB 3D-TV
上与Eigen,David,Christian Puhrsch,and Rob Fergus."Depth map prediction from a
single image using a multi-scale deep network."Advances in neural information
processing systems.2014.等其他现有的方法进行了比较。结果显示，本发明提出的方法
可以显著地提高恢复深度图的时域连续致性，以及提高深度估计的精确度。

附图说明

图1是本发明的实例流程图；

图2是本发明提出的卷积神经网络结构图；

图3是单一超像素深度回归网络的结构图；

图4是单一超像素作用于多帧图像的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示的实施例流程图，本发明方法包括如下步骤：

1)收集训练集。训练集的每一个训练样本是一个包含m帧的连续RGB图像序列，以
及其对应的深度图序列；

2)使用Chang Jason et al.A video representation using temporal
superpixels.CVPR 2013中提出的方法对训练集中的每一个图像序列进行时空一致性超像
素分割，并且构建空间上的相似度矩阵S(s)和时间上的相似度矩阵S(t)；

3)构建卷积神经网络，该神经网络由包含参数W的单一超像素深度回归网络，以及
包含参数α的时空一致性条件随机场损失层构成。其中单一超像素深度回归网络的作用是
在不考虑时空一致性约束的情况下对对每一个超像素回归出一个深度值；时空一致性条件
随机场损失层的作用是使用步骤2)中建立的时间和空间上的相似度矩阵对单一超像素回
归网络的输出进行约束，最终输出时域和空域上平滑的估计深度图。

4)利用训练集中的RGB图像序列和深度图序列对步骤3)中构建的卷积神经网络进
行训练，得出网络参数W和α。

5)对未知深度的RGB图像序列，使用训练好的神经网络通过前向传播恢复深度图
序列。

关于步骤2)的具体实施说明如下：

(2.1)使用Chang Jason et al.A video representation using temporal
superpixels.CVPR 2013中提出的方法对训练集中的每一个连续RGB图像序列进行时空一
致性超像素分割。将输入序列标注为I＝[I1,…,Im],其中It是第t帧RGB图像，共有m帧。时空
一致性超像素分割将m帧分别分割为n1,…,nm个超像素，而且生成后一帧中每个超像素和前
一帧中对应相同物体的超像素的对应关系。整个图像序列包含个超像素。对于
每一个超像素p，我们将其重心位置的真实深度值记为dp,并定义n个超像素的真实深度向
量d＝[d1；…；dn]。

(2.2)建立这n个超像素的空间一致性相似度矩阵S(s)，方法是：S(s)是一个n×n的
矩阵，其中描述了第p个超像素和第q个超像素的帧内相似度关系：

其中cp和cq分别是超像素p和q的颜色直方图特征，γ是手动设定的一个参数，可设
定为所有相邻超像素对||cp-cq||2值的中位数。

(2.3)建立这n个超像素的空间一致性相似度矩阵S(t)，方法是：S(t)是一个n×n的
矩阵，其中描述了第p个超像素和第q个超像素的帧间的相似度关系：

其中，相邻帧超像素的对应关系由步骤(2.1)中的时空一致性超像素分割得出。

关于步骤3)的具体实施说明如下：

(3.1)本方法构建的卷积神经网络由两个部分构成：单一超像素深度回归网络，以
及时空一致性条件随机场损失层，其整体网络结构如图2所示；

(3.2)步骤(3.1)中所述的单一超像素深度回归网络由文献Simonyan,Karen,and
Andrew Zisserman."Very deep convolutional networks for large-scale image
recognition."arXivpreprint arXiv:1409.1556(2014)中提出的VGG16网络的前31层，两
个卷积层，1个超像素池化层，和3个全连接层构成，该网络结构如图3所示。其中，超像素池
化层每个超像素空间范围内的特征进行平均池化，其他的卷积、池化、激活等层均为卷积神
经网络常规的层。对于m帧连续的RGB图像输入，该网络首先单独作用于每一帧，例如对于包
含nt个超像素的第t帧图像，该网络输出一个nt维的向量zt，代表该帧内每个超像素在不考
虑任何约束下的深度回归输出。之后，将m帧图像的输出拼接成一个维的向量z
＝[z1；…,；zn]，代表该图像序列中共n个超像素的估计深度回归值，如图4所示。该卷积神经
网络的需要学习的参数记为W。

(3.3)步骤(3.1)中所述的时空一致性条件随机场损失层的输入步骤(3.2)中所述
的单一超像素回归网络的输出z＝[z1,…zn]，以及、步骤(2.1)中定义的超像素真实深度向
量d＝[d1；…；dn]，以及步骤(2.2)和(2.3)中得出的空间一致性相似度矩阵和时间一致
性相似度矩阵在这里，时空一致性条件随机场的条件概率函数为：

其中能量函数E(d,I)定义为：

E(d,I)＝dTLd-2zTd+zTz

其中：

M＝α(s)S(s)+α(t)S(t)

S(s)和S(t)是步骤(2.2)和步骤(2.3)中得出的空间和时间相似度矩阵，α(s)和α(t)是
需要学习的两个参数，是n×n的单位矩阵，D是一个对角矩阵，Dpp＝∑qMpq。

而

其中L-1表示L的逆矩阵,|L|表示L的行列式值。

因此，可将损失函数定义为条件概率函数的负对数：

步骤4)中的卷积神经网络训练过程，具体为：

(4.1)使用随机梯度下降法对网络参数W，α(s)和α(t)进行优化，在每一次迭代中，参
数用以下方式更新：

其中lr是学习率。

(4.2)步骤(4.1)中代价函数J对参数W的偏导数由下述公式计算：

其中由卷积神经网络的反向传播逐层计算得到。

(4.3)步骤(4.2)中代价函数J对参数α(s)和α(t)的偏导数由下述公式计算：

Tr(·)是求矩阵的迹的运算；其中矩阵A(s)和A(t)是矩阵L对α(s)和α(t)的偏导数，由
下述公式计算：

δ(p＝q)当p＝q时取值为1，否则取值为0。

步骤5)中，恢复一个未知深度的RGB图像序列的方法具体为：

(5.1)按照步骤2中的方法对该RGB图像序列进行时空一致性超像素分割，并且计
算空间相似度矩阵S(s)和时间相似度矩阵S(t)；

(5.2)使用训练好的卷积神经网络对该RGB图像序列进行前向传播，得到单一超像
素网络输出z；

(5.3)经过时空一致性约束的深度输出为由下述公式计算：

其中矩阵L由步骤(3.3)中描述的方法计算。表示该RGB图像序列第p个超像素的
深度值。

(5.4)将各个赋予该超像素相应帧的相应位置，即可得出m帧图像的深度图。

具体实施例：本发明在公开数据集NYU depth v2以及一个发明人自己提出的数据
集LYB3D-TV上与其他集中现有的方法进行了比较。其中，NYU depth v2数据集由795个训练
场景和654个测试场景构成，每一个场景包含30帧连续的rgb图像和其对应的深度图。LYU
3D-TV数据库取自电视剧《琅琊榜》的一些场景，我们选取了60个场景中的5124帧图片和其
手工标注的深度图作为训练集，和20个场景中的1278帧图片和其手工标注的深度图作为测
试集。我们将本发明提出的方法和下列方法在深度恢复精度上进行了对比：

1.Depth transfer:Karsch,Kevin,Ce Liu,and Sing Bing Kang."Depth
transfer:Depth extraction from video using non-parametric sampling."IEEE
transactions on pattern analysis and machine intelligence 36.11(2014):2144-
2158.

2.discrete-continuous CRF:Liu,Miaomiao,Mathieu Salzmann,and Xuming
He."Discrete-continuous depth estimation from a single image."Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition.2014.

3.Multi-scale CNN:Eigen,David,Christian Puhrsch,and Rob Fergus."Depth
map prediction from a single image using a multi-scale deep network."Advances
in neural information processing systems.2014(Multi-scale CNN),

4.2D-DCNF:Liu,Fayao,et al."Learning depth from single monocular
images using deep convolutional neural fields."IEEE transactions on pattern
analysis and machine intelligence.

结果显示，我们的方法的精度相对于对比方法有所提升，而且恢复深度图的帧间
跳跃现象明显减少。

表1：在NYU depth v2数据库的深度恢复精度对比

表2：在LYB-3D TV数据库的深度恢复精度对比