一种虚拟视点彩色图像绘制方法 【技术领域】
本发明涉及一种三维视频技术, 尤其是涉及一种虚拟视点彩色图像绘制方法。背景技术 三维视频 (Three-Dimensional Video, 3DV) 是一种先进的视觉模式, 它使人们在 屏幕上观看图像时富有立体感和沉浸感, 可以满足人们从不同角度观看三维 (3D) 场景的 需求。通常, 三维视频系统如图 1 所示, 主要包括视频捕获、 视频编码、 传输解码、 虚拟视点 绘制和交互显示等模块。
多视点视频加深度 (multi-view video plus depth, MVD) 是目前 ISO/MPEG 推荐 采用的 3D 场景信息表示方式。 MVD 数据在多视点彩色图像基础上增加了对应视点的深度信 息, 深度信息的获取目前主要有两种基本途径 : 1) 通过深度相机获取 ; 2) 通过算法从普通 的二维 (2D) 视频中生成深度信息。基于深度图像的绘制 (Depth Image BasedRendering, DIBR) 是一种利用参考视点的彩色图像所对应的深度图像绘制生成虚拟视点图像的方法, 其通过利用参考视点的彩色图像及该参考视点的彩色图像中的每个像素对应的深度信息 来合成三维场景的虚拟视点图像。由于 DIBR 将场景的深度信息引入到虚拟视点图像绘制 中, 从而大大减少了虚拟视点图像绘制所需的参考视点的数目。
目前的 DIBR 方法着重于对算法进行优化 ( 如 : 如何精确地填充空洞像素点, 如何 降低三维图像变换的时间等 ) 来提升绘制的精度和速度, 但对于载体图像 ( 彩色图像和深 度图像 ) 对绘制质量的影响却缺乏相关的研究。通过对彩色图像和深度图像的特征分析, 一方面, 由于深度是用来表征场景几何的负载信息, 深度信息的质量会对后期虚拟视点绘 制产生影响, 由于深度图像的编码失真, 绘制的虚拟视点图像与真实图像之间会存在几何 失真 ( 也称为结构位置失真 ), 会在绘制的虚拟视点图像中产生新的空洞, 并且深度图像的 编码失真与几何失真不是简单的线性映射关系 ; 另一方面, 由于多视点成像会导致采集的 多视点彩色图像的颜色不一致, 使得 DIBR 方法图像融合过程中会出现颜色失真现象, 严重 影响绘制图像的主观质量。因此, 如何消除深度图像的编码失真和彩色图像的颜色不一致 对绘制的影响, 是目前虚拟视点图像需要解决的问题。
发明内容
本发明所要解决的技术问题是提供一种能够有效地提高虚拟视点彩色图像质量 的绘制方法。
本发明解决上述技术问题所采用的技术方案为 : 一种虚拟视点彩色图像绘制方 法, 其包括以下步骤 :
①获取 t 时刻的 K 个参考视点的 K 幅颜色空间为 YUV 的彩色图像及其对应的 K 幅 深度图像, 然后在编码端根据设定的编码预测结构分别对 t 时刻的 K 个参考视点的 K 幅颜 色空间为 YUV 的彩色图像及其对应的 K 幅深度图像进行编码, 再将编码后的 K 幅彩色图像 及其对应的 K 幅深度图像经网络传输给解码端 ; 在解码端对编码后的 K 幅彩色图像及其对应的 K 幅深度图像进行解码, 获得解码后的 t 时刻的 K 个参考视点的 K 幅彩色图像及其对 应的 K 幅深度图像 ;
②将 t 时刻的第 k 个参考视点的彩色图像记为将 t 时刻的第 k 个参考视点的深度图像记为其中, i = 1, 2, 3 分别表示 YUV 颜色空间的三个分量,YUV 颜色空间的第 1 个分量为亮度分量并记为 Y、 第 2 个分量为第一色度分量并记为 U 及第 3 个分量为第二色度分量并记为 V, (x, y) 表示彩色图像或深度图像中像素点的坐标位置, 1 ≤ k ≤ K, k 的初始值为 1, 表示 t 时刻的第 k 个参考视点的彩色图像 表示 t 时刻的第 k 个参考视点中坐标位置为 (x, y) 的像素点的第 i 个分量的值, 的深度图像
中坐标位置为 (x, y) 的像素点的深度值 ; 从二维图像平面投影到三维 对应的场景深度集合, 记为 其中, 表示 t 时刻 中坐标位置为 (x, 进行边缘 包括边缘区域 ; 对③将 t 时刻的第 k 个参考视点的深度图像场景平面, 得到 t 时刻的第 k 个参考视点的深度图像的第 k 个参考视点的深度图像对应的场景深度集合Zfar 表示最大的场景深度值 ; y) 的像素点的场景深度值, Znear 表示最小的场景深度值,
④采用边缘检测算法对 t 时刻的第 k 个参考视点的深度图像 其中, 边缘分割图像检测, 获得边缘分割图像, 记为 t 时刻的第 k 个参考视点的深度图像 离图像, 记为
进行前景和背景的分离处理, 得到前背景分 包括前景区域和背景区域 ; 将 t 时刻的第 k 个参其中, 前背景分离图像⑤根据边缘分割图像和前背景分离图像考视点的深度图像
分割成核心内容区域和非核心内容区域 ; 中与 t 时⑥利用两组不同滤波强度的双向滤波器分别对场景深度集合刻的第 k 个参考视点的深度图像的核心内容区域和非核心内容区域中的各个像素点对应的场景深度值进行滤波处理, 得到滤波后的场景深度集合, 记为
⑦将滤波后的场景深度集合从三维场景平面重新投影到二维 图 像 平 面, 得 到 t 时 刻 的 第 k 个 参 考 视 点 的 深 度 滤 波 图 像, 记为 其中, 度滤波图像 深度集合 表示 t 时刻的第 k 个参考视点的深 表示滤波后的场景中坐标位置为 (x, y) 的像素点的深度值,中坐标位置为 (x, y) 的像素点的场景深度值, Znear 表示最小的场景深度值, Zfar 表示最大的场景深度值 ;⑧令 k′= k+1, k = k′, 重复执行步骤②至⑧直至得到 t 时刻的 K 个参考视点的K 幅深度滤波图像, K 幅深度滤波图像用集合表示为
⑨假定当前需绘制的是第 k′个虚拟视点, 从 t 时刻的 K 个参考视点中选择两个 与第 k ′个虚拟视点最相邻的参考视点, 假定这两个参考视点分别为第 k 个参考视点和 第 k+1 个参考视点, 将由第 k 个参考视点绘制得到的第 k′个虚拟视点的虚拟视点图像记 将由第 k+1 个参考视点绘制得到的第 k′个虚拟视点的虚拟视点图像记为 首先利用 t 时刻的第 k 个参考视点的深度图像 所提供的深度信息,为然后采用三维图像变换方法逐像素点计算 t 时刻的第 k 个参考视点的彩色图像 中的各个像素点在当前需绘制的第 k′个虚拟视点的虚拟视点图像 置, 得到 t 时刻的第 k 个参考视点的彩色图像 的第 k′个虚拟视点的虚拟视点图像 将 t 时刻的第 k 个参考视点的彩色图像 k′个虚拟视点的虚拟视点图像
中的坐标位中的各个像素点映射到当前需绘制 的坐标映射关系, 再利用该坐标映射关系 中的各个像素点映射到当前需绘制的第中; 相同的方法, 将第采用与由第 k 个参考视点绘制得到的虚拟视点图像k+1 个参考视点的彩色图像 的虚拟视点图像
中的各个像素点映射到需绘制的第 k′个虚拟视点 中; 和由第 k+1 个参⑩分别对由第 k 个参考视点绘制得到的虚拟视点图像考视点绘制得到的虚拟视点图像 别记为
进行颜色传递操作, 得到颜色校正后的由第 k个参考视点绘制得到的虚拟视点图像和由第 k+1 个参考视点绘制得到的虚拟视点图像, 分 和 采用图像融合方法融合颜色校正后的由第 k 个参考视点绘制得到的虚拟视点图 和颜色校正后的由第 k+1 个参考视点绘制得到的虚拟视点图像 并对融合后的虚拟视点图像 中的像得到融合后的虚拟视点图像, 记为空洞像素点进行填补, 得到最终的虚拟视点图像, 记为 {ID,t,i(x, y)} ; 重复执行步骤⑨至 直至得到 K 个虚拟视点的 K 幅虚拟视点图像。
所述的步骤①中设定的编码预测结构为 HBP 编码预测结构。
所述的步骤④中对 t 时刻的第 k 个参考视点的深度图像 ④ -1、 采用 k-mean 算法对 t 时刻的第 k 个参考视点的深度图像进行前景和背 进行聚景的分离处理的具体过程为 :
类操作, 得到初始的聚类中心 ;
④ -2、 根据初始的聚类中心, 采用期望最大算法估计 t 时刻的第 k 个参考视点的深 度图像 的高斯混合模型, 记为 Θ,10其中, j 表示高斯混合模型 Θ101937578 A CN 101937579说明书4/16 页中的第 j 个高斯分量, j = 1 代表前景, j = 2 代表背景, ωj 表示第 j 个高斯分量的加权系 数, μj 表示第 j 个高斯分量的均值, σj 表示第 j 个高斯分量的标准差 ;
④ -3、 采用最大化概率密度函数分别获取 t 时刻的第 k 个参考视点的深度图像 中的各个像素点属于高斯混合模型 Θ 中的第 j 个高斯分量的分类标记, 记为γ(x, y),其中, 1 ≤ j ≤ 2, γ(x, y) ∈ [1, 2], Γ 表示高斯混合模型 Θ 中的所有高斯分量的集合, Γ = {j|1 ≤ j ≤ 2}, ④ -4、 将 t 时刻的第 k 个参考视点的深度图像表示最大化概率密度函数, μi 表示第 i 个高斯分量的均值, σi 表示第 i 个高斯分量的标准差 ;
中分类标记的值为 1 的 的前景区域, 将所有像素点构成的区域作为 t 时刻的第 k 个参考视点的深度图像 t 时刻的第 k 个参考视点的深度图像 区域作为 t 时刻的第 k 个参考视点的深度图像中分类标记的值为 2 的所有像素点构成的 的背景区域, 得到前背景分离图像
所述的步骤⑤中核心内容区域和非核心内容区域的分割过程为 : ⑤ -1、 定义 t 时刻的第 k 个参考视点的深度图像 ⑤ -2、 判断当前像素点是否属于前背景分离图像 中当前正在处理的像素 的前景区域或边缘分点为当前像素点 ;
割图像的边缘区域, 如果是, 则确定当前像素点为核心内容, 否则, 确定当前像素 ⑤ -3、 将 t 时刻的第 k 个参考视点的深度图像 中下一个待处理的像素点为非核心内容 ;
点作为当前像素点, 然后执行步骤⑤ -2 和⑤ -3, 直至 t 时刻的第 k 个参考视点的深度图像 中所有像素点处理完毕, 将所有核心内容构成的区域作为核心内容区域, 将所有 非核心内容构成的区域作为非核心内容区域。
所述的步骤⑥的具体过程为 :
⑥ -1、 定义 t 时刻的第 k 个参考视点的深度图像中当前正在处理的像素点为当前像素点, 将当前像素点的坐标位置记为 p, 将当前像素点的邻域像素点的坐 标位置记为 q, 定义双向滤波器为 其中, Gσs(||p-q||) 表示标准差为 σs 的高斯函 数, 表示标准差为 σr 的高斯函数,||p-q|| 表示坐标位置 p 和坐标位置 q 之间的欧拉距离, 第 k 个参考视点的彩色图像表示 t 时刻的 中坐标位置为 p 的像素点的第 i 个分量的值, 中坐标位置为 q 的像素点的第 i 个分表示 t 时刻的第 k 个参考视点的彩色图像 量的值, 表示场景深度集合中坐标位置为 q 的像素点的场景深度值, N(q) 表 的示以坐标位置为 q 的像素点为中心的 3×3 邻域窗口 ;
⑥ -2、 判断当前像素点是否属于 t 时刻的第 k 个参考视点的深度图像核心内容区域, 如果是, 则执行步骤⑥ -3, 否则, 执行步骤⑥ -4 ;
⑥ -3、 采 用 标 准 差 为 (σs1, σr1) 的 双 向 滤 波 器 对 当 前 像 素 点 的 坐 标 位 置 进行滤波操作, 得到当前像素点滤波后的场景 其 中, Gσs1(||p-q||) 表示标准差为 σs1 的高斯为 q 的邻域像素点的场景深度值 深度值函数,表示标准差为 σr1 的高斯函数,
⑥ -4、 采 用 标 准 差 为 (σs2, σr2) 的 双 向 滤 波 器 对 当 前 像 素 点 的 坐 标 位 置 进行滤波操作, 得到当前像素点滤波后的场景 其 中, Gσs2(||p-q||) 表示标准差为 σs2 的高斯为 q 的邻域像素点的场景深度值 深度值函数,表示标准差为 σr2 的高斯函数,在此标准差 (σs2, σr2)的滤波强度大于标准差 (σs1, σr1) 的滤波强度 ;
⑥ -5、 将滤波后的所有场景深度值构成的集合作为滤波后的场景深度集合
所述的 (σs1, σr1) 的大小为 (1, 5), 所述的 (σs2, σr2) 的大小为 (10, 15)。所述的步骤⑩的具体过程为 : ⑩ -1、 统计由第 k 个参考视点绘制得到的虚拟视点图像 中排除空洞 的像素点外的正确映射的像素点的总个数, 记为 num1, 分别获取虚拟视点图像 num1 个像素点的第 i 个分量的均值
和标准差 中排除空⑩ -2、 统计由第 k+1 个参考视点绘制得到的虚拟视点图像洞像素点外的正确映射的像素点的总个数, 记为 mum2, 分别获取虚拟视点图像 的 num2 个像素点的第 i 个分量的均值
和标准差 和由第⑩ -3、 计算由第 k 个参考视点绘制得到的虚拟视点图像k+1 个参考视点绘制得到的虚拟视点图像 标 标 准 差, 记目标均值为 记目标标准差为的第 i 个分量的目标均值和目
⑩ -4、 根据目标均值和目标标准差及由第k个参考视点绘制得 和标准差 通过到的虚拟视点图像的第i个分量的均值对由第 k 个参考视点绘制得到的虚拟视点图像 的各个分量进行颜色传递操作得到颜色校正后的虚拟视点图像
⑩ -5、 根据目标均值和目标标准差及 由 第 k+1 个 参 考 视 点 绘 制 得 和标准差 通过到的虚拟视点图像的第 i 个分量的均值对 由 第 k+1 个 参 考 视 点 绘 制 得 到 的 虚 拟 视点图像 的各个分量进行颜色传递操作得到颜色校正后的虚拟视点图像
所述的步骤 中的图像融合方法的具体过程为 : -1、 判断颜色校正后的由第 k 个参考视点绘制得到的虚拟视点图像 中坐标位置为 (x, y) 的像素点是否为空洞像素点, 如果是, 则继续执行, 否则, 其中, 表示融合后的虚拟视点图像 中坐标位置为(x, y) 的像素点的第 i 个分量的值, 到的虚拟视点图像
表示颜色校正后的由第 k 个参考视点绘制得中坐标位置为 (x, y) 的像素点的第 i 个分量的值 ;-2、 判 断 颜 色 校 正 后 的 由 第 k+1 个 参 考 视 点 绘 制 得 到 的 虚 拟 视 点 图 像 中 坐 标 位 置 为 (x, y) 的 像 素 点 是 否 为 空 洞 像 素 点, 如 果 是, 则确定融合后的虚拟视点图像 其中,中 坐 标 位 置 为 (x, y) 的 像 素 点 为 空 洞 像 素 点, 否 则, 表示颜色校正后的由第 k+1 个参考视点绘制得到的虚拟视点图像
中坐标位置为 (x, y) 的像素点的第 i 个分量的值。所述的步骤④中的边缘检测算法采用 Susan 边缘检测算法。
与现有技术相比, 本发明的优点在于 :
1) 本发明方法根据不同区域的深度编码失真对虚拟视点图像绘制的影响, 将深度 图像分成核心内容区域和非核心内容区域, 并设计两组不同滤波强度的双向滤波器分别对 核心内容区域和非核心内容区域的各个像素点对应的场景深度值进行滤波处理, 这样大大 提高了绘制图像的主观质量。
2) 本发明方法针对图像融合过程中出现的颜色失真问题, 从虚拟视点彩色图像中 提取出与空洞无关的参考颜色信息, 并设计不同的颜色校正方法分别对两组虚拟视点彩色 图像进行颜色校正, 这样大大提高了绘制图像的主观质量。 附图说明
图 1 为典型的三维视频系统的基本组成框图 ; 图 2 为 HBP 编码预测结构的示意图 ; 图 3a 为 “Ballet” 三维视频测试集的第 4 个参考视点的一幅彩色图像 ; 图 3b 为 “Ballet” 三维视频测试集的第 6 个参考视点的一幅彩色图像 ; 图 3c 为图 3a 所示的彩色图像对应的深度图像 ; 图 3d 为图 3b 所示的彩色图像对应的深度图像 ; 图 4a 为 “Breakdancers” 三维视频测试集的第 4 个参考视点的一幅彩色图像 ; 图 4b 为 “Breakdancers” 三维视频测试集的第 6 个参考视点的一幅彩色图像 ; 图 4c 为图 4a 所示的彩色图像对应的深度图像 ; 图 4d 为图 4c 所示的彩色图像对应的深度图像 ; 图 5a 为 “Ballet” 三维视频测试集的第 4 个参考视点的深度图像的核心内容区 图 5b 为 “Ballet” 三维视频测试集的第 6 个参考视点的深度图像的核心内容区域;
域; 图 5c 为 “Breakdancers” 三维视频测试集的第 4 个参考视点的深度图像的核心内 容区域 ;
图 5d 为 “Breakdancers” 三维视频测试集的第 6 个参考视点的深度图像的核心内 容区域 ;
图 6a 为 “Ballet” 三维视频测试集的第 4 个参考视点的深度图像 ;
图 6b 为 “Ballet” 三维视频测试集的第 4 个参考视点的滤波处理后的深度图像 ;
图 6c 为图 6a 与图 6b 的残差图像 ;
图 7a 为 “Breakdancers” 三维视频测试集的第 4 个参考视点的深度图像 ;
图 7b 为 “Breakdancers” 三维视频测试集的第 4 个参考视点的滤波处理后的深度 图像 ;
图 7c 为图 7a 与图 7b 的残差图像 ;
图 8a 为 “Ballet” 三维视频测试集的第 4 个参考视点绘制得到的虚拟视点图像 ;
图 8b 为 “Ballet” 三维视频测试集的第 6 个参考视点绘制得到的虚拟视点图像 ;
图 8c 为 “Breakdancers” 三维视频测试集的第 4 个参考视点绘制得到的虚拟视点 图 8d 为 “Breakdancers” 三维视频测试集的第 6 个参考视点绘制得到的虚拟视点图像 ;
图像 ; 图 9a 为 “Ballet” 三维视频测试集的第 5 个参考视点采用本发明方法得到的虚拟 视点图像 ;
图 9b 为 “Ballet” 三维视频测试集的第 5 个参考视点不采用本发明方法得到的虚 拟视点图像 ;
图 9c 为 “Ballet” 三维视频测试集的第 5 个参考视点采用本发明方法与不采用本 发明方法得到的虚拟视点图像的局部细节放大图 ;
图 10a 为 “Breakdancers” 三维视频测试集的第 5 个参考视点采用本发明方法后 得到的虚拟视点图像 ;
图 10b 为 “Breakdancers” 三维视频测试集的第 5 个参考视点不采用本发明方法 得到的虚拟视点图像 ;
图 10c 为 “Breakdancers” 三维视频测试集的第 5 个参考视点采用本发明方法与 不采用本发明方法得到的虚拟视点图像的局部细节放大图 ;
图 11a 为 “Ballet” 三维视频测试集的第 5 个参考视点不采用本发明颜色校正处 理后得到的虚拟视点图像的局部细节放大图 ;
图 11b 为 “Ballet” 三维视频测试集的第 5 个参考视点采用本发明颜色校正处理 后得到的虚拟视点图像的局部细节放大图 ;
图 11c 为 “Breakdancers” 三维视频测试集的第 5 个参考视点不采用本发明颜色 校正处理后得到的虚拟视点图像的局部细节放大图 ;
图 11d 为 “Breakdancers” 三维视频测试集的第 5 个参考视点采用本发明颜色校 正处理后得到的虚拟视点图像的局部细节放大图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种虚拟视点彩色图像绘制方法, 其具体包括以下步骤 :
①获取 t 时刻的 K 个参考视点的 K 幅颜色空间为 YUV 的彩色图像及其对应的 K 幅 深度图像, 然后在编码端根据设定的编码预测结构分别对 t 时刻的 K 个参考视点的 K 幅颜 色空间为 YUV 的彩色图像及其对应的 K 幅深度图像进行编码, 再将编码后的 K 幅彩色图像 及其对应的 K 幅深度图像经网络传输给解码端。
在解码端对编码后的 K 幅彩色图像及其对应的 K 幅深度图像进行解码, 获得解码 后的 t 时刻的 K 个参考视点的 K 幅彩色图像及其对应的 K 幅深度图像。
在本实施中, 设定的编码预测结构采用公知的 HBP 编码预测结构, 如图 2 所示。
②将 t 时刻的第 k 个参考视点的彩色图像记为将 t 时刻的第 k 个参考视点的深度图像记为其中, i = 1, 2, 3 分别表示 YUV 颜色空间的三个分量,YUV 颜色空间的第 1 个分量为亮度分量并记为 Y、 第 2 个分量为第一色度分量并记为 U 及第3 个分量为第二色度分量并记为 V, (x, y) 表示彩色图像或深度图像中像素点的坐标位置, 1 ≤ k ≤ K, k 的初始值为 1, 表示 t 时刻的第 k 个参考视点的彩色图像 表示 t 时刻的第 k 个参考视点中坐标位置为 (x, y) 的像素点的第 i 个分量的值, 的深度图像
中坐标位置为 (x, y) 的像素点的深度值。在此, 采用美国微软公司提供的三维视频测试序列 “Ballet” 和 “Breakdancers” , 这两个三维视频测试序列均包括 8 个参考视点的 8 幅彩色图像和对应的 8 幅深度图像, 各 幅彩色图像和深度图像的分辨率都为 1024×768, 帧率为 15 帧每秒, 即 15fps, 这两个三维 视频测试序列是 ISO/MPEG 所推荐的标准测试序列。图 3a 和图 3b 分别给出了 “Ballet” 的 第 4 个和第 6 个参考视点的彩色图像 ; 图 3c 和图 3d 分别给出了 “Ballet” 的第 4 个和第 6 个参考视点的彩色图像所对应的深度图像 ; 图 4a 和图 4b 分别给出了 “Breakdancers” 的第 4 个和第 6 个参考视点的彩色图像 ; 图 4c 和图 4d 分别给出了 “Breakdancers” 的第 4 个和 第 6 个参考视点的彩色图像所对应的深度图像。
③由于深度图像的深度值范围为 [0, 255], 不同的场景深度由于被量化成整数 型的深度值而产生一定的量化误差, 为了避免这一量化误差对后期虚拟视点图像绘制的 影响, 将 t 时刻的第 k 个参考视点的深度图像 景平面, 得到 t 时刻的第 k 个参考视点的深度图像 从二维图像平面投影到三维场 对应的场景深度集合, 记为 其中, 第 k 个参考视点的深度图像 对应的场景深度集合 表示 t 时刻的中坐标位置为 (x, y)的像素点的场景深度值, Znear 表示最小的场景深度值, Zfar 表示最大的场景深度值。
在 本 实 施 例 中, “Ballet”三 维 视 频 测 试 集 的 Znear 和 Zfar 分 别 为 42 和 130, “Breakdancers” 三维视频测试集的 Znear 和 Zfar 分别为 44 和 120。
④根据深度图像的失真对绘制的影响分析结果, 深度图像的边缘失真对后期虚 拟视点图像绘制的影响最大, 可知边缘是需要重点保护的区域, 并且根据人眼对视觉注意 力的敏感度分析, 前景对象比背景对象更容易受到关注, 人眼对前景的失真也较为敏感, 前景也是需要重点保护的区域, 因此本发明将深度图像的边缘区域和前景区域作为深度 图像的核心内容区域。采用公知的 Susan 边缘检测算法对 t 时刻的第 k 个参考视点的深 度图像 进行边缘检测, 获得边缘分割图像, 记为 包括边缘区域 ; 对 t 时刻的第 k 个参考视点的深度图像 景的分离处理, 得到前背景分离图像, 记为 括前景区域和背景区域。
其中, 边缘分割图像 进行前景和背 包 进行前景和其中, 前背景分离图像在此具体实施例中, 对 t 时刻的第 k 个参考视点的深度图像背景的分离处理的具体过程为 :
④ -1、 采用公知的 k-mean 算法对 t 时刻的第 k 个参考视点的深度图像进行聚类操作, 得到初始的聚类中心 ;④ -2、 根 据 初 始 的 聚 类 中 心, 采 用 期 望 最 大 (Expectation-Maximization) 的 高 斯 混 合 模 型, 记 为 Θ,算法估计 t 时刻的第 k 个参考视点的深度图像其中, j 表示高斯混合模型 Θ 中的第 j 个高斯分量, j = 1 代表前景, j= 2 代表背景, ωj 表示第 j 个高斯分量的加权系数, μj 表示第 j 个高斯分量的均值, σj 表示 第 j 个高斯分量的标准差 ;
④ -3、 采用最大化概率密度函数分别获取 t 时刻的第 k 个参考视点的深度图像 中的各个像素点属于高斯混合模型 Θ 中的第 j 个高斯分量的分类标记, 记为γ(x, y),其中, 1 ≤ j ≤ 2, γ(x, y) ∈ [1, 2], Γ 表示高斯混合模型 Θ 中的所有高斯分量的集合, Γ = {j|1 ≤ j ≤ 2}, ④ -4、 将 t 时刻的第 k 个参考视点的深度图像表示最大化概率密度函数, μi 表示第 i 个高斯分量的均值, σi 表示第 i 个高斯分量的标准差 ;
中分类标记的值为 1 的 的前景区域, 将所有像素点构成的区域作为 t 时刻的第 k 个参考视点的深度图像 t 时刻的第 k 个参考视点的深度图像 区域作为 t 时刻的第 k 个参考视点的深度图像中分类标记的值为 2 的所有像素点构成的 的背景区域, 得到前背景分离图像
⑤根据边缘分割图像和前背景分离图像将 t 时刻的第 k 个参考视点的深度图像
分割成核心内容区域和非核心内容区域。 中当前正在处理的像素 的前景区域或边缘分在此具体实施例中, 核心内容区域和非核心内容区域的分割过程为 : ⑤ -1、 定义 t 时刻的第 k 个参考视点的深度图像 ⑤ -2、 判断当前像素点是否属于前背景分离图像点为当前像素点 ;
割图像的边缘区域, 如果是, 则确定当前像素点为核心内容, 否则, 确定当前像素 ⑤ -3、 将 t 时刻的第 k 个参考视点的深度图像 中下一个待处理的像素点为非核心内容 ;
点作为当前像素点, 然后执行步骤⑤ -2 和⑤ -3, 直至 t 时刻的第 k 个参考视点的深度图像 中所有像素点处理完毕, 将所有核心内容构成的区域作为核心内容区域, 将所有 非核心内容构成的区域作为非核心内容区域。
分别对 “Ballet” 和 “Breakdancers” 三维视频测试集的第 4 个参考视点和第 6 个 参考视点的深度图像进行边缘检测及前景和背景分离处理实验, 图 5a 和图 5b 分别给出了 “Ballet” 的第 4 个和第 6 个参考视点的深度图像的核心内容区域, 图 5c 和图 5d 分别给出 了 “Breakdancers” 的第 4 个和第 6 个参考视点的深度图像的核心内容区域, 从图 5a 至图5d 可以看出, 采用本发明提取的核心内容区域基本符合人眼视觉的特性。
⑥利用两组不同滤波强度的双向滤波器分别对场景深度集合中与 t 时刻的第 k 个参考视点的深度图像的核心内容区域和非核心内容区域中的各个像素点对应的场景深度值进行滤波处理, 得到滤波后的场景深度集合, 记为 由于深度图像整体非常平滑, 对深度图像进行滤波处理, 要求在平滑深度信息 的同时能很好地保留边缘轮廓信息, 双向滤波器 (bilateral filter) 是一种非线性滤 波器, 能有效地将噪声平滑化且又可以把重要的边界保留, 其主要原理是同时在空间域 (spatialdomain) 和强度域 (intensity domain) 做高斯平滑化 (Gaussian smoothing) 处 理。由于深度图像与彩色图像之间存在较强的相关性, 深度图像与彩色图像的运动对象及 运动对象边界是一致的, 但彩色图像包含更加丰富的纹理信息, 以彩色图像作为强度域信 息来辅助深度图像的滤波, 有利于保留重要的运动对象边界信息。 通过分析, 本发明提出的 滤波处理的具体过程为 :
⑥ -1、 定义 t 时刻的第 k 个参考视点的深度图像中当前正在处理的像素点为当前像素点, 将当前像素点的坐标位置记为 p, 将当前像素点的邻域像素点的坐 标位置记为 q, 定义双向滤波器为 其中, Gσs(||-q||) 表示标准差为 σs 的高斯函数, 表示标准差为 σr 的高斯函数,||p-q|| 表示坐标位置 p 和坐标位置 q 之间的欧拉距离, 个参考视点的彩色图像表示 t 时刻的第 k 中坐标位置为 p 的像素点的第 i 个分量的值, 表示t 时刻的第 k 个参考视点的彩色图像 值, 表示场景深度集合中坐标位置为 q 的像素点的第 i 个分量的 中坐标位置为 q 的像素点的场景深度值, N(q) 表示以 的坐标位置为 q 的像素点为中心的 3×3 邻域窗口 ;
⑥ -2、 判断当前像素点是否属于 t 时刻的第 k 个参考视点的深度图像核心内容区域, 如果是, 则执行步骤⑥ -3, 否则, 执行步骤⑥ -4 ;
⑥ -3、 采 用 标 准 差 为 (σs1, σr1) 的 双 向 滤 波 器 对 当 前 像 素 点 的 坐 标 位 置 为 q 的邻域像素点的场景深度值 景深度值 进行滤波操作, 得到当前像素点 p 的滤波后的场 其 中, Gσs1(||p-q||) 表示标准差为 σs1 的高斯函数,表示标准差为 σr1 的高斯函数,在此, 标准差 (σs1, σr1)采用一组滤波强度较小的标准差, 如 (σs1, σr1) 的大小可为 (1, 5) ;
⑥ -4、 采 用 标 准 差 为 (σs2, σr2) 的 双 向 滤 波 器 对 当 前 像 素 点 的 坐 标 位 置 为 进行滤波操作, 得到当前像素点 p 的滤波后的场景 其 中, Gσs2(||p-q||) 表示标准差为 σs2 的高斯q 的邻域像素点的场景深度值 深 度 值函数,表示标准差为 σr2 的高斯函数,标准差 (σs2, σr2) 采用一组滤波强度较大的标准差, 如 (σs2, σr2) 的大小可为 (10, 15) ;
⑥ -5、 将滤波后的所有场景深度值构成的集合作为滤波后的场景深度集合对 “Ballet” 和 “Breakdancers” 三维视频测试集的深度图像的核心内容区域和非 核心内容区域中各个像素点对应的场景深度值进行滤波处理实验, 图 6a 和图 6b 分别给出 了 “Ballet” 的第 4 个参考视点的深度图像和滤波处理后的深度图像, 图 6c 给出了图 6a 与 图 6b 的残差图像 ; 图 7a 和图 7b 分别给出了 “Breakdancers” 的第 4 个参考视点的深度图 像和滤波处理后的深度图像, 图 7c 给出了图 7a 与图 7b 的残差图像, 从图 6b 和图 7b 可以 看出, 采用本发明得到滤波处理后的深度图像, 保持了深度图像的重要的几何特征, 产生了 令人满意的锐利的边缘和平滑的轮廓。
⑦将滤波后的场景深度集合从三维场景平面重新投影到二维 图 像 平 面, 得 到 t 时 刻 的 第 k 个 参 考 视 点 的 深 度 滤 波 图 像, 记为 其中, 度滤波图像 深度集合 表示 t 时刻的第 k 个参考视点的深 表示滤波后的场景中坐标位置为 (x, y) 的像素点的深度值,中坐标位置为 (x, y) 的像素点的场景深度值, Znear 表示最小的场景深度值, Zfar 表示最大的场景深度值。
⑧令 k′= k+1, k = k′, 重复执行步骤②至⑧直至得到 t 时刻的 K 个参考视点的 K 幅深度滤波图像, K 幅深度滤波图像用集合表示为⑨假定当前需绘制的是第 k′个虚拟视点, 从 t 时刻的 K 个参考视点中选择两个 与第 k ′个虚拟视点最相邻的参考视点, 假定这两个参考视点分别为第 k 个参考视点和 第 k+1 个参考视点, 将由第 k 个参考视点绘制得到的第 k′个虚拟视点的虚拟视点图像记 将由第 k+1 个参考视点绘制得到的第 k′个虚拟视点的虚拟视点图像记为 首先利用 t 时刻的第 k 个参考视点的深度图像 所提供的深度信为息, 然后采用公知的三维图像变换方法逐像素点计算 t 时刻的第 k 个参考视点的彩色图像 中的各个像素点在当前需绘制的第 k′个虚拟视点的虚拟视点图像 中的坐标位置, 得到 t 时刻的第 k 个参考视点的彩色图像 当前需绘制的第 k′个虚拟视点的虚拟视点图像 标映射关系将 t 时刻的第 k 个参考视点的彩色图像 需绘制的第 k′个虚拟视点的虚拟视点图像 得到的虚拟视点图像 中的各个像素点映射到 的坐标映射关系, 再利用该坐 中的各个像素点映射到当前 中。采用与由第 k 个参考视点绘制 中 中。相同的方法, 将第 k+1 个参考视点的彩色图像的各个像素点映射到需绘制的第 k′个虚拟视点的虚拟视点图像
在本实施例中, 设定当前需绘制的虚拟视点为第 5 个虚拟视点, 图 8a 给出了 “Ballet” 的第 4 个参考视点绘制得到的虚拟视点图像, 图 8b 给出了 “Ballet” 的第 6 个参 考视点绘制得到的虚拟视点图像, 图 8c 给出了 “Breakdancers” 的第 4 个参考视点绘制得到 的虚拟视点图像, 图 8d 给出了 “Breakdancers” 的第 6 个参考视点绘制得到的虚拟视点图 像, 从图 8a 至图 8d 可以看出, 采用基于深度图像的绘制 (Depth Image Based Rendering, DIBR) 方法绘制得到的虚拟视点图像会有较多的空洞像素点, 需要采用图像融合和空洞填 补方法进行进一步的处理。
⑩分别对由第 k 个参考视点绘制得到的虚拟视点图像和由第 k+1 个参考视点绘制得到的虚拟视点图像 别记为
进行颜色传递操作, 得到颜色校正后的由第 k个参考视点绘制得到的虚拟视点图像和由第 k+1 个参考视点绘制得到的虚拟视点图像, 分 和根据多视点成像的特点, 同一像素点在不同的虚拟视点图像的颜色会完全不一 致, 导致在图像融合过程会出现颜色失真现象。 由于虚拟视点图像包含较多的空洞像素点, 对虚拟视点图像进行颜色校正的关键是提取与空洞无关的参考颜色信息。通过分析, 本发 明提出的对虚拟视点图像进行颜色校正的具体过程为 : ⑩ -1、 统计由第 k 个参考视点绘制得到的虚拟视点图像 中排除空洞 的
像素点外的正确映射的像素点的总个数, 记为 num1, 分别获取虚拟视点图像 num1 个像素点的第 i 个分量的均值
和标准差 中排除空⑩ -2、 统计由第 k+1 个参考视点绘制得到的虚拟视点图像洞像素点外的正确映射的像素点的总个数, 记为 num2, 分别获取虚拟视点图像 的 num2 个像素点的第 i 个分量的均值 和标准差⑩ -3、 计算由第 k 个参考视点绘制得到的虚拟视点图像和由第k+1 个参考视点绘制得到的虚拟视点图像 标 标 准 差, 记目标均值为 记目标标准差为的第 i 个分量的目标均值和目
⑩ -4、 根据目标均值和目标标准差及由第k个参考视点绘制得 和标准差 通过到的虚拟视点图像的第i个分量的均值对由第 k 个参考视点绘制得到的虚拟视点图像 的各个分量进行颜色传递操作得到颜色校正后的虚拟视点图像
⑩ -5、 根据目标均值和目标标准差及 由 第 k+1 个 参 考 视 点 绘 制 得 和标准差 通过到的虚拟视点图像的第 i 个分量的均值对 由 第 k+1 个 参 考 视 点 绘 制 得 到 的 虚 拟 视点图像 的各个分量进行颜色传递操作得到颜色校正后的虚拟视点图像
采用图像融合方法融合颜色校正后的由第 k 个参考视点绘制得到的虚拟视点图 和颜色校正后的由第 k+1 个参考视点绘制得到的虚拟视点图像 并对融合后的虚拟视点图像 中的像得到融合后的虚拟视点图像, 记为空洞像素点进行填补, 得到最终的虚拟视点图像, 记为 {ID, y)}。 t, i(x,
在此具体实施例中, 图像融合方法的具体过程为 :
-1、 判断颜色校正后的由第 k 个参考视点绘制得到的虚拟视点图像 中坐标位置为 (x, y) 的像素点是否为空洞像素点, 如果是, 则继续执行, 否则, 其中, 表示融合后的虚拟视点图像 中坐标位置为(x, y) 的像素点的第 i 个分量的值, 到的虚拟视点图像
表示颜色校正后的由第 k 个参考视点绘制得中坐标位置为 (x, y) 的像素点的第 i 个分量的值 ;-2、 判 断 颜 色 校 正 后 的 由 第 k+1 个 参 考 视 点 绘 制 得 到 的 虚 拟 视 点 图 像 中 坐 标 位 置 为 (x, y) 的 像 素 点 是 否 为 空 洞 像 素 点, 如 果 是, 则确定融合后的虚拟视点图像 其中, 的虚拟视点图像
中 坐 标 位 置 为 (x, y) 的 像 素 点 为 空 洞 像 素 点, 否 则, 表示颜色校正后的由第 k+1 个参考视点绘制得到中坐标位置为 (x, y) 的像素点的第 i 个分量的值。 直至得到 K 个虚拟视点的 K 幅虚拟视点图像。重复执行步骤⑨至以下就利用本发明方法对 “Ballet” 、 “Breakdancers” 三维视频测试集进行虚拟视点图像绘制的主观和客观性能进行比较。
将采用本发明方法得到的虚拟视点图像, 与不采用本发明方法得到的虚拟视点图 像进行比较。图 9a 和图 9b 分别给出了 “Ballet” 三维视频测试集的第 5 个参考视点采用 本发明得到的虚拟视点图像和不采用本发明方法得到的虚拟视点图像, 图 9c 为图 9a 和图 9b 的局部细节放大图 ; 图 10a 和图 10b 分别给出了 “Breakdancers” 三维视频测试集的第 5 个参考视点采用本发明方法得到的虚拟视点图像和不采用本发明方法得到的虚拟视点图 像, 图 10c 为图 10a 和图 10b 的局部细节放大图。从图 9a 至图 10c 可以看出, 采用本发明 方法得到的虚拟视点图像能够保持更好的对象轮廓信息, 从而降低了由于深度图像的失真 引起的映射过程中产生的背景对前景的覆盖, 并且对背景区域进行强度较大的滤波平滑处 理, 能够有效地消除绘制的虚拟视点图像中的条纹噪声。
将采用本发明颜色校正处理与不采用本发明颜色校正处理后得到的虚拟视点图 像进行比较。图 11a 给出了 “Ballet” 三维视频测试集的第 5 个参考视点不采用本发明 颜色校正处理后得到的虚拟视点彩色图像的局部细节放大图, 图 11b 给出了 “Ballet” 三 维视频测试集的第 5 个参考视点采用本发明颜色校正处理后得到的虚拟视点彩色图像的 局部细节放大图, 图 11c 给出了 “Breakdancers”三维视频测试集的第 5 个参考视点不 采用本发明颜色校正处理后得到的虚拟视点彩色图像的局部细节放大图, 图 11d 给出了 “Breakdancers” 三维视频测试集的第 5 个参考视点采用本发明颜色校正处理后得到的虚 拟视点彩色图像的局部细节放大图, 从图 11a 和图 11c 可以看出, 图像融合过程中出现的颜 色失真主要出现在虚拟视点图像的空洞像素点位置, 采用本发明的颜色校正处理后得到的 虚拟视点图像能够有效地消除颜色失真问题, 如图 11b 和图 11d 所示, 使得最终的虚拟视点 图像质量更加自然。
使用本发明方法对不同编码质量的深度图像进行处理, 与不采用本发明方法的绘 制性能进行比较, 比较结果如表 1 所示, 深度图像的量化步长 baseQP = 22、 27、 32、 37, 求得 的虚拟视点图像与原始未压缩的彩色图像的峰值信噪比 (Peak Signal to Noise Ratio, PSNR)。从表 1 中可以看出, 对 “Ballet” 三维视频测试序列采用本发明方法后, 平均 PSNR 能够提高 0.30dB 以上, 对 “Breakdancers” 三维视频测试序列采用本发明方法后, 平均 PSNR 也能提高 0.30dB 以上, 足以说明本发明方法是有效可行的。
表 1 采用本发明后处理与不采用本发明后处理的绘制性能比较