《一种基于摄像头姿态快速估计的覆盖范围3D可视化方法.pdf》由会员分享,可在线阅读,更多相关《一种基于摄像头姿态快速估计的覆盖范围3D可视化方法.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103400409 A (43)申请公布日 2013.11.20 CN 103400409 A *CN103400409A* (21)申请号 201310378425.1 (22)申请日 2013.08.27 G06T 15/00(2011.01) H04N 13/00(2006.01) (71)申请人 华中师范大学 地址 430079 湖北省武汉市洪山区珞瑜路 152 号 (72)发明人 赵刚 何彬 李洋洋 陈凌云 徐忠成 潘瑞雪 (74)专利代理机构 武汉科皓知识产权代理事务 所 ( 特殊普通合伙 ) 42222 代理人 严彦 (54) 发明名称 一种基于摄像头姿。
2、态快速估计的覆盖范围3D 可视化方法 (57) 摘要 本发明提供一种基于摄像头姿态快速估计的 覆盖范围 3D 可视化方法, 包括进行三维场景建 模, 获得三维场景模型并进行增强, 进行三维场景 建模时从视频的每一帧中恢复一幅深度图像 ; 依 据三维场景模型和摄像头的安装位置, 将摄像头 注册到三维场景模型中, 通过摄像头姿态估计获 得摄像机参数, 确定视频与三维场景模型间的投 影映射关系 ; 在三维场景模型中根据深度阴影纹 理原理进行显示, 交互式拾取三维场景模型中的 目标, 根据投影映射关系计算目标在当前摄像头 参数模式下的成像区域。 (51)Int.Cl. 权利要求书 2 页 说明书 10。
3、 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书10页 附图3页 (10)申请公布号 CN 103400409 A CN 103400409 A *CN103400409A* 1/2 页 2 1. 一种基于摄像头姿态快速估计的覆盖范围 3D 可视化方法, 其特征在于, 包括以下步 骤 : 步骤 1, 进行三维场景建模, 获得三维场景模型并进行增强, 进行三维场景建模时从视 频的每一帧中恢复一幅深度图像 ; 步骤 2, 依据三维场景模型和摄像头的安装位置, 将摄像头注册到三维场景模型中, 通 过摄像头姿态估计获得摄像机参数, 确定视频与三维场。
4、景模型间的投影映射关系 ; 步骤 3, 在三维场景模型中根据深度阴影纹理原理进行显示, 交互式拾取三维场景模型 中的目标, 根据投影映射关系计算目标在当前摄像头参数模式下的成像区域。 2.根据权利要求1所述基于摄像头姿态快速估计的覆盖范围3D可视化方法, 其特征在 于 : 步骤 1 中, 从视频的每一帧中恢复一幅深度图像实现方式如下, 进行摄像机运动参数恢复, 从视频的帧序列中第 1 帧处理到第 n 帧, 对于每一帧, 保持 其它帧的视差图像不变, 重复执行以下两步处理两次, 步骤 2.1, 深度初始化, 若是对当前帧第一次执行步骤 2.1, 则采用集束优化算法最小 化函数恢复深度图像, 若是。
5、对当前帧第二次执行步骤 2.1, 则在已有深度图像的基础上采用 集束优化算法最小化函数优化深度信息 ; 设一个摄像机自由移动拍摄的视频为 n 帧序列 I, 表示为 I It|t 1,n, 其 中It表示第t帧视频图像, It(x)表示第t帧视频图像上像素x的亮度 ; 设It(x)是一个RGB 颜色向量, 目标是恢复一个视差图像序列 D Dt|t 1,n, 其中 Dt表示恢复后第 t 帧视差图像, Dt(x) 表示恢复后第 t 帧视差图像上像素 x 的亮度, Dt(x) 简写成 dx后定义为 dx 1/zx, zx表示恢复后第 t 帧视差图像上像素 x 的深度值 ; 所述集束优化算法最小化函数为。
6、 其中, 这里数据项 Ed(.) 衡量视差 D 对于给定的序列 I 的符合性, 而平滑项 Es(.) 则 约束视差的平滑性 ; 步骤 2.2, 深度分割优化, 对目标物体和场景图像进行分割, 改进深度质量, 得到新的深 度图像 ; 若是对当前帧第一次执行步骤 2.2, 返回步骤 2.1, 若是对当前帧第二次执行步骤 2.2, 输出所得深度图像。 3.根据权利要求1或2所述的基于摄像头姿态快速估计的覆盖范围3D可视化方法, 其 特征在于 : 所述摄像机参数包括内参数和外参数, 步骤 2 中, 通过摄像头姿态估计获得摄像 机参数时, 首先进行基本映射关系计算, 然后进行基本映射关系优化 ; 所述进。
7、行基本映射关系计算, 实现方式如下, 步骤 3.1, 根据视频的覆盖范围, 用结构不变特征算法提取三维场景模型纹理中具有结 构不必特征的纹理子图, 提取纹理子图在三维场景模型中的映射关系, 将纹理子图及映射 信息写入纹理子图映射信息库 ; 所述结构不变特征算法包括采用 LSD 直线检测算法提取场景中的直线结构, 然后结合 图像的灰度区域分块信息计算结构线段, 将所有结构线段和线段端点作为结构不变特征 ; 步骤 3.2, 对视频中的实时图像进行高斯滤波和亮度均衡预处理, 将处理后的实时图 像应用结构不变特征算法提取场景结构不变特征, 然后将实时图像的结构不变特征和步骤 3.1 中提取出的纹理子图。
8、的结构不变特征进行场景匹配, 建立实时图像与纹理子图的配准 权 利 要 求 书 CN 103400409 A 2 2/2 页 3 关系 ; 步骤 3.3, 结合纹理子图映射信息库, 利用实时图像与纹理子图的配准关系, 计算实时 图像的映射信息, 获得基本映射关系的矩阵, 基本映射关系的矩阵由内参数和外参数构成 ; 计算实时图像的映射信息时, 基于 2D-3D 点对, 利用 Tsai 的两步法实现 ; 所述进行基本映射关系计算, 实现方式为, 设内参数不变, 基于另外的 2D-3D 点对, 将 基本映射关系的矩阵中内参数和外参数作为初始值, 对每对 2D-3D 点对进行 3D 映射, 获得 映射。
9、误差 Pe, 利用 LM 算法选取 Pe最小值的外参数并与设定阈值进行比较, 小于该设定阈值 则将当前外参数作为最终优化结果, 否则继续优化。 4.根据权利要求1或2所述的基于摄像头姿态快速估计的覆盖范围3D可视化方法, 其 特征在于 : 步骤 3 中, 在三维场景模型中根据深度阴影纹理原理进行显示的实现如下, 第一, 在摄像机坐标系中渲染场景得到Z缓冲, 将Z缓冲存储在用于摄像机投影纹理的 alpha 通道中, 每个场景点的第一个 alpha 值代表首次从摄像头中心视图射线到达该点的 深度值, 记为 alpha1 ; 第二, 使用自动纹理坐标生成第二次渲染, 将纹理坐标的顶点坐标设置为对应的。
10、摄像 机顶点的深度值, 获得第二个 alpha 值并存储, 记为 alpha2 ; 第 三, 对 于 从 虚 拟 摄 像 机 可 见 的 所 有 场 景 点, 分 别 比 较 alpha1 和 alpha2, alpha1=alpha2 的场景点采用对应的摄像机获得的视频纹理图像进行渲染, 剩余的点利用 三维场景模型纹理进行渲染, 实现摄像机视场显示。 5.根据权利要求1或2所述的基于摄像头姿态快速估计的覆盖范围3D可视化方法, 其 特征在于 : 设视频与三维场景模型间的投影映射关系为矩阵 M, 步骤 3 中, 根据投影映射关 系计算目标在当前摄像头参数模式下的成像区域时根据如下公式实现, 其。
11、中, (u,v) 为目标中某点的图像坐标, (X,Y,Z) 为相应点的空间坐标。 权 利 要 求 书 CN 103400409 A 3 1/10 页 4 一种基于摄像头姿态快速估计的覆盖范围 3D 可视化方法 技术领域 0001 本发明涉及计算机视觉及增强现实技术领域, 尤其是涉及一种摄像头姿态快速估 计及覆盖范围 3D 可视化方法。 背景技术 0002 随着计算机图形学和计算机视觉的不断发展, 利用计算机技术高效逼真地交互模 拟真实世界已经成为现实。 增强现实技术在现实世界中应用越来越广, 作用也越来越重要。 大量摄像头的增加, 在带来海量视频数据的同时, 也对科学、 高效的资源管理提出来更。
12、高的 要求。 0003 现有摄像机姿态估计多采用摄像机标定及特征跟踪的方法来实现。 摄像机标定在 桌面摄像机、 机器人及工业控制领域被广泛使用。 但在基于增强现实环境的安防领域, 该类 方法存在诸多应用不便, 体现在 : 0004 1. 应用场景受限。现有标定方法基于精确的标定物, 或者要对摄像机进行复杂的 姿态控制操作, 才能计算出摄像机参数。在很多应用场合, 这些标定物无法安放到现场, 同 时对于枪机摄像机也无法进行姿态控制操作, 从而导致传统方法无法应用的情况。 0005 2.覆盖范围计算不够精确直观。 目前对摄像机覆盖范围的计算多采用扇形模拟或 理论值估算。 前者仅能对摄像机方向、 安。
13、装位置等信息进行描述, 后者在此基础上加入摄像 机参数模型, 能够估算出大致的覆盖范围, 但无法得出更加精确和直观的结果。 0006 具体来说, 现有摄像机标定方法可分为传统摄像机标定方法、 基于主动视觉的标 定方法和摄像机自标定方法。 传统摄像机标定方法, 使用固定的标定参照物, 通过建立参照 物3D坐标与2D坐标的对应关系, 求解摄像机内外参数, 具有精度高、 鲁棒性好等特征, 但对 应用环境有严格要求。 基于主动视觉的标定方法, 需要控制摄像机做某些特殊运动, 算法简 单但不能适用于摄像机运动未知或无法控制的场合。 摄像机自标定方法利用相机内参数约 束关系求解方程, 标定过程与场景和摄像。
14、机运动无关, 应用灵活, 但精度较低。 发明内容 0007 本发明建立一种摄像头姿态快速估计及覆盖范围 3D 可视化方法, 其目的在于 : 0008 1. 实现摄像头姿态快速估计, 辅助完成其它应用。摄像头内外参数对智能视频应 用具有重要意义, 如为了实现相邻摄像头的视频拼接、 运动目标的跨摄像头跟踪, 在已知摄 像头内外参数的情况下, 实现起来将容易得多。 0009 2. 基于视频序列重构和增强真实场景模型, 为摄像头覆盖范围 3D 可视化做准备。 通过增强现实技术, 可以有效地解决视频场景重建过程中存在的深度恢复问题, 实现摄像 头场景注册和视场 (Field of View, 以下均简称。
15、为 FOV) 的三维可视化。 0010 3. 对已有摄像头 FOV 的三维可视化, 科学管理及调配资源。通过在场景三维模型 中实时显示摄像头 FOV, 可以方便的制定对可疑目标的 360 度全覆盖方案, 避免出现覆盖死 角。 说 明 书 CN 103400409 A 4 2/10 页 5 0011 4. 结合镜头焦距、 安装高度、 角度等因素, 评估待安装摄像头覆盖范围, 为科学布 设摄像头提供依据。通常只能在摄像头已安装完毕传回图像后, 才能看到其精确的覆盖范 围, 此时发现安装位置不合理再去调整, 代价就比较大。本发明可以在安装摄像头之前, 通 过设置摄像头参数及安装位置、 角度等参数, 。
16、直接模拟出覆盖范围。 0012 本发明的技术方案为一种基于摄像头姿态快速估计的覆盖范围 3D 可视化方法, 包括以下步骤 : 0013 步骤 1, 进行三维场景建模, 获得三维场景模型并进行增强, 进行三维场景建模时 从视频的每一帧中恢复一幅深度图像 ; 0014 步骤 2, 依据三维场景模型和摄像头的安装位置, 将摄像头注册到三维场景模型 中, 通过摄像头姿态估计获得摄像机参数, 确定视频与三维场景模型间的投影映射关系 ; 0015 步骤 3, 在三维场景模型中根据深度阴影纹理原理进行显示, 交互式拾取三维场景 模型中的目标, 根据投影映射关系计算目标在当前摄像头参数模式下的成像区域。 00。
17、16 而且, 步骤 1 中, 从视频的每一帧中恢复一幅深度图像实现方式如下, 0017 进行摄像机运动参数恢复, 从视频的帧序列中第 1 帧处理到第 n 帧, 对于每一帧, 保持其它帧的视差图像不变, 重复执行以下两步处理两次, 0018 步骤 2.1, 深度初始化, 若是对当前帧第一次执行步骤 2.1, 则采用集束优化算法 最小化函数恢复深度图像, 若是对当前帧第二次执行步骤 2.1, 则在已有深度图像的基础上 采用集束优化算法最小化函数优化深度信息 ; 0019 设一个摄像机自由移动拍摄的视频为n帧序列I,表示为IIt|t1,n, 其中 It表示第 t 帧视频图像, It(x) 表示第 t。
18、 帧视频图像上像素 x 的亮度 ; 设 It(x) 是一个 RGB颜色向量, 目标是恢复一个视差图像序列DDt|t1,n, 其中Dt表示恢复后第 t 帧视差图像, Dt(x) 表示恢复后第 t 帧视差图像上像素 x 的亮度, Dt(x) 简写成 dx后定义 为 dx 1/zx, zx表示恢复后第 t 帧视差图像上像素 x 的深度值 ; 0020 所述集束优化算法最小化函数为 0021 其中, 这里数据项Ed(.)衡量视差D对于给定的序列I的符合性, 而平滑项Es(.) 则约束视差的平滑性 ; 0022 步骤 2.2, 深度分割优化, 对目标物体和场景图像进行分割, 改进深度质量, 得到新 的深。
19、度图像 ; 若是对当前帧第一次执行步骤 2.2, 返回步骤 2.1, 若是对当前帧第二次执行 步骤 2.2, 输出所得深度图像。 0023 而且, 所述摄像机参数包括内参数和外参数, 步骤 2 中, 通过摄像头姿态估计获得 摄像机参数时, 首先进行基本映射关系计算, 然后进行基本映射关系优化 ; 0024 所述进行基本映射关系计算, 实现方式如下, 0025 步骤 3.1, 根据视频的覆盖范围, 用结构不变特征算法提取三维场景模型纹理中具 有结构不必特征的纹理子图, 提取纹理子图在三维场景模型中的映射关系, 将纹理子图及 映射信息写入纹理子图映射信息库 ; 0026 所述结构不变特征算法包括采。
20、用 LSD 直线检测算法提取场景中的直线结构, 然后 结合图像的灰度区域分块信息计算结构线段, 将所有结构线段和线段端点作为结构不变特 征 ; 说 明 书 CN 103400409 A 5 3/10 页 6 0027 步骤 3.2, 对视频中的实时图像进行高斯滤波和亮度均衡预处理, 将处理后的实时 图像应用结构不变特征算法提取场景结构不变特征, 然后将实时图像的结构不变特征和步 骤 3.1 中提取出的纹理子图的结构不变特征进行场景匹配, 建立实时图像与纹理子图的配 准关系 ; 0028 步骤 3.3, 结合纹理子图映射信息库, 利用实时图像与纹理子图的配准关系, 计算 实时图像的映射信息, 获。
21、得基本映射关系的矩阵, 基本映射关系的矩阵由内参数和外参数 构成 ; 计算实时图像的映射信息时, 基于 2D-3D 点对, 利用 Tsai 的两步法实现 ; 0029 所述进行基本映射关系计算, 实现方式为, 设内参数不变, 基于另外的 2D-3D 点 对, 将基本映射关系的矩阵中内参数和外参数作为初始值, 对每对2D-3D点对进行3D映射, 获得映射误差 Pe, 利用 LM 算法选取 Pe最小值的外参数并与设定阈值进行比较, 小于该设定 阈值则将当前外参数作为最终优化结果, 否则继续优化。 0030 而且, 步骤 3 中, 在三维场景模型中根据深度阴影纹理原理进行显示的实现如下, 0031 。
22、第一, 在摄像机坐标系中渲染场景得到Z缓冲, 将Z缓冲存储在用于摄像机投影纹 理的 alpha 通道中, 每个场景点的第一个 alpha 值代表首次从摄像头中心视图射线到达该 点的深度值, 记为 alpha1 ; 0032 第二, 使用自动纹理坐标生成第二次渲染, 将纹理坐标的顶点坐标设置为对应的 摄像机顶点的深度值, 获得第二个 alpha 值并存储, 记为 alpha2 ; 0033 第三, 对于从虚拟摄像机可见的所有场景点, 分别比较 alpha1 和 alpha2, alpha1=alpha2 的场景点采用对应的摄像机获得的视频纹理图像进行渲染, 剩余的点利用 三维场景模型纹理进行渲染。
23、, 实现摄像机视场显示。 0034 而且, 设视频与三维场景模型间的投影映射关系为矩阵 M, 步骤 3 中, 根据投影映 射关系计算目标在当前摄像头参数模式下的成像区域时根据如下公式实现, 0035 0036 其中, (u,v) 为目标中某点的图像坐标, (X,Y,Z) 为相应点的空间坐标。 0037 本发明利用计算机视觉技术, 估算出摄像机姿态, 并结合增强现实技术重构真实 场景的三维模型, 实现摄像机覆盖区域的可视化标注及三维展示。包括将摄像头注册到真 实比例的三维模型中, 建立模型坐标系下的摄像机参数, 实现摄像头覆盖区域的精确可视 化, 同时可根据设置的摄像机参数、 镜头参数、 安装位。
24、置模拟成像效果, 为摄像机的布点安 装、 镜头选择提供参考。综合来说, 本发明除了突破现有技术缺点外, 还具有如下优点 : 0038 1. 无需任何外置设备, 即可精确计算摄像机姿态 ; 0039 2. 不影响设备工作状态, 仅需截取一张图像就能实现姿态估计 ; 0040 3. 覆盖范围三维可视化, 直接在三维场景中显示摄像头的覆盖范围 ; 0041 4. 辅助摄像机镜头选择, 根据不同的镜头参数, 自动计算覆盖范围并直观显示 ; 0042 5. 从真实拍摄的视频数据中实现深度信息的高精度恢复以及视频场景的层次结 构估计, 有效解决了基于视频的增强现实创作中面临的几何一致性和光照一致性问题。 。
25、说 明 书 CN 103400409 A 6 4/10 页 7 附图说明 0043 图 1 是本发明实施例的总体处理流程图。 0044 图 2 是本发明实施例的深度恢复流程图。 0045 图 3 是本发明实施例的摄像头 3D-2D 配准处理流程图。 0046 图 4 是本发明实施例的摄像机参数优化处理流程图。 0047 图 5 是本发明实施例的 FOV 显示及交互计算处理流程图。 具体实施方式 0048 针对现有技术, 本发明要解决的技术问题主要包括 : 0049 1.基于三维模型的摄像头内外参数计算方法。 在不使用标定参照物和控制摄像头 运动的情况下, 通过交互方法建立图像与三维模型的对应关。
26、系, 计算并优化出摄像头内外 参数。 0050 2.视频序列中场景稠密深度信息的恢复。 由摄像机参数信息和视频序列每一帧像 素具有几何一致性和颜色一致性的特性, 利用集束优化方法计算场景深度信息。 0051 3.摄像头FOV的三维显示。 根据摄像头的内外参数, 计算摄像头的有效覆盖范围, 并在三维模型中以阴影纹理的形式进行显示。 0052 4. 被摄目标在图像中所占像素大小计算。根据目标在场景中的具体位置和大小, 代入摄像机成像模型, 计算其在图像中的像素分辨率。 0053 以下结合附图和实施例详细说明本发明技术方案。 0054 针对现有方法在实际应用中的各种不足, 本发明实施例提出了一种摄像。
27、头姿态快 速估计及覆盖范围 3D 可视化方法。该方法包括视频场景重建与增强处理、 摄像头姿态估 计、 FOV 可视化及交互计算三部分。首先依据三维场景模型和摄像头的安装位置, 将摄像头 注册到三维场景模型中, 然后利用 2D-3D 点对关系计算摄像头姿态, 并根据注册信息对摄 像头外参数进行优化, 计算精确投影矩阵, 利用三维渲染技术, 根据投影矩阵计算摄像头覆 盖区域并在三维场景模型中通过阴影纹理的原理进行显示, 通过交互式拾取场景模型中的 目标, 计算该目标在当前摄像头参数模式下的成像大小。其具体流程图如图 1 所示。 0055 实施例包括以下步骤 : 0056 步骤 1 : 进行三维场景。
28、建模, 获得场景模型, 主要包括三维场景模型的重建和增强 处理、 实时视频与三维模型融合, 从而实现真实场景的精确重构。 对实时视频序列帧进行处 理, 从帧序列中获得场景纹理、 光照、 深度以及几何信息, 用于恢复三维几何运动信息, 并利 用这些信息完成三维场景模型重建工作 ; 然后对三维场景模型做进一步增强处理, 主要解 决视频与模型的几何一致性、 光照一致性和遮挡一致性等问题。 0057 步骤 2 : 依据三维场景模型和摄像头的安装位置, 将摄像头注册到三维场景模型 中, 然后利用 2D-3D 点对关系计算摄像头姿态, 并对摄像头参数进行优化, 实现摄像头姿态 估计, 摄像头姿态估计获得摄。
29、像机内外参数信息, 确定视频与模型间的投影映射关系 ; 0058 步骤 3 : 在三维场景模型中通过阴影纹理的原理进行显示, 交互式拾取场景模型 中的目标, 计算该目标在当前摄像头参数模式下的成像大小。 场景模型中目标信息获取, 包 括目标在世界坐标系中的三维坐标及投影映射后获得的图像坐标。 0059 实施例的具体流程实现详细说明如下 : 说 明 书 CN 103400409 A 7 5/10 页 8 0060 进行步骤 1 前, 先对采集视频的摄像机进行定焦标定和场景连续拍摄。通过定焦 标定获取定焦模式下拍摄样图和摄像机内参数 ; 场景连续拍摄是指对待重建场景进行视频 拍摄, 拍摄时使摄像机。
30、以一定速度围绕待重建场景一周, 从而得到待重建场景的全貌视频。 0061 所述定焦标定是指将摄像机焦距调整到固定值 (该固定值可以是任意值, 根据拍 摄场景的范围而定) , 采用棋盘格标定法计算摄像机内参数。 0062 所述摄像机内参数, 为摄像机焦距 f, 径向畸变 px, 图像中心点坐标 (cx, cy) ; 0063 所述摄像机属性及位置, 为摄像机实现场景注册和外参数确定提供依据, 提高投 影映射关系的鲁棒性 ; 0064 所述全貌视频, 为摄像机正对着待重建场景, 并围绕待重建对象移动一周拍摄得 到的视频。 移动速度视摄像机位置与待重建场景的距离而定, 总体而言, 距离越近要求移动 。
31、速度越小。适当的移动速度和平稳的拍摄过程能有效地降低深度重建的误差。 0065 1. 场景重建 0066 利用三维几何实现虚拟与真实空间交互技术, 其真实性和处理效率严重依赖于几 何及其相关信息 ( 纹理、 光照、 运动等 ) 的建模与绘制技术。针对这种局限性, 本发明采取 从真实拍摄的视频数据中恢复出三维几何和运动信息并进行重用, 包括摄像机移动参数、 场景深度信息和点云等信息的高精度恢复以及视频场景的层次结构估计等, 有效解决了人 工建模的误差问题。 同时, 利用全貌视频真实的恢复场景的纹理信息, 实现三维模型精度与 真实度的结合, 即利用增强现实技术将计算机产生的虚拟信息合成到真实世界场。
32、景中, 实 现与真实世界的结合, 以解决解决视频与模型的几何一致性、 光照一致性和遮挡一致性等 问题。 0067 因为实际拍摄的图像或视频数据不可避免地存在着图像噪声、 无特征区域以及遮 挡等情况, 导致自动地恢复出高质量的稠密深度非常困难。对于一个摄像机自由移动拍摄 的视频序列, 本发明提出了一个新颖的方法, 为每帧自动地恢复一幅深度图像, 并达到如下 两个目标 : 0068 1) 位于不同帧上的相同像素, 其深度具有高度一致性 0069 针对实时视频序列帧图像中相同像素点的深度信息, 视频序列的实时获取时间保 证图像中像素点在光照和纹理因素上具有一致性, 结合真实场景信息, 不同帧上目标像。
33、素 点所描述的场景信息相同, 深度信息相等 ; 0070 2) 不同深度的像素位于不同的深度层次上 0071 真实场景中目标在实时视频序列中所具有的深度信息决定三维场景重建与增强 处理的真实性和可靠性, 不同深度的像素在做投影映射获得图像坐标的具体过程中, 其深 度值影响像素在场景中的强弱变化及光照和纹理显示情况。 不同深度层次的目标需求排除 了摄像机覆盖区域显示计算中遮挡因素的干扰, 提高计算效率。 0072 为了完成这两个目标, 本发明提出了一个集束优化(Bundle Optimization)方法, 来解决上述的深度求解的各种问题。 0073 主要实现流程如下所述 : 0074 给定一个。
34、摄像机自由移动拍摄的n帧视频序列I,表示为IIt|t1,n, 其中 It表示第 t 帧视频图像, It(x) 表示第 t 帧视频图像上像素 x 的亮度。假设 It(x) 是 一个RGB颜色向量, 本发明的目标是恢复一个视差图像序列DDt|t1,n, 其中Dt 说 明 书 CN 103400409 A 8 6/10 页 9 表示恢复后第 t 帧视差图像, Dt(x) 表示恢复后第 t 帧视差图像上像素 x 的亮度。Dt(x)( 简 写成 dx) 定义为 dx 1/zx, 这里 zx表示恢复后第 t 帧视差图像上像素 x 的深度值。 0075 为了进行视频序列上的深度恢复, 本发明定义如下求解模型。
35、 : 0076 公式 1 0077 这里数据项 (data term)Ed(.) 衡量视差 D 对于给定的序列 I 的符合性, 而平滑 项 (smoothness term)Es(.) 则约束视差的平滑性。对于任意一帧上的某个像素, 根据多视 图几何关系, 在其它帧上会有相应的像素与之对应 ; 这些像素之间不仅满足颜色一致性约 束, 还应该满足几何一致性约束。为此, 本发明提出的集束优化框架, 显式地将序列各帧上 的像素之间的关联建立起来, 实现多帧上的同时优化。 0078 本领域技术人员可自行根据需要设计数据项和平滑项, 为便于实施参考起见, 提 供实施例的具体设计如下 : 0079 第 t。
36、 帧的数据项 Ed(.) 可以表示为公式 2 所示 : 0080 公式 2 0081 其中, (x) 是一个自适应的归一化因子, Linit(x,Dt(x) 为视差概率。 0082 第 t 帧的空域平滑项可以如下定义 : 0083 公式 3 0084 这里N(x)表示与像素x相邻的像素集合 ; (x,y)控制平滑项的权重, 根据像素x 与其相邻像素 y 的颜色或亮度的差异性, 决定该值的大小, 通常在平坦的区域加强平滑性, 在边界区域保持不连续性, 从而使得深度不连续性跟颜色或亮度的突变相吻合 ; () 是 一个截断函数, 定义如下 : 0085 (Dt(x),Dt(y) min|Dt(x)-。
37、Dt(y)|, 公式 4 0086 这里 决定函数的上界。 0087 所述的深度求解方法为集束优化算法, 如图 2 所示, 其具体实现方式如下 : 0088 首先进行摄像机运动参数恢复。对实时视频序列进行逐帧读取, 使用 sift 特征点 算法进行摄像机运动跟踪, 进行摄像机姿态估计, 包括摄像机内参数和摄像机旋转、 平移参 数。 0089 然后, 从视频序列 (即实时帧序列) 中第 1 帧处理到第 n 帧, 对于每一帧, 保持其它 帧的视差图像不变, 重复执行以下处理两次, 0090 (1) 深度初始化。对于实时帧序列的每一帧, 若是第一次执行, 则使用预设默认值 采用集束优化算法最小化函数。
38、 ( 公式 1) 恢复深度图像, 实现深度初始化, 若不是第一次执 行, 则在已有深度图像的基础上采用集束优化算法最小化函数 ( 公式 1) 优化深度信息。对 于图像上的每一点, 根据多视图几何关系, 在其它帧上会有相应的像素与之对应且像素之 间满足颜色一致性约束和几何一致性约束。 0091 (2) 深度分割优化。依据现有技术中的图像分割 (Graph Cut 算法) 原理, 对实时 视频序列中的目标物体和场景图像进行分割, 实现目标坐标的优化, 改进深度质量, 得到新 的深度图像。若是第一次执行, 则根据所得新的深度图像返回执行 (1) 进一步采用集束优 说 明 书 CN 103400409。
39、 A 9 7/10 页 10 化算法最小化函数 ( 公式 1) 优化, 若不是第一次执行, 则输出所得深度图像。 0092 2. 摄像头姿态估计 0093 摄像机姿态估计包括摄像头内外参数的估计及优化, 是指在完成场景重建后, 使 用固定在某一特定位置的摄像机再次拍摄场景图像, 通过该图像估算固定位置摄像机的拍 摄姿态。 0094 所述的摄像机外参数即摄像机平移参数和旋转参数, 获取摄像机实际安装位置及 旋转角度并向三维场景模型中注册, 实现摄像头场景注册。 0095 所述的摄像机内参数由焦距、 图像中心坐标及径向畸变参数确定, 通过建立 2D-3D 特征点对, 利用两步法标定该系列参数。 0。
40、096 所述的摄像机外参数优化, 包括摄像头 2D-3D 配准, 在假定内参数不变的情况下, 利用 LM 算法寻找映射误差最小值, 优化摄像机外参数, 实现基本映射关系的精确获取。 0097 详细实现说明如下 : 0098 (1) 基本映射关系计算 0099 摄像头基本映射关系由摄像头内参数、 平移参数和旋转参数共同确定。三维场景 模型是依据真实视频序列重建和增强制作而成, 具有很高的重建精度, 因此根据摄像头的 安装位置和角度, 可以初步确定摄像头平移参数和旋转参数, 实现摄像头注册。摄像头内 参数由焦距、 图像中心坐标及径向畸变确定, 在二维视频帧和相应的三维场景模型中, 选取 10-12。
41、组2D-3D点对 (可由本领域技术人员预先选取) , 建立2D-3D特征点对, 再利用Tsai的 两步法标定该系列参数。 0100 采用基于结构不变特征的场景配准方法, 在不对摄像头进行额外标定操作的情况 下, 提取摄像头内外参数和图像特征, 解决真实场景视频与三维模型的配准问题, 详细处理 流程如图 3 所示。 0101 摄像头 2D-3D 配准主要流程为 : 0102 第一, 根据视频的覆盖范围, 用结构不变特征算法 (即特征选择算法) 提取三维模 型纹理中具有明显结构不变特征的纹理子图, 提取纹理子图在模型中的映射关系 (具体实 施时可对提取结果进行优化) , 将纹理子图及映射信息写入数。
42、据库 (具体实施时可建立专用 的纹理子图映射信息库) , 作为视频精确配准的基准参考点, 提高融合过程的运算速度。 0103 所述结构不变特征, 为场景中建筑轮廓、 道路边界等直线结构信息。 本发明的结构 不变特征算法包括采用 LSD 直线检测算法提取场景中的直线结构, 然后结合图像的灰度区 域分块信息计算结构线段, 将所有结构线段和线段端点作为结构不变特征。 0104 所述纹理子图映射信息, 为纹理子图中的像素点图像坐标与该点在场景模型的空 间坐标的对应关系。 0105 第二, 对实时视频中的图像进行高斯滤波和亮度均衡预处理, 将处理后的实时图 像应用结构不变特征算法提取场景结构不变特征, 。
43、然后将实时图像的结构不变特征和第一 步中提取出的纹理子图的结构不变特征进行场景匹配, 建立实时图像与纹理子图的配准关 系 ; 0106 第三, 结合纹理子图映射信息库, 利用实时图像与纹理子图的配准关系, 计算实时 图像的映射信息, 获得基本的映射关系矩阵。 0107 (2) 基本映射关系优化 说 明 书 CN 103400409 A 10 8/10 页 11 0108 在基本映射关系计算过程中, 由于采用了一次纹理映射、 一次图像匹配, 会带来累 计误差, 需要对求得的摄像机外参数进行优化。 通常采用的方法是, 假设摄像机内参不变的 情况下, 选取 4-8 组新的 2D-3D 点对 (可由本。
44、领域技术人员预先选取) , 将上文获得的摄像机 内外参数作为初始值, 对每对特征匹配点进行 3D 映射, 获得映射误差 Pe。利用 LM 算法选取 Pe最小值的外参, 并与设定的阈值进行比较, 小于该阈值则将此平移和旋转参数作为摄像 机外参数值的最终优化结果, 否则将继续优化。若 Pe值始终大于等于设定阈值, 则视优化 前的外参数为最优值。如图 4 所示, 对 (1) 所得基本的映射关系矩阵进行分解, 得到内参数 和外参数, 根据 2D-3D 点对和安装位置信息进行外参数 LM 优化, 从而实现摄像机参数整体 优化。 0109 3. 摄像机视场 (FOV) 可视化及交互计算 0110 摄像机视。
45、场 (FOV) 可视化是指在实时视频与三维场景模型融合的基础上, 将摄像 头覆盖区域在三维场景中以可视化的方式呈现。 0111 成像大小交互式计算是指通过交互式拾取场景模型中的目标, 获得目标在空间坐 标系中的坐标序列, 计算该目标在当前摄像头参数模式下的图像坐标序列, 从而计算出目 标成像区域大小。 0112 详细实现说明如下 : 0113 (1) FOV 显示 0114 所述的指定视频的空间位置及其在模型中的显示方式与视频对应的摄像机内外 参数有关。通过视频投影映射基本计算公式, 获得真实场景中的点坐标在其对应的三维模 型中的坐标信息。其投影纹理坐标由摄像机平移向量和旋转向量的乘积矩阵、 。
46、视频在三维 场景中的透视变换矩阵以及纹理坐标的显示范围矩阵相乘获得。 0115 所述的阴影纹理原理, 包括视频做投影映射过程中对于遮挡问题的解决办法。遮 挡问题的处理与真实场景和三维模型场景中的深度值相联系。其中, 三维模型场景中的深 度值与摄像头的 Z 缓冲深度值有关, 摄像机视域中对应的场景点的深度值由对应视线的深 度 Z 缓冲值决定。比较虚拟视角下每一场景点对应的这两个深度值, 得出该点是否在摄像 头视域范围中。具有两个相同深度值的点可以被摄像机看见, 并利用该摄像机获得的视频 纹理图像进行渲染, 以多通道渲染算法实现遮挡处理。 0116 对于实时的视频融合显示, 需要考虑指定视频的空间。
47、位置及其在模型中的显示方 式。视频在模型中的空间位置与视频对应的摄像机外参数有关, 视频在模型中的显示方式 与视频对应的摄像机内参数有关。因此, 可以结合上述方法中求得的摄像机内外参数计算 实时视频的空间位置以及在模型中的显示方式。视频投影映射的基本计算公式如公式 2 所 示。 0117 x,y,1T FPMXw,Yw,Zw,1T 公式 2 0118 其中, 点 Xw,Yw,Zw,1 为模型中点的齐次坐标, 即点在世界坐标系中的位置, 点 x,y,1 为与点对应的投影纹理齐次坐标。矩阵 M 定义了摄像机在世界坐标系中的位置和 姿态, 为摄像机平移向量和旋转向量的乘积。矩阵 F 定义了视频在三维。
48、场景中的透视变换, 可以通过透视投影视景体来直观表示。 矩阵P用以限定纹理坐标的显示范围。 为简化计算, 通常可将 F 和 P 定义如下公式所示。 说 明 书 CN 103400409 A 11 9/10 页 12 0119 0120 lx为摄像机视口宽度, ly为视口高度, f 为摄像机焦距, Zfar、 Znear为视椎体远裁剪 面和近裁减面坐标,(px, py) 为摄像机坐标系下图像的中心点坐标, 且 px和 py满足 : 0121 0122 视频投影中遮挡处理所包含的核心思想与目标物分别在两个场景中的深度值关 联, 其中, 第一个深度值与摄像头的 Z 缓冲深度值对应。摄像头视域中对应的场景点的深度 值由对应视线的 Z 缓冲值。第二个深度值是摄像头中场景点的真实值。通过比较虚拟视角 下每一场景点对应的这两个深度值, 可以得出该点是否在摄像头视域范围中。具有两个相 同深度值的点可以被摄像头看见, 并应利用该摄像头获得的视频纹理图像进行渲染。遮挡 处理技术是利用多通道渲染算法实现的。 第一次在摄像头坐标系中渲染场景就可以得到其 Z 缓冲, Z 缓冲被存储在用于摄像头投影纹理的 alpha 通道。每个场景点的第一个 alpha 值 代表首次从摄像头中心视图射线到达该点的深度值。第二次渲染使用自动纹理坐标生成, 并将纹理坐标。