《一种基于纹理与几何属性联合模型的室内对象解析方法.pdf》由会员分享,可在线阅读,更多相关《一种基于纹理与几何属性联合模型的室内对象解析方法.pdf(15页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103337072 A (43)申请公布日 2013.10.02 CN 103337072 A *CN103337072A* (21)申请号 201310245393.8 (22)申请日 2013.06.19 G06T 7/00(2006.01) (71)申请人 北京航空航天大学 地址 100191 北京市海淀区学院路 37 号 (72)发明人 陈小武 刘怡 赵沁平 李青 (74)专利代理机构 北京科迪生专利代理有限责 任公司 11251 代理人 成金玉 (54) 发明名称 一种基于纹理与几何属性联合模型的室内对 象解析方法 (57) 摘要 本发明涉及一种基于纹理与几。
2、何属性联合模 型的室内对象解析方法, 首先估计图像中的静态 区域, 然后采用滑动窗口, 在静态区域, 计算联合 模型的纹理属性和滑动窗口内的图像纹理属性的 相似度, 从而得到测试图像中对象的概率图, 图像 每个像素的数值表示该点属于对象的概率 ; 利用 过分割算法得到图像的超像素集, 结合上一步得 到的概率图就能够提取图像中对象的语义分割 ; 最后, 方法结合联合模型的几何属性、 语义标记和 图像中的线分割, 利用能量最小化方式估计图像 中对象的有向包围面, 即对象的几何属性。 本发明 可以广泛应用于机器人、 监控等计算机视觉系统 的室内场景对象解析、 场景理解和三维重建。 (51)Int.C。
3、l. 权利要求书 2 页 说明书 7 页 附图 5 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书7页 附图5页 (10)申请公布号 CN 103337072 A CN 103337072 A *CN103337072A* 1/2 页 2 1. 一种基于纹理与几何属性联合模型的室内对象解析方法, 其特征在于该方法包括以 下步骤 : 步骤 (1) 构造联合模型, 所述联合模型由多个包含纹理和几何属性的模板组成 ; 步骤 (2) 对图像进行预处理, 得到图像的过分割结果、 图像的纹理地图、 场景空间布局 和场景中的线分割 ; 步骤 (3) 利用滑动窗口, 求。
4、解图像中对象的概率图, 概率图中每个像素点的值表示该像 素点属于对象的概率 ; 步骤 (4) 针对当前的联合模型, 选出图像中对象属于联合模型中哪一种模板中的对象, 结合图像预处理得到的过分割结果, 从概率图得到对象在图像中的语义分割结果, 语义分 割结果为一张二值图像, 像素点为 1 表示该点是对象, 否则为 0 表示背景区域 ; 步骤 (5) 图像中, 相邻接且具有相同斜率、 两侧纹理相似的两条线段首尾相连构成长线 段, 而同斜率且端点位置相近的两条线段能合并为一条线段, 根据以上规则, 定义一种线段 合并算法, 处理图像预处理得到的线分割, 并根据语义分割结果选出有效线分割集 ; 步骤 。
5、(6) 对象的几何属性由有向包围面的顶点表示, 因此每个有向包围面的属性可以 由构成该面的顶点坐标计算, 构成每个面的四条边的属性可以由该边的两个顶点表示 ; 这 样, 方法能够利用对象有向包围面的顶点坐标公式化对象的各种几何属性 ; 步骤 (7) 由于对象的几何属性都是由有向包围面的顶点表示, 因而, 能量最小化公式中 的变量都由这些顶点坐标表示, 则能量最小化公式中的未知量仅为对象有向包围面的顶点 坐标, 这样, 当得到解时, 解就是有向包围面顶点的坐标解, 即得到图像有向包围面估计。 2. 根据权利要求 1 所述的基于纹理与几何属性联合模型的室内对象解析方法, 其特征 在于 : 步骤 (。
6、1) 中所述的联合模型是由多个该对象的模板组成的整体模型, 每个模板分为 纹理和几何属性两部分 ; 对于一个对象, 首先将对象按照几何形态分类, 即分为多种模板 ; 每个模板又是由多张图像的纹理和几何属性构建而成, 纹理属性通过对图像边界地图进行 滤波器处理得到, 几何属性由对象的有向包围面表示。 3. 根据权利要求 1 所述的基于纹理与几何属性联合模型的室内对象解析方法, 其特征 在于 : 步骤 (2) 中的对图像进行过分割得到图像的超像素集, 每个超像素里所包含的像素 认为属于同一个语义 ; 纹理地图的得到要首先提取图像中的边界, 再用一定尺度的方格划 分边界图, 最后对边界图中每个方格进。
7、行滤波处理得到图像的纹理地图 ; 场景空间布局即 定义地面、 墙、 天花板、 对象几种空间类型, 利用分类器求解出图像每个像素属于那种空间 类型 ; 线分割即对图像求出存在的所有线段, 存储方式为线段的两个端点和线段所在的直 线方程。 4. 根据权利要求 1 所述的基于纹理与几何属性联合模型的室内对象解析方法, 其特征 在于 : 步骤 (3) 中如果滑动窗口区域的纹理属性与模板纹理属性相似则认为该窗口包含对 象的可能性就较大, 即概率值就较大, 将整个窗口比较得到的概率值叠加到窗口包含的所 有像素上, 当滑动窗口扫过整张图像后, 就得到在该模板下, 每个像素是该模板中的对象的 概率值。 5. 。
8、根据权利要求 3 所述的基于纹理与几何属性联合模型的室内对象解析方法, 其特征 在于 : 步骤 (4) 中首先利用一种投票策略选出图像中的对象最接近哪个模板中的对象 ; 由 于认为每个超像素集包含的像素点应该属于同种语义, 即要么整个超像素为对象, 要么为 权 利 要 求 书 CN 103337072 A 2 2/2 页 3 背景, 针对选出的模板下得到的概率图, 取平均概率大的超像素块为对象其余为背景就得 到整张图像的对象语义分割结果。 6. 根据权利要求 1 所述的基于纹理与几何属性联合模型的室内对象解析方法, 其特征 在于 : 步骤 (5) 中定义一种线段合并算法, 一方面, 针对首尾相。
9、连且具有相同斜率、 两侧图 像纹理相似的两条线段, 算法分别取两条线段距另一条线段最远的端点, 连接这两个端点 即合并两条线段为一条更长的线段 ; 另一方面, 对于两条不属于上一种情况, 但具有同斜率 且存在至少一个对端点位置相近时, 认为两条线段中较长的线段可以包含较短线段在图像 中所要表达的属性, 即较短的线段为无效线段, 因此去掉较短的线段 ; 这样就完成了图像中 线段的合并, 再选出语义分割区域中出现的线段, 这些线段是能够指导对象有向包围面估 计的有效线段集。 7. 根据权利要求 1 所述的基于纹理与几何属性联合模型的室内对象解析方法, 其特征 在于 : 步骤 (6) 中对象的几何属。
10、性由有向包围面的顶点表示, 一方面, 每个有向包围面的属 性包括位置和面积, 位置直接由该面的四个顶点表示, 面积通过四个顶点的坐标利用数学 公式求解 ; 另一方面, 有向包围面的每条边的属性为该边的斜率、 长度和端点位置, 同样通 过构成该边的两个顶点坐标求解。 8. 根据权利要求 1 所述的基于纹理与几何属性联合模型的室内对象解析方法, 其特 征在于 : 步骤 (7) 中的能量最小化求解, 一方面, 通过世界坐标和图像坐标间的转换关系得 到, 图像场景的对象上的点坐标等于联合模型中对象上的点坐标乘以一个变换矩阵, 另一 方面, 能量最小化的公式中所有的未知量都可以由对象有向包围面的顶点坐标。
11、表示, 则顶 点坐标就是能量最小化公式中唯一的变量 ; 因此使用联合模型中对象有向包围面的顶点坐 标作为能量最小化求解过程中的初始解, 就能够快速推导出测试图像中对象几何属性, 即 其有向包围面的顶点坐标。 权 利 要 求 书 CN 103337072 A 3 1/7 页 4 一种基于纹理与几何属性联合模型的室内对象解析方法 技术领域 0001 本发明涉及计算机视觉和图像场景理解领域, 具体地说是基于纹理与几何属性联 合模型的室内对象解析方法。 背景技术 0002 场景理解包含场景语义分割和几何属性估计, 该问题是计算机视觉领域中一个基 本且重要的研究问题。过去的科研成果多关注与室外场景的处理。
12、, 而室内场景由于其多变 性、 对象的杂乱性及对象间缺少能够互相区分的特征等原因, 使得室内场景理解得到较少 的关注。目前对于室内场景理解主要借助于 Kinect 捕获二维图像和场景深度图像。通过 深度信息使得问题变得更容易解决。此外, 还有利用模型或者数据驱动的方法对室内场景 进行场景语义分割和对象识别, 其中先验知识对结果求解起到了很重要的作用。 0003 目前, 有一些学者提出了利用语法解析和图形解析的方法进行图像场景理解, 他 们提出一些具有代表性的单元辅助研究, 如利用几何块、 平面或者线分割来推断形状和几 何属性。2010 年, Gupta 等人将场景解析为由语义分割、 深度顺序、。
13、 几何估计和支撑关系组 成三维图结构。但是该方法仍然关注室外场景而不是室内场景。2010 年 Hedau 等人提出一 种用三维的立方体表示室内场景中对象的方法。 他们假设包含对象的立方体应有一个方向 的面是平行于墙面的, 基于这种假设他们估计整个房间场景的朝向。2010 年 Lee 等人利用 具有体积的正方体生成整张图像的场景和对象的几何假设。 他们不识别对象的语义但是估 计出对象的空间布局并用正方体堆出大约的三维立方体。2012 年, Hedau 等人对沙发、 椅子 等对象的三维立方体结构扩展靠背这一几何面, 因此能够检测特定的对象, 并使用向量机 分类器思想从多个对象假设中提取正确结果。 。
14、0004 以上这些研究现状表明, 尽管该领域的学者关注室内场景的理解, 但只关注于场 景中几何属性的推导, 不能识别出对象的语义分割, 且仅能用几种普遍的单元表示对象, 限 制了方法在单元变化较大时的场景理解能力。从以上研究发展趋势可以看出, 利用场景中 的线分割信息能够有效的指导场景中对象的面估计, 且室内对象大都能转化为由面组成的 结构体。 因此, 本发明的工作是构造纹理和几何属性联合的联合模型, 再利用联合模型解析 室内场景对象的语义分割和有向包围面估计。 发明内容 0005 根据上述需求, 为了克服现有技术的不足, 本发明的目的在于 : 提供基于纹理与几 何属性联合模型的室内对象解析方。
15、法, 该方法能够得到室内图像场景中对象的语义分割结 果和有向包围面估计。 为完成发明目的, 本发明采用的技术方案是 : 基于纹理与几何属性联 合模型的室内对象解析方法, 该方法包含以下步骤 : 0006 步骤 (1) 构造联合模型, 所述联合模型由多个包含纹理和几何属性的模板组成 ; 0007 步骤 (2) 对图像进行预处理, 得到图像的过分割结果、 图像的纹理地图、 场景空间 布局和场景中的线分割 ; 说 明 书 CN 103337072 A 4 2/7 页 5 0008 步骤 (3) 利用滑动窗口, 求解图像中对象的概率图, 概率图中每个像素点的值表示 该像素点属于对象的概率 ; 0009。
16、 步骤 (4) 针对当前的联合模型, 选出图像中对象属于联合模型中哪一种模板中的 对象, 结合图像预处理得到的过分割结果, 从概率图得到对象在图像中的语义分割结果, 语 义分割结果为一张二值图像, 像素点为 1 表示该点是对象, 否则为 0 表示背景区域 ; 0010 步骤 (5) 图像中, 相邻接且具有相同斜率、 两侧纹理相似的两条线段首尾相连构成 长线段, 而同斜率且端点位置相近的两条线段能合并为一条线段, 根据以上规则, 定义一种 线段合并算法, 处理图像预处理得到的线分割, 并根据语义分割结果选出有效线分割集 ; 0011 步骤 (6) 对象的几何属性由有向包围面的顶点表示, 因此每个。
17、有向包围面的属性 可以由构成该面的顶点坐标计算, 构成每个面的四条边的属性可以由该边的两个顶点表 示 ; 这样, 方法能够利用对象有向包围面的顶点坐标公式化对象的各种几何属性 ; 0012 步骤 (7) 由于对象的几何属性都是由有向包围面的顶点表示, 因而, 能量最小化公 式中的变量都由这些顶点坐标表示, 则能量最小化公式中的未知量仅为对象有向包围面的 顶点坐标, 这样, 当得到解时, 解就是有向包围面顶点的坐标解, 即得到图像有向包围面估 计。 0013 进一步的, 本发明首先构造由多个模板组成的联合模型, 每个模板分为纹理和几 何属性两部分, 每个模板由多张训练图像构成。对于一张用于构建模。
18、板的图像, 提取图像 的边界图, 并将该图分为由多个尺度的格子构成的块结构, 对每个格子内的边界信息进行 Gabor 滤波, 将滤波结果作为每个格子的纹理特征, 对一种尺度, 有序排列该尺度下的所有 格子的纹理特征作为该尺度下的纹理地图, 存储所有尺度下的纹理地图即为该图像的纹理 属性 ; 再对测试图像中对象标记各个有向包围面的顶点, 并记录每个有向包围面的四个顶 点顺序, 以此作为图像中对象的几何属性 ; 模板的纹理和几何属性包括属于该模板的所有 图像的纹理与几何属性, 联合模型即所有模板的并集。 0014 本发明对需要检测的测试图像进行过预处理, 利用现在已成熟的过分割算法得到 测试图 像。
19、的超像素集, 超像素数量级在 500 个左右 ; 利用 Canny 边缘检测算法提取测试图 像中所有可能的边界, 然后将测试图像切分为由固定边长的格子组成的块结构, 对每个格 子内的边界信息进行 Gabor 滤波, 滤波结果作为该格子的纹理特征, 所有格子纹理特征依 次排列存储作为本发明中测试图像的纹理地图 ; 利用一种已有的室内场景空间布局方法对 测试图像每个像素点分类求出该像素属于天花板、 地面、 墙和对象四种布局中的哪种布局 ; 用 Canny 方法检测测试图像中存在的所有线分割并记录下每条线分割的端点及其所在直 线的方程作为方法预处理得到的线分割集。在方法后面的求解过程中, 过分割得到。
20、的超像 素集限制同一个超像素中所有的像素点应该有一样的语义分割结果, 和纹理地图、 空间布 局同时应用于语义分割求解过程中, 而线分割集用于对象有向包围面的估计。 0015 本发明采用滑动窗口思想, 根据当前模板的纹理地图的长宽比设置当前窗口的大 小, 既保证当前窗口和模板的纹理地图包含相同尺寸的纹理属性块结构, 这样比较时只需 要计算对应块之间的纹理特征相似度, 由于纹理特征相似度此时为一个向量, 因此用向量 的平方和作为该窗口的纹理地图和模板的纹理地图的相似度, 当相似度高时说明该窗口出 现对象的概率高, 相反则概率较低, 因此方法用归一化的纹理相似度作为窗口中包含对象 的概率大小, 每次。
21、比较后将当前窗口的平均概率叠加到窗口内的每个像素点上。当窗口从 说 明 书 CN 103337072 A 5 3/7 页 6 图像由左到右则上而下扫过后, 每个像素点的值就是该点是否为对象的概率值。叠加测试 图像跟模板下所有纹理地图的比较结果再归一化, 就得到图像为该模板中对象的概率图。 0016 投票策略首先求解图像在所有模板下的概率图的平均概率图, 然后计算每张模板 概率图与平均概率图的差异, 取差异最小的模板为目标模板, 即认为对象呈现的几何属性 与该目标模板中对象的几何属性最为相似, 如针对床来说, 当选出的模板为左朝向时, 认为 测试图像中的床也是左朝向的。然后结合预处理已经得到的超。
22、像素集, 对整张图计算每个 超像素集内的平均概率, 设定一个阈值, 一个超像素的平均概率值大于这个阈值时则该超 像素认为属于对象, 否则为背景区域, 将该超像素的属性赋给其内的每个像素点, 如此得到 图像的语义分割结果, 结果为一张二值图像, 像素点为 1 表示该点为对象, 否则为 0 表示背 景。 0017 一方面由于图像纹理过于复杂导致的将长直线段拆散为短线段的情况, 即当两条 线段首尾相邻且同斜率时, 认为两条线段应该将其首尾连接起来合并成更长的直线段。另 一方面, 由于室内场景纹理过于杂乱, 因此图像进行边缘检测时, 对象内部纹理常常会检测 成直线线段, 因此合并算法对每条线段求解其线。
23、段两侧小块区域的颜色差异, 当差异较小 时认为直线线段是同一对象内部的纹理线, 则舍去这条线段。 经过以上筛选, 能够得到比较 可靠的直线线段结果, 再利用已经求得的语义分割, 提取至少有一个端点出现在语义分割 中对象区域的线段, 因为只有这些线段才有可能是对象有向包围面的线段, 这样就得到了 方法认为的有效 线段集。 0018 图像对象坐标等于真实坐标系下对象坐标乘以变换矩阵, 则图像间对象坐标关系 为 : 对象 B 的坐标等于对象 A 的坐标乘以其变换矩阵的逆再乘上对象 B 的变换矩阵。这样 我们认为图像间对象坐标可以通过一个新的变换矩阵乘以模板中对象的坐标表示。 能量定 义为面积属性能量。
24、项和直线属性能量项, 面积属性能量项驱动有向包围面包含的像素点尽 可能匹配语义分割包含的像素点, 直线属性能量项使得有向包围面的边尽可能符合图像中 相应位置的有效线段, 由于已经有了对象有向包围面的每个顶点坐标, 所以能够公式化有 向包围面包含的区域和各边所在的直线表达式, 因此能量计算可以通过有向包围面的顶点 得到, 这样, 以有向包围面的顶点为未知变量, 能量最小化问题的解就是对象有向包围面的 顶点坐标, 也就能够估计出对象有向包围面, 得到其几何属性。 0019 与现有的技术相比, 本发明有益的特点是 : 0020 1、 本发明首次提出纹理与几何属性结合的联合模型。 0021 2、 本发。
25、明首次利用模板对象的坐标乘以变化矩阵的方式求解图像场景中对象的 坐标。 0022 3、 本发明不需要对图像估计其照相机参数不需要进行世界坐标系到图像坐标系 的转换。 0023 4、 本发明不需要消耗长时间来做分类器的训练, 每个模板中一个对象的构建只是 对单张图像处理。 附图说明 0024 图 1 是算法流程示意图 ; 0025 图 2 是纹理属性示意图 ; 说 明 书 CN 103337072 A 6 4/7 页 7 0026 图 3 是联合模型示意图 ; 0027 图 4 是预处理结果示意图 ; 0028 图 5 是语义分割流程图 ; 0029 图 6 静态区域计算示意图 ; 0030 图。
26、 7 是有向包围面估计流程示意图。 0031 图 8 是有线分割合并算法流程示意图。 具体实施方式 0032 下面结合附图对本发明作详细说明。 0033 本发明提供基于纹理与几何属性联合模型的室内对象解析方法, 方法最终求解出 对象的语义分割和对象的有向包围面估计, 有向包围面即构成对象的具有方向的面。联合 模型是通过已有的数据集构造的纹理和几何属性结合的联合模型。方法的总体流程如下 : 对一张测试图像, 方法首先估计图像中的静态区域, 然后采用滑动窗口的思想, 在静态区 域, 方法计算 联合模型的纹理属性和滑动窗口内图像纹理属性的相似度, 从而得到测试图 像中对象的概率图, 每个像素的数值表。
27、示该点属于对象的概率 ; 利用过分割得到图像的超 像素集, 结合上一步得到的概率图就能够提取图像中对象的语义分割 ; 最后, 方法结合联合 模型的几何属性、 语义标记和图像中的线分割, 利用能量最小化方式估计图像中对象的有 向包围面, 即对象的几何属性。 0034 根据上述总体流程, 本发明需要建立纹理和几何属性结合的联合模型。其中本发 明中用纹理地图表示纹理属性, 纹理地图求解如图2所示, 先对图像应用Canny边缘检测方 法提取图像边缘, 参考特征包裹思想, 方法用尺度为s的块将图像划分为H*W*s大小的块结 构, 然后方法对每个块用 Gabor 滤波器滤波, 这样每个块的纹理特征就用滤波。
28、结果表示, 一 张块结构的滤波结果图就为一个纹理地图。 由于对象的轮廓信息随着对象的朝向变化而变 化, 因此本发明中将每个联合模型分成多种不同方向对象构成的模板。 例如, 床的模型有三 个模板, 即左朝向、 正向、 右朝向, 本发明中对训练集中的图像以这三种类别进行聚类, 然后 对每张图像 , 方法取五种尺度的块, 分别为 s=5*5|7*7|9*9|11*11|13*13, 用这五种尺度 的块分别划分边缘图像得到五种块结构, 再分别提取其纹理地图, 这样, 对每个模板而言, 其纹理属性就由多个纹理地图组成。再说联合模型的几何属性, 本发明假设对象是由不同 朝向的面组成的。 在训练集中, 本发。
29、明用多个四边形表示对象的几何信息, 每个四边形代表 了一个面, 并且方法中记录四边形的每个点并依次编号。这样对象的几何属性描述符就由 这些编号的顶点表示。 每个对象的每个模板包的几何属性就被聚类到该种模板下的所有图 像中对象的几何属性描述符, 联合模型如图 3 所示。 0035 本发明首先对测试图像进行预处理, 结果如图 4 所示, 其中包括纹理地图、 过分 割、 空间布局和线分割, 本发明中划分每张测试图像的块的尺度为 9*9, 不同于训练图像, 这 里只用一种尺度划分测试图像 ; 测试图像过分割得到的超像素数目大约在 500 个左右 ; 空 间布局是通过已有的研究对图像每个像素点分类, 类。
30、别包括墙、 天花板、 地面和室内对象 ; 线分割是用 Canny 进行图像中直线线段提取, 提取结果表示为线段端点和所在直线方程 , , |ax+by+c 0。 0036 之后本发明对图像先求解其语义分割结果, 流程如图 5, 语义分割主要采用了滑动 说 明 书 CN 103337072 A 7 5/7 页 8 窗口的思想, 即检测时仅比较当前窗口内的图像纹理地图和当前使用的模板的纹理地图。 针对当前模板中的对象, 当前使用的纹理地图大小为 H*W, 则在测试图像的块结构上也同样 选取 H*W 大小的滑动窗口, 此时滑动窗口位置定义为其中心块的位置 (h, w)。 0037 语义分割中对象的比。
31、较只在静态区域进行处理, 静态区域的求解如图 6 所示。为 了求解测试图像的静态区域, 首先定义两个基本的概念分别为有效位置和有效区域 : 0038 基于已经得到的图像空间布局结果, 本方法首先在训练集上统计每种对象在不同 空间布局出现的概率, 得到的统计数据显示对象床经常出现在对象区域, 而柜子往往出现 在对象或者墙的区域等等。 此外, 本方法不考虑对象跨越图像边界的情况, 即当对象仅有一 部分在图像内部时本发明中的方法认为这样会致使对象的特征不足以描述对象, 因此认为 此时滑动窗口所在位置不为有效位置, 由以上, 本方法定义 area_spt表示滑动窗口内空间 布局 i 所占滑动窗口总面积。
32、的百分比 ,i表示在训练集上统计对象内部空间布局 i 所占 的百分比, 即先验知识, area 表示窗口在图像内部的面积占总窗口面积的百分比, 则有效位 置为 : 0039 0040 如图 6 中计算有效位置后图像上黑色点阵表示所有有效的位置, 半透明的白色区 域表示所有有效位置的窗口覆盖的区域。之后方法需要求解在每个有效位置的有效区域, 如图 6 所示, 一个在有效位置的滑动窗口内, 并不是每个块都能只属于对象或者只属于背 景区域, 好比床和床头柜由于相邻而出现在同一个块中, 这种块我们认为掺杂了噪声, 这种 会干扰对象检测的块需要剔除。由于方法对测试图像进行了过分割, 而普遍认为过分割得 。
33、到的每个超像素内的像素应该属于同种语义, 因此当超像素大部分区域并不包含在滑动窗 口内时方法认为该超像素并不属于当前窗口内的对象, 因此方法在这里剔除以上情况的超 像素。之后, 对于滑动窗口内的每个块, 当块内的像素点非常少时, 方法认为这些块不再具 备纹理属性, 因而需要去除这些块。 这样, 最后滑动窗口内剩余的块就是当前滑动窗口的有 效区域。 到此为止, 所有有效位置上的有效区域就是本发明中使用的静态区域, 方法只在静 态区域进行对象的检测。 0041 本发明利用当前滑动窗口内有效区域的纹理地图和模板的纹理地图之间的相似 度表示对象在该滑动窗口出现的概率。 假设当前的模板的纹理地图尺寸是H。
34、*W, 那么当前滑 动窗也取尺寸为 H*W。之后计算对象在当前滑动窗口内的概率 : 0042 0043 其中 : 0044 0045 说 明 书 CN 103337072 A 8 6/7 页 9 0046 上式Scorehw表示当前窗口在有效位置(h, w)计算的对象纹理特征相似度, 即对象 在当前窗口的概率, I 表示测试图像, T 表示当前所使用的模板。RW表示当前滑动窗口内的 纹理地图, RT表示模板的纹理地图。 方法认为当滑动窗口内包含对象时, 其有效的区域相应 的也会比较大, 因而定义 Z 能量项, 其中 z 表示当前滑动窗口内有效块的数量, 整个滑动窗 口的块数为 H*W。 004。
35、7 在滑动窗口与模板进行纹理地图间比较时定义匹配能量项 F(RW, RT) 和差异能量 项 G(RW, RT)。其中 是方法定义的一个常数阈值, 1( ) 是指示器函数, 即其括号中条件成 立时函数值为 1, 否则为 0。Dts(RW(t), RT(t) 是当前窗口和模板的纹理地图在有效区域中 块 i 上纹理特征向量的欧式距离。 0048 将当前窗口得到的概率 Scorehw赋给窗口内的每个像素点, 当滑动窗口滑过整张 测试图像中所有有效位置时, 归一化每个点的概率值就得到了在当前模板纹理地图下的对 象概率图。每个像素点的值表示该点为对象的概率值。由于测试图像中对象的尺寸和朝向 都是未知的, 。
36、因此算法需要将测试图像和每个模板中每个纹理地图进行比较, 对于每种模 板, 方法计算在其所有纹理地图下得到的概率图并归一化就得到了当前模板下测试图像中 的对象概率图。 0049 叠加所有模板的概率图之后做平均, 得到全局对象概率图, 之后取全局对象概率 图和每个模板的对象概率图间的差, 取差值最小的模板作为测试图像中对象最匹配的模 板。此时类似之前使用超像素计算有效区域的思想, 选取超像素集 spt|pt , pi为超 像素spt上的平均概率, 为方法设定的一个阈值常数, 即选取平均概率大于一个阈值的超 像素集, 方法认为这些超像素属于输入对象, 其他属于背景。 将超像素的语义属性赋给超像 素。
37、内的每个像素就得到测试图像的语义分割。 0050 对于针孔摄像机, 从世界坐标到图像坐标转换公式为 x, y, 1T PX, Y, Z, 1T, 其 中 X, Y, Z, 为世界坐标系下点坐标, P 为变换矩阵, x, y, 1 为图像坐标系下点坐标, 则 有 : 0051 Vtmg P1Vbase, Vt P2Vbase则 Vtmg PVt, P P1P2-1 0052 其中 Vbase为世界坐标系下该语义对象的基本模型上对象有向包围面的顶点坐标, Vtmg为测试图像中的对象有向包围面的顶点坐标 ,P1为 Vbase到 Vtmg的变换矩阵, Vt为该模板 中对象有向包围面的顶点坐标, P2为。
38、 Vbase到 Vt的变换矩阵。由以上公式可以得到测试图像 中对象的有向包围面的顶点坐标等于模板对象有向包围面的顶点坐标乘以变换矩阵, 而有 向包围面的顶点坐标就代表了对象的几何属性, 因此本发明中利用模板中对象几何属性估 计测试图像的几何信息, 算法流程图如图 7 所示。算法包括提取测试图像对象的有效线分 割集和利用能量最小化求解对象有向包围面两步。 0053 针对预处理得到的图像线分割结果, 本发明定义如下概念辅助图像中对象的有效 线分割集的提取 : 0054 1.DStf是线分割 li和 lj之间的斜率差 : 0055 DStf |slope(lt)-slope(lf)| 0056 2.。
39、ep(lt) 和 ep(lf) 分别为线分割 li和 lj的端点。DEPtf表示 ep(lt) 的 ep(lf) 之 间的任意两个端点间的距离的最小值 : 说 明 书 CN 103337072 A 9 7/7 页 10 0057 0058 3.Dij表示线分割 li和 lj之间的差异, 1和 2为常数权重 : 0059 Dij 1DSij+2DEPij 0060 合并算法流程如图 8 所示, 对于预处理得到的线分割集 L=l1, ., ln, 算法设定 两个常数阈值分别表示为和, 图8中步骤2是合并线的过程, 即每次求出线集Lmerge |DStf DEPtf 作为可以合并的线分割候选集, ,。
40、 每一对 表示线 分割 li和 lj可以合并为新的线分割。当 Lmerge非空的时候即存在可以合并的线分割对时, 选取 Lmearge中差异 DEPtf最小的线分割对 作为当前循环要合并的两条线分割, 合并 li和 lj并更新线分割集 L 进行下一次循环, 直到没有可以合并的线分割对即得到合并后的 线分割 M m1.mk。之后由于方法已经得到了图像的语义分割结果, 因此再筛选出至少 存在一个端点在语义分割中对象区域的线分割作为有效线分割集。 0061 之后, 由于方法能够通过模板中对象的已经标记顺序的顶点表示对象的几何属 性, 因此定义能量公式 : 0062 0063 上式中, Vtmg PV。
41、t, S 代表已经得到的语义分割结果, M 代表已经提取的有效线分 割, 迭代求解过程中, 用语义分割最终选举出的模板对象的有向包围面的顶点坐标 Vt初始 化 Vtmg, P 初始化为单位矩阵。其中能量项 Earea促使测试图像的有向包围面覆盖的像素点尽 可能趋近于语义分割覆盖的像素点, 每次迭代过程中, 有向包围面所包围的像素点通过每 个面的顶点坐标确定, 这里用 表示有向包围面所包含的像素点集, AREAS表示 语义所包含的像素点集, 能量项表达为 : 0064 0065 通过标记好的顶点坐标, 方法就能够确定有向包围面的每条边由于在得到 语义分割后, 方法确定了图像中对象最符合的模板, 。
42、且用该对象的有向包围面的顶点坐标 初始化Vtmg, 则认为当前有向包围面即近似最终有向包围面的解。 那么对于每条有向包围面 的边, 图像中实际位置应与初始位置相近。由于方法之前已经得到了图像中对象的有效线 分割集 M, 这里计算每条有向包围面的边和这些有效线分割之间的差异, 并为每条边提取差 异最小的三条有效线分割, 方法认为这三条应该属于或者近似图像中对象的有向包围面的 边。因此定义能量项驱动有向包围面的边近似图像中为每条边提取出的线分割 : 0066 0067 最终, 能量最小化时的解即为测试图像的对象有向包围面的顶点坐标, 即得到对 象的有向包围面估计。 0068 以上所述仅为本发明的一些基本说明, 依据本发明的技术方案所做的任何等效变 换, 均应属于本发明的保护范围。 说 明 书 CN 103337072 A 10 1/5 页 11 图 1 图 2 说 明 书 附 图 CN 103337072 A 11 2/5 页 12 图 3 图 4 说 明 书 附 图 CN 103337072 A 12 3/5 页 13 图 5 图 6 说 明 书 附 图 CN 103337072 A 13 4/5 页 14 图 7 说 明 书 附 图 CN 103337072 A 14 5/5 页 15 图 8 说 明 书 附 图 CN 103337072 A 15 。