说明书一种基于互联网图片的同时目标搜索与分割方法
技术领域
本发明涉及一种基于互联网图片的同时目标搜索与分割方法,适用于视觉目标的搜索与分割、用户照片的感兴趣目标提取以及图片分类识别等领域。
背景技术
在计算机视觉领域,对感兴趣目标的同时搜索与分割是一个新且实用的问题,它的解决能够对互联网图像的处理,诸如感兴趣目标的提取、目标识别、物体分类等众多图像处理问题起到很好的辅助作用。随着互联网浪潮的兴起,处理大批量的多媒体数据(例如图像、视频等)已成为人们迫切的需求。如何能够从大量的图像信息中提取出人们感兴趣的目标物体已经成为人们非常关心的问题。借助于互联网,人们可以非常容易获取包含有相同物体或者同一类别物体的大量图片,而如何借助于这一信息来辅助评价感兴趣目标中具有独特性的超像素,以此在新的图像数据集中定位感兴趣目标,是本发明的出发点。通过将独立的目标搜索与目标分割这两项图像处理的基本问题结合起来,在目标分割的基础上引入目标搜索的思想,以种子超像素作为联系搜索与分割的纽带,形成“搜索约束分割,分割验证搜索”的全新思想来完成目标的同时搜索与分割是本研究的主要内容。然而,纵观有关目标搜索与分割领域的研究和应用可知,目前的同时目标搜索与分割领域工作较少,且存在以下问题:
1)目前的搜索技术主要以矩形框的形式给出结果,基于矩形框进行分割则存在诸多问题:若矩形框错误,则必然得到错误的分割结果;若矩形框过大或过小,同样给分割结果带来较大误差。
2)目前的搜索技术普遍采取遍历式滑动窗匹配,其计算量过大,且需要实现进行训练,应用的局限性较大。
3)目前的工作中将目标搜索与目标分割整合到统一框架进行解决的工作稀少,如何将这两者有机结合并且实现新的同时搜索与分割的问题依然是一个难题,有待进一步研究。
以上的技术难题为目标同时搜索与分割技术在互联网领域的广泛应用带来了诸多困扰,开发出一套基于互联网图片的同时目标搜索与分割方法具有较高的应用价值。
发明内容
为了解决现有技术中存在的难题,本发明公开了一种基于互联网图片的同时目标搜索与分割方法,该方法适用于具有复杂精细结构的感兴趣目标的同时搜索与分割。根据用户输入,最具有代表性超像素评价机制评估出感兴趣目标中的最具有代表性超像素;基于最具有代表性超像素,分层式搜索机制得到在图像集中的种子超像素集合。最后,将树图约束与种子超像素约束引入组合优化问题,并通过反馈验证过程来完成最终的目标同时搜索与分割。
本发明采用以下技术方案:一种基于互联网图片的同时目标搜索与分割方法,包含以下步骤:
(1)对于带有用户标记的感兴趣目标图像IL,通过过分割方法得到感兴趣目标所包含的超像素集合PL。基于最具有代表性超像素评价机制,得到超像素集合PL中最具有代表性超像素;
(2)对待处理图像集进行分层式过分割,得到过分割超像素;基于感兴趣目标图像IL及其最具有代表性超像素,实现对所有待处理图像集的过分割超像素与感兴趣目标最具有代表性超像素的分层式匹配,得到种子超像素集合
(3)对感兴趣目标以及背景利用目标模型fL和背景模型fb分别建模,其中, 上述模型均由现有的混合高斯模型(GMM)与空间金字塔匹配模型(SPM)共同得到。然后,采用组合优化的算法对过分割超像素进行目标与背景的再次分类,同时引入种子超像素与树图的约束,并以分割结果反馈验证种子超像素,得到最终同时目标搜索与分割结果。假设每个超像素对应于一个顶点,最后的分割结果由包含种子超像素的多个超像素构成,且能够表示为邻接图的子树。通过建立邻接图来推断子树的方法确定最后的分割结果;具体实现过程如下:
(3.1)构建邻接图:假设图像中的每个超像素对应于图中的一个顶点,两个相邻的超像素之间由一条边连接,由此构成邻接图对于最终的目标同时搜索与分割的结果,假设结果由邻接图所包含的一个子树构成,且包含对应的种子超像素;
(3.2)建立数值模型求解:建立数值模型,将目标同时搜索与分割的问题转换为组合优化问题的求解,如下:
max[ΣR⊆RifL(R)·vL(R)+ΣR′⊆Rifb(R′)·vb(R′)]]]>
s.t.Rs∈R
vL(R),vb(R′)∈{0,1}.
当R为目标的超像素或超像素组合时,vL(R)=1;当R′为背景中的超像素或超像素组合时,vb(R′)=1;约束条件表示种子超像素Rs只能属于目标类。通过推导可得,若要求解分割结果,实际上可转换为求解包含种子超像素的最优子树的方法,而要求该最优子树,需要先估计最大生成树;
(3.3)推导最大生成树:通过基于种子超像素的beamsearch的定向搜索方法来得到所有可能的候选子树集合基于候选子树集合通过最大似然估计的方法得到最大生成树推导如下:
表示所有潜在的生成树集合,表示数据似然概率,最终可导出,
为候选子树集合,为某一子树,表示对的最大似然估计,δ(·)为指示函数,δ((x,y)∈Dq)指示边(x,y)是否属于某一子树Dq;wq=fL(Dq),fL(Dq)为子树Dq与目标模型的相似程度,P(x,y)表示边(x,y)的概率,为对P(x,y)的最大似然估计。通过上式可得最大生成树的最大似然估计。
(3.4)搜索分割子树:基于最大生成树的最大似然估计求得然后通过动态规划技术在中搜索得到最优子树,即为所求分割结果。
(4)迭代分割:根据步骤3得到的分割结果更新目标模型,按照步骤3所述的方法,进行再分割;
(5)重复步骤4,直至最终分割结果不再变化,即得到最终的分割结果。
(6)反馈验证过程:将5得到的最终分割结果与目标模型进行相似度匹配。若相似度高于阈值,则认为种子超像素有效,分割结果为目标同时搜索与分割的最终结果;若相似度低于阈值,则认为种子超像素无效,该图像不存在感兴趣目标。
进一步地,所述步骤1中,最具有代表性超像素评价机制具体为:
对于图像集I=<I1,I2,...,IN>,假设用户在图像IL∈I中通过边界框的形式标记了感兴趣目标,且感兴趣目标包含基于过分割得到的超像素集合PL。最具有代表性超像素评价机制在超像素集合PL中评估最具有代表性超像素步骤如下:
(1.1)采用图像搜索引擎(如谷歌)搜索得到5张与图像IL的内容最具有相关性的图像集J=<J1,J2,...,J5>,并使用过分割算法预分割;对于在PL中的第m个超像素计算其与图像Jk(1≤k≤5)中最相似的超像素的距离:
d(PmL,Jk)=minm′(λ||cmL-cm′k||+(1-λ)||smL-sm′k||)]]>
其中和分别代表标记图像IL中第m个超像素的RGB颜色特征矢量和SIFT词袋模型特征矢量,和分别代表第k幅图像Jk中第m′个超像素的HSV颜色 特征矢量和SIFT词袋模型特征矢量,λ=0.5为权重值,χ2距离被用来计算距离d;
(1.2)每一个感兴趣目标包含的超像素可得到对应的5个距离k=1,2,...,5。对这5个距离值求平均值得到其值越小表示相似程度越高。
(1.3)过滤掉面积较小(小于50×50像素)的超像素后,选取具有最大的超像素作为图像的种子超像素用于匹配搜索。
进一步地,步骤2具体为:
根据分层式过分割算法,对图像集中的图像进行分层式过分割。由于感兴趣目标可能存在于图像的任何尺度,因此有必要对其进行逐层搜索匹配。具体匹配的方法如下:
D(i,dr)=α||Dc(i)-Dc(dr)||+β||Ds(i)-Ds(dr)||+γ||Db(i)-Db(dr)||.
其中D(dr)表示最具有代表性超像素的特征矢量,D(i)代表其余第i个超像素的特征矢量。Dc表示颜色特征矢量,Ds表示SIFT词袋模型特征矢量,Db代表边界特征矢量。α,β,γ表示各个特征矢量的权重值,分别为0.4,0.4,0.2。
进一步地,步骤5具体为:
(5.1)根据最新的分割结果,更新之前的前景目标模型,使之更加接近待分割目标;
(5.2)根据更新后的目标模型,重新产生所有可能的候选子树集合并且估计最大生成树;
(5.3)根据更新后的目标模型和最大生成树,重新采用动态规划技术搜索分割子树,得到分割结果;
(5.4)判断是否满足截止条件,即最后分割结果是否不再变化。若满足,则迭代结束;若不满足,则重复(5.1)‐(5.3)。
本发明与现有技术相比,具有以下技术效果:
(1)基于用户输入的感兴趣目标,能够在图像集中对感兴趣目标实现同时搜索与分割。
(2)引入了结构化的树图约束条件,大幅提高了分割准确度,尤其针对具有复杂的精细结构的物体分割效果较好,并且为组合优化的方程求最优解提供了新的优化求解算法。
(3)在分割的过程中引入了种子超像素约束,使得搜索结果能够指导后续的分割过程,提高了分割的准确度。
(4)反馈验证过程能够通过分割的结果反馈回种子超像素,排除错误的种子超像素,从而得到更加准确的搜索结果。
附图说明
图1是本发明的整体流程图;
图2是内容相关图像搜索结果;
图3是基于种子超像素分割的示意图;
图4是目标同时搜索与分割结果示意图;
图5是具有复杂精细结构目标物体的分割结果。
具体实施方式
下面结合附图通过具体实施例,对本发明的技术方案做进一步的详细说明。
以下实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
本实施例对公开的FlickrMFC和iCoseg数据集中的多类图像进行处理。这些类别的图像为真实场景中的用户照片集与协同分割图像集,包含多个不同的前景,且存在光照、尺度、姿态等各种变化。图1是本发明的整体流程图,本实施例包含以下步骤:
(1)最具有代表性超像素评价机制:对于用户标记的感兴趣目标图像IL, 通过过分割方法可得感兴趣目标所包含的超像素集合PL。基于最具有代表性超像素评价机制,得到超像素集合PL中最具有代表性超像素;
(2)分层式超像素搜索机制:在对待处理图像集进行分层式过分割的基础上,基于感兴趣目标图像IL及其最具有代表性超像素,实现对所有待处理图像集的过分割超像素与感兴趣目标最具有代表性超像素的分层式匹配,得到种子超像素集合
(3)基于种子超像素的同时搜索与分割:首先,对感兴趣目标以及背景利用目标模型fL和背景模型fb分别建模,其中模型由现有的混合高斯模型(GMM)与空间金字塔匹配模型(SPM)共同得到。然后,采用组合优化的算法对超像素进行目标与背景的再次分类,同时引入种子超像素与树图的约束,并以分割结果反馈验证种子超像素,以得到最终同时目标搜索与分割结果。假设每个超像素对应于一个顶点,最后的分割结果由包含种子超像素的多个超像素构成,且能够表示为邻接图的子树。通过建立邻接图来推断子树的方法确定最后的分割结果;具体实现过程如下:
(3.1)构建邻接图:假设图像中的每个超像素对应于图中的一个顶点,两个相邻的超像素之间由一条边连接,由此构成邻接图对于最终的目标同时搜索与分割结果,假设其由邻接图所包含的一个子树构成,且包含对应的种子超像素;
(3.2)建立数值模型求解:建立数值模型,将目标同时搜索与分割的问题转换为组合优化问题的求解,如下:
max[ΣR⊆RifL(R)·vL(R)+ΣR′⊆Rifb(R′)·vb(R′)]]]>
s.t.Rs∈R
vL(R),vb(R′)∈{0,1}.
当R为目标的超像素或超像素组合时,vL(R)=1;当R′为背景中的超像素或超像素组合时,vb(R′)=1;约束条件表示种子超像素Rs只能属于目标类。通过推导可得,若要求解分割结果,实际上可转换为求解包含种子超像素的最优子树的方法,而要求该最优子树,需要先估计最大生成树;
(3.3)推导最大生成树:通过基于种子超像素的beamsearch的定向搜索方法来得到所有可能的候选子树集合基于候选子树集合通过最大似然估计的方法得到最大生成树推导如下:
表示所有潜在的生成树集合,表示数据似然概率,最终可导出,
候选子树集合,为某一子树,表示对的最大似然估计,δ(·)为指示函数,δ((x,y)∈Dq)指示边(x,y)是否属于某一子树Dq;wq=fL(Dq),fL(Dq)为子树Dq与目标模型的相似程度,P(x,y)表示边(x,y)的概率,为对P(x,y)的最大似然估计。通过上式可得最大生成树的最大似然估计。
(3.4)搜索分割子树:基于最大生成树的最大似然估计求得然后通过动态规划技术在中搜索得到最优子树,即为所求分割结果。
(4)迭代分割:根据步骤3得到的分割结果更新目标模型,按照步骤3所述的方法,进行再分割;
(5)重复步骤4,直至最终分割结果不再变化,即得到最终的分割结果。
(6)反馈验证过程:将5得到的最终分割结果与目标模型进行相似度匹配。若相似度高于阈值,则认为种子超像素有效,分割结果为目标同时搜索与分割的最终结果;若相似度低于阈值,则认为种子超像素无效,该图像不存在感兴趣目标。
在本实施例中,对所述步骤1,最具有代表性超像素评价机制具体为:
对于图像集I=<I1,I2,...,IN>,假设用户在图像IL∈I中通过边界框的形式标记了感兴趣目标,且感兴趣目标包含基于过分割得到的超像素集合PL。我们的最具有代表性超像素评价机制在超像素集合PL中评估最具有代表性超像素步骤如下:
首先,采用图像搜索引擎(如谷歌)搜索得到5张与图像IL的内容最具有相关性的图像集J=<J1,J2,...,J5>(相关性根据搜索引擎的排序得到),并使用过分割算法预分割;对于在PL中的第m个超像素计算其与图像Jk(1≤k≤5)中最相似的超像素的距离:
d(PmL,Jk)=minm′(λ||cmL-cm′k||+(1-λ)||smL-sm′k||)]]>
其中和分别代表标记图像IL中第m个超像素的RGB颜色特征矢量和SIFT词袋模型特征矢量,和分别代表第k幅图像Jk中第m′个超像素的RGB颜色特征矢量和SIFT词袋模型特征矢量。其中RGB颜色特征为超像素包含的像素RGB平均值,权重值λ=0.5,χ2距离被用来计算距离d;
然后,每一个感兴趣目标包含的超像素可得到对应的5个距离k=1,2,...,5。对这5个距离值求平均值得到其值越小表示相似程度越高。
最后,基于假设,相似程度越高的超像素越有可能包含同一类的特征,而相似程度较低的超像素越有可能包含独特的特征。因此,过滤掉面积较小(小于50×50像素)的超像素后,选取具有最大的超像素作为图像的种子超像素用 于匹配搜索。
在本实施例中,步骤2的分层式超像素搜索机制,具体为:
根据分层式过分割算法,对图像集中的图像进行分层式过分割。由于感兴趣目标可能存在于图像的任何尺度,因此有必要对其进行逐层搜索匹配。具体匹配的方法如下,
D(i,dr)=α||Dc(i)-Dc(dr)||+β||Ds(i)-Ds(dr)||+γ||Db(i)-Db(dr)||.
其中D(dr)表示最具有代表性超像素的特征矢量,D(i)代表其余第i个超像素的特征矢量。Dc表示颜色特征矢量,Ds表示SIFT词袋模型特征矢量,Db代表边界特征矢量。α,β,γ表示各个特征矢量的权重值,分别为0.4,0.4,0.2。
在本实施例中,步骤5具体为:
(5.1)根据最新的分割结果,更新之前的前景目标模型,使之更加接近待分割目标;
(5.2)根据更新后的目标模型,重新产生所有可能的候选子树集合并且估计最大生成树;
(5.3)根据更新后的目标模型和最大生成树,重新采用动态规划技术搜索分割子树,得到分割结果;
(5.4)判断是否满足截止条件,即最后分割结果是否不再变化。若满足,则迭代结束;若不满足,则重复(5.1)‐(5.3)。
实施效果
根据上述步骤,选取FlickrMFC数据集中的若干图片进行目标同时搜索与分割。图4展示了选自FlickrMFC数据集中的图片测试结果。从图4可以看出,本发明对于待处理目标存在尺度、姿态、光照等剧烈变化的情况下,依然能够得到精确的目标同时搜索与分割结果。图5展示了本发明算法针对iCoseg数据集的分 割结果,可以看出,对于具有复杂精细结构的物体,本发明提出的同时搜索与分割方法依然能够准确地得到分割结果。