一种融合空间约束信息的图像检索方法技术领域
本发明属于模式识别与信息处理技术领域,涉及计算机视觉方面的图片处理方法。
背景技术
随着数字摄影设备的普及和发展,互联网上的图像数量迅速膨胀。如何从海量图像数据中,高效快速地检索出用户感兴趣的图片变得尤为重要,这一课题吸引着越来越多学者的注意。同时,随着图像规模的增加,图像检索的难度也相应增大,在要求较快检索效率的同时,也要求较高的检索准确率和尽可能低的存储开销。目前,多数前沿的图像检索系统依赖于图像的词袋模型来实现系统的可扩展性,最初的词袋模型源于文本分类技术。在信息检索中,它假定对于一个文本,忽略其词序和语法,将其仅仅看做是一个词的集合,或者说是词的组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说这篇文章的作者在任意一个位置选择词汇都是不受前面句子的影响而独立选择的。图像可以视为一种文档对象,图像中不同的局部区域或其特征可看做构成图像的词汇,其中相近的区域或其特征可以视为一个词,如此就能够把文本检索的方法用到图像检索中。
图像检索模型仿照文本检索领域的词袋模型方法,把每幅图像描述为一个局部区域关键点特征的无序集合,使用某种聚类算法将局部特征进行聚类,每个聚类中心被看做是字典中的一个视觉词汇,相当于文本检索中的词,视觉词汇由聚类中心对应特征形成的码字来表示。所有视觉词汇形成一个视觉字典,对应一个码书,即码字的集合,字典中所含的个数反映了字典的大小。图像中的每个特征都将被映射到视觉字典的某个词上,这种映射通过计算特征间的距离去实现,通过建立倒排索引表实现图像检索。
同时,由上述可以发现,用于图像检索的词袋模型也面临两个重要的局限性:第一,字典大小的选择,字典太大,单词缺乏一般性,对噪声敏感,计算量大,倒排索引表过大;字典太小,单词区分性能差,对相似的目标特征无法表示。第二,将图像表示成一个无序的局部特征集,这种表示方法丢掉了所有的关于空间特征布局的信息,在描述性上具有一个的有限性。本发明提出了基于超像素的图像检索方案,在传统词袋模型的基础上,补充图像的空间信息,提高检索的精确度。
发明内容
本发明旨在保证检索效率和不增加存储开销的前提下,提高图像检索的精确度,为此提出一种结合传统词袋模型和基于内容的图像分割方案,通过图像分割技术对传统的词袋模型补充空间约束信息,提高检索准确率。
本发明解决其技术问题所采用的技术方案是一种融合空间约束信息的图像检索方法,该方法包括:
步骤1:应用一个独立图片数据集(如:Flickr60kdataset),提取独立数据集中每张图片的SIFT特征,得到一个特征集合,随机选取部分SIFT特征点,对特征集合进行K-means聚类,得到M个聚类中心,即得到一个包括M个视觉单词的视觉字典;
步骤2:对测试数据图片集(如:Holidays)中每一张图片,对每一张图片进行区域划分并编号;
步骤3:对经步骤2处理的每张图片,提取SIFT特征,同时存储每一个SIFT特征所在局部区域编号,作为图像空间的约束信息;
步骤4:将步骤3获得SIFT特征及各特征的局部区域编号,根据步骤1得到视觉字典建立倒排索引表;
步骤5:对图片进行匹配时,首先按照步骤2相同的方法对获得图片进行区域划分,然后提取图片的SIFT特征,并记录各SIFT特征的局部区域编号,然后根据该信息在步骤4获得的倒排索引表中进行匹配查找,获得相似图像。
进一步的,所述步骤2中采用均等分割方法或基于内容的图像分割方法将每一张图片进行分割,并对各区域编号。
进一步的,步骤4的具体方法为将步骤2中所述的测试图像集中每张图片的每个SFIT特征量化到步骤1中得到的视觉字典的一个单词,通过倒排表将测试图像集中所有图片的信息存储到起来以方便查询;其中倒排表中每个节点存储的信息包括图片的编号,该SFIT特征的频率,该SIFT特征所属的区域号。
进一步的,所述步骤5的具体方法为提取查询图片的SIFT特征,将查询图片的SIFT特征量化到步骤1中得到的视觉字典,通过查找倒排表计算查询图片和测试数据集中每张图片的相似度,其中,设定图片中某个SIFT特征和测试图像集中图片SIFT特征匹配的条件是:量化到同一个视觉单词且具有相同的区域编号。
本发明的有益效果是:
本发明结合了传统的用于图像检索的词袋模型和基于内容的图像分割技术的优势,提出了一种增加空间约束信息来提高图像检索模型准确率的处理方案。本发明具有以下优点:
1、本发明提出的用于图像检索的模型总体上是基于特征空间的,同时融入基于图像空间的图像分割技术,通过补充空间约束信息,进一步提高图像检索的准确率。
2、本发明提出的检索方案在提高检索精确度的同时,保证了检索效率和存储开销。在计算相似性的时候,只需要在词袋模型的基础上增加简单的与或操作,同样,存储的时候,只需几个bit的开销。
附图说明
图1为采用均等划分方案对图像处理示意图,这里取划分尺度l=3;
图2为采用局域内容的图像分割技术对图像处理示意图;
图3为本检索方案所构建的倒排索引表;
图4为本检索方案的整理框架图。
具体实施方案
步骤一:在独立数据集上训练,得到视觉字典:
从Flickr(一个用来共享图片的网站)上随机的下载一万张图片,组成训练数据集Image-T,提取Image-T中每一张图片的SIFT特征,得到特征集合
S=[s1,s2,...,sN],S∈RD×N
其中N为特征集合S中SIFT特征个数,D为每个SIFT的维数。对SIFT特征集合S进行K-means聚类,得到一个大小为K的视觉字典V=[v1,v2,...,vK],V∈RD×K,
其中K是字典V中聚类中心的数目,D所述聚类中心的维数。
步骤二:对测试数据集中每一张图片进行预处理,采取两种方案:
假设数据集中含有N张图片,以其中一张图片i为例,采取下面其中一种方案进行预处理:
方案一:以尺度l对图片i进行均等划分得到2l×2l个块,根据需要可对l取不同的值,依次编号为1,2,...,2l×2l,提取每一个块的SIFT特征,同时记录每一个SIFT特征所在块的编号作为描述符的补充信息,将所有块的SIFT特征整合到一起得到图片i的描述信息。
方案二:采用基于内容的分割方案将图片i分成M个区域,依次编号为1,2,…,M,提取每一个域的SIFT特征,同时记录每一个SIFT特征所在域的编号作为描述符的补充信息,将所有块的SIFT特征整合到一起得到图片i的描述信息。
对N张图片采取和图片i相同的预处理方案,得到每一张图片的SIFT特征表示。
步骤三:建立倒排索引表
根据步骤一得到的视觉字典V,对步骤二中N张图片的SIFT特征建立倒排索引表,传统的倒排索引表存储的图像标号和特征频率等信息,我们的方法在此基础上增加了特征所属区域编号,补充的图像空间的约束信息。
步骤四:特征匹配
根据步骤三中得到的倒排索引表进行图像查询,根据特征匹配数目得到两张图片的相似值。两个局部SIFT特征x,y匹配成功的条件是:特征x和特征y量化到同一个视觉单词v,且特征x和特征y所属的区域编号相同。具体匹配函数为:
步骤五:图像检索
根据步骤四中特征匹配方案,将查询图像中每一个SIFT特征和倒排索引表中所有特征匹配,如果匹配成功,则更新该查询图片q与数据集中相应图片d的相似值,相似值函数为:
对查询图像与数据集中每张图片的相似值进行排序,根据需要返回前K张与查询相似的图片。