《一种大规模图像检索方法.pdf》由会员分享,可在线阅读,更多相关《一种大规模图像检索方法.pdf(17页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104112018A43申请公布日20141022CN104112018A21申请号201410348791722申请日20140721G06F17/3020060171申请人南京大学地址210023江苏省南京市栖霞区仙林大道163号南京大学72发明人杨育彬毛晓蛟74专利代理机构江苏圣典律师事务所32237代理人胡建华54发明名称一种大规模图像检索方法57摘要本发明公开了一种大规模图像检索方法,包含如下步骤图像特征提取;哈希函数投影向量学习;哈希函数偏移量学习;图像特征降维;图像特征编码;图像检索。本发明能够对大规模图像进行快速检索。首先,通过学习判别式的哈希函数,提高了编码。
2、之间的判别性,从而更好地区分不同类别的图像特征;其次,利用哈希函数对图像特征进行降维和编码,减少图像特征的存储需求和检索过程的计算开销。本发明实现了高效、准确的大规模图像检索,因此具有较高的使用价值。51INTCL权利要求书2页说明书13页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书13页附图1页10申请公布号CN104112018ACN104112018A1/2页21一种大规模图像检索方法,用于从图像数据库中找到与待检索图像最相似的K幅图像,K为自然数,其特征在于,包含以下步骤步骤1,图像特征提取对待检索图像和图像数据库的每一幅图像提取特征;步骤2,哈希函数投。
3、影向量学习随机选取出图像数据库中若干图像的特征,组成图像特征训练集,利用图像特征训练集学习哈希函数投影向量;步骤3,哈希函数偏移量学习利用图像特征训练集学习哈希函数偏移量,从而得到哈希函数;步骤4,图像特征降维利用哈希函数对待检索图像和图像数据库的每一幅图像的图像特征进行降维,得到每一幅图像的低维特征向量;步骤5,图像特征编码对每一幅图像的低维特征向量进行量化,得到每一幅图像的图像特征编码;步骤6,图像检索。2根据权利要求1所述的一种大规模图像检索方法,其特征在于,步骤2包括如下步骤首先,将图像特征训练集中的图像特征按不同类别进行分组,得到分组表示为GG1,G2,GN,其中N为图像特征类别总组。
4、数,GI表示第I组图像特征,I取值1至N;然后,对每一组图像特征学习哈希函数投影向量对第I组图像特征学习哈希函数投影向量的过程如下将第I组图像特征作为一个集合M,将除第I组以外的N1组图像特征组合成集合C,通过最小化集合M和C各自的类内散列度、最大化M和C之间的类间散列度来学习哈希函数投影向量;最后,将每一组图像特征学习到的哈希函数投影向量进行组合。3根据权利要求2所述的一种大规模图像检索方法,其特征在于,步骤3包括如下步骤首先,在每组图像特征GI中随机采集M个图像特征对,将所有组的图像特征对组成一个集合P,则集合P中有NM个图像特征对;然后,任选两组图像特征GIA,GIB,IA,IB取值分别。
5、为1至N且IA不等于IB,每组随机选取一个图像特征组成一个图像特征对,总共选取NM个图像特征对,组成集合Q;最后,通过最小化集合P中图像特征对的编码值差异、最大化集合Q中图像特征对的编码值差异,为步骤2中每一个哈希函数投影向量学习一个哈希函数偏移量,将哈希函数投影向量和其对应的哈希函数偏移量组合,得到哈希函数。4根据权利要求3所述的一种大规模图像检索方法,其特征在于,步骤4包括如下步骤对于任意一个图像特征,用每个哈希函数对其进行运算,一个哈希函数和一个图像特征经过运算得到一个实数,将所有哈希函数运算得到的实数拼接,形成图像特征对应的低维特征向量。5根据权利要求4所述的一种大规模图像检索方法,其。
6、特征在于,步骤5包括如下步骤首先,对低维特征向量进行取符号操作,并用0替换其中的1,得到低维特征向量的二进制编码;权利要求书CN104112018A2/2页3然后对二进制编码从左到右每8位为一个字节,转换为十进制数,末尾不足8位的编码加0凑足8位;最后,将每个字节得到的十进制数拼接得到一个向量,作为图像特征的编码。6根据权利要求1所述的一种大规模图像检索方法,其特征在于,步骤6中图像检索包括如下步骤根据待检索图像编码BQUERY,取出图像特征数据库中编码和待检索图像编码BQUERY相同的所有图像特征,并作为检索候选集;计算检索候选集中每个图像特征和待检索图像的图像特征的欧氏距离,并按照欧氏距离。
7、由小到大输出对应K幅图像。权利要求书CN104112018A1/13页4一种大规模图像检索方法技术领域0001本发明属于计算机图像检索领域,特别是一种大规模图像检索方法。背景技术0002随着互联网的快速发展,各种网络资源日益丰富,网络数据规模也以指数级的速度增长。在互联网上存在的各种类型数据中,图像占据了大部分,目前已达到了海量规模2010年,著名网站FLICKR统计的图片总量超过了50亿。这样的数据还在持续以惊人的速度增长,若干年后将达到难以想象的规模。毫无疑问,从如此大的数据库中快速、准确地搜索用户需要的数据变得十分重要,同时也存在巨大的困难。例如,给定一幅图像,如何在大规模的数据库中快速。
8、并且准确地搜索到与给定图像相似的图像是目前热门的研究课题,然而这类应用往往存在两个重要的问题00031图像特征通常是高维数据,存储要求高且计算效率较低;00042大规模数据的检索方式对效率有很高的要求。0005针对这些问题,哈希索引算法在近些年被提出,其基本思想是利用多个哈希函数把高维空间中的特征映射到低维空间,哈希索引算法中最主要的一个步骤就是特征编码,近年来有很多研究人员通过引进机器学习算法学习哈希函数来构造编码,然而目前的方法还存在判别性不足等问题。发明内容0006发明目的本发明为了解决现有技术中的问题,提出了一种大规模图像检索方法,从而有效解决大规模数据下,图像特征的快速、准确编码、检。
9、索的问题。0007发明内容本发明公开了一种大规模图像检索方法,包含如下步骤0008步骤1,图像特征提取对待检索图像和图像数据库的每一幅图像提取特征;0009步骤2,哈希函数投影向量学习随机选取出图像数据库中若干图像的特征,组成图像特征训练集,利用图像特征训练集学习哈希函数投影向量;0010步骤3,哈希函数偏移量学习利用图像特征训练集学习哈希函数偏移量,从而得到哈希函数;0011步骤4,图像特征降维利用哈希函数对待检索图像和图像数据库的每一幅图像的图像特征进行降维,得到每一幅图像的低维特征向量;0012步骤5,图像特征编码对每一幅图像的低维特征向量进行量化,得到每一幅图像的图像特征编码;0013。
10、步骤6,图像检索。0014步骤1图像特征提取具体包括如下步骤0015本发明对图像特征的种类没有特别的限制,只要经过计算,每幅图像最终得到一个特征向量,作为图像特征即可。在图像检索领域常用的特征大多数都符合这个要求,例如局部二元模式LOCALBINARYPATTERN,LBP直方图、颜色直方图特征、GIST特征等。说明书CN104112018A2/13页50016步骤2哈希函数投影向量学习具体包括如下步骤0017首先,从大规模图像特征数据库中随机选取一部分作为图像特征训练集,表示为其中表示实数,每一个图像特征XIE都是一个D维的列向量,每一个图像特征都有一个类别标签YIE,IE取值1至N。假设图。
11、像特征共有N类,则YIE的取值为区间1,N内的一个自然数,类别标签组成标签集合将图像特征训练集中的图像特征按不同类别进行分组,得到分组表示为GG1,G2,GN,其中N表示图像特征类别数,GI表示第I组图像特征的集合,I取值1至N。分组标准为图像内容,举例来说,图像训练集中有三类图像,第一类为汽车,第二类为人,第三类为飞机,那么,汽车、人、飞机的图像各自被归为一组,汽车对应G1,其标签为Y11;人对应G2,其标签为Y22;飞机对应G3,其标签为Y33。分组可以采用人工分组,也可以采用现有的计算机自动处理分组方法例如,参见参考文献付岩,王耀威,王伟强,高文SVM用于基于内容的自然图像分类和检索J计。
12、算机学报,20032610,12621265。0018然后,对每一组图像特征学习哈希函数投影向量。对第I组图像特征学习哈希函数投影向量的过程如下将第I组图像特征作为一个集合M,将除第I组以外的N1组图像特征组合成集合C。考虑到学习到的哈希函数能够获得较好的判别性,且保持M中图像特征的局部性,包括以下部分00191对于集合M中的图像特征,通过计算近邻之间的距离来衡量M类的类内散列度。00202对于集合C中的图像特征,通过计算图像特征与图像特征中心的距离来衡量C类的类内散列度。00213通过计算M和C中图像特征中心的距离来衡量类间离散度。0022定义学习哈希函数的目标如下00230024其中列向量。
13、W表示一个哈希函数投影向量,实数T表示一个哈希函数偏移量,为类间散列度,为总类内散列度,为M类的类内散列度,为C类的类内散列度,总类内散列度是M类的类内散列度和C类的类内散列度之和。0025哈希函数由投影向量和偏移量两部分组成,一个哈希函数H对图像特征X的运算称为索引,用如下方法表示0026HXWTXT0027其中上标T表示矩阵或向量的转置,WTX表示W和X作向量内积运算。0028对于1,由于集合M中属于同类别的图像特征,因此,考虑图像特征之间的局部性,目的是使得近邻的图像特征经过哈希函数索引后,它们之间的距离能够最小化,即最小化以下优化目标0029说明书CN104112018A3/13页60。
14、030其中NNXIM表示图像特征XIM在M中的近邻集合,即和XIM距离最小的若干个图像特征组成的集合。W,T,XIM,XJM表示特征XIM和XJM经过哈希函数索引后的差异,其中IM取值1至NM,NM表示M中图像特征的个数,JM取值1至NNN,NNN表示M中每个图像特征近邻的个数。从上式看出,步骤1的目的是使得M中的图像特征XIM和它的近邻NNXIM在经过哈希函数索引后能够尽可能的相同,即差异最小。W,T,XIM,XJM可进一步表示为0031W,T,XIM,XJMWTXIMXJMXIMXJMTW,0032因此,步骤1的优化目标可以表示为00330034其中00350036对于步骤2,由于集合C中。
15、包含多个类别的图像特征,如果考虑局部性,反而会使不同类的图像特征在经过哈希函数索引后保持近邻关系,因此,步骤2不考虑图像特征之间的局部性,而是最小化图像特征和图像特征中心的距离。具体地,对于集合C中的图像特征,本发明最小化以下优化目标00370038其中C表示C类的图像特征中心,即C类图像特征的均值,XIC中IC取值1至NC,NC表示C中图像特征的个数。那么,可以得到00390040其中表示为00410042对于步骤3,通过最大化M类和C类的图像特征中心来区分两类图像特征,据此可以得到如下优化目标00430044其中00450046最后,可以看出,同时满足步骤1、2、3,等价于最大化目标函数说。
16、明书CN104112018A4/13页700470048其中NM表示M中图像特征的个数,NNN表示M中每个图像特征近邻的个数,NC表示C中图像特征的个数。从上述表示中可以看到,虽然学习一个哈希函数涉及到两个参数W和T,但在哈希函数投影向量学习的形式化描述中,参数T被抵消了,因此这部分只学习哈希函数投影向量,在后续步骤给出参数T的学习方法。具体地,最优W的解为对矩阵进行特征值分解后,最大特征值对应的特征向量。在实际应用中,对于GI类的图像特征往往同时学习V个哈希函数,那么V个哈希函数的投影向量对应前V个最大特征值对应的特征向量。0049步骤3哈希函数偏移量学习具体包括如下步骤0050在学习到哈希。
17、函数投影向量之后,再进一步学习哈希函数偏移量。具体过程如下从每组图像特征GI中随机选取M个图像特征对,将所用图像特征对组成一个集合P,P中共有NM个图像特征对;任选两组图像特征GIA,GIB,IA,IB取值分别为1至N且IA不等于IB,每组随机选取一个图像特征组成一个图像特征对,采用这种方式,总共选取NM个图像特征对,组成集合Q。对于一个哈希函数,在学习到W后,通过最小化P中图像特征对的编码值差异、最大化Q中图像特征对的编码值差异来学习哈希函数偏移量。具体地,对P中图像特征对XI1,XI2,最大化以下优化目标00510052其中XI1表示P中第I个图像特征对的第一个图像特征,XI2表示P中第I。
18、个图像特征对的第二个图像特征。对Q中图像特征对XJ1,XJ2,最小化以下优化目标00530054其中XJ1表示Q中第J个图像特征对的第一个图像特征,XJ2表示Q中第J个图像特征对的第二个图像特征。SIGN表示取符号函数当X0时,SIGNX1;当X0时,SIGNX0;当X0时,SIGNX1;当X0时,SIGNX0;当X0时,SIGNX1。最大化要求P中的图像特征对在取符号后的结果相同,即编码值差异最小;最小化要求Q中的图像特征对在取符号后的结果不同,即编码值差异最大。通过这种方式学习到的哈希函数偏移量,可以在一定程度上保证同类的图像特征在索引并取符号后结果相同,不同类的图像特征在索引并取符号后结。
19、果不同。0129对于优化目标可以进一步表示为01300131假设FTWTXI1TWTXI2T,由于W和XI1,XI2是已知的,因此FT是关于T的二次函数,令AI1WTXI1、AI2WTXI2,那么FTT2AI1AI2TAI1AI2。当TMINAI1,AI2或TMAXAI1,AI2时,SIGNFT1;当MINAI1,AI2TMAXAI1,AI2时,SIGNFT1。其中MAX表示取最大值,MIN表示取最小值。0132求解哈希函数偏移量需同时最大化和最小化那么根据上面的推导可以得到以下优化目标01330134其中函数KC用来衡量数据满足条件C的程度,在本发明中通过频数统计完成,即给定一个T时XI1,。
20、XI2PKTMINAI1,AI2|TMAXAI1,AI2表示在集合P中满足条件TMINAI1,AI2|TMAXAI1,AI2的图像特征对总数,相似得,KMINAJ1,AJ2TMAXAJ1,AJ2表示在集合Q中满足条件MINAJ1,AJ2TMAXAJ1,AJ2的图像特征对总数。由于优化目标中只有一个参数T,因此通过对T进行线性搜索即可得到最优值,即学习到哈希函数的偏移量。0135步骤4图像特征降维具体包括如下步骤0136用学习到的哈希函数对图像特征进行降维。对于任意一个图像特征,用每个哈希函数对其进行运算,一个哈希函数和一个图像特征经过运算得到一个实数,将所有哈希函数运算得到的实数拼接,形成图像。
21、特征对应的低维特征向量。0137步骤5图像特征编码具体包括如下步骤0138首先,对低维特征进行取符号操作,即对低维特征每一维进行SIGN函数运算,得说明书CN104112018A1311/13页14到的结果是一个向量,向量元素只包含1,0和1三种值;0139其次,用0替换上述向量中的1,得到低维特征向量的二进制编码;0140然后,对二进制编码从左到右每8位为一个字节,转换为十进制数,末尾不足8位的编码加0凑足8位;0141最后,将每个字节得到的十进制数拼接得到一个向量,作为图像特征的编码。0142步骤6图像检索具体包括如下步骤0143给定一个查询图像,首先提取图像特征,利用哈希函数进行图像特征。
22、降维和图像特征编码,得到编码BQUERY;然后,将图像特征数据库中编码和BQUERY相同的图像特征取出,作为检索候选集;最后,检索候选集中每个图像特征和查询图像的图像特征计算距离并从小到大排序,将距离最小的若干个图像特征对应的图像作为检索结果返回。0144实施例0145本实施例包括以下部分01461图像特征提取0147本实施例利用公共图像数据集CIFAR10学习哈希函数并对图像特征进行编码,然后进行检索。具体地,对CIFAR10中每一幅图像提取一个原始图像像素灰度值特征首先,通过颜色空间转换得到所有图像的灰度级图像,将每张灰度级图像的灰度值按行拼接,得到图像特征,每张图像用一个图像特征表示,每。
23、个图像特征是一个向量。01482哈希函数投影向量学习0149CIFAR10共有10个类别,从每个类别随机选取100个图像特征组成图像特征训练集,共1000个图像特征。0150然后,对每一类学习哈希函数投影向量,下面以第1类为例,分为如下步骤01511将第1类图像特征作为集合M,将第210类图像特征作为集合C;01522对集合M中的每个图像特征XIM,和M中其余的所有图像特征计算欧氏距离,对欧氏距离从小到大排序,取和XIM距离最小的10个图像特征作为XIM的近邻集合NNXIM,即NNN10。对每个图像特征XIM,计算如下结果01530154将M中所有图像特征的MAT值相加,得到如下0155015。
24、63计算集合C中的图像特征均值01570158其中NC表示集合C中图像特征的个数,在本实施例中NC900。对C中所有图像特征,按如下公式计算0159说明书CN104112018A1412/13页1501604计算集合M的图像特征均值01610162其中NM表示集合M中图像特征的个数,在本实施例中NM100。对M中所有图像特征,按如下公式计算016301645根据上述结果计算矩阵然后对其进行特征值分解,选择最大的10个特征值对应的特征向量,作为第1类图像特征学习到的10个哈希函数投影向量。0165最后,对其他9个类按照第1类的方法,每类学习10个哈希函数投影向量,将所有哈希函数投影向量组合,得到。
25、100个哈希函数投影向量。01663哈希函数偏移量学习0167首先,从图像特征训练集中选取图像特征对产生集合P。以第1类为例,每次从第1类100个图像特征中随机选取2个作为一个图像特征对,总共选取200对。剩余9类按此方式,每类选取200对,将所有图像特征对组合,形成集合P,P中共有2000个图像特征对。0168其次,从图像特征训练集中选取图像特征对产生集合Q。任意选取两类图像特征,每类任取一个图像特征组成一个图像特征对,按此方式,直到取得2000个图像特征对为止,形成集合Q。Q中共有2000个图像特征对。0169然后,对每个哈希函数投影向量学习哈希函数偏移量,以第1个哈希函数投影向量为例01。
26、701对P中每一个图像特征对XI1,XI2,用哈希函数的投影向量计算得到AI1WTXI1、AI2WTXI2;对Q中每一个图像特征对XJ1,XJ2,用哈希函数的投影向量计算得到AJ1WTXJ1、AJ2WTXJ2;01712初始化参数T的候选值集合,最小值为1,最大值为1,步长为005,因此,T的候选值集合可以表示为1,095,0909,095,1;01723对T的每个候选值,统计集合P中满足条件TMINAI1,AI2|TMAXAI1,AI2的图像特征对个数NP,统计集合Q中满足条件MINAJ1,AJ2TMAXAJ1,AJ2的图像特征对个数NQ,计算01734对所有T的候选值计算NT并排序,取最大。
27、NT对应的候选值,作为哈希函数偏移量。0174最后,以上述方法对每个哈希函数学习哈希函数偏移量,将哈希函数投影向量和对应的哈稀函数偏移量组合,最后得到100个哈希函数。说明书CN104112018A1513/13页1601754图像特征降维0176对CIFAR10中任意一个图像特征XIT,分别和100个哈希函数进行计算01770178其中WJT和TJT分别表示第JT个哈希函数的投影向量和偏移量,JT取值1至100。通过上述计算,每个图像特征可以降维,从而得到100维的低维特征向量VAL。01795图像特征编码0180以一个图像特征的低维特征向量VAL为例0181首先,对VAL的每一维进行取符号。
28、运算,得到SIGNVAL,并用0替换其中的1,得到100位二进制编码BCODE;0182然后,对BCODE从左到右,每8位为一个字节,共得到12个字节;最后剩下4位加4个0组成第13个字节;将这13个字节分别转换为10进制数,得到13维的特征向量,作为一个图像特征的编码。0183最后,用上述方式对所有图像特征的低维特征向量进行编码。01846图像检索0185给定一张查询图像,首先,通过图像特征提取、图像特征降维、图像特征编码得到其对应的编码BQUERY;其次,将图像特征数据库中编码和BQUERY相同的图像特征取出,作为检索候选集;然后,对检索候选集中的每个图像特征和查询图像的图像特征计算距离,。
29、并从小到大排序;最后,将距离最小的10个图像特征对应的图像作为检索结果返回。0186在配置为处理器INTELI52430M,主频24GHZ,4核;内存4GB;硬盘500GB;操作系统WINDOWS7ULTIMATE64位;编程环境MATLABR2011A的计算机上,现有技术准确率85左右,检索时间06S;本发明提出的方法准确率95左右,检索时间005S。0187本发明提供了一种大规模图像检索方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。说明书CN104112018A161/1页17图1说明书附图CN104112018A17。