《基于结构语义直方图的图像检索方法.pdf》由会员分享,可在线阅读,更多相关《基于结构语义直方图的图像检索方法.pdf(15页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN103336830A43申请公布日20131002CN103336830ACN103336830A21申请号201310284272422申请日20130708G06F17/3020060171申请人刘广海地址541004广西壮族自治区桂林市七星区育才路15号69栋302室72发明人刘广海74专利代理机构桂林市持衡专利商标事务所有限公司45107代理人陈跃琳54发明名称基于结构语义直方图的图像检索方法57摘要本发明提出一种基于结构语义的图像检索方法,关注基于视觉感知机制和视觉词汇模型两者的优势来进行图像检索,提出结构语义直方图的新型图像特征表达方法;结构语义直方图可看作为主流。
2、的视觉词汇模型的升华,专门用于自然图像分析,并且比主流的视觉词汇方法具有更丰富信息。它整合了视觉词汇,语义特征和直方图的优点,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。51INTCL权利要求书4页说明书9页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书9页附图1页10申请公布号CN103336830ACN103336830A1/4页21基于结构语义直方图的图像检索方法,其特征是包括如下步骤(1)将彩色图像从RGB颜色空间转换到HSV颜色空间;在HSV颜色空间中,H分量表示色彩信息,可用于表示不同颜。
3、色,称之为颜色分量;(2)在HSV彩色空间中,将H,S和V三个分量用于构建高斯金字塔H,S和V,其中05表示尺度,然后通过跨尺度抽样并产生所谓的特征映射F(C,S,H)|H(C)口H(S)|(1)F(C,S,S)|S(C)口S(S)|(2)F(C,S,V)|V(C)口V(S)|(3)式中,F(C,S,H)表示H分量的特征映射,F(C,S,S)表示S分量的特征映射,F(C,S,V)表示V分量的特征映射,H(C)表示H分量细尺度C的高斯金字塔,H(S)表示H分量粗尺度S的高斯金字塔,S(C)表示S分量细尺度C的高斯金字塔,S(S)表示S分量粗尺度S的高斯金字塔,V(C)表示V分量细尺度C的高斯金字。
4、塔,V(S)表示V分量粗尺度S的高斯金字塔,口表示中心周边差操作,它是在“中心”细尺度C和“周边”粗尺度之间进行,并产生特征映射图;将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射和上述三式中,表示H分量的显著性图像映射,表示S分量的显著性图像映射,表示V分量的显著性图像映射,C表示细尺度,S表示粗尺度,表示映射图的跨尺度相加,N表示标准化;将三个3个独立显著性图像映射和V整合为一个显著图SHSV;式中,SHSV表示显著图,N表示标准化;(3)在显著图SHSV以及颜色分量H中,采用SIFT算法来抽取和描述局部特征,得到显著图SHSV的特征向量和颜色分量H的特征向量。
5、权利要求书CN103336830A2/4页3首先对显著图SHSV采用标准的K均值聚类来构建词典,词典大小设定为N,则词典里面有N个视觉词汇;词典构建就是将显著图SHSV中所有的局部特征聚成N个聚类中心,然后将一个聚类中心当作是一个视觉词汇,则词典里的N个视觉词汇可以表示为词典里面的N个视觉词汇分别对应一个索引值IS0,1,2,N2,N1;词典构建完毕后,需要进行词典量化并且进行索引值分配;词典量化就是把从显著图SHSV中提取的每一个局部特征映射到它最接近的视觉词汇上去,索引值分配就是给每一个局部特征所在的坐标点赋予一个对应的视觉词汇索引值V,最后经过词典量化的显著图SHSV表示为MSX,YV,。
6、;采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为MCX,YW,;(4)将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系,假设H,S,V为柱状坐标系上的一个点,H,S,V为H,S,V在笛卡尔坐标系上的转换,其中HSCOSH,SSSINH和VV;假设在HSV颜色空间图像中有一个像素点X,Y,该像素点周边有8个点,分别表示为XI,YI,I1,2,8,则标准刺激的强度I可以定义为在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值II,I1,2,8此时,代表刺激的最小可觉差IMINI1,I2,I8,即I取I1I8中的最小值;判断HSV颜色空间图像中的各像素点是否满。
7、足WEBER原理,即I/IK,其中I代表刺激的最小可觉差,I代表标准刺激的强度,K是设定的特定感觉道的定值,则保留该像素点X,Y处的视觉词汇,否则将像素点X,Y处的视觉词汇删除;由此形成显著图SHSV的视觉词汇图像WSX,Y和颜色分量H的视觉词汇图像WCX,Y;(5)以视觉词汇图像WSX,Y和WCX,Y为基准,分别对它们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测方法如下在WSX,Y中,将它划分为一系列22的,相互不重叠方格;然后判断22方格中是否为设定的局部结构模式中的一种,如果出现了其中一种局部结构模式,则该22方格中的视觉词。
8、汇保持不变,否则将22方格内的视觉词汇删除,最终可得到一个结构图像TSX,Y;采用相同办法,由WCX,Y可以得到WCX,Y的结构图像TCX,Y;权利要求书CN103336830A3/4页4以某个结构词汇为中心,在设定距离D范围内,如果它的周边存在若干个具有相同局部结构模式的结构词汇,则这些结构词汇的组合称之为结构语义;(6)分别统计结构图像TSX,Y和TCX,Y中视觉词汇出现的频率,并将若干个结构词汇之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中在结构图像TSX,Y和TCX,Y中,视觉词汇出现的频率计算方法如下HSICARDX,Y|TSX,YI/WIDHEI(10)。
9、HCJCARDX,Y|TCX,YJ/WIDHEI(11)上述两式中,HSI表示TSX,Y中视觉词汇出现的频率,其中;HCJ表示TCX,Y中视觉词汇出现的频率,其中;CARD表示统计词汇个数,分别是统计TSX,Y中的显著图词汇和TCX,Y中的颜色词汇,WID和HEI分别表示图像宽和图像高;计算均匀颜色差别的方法如下假设在结构图像TSX,Y和TCX,Y中有两个结构词汇,它们所在位置分别对应两个坐标点X,Y和X,Y,在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为HX,Y,SX,Y,VX,Y和HX,Y,SX,Y,VX,Y,则它们之间颜色差别CD计算方法如下CDSI表示显著图词汇的颜色差别直方图。
10、,CDCJ表示颜色词汇的颜色差别直方图,它们分别定义如下上述两式中,CDS表示结构图像TSX,Y中,两个坐标点X,Y和X,Y之间的颜色差别;CDC表示结构图像TCX,Y中,两个坐标点X,Y和X,Y之间的颜色差别;TSX,YTSX,Y表示在结构图像TSX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值I,;TCX,YTCX,Y表示在结构图像TCX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值J,;显著图词汇的结构语义直方图SHI和颜色词汇的结构语义直方图CHJ,它们分别定义如下SHICDSIHSI,I0,1,N1(15)CHJCDCJHCJ,J0,1,2,N1(16)S。
11、SHCONCACSHI,CHJ(17)权利要求书CN103336830A4/4页5上述三式中,CONCAC表示将上述两个直方图串联起来形成一个最终的直方图,即是结构语义直方图SSH;I和J用做直方图的下标;在CDSI和HSI中,I0,1,2,N1表示显著图词汇的索引值;在CDCJ和CHJ中,J0,1,2,N1表示颜色词汇索引值;(7)将结构语义直方图中的特征向量作为最终特征应用于图像检索,并且采用L1距离来进行图像匹配。2根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是在步骤(2)中,标准化N由如下步骤组成(1)归一化映射图中像素值,将其固定到0,1之间的范围,以消除依赖于模态的。
12、幅值差异;(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值(3)整幅映射图乘以3根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是在步骤(3)中,所述词典大小N的取值范围为N500,100000。4根据权利要求3所述的基于结构语义直方图的图像检索方法,其特征是在步骤(3)中,所述词典大小N的取值为5000。5根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是在步骤(4)中,设定的特定感觉道的定值K02。6根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是在步骤(5)中,设定的局部结构模式为11种。7根据权利要求1所述的基于结构语义直方图的图像检。
13、索方法,其特征是在步骤(5)中,设定距离D的取值范围介于25之间。权利要求书CN103336830A1/9页6基于结构语义直方图的图像检索方法技术领域0001本发明涉及图像检索领域,具体涉及一种基于结构语义直方图的图像检索方法。背景技术0002图形图像是人类交流的媒介并能够提供丰富信息来让人们认识和理解世界。随着数字图像技术和互联网的发展,越来越多的图像涌现。如何高效而快速地进行图像索引和检索成为日益迫切的需求,因此,图像检索成为模式识别和人工智能领域的研究热点之一。一般而言,图像检索主要包括基于文本的图像检索、基于内容的图像检索和基于语义的图像检索,基于文本的图像检索已经不适合时代要求。鉴于。
14、目前人工智能和相关技术的局限性,基于语义的图像检索仍然是一个公开的难题。因此,基于内容的图像检索(CBIR)仍然是非常重要而高效的图像检索方法,并且CBIR系统仍然被广泛应用于学术和工业领域。众所周知,人类视觉系统通过感受野周边的神经元竞争机制而产生少量引起视觉注意的关注点并且抑制不相关对象。视觉注意机制和低层次视觉特征之间存在密切的关系,与此同时,人类更加趋向于用类似文字信息来描述物体属性,主流的BAGOFVISUALWORD模型借鉴了文本信息处理模式,在一定程度上具备类似文字信息的功能,所以如何应用视觉感知机制和视觉词汇模型来进行图像检索是一个非常重要并且具有挑战性的问题。0003为了充分。
15、利用视觉感知机制和视觉词汇模型的优势来进行图像检索,本发明提出了一种新颖的方法来描述图像特征,它被称之为结构语义直方图(STRUCTURESEMANTICHISTOGRAM)。结构语义根据视觉显著性词汇和感知颜色词汇的结构信息来定义,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。结构语义直方图所包含的信息量明显地高于主流的BAGOFVISUALWORD模型,可以视为是BAGOFVISUALWORD模型的升华。发明内容0004本发明所要解决的技术问题是提供一种基于结构语义的图像检索方法,其能够利用直方图来表达语义信息,视觉显著性信息。
16、和均匀颜色信息,并且还能够表达视觉词汇所包含的空间结构属性。0005为解决上述问题,本发明是通过以下方案实现的0006一种基于结构语义直方图的图像检索方法,包括如下步骤0007(1)将彩色图像从RGB颜色空间转换到HSV颜色空间;在HSV颜色空间中,H分量表示色彩信息,可用于表示不同颜色。在本发明中被称之为颜色分量。0008(2)在HSV彩色空间中,将H,S和V三个分量用于构建高斯金字塔H,S和V,其中05表示尺度,然后通过跨尺度抽样并产生所谓的特征映射0009F(C,S,H)|H(C)口H(S)|(1)0010F(C,S,S)|S(C)口S(S)|(2)0011F(C,S,V)|V(C)口V。
17、(S)|(3)说明书CN103336830A2/9页70012式中,F(C,S,H)表示H分量的特征映射,F(C,S,S)表示S分量的特征映射,F(C,S,V)表示V分量的特征映射,H(C)表示H分量细尺度C的高斯金字塔,H(S)表示H分量粗尺度S的高斯金字塔,S(C)表示S分量细尺度C的高斯金字塔,S(S)表示S分量粗尺度S的高斯金字塔,V(C)表示V分量细尺度C的高斯金字塔,V(S)表示V分量粗尺度S的高斯金字塔,口表示中心周边差操作,它是在“中心”细尺度C和“周边”粗尺度之间进行,并产生特征映射图;0013将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射和0。
18、014001500160017式中,表示H分量的显著性图像映射,表示S分量的显著性图像映射,表示V分量的显著性图像映射,C表示细尺度,S表示粗尺度,表示映射图的跨尺度相加,N表示标准化;0018三个3个独立显著性图像映射和整合为一个显著图SHSV。00190020式中,SHSV表示显著图,N表示标准化;0021(3)在显著图SHSV以及颜色分量H中,采用SIFT(尺度不变特征转换)算法来抽取和描述局部特征,得到显著图SHSV的特征向量和颜色分量H的特征向量0022首先对显著图SHSV采用标准的K均值聚类来构建词典,词典大小设定为N,则词典里面有N个视觉词汇。词典构建就是将显著图SHSV中所有的。
19、局部特征聚成N个聚类中心,然后将每一个聚类中心当作是一个视觉词汇,则词典里的N个视觉词汇可以表示为词典里面的N个视觉词汇分别对应一个索引值IS0,1,2,N2,N1;0023词典构建完毕后,需要进行词典量化并且进行索引值分配。词典量化就是把从显著图SHSV中提取的每一个局部特征映射到它最接近的视觉词汇上去,索引值分配就是给每一个局部特征所在的坐标点赋予一个对应的视觉词汇索引值V,最后经过词典量化的显著说明书CN103336830A3/9页8图SHSV表示为MSX,YV,。0024采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为MCX,YW,。0025(4)将HSV颜色空间图。
20、像从柱状坐标系变换为笛卡尔坐标系,假设H,S,V为柱状坐标系上的一个点,H,S,V为H,S,V在笛卡尔坐标系上的转换,其中HSCOSH,SSSINH和VV;假设在HSV颜色空间图像中有一个像素点X,Y,该像素点周边有8个点,分别表示为XI,YI,I1,2,8,则标准刺激的强度I可以定义为00260027在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值II,I1,2,800280029此时,代表刺激的最小可觉差IMINI1,I2,I8,即I取I1I8中的最小值;0030判断HSV颜色空间图像中的各像素点是否满足WEBER原理,即I/IK,其中I代表刺激的最小可觉差,I代表标准刺。
21、激的强度,K是设定的特定感觉道的定值,则保留该像素点X,Y处的视觉词汇,否则将像素点X,Y处的视觉词汇删除;由此形成显著图SHSV的视觉词汇图像WSX,Y和颜色分量H的视觉词汇图像WCX,Y;0031(5)以视觉词汇图像WSX,Y和WCX,Y为基准,分别对它们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测方法如下0032在WSX,Y中,将它划分为一系列22的,相互不重叠方格;然后判断22方格中是否为设定的局部结构模式中的一种,如果出现了其中一种局部结构模式,则该22方格中的视觉词汇保持不变,否则将22方格内的视觉词汇全部删除,最终可。
22、得到一个结构图像TSX,Y;采用相同办法,由WCX,Y可以得到WCX,Y的结构图像TCX,Y;0033以某个结构词汇为中心,在设定距离D范围内,如果它的周边存在若干个具有相同局部结构模式的结构词汇,则这些结构词汇的组合称之为结构语义;0034(6)分别统计结构图像TSX,Y和TCX,Y中视觉词汇出现的频率,并将若干个结构词汇之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中说明书CN103336830A4/9页90035在结构图像TSX,Y和TCX,Y中,视觉词汇出现的频率计算方法如下0036HSICARDX,Y|TSX,YI/WIDHEI(10)0037HCJCARD。
23、X,Y|TCX,YJ/WIDHEI(11)0038式中,HSI表示TSX,Y中视觉词汇出现的频率,其中。HCJ表示TCX,Y中视觉词汇出现的频率,其中。CARD表示统计词汇个数,分别是统计TSX,Y中的显著图词汇和TCX,Y中的颜色词汇,WID和HEI分别表示图像宽和图像高;0039计算均匀颜色差别的方法如下0040假设在结构图像TSX,Y和TCX,Y中有两个结构词汇,它们所在位置分别对应两个坐标点X,Y和X,Y,在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为HX,Y,SX,Y,VX,Y和HX,Y,SX,Y,VX,Y,则它们之间颜色差别CD计算方法如下00410042CDSI表示显著图。
24、词汇的颜色差别直方图,CDCJ表示颜色词汇的颜色差别直方图,它们分别定义如下004300440045式中,CDS表示结构图像TSX,Y中,两个坐标点X,Y和X,Y之间的颜色差别;CDC表示结构图像TCX,Y中,两个坐标点X,Y和X,Y之间的颜色差别;TSX,YTSX,Y表示在结构图像TSX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值I,;TCX,YTCX,Y表示在结构图像TCX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值J,;0046显著图词汇的结构语义直方图SHI和颜色词汇的结构语义直方图CHJ,它们分别定义如下0047SHICDSIHSI,I0,1,N1(1。
25、5)0048CHJCDCJHCJ,J0,1,2,N1(16)0049SSHCONCACSHI,CHJ(17)0050式中,CONCAC表示将上述两个直方图串联起来形成一个最终的直方图,即是结说明书CN103336830A5/9页10构语义直方图SSH;I和J用做直方图的下标;在CDSI和HSI中,I0,1,2,N1表示显著图词汇的索引值;在CDCJ和CHJ中,J0,1,2,N1表示颜色词汇索引值;0051(7)将结构语义直方图中的特征向量作为最终特征应用于图像检索,并且采用L1距离来进行图像匹配。0052上述步骤(3)中,标准化N由如下步骤组成0053(1)归一化映射图中像素值,将其固定到0,。
26、1之间的范围,以消除依赖于模态的幅值差异;0054(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值0055(3)整幅映射图乘以0056上述步骤(2)中,所述词典大小N的取值范围为N500,100000。0057上述步骤(3)中,所述词典大小N的取值为5000。0058上述步骤(4)中,设定的特定感觉道的定值K02。0059上述步骤(5)中,设定的局部结构模式为11种。0060上述步骤(5)中,设定距离D的取值范围介于25之间。0061与现有技术相比,本发明关注基于视觉感知机制和视觉词汇模型两者的优势来进行图像检索,提出结构语义直方图的新型图像特征表达方法。结构语义直方图可看作为主。
27、流的视觉词汇(BAGOFVISUALWORDS)模型的升华,专门用于自然图像分析,并且比主流的视觉词汇方法具有更丰富信息。它整合了视觉词汇,语义特征和直方图的优点,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。附图说明0062图1为用于进行结构词汇检测的11种局部结构模式;0063图2为结构语义检测示例。具体实施方式0064一种基于共生稀疏直方图的图像检索方法,包括如下步骤0065(1)将彩色图像从RGB颜色空间转换到HSV彩色空间。0066(2)人类视觉系统具有非常突出的信息筛选能力,能够迅速找到相关的重要信息,忽略掉不相关信息。
28、,这就是视觉注意机制,因此研究视觉注意机制的计算模型,可以降低图像处理的复杂性,减少计算资源耗费,极大提高信息处理的效率。鉴于HSV颜色空间和人类颜色感知具有一定的相似性,因此本发明依据HSV颜色空间定义若干初级视觉特征来进行显著性检测。它由H,S和V分量图像构成。将H,S和V用于构建高斯金字塔H,S和V,其中05表示尺度,然后通过跨尺度抽样并产生所谓的特征映射0067F(C,S,H)|H(C)口H(S)|(1)0068F(C,S,S)|S(C)口S(S)|(2)0069F(C,S,V)|V(C)口V(S)|(3)0070上述三式中,口表示中心周边差操作,它是在“中心”细尺度C和“周边”粗尺度。
29、说明书CN103336830A106/9页11S之间进行,并产生特征映射图。0071将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射和0072007300740075上述三式中,表示映射图的跨尺度相加,0076将三个3个独立显著性图像映射和整合为一个显著图SHSV。00770078上述式中,N表示标准化,N由如下步骤组成(1)归一化映射图中像素值,将其固定到0,1之间的范围,以消除依赖于模态的幅值差异;(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值(3)整幅映射图乘以0079(3)对于彩色图像而言,在HSV颜色空间中,H分量可以用于描述不同颜色。在。
30、显著图S以及H分量中,采用SIFT算法来抽取和描述局部特征,得到的特征向量分别表示为和鉴于SIFT算法是一种非常著名并且广泛应用的算法,本发明将不再赘述。0080首先对显著图SHSV采用标准的K均值聚类来构建词典,词典大小设定为N,词典构建就是将显著图SHSV中所有的局部特征聚成N个聚类中心,然后将一个聚类中心当作是一个视觉词汇,则词典里的N个视觉词汇可以表示为词典里面的N个视觉词汇分别对应一个索引值IS0,1,2,N2,N1;0081词典构建完毕后,需要进行词典量化并且进行索引值分配。词典量化就是把从显著图SHSV中提取的每一个局部特征映射到它最接近的视觉词汇上去,并且给每一个局部特征所在的。
31、坐标点赋予一个对应的索引值V,最后经过词典量化的显著图SHSV表示为MSX,YV,。0082采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为MCX,YW,。鉴于K均值聚类算法是一种非常著名并且广泛应用的聚类算法,本发明也将不再赘述。0083(4)在经典的文本检索技术中,需要删除停用词以提高索引效率。鉴于视觉词汇和说明书CN103336830A117/9页12文本词汇是有区别的,在本发明中,拟删除10的频率太高和太低的视觉词汇。在颜色词汇以及显著图词汇中,如果某些词汇出现频率太高或者太低,很可能代表的是图像背景或者噪声,需要删除这些噪声词汇。为了尽量减少误删视觉词汇的现象,需。
32、要综合考虑视觉词汇之间的均匀颜色差别的对比度来考虑。如果某图像存在频率太高或者太低的视觉词汇,则将这些视觉词汇称为拟删除视觉词汇。在图像中,以拟删除的视觉词汇为中心,考虑它与周边视觉词汇之间的均匀颜色差别的对比度。如果满足WEBER原理,则保留该词汇,否则就真正删除该词汇。本发明将最佳的噪声词汇删除比例确定为20。0084将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系,假设H,S,V为柱状坐标系上的一个点,H,S,V为H,S,V在笛卡尔坐标系上的转换,其中HSCOSH,SSSINH和VV;假设在HSV颜色空间图像中有一个像素点X,Y,该像素点周边有8个点,分别表示为XI,YI,I1,2,8。
33、,则标准刺激的强度I可以定义为00850086在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值II,I1,2,800870088此时,代表刺激的最小可觉差IMINI1,I2,I8,即I取I1I8中的最小值;0089判断HSV颜色空间图像中的各像素点是否满足WEBER原理,即I/IK,其中I代表刺激的最小可觉差,I代表标准刺激的强度,K是设定的特定感觉道的定值,则保留该像素点X,Y处的视觉词汇,否则将像素点X,Y处的视觉词汇删除;由此形成显著图SHSV的视觉词汇图像WSX,Y和颜色分量H的视觉词汇图像WCX,Y;0090(5)以视觉词汇图像WSX,Y和WCX,Y为基准,分别对它。
34、们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测原理如下0091在WSX,Y中,将它划分为一系列22的,相互不重叠方格。然后判断22方格中是否出现图1所示的11种局部结构模式,如果出现了其中一种局部结构模式,则该22方格中的视觉词汇保持不变,否则将22方格内的视觉词汇删除,最终可得到一个结构图像TSX,Y,其中22方格中的词汇集合称之为结构词汇。采用相同办法,可以得到WCX,Y的结构图像TCX,Y。说明书CN103336830A128/9页130092以某个结构词汇为中心,在设定距离D范围内,如果它的周边存在若干个具有相同模式的结构。
35、词汇,则这些结构词汇的组合称之为结构语义,例如图2所示。在本发明中,设定距离D的取值范围介于25之间。0093(6)在设定的距离D范围内,分别统计TSX,Y和TCX,Y中词汇出现的频率,并将若干个局部结构模式之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中0094在TSX,Y和TCX,Y中,视觉词汇出现的频率计算方法如下0095HSICARDX,Y|TSX,YI/WIDHEI(10)0096HCJCARDX,Y|TCX,YJ/WIDHEI(11)0097上述两式中,HSI表示TSX,Y中视觉词汇出现的频率,其中。HCJ表示TCX,Y中视觉词汇出现的频率,其中。CARD。
36、表示统计词汇个数,分别是统计TSX,Y中的显著图词汇和TCX,Y中的颜色词汇,WID和HEI分别表示图像宽和图像高;0098计算均匀颜色差别的方法如下0099假设在结构图像TSX,Y和TCX,Y中有两个结构词汇,它们所在位置分别对应两个坐标点X,Y和X,Y,在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为HX,Y,SX,Y,VX,Y和HX,Y,SX,Y,VX,Y,则它们之间颜色差别CD计算方法如下01000101CDSI表示显著图词汇的颜色差别直方图,CDCJ表示颜色词汇的颜色差别直方图,它们分别定义如下010201030104上述两个公式中,CDS表示结构图像TSX,Y中,两个坐标点X。
37、,Y和X,Y之间的颜色差别;CDC表示结构图像TCX,Y中,两个坐标点X,Y和X,Y之间的颜色差别;TSX,YTSX,Y表示在结构图像TSX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值I,;TCX,YTCX,Y表示在结构图像TCX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值J,;0105显著图词汇的结构语义直方图SHI和颜色词汇的结构语义直方图CHJ,它们说明书CN103336830A139/9页14分别定义如下0106SHICDSIHSI,I0,1,N1(15)0107CHJCDCJHCJ,J0,1,2,N1(16)0108SSHCONCACSHI,CHJ(1。
38、7)0109上述三式中,CONCAC表示将上述两个直方图串联起来形成一个最终的直方图,即是结构语义直方图(SSH);I和J用做直方图的下标;在CDSI和HSI中,I0,1,2,N1表示显著图词汇的索引值;在CDCJ和CHJ中,J0,1,2,N1表示颜色词汇索引值;0110结构语义直方图在词汇局部结构的基础上能够同时表达显著词汇和颜色词汇的空间关系,它将均匀颜色差别信息和直方图整合为一个描述子,并且采用直方图来描述两者属性。结构语义直方图借鉴了视觉注意机制和自然语言处理技术,非常容易实现,很适合于大规模的图像检索。视觉词汇的局部结构能够保留一定的几何信息,同时也包含了一种局部结构和局部结构之间的。
39、关系(空间关系以及几何关系),在一定程度上,它体现了视觉词汇的几何上下文信息。结构语义直方图可看作是一种广义的视觉属性描述子,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息,所以,结构语义直方图所包含的信息量明显地高于主流的BAGOFVISUALWORD模型,可以视为是BAGOFVISUALWORD模型的升华。本发明还具有非常强的扩展性,完全可以采用相同方式融合更多视觉信息。例如纹理特征,边缘特征等等。0111(5)将结构语义直方图中的5000维特征向量作为最终特征应用于图像检索。传统的BAGOFVISUALWORDS模型在图像匹配过程中一般采用COS距离,本发明在检索过程中采用L1距离进行图像匹配。采用L1距离的主要原因是L1距离计算简单,计算量小,不要开方和开根号计算。说明书CN103336830A141/1页15图1图2说明书附图CN103336830A15。