基于结构语义直方图的图像检索方法.pdf

上传人:a1 文档编号:1314139 上传时间:2018-04-15 格式:PDF 页数:15 大小:5.34MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310284272.4

申请日:

2013.07.08

公开号:

CN103336830A

公开日:

2013.10.02

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20130708|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

刘广海

发明人:

刘广海

地址:

541004 广西壮族自治区桂林市七星区育才路15号69栋302室

优先权:

专利代理机构:

桂林市持衡专利商标事务所有限公司 45107

代理人:

陈跃琳

PDF下载: PDF下载
内容摘要

本发明提出一种基于结构语义的图像检索方法,关注基于视觉感知机制和视觉词汇模型两者的优势来进行图像检索,提出结构语义直方图的新型图像特征表达方法;结构语义直方图可看作为主流的视觉词汇模型的升华,专门用于自然图像分析,并且比主流的视觉词汇方法具有更丰富信息。它整合了视觉词汇,语义特征和直方图的优点,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。

权利要求书

1.   基于结构语义直方图的图像检索方法,其特征是包括如下步骤:
(1)将彩色图像从RGB颜色空间转换到HSV颜色空间;在HSV颜色空间中,H分量表示色彩信息,可用于表示不同颜色,称之为颜色分量;
(2)在HSV彩色空间中,将H,S和V三个分量用于构建高斯金字塔H(σ),S(σ)和V(σ),其中σ∈[0...5]表示尺度,然后通过跨尺度抽样并产生所谓的特征映射:
F(c,s,H)=|H(c)口H(s)|           (1)
F(c,s,S)=|S(c)口S(s)|          (2)
F(c,s,V)=|V(c)口V(s)|          (3)
式中,F(c,s,H)表示H分量的特征映射,F(c,s,S)表示S分量的特征映射,F(c,s,V)表示V分量的特征映射,H(c)表示H分量细尺度c的高斯金字塔,H(s)表示H分量粗尺度s的高斯金字塔,S(c)表示S分量细尺度c的高斯金字塔,S(s)表示S分量粗尺度s的高斯金字塔,V(c)表示V分量细尺度c的高斯金字塔,V(s)表示V分量粗尺度s的高斯金字塔,口表示中心‑周边差操作,它是在“中心”细尺度c和“周边”粗尺度之间进行,并产生特征映射图;
将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射
<mrow><MOVER><MI>H</MI><MO>&amp;OverBar;</MO></MOVER><MO>=</MO><MUNDEROVER><MI>&amp;CirclePlus;</MI><MROW><MI>c</MI><MO>=</MO><MN>0</MN></MROW><MN>4</MN></MUNDEROVER><MUNDEROVER><MI>&amp;CirclePlus;</MI><MROW><MI>s</MI><MO>=</MO><MN>5</MN></MROW><MN>5</MN></MUNDEROVER><MI>N</MI><MROW><MO>(</MO><MI>F</MI><MROW><MO>(</MO><MI>c</MI><MO>,</MO><MI>s</MI><MO>,</MO><MI>H</MI><MO>)</MO></MROW><MO>)</MO></MROW><MO>-</MO><MO>-</MO><MO>-</MO><MROW><MO>(</MO><MN>4</MN><MO>)</MO></MROW></MROW>]]&gt;</MATH><IMG id=ifm0004 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="18" wi="109" file="FDA00003478494300014.TIF"></MATHS><BR><MATHS id=cmaths0002 num="0002"><MATH><![CDATA[<mrow><MOVER><MI>S</MI><MO>&amp;OverBar;</MO></MOVER><MO>=</MO><MUNDEROVER><MI>&amp;CirclePlus;</MI><MROW><MI>c</MI><MO>=</MO><MN>0</MN></MROW><MN>4</MN></MUNDEROVER><MUNDEROVER><MI>&amp;CirclePlus;</MI><MROW><MI>s</MI><MO>=</MO><MN>5</MN></MROW><MN>5</MN></MUNDEROVER><MI>N</MI><MROW><MO>(</MO><MI>F</MI><MROW><MO>(</MO><MI>c</MI><MO>,</MO><MI>s</MI><MO>,</MO><MI>S</MI><MO>)</MO></MROW><MO>)</MO></MROW><MO>-</MO><MO>-</MO><MO>-</MO><MROW><MO>(</MO><MN>5</MN><MO>)</MO></MROW></MROW>]]&gt;</MATH><IMG id=ifm0005 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="18" wi="107" file="FDA00003478494300015.TIF"></MATHS><BR><MATHS id=cmaths0003 num="0003"><MATH><![CDATA[<mrow><MOVER><MI>V</MI><MO>&amp;OverBar;</MO></MOVER><MO>=</MO><MUNDEROVER><MI>&amp;CirclePlus;</MI><MROW><MI>c</MI><MO>=</MO><MN>0</MN></MROW><MN>4</MN></MUNDEROVER><MUNDEROVER><MI>&amp;CirclePlus;</MI><MROW><MI>s</MI><MO>=</MO><MN>5</MN></MROW><MN>5</MN></MUNDEROVER><MI>N</MI><MROW><MO>(</MO><MI>F</MI><MROW><MO>(</MO><MI>c</MI><MO>,</MO><MI>s</MI><MO>,</MO><MI>V</MI><MO>)</MO></MROW><MO>)</MO></MROW><MO>-</MO><MO>-</MO><MO>-</MO><MROW><MO>(</MO><MN>6</MN><MO>)</MO></MROW></MROW>]]&gt;</MATH><IMG id=ifm0006 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="18" wi="107" file="FDA00003478494300016.TIF"></MATHS><BR>上述三式中,<IMG id=ifm0007 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="5" file="FDA00003478494300017.TIF">表示H分量的显著性图像映射,<IMG id=ifm0008 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="4" file="FDA00003478494300018.TIF">表示S分量的显著性图像映射,<IMG id=ifm0009 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="4" file="FDA00003478494300019.TIF">表示V分量的显著性图像映射,c表示细尺度,s表示粗尺度,<IMG id=ifm0010 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="4" file="FDA000034784943000110.TIF">表示映射图的跨尺度相加,N(.)表示标准化;<BR>将三个3个独立显著性图像映射<IMG id=ifm0011 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="7" file="FDA000034784943000111.TIF"><IMG id=ifm0012 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="4" file="FDA000034784943000112.TIF">和V整合为一个显著图S<SUB>hsv</SUB>;<BR><MATHS id=cmaths0004 num="0004"><MATH><![CDATA[<mrow><MSUB><MI>S</MI><MI>hsv</MI></MSUB><MO>=</MO><MFRAC><MN>1</MN><MN>3</MN></MFRAC><MROW><MO>(</MO><MI>N</MI><MROW><MO>(</MO><MOVER><MI>H</MI><MO>&amp;OverBar;</MO></MOVER><MO>)</MO></MROW><MO>+</MO><MI>N</MI><MROW><MO>(</MO><MOVER><MI>S</MI><MO>&amp;OverBar;</MO></MOVER><MO>)</MO></MROW><MO>+</MO><MI>N</MI><MROW><MO>(</MO><MOVER><MI>V</MI><MO>&amp;OverBar;</MO></MOVER><MO>)</MO></MROW><MO>)</MO></MROW><MO>-</MO><MO>-</MO><MO>-</MO><MROW><MO>(</MO><MN>7</MN><MO>)</MO></MROW></MROW>]]&gt;</MATH><IMG id=ifm0013 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="12" wi="106" file="FDA000034784943000113.TIF"></MATHS><BR>式中,S<SUB>hsv</SUB>表示显著图,N(.)表示标准化;<BR>(3)在显著图S<SUB>hsv</SUB>以及颜色分量H中,采用SIFT算法来抽取和描述局部特征,得到显著图S<SUB>hsv</SUB>的特征向量<IMG id=ifm0014 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="32" file="FDA00003478494300021.TIF">和颜色分量H的特征向量<BR><MATHS id=cmaths0005 num="0005"><MATH><![CDATA[<mrow><MSUB><MI>x</MI><MI>c</MI></MSUB><MO>=</MO><MO>{</MO><MSUBSUP><MI>x</MI><MI>c</MI><MN>1</MN></MSUBSUP><MO>,</MO><MSUBSUP><MI>x</MI><MI>c</MI><MN>2</MN></MSUBSUP><MO>,</MO><MO>&amp;CenterDot;</MO><MO>&amp;CenterDot;</MO><MO>&amp;CenterDot;</MO><MSUBSUP><MROW><MO>,</MO><MI>x</MI></MROW><MI>c</MI><MN>128</MN></MSUBSUP><MO>}</MO><MO>;</MO></MROW>]]&gt;</MATH><IMG id=ifm0015 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="35" file="FDA00003478494300022.TIF"></MATHS><BR>首先对显著图S<SUB>hsv</SUB>采用标准的K均值聚类来构建词典,词典大小设定为n’,则词典里面有n’个视觉词汇;词典构建就是将显著图S<SUB>hsv</SUB>中所有的局部特征聚成n’个聚类中心,然后将一个聚类中心当作是一个视觉词汇,则词典里的n’个视觉词汇可以表示为<IMG id=ifm0016 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="32" file="FDA00003478494300023.TIF">词典里面的n’个视觉词汇分别对应一个索引值I<SUB>S</SUB>=[0,1,2,...,n'‑2,n'‑1];<BR>词典构建完毕后,需要进行词典量化并且进行索引值分配;词典量化就是把从显著图S<SUB>hsv</SUB>中提取的每一个局部特征映射到它最接近的视觉词汇上去,索引值分配就是给每一个局部特征所在的坐标点赋予一个对应的视觉词汇索引值v,最后经过词典量化的显著图S<SUB>hsv</SUB>表示为M<SUB>S</SUB>(x,y)=v,<IMG id=ifm0017 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="10" file="FDA00003478494300026.TIF">;<BR>采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为M<SUB>C</SUB>(x,y)=w,<IMG id=ifm0018 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="11" file="FDA00003478494300027.TIF">;<BR>(4)将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系,假设(H,S,V)为柱状坐标系上的一个点,(H',S',V')为(H,S,V)在笛卡尔坐标系上的转换,其中H'=S·cos(H),S'=S·sin(H)和V'=V;假设在HSV颜色空间图像中有一个像素点(x,y),该像素点周边有8个点,分别表示为(x<SUB>i</SUB>,y<SUB>i</SUB>),i=1,2,..,8,则标准刺激的强度I可以定义为:<BR><IMG id=ifm0019 inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="28" wi="111" file="FDA00003478494300024.TIF"><BR>在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值I<SUB>i</SUB>,i=1,2,...,8:<BR><IMG id=ifm0020 inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="28" wi="112" file="FDA00003478494300025.TIF"><BR>此时,代表刺激的最小可觉差△I=min(I<SUB>1</SUB>,I<SUB>2</SUB>,...,I<SUB>8</SUB>),即△I取I<SUB>1</SUB>~I<SUB>8</SUB>中的最小值;<BR>判断HSV颜色空间图像中的各像素点是否满足Weber原理,即△I/I=K,其中ΔI代表刺激的最小可觉差,I代表标准刺激的强度,K是设定的特定感觉道的定值,则保留该像素点(x,y)处的视觉词汇,否则将像素点(x,y)处的视觉词汇删除;由此形成显著图S<SUB>hsv</SUB>的视觉词汇图像W<SUB>s</SUB>(x,y)和颜色分量H的视觉词汇图像W<SUB>c</SUB>(x,y);<BR>(5)以视觉词汇图像W<SUB>s</SUB>(x,y)和W<SUB>c</SUB>(x,y)为基准,分别对它们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测方法如下:<BR>在W<SUB>s</SUB>(x,y)中,将它划分为一系列2×2的,相互不重叠方格;然后判断2×2方格中是否为设定的局部结构模式中的一种,如果出现了其中一种局部结构模式,则该2×2方格中的视觉词汇保持不变,否则将2×2方格内的视觉词汇删除,最终可得到一个结构图像T<SUB>S</SUB>(x,y);采用相同办法,由W<SUB>c</SUB>(x,y)可以得到W<SUB>c</SUB>(x,y)的结构图像T<SUB>C</SUB>(x,y);<BR>以某个结构词汇为中心,在设定距离d范围内,如果它的周边存在若干个具有相同局部结构模式的结构词汇,则这些结构词汇的组合称之为结构语义;<BR>(6)分别统计结构图像T<SUB>S</SUB>(x,y)和T<SUB>C</SUB>(x,y)中视觉词汇出现的频率,并将若干个结构词汇之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中<BR>在结构图像T<SUB>S</SUB>(x,y)和T<SUB>C</SUB>(x,y)中,视觉词汇出现的频率计算方法如下:<BR>H<SUB>s</SUB>(i)=card{(x,y)|T<SUB>s</SUB>(x,y)=i}/(wid×hei)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(10)<BR>H<SUB>C</SUB>(j)=card{(x,y)|T<SUB>C</SUB>(x,y)=j}/(wid×hei)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(11)<BR>上述两式中,H<SUB>s</SUB>(i)表示T<SUB>S</SUB>(x,y)中视觉词汇出现的频率,其中<IMG id=ifm0021 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="10" file="FDA00003478494300033.TIF">;H<SUB>C</SUB>(j)表示T<SUB>C</SUB>(x,y)中视觉词汇出现的频率,其中<IMG id=ifm0022 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="11" file="FDA00003478494300034.TIF">;card{.}表示统计词汇个数,分别是统计T<SUB>S</SUB>(x,y)中的显著图词汇和T<SUB>C</SUB>(x,y)中的颜色词汇,wid和hei分别表示图像宽和图像高;<BR>计算均匀颜色差别的方法如下:<BR>假设在结构图像T<SUB>S</SUB>(x,y)和T<SUB>C</SUB>(x,y)中有两个结构词汇,它们所在位置分别对应两个坐标点(x,y)和(x',y'),在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为(H'(x,y),S'(x,y),V'(x,y))和(H'(x',y'),S'(x',y'),V'(x',y')),则它们之间颜色差别△cd计算方法如下:<BR><IMG id=ifm0023 inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="27" wi="114" file="FDA00003478494300031.TIF"><BR>CDS(i)表示显著图词汇的颜色差别直方图,CDC(j)表示颜色词汇的颜色差别直方图,它们分别定义如下:<BR><IMG id=ifm0024 inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="19" wi="122" file="FDA00003478494300032.TIF"><BR><IMG id=ifm0025 inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="19" wi="124" file="FDA00003478494300041.TIF"><BR>上述两式中,△cd<SUB>s</SUB>表示结构图像T<SUB>S</SUB>(x,y)中,两个坐标点(x,y)和(x',y')之间的颜色差别;△cd<SUB>c</SUB>表示结构图像T<SUB>C</SUB>(x,y)中,两个坐标点(x,y)和(x',y')之间的颜色差别;T<SUB>s</SUB>(x,y)=T<SUB>s</SUB>(x',y')表示在结构图像T<SUB>S</SUB>(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值i,<IMG id=ifm0026 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="10" file="FDA00003478494300044.TIF">;T<SUB>c</SUB>(x,y)=T<SUB>c</SUB>(x',y')表示在结构图像T<SUB>C</SUB>(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值j,<IMG id=ifm0027 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="11" file="FDA00003478494300045.TIF">;<BR>显著图词汇的结构语义直方图SH(i)和颜色词汇的结构语义直方图CH(j),它们分别定义如下:<BR>SH(i)=CDS(i)×H<SUB>s</SUB>(i),i=0,1,...,n‑1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(15)<BR>CH(j)=CDC(j)×H<SUB>c</SUB>(j),j=0,1,2,..,n‑1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(16)<BR>SSH=concac{SH(i),CH(j)}&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(17)<BR>上述三式中,concac{.}表示将上述两个直方图串联起来形成一个最终的直方图,即是结构语义直方图SSH;i和j用做直方图的下标;在CDS(i)和H<SUB>S</SUB>(i)中,i=0,1,2,...,n‑1表示显著图词汇的索引值;在CDC(j)和CH(j)中,j=0,1,2,...,n‑1表示颜色词汇索引值;<BR>(7)将结构语义直方图中的特征向量作为最终特征应用于图像检索,并且采用L1距离来进行图像匹配。<BR><SPAN style="COLOR: blue; FONT-SIZE: 14px; FONT-WEIGHT: bold"><BR>2.</SPAN>&nbsp;&nbsp; 根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(2)中,标准化N(.)由如下步骤组成:<BR>(1)归一化映射图中像素值,将其固定到[0,1]之间的范围,以消除依赖于模态的幅值差异;<BR>(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值<IMG id=ifm0028 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="7" file="FDA00003478494300042.TIF"><BR>(3)整幅映射图乘以<IMG id=ifm0029 inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="19" file="FDA00003478494300043.TIF"><BR><SPAN style="COLOR: blue; FONT-SIZE: 14px; FONT-WEIGHT: bold"><BR>3.</SPAN>&nbsp;&nbsp; 根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(3)中,所述词典大小n’的取值范围为n’=[500,...,100000]。<BR><SPAN style="COLOR: blue; FONT-SIZE: 14px; FONT-WEIGHT: bold"><BR>4.</SPAN>&nbsp;&nbsp; 根据权利要求3所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(3)中,所述词典大小n’的取值为5000。<BR><SPAN style="COLOR: blue; FONT-SIZE: 14px; FONT-WEIGHT: bold"><BR>5.</SPAN>&nbsp;&nbsp; 根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(4)中,设定的特定感觉道的定值K=0.2。<BR><SPAN style="COLOR: blue; FONT-SIZE: 14px; FONT-WEIGHT: bold"><BR>6.</SPAN>&nbsp;&nbsp; 根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(5)中,设定的局部结构模式为11种。<BR><SPAN style="COLOR: blue; FONT-SIZE: 14px; FONT-WEIGHT: bold"><BR>7.</SPAN>&nbsp;&nbsp; 根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(5)中,设定距离d的取值范围介于2‑5之间。<BR></p></div> </div> </div> <div class="zlzy"> <div class="zltitle">说明书</div> <div class="gdyy"> <div class="gdyy_show"><p>基于结构语义直方图的图像检索方法 <BR><SPAN style="COLOR: blue">技术领域</SPAN> <BR>本发明涉及图像检索领域,具体涉及一种基于结构语义直方图的图像检索方法。 <BR><SPAN style="COLOR: blue">背景技术</SPAN> <BR>图形图像是人类交流的媒介并能够提供丰富信息来让人们认识和理解世界。随着数字图像技术和互联网的发展,越来越多的图像涌现。如何高效而快速地进行图像索引和检索成为日益迫切的需求,因此,图像检索成为模式识别和人工智能领域的研究热点之一。一般而言,图像检索主要包括:基于文本的图像检索、基于内容的图像检索和基于语义的图像检索,基于文本的图像检索已经不适合时代要求。鉴于目前人工智能和相关技术的局限性,基于语义的图像检索仍然是一个公开的难题。因此,基于内容的图像检索(CBIR)仍然是非常重要而高效的图像检索方法,并且CBIR系统仍然被广泛应用于学术和工业领域。众所周知,人类视觉系统通过感受野周边的神经元竞争机制而产生少量引起视觉注意的关注点并且抑制不相关对象。视觉注意机制和低层次视觉特征之间存在密切的关系,与此同时,人类更加趋向于用类似文字信息来描述物体属性,主流的Bag‑of‑visual&nbsp;word模型借鉴了文本信息处理模式,在一定程度上具备类似文字信息的功能,所以如何应用视觉感知机制和视觉词汇模型来进行图像检索是一个非常重要并且具有挑战性的问题。 <BR>为了充分利用视觉感知机制和视觉词汇模型的优势来进行图像检索,本发明提出了一种新颖的方法来描述图像特征,它被称之为结构语义直方图(structure&nbsp;semantic&nbsp;histogram)。结构语义根据视觉显著性词汇和感知颜色词汇的结构信息来定义,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。结构语义直方图所包含的信息量明显地高于主流的Bag‑of‑visual&nbsp;word模型,可以视为是Bag‑of‑visual&nbsp;word模型的升华。 <BR><SPAN style="COLOR: blue">发明内容</SPAN> <BR>本发明所要解决的技术问题是:提供一种基于结构语义的图像检索方法,其能够利用直方图来表达语义信息,视觉显著性信息和均匀颜色信息,并且还能够表达视觉词汇所包含的空间结构属性。 <BR>为解决上述问题,本发明是通过以下方案实现的: <BR>一种基于结构语义直方图的图像检索方法,包括如下步骤: <BR>(1)将彩色图像从RGB颜色空间转换到HSV颜色空间;在HSV颜色空间中,H分量表示色彩信息,可用于表示不同颜色。在本发明中被称之为颜色分量。 <BR>(2)在HSV彩色空间中,将H,S和V三个分量用于构建高斯金字塔H(σ),S(σ)和V(σ),其中σ∈[0...5]表示尺度,然后通过跨尺度抽样并产生所谓的特征映射: <BR>F(c,s,H)=|H(c)口H(s)|&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(1) <BR>F(c,s,S)=|S(c)口S(s)|&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(2) <BR>F(c,s,V)=|V(c)口V(s)|&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(3) <BR>式中,F(c,s,H)表示H分量的特征映射,F(c,s,S)表示S分量的特征映射,F(c,s,V)表示V分量的特征映射,H(c)表示H分量细尺度c的高斯金字塔,H(s)表示H分量粗尺度s的高斯金字塔,S(c)表示S分量细尺度c的高斯金字塔,S(s)表示S分量粗尺度s的高斯金字塔,V(c)表示V分量细尺度c的高斯金字塔,V(s)表示V分量粗尺度s的高斯金字塔,口表示中心‑周边差操作,它是在“中心”细尺度c和“周边”粗尺度之间进行,并产生特征映射图; <BR>将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="8" wi="13" file="BDA00003478494400021.TIF">和<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="7" file="BDA00003478494400022.TIF"> <BR><MATHS num="0001"><MATH><![CDATA[ <mrow><MOVER><MI>H</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>=</MO> <MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>c</MI> <MO>=</MO> <MN>0</MN> </MROW><MN>4</MN> </MUNDEROVER><MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>s</MI> <MO>=</MO> <MN>5</MN> </MROW><MN>5</MN> </MUNDEROVER><MI>N</MI> <MROW><MO>(</MO> <MI>F</MI> <MROW><MO>(</MO> <MI>c</MI> <MO>,</MO> <MI>s</MI> <MO>,</MO> <MI>H</MI> <MO>)</MO> </MROW><MO>)</MO> </MROW><MO>-</MO> <MO>-</MO> <MO>-</MO> <MROW><MO>(</MO> <MN>4</MN> <MO>)</MO> </MROW></MROW>]]&gt;</MATH><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="19" wi="109" file="BDA00003478494400023.TIF"></MATHS> <BR><MATHS num="0002"><MATH><![CDATA[ <mrow><MOVER><MI>S</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>=</MO> <MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>c</MI> <MO>=</MO> <MN>0</MN> </MROW><MN>4</MN> </MUNDEROVER><MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>s</MI> <MO>=</MO> <MN>5</MN> </MROW><MN>5</MN> </MUNDEROVER><MI>N</MI> <MROW><MO>(</MO> <MI>F</MI> <MROW><MO>(</MO> <MI>c</MI> <MO>,</MO> <MI>s</MI> <MO>,</MO> <MI>S</MI> <MO>)</MO> </MROW><MO>)</MO> </MROW><MO>-</MO> <MO>-</MO> <MO>-</MO> <MROW><MO>(</MO> <MN>5</MN> <MO>)</MO> </MROW></MROW>]]&gt;</MATH><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="19" wi="108" file="BDA00003478494400024.TIF"></MATHS> <BR><MATHS num="0003"><MATH><![CDATA[ <mrow><MOVER><MI>V</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>=</MO> <MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>c</MI> <MO>=</MO> <MN>0</MN> </MROW><MN>4</MN> </MUNDEROVER><MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>s</MI> <MO>=</MO> <MN>5</MN> </MROW><MN>5</MN> </MUNDEROVER><MI>N</MI> <MROW><MO>(</MO> <MI>F</MI> <MROW><MO>(</MO> <MI>c</MI> <MO>,</MO> <MI>s</MI> <MO>,</MO> <MI>V</MI> <MO>)</MO> </MROW><MO>)</MO> </MROW><MO>-</MO> <MO>-</MO> <MO>-</MO> <MROW><MO>(</MO> <MN>6</MN> <MO>)</MO> </MROW></MROW>]]&gt;</MATH><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="18" wi="107" file="BDA00003478494400025.TIF"></MATHS> <BR>式中,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="5" file="BDA00003478494400026.TIF">表示H分量的显著性图像映射,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="4" file="BDA00003478494400027.TIF">表示S分量的显著性图像映射,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="4" file="BDA00003478494400028.TIF">表示V分量的显著性图像映射,c表示细尺度,s表示粗尺度,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="5" file="BDA00003478494400029.TIF">表示映射图的跨尺度相加,N(.)表示标准化; <BR>三个3个独立显著性图像映射<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="7" file="BDA000034784944000210.TIF"><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="4" file="BDA000034784944000211.TIF">和<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="4" file="BDA000034784944000212.TIF">整合为一个显著图Shsv。 <BR><MATHS num="0004"><MATH><![CDATA[ <mrow><MSUB><MI>S</MI> <MI>hsv</MI> </MSUB><MO>=</MO> <MFRAC><MN>1</MN> <MN>3</MN> </MFRAC><MROW><MO>(</MO> <MI>N</MI> <MROW><MO>(</MO> <MOVER><MI>H</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>)</MO> </MROW><MO>+</MO> <MI>N</MI> <MROW><MO>(</MO> <MOVER><MI>S</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>)</MO> </MROW><MO>+</MO> <MI>N</MI> <MROW><MO>(</MO> <MOVER><MI>V</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>)</MO> </MROW><MO>)</MO> </MROW><MO>-</MO> <MO>-</MO> <MO>-</MO> <MROW><MO>(</MO> <MN>7</MN> <MO>)</MO> </MROW></MROW>]]&gt;</MATH><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="12" wi="106" file="BDA000034784944000213.TIF"></MATHS> <BR>式中,S<SUB>hsv</SUB>表示显著图,N(.)表示标准化; <BR>(3)在显著图S<SUB>hsv</SUB>以及颜色分量H中,采用SIFT(尺度不变特征转换)算法来抽取和描述局部特征,得到显著图S<SUB>hsv</SUB>的特征向量<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="32" file="BDA000034784944000214.TIF">和颜色分量H的特征向量<MATHS num="0005"><MATH><![CDATA[ <mrow> <MSUB><MI>x</MI> <MI>c</MI> </MSUB><MO>=</MO> <MO>{</MO> <MSUBSUP><MI>x</MI> <MI>c</MI> <MN>1</MN> </MSUBSUP><MO>,</MO> <MSUBSUP><MI>x</MI> <MI>c</MI> <MN>2</MN> </MSUBSUP><MO>,</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MO>&amp;CenterDot;</MO> <MSUBSUP><MROW><MO>,</MO> <MI>x</MI> </MROW><MI>c</MI> <MN>128</MN> </MSUBSUP><MO>}</MO> <MO>;</MO> </MROW>]]&gt;</MATH><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="35" file="BDA000034784944000215.TIF"></MATHS> <BR>首先对显著图S<SUB>hsv</SUB>采用标准的K均值聚类来构建词典,词典大小设定为n’,则词典里面有n’个视觉词汇。词典构建就是将显著图S<SUB>hsv</SUB>中所有的局部特征聚成n’个聚类中心,然后将每一个聚类中心当作是一个视觉词汇,则词典里的n’个视觉词汇可以表示为<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="32" file="BDA00003478494400031.TIF">词典里面的n’个视觉词汇分别对应一个索引值I<SUB>S</SUB>=[0,1,2,...,n'‑2,n'‑1]; <BR>词典构建完毕后,需要进行词典量化并且进行索引值分配。词典量化就是把从显著图S<SUB>hsv</SUB>中提取的每一个局部特征映射到它最接近的视觉词汇上去,索引值分配就是给每一个局部特征所在的坐标点赋予一个对应的视觉词汇索引值v,最后经过词典量化的显著图S<SUB>hsv</SUB>表示为M<SUB>S</SUB>(x,y)=v,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="10" file="BDA00003478494400034.TIF">。 <BR>采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为M<SUB>C</SUB>(x,y)=w,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="11" file="BDA00003478494400035.TIF">。 <BR>(4)将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系,假设(H,S,V)为柱状坐标系上的一个点,(H',S',V')为(H,S,V)在笛卡尔坐标系上的转换,其中H'=S·cos(H),S'=S·sin(H)和V'=V;假设在HSV颜色空间图像中有一个像素点(x,y),该像素点周边有8个点,分别表示为(x<SUB>i</SUB>,y<SUB>i</SUB>),i=1,2,..,8,则标准刺激的强度I可以定义为: <BR><IMG inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="29" wi="111" file="BDA00003478494400032.TIF"> <BR>在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值I<SUB>i</SUB>,i=1,2,...,8: <BR><IMG inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="29" wi="112" file="BDA00003478494400033.TIF"> <BR>此时,代表刺激的最小可觉差△I=min(I<SUB>1</SUB>,I<SUB>2</SUB>,...,I<SUB>8</SUB>),即△I取I<SUB>1</SUB>~I<SUB>8</SUB>中的最小值; <BR>判断HSV颜色空间图像中的各像素点是否满足Weber原理,即△I/I=K,其中ΔI代表刺激的最小可觉差,I代表标准刺激的强度,K是设定的特定感觉道的定值,则保留该像素点(x,y)处的视觉词汇,否则将像素点(x,y)处的视觉词汇删除;由此形成显著图S<SUB>hsv</SUB>的视觉词汇图像W<SUB>s</SUB>(x,y)和颜色分量H的视觉词汇图像W<SUB>c</SUB>(x,y); <BR>(5)以视觉词汇图像W<SUB>s</SUB>(x,y)和W<SUB>c</SUB>(x,y)为基准,分别对它们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测方法如下: <BR>在W<SUB>s</SUB>(x,y)中,将它划分为一系列2×2的,相互不重叠方格;然后判断2×2方格中是否为设定的局部结构模式中的一种,如果出现了其中一种局部结构模式,则该2×2方格中的视觉词汇保持不变,否则将2×2方格内的视觉词汇全部删除,最终可得到一个结构图像T<SUB>S</SUB>(x,y);采用相同办法,由W<SUB>c</SUB>(x,y)可以得到W<SUB>c</SUB>(x,y)的结构图像T<SUB>C</SUB>(x,y); <BR>以某个结构词汇为中心,在设定距离d范围内,如果它的周边存在若干个具有相同局部结构模式的结构词汇,则这些结构词汇的组合称之为结构语义; <BR>(6)分别统计结构图像T<SUB>S</SUB>(x,y)和T<SUB>C</SUB>(x,y)中视觉词汇出现的频率,并将若干个结构词汇之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中 <BR>在结构图像T<SUB>S</SUB>(x,y)和T<SUB>C</SUB>(x,y)中,视觉词汇出现的频率计算方法如下: <BR>H<SUB>s</SUB>(i)=card{(x,y)|T<SUB>s</SUB>(x,y)=i}/(wid×hei)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(10) <BR>H<SUB>C</SUB>(j)=card{(x,y)|T<SUB>C</SUB>(x,y)=j}/(wid×hei)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(11) <BR>式中,H<SUB>s</SUB>(i)表示T<SUB>S</SUB>(x,y)中视觉词汇出现的频率,其中<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="10" file="BDA00003478494400044.TIF">。H<SUB>C</SUB>(j)表示T<SUB>C</SUB>(x,y)中视觉词汇出现的频率,其中<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="11" file="BDA00003478494400045.TIF">。card{.}表示统计词汇个数,分别是统计T<SUB>S</SUB>(x,y)中的显著图词汇和T<SUB>C</SUB>(x,y)中的颜色词汇,wid和hei分别表示图像宽和图像高; <BR>计算均匀颜色差别的方法如下: <BR>假设在结构图像T<SUB>S</SUB>(x,y)和T<SUB>C</SUB>(x,y)中有两个结构词汇,它们所在位置分别对应两个坐标点(x,y)和(x',y'),在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为(H'(x,y),S'(x,y),V'(x,y))和(H'(x',y'),S'(x',y'),V'(x',y')),则它们之间颜色差别△cd计算方法如下: <BR><IMG inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="28" wi="114" file="BDA00003478494400041.TIF"> <BR>CDS(i)表示显著图词汇的颜色差别直方图,CDC(j)表示颜色词汇的颜色差别直方图,它们分别定义如下: <BR><IMG inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="18" wi="122" file="BDA00003478494400042.TIF"> <BR><IMG inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="19" wi="124" file="BDA00003478494400043.TIF"> <BR>式中,△cd<SUB>s</SUB>表示结构图像T<SUB>S</SUB>(x,y)中,两个坐标点(x,y)和(x',y')之间的颜色差别;△cd<SUB>c</SUB>表示结构图像T<SUB>C</SUB>(x,y)中,两个坐标点(x,y)和(x',y')之间的颜色差别;T<SUB>s</SUB>(x,y)=T<SUB>s</SUB>(x',y')表示在结构图像T<SUB>S</SUB>(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值i,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="4" wi="10" file="BDA00003478494400053.TIF">;T<SUB>c</SUB>(x,y)=T<SUB>c</SUB>(x',y')表示在结构图像T<SUB>C</SUB>(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值j,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="11" file="BDA00003478494400054.TIF">; <BR>显著图词汇的结构语义直方图SH(i)和颜色词汇的结构语义直方图CH(j),它们分别定义如下: <BR>SH(i)=CDS(i)×H<SUB>s</SUB>(i),i=0,1,...,n‑1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(15) <BR>CH(j)=CDC(j)×H<SUB>c</SUB>(j),j=0,1,2,..,n‑1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(16) <BR>SSH=concac{SH(i),CH(j)}&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(17) <BR>式中,concac{.}表示将上述两个直方图串联起来形成一个最终的直方图,即是结构语义直方图SSH;i和j用做直方图的下标;在CDS(i)和H<SUB>S</SUB>(i)中,i=0,1,2,...,n‑1表示显著图词汇的索引值;在CDC(j)和CH(j)中,j=0,1,2,...,n‑1表示颜色词汇索引值; <BR>(7)将结构语义直方图中的特征向量作为最终特征应用于图像检索,并且采用L1距离来进行图像匹配。 <BR>上述步骤(3)中,标准化N(.)由如下步骤组成: <BR>(1)归一化映射图中像素值,将其固定到[0,1]之间的范围,以消除依赖于模态的幅值差异; <BR>(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="7" file="BDA00003478494400051.TIF"> <BR>(3)整幅映射图乘以<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="19" file="BDA00003478494400052.TIF"> <BR>上述步骤(2)中,所述词典大小n’的取值范围为n’=[500,...,100000]。 <BR>上述步骤(3)中,所述词典大小n’的取值为5000。 <BR>上述步骤(4)中,设定的特定感觉道的定值K=0.2。 <BR>上述步骤(5)中,设定的局部结构模式为11种。 <BR>上述步骤(5)中,设定距离d的取值范围介于2‑5之间。 <BR>与现有技术相比,本发明关注基于视觉感知机制和视觉词汇模型两者的优势来进行图像检索,提出结构语义直方图的新型图像特征表达方法。结构语义直方图可看作为主流的视觉词汇(Bag‑of‑visual&nbsp;words)模型的升华,专门用于自然图像分析,并且比主流的视觉词汇方法具有更丰富信息。它整合了视觉词汇,语义特征和直方图的优点,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。 <BR><SPAN style="COLOR: blue">附图说明</SPAN> <BR>图1为用于进行结构词汇检测的11种局部结构模式; <BR>图2为结构语义检测示例。 <BR><SPAN style="COLOR: blue">具体实施方式</SPAN> <BR>一种基于共生稀疏直方图的图像检索方法,包括如下步骤: <BR>(1)将彩色图像从RGB颜色空间转换到HSV彩色空间。 <BR>(2)人类视觉系统具有非常突出的信息筛选能力,能够迅速找到相关的重要信息,忽略掉不相关信息,这就是视觉注意机制,因此研究视觉注意机制的计算模型,可以降低图像处理的复杂性,减少计算资源耗费,极大提高信息处理的效率。鉴于HSV颜色空间和人类颜色感知具有一定的相似性,因此本发明依据HSV颜色空间定义若干初级视觉特征来进行显著性检测。它由H,S和V分量图像构成。将H,S和V用于构建高斯金字塔H(σ),S(σ)和V(σ),其中σ∈[0...5]表示尺度,然后通过跨尺度抽样并产生所谓的特征映射: <BR>F(c,s,H)=|H(c)口H(s)|&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(1) <BR>F(c,s,S)=|S(c)口S(s)|&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(2) <BR>F(c,s,V)=|V(c)口V(s)|&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(3) <BR>上述三式中,口表示中心‑周边差操作,它是在“中心”细尺度c和“周边”粗尺度s之间进行,并产生特征映射图。 <BR>将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="7" file="BDA00003478494400061.TIF"><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="3" file="BDA00003478494400062.TIF">和<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="6" file="BDA00003478494400063.TIF"> <BR><MATHS num="0006"><MATH><![CDATA[ <mrow><MOVER><MI>H</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>=</MO> <MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>c</MI> <MO>=</MO> <MN>0</MN> </MROW><MN>4</MN> </MUNDEROVER><MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>s</MI> <MO>=</MO> <MN>5</MN> </MROW><MN>5</MN> </MUNDEROVER><MI>N</MI> <MROW><MO>(</MO> <MI>F</MI> <MROW><MO>(</MO> <MI>c</MI> <MO>,</MO> <MI>s</MI> <MO>,</MO> <MI>H</MI> <MO>)</MO> </MROW><MO>)</MO> </MROW><MO>-</MO> <MO>-</MO> <MO>-</MO> <MROW><MO>(</MO> <MN>4</MN> <MO>)</MO> </MROW></MROW>]]&gt;</MATH><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="19" wi="105" file="BDA00003478494400064.TIF"></MATHS> <BR><MATHS num="0007"><MATH><![CDATA[ <mrow><MOVER><MI>S</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>=</MO> <MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>c</MI> <MO>=</MO> <MN>0</MN> </MROW><MN>4</MN> </MUNDEROVER><MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>s</MI> <MO>=</MO> <MN>5</MN> </MROW><MN>5</MN> </MUNDEROVER><MI>N</MI> <MROW><MO>(</MO> <MI>F</MI> <MROW><MO>(</MO> <MI>c</MI> <MO>,</MO> <MI>s</MI> <MO>,</MO> <MI>S</MI> <MO>)</MO> </MROW><MO>)</MO> </MROW><MO>-</MO> <MO>-</MO> <MO>-</MO> <MROW><MO>(</MO> <MN>5</MN> <MO>)</MO> </MROW></MROW>]]&gt;</MATH><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="19" wi="105" file="BDA00003478494400065.TIF"></MATHS> <BR><MATHS num="0008"><MATH><![CDATA[ <mrow><MOVER><MI>V</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>=</MO> <MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>c</MI> <MO>=</MO> <MN>0</MN> </MROW><MN>4</MN> </MUNDEROVER><MUNDEROVER><MI>&amp;CirclePlus;</MI> <MROW><MI>s</MI> <MO>=</MO> <MN>5</MN> </MROW><MN>5</MN> </MUNDEROVER><MI>N</MI> <MROW><MO>(</MO> <MI>F</MI> <MROW><MO>(</MO> <MI>c</MI> <MO>,</MO> <MI>s</MI> <MO>,</MO> <MI>V</MI> <MO>)</MO> </MROW><MO>)</MO> </MROW><MO>-</MO> <MO>-</MO> <MO>-</MO> <MROW><MO>(</MO> <MN>6</MN> <MO>)</MO> </MROW></MROW>]]&gt;</MATH><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="19" wi="105" file="BDA00003478494400066.TIF"></MATHS> <BR>上述三式中,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="5" file="BDA00003478494400067.TIF">表示映射图的跨尺度相加, <BR>将三个3个独立显著性图像映射<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="6" file="BDA00003478494400068.TIF"><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="4" file="BDA00003478494400069.TIF">和<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="4" file="BDA000034784944000610.TIF">整合为一个显著图S<SUB>hsv</SUB>。 <BR><MATHS num="0009"><MATH><![CDATA[ <mrow><MSUB><MI>S</MI> <MI>hsv</MI> </MSUB><MO>=</MO> <MFRAC><MN>1</MN> <MN>3</MN> </MFRAC><MROW><MO>(</MO> <MI>N</MI> <MROW><MO>(</MO> <MOVER><MI>H</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>)</MO> </MROW><MO>+</MO> <MI>N</MI> <MROW><MO>(</MO> <MOVER><MI>S</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>)</MO> </MROW><MO>+</MO> <MI>N</MI> <MROW><MO>(</MO> <MOVER><MI>V</MI> <MO>&amp;OverBar;</MO> </MOVER><MO>)</MO> </MROW><MO>)</MO> </MROW><MO>-</MO> <MO>-</MO> <MO>-</MO> <MROW><MO>(</MO> <MN>7</MN> <MO>)</MO> </MROW></MROW>]]&gt;</MATH><IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="11" wi="108" file="BDA000034784944000611.TIF"></MATHS> <BR>上述式中,N(.)表示标准化,N(.)由如下步骤组成:(1)归一化映射图中像素值,将其固定到[0,1]之间的范围,以消除依赖于模态的幅值差异;(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="7" file="BDA000034784944000612.TIF">(3)整幅映射图乘以<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="19" file="BDA000034784944000613.TIF"> <BR>(3)对于彩色图像而言,在HSV颜色空间中,H分量可以用于描述不同颜色。在显著图S以及H分量中,采用SIFT算法来抽取和描述局部特征,得到的特征向量分别表示为<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="31" file="BDA000034784944000614.TIF">和<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="7" wi="35" file="BDA000034784944000615.TIF">鉴于SIFT算法是一种非常著名并且广泛应用的算法,本发明将不再赘述。 <BR>首先对显著图S<SUB>hsv</SUB>采用标准的K均值聚类来构建词典,词典大小设定为n’,词典构建就是将显著图S<SUB>hsv</SUB>中所有的局部特征聚成n’个聚类中心,然后将一个聚类中心当作是一个视觉词汇,则词典里的n’个视觉词汇可以表示为<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="6" wi="35" file="BDA00003478494400071.TIF">词典里面的n’个视觉词汇分别对应一个索引值I<SUB>S</SUB>=[0,1,2,...,n'‑2,n'‑1]; <BR>词典构建完毕后,需要进行词典量化并且进行索引值分配。词典量化就是把从显著图S<SUB>hsv</SUB>中提取的每一个局部特征映射到它最接近的视觉词汇上去,并且给每一个局部特征所在的坐标点赋予一个对应的索引值v,最后经过词典量化的显著图S<SUB>hsv</SUB>表示为M<SUB>S</SUB>(x,y)=v,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="11" file="BDA00003478494400073.TIF">。 <BR>采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为M<SUB>C</SUB>(x,y)=w,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="4" wi="11" file="BDA00003478494400074.TIF">。鉴于K均值聚类算法是一种非常著名并且广泛应用的聚类算法,本发明也将不再赘述。 <BR>(4)在经典的文本检索技术中,需要删除停用词以提高索引效率。鉴于视觉词汇和文本词汇是有区别的,在本发明中,拟删除10%的频率太高和太低的视觉词汇。在颜色词汇以及显著图词汇中,如果某些词汇出现频率太高或者太低,很可能代表的是图像背景或者噪声,需要删除这些噪声词汇。为了尽量减少误删视觉词汇的现象,需要综合考虑视觉词汇之间的均匀颜色差别的对比度来考虑。如果某图像存在频率太高或者太低的视觉词汇,则将这些视觉词汇称为拟删除视觉词汇。在图像中,以拟删除的视觉词汇为中心,考虑它与周边视觉词汇之间的均匀颜色差别的对比度。如果满足Weber原理,则保留该词汇,否则就真正删除该词汇。本发明将最佳的噪声词汇删除比例确定为20%。 <BR>将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系,假设(H,S,V)为柱状坐标系上的一个点,(H',S',V')为(H,S,V)在笛卡尔坐标系上的转换,其中H'=S·cos(H),S'=S·sin(H)和V'=V;假设在HSV颜色空间图像中有一个像素点(x,y),该像素点周边有8个点,分别表示为(x<SUB>i</SUB>,y<SUB>i</SUB>),i=1,2,..,8,则标准刺激的强度I可以定义为: <BR><IMG inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="29" wi="111" file="BDA00003478494400072.TIF"> <BR>在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值I<SUB>i</SUB>,i=1,2,...,8: <BR><IMG inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="28" wi="112" file="BDA00003478494400081.TIF"> <BR>此时,代表刺激的最小可觉差△I=min(I<SUB>1</SUB>,I<SUB>2</SUB>,...,I<SUB>8</SUB>),即△I取I<SUB>1</SUB>~I<SUB>8</SUB>中的最小值; <BR>判断HSV颜色空间图像中的各像素点是否满足Weber原理,即△I/I=K,其中ΔI代表刺激的最小可觉差,I代表标准刺激的强度,K是设定的特定感觉道的定值,则保留该像素点(x,y)处的视觉词汇,否则将像素点(x,y)处的视觉词汇删除;由此形成显著图S<SUB>hsv</SUB>的视觉词汇图像W<SUB>s</SUB>(x,y)和颜色分量H的视觉词汇图像W<SUB>c</SUB>(x,y); <BR>(5)以视觉词汇图像W<SUB>s</SUB>(x,y)和W<SUB>c</SUB>(x,y)为基准,分别对它们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测原理如下: <BR>在W<SUB>s</SUB>(x,y)中,将它划分为一系列2×2的,相互不重叠方格。然后判断2×2方格中是否出现图1所示的11种局部结构模式,如果出现了其中一种局部结构模式,则该2×2方格中的视觉词汇保持不变,否则将2×2方格内的视觉词汇删除,最终可得到一个结构图像T<SUB>S</SUB>(x,y),其中2×2方格中的词汇集合称之为结构词汇。采用相同办法,可以得到W<SUB>c</SUB>(x,y)的结构图像T<SUB>C</SUB>(x,y)。 <BR>以某个结构词汇为中心,在设定距离d范围内,如果它的周边存在若干个具有相同模式的结构词汇,则这些结构词汇的组合称之为结构语义,例如图2所示。在本发明中,设定距离d的取值范围介于2‑5之间。 <BR>(6)在设定的距离d范围内,分别统计T<SUB>S</SUB>(x,y)和T<SUB>C</SUB>(x,y)中词汇出现的频率,并将若干个局部结构模式之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中 <BR>在T<SUB>S</SUB>(x,y)和T<SUB>C</SUB>(x,y)中,视觉词汇出现的频率计算方法如下: <BR>H<SUB>s</SUB>(i)=card{(x,y)|T<SUB>s</SUB>(x,y)=i}/(wid×hei)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(10) <BR>H<SUB>C</SUB>(j)=card{(x,y)|T<SUB>C</SUB>(x,y)=j}/(wid×hei)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(11) <BR>上述两式中,H<SUB>s</SUB>(i)表示T<SUB>S</SUB>(x,y)中视觉词汇出现的频率,其中<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="10" file="BDA00003478494400082.TIF">。H<SUB>C</SUB>(j)表示T<SUB>C</SUB>(x,y)中视觉词汇出现的频率,其中<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="11" file="BDA00003478494400083.TIF">。card{.}表示统计词汇个数,分别是统计T<SUB>S</SUB>(x,y)中的显著图词汇和T<SUB>C</SUB>(x,y)中的颜色词汇,wid和hei分别表示图像宽和图像高; <BR>计算均匀颜色差别的方法如下: <BR>假设在结构图像T<SUB>S</SUB>(x,y)和T<SUB>C</SUB>(x,y)中有两个结构词汇,它们所在位置分别对应两个坐标点(x,y)和(x',y'),在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为(H'(x,y),S'(x,y),V'(x,y))和(H'(x',y'),S'(x',y'),V'(x',y')),则它们之间颜色差别△cd计算方法如下: <BR><IMG inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="27" wi="114" file="BDA00003478494400091.TIF"> <BR>CDS(i)表示显著图词汇的颜色差别直方图,CDC(j)表示颜色词汇的颜色差别直方图,它们分别定义如下: <BR><IMG inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="18" wi="122" file="BDA00003478494400092.TIF"> <BR><IMG inline="no" orientation="portrait" img-format="tif" img-content="drawing" he="19" wi="124" file="BDA00003478494400093.TIF"> <BR>上述两个公式中,△cd<SUB>s</SUB>表示结构图像T<SUB>S</SUB>(x,y)中,两个坐标点(x,y)和(x',y')之间的颜色差别;△cd<SUB>c</SUB>表示结构图像T<SUB>C</SUB>(x,y)中,两个坐标点(x,y)和(x',y')之间的颜色差别;T<SUB>s</SUB>(x,y)=T<SUB>s</SUB>(x',y')表示在结构图像T<SUB>S</SUB>(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值i,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="10" file="BDA00003478494400094.TIF">;T<SUB>c</SUB>(x,y)=T<SUB>c</SUB>(x',y')表示在结构图像T<SUB>C</SUB>(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值j,<IMG inline="yes" orientation="portrait" img-format="tif" img-content="drawing" he="5" wi="11" file="BDA00003478494400095.TIF">; <BR>显著图词汇的结构语义直方图SH(i)和颜色词汇的结构语义直方图CH(j),它们分别定义如下: <BR>SH(i)=CDS(i)×H<SUB>s</SUB>(i),i=0,1,...,n‑1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(15) <BR>CH(j)=CDC(j)×H<SUB>c</SUB>(j),j=0,1,2,..,n‑1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(16) <BR>SSH=concac{SH(i),CH(j)}&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(17) <BR>上述三式中,concac{.}表示将上述两个直方图串联起来形成一个最终的直方图,即是结构语义直方图(SSH);i和j用做直方图的下标;在CDS(i)和H<SUB>S</SUB>(i)中,i=0,1,2,...,n‑1表示显著图词汇的索引值;在CDC(j)和CH(j)中,j=0,1,2,...,n‑1表示颜色词汇索引值; <BR>结构语义直方图在词汇局部结构的基础上能够同时表达显著词汇和颜色词汇的空间关系,它将均匀颜色差别信息和直方图整合为一个描述子,并且采用直方图来描述两者属性。结构语义直方图借鉴了视觉注意机制和自然语言处理技术,非常容易实现,很适合于大规模的图像检索。视觉词汇的局部结构能够保留一定的几何信息,同时也包含了一种局部结构和局部结构之间的关系(空间关系以及几何关系),在一定程度上,它体现了视觉词汇的几何上下文信息。结构语义直方图可看作是一种广义的视觉属性描述子,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息,所以,结构语义直方图所包含的信息量明显地高于主流的Bag‑of‑visual&nbsp;word模型,可以视为是Bag‑of‑visual&nbsp;word模型的升华。本发明还具有非常强的扩展性,完全可以采用相同方式融合更多视觉信息。例如纹理特征,边缘特征等等。 <BR>(5)将结构语义直方图中的5000维特征向量作为最终特征应用于图像检索。传统的bag‑of‑visual&nbsp;words模型在图像匹配过程中一般采用Cos距离,本发明在检索过程中采用L1距离进行图像匹配。采用L1距离的主要原因是L1距离计算简单,计算量小,不要开方和开根号计算。</p></div> </div> </div> </div> <div class="tempdiv cssnone" style="line-height:0px;height:0px; overflow:hidden;"> </div> <div id="page"> <div class="page"><img src='https://img.zhuanlichaxun.net/fileroot1/2018-4/11/dfc39c92-02f8-45fd-8d59-648629251f2f/dfc39c92-02f8-45fd-8d59-648629251f2f1.gif' alt="基于结构语义直方图的图像检索方法.pdf_第1页" width='100%'/></div><div class="pageSize">第1页 / 共15页</div> <div class="page"><img src='https://img.zhuanlichaxun.net/fileroot1/2018-4/11/dfc39c92-02f8-45fd-8d59-648629251f2f/dfc39c92-02f8-45fd-8d59-648629251f2f2.gif' alt="基于结构语义直方图的图像检索方法.pdf_第2页" width='100%'/></div><div class="pageSize">第2页 / 共15页</div> <div class="page"><img src='https://img.zhuanlichaxun.net/fileroot1/2018-4/11/dfc39c92-02f8-45fd-8d59-648629251f2f/dfc39c92-02f8-45fd-8d59-648629251f2f3.gif' alt="基于结构语义直方图的图像检索方法.pdf_第3页" width='100%'/></div><div class="pageSize">第3页 / 共15页</div> </div> <div id="pageMore" class="btnmore" onclick="ShowSvg();">点击查看更多>></div> <div style="margin-top:20px; line-height:0px; height:0px; overflow:hidden;"> <div style=" font-size: 16px; background-color:#e5f0f7; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px; margin-bottom:10px;">资源描述</div> <div class="detail-article prolistshowimg"> <p>《基于结构语义直方图的图像检索方法.pdf》由会员分享,可在线阅读,更多相关《基于结构语义直方图的图像检索方法.pdf(15页珍藏版)》请在专利查询网上搜索。</p> <p >1、10申请公布号CN103336830A43申请公布日20131002CN103336830ACN103336830A21申请号201310284272422申请日20130708G06F17/3020060171申请人刘广海地址541004广西壮族自治区桂林市七星区育才路15号69栋302室72发明人刘广海74专利代理机构桂林市持衡专利商标事务所有限公司45107代理人陈跃琳54发明名称基于结构语义直方图的图像检索方法57摘要本发明提出一种基于结构语义的图像检索方法,关注基于视觉感知机制和视觉词汇模型两者的优势来进行图像检索,提出结构语义直方图的新型图像特征表达方法;结构语义直方图可看作为主流。</p> <p >2、的视觉词汇模型的升华,专门用于自然图像分析,并且比主流的视觉词汇方法具有更丰富信息。它整合了视觉词汇,语义特征和直方图的优点,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。51INTCL权利要求书4页说明书9页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书9页附图1页10申请公布号CN103336830ACN103336830A1/4页21基于结构语义直方图的图像检索方法,其特征是包括如下步骤(1)将彩色图像从RGB颜色空间转换到HSV颜色空间;在HSV颜色空间中,H分量表示色彩信息,可用于表示不同颜。</p> <p >3、色,称之为颜色分量;(2)在HSV彩色空间中,将H,S和V三个分量用于构建高斯金字塔H,S和V,其中05表示尺度,然后通过跨尺度抽样并产生所谓的特征映射F(C,S,H)|H(C)口H(S)|(1)F(C,S,S)|S(C)口S(S)|(2)F(C,S,V)|V(C)口V(S)|(3)式中,F(C,S,H)表示H分量的特征映射,F(C,S,S)表示S分量的特征映射,F(C,S,V)表示V分量的特征映射,H(C)表示H分量细尺度C的高斯金字塔,H(S)表示H分量粗尺度S的高斯金字塔,S(C)表示S分量细尺度C的高斯金字塔,S(S)表示S分量粗尺度S的高斯金字塔,V(C)表示V分量细尺度C的高斯金字。</p> <p >4、塔,V(S)表示V分量粗尺度S的高斯金字塔,口表示中心周边差操作,它是在“中心”细尺度C和“周边”粗尺度之间进行,并产生特征映射图;将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射和上述三式中,表示H分量的显著性图像映射,表示S分量的显著性图像映射,表示V分量的显著性图像映射,C表示细尺度,S表示粗尺度,表示映射图的跨尺度相加,N表示标准化;将三个3个独立显著性图像映射和V整合为一个显著图SHSV;式中,SHSV表示显著图,N表示标准化;(3)在显著图SHSV以及颜色分量H中,采用SIFT算法来抽取和描述局部特征,得到显著图SHSV的特征向量和颜色分量H的特征向量。</p> <p >5、权利要求书CN103336830A2/4页3首先对显著图SHSV采用标准的K均值聚类来构建词典,词典大小设定为N,则词典里面有N个视觉词汇;词典构建就是将显著图SHSV中所有的局部特征聚成N个聚类中心,然后将一个聚类中心当作是一个视觉词汇,则词典里的N个视觉词汇可以表示为词典里面的N个视觉词汇分别对应一个索引值IS0,1,2,N2,N1;词典构建完毕后,需要进行词典量化并且进行索引值分配;词典量化就是把从显著图SHSV中提取的每一个局部特征映射到它最接近的视觉词汇上去,索引值分配就是给每一个局部特征所在的坐标点赋予一个对应的视觉词汇索引值V,最后经过词典量化的显著图SHSV表示为MSX,YV,。</p> <p >6、;采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为MCX,YW,;(4)将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系,假设H,S,V为柱状坐标系上的一个点,H,S,V为H,S,V在笛卡尔坐标系上的转换,其中HSCOSH,SSSINH和VV;假设在HSV颜色空间图像中有一个像素点X,Y,该像素点周边有8个点,分别表示为XI,YI,I1,2,8,则标准刺激的强度I可以定义为在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值II,I1,2,8此时,代表刺激的最小可觉差IMINI1,I2,I8,即I取I1I8中的最小值;判断HSV颜色空间图像中的各像素点是否满。</p> <p >7、足WEBER原理,即I/IK,其中I代表刺激的最小可觉差,I代表标准刺激的强度,K是设定的特定感觉道的定值,则保留该像素点X,Y处的视觉词汇,否则将像素点X,Y处的视觉词汇删除;由此形成显著图SHSV的视觉词汇图像WSX,Y和颜色分量H的视觉词汇图像WCX,Y;(5)以视觉词汇图像WSX,Y和WCX,Y为基准,分别对它们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测方法如下在WSX,Y中,将它划分为一系列22的,相互不重叠方格;然后判断22方格中是否为设定的局部结构模式中的一种,如果出现了其中一种局部结构模式,则该22方格中的视觉词。</p> <p >8、汇保持不变,否则将22方格内的视觉词汇删除,最终可得到一个结构图像TSX,Y;采用相同办法,由WCX,Y可以得到WCX,Y的结构图像TCX,Y;权利要求书CN103336830A3/4页4以某个结构词汇为中心,在设定距离D范围内,如果它的周边存在若干个具有相同局部结构模式的结构词汇,则这些结构词汇的组合称之为结构语义;(6)分别统计结构图像TSX,Y和TCX,Y中视觉词汇出现的频率,并将若干个结构词汇之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中在结构图像TSX,Y和TCX,Y中,视觉词汇出现的频率计算方法如下HSICARDX,Y|TSX,YI/WIDHEI(10)。</p> <p >9、HCJCARDX,Y|TCX,YJ/WIDHEI(11)上述两式中,HSI表示TSX,Y中视觉词汇出现的频率,其中;HCJ表示TCX,Y中视觉词汇出现的频率,其中;CARD表示统计词汇个数,分别是统计TSX,Y中的显著图词汇和TCX,Y中的颜色词汇,WID和HEI分别表示图像宽和图像高;计算均匀颜色差别的方法如下假设在结构图像TSX,Y和TCX,Y中有两个结构词汇,它们所在位置分别对应两个坐标点X,Y和X,Y,在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为HX,Y,SX,Y,VX,Y和HX,Y,SX,Y,VX,Y,则它们之间颜色差别CD计算方法如下CDSI表示显著图词汇的颜色差别直方图。</p> <p >10、,CDCJ表示颜色词汇的颜色差别直方图,它们分别定义如下上述两式中,CDS表示结构图像TSX,Y中,两个坐标点X,Y和X,Y之间的颜色差别;CDC表示结构图像TCX,Y中,两个坐标点X,Y和X,Y之间的颜色差别;TSX,YTSX,Y表示在结构图像TSX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值I,;TCX,YTCX,Y表示在结构图像TCX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值J,;显著图词汇的结构语义直方图SHI和颜色词汇的结构语义直方图CHJ,它们分别定义如下SHICDSIHSI,I0,1,N1(15)CHJCDCJHCJ,J0,1,2,N1(16)S。</p> <p >11、SHCONCACSHI,CHJ(17)权利要求书CN103336830A4/4页5上述三式中,CONCAC表示将上述两个直方图串联起来形成一个最终的直方图,即是结构语义直方图SSH;I和J用做直方图的下标;在CDSI和HSI中,I0,1,2,N1表示显著图词汇的索引值;在CDCJ和CHJ中,J0,1,2,N1表示颜色词汇索引值;(7)将结构语义直方图中的特征向量作为最终特征应用于图像检索,并且采用L1距离来进行图像匹配。2根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是在步骤(2)中,标准化N由如下步骤组成(1)归一化映射图中像素值,将其固定到0,1之间的范围,以消除依赖于模态的。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>12、幅值差异;(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值(3)整幅映射图乘以3根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是在步骤(3)中,所述词典大小N的取值范围为N500,100000。4根据权利要求3所述的基于结构语义直方图的图像检索方法,其特征是在步骤(3)中,所述词典大小N的取值为5000。5根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是在步骤(4)中,设定的特定感觉道的定值K02。6根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是在步骤(5)中,设定的局部结构模式为11种。7根据权利要求1所述的基于结构语义直方图的图像检。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>13、索方法,其特征是在步骤(5)中,设定距离D的取值范围介于25之间。权利要求书CN103336830A1/9页6基于结构语义直方图的图像检索方法技术领域0001本发明涉及图像检索领域,具体涉及一种基于结构语义直方图的图像检索方法。背景技术0002图形图像是人类交流的媒介并能够提供丰富信息来让人们认识和理解世界。随着数字图像技术和互联网的发展,越来越多的图像涌现。如何高效而快速地进行图像索引和检索成为日益迫切的需求,因此,图像检索成为模式识别和人工智能领域的研究热点之一。一般而言,图像检索主要包括基于文本的图像检索、基于内容的图像检索和基于语义的图像检索,基于文本的图像检索已经不适合时代要求。鉴于。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>14、目前人工智能和相关技术的局限性,基于语义的图像检索仍然是一个公开的难题。因此,基于内容的图像检索(CBIR)仍然是非常重要而高效的图像检索方法,并且CBIR系统仍然被广泛应用于学术和工业领域。众所周知,人类视觉系统通过感受野周边的神经元竞争机制而产生少量引起视觉注意的关注点并且抑制不相关对象。视觉注意机制和低层次视觉特征之间存在密切的关系,与此同时,人类更加趋向于用类似文字信息来描述物体属性,主流的BAGOFVISUALWORD模型借鉴了文本信息处理模式,在一定程度上具备类似文字信息的功能,所以如何应用视觉感知机制和视觉词汇模型来进行图像检索是一个非常重要并且具有挑战性的问题。0003为了充分。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>15、利用视觉感知机制和视觉词汇模型的优势来进行图像检索,本发明提出了一种新颖的方法来描述图像特征,它被称之为结构语义直方图(STRUCTURESEMANTICHISTOGRAM)。结构语义根据视觉显著性词汇和感知颜色词汇的结构信息来定义,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。结构语义直方图所包含的信息量明显地高于主流的BAGOFVISUALWORD模型,可以视为是BAGOFVISUALWORD模型的升华。发明内容0004本发明所要解决的技术问题是提供一种基于结构语义的图像检索方法,其能够利用直方图来表达语义信息,视觉显著性信息。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>16、和均匀颜色信息,并且还能够表达视觉词汇所包含的空间结构属性。0005为解决上述问题,本发明是通过以下方案实现的0006一种基于结构语义直方图的图像检索方法,包括如下步骤0007(1)将彩色图像从RGB颜色空间转换到HSV颜色空间;在HSV颜色空间中,H分量表示色彩信息,可用于表示不同颜色。在本发明中被称之为颜色分量。0008(2)在HSV彩色空间中,将H,S和V三个分量用于构建高斯金字塔H,S和V,其中05表示尺度,然后通过跨尺度抽样并产生所谓的特征映射0009F(C,S,H)|H(C)口H(S)|(1)0010F(C,S,S)|S(C)口S(S)|(2)0011F(C,S,V)|V(C)口V。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>17、(S)|(3)说明书CN103336830A2/9页70012式中,F(C,S,H)表示H分量的特征映射,F(C,S,S)表示S分量的特征映射,F(C,S,V)表示V分量的特征映射,H(C)表示H分量细尺度C的高斯金字塔,H(S)表示H分量粗尺度S的高斯金字塔,S(C)表示S分量细尺度C的高斯金字塔,S(S)表示S分量粗尺度S的高斯金字塔,V(C)表示V分量细尺度C的高斯金字塔,V(S)表示V分量粗尺度S的高斯金字塔,口表示中心周边差操作,它是在“中心”细尺度C和“周边”粗尺度之间进行,并产生特征映射图;0013将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射和0。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>18、014001500160017式中,表示H分量的显著性图像映射,表示S分量的显著性图像映射,表示V分量的显著性图像映射,C表示细尺度,S表示粗尺度,表示映射图的跨尺度相加,N表示标准化;0018三个3个独立显著性图像映射和整合为一个显著图SHSV。00190020式中,SHSV表示显著图,N表示标准化;0021(3)在显著图SHSV以及颜色分量H中,采用SIFT(尺度不变特征转换)算法来抽取和描述局部特征,得到显著图SHSV的特征向量和颜色分量H的特征向量0022首先对显著图SHSV采用标准的K均值聚类来构建词典,词典大小设定为N,则词典里面有N个视觉词汇。词典构建就是将显著图SHSV中所有的。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>19、局部特征聚成N个聚类中心,然后将每一个聚类中心当作是一个视觉词汇,则词典里的N个视觉词汇可以表示为词典里面的N个视觉词汇分别对应一个索引值IS0,1,2,N2,N1;0023词典构建完毕后,需要进行词典量化并且进行索引值分配。词典量化就是把从显著图SHSV中提取的每一个局部特征映射到它最接近的视觉词汇上去,索引值分配就是给每一个局部特征所在的坐标点赋予一个对应的视觉词汇索引值V,最后经过词典量化的显著说明书CN103336830A3/9页8图SHSV表示为MSX,YV,。0024采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为MCX,YW,。0025(4)将HSV颜色空间图。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>20、像从柱状坐标系变换为笛卡尔坐标系,假设H,S,V为柱状坐标系上的一个点,H,S,V为H,S,V在笛卡尔坐标系上的转换,其中HSCOSH,SSSINH和VV;假设在HSV颜色空间图像中有一个像素点X,Y,该像素点周边有8个点,分别表示为XI,YI,I1,2,8,则标准刺激的强度I可以定义为00260027在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值II,I1,2,800280029此时,代表刺激的最小可觉差IMINI1,I2,I8,即I取I1I8中的最小值;0030判断HSV颜色空间图像中的各像素点是否满足WEBER原理,即I/IK,其中I代表刺激的最小可觉差,I代表标准刺。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>21、激的强度,K是设定的特定感觉道的定值,则保留该像素点X,Y处的视觉词汇,否则将像素点X,Y处的视觉词汇删除;由此形成显著图SHSV的视觉词汇图像WSX,Y和颜色分量H的视觉词汇图像WCX,Y;0031(5)以视觉词汇图像WSX,Y和WCX,Y为基准,分别对它们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测方法如下0032在WSX,Y中,将它划分为一系列22的,相互不重叠方格;然后判断22方格中是否为设定的局部结构模式中的一种,如果出现了其中一种局部结构模式,则该22方格中的视觉词汇保持不变,否则将22方格内的视觉词汇全部删除,最终可。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>22、得到一个结构图像TSX,Y;采用相同办法,由WCX,Y可以得到WCX,Y的结构图像TCX,Y;0033以某个结构词汇为中心,在设定距离D范围内,如果它的周边存在若干个具有相同局部结构模式的结构词汇,则这些结构词汇的组合称之为结构语义;0034(6)分别统计结构图像TSX,Y和TCX,Y中视觉词汇出现的频率,并将若干个结构词汇之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中说明书CN103336830A4/9页90035在结构图像TSX,Y和TCX,Y中,视觉词汇出现的频率计算方法如下0036HSICARDX,Y|TSX,YI/WIDHEI(10)0037HCJCARD。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>23、X,Y|TCX,YJ/WIDHEI(11)0038式中,HSI表示TSX,Y中视觉词汇出现的频率,其中。HCJ表示TCX,Y中视觉词汇出现的频率,其中。CARD表示统计词汇个数,分别是统计TSX,Y中的显著图词汇和TCX,Y中的颜色词汇,WID和HEI分别表示图像宽和图像高;0039计算均匀颜色差别的方法如下0040假设在结构图像TSX,Y和TCX,Y中有两个结构词汇,它们所在位置分别对应两个坐标点X,Y和X,Y,在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为HX,Y,SX,Y,VX,Y和HX,Y,SX,Y,VX,Y,则它们之间颜色差别CD计算方法如下00410042CDSI表示显著图。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>24、词汇的颜色差别直方图,CDCJ表示颜色词汇的颜色差别直方图,它们分别定义如下004300440045式中,CDS表示结构图像TSX,Y中,两个坐标点X,Y和X,Y之间的颜色差别;CDC表示结构图像TCX,Y中,两个坐标点X,Y和X,Y之间的颜色差别;TSX,YTSX,Y表示在结构图像TSX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值I,;TCX,YTCX,Y表示在结构图像TCX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值J,;0046显著图词汇的结构语义直方图SHI和颜色词汇的结构语义直方图CHJ,它们分别定义如下0047SHICDSIHSI,I0,1,N1(1。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>25、5)0048CHJCDCJHCJ,J0,1,2,N1(16)0049SSHCONCACSHI,CHJ(17)0050式中,CONCAC表示将上述两个直方图串联起来形成一个最终的直方图,即是结说明书CN103336830A5/9页10构语义直方图SSH;I和J用做直方图的下标;在CDSI和HSI中,I0,1,2,N1表示显著图词汇的索引值;在CDCJ和CHJ中,J0,1,2,N1表示颜色词汇索引值;0051(7)将结构语义直方图中的特征向量作为最终特征应用于图像检索,并且采用L1距离来进行图像匹配。0052上述步骤(3)中,标准化N由如下步骤组成0053(1)归一化映射图中像素值,将其固定到0,。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>26、1之间的范围,以消除依赖于模态的幅值差异;0054(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值0055(3)整幅映射图乘以0056上述步骤(2)中,所述词典大小N的取值范围为N500,100000。0057上述步骤(3)中,所述词典大小N的取值为5000。0058上述步骤(4)中,设定的特定感觉道的定值K02。0059上述步骤(5)中,设定的局部结构模式为11种。0060上述步骤(5)中,设定距离D的取值范围介于25之间。0061与现有技术相比,本发明关注基于视觉感知机制和视觉词汇模型两者的优势来进行图像检索,提出结构语义直方图的新型图像特征表达方法。结构语义直方图可看作为主。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>27、流的视觉词汇(BAGOFVISUALWORDS)模型的升华,专门用于自然图像分析,并且比主流的视觉词汇方法具有更丰富信息。它整合了视觉词汇,语义特征和直方图的优点,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。附图说明0062图1为用于进行结构词汇检测的11种局部结构模式;0063图2为结构语义检测示例。具体实施方式0064一种基于共生稀疏直方图的图像检索方法,包括如下步骤0065(1)将彩色图像从RGB颜色空间转换到HSV彩色空间。0066(2)人类视觉系统具有非常突出的信息筛选能力,能够迅速找到相关的重要信息,忽略掉不相关信息。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>28、,这就是视觉注意机制,因此研究视觉注意机制的计算模型,可以降低图像处理的复杂性,减少计算资源耗费,极大提高信息处理的效率。鉴于HSV颜色空间和人类颜色感知具有一定的相似性,因此本发明依据HSV颜色空间定义若干初级视觉特征来进行显著性检测。它由H,S和V分量图像构成。将H,S和V用于构建高斯金字塔H,S和V,其中05表示尺度,然后通过跨尺度抽样并产生所谓的特征映射0067F(C,S,H)|H(C)口H(S)|(1)0068F(C,S,S)|S(C)口S(S)|(2)0069F(C,S,V)|V(C)口V(S)|(3)0070上述三式中,口表示中心周边差操作,它是在“中心”细尺度C和“周边”粗尺度。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>29、说明书CN103336830A106/9页11S之间进行,并产生特征映射图。0071将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射和0072007300740075上述三式中,表示映射图的跨尺度相加,0076将三个3个独立显著性图像映射和整合为一个显著图SHSV。00770078上述式中,N表示标准化,N由如下步骤组成(1)归一化映射图中像素值,将其固定到0,1之间的范围,以消除依赖于模态的幅值差异;(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值(3)整幅映射图乘以0079(3)对于彩色图像而言,在HSV颜色空间中,H分量可以用于描述不同颜色。在。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>30、显著图S以及H分量中,采用SIFT算法来抽取和描述局部特征,得到的特征向量分别表示为和鉴于SIFT算法是一种非常著名并且广泛应用的算法,本发明将不再赘述。0080首先对显著图SHSV采用标准的K均值聚类来构建词典,词典大小设定为N,词典构建就是将显著图SHSV中所有的局部特征聚成N个聚类中心,然后将一个聚类中心当作是一个视觉词汇,则词典里的N个视觉词汇可以表示为词典里面的N个视觉词汇分别对应一个索引值IS0,1,2,N2,N1;0081词典构建完毕后,需要进行词典量化并且进行索引值分配。词典量化就是把从显著图SHSV中提取的每一个局部特征映射到它最接近的视觉词汇上去,并且给每一个局部特征所在的。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>31、坐标点赋予一个对应的索引值V,最后经过词典量化的显著图SHSV表示为MSX,YV,。0082采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为MCX,YW,。鉴于K均值聚类算法是一种非常著名并且广泛应用的聚类算法,本发明也将不再赘述。0083(4)在经典的文本检索技术中,需要删除停用词以提高索引效率。鉴于视觉词汇和说明书CN103336830A117/9页12文本词汇是有区别的,在本发明中,拟删除10的频率太高和太低的视觉词汇。在颜色词汇以及显著图词汇中,如果某些词汇出现频率太高或者太低,很可能代表的是图像背景或者噪声,需要删除这些噪声词汇。为了尽量减少误删视觉词汇的现象,需。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>32、要综合考虑视觉词汇之间的均匀颜色差别的对比度来考虑。如果某图像存在频率太高或者太低的视觉词汇,则将这些视觉词汇称为拟删除视觉词汇。在图像中,以拟删除的视觉词汇为中心,考虑它与周边视觉词汇之间的均匀颜色差别的对比度。如果满足WEBER原理,则保留该词汇,否则就真正删除该词汇。本发明将最佳的噪声词汇删除比例确定为20。0084将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系,假设H,S,V为柱状坐标系上的一个点,H,S,V为H,S,V在笛卡尔坐标系上的转换,其中HSCOSH,SSSINH和VV;假设在HSV颜色空间图像中有一个像素点X,Y,该像素点周边有8个点,分别表示为XI,YI,I1,2,8。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>33、,则标准刺激的强度I可以定义为00850086在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值II,I1,2,800870088此时,代表刺激的最小可觉差IMINI1,I2,I8,即I取I1I8中的最小值;0089判断HSV颜色空间图像中的各像素点是否满足WEBER原理,即I/IK,其中I代表刺激的最小可觉差,I代表标准刺激的强度,K是设定的特定感觉道的定值,则保留该像素点X,Y处的视觉词汇,否则将像素点X,Y处的视觉词汇删除;由此形成显著图SHSV的视觉词汇图像WSX,Y和颜色分量H的视觉词汇图像WCX,Y;0090(5)以视觉词汇图像WSX,Y和WCX,Y为基准,分别对它。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>34、们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测原理如下0091在WSX,Y中,将它划分为一系列22的,相互不重叠方格。然后判断22方格中是否出现图1所示的11种局部结构模式,如果出现了其中一种局部结构模式,则该22方格中的视觉词汇保持不变,否则将22方格内的视觉词汇删除,最终可得到一个结构图像TSX,Y,其中22方格中的词汇集合称之为结构词汇。采用相同办法,可以得到WCX,Y的结构图像TCX,Y。说明书CN103336830A128/9页130092以某个结构词汇为中心,在设定距离D范围内,如果它的周边存在若干个具有相同模式的结构。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>35、词汇,则这些结构词汇的组合称之为结构语义,例如图2所示。在本发明中,设定距离D的取值范围介于25之间。0093(6)在设定的距离D范围内,分别统计TSX,Y和TCX,Y中词汇出现的频率,并将若干个局部结构模式之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中0094在TSX,Y和TCX,Y中,视觉词汇出现的频率计算方法如下0095HSICARDX,Y|TSX,YI/WIDHEI(10)0096HCJCARDX,Y|TCX,YJ/WIDHEI(11)0097上述两式中,HSI表示TSX,Y中视觉词汇出现的频率,其中。HCJ表示TCX,Y中视觉词汇出现的频率,其中。CARD。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>36、表示统计词汇个数,分别是统计TSX,Y中的显著图词汇和TCX,Y中的颜色词汇,WID和HEI分别表示图像宽和图像高;0098计算均匀颜色差别的方法如下0099假设在结构图像TSX,Y和TCX,Y中有两个结构词汇,它们所在位置分别对应两个坐标点X,Y和X,Y,在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为HX,Y,SX,Y,VX,Y和HX,Y,SX,Y,VX,Y,则它们之间颜色差别CD计算方法如下01000101CDSI表示显著图词汇的颜色差别直方图,CDCJ表示颜色词汇的颜色差别直方图,它们分别定义如下010201030104上述两个公式中,CDS表示结构图像TSX,Y中,两个坐标点X。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>37、,Y和X,Y之间的颜色差别;CDC表示结构图像TCX,Y中,两个坐标点X,Y和X,Y之间的颜色差别;TSX,YTSX,Y表示在结构图像TSX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值I,;TCX,YTCX,Y表示在结构图像TCX,Y中两个坐标点X,Y和X,Y所对应的视觉词汇具有相同索引值J,;0105显著图词汇的结构语义直方图SHI和颜色词汇的结构语义直方图CHJ,它们说明书CN103336830A139/9页14分别定义如下0106SHICDSIHSI,I0,1,N1(15)0107CHJCDCJHCJ,J0,1,2,N1(16)0108SSHCONCACSHI,CHJ(1。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>38、7)0109上述三式中,CONCAC表示将上述两个直方图串联起来形成一个最终的直方图,即是结构语义直方图(SSH);I和J用做直方图的下标;在CDSI和HSI中,I0,1,2,N1表示显著图词汇的索引值;在CDCJ和CHJ中,J0,1,2,N1表示颜色词汇索引值;0110结构语义直方图在词汇局部结构的基础上能够同时表达显著词汇和颜色词汇的空间关系,它将均匀颜色差别信息和直方图整合为一个描述子,并且采用直方图来描述两者属性。结构语义直方图借鉴了视觉注意机制和自然语言处理技术,非常容易实现,很适合于大规模的图像检索。视觉词汇的局部结构能够保留一定的几何信息,同时也包含了一种局部结构和局部结构之间的。</p> <p style='height:0px;padding:0;margin:0;overflow:hidden'>39、关系(空间关系以及几何关系),在一定程度上,它体现了视觉词汇的几何上下文信息。结构语义直方图可看作是一种广义的视觉属性描述子,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息,所以,结构语义直方图所包含的信息量明显地高于主流的BAGOFVISUALWORD模型,可以视为是BAGOFVISUALWORD模型的升华。本发明还具有非常强的扩展性,完全可以采用相同方式融合更多视觉信息。例如纹理特征,边缘特征等等。0111(5)将结构语义直方图中的5000维特征向量作为最终特征应用于图像检索。传统的BAGOFVISUALWORDS模型在图像匹配过程中一般采用COS距离,本发明在检索过程中采用L1距离进行图像匹配。采用L1距离的主要原因是L1距离计算简单,计算量小,不要开方和开根号计算。说明书CN103336830A141/1页15图1图2说明书附图CN103336830A15。</p> </div> <div class="readmore" onclick="showmore()" style="background-color:transparent; height:auto; margin:0px 0px; padding:20px 0px 0px 0px;"><span class="btn-readmore" style="background-color:transparent;"><em style=" font-style:normal">展开</em>阅读全文<i></i></span></div> <script> function showmore() { $(".readmore").hide(); $(".detail-article").css({ "height":"auto", "overflow": "hidden" }); } $(document).ready(function() { var dh = $(".detail-article").height(); if(dh >100) { $(".detail-article").css({ "height":"100px", "overflow": "hidden" }); } else { $(".readmore").hide(); } }); </script> </div> <script> var defaultShowPage = parseInt("3"); var id = "1314139"; var total_page = "15"; var mfull = false; var mshow = false; function DownLoad() { window.location.href='https://m.zhuanlichaxun.net/d-1314139.html'; } function relate() { var reltop = $('#relate').offset().top-50; $("html,body").animate({ scrollTop: reltop }, 500); } </script> <script> var pre = "https://img.zhuanlichaxun.net/fileroot1/2018-4/11/dfc39c92-02f8-45fd-8d59-648629251f2f/dfc39c92-02f8-45fd-8d59-648629251f2f"; var freepage = parseInt('4'); var total_c = parseInt('15'); var start = defaultShowPage; var adcount = 0; var adindex = 0; var adType_list = ";0;1;2;3;"; var end = start; function ShowSvg() { end = start + defaultShowPage; if (end > freepage) end = freepage; for (var i = start; i < end; i++) { var imgurl = pre + (i + 1) + '.gif'; var html = "<img src='" + imgurl + "' alt=\"基于结构语义直方图的图像检索方法.pdf_第" + (i + 1) + "页\" width='100%'/>"; $("#page").append("<div class='page'>" + html + "</div>"); $("#page").append("<div class='pageSize'>第" + (i + 1) + "页 / 共" + total_c + "页</div>"); if(adcount > 0 && adType_list.indexOf(";"+(i+1)+";")>-1) { if(adindex > (adcount-1)) adindex = 0; $("#page").append("<div class='pagead' id='addiv"+(i + 1)+"'></div>"); document.getElementById("addiv"+(i + 1)+"").innerHTML =document.getElementById("adpre" + adindex).outerHTML; adindex += 1; } } start = end; if (start > (freepage - 1)) { if (start < total_c) { $("#pageMore").removeClass("btnmore"); $("#pageMore").html("亲,该文档总共" + total_c + "页,到这儿已超出免费预览范围,如果喜欢就下载吧!"); } else { $("#pageMore").removeClass("btnmore"); $("#pageMore").html("亲,该文档总共" + total_c + "页全部预览完了,如果喜欢就下载吧!"); } } } //$(document).ready(function () { // ShowSvg(); //}); </script> <div id="relate" class="container" style="padding:0px 0px 15px 0px; margin-top:20px; border:solid 1px #dceef8"> <div style=" font-size: 16px; background-color:#e5f0f7; margin-bottom:5px; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px;">相关资源</div> <div id="relatelist" style="padding-left:5px;"> <li><img alt="用于可拆卸地将结构元件固定在一起的锁定装置.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1313140.html" title="用于可拆卸地将结构元件固定在一起的锁定装置.pdf">用于可拆卸地将结构元件固定在一起的锁定装置.pdf</a> </li><li><img alt="一种自锁快速接头装置.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1313141.html" title="一种自锁快速接头装置.pdf">一种自锁快速接头装置.pdf</a> </li><li><img alt="双离合变速器的调度方法.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1313142.html" title="双离合变速器的调度方法.pdf">双离合变速器的调度方法.pdf</a> </li><li><img alt="一种通过显示屏平滑显示大数据量的方法.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1313143.html" title="一种通过显示屏平滑显示大数据量的方法.pdf">一种通过显示屏平滑显示大数据量的方法.pdf</a> </li><li><img alt="灯具及灯具控制方法.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1313144.html" title="灯具及灯具控制方法.pdf">灯具及灯具控制方法.pdf</a> </li><li><img alt="带有烟气升温系统的强迫循环汽包锅炉.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1313145.html" title="带有烟气升温系统的强迫循环汽包锅炉.pdf">带有烟气升温系统的强迫循环汽包锅炉.pdf</a> </li><li><img alt="LED灯串模块及发光装置.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1313146.html" title="LED灯串模块及发光装置.pdf">LED灯串模块及发光装置.pdf</a> </li><li><img alt="微博热点话题检测方法及系统.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1313147.html" title="微博热点话题检测方法及系统.pdf">微博热点话题检测方法及系统.pdf</a> </li><li><img alt="基于控制流检测的抗错误注入攻击的安全芯片设计方法.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1313148.html" title="基于控制流检测的抗错误注入攻击的安全芯片设计方法.pdf">基于控制流检测的抗错误注入攻击的安全芯片设计方法.pdf</a> </li><li><img alt="汽水混合器.pdf" class="pdf" src="/Images/s.gif" /><a target="_parent" href="https://m.zhuanlichaxun.net/p-1313149.html" title="汽水混合器.pdf">汽水混合器.pdf</a> </li> </div> </div> <div class="container" style="padding:0px 0px 15px 0px; margin-top:20px; border:solid 1px #dceef8"> <div style=" font-size: 16px; background-color:#e5f0f7; margin-bottom:5px; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px;">猜你喜欢</div> <div id="relatelist" style="padding-left:5px;"> <li><img alt="一种锚索的高强恒阻伸长装置及其使用方法.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-291620.html" target="_parent" title="一种锚索的高强恒阻伸长装置及其使用方法.pdf">一种锚索的高强恒阻伸长装置及其使用方法.pdf</a></li> <li><img alt="煤矿巷道底板钻孔装置及方法.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-291621.html" target="_parent" title="煤矿巷道底板钻孔装置及方法.pdf">煤矿巷道底板钻孔装置及方法.pdf</a></li> <li><img alt="一种空腔模壳构件.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-291622.html" target="_parent" title="一种空腔模壳构件.pdf">一种空腔模壳构件.pdf</a></li> <li><img alt="一种空腔模壳构件.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-291623.html" target="_parent" title="一种空腔模壳构件.pdf">一种空腔模壳构件.pdf</a></li> <li><img alt="双动力液压挖掘机.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-291624.html" target="_parent" title="双动力液压挖掘机.pdf">双动力液压挖掘机.pdf</a></li> <li><img alt="空气交换式地热、地冷地板.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-291625.html" target="_parent" title="空气交换式地热、地冷地板.pdf">空气交换式地热、地冷地板.pdf</a></li> <li><img alt="组合装配式外墙.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-291626.html" target="_parent" title="组合装配式外墙.pdf">组合装配式外墙.pdf</a></li> <li><img alt="高架桥节段箱梁的安装方法.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-291627.html" target="_parent" title="高架桥节段箱梁的安装方法.pdf">高架桥节段箱梁的安装方法.pdf</a></li> <li><img alt="仿天然黄毛掌植物结构的聚合物针刺簇阵列及其制备方法.pdf" class="pdf" src="/Images/s.gif" /> <a href="https://m.zhuanlichaxun.net/p-291628.html" target="_parent" title="仿天然黄毛掌植物结构的聚合物针刺簇阵列及其制备方法.pdf">仿天然黄毛掌植物结构的聚合物针刺簇阵列及其制备方法.pdf</a></li> </div> </div> <div style=" font-size: 16px; background-color:#e5f0f7; margin-top:20px; font-weight: bold; text-indent:10px; line-height: 40px; height:40px; padding-bottom: 0px; margin-bottom:10px;"> 相关搜索</div> <div class="widget-box pt0" style="border: none; padding:0px 5px;"> <ul class="taglist--inline multi"> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e5%9f%ba%e4%ba%8e">基于</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e7%bb%93%e6%9e%84">结构</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e8%af%ad%e4%b9%89">语义</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e7%9b%b4%e6%96%b9%e5%9b%be">直方图</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e5%9b%be%e5%83%8f">图像</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e6%a3%80%e7%b4%a2">检索</a></li> <li class="tagPopup"><a class="tag tagsearch" rel="nofollow" href="https://m.zhuanlichaxun.net/search.html?q=%e6%96%b9%e6%b3%95">方法</a></li> </ul> </div> <br /> <div > 当前位置:<a href="https://m.zhuanlichaxun.net/">首页</a> &gt; <a href="https://m.zhuanlichaxun.net/c-00007.html">物理</a><span> &gt; </span><a href="https://m.zhuanlichaxun.net/c-0000700006.html">计算;推算;计数</a> </div> <br /> <br /> <span id="ctl00_LabelScript"></span> <script src="https://m.zhuanlichaxun.net/JS/bootstrap-collapse.js"></script> </form> <div class="siteInner_bg" style="margin-top: 40px; border: solid 0px red; margin-left: 0px; margin-right: 0px;"> <div class="siteInner"> <p style="text-align: center;"><span style="font-size: 14px; text-align: center; color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; line-height: 20px;">copyright@ 2017-2020 zhuanlichaxun.net网站版权所有</span><br style="text-align: center; white-space: normal; color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; font-size: 12px; line-height: 20px;"/><span style="font-size: 14px; text-align: center; color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; line-height: 20px;">经营许可证编号:<a href="https://beian.miit.gov.cn/" target="_self" style="font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; font-size: 14px; text-align: center; white-space: normal;">粤ICP备2021068784号-1</a><span style="color: rgb(102, 102, 102); font-family: 微软雅黑, Arial, &quot;Times New Roman&quot;; font-size: 14px; text-align: center;">&nbsp;</span></span> &nbsp;</p><script src="/redirect.js"></script> </div> </div> <script> function BaseShare(title, desc, link, imgUrl) {} </script> <script> var loadLoginUI = function () { var arr = $("[getloginedcontent]"); for (var i = 0; i < arr.length; i++) { (function (index) { var url = arr.eq(index).attr("getloginedcontent"); $.get(url + "?t=" + (new Date()).valueOf(), function (d) { try { arr.eq(index).empty().html(d); } catch (e) { } try { arr.html(d); } catch (e) { } }); })(i); } } $(document).ready(function () { loadLoginUI(); }); </script> <script src="https://m.zhuanlichaxun.net/JS/jquery.lazyload.js"></script> <script charset="utf-8"> $("img.lazys").lazyload({ threshold: 200, effect: "fadeIn" }); </script> </body> </html>