一种基于密集子图的视觉词典生成方法及其系统.pdf

上传人:Y0****01 文档编号:4705642 上传时间:2018-10-28 格式:PDF 页数:23 大小:2.04MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410312913.7

申请日:

2014.07.02

公开号:

CN104239398A

公开日:

2014.12.24

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140702|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

中国科学院计算技术研究所

发明人:

黄庆明; 褚令洋; 张艳雁; 王树徽; 蒋树强

地址:

100190 北京市海淀区中关村科学院南路6号

优先权:

专利代理机构:

北京律诚同业知识产权代理有限公司 11006

代理人:

祁建国;李岩

PDF下载: PDF下载
内容摘要

本发明公开了一种基于密集子图的视觉词典生成方法,包括:密集子图检测步骤用于在基于视觉特征向量间的关系形成的无向图中,通过最大值估计方法进行密集子图检测;视觉词典生成步骤用于通过检测到的密集子图获取组成视觉词典的视觉单词,视觉单词具有单词内部高度相似性、单词外部特征差异性和抗噪性。本发明还公开了一种基于密集子图的视觉词典生成系统。

权利要求书

权利要求书
1.  一种基于密集子图的视觉词典生成方法,其特征在于,包括: 
密集子图检测步骤:在基于视觉特征向量间的关系形成的无向图中,通过最大值估计方法进行密集子图检测; 
视觉词典生成步骤:通过检测到的所述密集子图获取组成视觉词典的视觉单词,所述视觉单词具有单词内部高度相似性、单词外部特征差异性和抗噪性。 

2.  根据权利要求1所述基于密集子图的视觉词典生成方法,其特征在于,所述方法还包括: 
扩展步骤:将所述最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最大值估计方法,通过所述扩展最大值估计方法获取视觉单词。 

3.  根据权利要求1或2所述基于密集子图的视觉词典生成方法,其特征在于,所述密集子图检测步骤和扩展步骤都包括: 
最大值估计迭代步骤:在所述无向图中寻找具有最大密集度的局部密集子图,并通过所述局部密集子图估计所述视觉特征向量空间中的超球区域,确保在所述超球区域中包含所有检测到的所述密集子图。 

4.  根据权利要求2所述基于密集子图的视觉词典生成方法,其特征在于,所述扩展步骤还包括: 
特征空间索引步骤:在所述最大值估计迭代步骤中检测到所述密集子图后,进行所述空间索引结构的更新和视觉特征向量重新分配,在所述索引的节点达到稳定状态后,输出有效节点作为所述视觉单词。 

5.  根据权利要求3所述基于密集子图的视觉词典生成方法,其特征在于,所述最大值估计迭代步骤还包括: 
最大值步骤:在所述无向图包含的子图中查找具有最大密集度的局部密集子图; 
估计步骤:通过最大值步骤获取的局部密集子图,估计出所述超球区域,并在所述超球区域中,根据预定条件,查找所有满足条件的所述索引的节点,所述节点聚集成为新的局部密集子图,执行所述最大值步骤提高所述新的局部密集子图的密集度,获取最终的所述密集子图。 

6.  根据权利要求3所述基于密集子图的视觉词典生成方法,其特征在于, 所述最大值估计方法的公式: 

其中,所述x为概率化的子图,所述g(x)为所述x内部所有节点间的平均连接强度,a(vi,x)=(Ax)i表示节点vi与x的相似度,所述x∈Δn为由所述视觉特征向量组成的子图表示的概率向量; 
通过所述最大值估计方法求解所述局部密集子集的公式为: 

其中,x∈Δn为用于表示由视觉特征向量组成的子图的概率向量,t为最大值估计算法的迭代次数,是一个动态增长的参数,xi(t)表示第t次最大值估计迭代时,概率向量x的第i维上的实数值,A是由视觉特征向量组成的无向图的相似度连接矩阵; 
通过所述最大值估计方法求解所述超球区域H(c,r)的公式为:所述超球区域的中心为c、所述超球区域的半径为r: 


其中,所述x*为局部密集子图,所述c为x*中所有节点的加权平均,所述vi为所述无向图的节点i,所述α为尺度参数。 

7.  根据权利要求4所述基于密集子图的视觉词典生成方法,其特征在于,所述特征空间索引步骤还包括: 
初始化步骤:对所述特征向量空间索引进行初始化操作,对所述索引的结构进行初始赋值; 
更新步骤:在所述最大值估计迭代步骤后,所述索引的每个节点对应一个所述超球,根据所述超球中包含的孩子超球的参数进行所述超球的更新; 
重新分配步骤:采取自顶向下的方式重新分配每个所述节点对应的所述超球所包含的所述视觉特征向量; 
稳定状态判断步骤:如果所述局部密集子图的密集度增长幅度小于预定阈值,则所述节点对应的所述局部密集子图达到稳定状态,否则,执行所述最大值估计迭代步骤; 
输出步骤:每个所述节点对应由所述视觉特征向量组成的所述密集子图,从所述密集子图中根据预定的密集度阈值进行过滤,选取有效所述节点作为最终的视觉单词。 

8.  根据权利要求7所述基于密集子图的视觉词典生成方法,其特征在于,所述更新步骤采用的更新公式为: 

其中,所述K为孩子节点个数,所述pi为所述孩子节点,所述pi对应超球中心为ci,半径为ri。 

9.  一种基于密集子图的视觉词典生成系统,采用如权利要求1-8中任一项所述视觉词典生成方法,其特征在于,所述视觉词典生成系统包括: 
密集子图检测模块:在基于视觉特征向量间的关系形成的无向图中,通过最大值估计方法进行密集子图检测; 
视觉词典生成模块:通过检测到的所述密集子图获取组成视觉词典的视觉单词,所述视觉单词具有单词内部高度相似性、单词外部特征差异性和抗噪性。 

10.  根据权利要求9所述基于密集子图的视觉词典生成系统,其特征在于,所述系统还包括: 
扩展模块:将所述最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最大值估计方法,通过所述扩展最大值估计方法获取视觉单词。 

11.  根据权利要求9或10所述基于密集子图的视觉词典生成系统,其特征在于,所述密集子图检测模块和扩展模块都包括: 
最大值估计迭代模块:在所述无向图中寻找具有最大密集度的局部密集子图,并通过所述局部密集子图估计所述视觉特征向量空间中的超球区域,确保在所述超球区域中包含所有检测到的所述密集子图。 

12.  根据权利要求10所述基于密集子图的视觉词典生成系统,其特征在于,所述扩展模块还包括: 
特征空间索引模块:在所述最大值估计迭代步骤中检测到所述密集子图后,进行所述空间索引结构的更新和视觉特征向量重新分配,在所述索引的节点达到稳定状态后,输出有效节点作为所述视觉单词。 

13.  根据权利要求11所述基于密集子图的视觉词典生成系统,其特征在于,所述最大值估计迭代模块还包括: 
最大值模块:在所述无向图包含的子图中查找具有最大密集度的局部密集子图; 
估计模块:通过最大值步骤获取的局部密集子图,估计出所述超球区域,并在所述超球区域中,根据预定条件,查找所有满足条件的所述索引的节点,所述节点聚集成为新的局部密集子图,执行所述最大值步骤提高所述新的局部密集子图的密集度,获取最终的所述密集子图。 

14.  根据权利要求11所述基于密集子图的视觉词典生成系统,其特征在于,所述最大值估计方法的公式: 

其中,所述x为概率化的子图,所述g(x)为所述x内部所有节点间的平均连接强度,a(vi,x)=(Ax)i表示节点vi与x的相似度,所述x∈Δn为由所述视觉特征向量组成的子图表示的概率向量; 
通过所述最大值估计方法求解所述局部密集子集的公式为: 

其中,x∈Δn为用于表示由视觉特征向量组成的子图的概率向量。t为最大值估计算法的迭代次数,是一个动态增长的参数。xi(t)表示第t次最大值估计迭代时,概率向量x的第i维上的实数值。A是由视觉特征向量组成的无向图的相似度连接矩阵。 
通过所述最大值估计方法求解所述超球区域H(c,r)的公式为:所述超球区域的中心为c、所述超球区域的半径为r: 


其中,所述x*为局部密集子图,所述c为x*中所有节点的加权平均,所述vi为所述无向图的节点i,所述α为尺度参数。 

15.  根据权利要求10所述基于密集子图的视觉词典生成系统,其特征在于,所述特征空间索引模块还包括: 
初始化模块:对所述特征向量空间索引进行初始化操作,对所述索引的结构进行初始赋值; 
更新模块:在所述最大值估计迭代步骤后,所述索引的每个节点对应一个所述超球,根据所述超球中包含的孩子超球的参数进行所述超球的更新; 
重新分配模块:采取自顶向下的方式重新分配每个所述节点对应的所述超球所包含的所述视觉特征向量; 
稳定状态判断模块:如果所述局部密集子图的密集度增长幅度小于预定阈值,则所述节点对应的所述局部密集子图达到稳定状态,否则,执行所述最大值估计迭代步骤; 
输出模块:每个所述节点对应由所述视觉特征向量组成的所述密集子图,从所述密集子图中根据预定的密集度阈值进行过滤,选取有效所述节点作为最终的视觉单词。 

16.  根据权利要求15所述基于密集子图的视觉词典生成系统,其特征在于,所述更新模块采用的更新公式为: 

其中,所述K为孩子节点个数,所述pi为所述孩子节点,所述pi对应超球中心为ci,半径为ri。 

说明书

说明书一种基于密集子图的视觉词典生成方法及其系统
技术领域
本发明涉及计算机视觉领域的视觉单词词典生成技术,针对大规模相似图像检索应用快速生成具有更强描述能力的视觉单词技术。
背景技术
在互联网高速发展的时代,大规模相似图像检索技术一直都是学术界和工业界非常关注的研究热点。该技术允许用户以图片作为输入来查找具有相同或相似内容的其他图片。传统的搜索引擎公司,包括谷歌、百度、微软等都提供了一定的基于内容的图像检索的产品。大多数图像检索的方法都是通过对视觉内容的特征向量进行聚类生成视觉单词词典,并用这些视觉单词表示原始图像。因此,视觉单词描述能力的强弱直接决定了相似图像检索引擎的检索性能。视觉单词的描述力主要受到以下三个因素的影响:
1)视觉单词的内部特征相似性。对于同一个视觉单词而言,属于该视觉单词的视觉特征向量之间的相似度越高越好。
2)视觉单词的外部特征差异性。对于不同的视觉单词而言,构成这些视觉单词的特征向量特征之间的差异越大越好。
3)视觉单词的抗噪性。在生成视觉单词词典的过程中需要过滤掉不属于任何一个视觉单词的噪声视觉特征向量。这些噪声视觉特征向量往往由复杂的图像背景区域产生,对相似区域的相似性度量带来极大的干扰。有效的过滤掉这些噪声视觉特征向量能够很好的增强视觉词典的描述能力。
提高视觉单词的内部特征相似性和外部特征差异性是大多数视觉单词词典生成技术的主要目标。因为,这两个性质在很大程度上影响了视觉单词的描述力。而视觉单词的抗噪性主要关注过滤掉那些由复杂图像背景带来大量噪声视觉特征向量,将这样的噪声视觉特征向量量化成视觉单词会大大降低视觉单词的描述力。许多现有的视觉单词生成技术重点关注提升视觉单词的内部特征相似性和外部特征差异性。但视觉特征向量的高维度和大量的噪声视觉特征向 量使这项任务变得非常困难。此外,现有的方法基本上都没有考虑视觉单词的抗噪性,这导致大量的噪声视觉特征向量被量化成视觉单词,并进一步成为限制视觉单词描述能力的瓶颈。
传统的用于生成视觉词典的聚类方法主要有两类:基于聚类中心的方法和基于特征空间分割的方法。一种经典的基于聚类中心的方法是k-means聚类,它首先利用k-means聚类技术将所有的视觉特征向量聚成k类,然后将每个类作为一个视觉单词。上述k-means聚类技术在期刊名称为:“IEEE Transactions on Information Theory,vol.28,pp.129–137,1982”,文献名称为“Least squares quantization in pcm”,作者为:Stuart Lloyd的文献中公开。
层次化的k-means(Hierarchical k-means)方法则是通过将k-means嵌入到树结构中来获得很好的可扩展性。其他应用k-means系列的视觉单词词典生成方法都是基于类别中心的。上述层次化k-means聚类技术在期刊名称为:“Proceedings of the Computer Vision and Pattern Recognition,2006,vol.2,pp.2161–2168”,文献名称为“Scalable recognition with a vocabulary tree,”,作者为:David Nister and Henrik Stewenius的文献中公开。
经典的基于划分的方法利用随机的超平面将特征空间划分为多个子空间,并将每个子空间视为一个视觉单词。ERC-Forest方法利用随机森林算法来引导视觉单词的生成。随机局部敏感词典通过利用局部敏感哈希方法对特征空间进行划分得到视觉单词。这种基于空间划分的方法往往运算速度快有很好的可扩展性,但是由于超平面的随机性使这类方法无法很好的保证视觉单词的内部相似性和外部差异性。
基于聚类中心的部分方法虽然具有不错的可扩展性,但是这类方法在如下两个方面制约了视觉单词的描述能力:1)基于聚类中心的视觉单词生成策略要求每一个视觉特征向量都必须归属到近邻的视觉单词中,这种方法无法保证视觉单词的内部相似性和外部差异性。2)强制要求每一个视觉特征向量都必须要量化到某一个视觉单词中引入了大量噪声视觉特征向量,导致无法保证视觉单词的抗噪性,从而降低了视觉单词的描述力。与基于类别中心的方法类似,基于特征空间分割的方法同样不具有良好的抗噪性,因为它们会将所有的视觉特征向量划分到不同的子空间内,然后看作是视觉单词。
上述两类主流的视觉单词生成方法存在如下导致视觉单词描述能力受限 的缺陷:1)无法保障视觉单词的内部特征相似性,即无法保证每个视觉单词内部的所有视觉特征向量之间的高度相似性;2)无法保证视觉单词的外部特征差异性,即不同视觉单词所包含的视觉特征向量之间没有足够的差异性;3)无法保证视觉单词的抗噪性能,因为将所有的视觉特征向量量化成视觉单词无法滤除大量的由图像的复杂背景区域引入的噪声视觉特征向量。综上所述,要从视觉单词的内部特征相似性,视觉单词的外部特征差异性,以及视觉单词的抗噪性能三方面综合提升视觉单词的描述能力,是一件十分困难的事情。
针对上述问题,亟待提出了一种够可以有效提高视觉单词内部相似性、外部差异性和抗噪性的视觉单词词典构建方法,进一步提升视觉单词的描述力。
发明内容
本发明所要解决的技术问题在于提供一种基于密集子图的视觉词典生成方法及其系统,以克服现有技术存在的视觉词典生成方法中无法同时保障视觉单词的内部相似性、外部差异性和抗噪性的缺陷,进一步提高视觉单词的描述力。
为达上述目的,本发明提出了一种基于密集子图的视觉词典生成方法,其特征在于,包括:
密集子图检测步骤:在基于视觉特征向量间的关系形成的无向图中,通过最大值估计方法进行密集子图检测;
视觉词典生成步骤:通过检测到的所述密集子图获取组成视觉词典的视觉单词,所述视觉单词具有单词内部高度相似性、单词外部特征差异性和抗噪性。
上述基于密集子图的视觉词典生成方法,其特征在于,所述方法还包括:
扩展步骤:将所述最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最大值估计方法,通过所述扩展最大值估计方法获取视觉单词。
上述基于密集子图的视觉词典生成方法,其特征在于,所述密集子图检测步骤和扩展步骤都包括:
最大值估计迭代步骤:在所述无向图中寻找具有最大密集度的局部密集子图,并通过所述局部密集子图估计所述视觉特征向量空间中的超球区域,确保在所述超球区域中包含所有检测到的所述密集子图。
上述基于密集子图的视觉词典生成方法,其特征在于,所述扩展步骤还包 括:
特征空间索引步骤:在所述最大值估计迭代步骤中检测到所述密集子图后,进行所述空间索引结构的更新和视觉特征向量重新分配,在所述索引的节点达到稳定状态后,输出有效节点作为所述视觉单词。
上述基于密集子图的视觉词典生成方法,其特征在于,所述最大值估计迭代步骤还包括:
最大值步骤:在所述无向图包含的子图中查找具有最大密集度的局部密集子图;
估计步骤:通过最大值步骤获取的局部密集子图,估计出所述超球区域,并在所述超球区域中,根据预定条件,查找所有满足条件的所述索引的节点,所述节点聚集成为新的局部密集子图,执行所述最大值步骤提高所述新的局部密集子图的密集度,获取最终的所述密集子图。
上述基于密集子图的视觉词典生成方法,其特征在于,所述最大值估计方法的公式:
Maximizeg(x)=xTAxs.t.x∈Δn]]>
其中,所述x为概率化的子图,所述g(x)为所述x内部所有节点间的平均连接强度,a(vi,x)=(Ax)i表示节点vi与x的相似度,所述x∈Δn为由所述视觉特征向量组成的子图表示的概率向量;
通过所述最大值估计方法求解所述局部密集子集的公式为:
xi(t+1)=xi(t)(Ax(t)i)x(t)TAx(t)]]>
其中,x∈Δn为用于表示由视觉特征向量组成的子图的概率向量。t为最大值估计算法的迭代次数,是一个动态增长的参数。xi(t)表示第t次最大值估计迭代时,概率向量x的第i维上的实数值。A是由视觉特征向量组成的无向图的相似度连接矩阵。
通过所述最大值估计方法求解所述超球区域H(c,r)的公式为:所述超球区域的中心为c、所述超球区域的半径为r:
c=Σivixi*]]>
r=1αlnUg(x*)U=Σjxj*eα||vj-c||]]>
其中,所述x*为局部密集子图,所述c为x*中所有节点的加权平均,所述vi为所述无向图的节点i,所述α为尺度参数。
上述基于密集子图的视觉词典生成方法,其特征在于,所述特征空间索引步骤还包括:
初始化步骤:对所述特征向量空间索引进行初始化操作,对所述索引的结构进行初始赋值;
更新步骤:在所述最大值估计迭代步骤后,所述索引的每个节点对应一个所述超球,根据所述超球中包含的孩子超球的参数进行所述超球的更新;
重新分配步骤:采取自顶向下的方式重新分配每个所述节点对应的所述超球所包含的所述视觉特征向量;
稳定状态判断步骤:如果所述局部密集子图的密集度增长幅度小于预定阈值,则所述节点对应的所述局部密集子图达到稳定状态,否则,执行所述最大值估计迭代步骤;
输出步骤:每个所述节点对应由所述视觉特征向量组成的所述密集子图,从所述密集子图中根据预定的密集度阈值进行过滤,选取有效所述节点作为最终的视觉单词。
上述基于密集子图的视觉词典生成方法,其特征在于,所述更新步骤采用的更新公式为:
ci=1KΣj=1Kcjri=minj(rj+||cj-ci||)]]>
其中,所述K为孩子节点个数,所述pi为所述孩子节点,所述pi对应超球中心为ci,半径为ri。
本发明还提供一种基于密集子图的视觉词典生成系统,采用如所述视觉词典生成方法,其特征在于,所述视觉词典生成系统包括:
密集子图检测模块:在基于视觉特征向量间的关系形成的无向图中,通过最大值估计方法进行密集子图检测;
视觉词典生成模块:通过检测到的所述密集子图获取组成视觉词典的视觉单词,所述视觉单词具有单词内部高度相似性、单词外部特征差异性和抗噪性。
上述基于密集子图的视觉词典生成系统,其特征在于,所述系统还包括:
扩展模块:将所述最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最大值估计方法,通过所述扩展最大值估计方法获取视觉单词。
上述基于密集子图的视觉词典生成系统,其特征在于,所述密集子图检测模块和扩展模块都包括:
最大值估计迭代模块:在所述无向图中寻找具有最大密集度的局部密集子图,并通过所述局部密集子图估计所述视觉特征向量空间中的超球区域,确保在所述超球区域中包含所有检测到的所述密集子图。
上述基于密集子图的视觉词典生成系统,其特征在于,所述扩展模块还包括:
特征空间索引模块:在所述最大值估计迭代步骤中检测到所述密集子图后,进行所述空间索引结构的更新和视觉特征向量重新分配,在所述索引的节点达到稳定状态后,输出有效节点作为所述视觉单词。
上述基于密集子图的视觉词典生成系统,其特征在于,所述最大值估计迭代模块还包括:
最大值模块:在所述无向图包含的子图中查找具有最大密集度的局部密集子图;
估计模块:通过最大值步骤获取的局部密集子图,估计出所述超球区域,并在所述超球区域中,根据预定条件,查找所有满足条件的所述索引的节点,所述节点聚集成为新的局部密集子图,执行所述最大值步骤提高所述新的局部密集子图的密集度,获取最终的所述密集子图。
上述基于密集子图的视觉词典生成系统,其特征在于,所述最大值估计方法的公式:
Maximizeg(x)=xTAxs.t.x∈Δn]]>
其中,所述x为概率化的子图,所述g(x)为所述x内部所有节点间的平均连接强度,a(vi,x)=(Ax)i表示节点vi与x的相似度,所述x∈Δn为由所述视觉特征向量组成的子图表示的概率向量;
通过所述最大值估计方法求解所述局部密集子集的公式为:
xi(t+1)=xi(t)(Ax(t)i)x(t)TAx(t)]]>
其中,x∈Δn为用于表示由视觉特征向量组成的子图的概率向量。t为最大值估计算法的迭代次数,是一个动态增长的参数。xi(t)表示第t次最大值估计迭代时,概率向量x的第i维上的实数值。A是由视觉特征向量组成的无向图的相似度连接矩阵。
通过所述最大值估计方法求解所述超球区域H(c,r)的公式为:所述超球区域的中心为c、所述超球区域的半径为r:
c=Σivixi*]]>
r=1αlnUg(x*)U=Σjxj*eα||vj-c||]]>
其中,所述x*为局部密集子图,所述c为x*中所有节点的加权平均,所述vi为所述无向图的节点i,所述α为尺度参数。
上述基于密集子图的视觉词典生成系统,其特征在于,所述特征空间索引模块还包括:
初始化模块:对所述特征向量空间索引进行初始化操作,对所述索引的结构进行初始赋值;
更新模块:在所述最大值估计迭代步骤后,所述索引的每个节点对应一个所述超球,根据所述超球中包含的孩子超球的参数进行所述超球的更新;
重新分配模块:采取自顶向下的方式重新分配每个所述节点对应的所述超球所包含的所述视觉特征向量;
稳定状态判断模块:如果所述局部密集子图的密集度增长幅度小于预定阈值,则所述节点对应的所述局部密集子图达到稳定状态,否则,执行所述最大值估计迭代步骤;
输出模块:每个所述节点对应由所述视觉特征向量组成的所述密集子图,从所述密集子图中根据预定的密集度阈值进行过滤,选取有效所述节点作为最终的视觉单词。
上述基于密集子图的视觉词典生成系统,其特征在于,所述更新模块采用的更新公式为:
ci=1KΣj=1Kcjri=minj(rj+||cj-ci||)]]>
其中,所述K为孩子节点个数,所述pi为所述孩子节点,所述pi对应超球中心为ci,半径为ri。
与现有技术相比较,本发明主要的有益效果在于:本发明通过检测视觉特征向量构成的密集子图构成视觉单词能够从如下方面全面提升视觉单词的描述能力:1)密集子图结构要求密集子图内部的所有节点之间具有很强的相似性,因此本发明生成的视觉单词具有很高的内部特征相似性;2)不同密集子图之间不相互重叠和包含,这就在一定程度上保证了较高的视觉单词外部特征差异性;3)密集子图本身就是一种具有很高抗噪声性能的结构,所有与密集子图联系不紧密的噪声图节点都会被排斥在密集子图之外。
附图说明
图1为本发明方法流程示意图;
图2为本发明方法详细步骤示意图;
图3为本发明方法实施例步骤示意图;
图4A~4B为本发明k叉树示意图;
图5为本发明系统结构示意图;
图6为本发明系统详细结构示意图。
其中,附图标记:
1 密集子图检测模块    2扩展模块
3 视觉词典生成模块
11 最大值估计迭代模块
21 最大值估计迭代模块 22 特征空间索引模块
111 最大值模块        112 估计模块
211 最大值模块        212 估计模块
221 初始化模块        222 更新模块
223 重新分配模块        224 稳定状态判断模块
225 输出模块
S1~S3、S21~S22、S111~S112、S221~S225、S10~S60:本发明各实施例的施行步骤
具体实施方式
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
下面结合附图和具体实施方式,对本发明做进一步的说明。
本发明提出一个基于密集子图的视觉词典生成方法,该方法可以有效提高大规模图像检索系统的检索性能。该方法的核心算法是一种可以在图(Graph)结构上快速准确的检测密集子图的最大值估计(ME)算法。ME算法在以视觉特征向量为节点的图结构上,通过求解近似二次优化问题来检测密集子图,并将得到的密集子图作为视觉单词。该方法得到的视觉单词具有很强的内部相似性、外部差异性和很好的抗噪性,从而有效提高了视觉单词的视觉描述力。为了保证基于ME算法的视觉词典生成方法的可扩展性,本发明进一步通过嵌入特征空间索引的方式实现了可扩展的ME算法(Scalable Maximization Estimation,SME)。
本发明的技术关键点在于:
关键点1:为了提升视觉单词的描述力,本发明提出了基于密集子图的视觉词典生成方法。技术效果:密集子图要求内部节点联系紧密,与密集子图外的节点(包括其他密集子图内的节点和噪声节点)关联稀疏,因此,基于密集子图的方法既保证了视觉单词的内部相似性和外部差异性,也使视觉单词具有良好抗噪性,可以很好地保证视觉单词的描述力。
关键点2:为了从高噪声视觉数据中有效检测密集子图,本发明提出了一种基于近似二次优化的、具有高抗噪性能的密集子图查找方法--最大值估计算法(Maximization Estimation,ME)。技术效果:ME算法通过查找密集子图可以有效地从高噪声数据中检测聚类模式。
关键点3:为了提高视觉词典生成方法的可扩展性,本发明提出了一种将ME算法嵌入特征空间索引结构的方法,即可扩展的最大值估计算法(Scalable  Maximization Estimation,SME)。技术效果:将ME算法的迭代求解过程与特征空间索引结构(如k叉树)充分结合能有效提高整个算法的运算效率。
图1为本发明方法流程示意图,如图1所示,本发明提供的一种基于密集子图的视觉词典生成方法,包括:
密集子图检测步骤S1:在基于视觉特征向量间的关系形成的无向图中,通过最大值估计方法进行密集子图检测;
扩展步骤S2:将最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最大值估计方法,通过扩展最大值估计方法获取视觉单词;
视觉词典生成步骤S3:通过检测到的密集子图获取组成视觉词典的视觉单词,视觉单词具有单词内部高度相似性、单词外部特征差异性和抗噪性。
其中,密集子图检测步骤S1包括:
最大值估计迭代步骤S11:在无向图中寻找具有最大密集度的局部密集子图,并通过局部密集子图估计视觉特征向量空间中的超球区域,确保在超球区域中包含所有检测到的密集子图。
其中,扩展步骤S2还包括:
最大值估计迭代步骤S21:在无向图中寻找具有最大密集度的局部密集子图,并通过局部密集子图估计视觉特征向量空间中的超球区域,确保在超球区域中包含所有检测到的密集子图;
特征空间索引步骤S22:在最大值估计迭代步骤中检测到密集子图后,进行空间索引结构的更新和视觉特征向量重新分配,在索引的节点达到稳定状态后,输出有效节点作为视觉单词。
其中,最大值估计迭代步骤S11还包括:
最大值步骤S111:在无向图包含的子图中查找具有最大密集度的局部密集子图;
估计步骤S112:通过最大值步骤获取的局部密集子图,估计出超球区域,并在超球区域中,根据预定条件,查找所有满足条件的索引的节点,节点聚集成为新的局部密集子图,执行最大值步骤提高新的局部密集子图的密集度,获取最终的密集子图。
其中,最大值估计迭代步骤S21还包括:
最大值步骤S211:在无向图包含的子图中查找具有最大密集度的局部密 集子图;
估计步骤S212:通过最大值步骤获取的局部密集子图,估计出超球区域,并在超球区域中,根据预定条件,查找所有满足条件的索引的节点,节点聚集成为新的局部密集子图,执行最大值步骤提高新的局部密集子图的密集度,获取最终的密集子图。
其中,特征空间索引步骤S22还包括:
初始化步骤S221:对特征向量空间索引进行初始化操作,对索引的结构进行初始赋值;
更新步骤S222:在最大值估计迭代步骤后,索引的每个节点对应一个超球,根据超球中包含的孩子超球的参数进行超球的更新;
重新分配步骤S223:采取自顶向下的方式重新分配每个节点对应的超球所包含的视觉特征向量;
稳定状态判断步骤S224:如果局部密集子图的密集度增长幅度小于预定阈值,则节点对应的局部密集子图达到稳定状态,否则,执行最大值估计迭代步骤;
输出步骤S225:每个节点对应由视觉特征向量组成的密集子图,从密集子图中根据预定的密集度阈值进行过滤,选取有效节点作为最终的视觉单词。
其中,最大值估计方法的公式:
Maximizeg(x)=xTAxs.t.x∈Δn]]>
其中,x为概率化的子图,g(x)为所述x内部所有节点间的平均连接强度,a(vi,x)=(Ax)i表示节点vi与x的相似度,x∈Δn为由视觉特征向量组成的子图表示的概率向量;
通过最大值估计方法求解局部密集子集的公式为:
xi(t+1)=xi(t)(Ax(t)i)x(t)TAx(t)]]>
其中,x∈Δn为用于表示由视觉特征向量组成的子图的概率向量。t为最大值估计算法的迭代次数,是一个动态增长的参数。xi(t)表示第t次最大值估计迭代时,概率向量x的第i维上的实数值。A是由视觉特征向量组成的无向图的相似度连接矩阵。
通过最大值估计方法求解超球区域H(c,r)的公式为:超球区域的中心为c、超球区域的半径为r:
c=Σivixi*]]>
r=1αlnUg(x*)U=Σjxj*eα||vj-c||]]>
其中,x*为局部密集子图,c为x*中所有节点的加权平均,vi为所述无向图的节点i,α为尺度参数。
其中,更新步骤S222采用的更新公式为:
ci=1KΣj=1Kcjri=minj(rj+||cj-ci||)]]>
其中,K为孩子节点个数,pi为孩子节点,pi对应超球中心为ci,半径为ri。
以下结合图示,详细说明本发明方法的实施例过程:
本发明将视觉特征向量间的关系抽象为无向图结构,视觉特征向量为图(Graph)的节点(Vertice),特征向量的相似度为边权重(Weight)。因为属于同一个视觉单词的特征向量应该具有强相似性,不同的视觉单词的特征向量具有明显差异性,所以对于一个以视觉特征向量构成的图而言,每个视觉单词可以视作边权重很高的节点组成的密集子图。由于不具有重复性的图像背景带来的异常视觉特征向量与其他特征向量的相似度很低,异常特征向量无法构成密集子图,所以通过检测密集子图生成的视觉单词具有很强的抗噪性。本发明针对该问题提出了一种最大值估计算法,可以有效地在高噪声环境下检测密集子图,同时最大可能的将异常特征节点隔离在密集子图外。
对于大规模图像检索任务而言,视觉特征向量往往在千万量级,这要求视觉词典的生成方法具有很高的可扩展性。本发明通过将最大值估计算法的求解过程嵌入到特征空间索引结构(如k叉树)中实现了可扩展的ME算法(SME),从而能够高效地在上千万个视觉特征向量上生成视觉单词。
以密集子图的形式表征的视觉单词,单词内部的视觉特征向量具有高相似 性,而属于不同密集子图的视觉特征向量相似度较低。同时,异常视觉特征向量与密集子图内的视觉特征向量相似度很低,这些噪声点便无法被量化到任何一个视觉单词中。因此,本发明提出的视觉词典生成算法通过SME算法求解密集子图,并将密集子图表示为视觉单词,可以在保证算法可扩展性的前提下很好地提升视觉单词的描述力。
图3为本发明实施例步骤示意图,如图3所示,本发明提出了一种基于密集子图的视觉词典生成方法的ME方法、SME方法以及生成视觉词典的具体步骤如下:
数据抽象及问题定义:
本发明将所有视觉特征向量之间的相似度抽象为图结构--特征向量相似图,该图结构定义为G=(V,W,A)。具体定义如下:
V={v1,v2,…,vn}表示图节点集合,每个节点表示一个视觉特征向量,n是节点总数。
表示边权重集合,wij衡量了两个视觉特征向量间的相似度,其中||·||表示L2-norm,α是控制节点间连接强度的尺度参数。
A={aij|aij=wij}表示特征向量相似图对应的相似度矩阵,大小为n*n。该矩阵对角线元素为0避免出现图结构的自环路。
每一个由视觉特征向量组成的子图将被表示为一个概率向量x∈Δn,其中Δn={x|x∈Rn,xi>0,Σixi=1},Δn为单纯形。x的第i个分量(xi)代表第i个节点vi所对应的视觉特征向量属于x表示的子图的概率。在本发明中,我们将概率化的子图表示为x,子图内的节点表示为vi∈x。一个子图x的密集度被定义为g(x)=xTAx=Σixi(Ax)i。值得注意的是,a(vi,x)=(Ax)i表示节点vi与x的相似度,也就是节点vi与x内的其他节点之间的平均连接强度。因此,g(x)可以看作是x内部所有节点间的平均连接强度。本发明中我们将视觉单词视作具有局部最大密集度的视觉特征向量子图,这些子图对应着如公式(1)所示的标准二次优化问题的局部最大值点x*,g(x*)用来衡量视觉单词的内部相似性。为了近似求解该二次优化问题的局部最大值,本发明提出了最大值估计算法,该算法将在S30中予以详细说明。
Maximizeg(x)=xTAxs.t.x∈Δn---(1)]]>
步骤S10:初始化特征空间索引
本发明以k叉树作为特征空间索引实现了SME算法。图4A~图4B为本发明k叉树示意图,如图4A~图4B所示,该算法的核心数据结构为k叉树,树的每个节点都对应一个超球。超球由球心和半径构成,球心为高维空间中的一个点,半径描述了超球在高维空间中的球面上的点距球心的距离。在初始化过程中,节点所对应的初始超球中心为该节点的视觉特征向量,初始半径设为无穷大。本发明中,k叉树的初始化包括三个主要步骤:
将所有的数据节点都分配到根节点
对任意中间节点M,从该节点M所包的所有视觉特征向量中随机选取k个特征向量,作为k个孩子节点的中心,每个孩子节点的半径初始化为无穷大。然后,将M节点所包含的所有视觉特征向量以最近邻的方式分配给k个孩子节点。
不断对每个中间节点迭代第2步逐层初始化k叉树,直到某个节点包含的视觉特征向量少于k个,或者k叉树达到提前设定的树深度d。
步骤S20:对k叉树的叶子节点进行最大值估计迭代
在本步骤中,k叉树的每个叶子节点进行最大值估计迭代运算,得到在每一个叶子节点的局部密集子图。本发明提出了最大值估计迭代方法来寻找特征向量相似图G中的密集子图。该方法主要包括两个步骤:
最大值(Maximization)步骤:用来寻找子图中有最大密集度g(x*)的局部密集子图x*。
给定G的子图S,S包含m个节点。S中的密集子图所对应的概率向量被初始化为求解S的局部最大值点所对应的标准二次优化问题可以用复制动态原理求解,如公式(2)所示:
xi(t+1)=xi(t)(Ax(t)i)x(t)TAx(t)---(2)]]>
估计(Estimation)步骤:利用最大值步骤所得到的局部密集子图估计出一个特征空间中的超球区域,并保证该超球能够包含增大密集子图x*的密集度g(x*)的新节点。
Hairong Liu等人证明,如果那么S中求得的局部 密集子图x*并不是G的全局密集子图,而且把vi加入到x*中可以继续提升g(x*)。所以本发明提出了估计步骤来查找可能提升g(x*)值的节点vi。上述证明方法在期刊名称为:“Procedings of The 27th International Conference on Machine Learning,2010”,文献名称为:“Robust graph mode seeking by graph shift”,作者为:Hairong Liu and Shuicheng Yan的文献中公开。
首先,利用x*估计中心为c、半径为r的超球H(c,r)来寻找满足a(vi,x*)>g(x*)的所有节点。c和r的定义如公式(3)(4)所示:
c=Σivixi*---(3)]]>
r=1αlnUg(x*)U=Σjxj*eα||vj-c||---(4)]]>
其中,c是x*中所有节点的加权平均,α是尺度参数,与中的α一样。接下来,我们通过证明定理1说明在超球空间H(c,r)外的节点都无法满足条件a(vi,x*)>g(x*),就是说只有超球内的节点可以提高图密度。
该条件证明过程如下:
定理1.如果||vj-c||>r,那么a(vi,x*)<g(x*)
证明:定义将公式(4)带入f(vi)可得
f(vi)=Σjxj*eα[||vj-c||-||vi-c||]---(5)]]>
通过带入三角不等式:
||vi-c||-||vj-c||≥-||vi-vj||  (6)
然后我们可以得到下面的不等式:
f(vi)≥a(vi,x*)=Σjxj*e-α||vi-vj||---(7)]]>
令||vi-c||=r,将公式(4)带入公式(5),我们可以得到f(vi)=Ue-αr=g(x*)。考虑到f(vi)的单调性和公式(7)我们可以得到:如果||vi-c||>r,那么g(x*)>f(vi)≥a(vi,x*)。
定理1得证。
然后,超球空间H(c,r)内的节点被聚集成一个新的子图S作为下一轮最 大化步骤的输入来提升子图的密集度。最后,当G中任何一个节点都无法使g(x*)的值增大的时候,我们便检测到G的一个密集子图。
在最大值步骤,我们对k叉树的每个叶子节点应用最大值估计,此时对每个叶子节点pi,属于该叶子节点的视觉特征向量被聚集成一个子图Si。通过公式(2)所示的复制动态原理,我们可以得到Si中的密集子图xi*,但xi*不一定是G中的一个密集子图。我们用前文提到的估计步骤提高xi*的密集度。我们利用公式(3)和(4)重新估计每个叶子节点pi对应的超球Hi(ci,ri)。
步骤S30:自底向上的更新k叉树
在S20对k叉树的叶子节点应用ME算法后,每个叶子节点对应一个超球。由于每个节点pi最多包含k个孩子节点{pj}k,那么pi对应的超球Hi(ci,ri)被定义为能够包含所有孩子超球(孩子节点所对应的超球)的最小超球,并根据孩子超球的中心{cj}K和半径{rj}K更新pi对应超球的中心ci和半径ri,更新后的中心和半径计算方式如公式(8)所示:
ci=1KΣj=1Kcjri=minj(rj+||cj-ci||)---(8)]]>
其中,{cj}k为pi的孩子节点{pj}k所对应的超球的中心,{rj}k为pi的孩子节点{pj}k对应的超球的半径。
步骤S40:自顶向下的重新分配视觉特征向量
经过S30步骤后,可以得到更新后的k叉树,然后本发明采取自顶向下的方式重新分配每个节点对应超球所包含的视觉特征向量。根节点包含所有视觉特征向量,从根节点的孩子节点开始,计算视觉特征向量可能被包含的超球。如果某个视觉特征向量可同时被两个或者多个超球同时包含,则将该特征点归属到密集度最大的超球。
步骤S50:判断叶子节点是否趋于稳定
在未达到稳定状态之前,所找到的局部密集子图的密集度是单调递增的,当所有局部密集子图的增长幅度均小于10-6时,则认为叶子节点对应的密集子图达到稳定状态,执行S60。如果未达到稳定状态,则返回S20循环执行。
步骤S60:输出有效叶子节点为视觉单词
在k叉树达到稳定状态后,每个叶子节点对应一个由视觉特征向量组成的 密集子图。密集度比较小的密集子图所包含的视觉特征向量间的相似性较低,因此该密集子图的视觉描述力也比较低,应该被视为无效的叶子节点。本发明通过设置密集度阈值过滤这些叶子节点,选取有效叶子节点作为视觉单词。阈值ρ的设置方法如下:
ρ=e-αò  (9)
其中,ò是一个叶子节点中的平均视觉特征向量距离。
本发明还提供一种基于密集子图的视觉词典生成系统,采用上述视觉词典生成方法,图5为本发明系统结构示意图,如图5所示,该视觉词典生成系统包括:
密集子图检测模块1:在基于视觉特征向量间的关系形成的无向图中,通过最大值估计方法进行密集子图检测;
扩展模块2:将最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最大值估计方法,通过扩展最大值估计方法获取视觉单词。
视觉词典生成模块3:通过检测到的密集子图获取组成视觉词典的视觉单词,视觉单词具有单词内部高度相似性、单词外部特征差异性和抗噪性。
其中,密集子图检测模块1包括:
最大值估计迭代模块11:在无向图中寻找具有最大密集度的局部密集子图,并通过局部密集子图估计视觉特征向量空间中的超球区域,确保在超球区域中包含所有检测到的密集子图。
其中,扩展模块2还包括:
最大值估计迭代模块21:在无向图中寻找具有最大密集度的局部密集子图,并通过局部密集子图估计视觉特征向量空间中的超球区域,确保在超球区域中包含所有检测到的密集子图;
特征空间索引模块22:在最大值估计迭代步骤中检测到密集子图后,进行空间索引结构的更新和视觉特征向量重新分配,在索引的节点达到稳定状态后,输出有效节点作为视觉单词。
其中,图6为本发明系统详细结构示意图,如图6所示,最大值估计迭代模块11还包括:
最大值模块111:在无向图包含的子图中查找具有最大密集度的局部密集子图;
估计模块112:通过最大值步骤获取的局部密集子图,估计出超球区域,并在超球区域中,根据预定条件,查找所有满足条件的索引的节点,节点聚集成为新的局部密集子图,执行最大值步骤提高新的局部密集子图的密集度,获取最终的密集子图。
其中,最大值估计迭代模块21还包括:
最大值模块211:在无向图包含的子图中查找具有最大密集度的局部密集子图;
估计模块212:通过最大值步骤获取的局部密集子图,估计出超球区域,并在超球区域中,根据预定条件,查找所有满足条件的索引的节点,节点聚集成为新的局部密集子图,执行最大值步骤提高新的局部密集子图的密集度,获取最终的密集子图。
其中,特征空间索引模块22还包括:
初始化模块221:对特征向量空间索引进行初始化操作,对索引的结构进行初始赋值;
更新模块222:在最大值估计迭代步骤后,索引的每个节点对应一个超球,根据超球中包含的孩子超球的参数进行超球的更新;
重新分配模块223:采取自顶向下的方式重新分配每个节点对应的超球所包含的视觉特征向量;
稳定状态判断模块224:如果局部密集子图的密集度增长幅度小于预定阈值,则节点对应的局部密集子图达到稳定状态,否则,执行最大值估计迭代步骤;
输出模块225:每个节点对应由视觉特征向量组成的密集子图,从密集子图中根据预定的密集度阈值进行过滤,选取有效节点作为最终的视觉单词。
综上所述,本发明所提出的基于密集子图的视觉词典生成方法及其系统,能够有效且全面的提高视觉单词的各方面性能,从而提升视觉单词的描述能力。同时,由于视觉单词生成算法往往需要处理上千万量级的视觉特征向量数据,这就对密集子图检测算法提出了很高的运算效率上的要求。因此,本发明提出了一整套适应大规模向量数据的密集子图检测算法——“可扩展的最大值估计算法”(Scalable Maximization Estimation,SME),用于解决大规模视觉特征向量数据上的视觉单词生成问题。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

一种基于密集子图的视觉词典生成方法及其系统.pdf_第1页
第1页 / 共23页
一种基于密集子图的视觉词典生成方法及其系统.pdf_第2页
第2页 / 共23页
一种基于密集子图的视觉词典生成方法及其系统.pdf_第3页
第3页 / 共23页
点击查看更多>>
资源描述

《一种基于密集子图的视觉词典生成方法及其系统.pdf》由会员分享,可在线阅读,更多相关《一种基于密集子图的视觉词典生成方法及其系统.pdf(23页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 104239398 A (43)申请公布日 2014.12.24 CN 104239398 A (21)申请号 201410312913.7 (22)申请日 2014.07.02 G06F 17/30(2006.01) (71)申请人 中国科学院计算技术研究所 地址 100190 北京市海淀区中关村科学院南 路 6 号 (72)发明人 黄庆明 褚令洋 张艳雁 王树徽 蒋树强 (74)专利代理机构 北京律诚同业知识产权代理 有限公司 11006 代理人 祁建国 李岩 (54) 发明名称 一种基于密集子图的视觉词典生成方法及其 系统 (57) 摘要 本发明公开了一种基于密。

2、集子图的视觉词典 生成方法, 包括 : 密集子图检测步骤用于在基于 视觉特征向量间的关系形成的无向图中, 通过最 大值估计方法进行密集子图检测 ; 视觉词典生成 步骤用于通过检测到的密集子图获取组成视觉词 典的视觉单词, 视觉单词具有单词内部高度相似 性、 单词外部特征差异性和抗噪性。 本发明还公开 了一种基于密集子图的视觉词典生成系统。 (51)Int.Cl. 权利要求书 4 页 说明书 14 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书4页 说明书14页 附图4页 (10)申请公布号 CN 104239398 A CN 104239398 A 1。

3、/4 页 2 1. 一种基于密集子图的视觉词典生成方法, 其特征在于, 包括 : 密集子图检测步骤 : 在基于视觉特征向量间的关系形成的无向图中, 通过最大值估计 方法进行密集子图检测 ; 视觉词典生成步骤 : 通过检测到的所述密集子图获取组成视觉词典的视觉单词, 所述 视觉单词具有单词内部高度相似性、 单词外部特征差异性和抗噪性。 2. 根据权利要求 1 所述基于密集子图的视觉词典生成方法, 其特征在于, 所述方法还 包括 : 扩展步骤 : 将所述最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最大值 估计方法, 通过所述扩展最大值估计方法获取视觉单词。 3.根据权利要求1或2所述基于密。

4、集子图的视觉词典生成方法, 其特征在于, 所述密集 子图检测步骤和扩展步骤都包括 : 最大值估计迭代步骤 : 在所述无向图中寻找具有最大密集度的局部密集子图, 并通过 所述局部密集子图估计所述视觉特征向量空间中的超球区域, 确保在所述超球区域中包含 所有检测到的所述密集子图。 4. 根据权利要求 2 所述基于密集子图的视觉词典生成方法, 其特征在于, 所述扩展步 骤还包括 : 特征空间索引步骤 : 在所述最大值估计迭代步骤中检测到所述密集子图后, 进行所述 空间索引结构的更新和视觉特征向量重新分配, 在所述索引的节点达到稳定状态后, 输出 有效节点作为所述视觉单词。 5. 根据权利要求 3 所。

5、述基于密集子图的视觉词典生成方法, 其特征在于, 所述最大值 估计迭代步骤还包括 : 最大值步骤 : 在所述无向图包含的子图中查找具有最大密集度的局部密集子图 ; 估计步骤 : 通过最大值步骤获取的局部密集子图, 估计出所述超球区域, 并在所述超球 区域中, 根据预定条件, 查找所有满足条件的所述索引的节点, 所述节点聚集成为新的局部 密集子图, 执行所述最大值步骤提高所述新的局部密集子图的密集度, 获取最终的所述密 集子图。 6. 根据权利要求 3 所述基于密集子图的视觉词典生成方法, 其特征在于, 所述最大值 估计方法的公式 : 其中, 所述 x 为概率化的子图, 所述 g(x) 为所述 。

6、x 内部所有节点间的平均连接强度, a(vi,x) (Ax)i表示节点 vi与 x 的相似度, 所述 x n为由所述视觉特征向量组成的子 图表示的概率向量 ; 通过所述最大值估计方法求解所述局部密集子集的公式为 : 其中, x n为用于表示由视觉特征向量组成的子图的概率向量, t 为最大值估计算 法的迭代次数, 是一个动态增长的参数, xi(t)表示第t次最大值估计迭代时, 概率向量x的 权 利 要 求 书 CN 104239398 A 2 2/4 页 3 第 i 维上的实数值, A 是由视觉特征向量组成的无向图的相似度连接矩阵 ; 通过所述最大值估计方法求解所述超球区域 H(c,r) 的公式。

7、为 : 所述超球区域的中心 为 c、 所述超球区域的半径为 r : 其中, 所述 x*为局部密集子图, 所述 c 为 x*中所有节点的加权平均, 所述 vi为所述无 向图的节点 i, 所述 为尺度参数。 7. 根据权利要求 4 所述基于密集子图的视觉词典生成方法, 其特征在于, 所述特征空 间索引步骤还包括 : 初始化步骤 : 对所述特征向量空间索引进行初始化操作, 对所述索引的结构进行初始 赋值 ; 更新步骤 : 在所述最大值估计迭代步骤后, 所述索引的每个节点对应一个所述超球, 根 据所述超球中包含的孩子超球的参数进行所述超球的更新 ; 重新分配步骤 : 采取自顶向下的方式重新分配每个所述。

8、节点对应的所述超球所包含的 所述视觉特征向量 ; 稳定状态判断步骤 : 如果所述局部密集子图的密集度增长幅度小于预定阈值, 则所述 节点对应的所述局部密集子图达到稳定状态, 否则, 执行所述最大值估计迭代步骤 ; 输出步骤 : 每个所述节点对应由所述视觉特征向量组成的所述密集子图, 从所述密集 子图中根据预定的密集度阈值进行过滤, 选取有效所述节点作为最终的视觉单词。 8. 根据权利要求 7 所述基于密集子图的视觉词典生成方法, 其特征在于, 所述更新步 骤采用的更新公式为 : 其中, 所述 K 为孩子节点个数, 所述 pi为所述孩子节点, 所述 pi对应超球中心为 ci, 半 径为 ri。 。

9、9. 一种基于密集子图的视觉词典生成系统, 采用如权利要求 1-8 中任一项所述视觉词 典生成方法, 其特征在于, 所述视觉词典生成系统包括 : 密集子图检测模块 : 在基于视觉特征向量间的关系形成的无向图中, 通过最大值估计 方法进行密集子图检测 ; 视觉词典生成模块 : 通过检测到的所述密集子图获取组成视觉词典的视觉单词, 所述 视觉单词具有单词内部高度相似性、 单词外部特征差异性和抗噪性。 10. 根据权利要求 9 所述基于密集子图的视觉词典生成系统, 其特征在于, 所述系统还 包括 : 权 利 要 求 书 CN 104239398 A 3 3/4 页 4 扩展模块 : 将所述最大值估计。

10、方法中嵌入视觉特征向量空间索引结构形成扩展最大值 估计方法, 通过所述扩展最大值估计方法获取视觉单词。 11.根据权利要求9或10所述基于密集子图的视觉词典生成系统, 其特征在于, 所述密 集子图检测模块和扩展模块都包括 : 最大值估计迭代模块 : 在所述无向图中寻找具有最大密集度的局部密集子图, 并通过 所述局部密集子图估计所述视觉特征向量空间中的超球区域, 确保在所述超球区域中包含 所有检测到的所述密集子图。 12. 根据权利要求 10 所述基于密集子图的视觉词典生成系统, 其特征在于, 所述扩展 模块还包括 : 特征空间索引模块 : 在所述最大值估计迭代步骤中检测到所述密集子图后, 进行。

11、所述 空间索引结构的更新和视觉特征向量重新分配, 在所述索引的节点达到稳定状态后, 输出 有效节点作为所述视觉单词。 13. 根据权利要求 11 所述基于密集子图的视觉词典生成系统, 其特征在于, 所述最大 值估计迭代模块还包括 : 最大值模块 : 在所述无向图包含的子图中查找具有最大密集度的局部密集子图 ; 估计模块 : 通过最大值步骤获取的局部密集子图, 估计出所述超球区域, 并在所述超球 区域中, 根据预定条件, 查找所有满足条件的所述索引的节点, 所述节点聚集成为新的局部 密集子图, 执行所述最大值步骤提高所述新的局部密集子图的密集度, 获取最终的所述密 集子图。 14. 根据权利要求。

12、 11 所述基于密集子图的视觉词典生成系统, 其特征在于, 所述最大 值估计方法的公式 : 其中, 所述 x 为概率化的子图, 所述 g(x) 为所述 x 内部所有节点间的平均连接强度, a(vi,x) (Ax)i表示节点 vi与 x 的相似度, 所述 x n为由所述视觉特征向量组成的子 图表示的概率向量 ; 通过所述最大值估计方法求解所述局部密集子集的公式为 : 其中, x n为用于表示由视觉特征向量组成的子图的概率向量。t 为最大值估计算 法的迭代次数, 是一个动态增长的参数。xi(t) 表示第 t 次最大值估计迭代时, 概率向量 x 的第 i 维上的实数值。A 是由视觉特征向量组成的无向。

13、图的相似度连接矩阵。 通过所述最大值估计方法求解所述超球区域 H(c,r) 的公式为 : 所述超球区域的中心 为 c、 所述超球区域的半径为 r : 权 利 要 求 书 CN 104239398 A 4 4/4 页 5 其中, 所述 x*为局部密集子图, 所述 c 为 x*中所有节点的加权平均, 所述 vi为所述无 向图的节点 i, 所述 为尺度参数。 15. 根据权利要求 10 所述基于密集子图的视觉词典生成系统, 其特征在于, 所述特征 空间索引模块还包括 : 初始化模块 : 对所述特征向量空间索引进行初始化操作, 对所述索引的结构进行初始 赋值 ; 更新模块 : 在所述最大值估计迭代步骤。

14、后, 所述索引的每个节点对应一个所述超球, 根 据所述超球中包含的孩子超球的参数进行所述超球的更新 ; 重新分配模块 : 采取自顶向下的方式重新分配每个所述节点对应的所述超球所包含的 所述视觉特征向量 ; 稳定状态判断模块 : 如果所述局部密集子图的密集度增长幅度小于预定阈值, 则所述 节点对应的所述局部密集子图达到稳定状态, 否则, 执行所述最大值估计迭代步骤 ; 输出模块 : 每个所述节点对应由所述视觉特征向量组成的所述密集子图, 从所述密集 子图中根据预定的密集度阈值进行过滤, 选取有效所述节点作为最终的视觉单词。 16. 根据权利要求 15 所述基于密集子图的视觉词典生成系统, 其特征。

15、在于, 所述更新 模块采用的更新公式为 : 其中, 所述 K 为孩子节点个数, 所述 pi为所述孩子节点, 所述 pi对应超球中心为 ci, 半 径为 ri。 权 利 要 求 书 CN 104239398 A 5 1/14 页 6 一种基于密集子图的视觉词典生成方法及其系统 技术领域 0001 本发明涉及计算机视觉领域的视觉单词词典生成技术, 针对大规模相似图像检索 应用快速生成具有更强描述能力的视觉单词技术。 背景技术 0002 在互联网高速发展的时代, 大规模相似图像检索技术一直都是学术界和工业界非 常关注的研究热点。该技术允许用户以图片作为输入来查找具有相同或相似内容的其他 图片。传统的。

16、搜索引擎公司, 包括谷歌、 百度、 微软等都提供了一定的基于内容的图像检索 的产品。 大多数图像检索的方法都是通过对视觉内容的特征向量进行聚类生成视觉单词词 典, 并用这些视觉单词表示原始图像。 因此, 视觉单词描述能力的强弱直接决定了相似图像 检索引擎的检索性能。视觉单词的描述力主要受到以下三个因素的影响 : 0003 1) 视觉单词的内部特征相似性。对于同一个视觉单词而言, 属于该视觉单词的视 觉特征向量之间的相似度越高越好。 0004 2) 视觉单词的外部特征差异性。对于不同的视觉单词而言, 构成这些视觉单词的 特征向量特征之间的差异越大越好。 0005 3)视觉单词的抗噪性。 在生成视。

17、觉单词词典的过程中需要过滤掉不属于任何一个 视觉单词的噪声视觉特征向量。这些噪声视觉特征向量往往由复杂的图像背景区域产生, 对相似区域的相似性度量带来极大的干扰。 有效的过滤掉这些噪声视觉特征向量能够很好 的增强视觉词典的描述能力。 0006 提高视觉单词的内部特征相似性和外部特征差异性是大多数视觉单词词典生成 技术的主要目标。因为, 这两个性质在很大程度上影响了视觉单词的描述力。而视觉单词 的抗噪性主要关注过滤掉那些由复杂图像背景带来大量噪声视觉特征向量, 将这样的噪声 视觉特征向量量化成视觉单词会大大降低视觉单词的描述力。 许多现有的视觉单词生成技 术重点关注提升视觉单词的内部特征相似性和。

18、外部特征差异性。 但视觉特征向量的高维度 和大量的噪声视觉特征向量使这项任务变得非常困难。此外, 现有的方法基本上都没有考 虑视觉单词的抗噪性, 这导致大量的噪声视觉特征向量被量化成视觉单词, 并进一步成为 限制视觉单词描述能力的瓶颈。 0007 传统的用于生成视觉词典的聚类方法主要有两类 : 基于聚类中心的方法和 基于特征空间分割的方法。一种经典的基于聚类中心的方法是 k-means 聚类, 它首先 利用 k-means 聚类技术将所有的视觉特征向量聚成 k 类, 然后将每个类作为一个视觉 单词。上述 k-means 聚类技术在期刊名称为 :“IEEE Transactions on Inf。

19、ormation Theory,vol.28,pp.129137,1982” , 文献名称为 “Least squares quantization in pcm” , 作者为 : Stuart Lloyd 的文献中公开。 0008 层次化的k-means(Hierarchical k-means)方法则是通过将k-means嵌入到树结 构中来获得很好的可扩展性。其他应用 k-means 系列的视觉单词词典生成方法都是基于类 别中心的。上述层次化 k-means 聚类技术在期刊名称为 :“Proceedings of the Computer 说 明 书 CN 104239398 A 6 2/。

20、14 页 7 Vision and Pattern Recognition,2006,vol.2,pp.21612168” , 文献名称为 “Scalable recognition with a vocabulary tree,” , 作者为 : David Nister and Henrik Stewenius 的文献中公开。 0009 经典的基于划分的方法利用随机的超平面将特征空间划分为多个子空间, 并将每 个子空间视为一个视觉单词。ERC-Forest 方法利用随机森林算法来引导视觉单词的生成。 随机局部敏感词典通过利用局部敏感哈希方法对特征空间进行划分得到视觉单词。 这种基 于空间划。

21、分的方法往往运算速度快有很好的可扩展性, 但是由于超平面的随机性使这类方 法无法很好的保证视觉单词的内部相似性和外部差异性。 0010 基于聚类中心的部分方法虽然具有不错的可扩展性, 但是这类方法在如下两个方 面制约了视觉单词的描述能力 : 1) 基于聚类中心的视觉单词生成策略要求每一个视觉特 征向量都必须归属到近邻的视觉单词中, 这种方法无法保证视觉单词的内部相似性和外部 差异性。 2)强制要求每一个视觉特征向量都必须要量化到某一个视觉单词中引入了大量噪 声视觉特征向量, 导致无法保证视觉单词的抗噪性, 从而降低了视觉单词的描述力。 与基于 类别中心的方法类似, 基于特征空间分割的方法同样不。

22、具有良好的抗噪性, 因为它们会将 所有的视觉特征向量划分到不同的子空间内, 然后看作是视觉单词。 0011 上述两类主流的视觉单词生成方法存在如下导致视觉单词描述能力受限的缺陷 : 1) 无法保障视觉单词的内部特征相似性, 即无法保证每个视觉单词内部的所有视觉特征向 量之间的高度相似性 ; 2) 无法保证视觉单词的外部特征差异性, 即不同视觉单词所包含的 视觉特征向量之间没有足够的差异性 ; 3) 无法保证视觉单词的抗噪性能, 因为将所有的视 觉特征向量量化成视觉单词无法滤除大量的由图像的复杂背景区域引入的噪声视觉特征 向量。综上所述, 要从视觉单词的内部特征相似性, 视觉单词的外部特征差异性。

23、, 以及视觉 单词的抗噪性能三方面综合提升视觉单词的描述能力, 是一件十分困难的事情。 0012 针对上述问题, 亟待提出了一种够可以有效提高视觉单词内部相似性、 外部差异 性和抗噪性的视觉单词词典构建方法, 进一步提升视觉单词的描述力。 发明内容 0013 本发明所要解决的技术问题在于提供一种基于密集子图的视觉词典生成方法及 其系统, 以克服现有技术存在的视觉词典生成方法中无法同时保障视觉单词的内部相似 性、 外部差异性和抗噪性的缺陷, 进一步提高视觉单词的描述力。 0014 为达上述目的, 本发明提出了一种基于密集子图的视觉词典生成方法, 其特征在 于, 包括 : 0015 密集子图检测步。

24、骤 : 在基于视觉特征向量间的关系形成的无向图中, 通过最大值 估计方法进行密集子图检测 ; 0016 视觉词典生成步骤 : 通过检测到的所述密集子图获取组成视觉词典的视觉单词, 所述视觉单词具有单词内部高度相似性、 单词外部特征差异性和抗噪性。 0017 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述方法还包括 : 0018 扩展步骤 : 将所述最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最 大值估计方法, 通过所述扩展最大值估计方法获取视觉单词。 0019 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述密集子图检测步骤和 说 明 书 CN 104239398 A。

25、 7 3/14 页 8 扩展步骤都包括 : 0020 最大值估计迭代步骤 : 在所述无向图中寻找具有最大密集度的局部密集子图, 并 通过所述局部密集子图估计所述视觉特征向量空间中的超球区域, 确保在所述超球区域中 包含所有检测到的所述密集子图。 0021 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述扩展步骤还包括 : 0022 特征空间索引步骤 : 在所述最大值估计迭代步骤中检测到所述密集子图后, 进行 所述空间索引结构的更新和视觉特征向量重新分配, 在所述索引的节点达到稳定状态后, 输出有效节点作为所述视觉单词。 0023 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述。

26、最大值估计迭代步骤 还包括 : 0024 最大值步骤 : 在所述无向图包含的子图中查找具有最大密集度的局部密集子图 ; 0025 估计步骤 : 通过最大值步骤获取的局部密集子图, 估计出所述超球区域, 并在所述 超球区域中, 根据预定条件, 查找所有满足条件的所述索引的节点, 所述节点聚集成为新的 局部密集子图, 执行所述最大值步骤提高所述新的局部密集子图的密集度, 获取最终的所 述密集子图。 0026 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述最大值估计方法的公 式 : 0027 0028 其中, 所述 x 为概率化的子图, 所述 g(x) 为所述 x 内部所有节点间的平均连接。

27、强 度, a(vi,x) (Ax)i表示节点 vi与 x 的相似度, 所述 x n为由所述视觉特征向量组成 的子图表示的概率向量 ; 0029 通过所述最大值估计方法求解所述局部密集子集的公式为 : 0030 0031 其中, x n为用于表示由视觉特征向量组成的子图的概率向量。t 为最大值估 计算法的迭代次数, 是一个动态增长的参数。xi(t) 表示第 t 次最大值估计迭代时, 概率向 量 x 的第 i 维上的实数值。A 是由视觉特征向量组成的无向图的相似度连接矩阵。 0032 通过所述最大值估计方法求解所述超球区域 H(c,r) 的公式为 : 所述超球区域的 中心为 c、 所述超球区域的半。

28、径为 r : 0033 0034 0035 其中, 所述 x*为局部密集子图, 所述 c 为 x*中所有节点的加权平均, 所述 vi为所 述无向图的节点 i, 所述 为尺度参数。 说 明 书 CN 104239398 A 8 4/14 页 9 0036 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述特征空间索引步骤还 包括 : 0037 初始化步骤 : 对所述特征向量空间索引进行初始化操作, 对所述索引的结构进行 初始赋值 ; 0038 更新步骤 : 在所述最大值估计迭代步骤后, 所述索引的每个节点对应一个所述超 球, 根据所述超球中包含的孩子超球的参数进行所述超球的更新 ; 003。

29、9 重新分配步骤 : 采取自顶向下的方式重新分配每个所述节点对应的所述超球所包 含的所述视觉特征向量 ; 0040 稳定状态判断步骤 : 如果所述局部密集子图的密集度增长幅度小于预定阈值, 则 所述节点对应的所述局部密集子图达到稳定状态, 否则, 执行所述最大值估计迭代步骤 ; 0041 输出步骤 : 每个所述节点对应由所述视觉特征向量组成的所述密集子图, 从所述 密集子图中根据预定的密集度阈值进行过滤, 选取有效所述节点作为最终的视觉单词。 0042 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述更新步骤采用的更新 公式为 : 0043 0044 其中, 所述 K 为孩子节点个数,。

30、 所述 pi为所述孩子节点, 所述 pi对应超球中心为 ci, 半径为 ri。 0045 本发明还提供一种基于密集子图的视觉词典生成系统, 采用如所述视觉词典生成 方法, 其特征在于, 所述视觉词典生成系统包括 : 0046 密集子图检测模块 : 在基于视觉特征向量间的关系形成的无向图中, 通过最大值 估计方法进行密集子图检测 ; 0047 视觉词典生成模块 : 通过检测到的所述密集子图获取组成视觉词典的视觉单词, 所述视觉单词具有单词内部高度相似性、 单词外部特征差异性和抗噪性。 0048 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述系统还包括 : 0049 扩展模块 : 将所述。

31、最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最 大值估计方法, 通过所述扩展最大值估计方法获取视觉单词。 0050 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述密集子图检测模块和 扩展模块都包括 : 0051 最大值估计迭代模块 : 在所述无向图中寻找具有最大密集度的局部密集子图, 并 通过所述局部密集子图估计所述视觉特征向量空间中的超球区域, 确保在所述超球区域中 包含所有检测到的所述密集子图。 0052 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述扩展模块还包括 : 0053 特征空间索引模块 : 在所述最大值估计迭代步骤中检测到所述密集子图后, 进行 所述。

32、空间索引结构的更新和视觉特征向量重新分配, 在所述索引的节点达到稳定状态后, 输出有效节点作为所述视觉单词。 0054 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述最大值估计迭代模块 说 明 书 CN 104239398 A 9 5/14 页 10 还包括 : 0055 最大值模块 : 在所述无向图包含的子图中查找具有最大密集度的局部密集子图 ; 0056 估计模块 : 通过最大值步骤获取的局部密集子图, 估计出所述超球区域, 并在所述 超球区域中, 根据预定条件, 查找所有满足条件的所述索引的节点, 所述节点聚集成为新的 局部密集子图, 执行所述最大值步骤提高所述新的局部密集子图。

33、的密集度, 获取最终的所 述密集子图。 0057 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述最大值估计方法的公 式 : 0058 0059 其中, 所述 x 为概率化的子图, 所述 g(x) 为所述 x 内部所有节点间的平均连接强 度, a(vi,x) (Ax)i表示节点 vi与 x 的相似度, 所述 x n为由所述视觉特征向量组成 的子图表示的概率向量 ; 0060 通过所述最大值估计方法求解所述局部密集子集的公式为 : 0061 0062 其中, x n为用于表示由视觉特征向量组成的子图的概率向量。t 为最大值估 计算法的迭代次数, 是一个动态增长的参数。xi(t) 表示第 。

34、t 次最大值估计迭代时, 概率向 量 x 的第 i 维上的实数值。A 是由视觉特征向量组成的无向图的相似度连接矩阵。 0063 通过所述最大值估计方法求解所述超球区域 H(c,r) 的公式为 : 所述超球区域的 中心为 c、 所述超球区域的半径为 r : 0064 0065 0066 其中, 所述 x*为局部密集子图, 所述 c 为 x*中所有节点的加权平均, 所述 vi为所 述无向图的节点 i, 所述 为尺度参数。 0067 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述特征空间索引模块还 包括 : 0068 初始化模块 : 对所述特征向量空间索引进行初始化操作, 对所述索引的结构。

35、进行 初始赋值 ; 0069 更新模块 : 在所述最大值估计迭代步骤后, 所述索引的每个节点对应一个所述超 球, 根据所述超球中包含的孩子超球的参数进行所述超球的更新 ; 0070 重新分配模块 : 采取自顶向下的方式重新分配每个所述节点对应的所述超球所包 含的所述视觉特征向量 ; 0071 稳定状态判断模块 : 如果所述局部密集子图的密集度增长幅度小于预定阈值, 则 说 明 书 CN 104239398 A 10 6/14 页 11 所述节点对应的所述局部密集子图达到稳定状态, 否则, 执行所述最大值估计迭代步骤 ; 0072 输出模块 : 每个所述节点对应由所述视觉特征向量组成的所述密集子。

36、图, 从所述 密集子图中根据预定的密集度阈值进行过滤, 选取有效所述节点作为最终的视觉单词。 0073 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述更新模块采用的更新 公式为 : 0074 0075 其中, 所述 K 为孩子节点个数, 所述 pi为所述孩子节点, 所述 pi对应超球中心为 ci, 半径为 ri。 0076 与现有技术相比较, 本发明主要的有益效果在于 : 本发明通过检测视觉特征向量 构成的密集子图构成视觉单词能够从如下方面全面提升视觉单词的描述能力 : 1) 密集子 图结构要求密集子图内部的所有节点之间具有很强的相似性, 因此本发明生成的视觉单词 具有很高的内部特征。

37、相似性 ; 2) 不同密集子图之间不相互重叠和包含, 这就在一定程度上 保证了较高的视觉单词外部特征差异性 ; 3) 密集子图本身就是一种具有很高抗噪声性能 的结构, 所有与密集子图联系不紧密的噪声图节点都会被排斥在密集子图之外。 附图说明 0077 图 1 为本发明方法流程示意图 ; 0078 图 2 为本发明方法详细步骤示意图 ; 0079 图 3 为本发明方法实施例步骤示意图 ; 0080 图 4A 4B 为本发明 k 叉树示意图 ; 0081 图 5 为本发明系统结构示意图 ; 0082 图 6 为本发明系统详细结构示意图。 0083 其中, 附图标记 : 0084 1 密集子图检测模。

38、块 2 扩展模块 0085 3 视觉词典生成模块 0086 11 最大值估计迭代模块 0087 21 最大值估计迭代模块 22 特征空间索引模块 0088 111 最大值模块 112 估计模块 0089 211 最大值模块 212 估计模块 0090 221 初始化模块 222 更新模块 0091 223 重新分配模块 224 稳定状态判断模块 0092 225 输出模块 0093 S1 S3、 S21 S22、 S111 S112、 S221 S225、 S10 S60 : 本发明各实施例的 施行步骤 具体实施方式 说 明 书 CN 104239398 A 11 7/14 页 12 0094。

39、 以下结合附图和具体实施例对本发明进行详细描述, 但不作为对本发明的限定。 0095 下面结合附图和具体实施方式, 对本发明做进一步的说明。 0096 本发明提出一个基于密集子图的视觉词典生成方法, 该方法可以有效提高大规模 图像检索系统的检索性能。该方法的核心算法是一种可以在图 (Graph) 结构上快速准确 的检测密集子图的最大值估计 (ME) 算法。ME 算法在以视觉特征向量为节点的图结构上, 通过求解近似二次优化问题来检测密集子图, 并将得到的密集子图作为视觉单词。该方 法得到的视觉单词具有很强的内部相似性、 外部差异性和很好的抗噪性, 从而有效提高了 视觉单词的视觉描述力。为了保证基。

40、于 ME 算法的视觉词典生成方法的可扩展性, 本发明 进一步通过嵌入特征空间索引的方式实现了可扩展的 ME 算法 (Scalable Maximization Estimation, SME)。 0097 本发明的技术关键点在于 : 0098 关键点 1 : 为了提升视觉单词的描述力, 本发明提出了基于密集子图的视觉词典 生成方法。 技术效果 : 密集子图要求内部节点联系紧密, 与密集子图外的节点(包括其他密 集子图内的节点和噪声节点 ) 关联稀疏, 因此, 基于密集子图的方法既保证了视觉单词的 内部相似性和外部差异性, 也使视觉单词具有良好抗噪性, 可以很好地保证视觉单词的描 述力。 009。

41、9 关键点 2 : 为了从高噪声视觉数据中有效检测密集子图, 本发明提出了一种基于 近似二次优化的、 具有高抗噪性能的密集子图查找方法 - 最大值估计算法 (Maximization Estimation, ME)。技术效果 : ME 算法通过查找密集子图可以有效地从高噪声数据中检测聚 类模式。 0100 关键点 3 : 为了提高视觉词典生成方法的可扩展性, 本发明提出了一种将 ME 算 法嵌入特征空间索引结构的方法, 即可扩展的最大值估计算法 (Scalable Maximization Estimation,SME)。 技术效果 : 将ME算法的迭代求解过程与特征空间索引结构(如k叉树) 。

42、充分结合能有效提高整个算法的运算效率。 0101 图1为本发明方法流程示意图, 如图1所示, 本发明提供的一种基于密集子图的视 觉词典生成方法, 包括 : 0102 密集子图检测步骤 S1 : 在基于视觉特征向量间的关系形成的无向图中, 通过最大 值估计方法进行密集子图检测 ; 0103 扩展步骤 S2 : 将最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最 大值估计方法, 通过扩展最大值估计方法获取视觉单词 ; 0104 视觉词典生成步骤 S3 : 通过检测到的密集子图获取组成视觉词典的视觉单词, 视 觉单词具有单词内部高度相似性、 单词外部特征差异性和抗噪性。 0105 其中, 密集。

43、子图检测步骤 S1 包括 : 0106 最大值估计迭代步骤 S11 : 在无向图中寻找具有最大密集度的局部密集子图, 并 通过局部密集子图估计视觉特征向量空间中的超球区域, 确保在超球区域中包含所有检测 到的密集子图。 0107 其中, 扩展步骤 S2 还包括 : 0108 最大值估计迭代步骤 S21 : 在无向图中寻找具有最大密集度的局部密集子图, 并 通过局部密集子图估计视觉特征向量空间中的超球区域, 确保在超球区域中包含所有检测 说 明 书 CN 104239398 A 12 8/14 页 13 到的密集子图 ; 0109 特征空间索引步骤 S22 : 在最大值估计迭代步骤中检测到密集子。

44、图后, 进行空间 索引结构的更新和视觉特征向量重新分配, 在索引的节点达到稳定状态后, 输出有效节点 作为视觉单词。 0110 其中, 最大值估计迭代步骤 S11 还包括 : 0111 最大值步骤 S111 : 在无向图包含的子图中查找具有最大密集度的局部密集子图 ; 0112 估计步骤 S112 : 通过最大值步骤获取的局部密集子图, 估计出超球区域, 并在超 球区域中, 根据预定条件, 查找所有满足条件的索引的节点, 节点聚集成为新的局部密集子 图, 执行最大值步骤提高新的局部密集子图的密集度, 获取最终的密集子图。 0113 其中, 最大值估计迭代步骤 S21 还包括 : 0114 最大。

45、值步骤 S211 : 在无向图包含的子图中查找具有最大密集度的局部密集子图 ; 0115 估计步骤 S212 : 通过最大值步骤获取的局部密集子图, 估计出超球区域, 并在超 球区域中, 根据预定条件, 查找所有满足条件的索引的节点, 节点聚集成为新的局部密集子 图, 执行最大值步骤提高新的局部密集子图的密集度, 获取最终的密集子图。 0116 其中, 特征空间索引步骤 S22 还包括 : 0117 初始化步骤 S221 : 对特征向量空间索引进行初始化操作, 对索引的结构进行初始 赋值 ; 0118 更新步骤 S222 : 在最大值估计迭代步骤后, 索引的每个节点对应一个超球, 根据 超球中。

46、包含的孩子超球的参数进行超球的更新 ; 0119 重新分配步骤 S223 : 采取自顶向下的方式重新分配每个节点对应的超球所包含 的视觉特征向量 ; 0120 稳定状态判断步骤 S224 : 如果局部密集子图的密集度增长幅度小于预定阈值, 则 节点对应的局部密集子图达到稳定状态, 否则, 执行最大值估计迭代步骤 ; 0121 输出步骤 S225 : 每个节点对应由视觉特征向量组成的密集子图, 从密集子图中根 据预定的密集度阈值进行过滤, 选取有效节点作为最终的视觉单词。 0122 其中, 最大值估计方法的公式 : 0123 0124 其中, x 为概率化的子图, g(x) 为所述 x 内部所有。

47、节点间的平均连接强度, a(vi,x) (Ax)i表示节点 vi与 x 的相似度, x n为由视觉特征向量组成的子图表示的概率向 量 ; 0125 通过最大值估计方法求解局部密集子集的公式为 : 0126 0127 其中, x n为用于表示由视觉特征向量组成的子图的概率向量。t 为最大值估 计算法的迭代次数, 是一个动态增长的参数。xi(t) 表示第 t 次最大值估计迭代时, 概率向 量 x 的第 i 维上的实数值。A 是由视觉特征向量组成的无向图的相似度连接矩阵。 0128 通过最大值估计方法求解超球区域 H(c,r) 的公式为 : 超球区域的中心为 c、 超球 说 明 书 CN 10423。

48、9398 A 13 9/14 页 14 区域的半径为 r : 0129 0130 0131 其中, x*为局部密集子图, c 为 x*中所有节点的加权平均, vi为所述无向图的节点 i, 为尺度参数。 0132 其中, 更新步骤 S222 采用的更新公式为 : 0133 0134 其中, K 为孩子节点个数, pi为孩子节点, pi对应超球中心为 ci, 半径为 ri。 0135 以下结合图示, 详细说明本发明方法的实施例过程 : 0136 本发明将视觉特征向量间的关系抽象为无向图结构, 视觉特征向量为图 (Graph) 的节点 (Vertice), 特征向量的相似度为边权重 (Weight)。因为属于同一个视觉单词的特 征向量应该具有强相似性, 不同的视觉单词的特征向量具有明显差异性, 所以对于一个以 视觉特征向量构成的图而言, 每个视觉单词可以视作边权重很高的节点组成的密集子图。 由于不具有重复性的图像背景带来的异常视觉特征向量与其他特征向量的相似度很低, 异 常特征向量无法构成密集子图, 所以通过检测密集子图生成的视觉单词具有很强的抗噪 性。本发明针对该问题提出了一种最大值估计算法, 可以有效地在高噪声环境下检测密集 子图, 同时最大可能的将异常特征节点隔离在密集子图外。 0。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1