《一种基于密集子图的视觉词典生成方法及其系统.pdf》由会员分享,可在线阅读,更多相关《一种基于密集子图的视觉词典生成方法及其系统.pdf(23页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104239398 A (43)申请公布日 2014.12.24 CN 104239398 A (21)申请号 201410312913.7 (22)申请日 2014.07.02 G06F 17/30(2006.01) (71)申请人 中国科学院计算技术研究所 地址 100190 北京市海淀区中关村科学院南 路 6 号 (72)发明人 黄庆明 褚令洋 张艳雁 王树徽 蒋树强 (74)专利代理机构 北京律诚同业知识产权代理 有限公司 11006 代理人 祁建国 李岩 (54) 发明名称 一种基于密集子图的视觉词典生成方法及其 系统 (57) 摘要 本发明公开了一种基于密。
2、集子图的视觉词典 生成方法, 包括 : 密集子图检测步骤用于在基于 视觉特征向量间的关系形成的无向图中, 通过最 大值估计方法进行密集子图检测 ; 视觉词典生成 步骤用于通过检测到的密集子图获取组成视觉词 典的视觉单词, 视觉单词具有单词内部高度相似 性、 单词外部特征差异性和抗噪性。 本发明还公开 了一种基于密集子图的视觉词典生成系统。 (51)Int.Cl. 权利要求书 4 页 说明书 14 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书4页 说明书14页 附图4页 (10)申请公布号 CN 104239398 A CN 104239398 A 1。
3、/4 页 2 1. 一种基于密集子图的视觉词典生成方法, 其特征在于, 包括 : 密集子图检测步骤 : 在基于视觉特征向量间的关系形成的无向图中, 通过最大值估计 方法进行密集子图检测 ; 视觉词典生成步骤 : 通过检测到的所述密集子图获取组成视觉词典的视觉单词, 所述 视觉单词具有单词内部高度相似性、 单词外部特征差异性和抗噪性。 2. 根据权利要求 1 所述基于密集子图的视觉词典生成方法, 其特征在于, 所述方法还 包括 : 扩展步骤 : 将所述最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最大值 估计方法, 通过所述扩展最大值估计方法获取视觉单词。 3.根据权利要求1或2所述基于密。
4、集子图的视觉词典生成方法, 其特征在于, 所述密集 子图检测步骤和扩展步骤都包括 : 最大值估计迭代步骤 : 在所述无向图中寻找具有最大密集度的局部密集子图, 并通过 所述局部密集子图估计所述视觉特征向量空间中的超球区域, 确保在所述超球区域中包含 所有检测到的所述密集子图。 4. 根据权利要求 2 所述基于密集子图的视觉词典生成方法, 其特征在于, 所述扩展步 骤还包括 : 特征空间索引步骤 : 在所述最大值估计迭代步骤中检测到所述密集子图后, 进行所述 空间索引结构的更新和视觉特征向量重新分配, 在所述索引的节点达到稳定状态后, 输出 有效节点作为所述视觉单词。 5. 根据权利要求 3 所。
5、述基于密集子图的视觉词典生成方法, 其特征在于, 所述最大值 估计迭代步骤还包括 : 最大值步骤 : 在所述无向图包含的子图中查找具有最大密集度的局部密集子图 ; 估计步骤 : 通过最大值步骤获取的局部密集子图, 估计出所述超球区域, 并在所述超球 区域中, 根据预定条件, 查找所有满足条件的所述索引的节点, 所述节点聚集成为新的局部 密集子图, 执行所述最大值步骤提高所述新的局部密集子图的密集度, 获取最终的所述密 集子图。 6. 根据权利要求 3 所述基于密集子图的视觉词典生成方法, 其特征在于, 所述最大值 估计方法的公式 : 其中, 所述 x 为概率化的子图, 所述 g(x) 为所述 。
6、x 内部所有节点间的平均连接强度, a(vi,x) (Ax)i表示节点 vi与 x 的相似度, 所述 x n为由所述视觉特征向量组成的子 图表示的概率向量 ; 通过所述最大值估计方法求解所述局部密集子集的公式为 : 其中, x n为用于表示由视觉特征向量组成的子图的概率向量, t 为最大值估计算 法的迭代次数, 是一个动态增长的参数, xi(t)表示第t次最大值估计迭代时, 概率向量x的 权 利 要 求 书 CN 104239398 A 2 2/4 页 3 第 i 维上的实数值, A 是由视觉特征向量组成的无向图的相似度连接矩阵 ; 通过所述最大值估计方法求解所述超球区域 H(c,r) 的公式。
7、为 : 所述超球区域的中心 为 c、 所述超球区域的半径为 r : 其中, 所述 x*为局部密集子图, 所述 c 为 x*中所有节点的加权平均, 所述 vi为所述无 向图的节点 i, 所述 为尺度参数。 7. 根据权利要求 4 所述基于密集子图的视觉词典生成方法, 其特征在于, 所述特征空 间索引步骤还包括 : 初始化步骤 : 对所述特征向量空间索引进行初始化操作, 对所述索引的结构进行初始 赋值 ; 更新步骤 : 在所述最大值估计迭代步骤后, 所述索引的每个节点对应一个所述超球, 根 据所述超球中包含的孩子超球的参数进行所述超球的更新 ; 重新分配步骤 : 采取自顶向下的方式重新分配每个所述。
8、节点对应的所述超球所包含的 所述视觉特征向量 ; 稳定状态判断步骤 : 如果所述局部密集子图的密集度增长幅度小于预定阈值, 则所述 节点对应的所述局部密集子图达到稳定状态, 否则, 执行所述最大值估计迭代步骤 ; 输出步骤 : 每个所述节点对应由所述视觉特征向量组成的所述密集子图, 从所述密集 子图中根据预定的密集度阈值进行过滤, 选取有效所述节点作为最终的视觉单词。 8. 根据权利要求 7 所述基于密集子图的视觉词典生成方法, 其特征在于, 所述更新步 骤采用的更新公式为 : 其中, 所述 K 为孩子节点个数, 所述 pi为所述孩子节点, 所述 pi对应超球中心为 ci, 半 径为 ri。 。
9、9. 一种基于密集子图的视觉词典生成系统, 采用如权利要求 1-8 中任一项所述视觉词 典生成方法, 其特征在于, 所述视觉词典生成系统包括 : 密集子图检测模块 : 在基于视觉特征向量间的关系形成的无向图中, 通过最大值估计 方法进行密集子图检测 ; 视觉词典生成模块 : 通过检测到的所述密集子图获取组成视觉词典的视觉单词, 所述 视觉单词具有单词内部高度相似性、 单词外部特征差异性和抗噪性。 10. 根据权利要求 9 所述基于密集子图的视觉词典生成系统, 其特征在于, 所述系统还 包括 : 权 利 要 求 书 CN 104239398 A 3 3/4 页 4 扩展模块 : 将所述最大值估计。
10、方法中嵌入视觉特征向量空间索引结构形成扩展最大值 估计方法, 通过所述扩展最大值估计方法获取视觉单词。 11.根据权利要求9或10所述基于密集子图的视觉词典生成系统, 其特征在于, 所述密 集子图检测模块和扩展模块都包括 : 最大值估计迭代模块 : 在所述无向图中寻找具有最大密集度的局部密集子图, 并通过 所述局部密集子图估计所述视觉特征向量空间中的超球区域, 确保在所述超球区域中包含 所有检测到的所述密集子图。 12. 根据权利要求 10 所述基于密集子图的视觉词典生成系统, 其特征在于, 所述扩展 模块还包括 : 特征空间索引模块 : 在所述最大值估计迭代步骤中检测到所述密集子图后, 进行。
11、所述 空间索引结构的更新和视觉特征向量重新分配, 在所述索引的节点达到稳定状态后, 输出 有效节点作为所述视觉单词。 13. 根据权利要求 11 所述基于密集子图的视觉词典生成系统, 其特征在于, 所述最大 值估计迭代模块还包括 : 最大值模块 : 在所述无向图包含的子图中查找具有最大密集度的局部密集子图 ; 估计模块 : 通过最大值步骤获取的局部密集子图, 估计出所述超球区域, 并在所述超球 区域中, 根据预定条件, 查找所有满足条件的所述索引的节点, 所述节点聚集成为新的局部 密集子图, 执行所述最大值步骤提高所述新的局部密集子图的密集度, 获取最终的所述密 集子图。 14. 根据权利要求。
12、 11 所述基于密集子图的视觉词典生成系统, 其特征在于, 所述最大 值估计方法的公式 : 其中, 所述 x 为概率化的子图, 所述 g(x) 为所述 x 内部所有节点间的平均连接强度, a(vi,x) (Ax)i表示节点 vi与 x 的相似度, 所述 x n为由所述视觉特征向量组成的子 图表示的概率向量 ; 通过所述最大值估计方法求解所述局部密集子集的公式为 : 其中, x n为用于表示由视觉特征向量组成的子图的概率向量。t 为最大值估计算 法的迭代次数, 是一个动态增长的参数。xi(t) 表示第 t 次最大值估计迭代时, 概率向量 x 的第 i 维上的实数值。A 是由视觉特征向量组成的无向。
13、图的相似度连接矩阵。 通过所述最大值估计方法求解所述超球区域 H(c,r) 的公式为 : 所述超球区域的中心 为 c、 所述超球区域的半径为 r : 权 利 要 求 书 CN 104239398 A 4 4/4 页 5 其中, 所述 x*为局部密集子图, 所述 c 为 x*中所有节点的加权平均, 所述 vi为所述无 向图的节点 i, 所述 为尺度参数。 15. 根据权利要求 10 所述基于密集子图的视觉词典生成系统, 其特征在于, 所述特征 空间索引模块还包括 : 初始化模块 : 对所述特征向量空间索引进行初始化操作, 对所述索引的结构进行初始 赋值 ; 更新模块 : 在所述最大值估计迭代步骤。
14、后, 所述索引的每个节点对应一个所述超球, 根 据所述超球中包含的孩子超球的参数进行所述超球的更新 ; 重新分配模块 : 采取自顶向下的方式重新分配每个所述节点对应的所述超球所包含的 所述视觉特征向量 ; 稳定状态判断模块 : 如果所述局部密集子图的密集度增长幅度小于预定阈值, 则所述 节点对应的所述局部密集子图达到稳定状态, 否则, 执行所述最大值估计迭代步骤 ; 输出模块 : 每个所述节点对应由所述视觉特征向量组成的所述密集子图, 从所述密集 子图中根据预定的密集度阈值进行过滤, 选取有效所述节点作为最终的视觉单词。 16. 根据权利要求 15 所述基于密集子图的视觉词典生成系统, 其特征。
15、在于, 所述更新 模块采用的更新公式为 : 其中, 所述 K 为孩子节点个数, 所述 pi为所述孩子节点, 所述 pi对应超球中心为 ci, 半 径为 ri。 权 利 要 求 书 CN 104239398 A 5 1/14 页 6 一种基于密集子图的视觉词典生成方法及其系统 技术领域 0001 本发明涉及计算机视觉领域的视觉单词词典生成技术, 针对大规模相似图像检索 应用快速生成具有更强描述能力的视觉单词技术。 背景技术 0002 在互联网高速发展的时代, 大规模相似图像检索技术一直都是学术界和工业界非 常关注的研究热点。该技术允许用户以图片作为输入来查找具有相同或相似内容的其他 图片。传统的。
16、搜索引擎公司, 包括谷歌、 百度、 微软等都提供了一定的基于内容的图像检索 的产品。 大多数图像检索的方法都是通过对视觉内容的特征向量进行聚类生成视觉单词词 典, 并用这些视觉单词表示原始图像。 因此, 视觉单词描述能力的强弱直接决定了相似图像 检索引擎的检索性能。视觉单词的描述力主要受到以下三个因素的影响 : 0003 1) 视觉单词的内部特征相似性。对于同一个视觉单词而言, 属于该视觉单词的视 觉特征向量之间的相似度越高越好。 0004 2) 视觉单词的外部特征差异性。对于不同的视觉单词而言, 构成这些视觉单词的 特征向量特征之间的差异越大越好。 0005 3)视觉单词的抗噪性。 在生成视。
17、觉单词词典的过程中需要过滤掉不属于任何一个 视觉单词的噪声视觉特征向量。这些噪声视觉特征向量往往由复杂的图像背景区域产生, 对相似区域的相似性度量带来极大的干扰。 有效的过滤掉这些噪声视觉特征向量能够很好 的增强视觉词典的描述能力。 0006 提高视觉单词的内部特征相似性和外部特征差异性是大多数视觉单词词典生成 技术的主要目标。因为, 这两个性质在很大程度上影响了视觉单词的描述力。而视觉单词 的抗噪性主要关注过滤掉那些由复杂图像背景带来大量噪声视觉特征向量, 将这样的噪声 视觉特征向量量化成视觉单词会大大降低视觉单词的描述力。 许多现有的视觉单词生成技 术重点关注提升视觉单词的内部特征相似性和。
18、外部特征差异性。 但视觉特征向量的高维度 和大量的噪声视觉特征向量使这项任务变得非常困难。此外, 现有的方法基本上都没有考 虑视觉单词的抗噪性, 这导致大量的噪声视觉特征向量被量化成视觉单词, 并进一步成为 限制视觉单词描述能力的瓶颈。 0007 传统的用于生成视觉词典的聚类方法主要有两类 : 基于聚类中心的方法和 基于特征空间分割的方法。一种经典的基于聚类中心的方法是 k-means 聚类, 它首先 利用 k-means 聚类技术将所有的视觉特征向量聚成 k 类, 然后将每个类作为一个视觉 单词。上述 k-means 聚类技术在期刊名称为 :“IEEE Transactions on Inf。
19、ormation Theory,vol.28,pp.129137,1982” , 文献名称为 “Least squares quantization in pcm” , 作者为 : Stuart Lloyd 的文献中公开。 0008 层次化的k-means(Hierarchical k-means)方法则是通过将k-means嵌入到树结 构中来获得很好的可扩展性。其他应用 k-means 系列的视觉单词词典生成方法都是基于类 别中心的。上述层次化 k-means 聚类技术在期刊名称为 :“Proceedings of the Computer 说 明 书 CN 104239398 A 6 2/。
20、14 页 7 Vision and Pattern Recognition,2006,vol.2,pp.21612168” , 文献名称为 “Scalable recognition with a vocabulary tree,” , 作者为 : David Nister and Henrik Stewenius 的文献中公开。 0009 经典的基于划分的方法利用随机的超平面将特征空间划分为多个子空间, 并将每 个子空间视为一个视觉单词。ERC-Forest 方法利用随机森林算法来引导视觉单词的生成。 随机局部敏感词典通过利用局部敏感哈希方法对特征空间进行划分得到视觉单词。 这种基 于空间划。
21、分的方法往往运算速度快有很好的可扩展性, 但是由于超平面的随机性使这类方 法无法很好的保证视觉单词的内部相似性和外部差异性。 0010 基于聚类中心的部分方法虽然具有不错的可扩展性, 但是这类方法在如下两个方 面制约了视觉单词的描述能力 : 1) 基于聚类中心的视觉单词生成策略要求每一个视觉特 征向量都必须归属到近邻的视觉单词中, 这种方法无法保证视觉单词的内部相似性和外部 差异性。 2)强制要求每一个视觉特征向量都必须要量化到某一个视觉单词中引入了大量噪 声视觉特征向量, 导致无法保证视觉单词的抗噪性, 从而降低了视觉单词的描述力。 与基于 类别中心的方法类似, 基于特征空间分割的方法同样不。
22、具有良好的抗噪性, 因为它们会将 所有的视觉特征向量划分到不同的子空间内, 然后看作是视觉单词。 0011 上述两类主流的视觉单词生成方法存在如下导致视觉单词描述能力受限的缺陷 : 1) 无法保障视觉单词的内部特征相似性, 即无法保证每个视觉单词内部的所有视觉特征向 量之间的高度相似性 ; 2) 无法保证视觉单词的外部特征差异性, 即不同视觉单词所包含的 视觉特征向量之间没有足够的差异性 ; 3) 无法保证视觉单词的抗噪性能, 因为将所有的视 觉特征向量量化成视觉单词无法滤除大量的由图像的复杂背景区域引入的噪声视觉特征 向量。综上所述, 要从视觉单词的内部特征相似性, 视觉单词的外部特征差异性。
23、, 以及视觉 单词的抗噪性能三方面综合提升视觉单词的描述能力, 是一件十分困难的事情。 0012 针对上述问题, 亟待提出了一种够可以有效提高视觉单词内部相似性、 外部差异 性和抗噪性的视觉单词词典构建方法, 进一步提升视觉单词的描述力。 发明内容 0013 本发明所要解决的技术问题在于提供一种基于密集子图的视觉词典生成方法及 其系统, 以克服现有技术存在的视觉词典生成方法中无法同时保障视觉单词的内部相似 性、 外部差异性和抗噪性的缺陷, 进一步提高视觉单词的描述力。 0014 为达上述目的, 本发明提出了一种基于密集子图的视觉词典生成方法, 其特征在 于, 包括 : 0015 密集子图检测步。
24、骤 : 在基于视觉特征向量间的关系形成的无向图中, 通过最大值 估计方法进行密集子图检测 ; 0016 视觉词典生成步骤 : 通过检测到的所述密集子图获取组成视觉词典的视觉单词, 所述视觉单词具有单词内部高度相似性、 单词外部特征差异性和抗噪性。 0017 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述方法还包括 : 0018 扩展步骤 : 将所述最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最 大值估计方法, 通过所述扩展最大值估计方法获取视觉单词。 0019 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述密集子图检测步骤和 说 明 书 CN 104239398 A。
25、 7 3/14 页 8 扩展步骤都包括 : 0020 最大值估计迭代步骤 : 在所述无向图中寻找具有最大密集度的局部密集子图, 并 通过所述局部密集子图估计所述视觉特征向量空间中的超球区域, 确保在所述超球区域中 包含所有检测到的所述密集子图。 0021 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述扩展步骤还包括 : 0022 特征空间索引步骤 : 在所述最大值估计迭代步骤中检测到所述密集子图后, 进行 所述空间索引结构的更新和视觉特征向量重新分配, 在所述索引的节点达到稳定状态后, 输出有效节点作为所述视觉单词。 0023 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述。
26、最大值估计迭代步骤 还包括 : 0024 最大值步骤 : 在所述无向图包含的子图中查找具有最大密集度的局部密集子图 ; 0025 估计步骤 : 通过最大值步骤获取的局部密集子图, 估计出所述超球区域, 并在所述 超球区域中, 根据预定条件, 查找所有满足条件的所述索引的节点, 所述节点聚集成为新的 局部密集子图, 执行所述最大值步骤提高所述新的局部密集子图的密集度, 获取最终的所 述密集子图。 0026 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述最大值估计方法的公 式 : 0027 0028 其中, 所述 x 为概率化的子图, 所述 g(x) 为所述 x 内部所有节点间的平均连接。
27、强 度, a(vi,x) (Ax)i表示节点 vi与 x 的相似度, 所述 x n为由所述视觉特征向量组成 的子图表示的概率向量 ; 0029 通过所述最大值估计方法求解所述局部密集子集的公式为 : 0030 0031 其中, x n为用于表示由视觉特征向量组成的子图的概率向量。t 为最大值估 计算法的迭代次数, 是一个动态增长的参数。xi(t) 表示第 t 次最大值估计迭代时, 概率向 量 x 的第 i 维上的实数值。A 是由视觉特征向量组成的无向图的相似度连接矩阵。 0032 通过所述最大值估计方法求解所述超球区域 H(c,r) 的公式为 : 所述超球区域的 中心为 c、 所述超球区域的半。
28、径为 r : 0033 0034 0035 其中, 所述 x*为局部密集子图, 所述 c 为 x*中所有节点的加权平均, 所述 vi为所 述无向图的节点 i, 所述 为尺度参数。 说 明 书 CN 104239398 A 8 4/14 页 9 0036 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述特征空间索引步骤还 包括 : 0037 初始化步骤 : 对所述特征向量空间索引进行初始化操作, 对所述索引的结构进行 初始赋值 ; 0038 更新步骤 : 在所述最大值估计迭代步骤后, 所述索引的每个节点对应一个所述超 球, 根据所述超球中包含的孩子超球的参数进行所述超球的更新 ; 003。
29、9 重新分配步骤 : 采取自顶向下的方式重新分配每个所述节点对应的所述超球所包 含的所述视觉特征向量 ; 0040 稳定状态判断步骤 : 如果所述局部密集子图的密集度增长幅度小于预定阈值, 则 所述节点对应的所述局部密集子图达到稳定状态, 否则, 执行所述最大值估计迭代步骤 ; 0041 输出步骤 : 每个所述节点对应由所述视觉特征向量组成的所述密集子图, 从所述 密集子图中根据预定的密集度阈值进行过滤, 选取有效所述节点作为最终的视觉单词。 0042 上述基于密集子图的视觉词典生成方法, 其特征在于, 所述更新步骤采用的更新 公式为 : 0043 0044 其中, 所述 K 为孩子节点个数,。
30、 所述 pi为所述孩子节点, 所述 pi对应超球中心为 ci, 半径为 ri。 0045 本发明还提供一种基于密集子图的视觉词典生成系统, 采用如所述视觉词典生成 方法, 其特征在于, 所述视觉词典生成系统包括 : 0046 密集子图检测模块 : 在基于视觉特征向量间的关系形成的无向图中, 通过最大值 估计方法进行密集子图检测 ; 0047 视觉词典生成模块 : 通过检测到的所述密集子图获取组成视觉词典的视觉单词, 所述视觉单词具有单词内部高度相似性、 单词外部特征差异性和抗噪性。 0048 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述系统还包括 : 0049 扩展模块 : 将所述。
31、最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最 大值估计方法, 通过所述扩展最大值估计方法获取视觉单词。 0050 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述密集子图检测模块和 扩展模块都包括 : 0051 最大值估计迭代模块 : 在所述无向图中寻找具有最大密集度的局部密集子图, 并 通过所述局部密集子图估计所述视觉特征向量空间中的超球区域, 确保在所述超球区域中 包含所有检测到的所述密集子图。 0052 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述扩展模块还包括 : 0053 特征空间索引模块 : 在所述最大值估计迭代步骤中检测到所述密集子图后, 进行 所述。
32、空间索引结构的更新和视觉特征向量重新分配, 在所述索引的节点达到稳定状态后, 输出有效节点作为所述视觉单词。 0054 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述最大值估计迭代模块 说 明 书 CN 104239398 A 9 5/14 页 10 还包括 : 0055 最大值模块 : 在所述无向图包含的子图中查找具有最大密集度的局部密集子图 ; 0056 估计模块 : 通过最大值步骤获取的局部密集子图, 估计出所述超球区域, 并在所述 超球区域中, 根据预定条件, 查找所有满足条件的所述索引的节点, 所述节点聚集成为新的 局部密集子图, 执行所述最大值步骤提高所述新的局部密集子图。
33、的密集度, 获取最终的所 述密集子图。 0057 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述最大值估计方法的公 式 : 0058 0059 其中, 所述 x 为概率化的子图, 所述 g(x) 为所述 x 内部所有节点间的平均连接强 度, a(vi,x) (Ax)i表示节点 vi与 x 的相似度, 所述 x n为由所述视觉特征向量组成 的子图表示的概率向量 ; 0060 通过所述最大值估计方法求解所述局部密集子集的公式为 : 0061 0062 其中, x n为用于表示由视觉特征向量组成的子图的概率向量。t 为最大值估 计算法的迭代次数, 是一个动态增长的参数。xi(t) 表示第 。
34、t 次最大值估计迭代时, 概率向 量 x 的第 i 维上的实数值。A 是由视觉特征向量组成的无向图的相似度连接矩阵。 0063 通过所述最大值估计方法求解所述超球区域 H(c,r) 的公式为 : 所述超球区域的 中心为 c、 所述超球区域的半径为 r : 0064 0065 0066 其中, 所述 x*为局部密集子图, 所述 c 为 x*中所有节点的加权平均, 所述 vi为所 述无向图的节点 i, 所述 为尺度参数。 0067 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述特征空间索引模块还 包括 : 0068 初始化模块 : 对所述特征向量空间索引进行初始化操作, 对所述索引的结构。
35、进行 初始赋值 ; 0069 更新模块 : 在所述最大值估计迭代步骤后, 所述索引的每个节点对应一个所述超 球, 根据所述超球中包含的孩子超球的参数进行所述超球的更新 ; 0070 重新分配模块 : 采取自顶向下的方式重新分配每个所述节点对应的所述超球所包 含的所述视觉特征向量 ; 0071 稳定状态判断模块 : 如果所述局部密集子图的密集度增长幅度小于预定阈值, 则 说 明 书 CN 104239398 A 10 6/14 页 11 所述节点对应的所述局部密集子图达到稳定状态, 否则, 执行所述最大值估计迭代步骤 ; 0072 输出模块 : 每个所述节点对应由所述视觉特征向量组成的所述密集子。
36、图, 从所述 密集子图中根据预定的密集度阈值进行过滤, 选取有效所述节点作为最终的视觉单词。 0073 上述基于密集子图的视觉词典生成系统, 其特征在于, 所述更新模块采用的更新 公式为 : 0074 0075 其中, 所述 K 为孩子节点个数, 所述 pi为所述孩子节点, 所述 pi对应超球中心为 ci, 半径为 ri。 0076 与现有技术相比较, 本发明主要的有益效果在于 : 本发明通过检测视觉特征向量 构成的密集子图构成视觉单词能够从如下方面全面提升视觉单词的描述能力 : 1) 密集子 图结构要求密集子图内部的所有节点之间具有很强的相似性, 因此本发明生成的视觉单词 具有很高的内部特征。
37、相似性 ; 2) 不同密集子图之间不相互重叠和包含, 这就在一定程度上 保证了较高的视觉单词外部特征差异性 ; 3) 密集子图本身就是一种具有很高抗噪声性能 的结构, 所有与密集子图联系不紧密的噪声图节点都会被排斥在密集子图之外。 附图说明 0077 图 1 为本发明方法流程示意图 ; 0078 图 2 为本发明方法详细步骤示意图 ; 0079 图 3 为本发明方法实施例步骤示意图 ; 0080 图 4A 4B 为本发明 k 叉树示意图 ; 0081 图 5 为本发明系统结构示意图 ; 0082 图 6 为本发明系统详细结构示意图。 0083 其中, 附图标记 : 0084 1 密集子图检测模。
38、块 2 扩展模块 0085 3 视觉词典生成模块 0086 11 最大值估计迭代模块 0087 21 最大值估计迭代模块 22 特征空间索引模块 0088 111 最大值模块 112 估计模块 0089 211 最大值模块 212 估计模块 0090 221 初始化模块 222 更新模块 0091 223 重新分配模块 224 稳定状态判断模块 0092 225 输出模块 0093 S1 S3、 S21 S22、 S111 S112、 S221 S225、 S10 S60 : 本发明各实施例的 施行步骤 具体实施方式 说 明 书 CN 104239398 A 11 7/14 页 12 0094。
39、 以下结合附图和具体实施例对本发明进行详细描述, 但不作为对本发明的限定。 0095 下面结合附图和具体实施方式, 对本发明做进一步的说明。 0096 本发明提出一个基于密集子图的视觉词典生成方法, 该方法可以有效提高大规模 图像检索系统的检索性能。该方法的核心算法是一种可以在图 (Graph) 结构上快速准确 的检测密集子图的最大值估计 (ME) 算法。ME 算法在以视觉特征向量为节点的图结构上, 通过求解近似二次优化问题来检测密集子图, 并将得到的密集子图作为视觉单词。该方 法得到的视觉单词具有很强的内部相似性、 外部差异性和很好的抗噪性, 从而有效提高了 视觉单词的视觉描述力。为了保证基。
40、于 ME 算法的视觉词典生成方法的可扩展性, 本发明 进一步通过嵌入特征空间索引的方式实现了可扩展的 ME 算法 (Scalable Maximization Estimation, SME)。 0097 本发明的技术关键点在于 : 0098 关键点 1 : 为了提升视觉单词的描述力, 本发明提出了基于密集子图的视觉词典 生成方法。 技术效果 : 密集子图要求内部节点联系紧密, 与密集子图外的节点(包括其他密 集子图内的节点和噪声节点 ) 关联稀疏, 因此, 基于密集子图的方法既保证了视觉单词的 内部相似性和外部差异性, 也使视觉单词具有良好抗噪性, 可以很好地保证视觉单词的描 述力。 009。
41、9 关键点 2 : 为了从高噪声视觉数据中有效检测密集子图, 本发明提出了一种基于 近似二次优化的、 具有高抗噪性能的密集子图查找方法 - 最大值估计算法 (Maximization Estimation, ME)。技术效果 : ME 算法通过查找密集子图可以有效地从高噪声数据中检测聚 类模式。 0100 关键点 3 : 为了提高视觉词典生成方法的可扩展性, 本发明提出了一种将 ME 算 法嵌入特征空间索引结构的方法, 即可扩展的最大值估计算法 (Scalable Maximization Estimation,SME)。 技术效果 : 将ME算法的迭代求解过程与特征空间索引结构(如k叉树) 。
42、充分结合能有效提高整个算法的运算效率。 0101 图1为本发明方法流程示意图, 如图1所示, 本发明提供的一种基于密集子图的视 觉词典生成方法, 包括 : 0102 密集子图检测步骤 S1 : 在基于视觉特征向量间的关系形成的无向图中, 通过最大 值估计方法进行密集子图检测 ; 0103 扩展步骤 S2 : 将最大值估计方法中嵌入视觉特征向量空间索引结构形成扩展最 大值估计方法, 通过扩展最大值估计方法获取视觉单词 ; 0104 视觉词典生成步骤 S3 : 通过检测到的密集子图获取组成视觉词典的视觉单词, 视 觉单词具有单词内部高度相似性、 单词外部特征差异性和抗噪性。 0105 其中, 密集。
43、子图检测步骤 S1 包括 : 0106 最大值估计迭代步骤 S11 : 在无向图中寻找具有最大密集度的局部密集子图, 并 通过局部密集子图估计视觉特征向量空间中的超球区域, 确保在超球区域中包含所有检测 到的密集子图。 0107 其中, 扩展步骤 S2 还包括 : 0108 最大值估计迭代步骤 S21 : 在无向图中寻找具有最大密集度的局部密集子图, 并 通过局部密集子图估计视觉特征向量空间中的超球区域, 确保在超球区域中包含所有检测 说 明 书 CN 104239398 A 12 8/14 页 13 到的密集子图 ; 0109 特征空间索引步骤 S22 : 在最大值估计迭代步骤中检测到密集子。
44、图后, 进行空间 索引结构的更新和视觉特征向量重新分配, 在索引的节点达到稳定状态后, 输出有效节点 作为视觉单词。 0110 其中, 最大值估计迭代步骤 S11 还包括 : 0111 最大值步骤 S111 : 在无向图包含的子图中查找具有最大密集度的局部密集子图 ; 0112 估计步骤 S112 : 通过最大值步骤获取的局部密集子图, 估计出超球区域, 并在超 球区域中, 根据预定条件, 查找所有满足条件的索引的节点, 节点聚集成为新的局部密集子 图, 执行最大值步骤提高新的局部密集子图的密集度, 获取最终的密集子图。 0113 其中, 最大值估计迭代步骤 S21 还包括 : 0114 最大。
45、值步骤 S211 : 在无向图包含的子图中查找具有最大密集度的局部密集子图 ; 0115 估计步骤 S212 : 通过最大值步骤获取的局部密集子图, 估计出超球区域, 并在超 球区域中, 根据预定条件, 查找所有满足条件的索引的节点, 节点聚集成为新的局部密集子 图, 执行最大值步骤提高新的局部密集子图的密集度, 获取最终的密集子图。 0116 其中, 特征空间索引步骤 S22 还包括 : 0117 初始化步骤 S221 : 对特征向量空间索引进行初始化操作, 对索引的结构进行初始 赋值 ; 0118 更新步骤 S222 : 在最大值估计迭代步骤后, 索引的每个节点对应一个超球, 根据 超球中。
46、包含的孩子超球的参数进行超球的更新 ; 0119 重新分配步骤 S223 : 采取自顶向下的方式重新分配每个节点对应的超球所包含 的视觉特征向量 ; 0120 稳定状态判断步骤 S224 : 如果局部密集子图的密集度增长幅度小于预定阈值, 则 节点对应的局部密集子图达到稳定状态, 否则, 执行最大值估计迭代步骤 ; 0121 输出步骤 S225 : 每个节点对应由视觉特征向量组成的密集子图, 从密集子图中根 据预定的密集度阈值进行过滤, 选取有效节点作为最终的视觉单词。 0122 其中, 最大值估计方法的公式 : 0123 0124 其中, x 为概率化的子图, g(x) 为所述 x 内部所有。
47、节点间的平均连接强度, a(vi,x) (Ax)i表示节点 vi与 x 的相似度, x n为由视觉特征向量组成的子图表示的概率向 量 ; 0125 通过最大值估计方法求解局部密集子集的公式为 : 0126 0127 其中, x n为用于表示由视觉特征向量组成的子图的概率向量。t 为最大值估 计算法的迭代次数, 是一个动态增长的参数。xi(t) 表示第 t 次最大值估计迭代时, 概率向 量 x 的第 i 维上的实数值。A 是由视觉特征向量组成的无向图的相似度连接矩阵。 0128 通过最大值估计方法求解超球区域 H(c,r) 的公式为 : 超球区域的中心为 c、 超球 说 明 书 CN 10423。
48、9398 A 13 9/14 页 14 区域的半径为 r : 0129 0130 0131 其中, x*为局部密集子图, c 为 x*中所有节点的加权平均, vi为所述无向图的节点 i, 为尺度参数。 0132 其中, 更新步骤 S222 采用的更新公式为 : 0133 0134 其中, K 为孩子节点个数, pi为孩子节点, pi对应超球中心为 ci, 半径为 ri。 0135 以下结合图示, 详细说明本发明方法的实施例过程 : 0136 本发明将视觉特征向量间的关系抽象为无向图结构, 视觉特征向量为图 (Graph) 的节点 (Vertice), 特征向量的相似度为边权重 (Weight)。因为属于同一个视觉单词的特 征向量应该具有强相似性, 不同的视觉单词的特征向量具有明显差异性, 所以对于一个以 视觉特征向量构成的图而言, 每个视觉单词可以视作边权重很高的节点组成的密集子图。 由于不具有重复性的图像背景带来的异常视觉特征向量与其他特征向量的相似度很低, 异 常特征向量无法构成密集子图, 所以通过检测密集子图生成的视觉单词具有很强的抗噪 性。本发明针对该问题提出了一种最大值估计算法, 可以有效地在高噪声环境下检测密集 子图, 同时最大可能的将异常特征节点隔离在密集子图外。 0。