一种基于局部敏感哈希算法和神经网络的跨媒体检索方法.pdf

上传人:t**** 文档编号:1307114 上传时间:2018-04-14 格式:PDF 页数:12 大小:786.79KB
返回 下载 相关 举报
摘要
申请专利号:

CN201611190238.0

申请日:

2016.12.21

公开号:

CN106649715A

公开日:

2017.05.10

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20161221|||公开

IPC分类号:

G06F17/30; G06N3/04; G06N3/08

主分类号:

G06F17/30

申请人:

中国人民解放军国防科学技术大学

发明人:

白亮; 贾玉华; 郭金林; 谢毓湘; 于天元

地址:

410073 湖南省长沙市开福区德雅路109号

优先权:

专利代理机构:

北京中济纬天专利代理有限公司 11429

代理人:

陈立新

PDF下载: PDF下载
内容摘要

本发明公开了一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,其涉及跨媒体检索技术领域,该方法包括局部敏感哈希和哈希函数学习两个阶段,在局部敏感哈希阶段,通过局部敏感哈希算法将图像数据映射到m个哈希表G=[g1,g2,...,gm]∈Rk×m的哈希桶内,其中G为m个哈希表的集合,gj表示第j个哈希表,k是哈希桶对应哈希码的长度;在哈希函数学习阶段,通过神经网络算法学习将文本数据分别映射到m个哈希表内其对应的哈希桶内的哈希函数Ht=(Ht(1),Ht(2),...,Ht(m)),Ht(j),(1≤j≤m)表示学习到的对应于第j个哈希表的哈希函数Ht。在得到了这两个阶段的函数之后,进一步对所有图像与文档进行编码建立索引,从而进行更加精确的检索。

权利要求书

1.一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,其特征在于,所述跨媒
体检索方法包括以下步骤:
1)建立FCMR(Fast Cross-Media Retrieval,FCMR)模型,所述FCMR模型的训练过程包
括局部敏感哈希阶段和哈希函数学习阶段;
2)利用局部敏感哈希函数与神经网络学习到的哈希函数将所有文本数据与图像数据
映射到汉明空间建立索引;
3)进行跨媒体检索查询,包括文本查询和图像查询。
2.根据权利要求1所述的一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,
其特征在于,所述步骤1)中,所述局部敏感哈希阶段包括采用局部敏感哈希算法将图像数
据映射到哈希桶,具体包括通过局部敏感哈希算法将图像数据映射到m个哈希表G=[g1,
g2,...,gm]∈Rk×m的哈希桶内,其中R表示实数域,G为m个哈希表的集合,gj表示第j个哈希
表,k是哈希桶对应哈希码的长度。
3.根据权利要求2所述的一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,
其特征在于,所述步骤1)中,所述哈希函数学习阶段包括采用神经网络算法学习将文本数
据映射到哈希桶的哈希函数Ht,具体包括通过神经网络算法学习将文本数据分别映射到m
个哈希表内其对应的哈希桶内的哈希函数Ht=(Ht(1),Ht(2),...,Ht(m)),Ht(j),(1≤j≤m)表
示学习到的对应于第j个哈希表的哈希函数。
4.根据权利要求3所述的一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,
其特征在于,所述步骤3)中,
所述文本查询为给定一个查询文本,通过哈希函数Ht(j)将该查询文本映射到m个哈希
表中的哈希桶内,则这些哈希桶内存储的图像文件就组成了该查询文本的最近邻,将与查
询文本落在相同的哈希桶中的图像样本作为候选结果集,进而在该查询文本的最近邻范围
内进行精确地检索,计算查询文本与候选结果集中的图像之间的距离并进行精确的检索排
名;
所述图像查询为给定一个查询图像,通过局部敏感哈希函数将该查询图像映射到m个
哈希表中的哈希桶内,则这些哈希桶内存储的文本文件就组成了该查询图像的最近邻,进
而在该查询图像的最近邻范围里进行精确检索。
5.根据权利要求3所述的一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,
其特征在于,所述局部敏感哈希函数定义如下:
<mrow> <msub> <mi>h</mi> <mover> <mi>r</mi> <mo>&RightArrow;</mo> </mover> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <msup> <mover> <mi>r</mi> <mo>&RightArrow;</mo> </mover> <mi>T</mi> </msup> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>e</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,超平面向量符合multi Gaussian N(0,1)分布;
定义一系列哈希函数h1,h2,...,hn,随机选取其中的k个函数组成函数g(x),设选的是h1
到hk,则g(x)=(h1(x),h2(x),...,hk(x)),选取m个g(x)函数:g1(x),g2(x),...,gm(x),则每
个g(x)函数对应一个哈希表;通过m个g(x)函数将图像空间中的每一个图像样本pi分别映
射到m个哈希表中,这样每个图像样本pi都会在m个哈希表的某个哈希桶中出现;那么pi在第
j个哈希表里对应的哈希桶可以表示为:
gj(pi)=<h1(pi),h2(pi)...,hk(pi)>,(0<j≤m,0<i≤n) (2)。
6.根据权利要求5所述的一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,
其特征在于,FCMR模型中使用到的m个神经网络NN(j),(j∈1,2,...,m)具有相同的结构;每
一个神经网络NN(j)有L层,其中输入层有dt个神经元对应于文本特征的维度,输出层有k个
神经元对应于哈希码的k位,除输入层和输出层外剩余的L-2层用于学习哈希函数;将每一
个ti∈T作为NN(j)的输入,可以得到神经网络各个层的输出第l+1层以
输入,输出
<mrow> <msubsup> <mi>t</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msup> <mi>f</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <msubsup> <mi>t</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中分别为第l层和l+1层的特征表达;W(l+1)是转换矩阵;f(l+1)
是激活函数;
神经网络学习到的哈希函数Ht(j)以ti为输入并输出长度为k的哈希码:
<mrow> <msup> <mi>Ht</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <msubsup> <mi>t</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
其中,是一个k维实值向量,使用符号函数将转化为哈希码;
基于最小方差定义损失函数为:
<mrow> <mi>S</mi> <mi>E</mi> <mrow> <mo>(</mo> <msubsup> <mi>t</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>Y</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <msubsup> <mi>t</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msubsup> <mi>Y</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msubsup> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
其中,是未加符号函数神经网络对ti的预测值,表示pi对应于第j(0<j≤m)个
哈希表中的哈希桶的哈希码;
从局部敏感哈希阶段得到训练神经网络所需的训练样本
通过训练神经网络NN(j)可以使其学习到将ti映射到的哈希函数。
7.根据权利要求6所述的一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,
其特征在于,神经网络的训练分为预训练和参数调整,具体包括:
(1)将栈式自编码器(Stacked AutoEncoder,SAE)应用于FCMR模型来顺序的训练NN(j)
中的每一层以初始化网络参数;
(2)基于损失函数式(5),通过BP算法来训练网络调整网络参数;
(3)基于所有文本样本的方差和SSE设计了整体的损失函数如式(6)所示:
<mrow> <mi>S</mi> <mi>S</mi> <mi>E</mi> <mrow> <mo>(</mo> <msubsup> <mi>t</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>Y</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>|</mo> <mo>|</mo> <msubsup> <mi>t</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msub> <msup> <mi>Y</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

说明书

一种基于局部敏感哈希算法和神经网络的跨媒体检索方法

技术领域

本发明涉及跨媒体检索技术领域,特指一种基于局部敏感哈希算法和神经网络的
跨媒体检索方法。

背景技术

在跨媒体大数据时代,无时无刻不在产生的海量多模态信息带来了巨大的跨媒体
检索需求,如用文本来搜索图像或视频,反之亦然。例如,维基百科上的一个词条通常包含
文本描述和示例图像,这些信息的检索需要构建跨媒体索引与学习方法。与传统的单一媒
体检索相比,跨媒体检索的核心问题是如何挖掘不同媒体表示的相同或相关语义对象之间
的关联。

目前在世界范围内,针对该跨媒体检索的核心问题提出了众多的解决方法。已有
的跨媒体检索方法主要分为两类,一类是基于主题的方法:文献[1]通过主题比例分析对不
同模态的数据之间的相关性进行建模;文献[2]通过CORR-LDA挖掘图像与文本标注之间在
主题层次的关系;文献[3]将马尔可夫随机域与传统LDA方法结合,提出了用简短的文字检
索图像的有向和无向概率图的组合模型(MDRF);文献[4]提出一种用以利用多个媒体类型
的微博信息来进行获得社会事件的可视化总结的多媒体社会事件自动摘要框架。另一类是
基于子空间的方法:这一类的方法的核心是寻求使不同模态数据相关性最大化的子空间
[5]。Sharma等人提出了一种通用的多模态特征提取框架技术,称为广义的多视角分析GMA
[6]。文献[7]提出的T-V CCA模型中引入语义的观点,以提高子空间中不同类别的多模态数
据分类准确率。文献[8]提出了一种Bi-CMSRM方法,从优化双向列表排序问题的角度构建了
适用于跨媒体检索的计算模型。

[1]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].the
Journal of machine Learning research,2003,3:993-1022.

[2]Blei D M,Jordan M I.Modeling annotated data[C]//Proceedings of the
26th annual international ACM SIGIR conference on Research and developme nt
in

information retrieval.ACM,2003:127-134.

[3]Jia Y,Salzmann M,Darrell T.Learning cross modality similarity for
multinomial data[C]//Computer Vision(ICCV),2011IEEE International Conference
on.

IEEE,2011:2407-2414.

[4]Bian J,Yang Y,Zhang H,et al.Multimedia Summarization for Social
Events in Microblog Stream[J].IEEE Transactions on Multimedia,2015,17(2):216-
228.

[5]Hardoon D R,Szedmak S,ShaweTaylor J.Canonical correlation
analysis:An overview with application to learning methods[J].Neural
computation,2004,16(12):2639-2664.

[6]Abhishek Sharma,Abhishek Kumar,H Daume,and
DavidWJacobs.2012.Generalized multi-view analysis:A discriminative latent
space.In IEEE Conference on Computer Vision and Pattern Recognition.2160–
2167.

[7]Yunchao Gong,Qifa Ke,Michael Isard,and Svetlana Lazebnik.2013.A
Multi-View Embedding Space for Modeling Internet Images,Tags,and Their
Semantics.International Journal of Computer Vision(2013),1–24.

Wu F,Lu X,Zhang Z,et al.Cross-media semantic representation via bi-
directional learning to rank[C]//Proceedings of the 21st ACM international
conference on Multimedia.ACM,2013:877-886.

现有的跨媒体检索方法均存在同样的技术缺陷,即仅仅只考虑了跨媒体检索方法
本身而忽略了对文档集的一些可行的优化处理,由于文档集中存在大量与查询不相关的文
档,因此在进行精确查询之前对文档集进行预处理,提高文档集中相关文档所占比例对提
高检索效率来说具有重要意义。

发明内容

针对现有的跨媒体检索方法所存在的技术问题,本发明提出一种能够提高检索的
精确性的基于局部敏感哈希算法与神经网络的跨媒体检索方法。

本发明的具体技术方案是:

一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,所述跨媒体检索方法
包括以下步骤:

1)建立FCMR(Fast Cross-Media Retrieval,FCMR)模型,所述FCMR模型的训练过
程包括局部敏感哈希阶段和哈希函数学习阶段;

2)利用局部敏感哈希函数与神经网络学习到的哈希函数将所有文本与图像映射
到汉明空间建立索引;

3)进行跨媒体检索查询,包括文本查询和图像查询。

作为本发明的优选技术方案,本发明所述步骤1)中,所述局部敏感哈希阶段包括
采用局部敏感哈希算法将图像数据映射到哈希桶,具体包括通过局部敏感哈希算法将图像
数据映射到m个哈希表G=[g1,g2,...,gm]∈Rk×m的哈希桶内,其中G为m个哈希表的集合,gj
表示第j个哈希表,k是哈希桶对应哈希码的长度。

作为本发明的优选技术方案,本发明所述步骤1)中,所述哈希函数学习阶段包括
采用神经网络算法学习将文本数据映射到哈希桶的哈希函数Ht,具体包括通过神经网络算
法学习将文本数据分别映射到m个哈希表内其对应的哈希桶内的哈希函数Ht=(Ht(1),Ht
(2),...,Ht(m)),Ht(j),(1≤j≤m)表示学习到的对应于第j个哈希表的哈希函数。

作为本发明的优选技术方案,本发明所述步骤3)中,

所述文本查询为给定一个查询文本,通过哈希函数Ht(j)将该查询文本映射到m个
哈希表中的哈希桶内,则这些哈希桶内存储的图像文件就组成了该查询文本的最近邻,将
与查询文本落在相同的哈希桶中的图像样本作为候选结果集,进而在该查询文本的最近邻
范围内进行精确地检索,计算查询文本与候选结果集中的图像之间的距离并进行精确的检
索排名;

所述图像查询为给定一个查询图像,通过局部敏感哈希函数将该查询图像映射到
m个哈希表中的哈希桶内,则这些哈希桶内存储的文本文件就组成了该查询图像的最近邻,
进而在该查询图像的最近邻范围里进行精确检索。

作为本发明的优选技术方案,本发明所述局部敏感哈希函数定义如下:



其中,超平面向量符合multi GaussianN(0,1)分布;

定义一系列哈希函数h1,h2,...,hn随机选取其中的k个函数组成函数g(x),设选的
是h1到hk,则g(x)=(h1(x),h2(x),...,hk(x)),选取m个g(x)函数:g1(x),g2(x),...,gm(x),
则每个g(x)函数对应一个哈希表;通过m个g(x)函数将图像空间中的每一个图像样本pi
别映射到m个哈希表中,这样每个图像样本pi都会在m个哈希表的某个哈希桶中出现;那么pi
在第j个哈希表里对应的哈希桶可以表示为:

gj(pi)=<h1(pi),h2(pi)...,hk(pi)>,(0<j≤m,0<i≤n) (2)

作为本发明的优选技术方案,本发明FCMR模型中使用到的m个神经网络NN(j),(j∈
1,2,...,m)具有相同的结构;每一个神经网络NN(j)有L层,其中输入层有dt个神经元对应于
文本特征的维度,输出层有k个神经元对应于哈希码的k位,除了输入层与输出层外的剩余
的L-2层用于学习哈希函数;将每一个ti∈T作为NN(j)的输入,可以得到神经网络各个层的
输出第l+1层以为输入,输出



其中分别为第l层和l+1层的特征表达;W(l+1)是转换矩阵;f
(l+1)是激活函数;

神经网络学习到的哈希函数Ht(j)以ti为输入并输出长度为k的哈希码:



其中,是一个k维实值向量,使用符号函数将转化为哈希码;

对于训练样本Ht(j)(ti)与应该相同,也就是
尽可能相等。

基于最小方差定义损失函数为:



其中,是未加符号函数神经网络对ti的预测值,表示pi对应于第j(0<j≤
m)个哈希表中的哈希桶的哈希码;

从局部敏感哈希阶段得到训练神经网络所需的训练样本(i∈1,2,...,
nt,j∈1,2,...,m),通过训练神经网络NN(j)可以使其学习到将ti映射到的哈希函数。

作为本发明的优选技术方案,本发明神经网络的训练分为预训练和参数调整,具
体包括:

(1)将栈式自编码器(Stacked AutoEncoder,SAE)应用于FCMR模型以顺序地训练
神经网络NN(j)中的每一层以初始化网络参数;

(2)基于所述损失函数式(5),通过BP算法来训练神经网络以调整网络参数;

(3)基于所有文本样本的方差和SSE设计了整体的损失函数如式(6)所示:



与现有技术相比,本发明的有益效果是:

本发明基于局部敏感哈希算法与神经网络,通过消除大量与查询无关的文档内容
并获得一组查询的最近邻,最终在查询文档的最近邻范围内更高效地进行检索任务。

附图说明

图1为本发明的FCMR框架示意图。

图2为本发明的FCMR检索示意图。

具体实施方式

现结合说明书附图对本发明做详细说明。

本发明具体实施例提供的一种基于局部敏感哈希算法与神经网络的跨媒体检索
方法(Fast Cross-Media Retrieval,FCMR),所述跨媒体检索方法主要包括如下步骤:

1)建立FCMR(Fast Cross-Media Retrieval,FCMR)模型,所述FCMR模型的训练过
程包括局部敏感哈希阶段和哈希函数学习阶段;

2)利用局部敏感哈希函数与神经网络学习到的哈希函数将所有文本与图像映射
到汉明空间建立索引;

3)进行跨媒体检索查询,包括文本查询和图像查询。

其中,为了使符号和算法表述更加简洁,下面以文本和图像两个模态为例描述提
出的FCMR模型,模型可以很容易的扩展到其他模态,所述FCMR模型包括局部敏感哈希和哈
希函数学习两个阶段。

在局部敏感哈希阶段,采用局部敏感哈希算法将图像数据映射到哈希桶,具体包
括通过局部敏感哈希算法将图像数据映射到m个哈希表G=[g1,g2,...,gm]∈Rk×m的哈希桶
内,其中R表示实数域,G为m个哈希表的集合,gj表示第j个哈希表,k是哈希桶对应哈希码的
长度;

在哈希函数学习阶段,采用神经网络算法学习将文本数据映射到哈希桶的哈希函
数Ht,具体包括通过神经网络算法学习将文本数据分别映射到m个哈希表内文本数据所对
应的哈希桶内的哈希函数Ht=(Ht(1),Ht(2),...,Ht(m)),Ht(j),(1≤j≤m)表示学习到的对应
于第j个哈希表的哈希函数。

文本数据的矩阵描述为:T=[t1,t2,...,tnt]∈Rdt×nt,其中T是文本数据的矩阵描
述。相应的,P=[p1,p2,...,pnp]∈Rdp×np,其中P是图像数据的矩阵描述。其中,ti与pi一一对
应,图像文本对的个数为n,即nt=np=n,在下面的内容里用n代替nt和np。

如果用局部敏感哈希算法获得了m个哈希表,那么需要设计m个与哈希表对应的神
经网络以将文本数据映射到m个哈希表中这些文本数据所对应的哈希桶内。基于神经网络
学习到的哈希函数与局部敏感哈希阶段使用的局部敏感哈希函数,可以对多模态数据建立
索引,从而进行高效的跨媒体检索任务。

在建立索引之后,给定一个查询文本,通过哈希函数Ht(j)将该查询文本映射到m个
哈希表中的哈希桶内,则这些哈希桶内存储的图像文件就组成了该查询文本的最近邻,进
而在该查询文本的最近邻范围内进行精确地检索;给定一个查询图像,通过局部敏感哈希
函数将该查询图像映射到m个哈希表中的哈希桶内,则这些哈希桶内存储的文本文件就组
成了该查询图像的最近邻,进而在该查询图像的最近邻范围里进行精确检索。

下面详细说明本发明具体实施例中的局部敏感哈希算法,所述局部敏感哈希算法
主要用来解决高维空间中点的近似最近邻搜索问题,局部敏感哈希函数定义如下:


其中,超平面向量符合multi GaussianN(0,1)分布。

定义一系列哈希函数h1,h2,...,hn随机选取其中的k个函数组成函数g(x),设选的
是h1到hk,则g(x)=(h1(x),h2(x),...,hk(x)),选取m个g(x)函数:g1(x),g2(x),...,gm(x),
则每个g(x)函数对应一个哈希表。通过m个g(x)函数将图像空间中的每一个图像样本pi
别映射到m个哈希表中,这样每个图像样本pi都会在m个哈希表的某个哈希桶中出现。

那么pi在第j个哈希表里对应的哈希桶可以表示为:

gj(pi)=<h1(pi),h2(pi)...,hk(pi)>,(0<j≤m,0<i≤n) (2)

查询时,给定查询文本,利用Ht(j)函数查询文本进行映射,将与查询文本落在相同
的哈希桶中的图像样本作为候选结果集,计算查询文本与候选结果集中的图像之间的距离
并进行精确的检索排名。

通过局部敏感哈希算法,图像空间的样本pi,(0<i≤n)被映射到m个哈希表中,且
每个pi,(0<i≤n)都会和与其相似的样本一起出现在m个哈希表的某个哈希桶。这样,每一
个图像样本pi都与第j(0<j≤m)个哈希表的某个哈希桶建立了联系。同时上面提到过,在
模型中由于pi和ti是同一语义不同模态的描述,图像样本与文本样本是一一对应的,因此,
每一个文本样本ti也与第j(0<j≤m)个哈希表的某个哈希桶建立了联系。至此,得到了用
于训练神经网络学习中将文本样本ti映射到第j(0<j≤m)个哈希表中文本样本ti对应哈希
桶的函数的训练样本:(i∈1,2,...,n,j∈1,2,...,m),其中表示pi对应于第
j(0<j≤m)个哈希表中的哈希桶的哈希码。

下面详细说明本发明具体实施例中的局部敏感哈希算法,如图1所示,图1给出了
哈希函数学习阶段神经网络结构,图1模型中使用到的m个神经网络NN(j),(j∈1,2,...,m)
具有相同的结构;每一个神经网络NN(j)有L层,其中输入层有dt个神经元对应于文本特征的
维度,输出层有k个神经元对应于哈希码的k位,剩余的L-2层用于学习哈希函数。将每一个
ti∈T作为NN(j)的输入,可以得到神经网络各个层的输出第l+1层以
输入,输出



其中分别为第l层和l+1层的特征表达;W(l+1)是转换矩阵;f
(l+1)是激活函数。

神经网络学习到的哈希函数Ht(j)以ti为输入并输出长度为k的哈希码:


其中,是一个k维实值向量,使用符号函数将转化为哈希码。

由于符号函数不可微,很难优化,因此在用神经网络学习哈希函数的阶段除去了
符号函数,并在测试阶段重新加上。

对于训练样本Ht(j)(ti)与应该相同,也就是
尽可能相等。

基于最小方差定义损失函数为:



其中,是未加符号函数神经网络对ti的预测值。

根据局部敏感哈希阶段得到训练神经网络所需的训练样本(i∈1,
2,...,nt,j∈1,2,...,m),通过训练神经网络NN(j)可以使其学习到将ti映射到的哈希
函数。

神经网络的训练分为预训练和参数调整,预训练可以更好地初始化网络参数并防
止网络陷入局部最优解,神经网络的训练具体包括以下步骤:

(1)将栈式自编码器(Stacked AutoEncoder,SAE)应用于FCMR模型来顺序地训练
神经网络NN(j)中的每一层以初始化网络参数。

(2)基于损失函数式(5),通过BP算法(反向传播算法)来训练网络调整网络参数;

(3)基于所有文本样本的方差和SSE设计了整体的损失函数如式(6)所示:



为了使得神经网络NN(j)学习到的函数Ht(j)可以很好地将文本样本数据映射到j个
哈希表中其对应的哈希桶内,本发明实施例采用传统的反向传播算法来训练神经网络NN
(j),在测试阶段最终通过式(4)获得最终的哈希函数Ht(j)

其中,本实施例的FCMR的算法过程具体如下:



图2示出了只有一个哈希表时,FCMR进行检索的示意图,多个哈希表只需用所有神
经网络学习到的哈希函数将文本映射到汉明空间即可。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对
本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可
以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本
发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求
的保护范围之内。

一种基于局部敏感哈希算法和神经网络的跨媒体检索方法.pdf_第1页
第1页 / 共12页
一种基于局部敏感哈希算法和神经网络的跨媒体检索方法.pdf_第2页
第2页 / 共12页
一种基于局部敏感哈希算法和神经网络的跨媒体检索方法.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《一种基于局部敏感哈希算法和神经网络的跨媒体检索方法.pdf》由会员分享,可在线阅读,更多相关《一种基于局部敏感哈希算法和神经网络的跨媒体检索方法.pdf(12页珍藏版)》请在专利查询网上搜索。

本发明公开了一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,其涉及跨媒体检索技术领域,该方法包括局部敏感哈希和哈希函数学习两个阶段,在局部敏感哈希阶段,通过局部敏感哈希算法将图像数据映射到m个哈希表Gg1,g2,.,gmRkm的哈希桶内,其中G为m个哈希表的集合,gj表示第j个哈希表,k是哈希桶对应哈希码的长度;在哈希函数学习阶段,通过神经网络算法学习将文本数据分别映射到m个哈希表内其对应的哈。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1