一种基于深层模型的跨模态检索方法.pdf

上传人:1*** 文档编号:4031775 上传时间:2018-08-12 格式:PDF 页数:12 大小:2.32MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410800393.4

申请日:

2014.12.18

公开号:

CN104462489A

公开日:

2015.03.25

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||著录事项变更IPC(主分类):G06F 17/30变更事项:发明人变更前:李睿凡 鲁鹏 芦效峰 冯方向 李蕾 刘咏彬 王小捷变更后:李睿凡 张光卫 鲁鹏 芦效峰 冯方向 李蕾 刘咏彬 王小捷|||实质审查的生效IPC(主分类):G06F17/30申请日:20141218|||公开

IPC分类号:

G06F17/30; G06N3/02

主分类号:

G06F17/30

申请人:

北京邮电大学

发明人:

李睿凡; 鲁鹏; 芦效峰; 冯方向; 李蕾; 刘咏彬; 王小捷

地址:

100876北京市海淀区西土城路10号

优先权:

专利代理机构:

北京德琦知识产权代理有限公司11018

代理人:

谢安昆; 宋志强

PDF下载: PDF下载
内容摘要

本发明提出了一种基于深层模型的跨模态检索方法,该方法包括:利用特征提取方法分别获得目标检索模态与检索库中每一个被检索模态的低级表达向量;目标检索模态的低级表达向量分别与检索库中每一个被检索模态的低级表达向量,通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量;利用目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量计算目标检索模态与检索库中每一个被检索模态的距离;将检索库中与目标检索模态距离最近的至少一个被检索模态确定为与目标检索模态匹配的对象。

权利要求书

权利要求书
1.  一种基于深层模型的跨模态检索方法,其特征在于,该方法包括:
利用特征提取方法分别获得目标检索模态与检索库中每一个被检索模态的低级表达向量;
所述目标检索模态的低级表达向量分别与所述检索库中每一个被检索模态的低级表达向量,通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得所述目标检索模态的高级表达向量和所述检索库中每一个被检索模态的高级表达向量;
利用所述目标检索模态的高级表达向量和所述检索库中每一个被检索模态的高级表达向量计算所述目标检索模态与所述检索库中每一个被检索模态的距离;
将所述检索库中与所述目标检索模态距离最近的至少一个被检索模态确定为与所述目标检索模态匹配的对象。

2.  根据权利要求1所述的方法,其特征在于,所述Corr-RBMs深层模型由至少两层对应的受限波尔兹曼机Corr-RBM模型堆叠而成,所述Corr-RBMs深层模型包括第一模态Corr-RBMs和第二模态Corr-RBMs,所述第一模态Corr-RBMs处理所述目标检索模态低级表达向量,所述第二模态Corr-RBMs处理所述检索库中任一被检索模态的低级表达向量。

3.  根据权利要求2所述的方法,其特征在于,所述Corr-RBM包含第一模态受限波尔兹曼机RBM和第二模态受限波尔兹曼机RBM,所述第一模态RBM与所述第二模态RBM包含有相同的可见层神经单元数目m和相同的隐藏层神经单元数目s,所述第一模态RBM与所述第二模态RBM的隐藏层之间具有相关性约束。

4.  根据权利要求3所述的方法,其特征在于,该方法进一步包括:
所述Corr-RBM的配置参数Θ={WI,CI,BI,WT,CT,BT},其中,上标I表示第一模态,上标T表示第二模态,具体地,WI为第一模态RBM的各可见 层神经单元与隐藏层神经单元之间的连接权值参数集合,CI为第一模态RBM的可见层神经单元偏置参数集合,BI为第一模态RBM的隐藏层神经单元偏置参数集合,WT为第二模态RBM的各可见层神经单元与隐藏层神经单元之间的连接权值参数集合,CT为第二模态RBM的可见层神经单元偏置参数集合,BT为第二模态RBM的隐藏层神经单元偏置参数集合;
所述对应的受限波尔兹曼机Corr-RBM的配置参数Θ为令目标函数F=lD+αlI+βlT最小的配置参数,且lD=Σi=1m||fI(viI)-fT(viT)||2,lI=-Σi=1mlogpI(viI),]]>lT=-Σi=1mlogpT(viT);]]>
其中,α和β是常数,且α∈(0,1),β∈(0,1);fI(·)是第一模态RBM可见层到隐藏层的映射函数,fT(·)和第二模态RBM可见层到隐藏层的映射函数;pI(·)为第一模态RBM可见层和隐藏层神经单元的联合概率分布,pT(·)为第二模态RBM可见层和隐藏层神经单元的联合概率分布;‖·‖为二范数映射。

5.  根据权利要求4所述的方法,其特征在于,根据目标函数F确定Θ的算法为:
A、第一模态RBM的可见层神经单元与隐藏层神经单元之间的连接权值参数集合可见层神经单元的偏置和隐藏层神经单元的偏置用θI统一表示,根据公式θI←θI+τ·α·△θI进行更新,其中τ为学习速率,且τ∈(0,1);α∈(0,1);并且,
ΔωijI=τ·∂log p(viI)∂ωijI=τ·(viI·hjIdata-viI·hjImod el);]]>
ΔbiI=τ·∂logp(viI)∂hjI=τ·(hjIdata-hjImodel);]]>
ΔcjI=τ·∂logp(viI)∂cjI=τ·(viIdata-viImodel);]]>
其中,<·>data为经验分布下的数学期望,<·>model为模型分布下的数学期望;
B、第二模态RBM的可见层神经单元与隐藏层神经单元之间的连接权 值参数集合可见层神经单元的偏置和隐藏层神经单元的偏置用θT统一表示,根据公式θT←θT+τ·β·△θT进行更新,其中,β∈(0,1);ΔθT={ΔωijT,ΔbiT,ΔcjT},]]>并且,
ΔωijT=τ&CenterDot;&PartialD;logp(viT)&PartialD;ωijT=τ&CenterDot;(viT&CenterDot;hjTdata-viT&CenterDot;hjTmodel);]]>
ΔbiT=τ&CenterDot;&PartialD;logp(viT)&PartialD;hjT=τ&CenterDot;(hjTdata-hjTmodel);]]>
ΔcjT=τ&CenterDot;&PartialD;logp(viT)&PartialD;cjT=τ&CenterDot;(viTdata-viTmodel);]]>
C、根据以下公式使用梯度下降的方法更新lD:
ωijI&LeftArrow;ωijI-τ&CenterDot;(hjT-hjI)&CenterDot;δ'(hjI)&CenterDot;viI;]]>
biI&LeftArrow;biI-τ&CenterDot;(hjT-hjI)&CenterDot;δ'(hjI);]]>
ωijT&LeftArrow;ωijT-τ&CenterDot;(hjI-hjT)&CenterDot;δ'(hjT)&CenterDot;viT;]]>
biT&LeftArrow;biT-τ&CenterDot;(hjI-hjT)&CenterDot;δ'(hjT);]]>
其中,δ'(·)=δ(·)(1-δ(·)),且δ(·)为Logistic激活函数δ(x)=1/(1+exp(-x));
重复步骤A~C,直至该算法收敛。

说明书

说明书一种基于深层模型的跨模态检索方法
技术领域
本发明涉及多媒体检索技术,特别是一种基于深层模型的跨模态检索方法。
背景技术
近些年互联网的发展使得多模态的数据呈现爆炸式增长。例如,电子商务网站上的产品通常包含主干文字、简短的文本描述、以及相关的图片;社交网站上分享的图片通常伴有标记的描述词;一些在线新闻上包含的图片和视频信息比单纯的文字报道更具有吸引力,多模态数据的快速增长带来了巨大的跨模态检索需求。
与传统的单模态检索不同,跨模态检索更多关注不同模态间的关系。因此,跨模态检索问题包含两个挑战问题:一是来自不同模态的数据具有完全不同的统计特性,这使得很难直接获得不同模态数据的关联关系;二是从不同模态数据中抽取的特征通常具有高维的特性并且数据集的规模非常大,这使得高效的检索不容易实现。
发明内容
有鉴于此,本发明提供了一种基于深层模型的跨模态检索方法,应用深层模型解决跨模态数据的处理问题,使得经深层模型处理后的跨模态数据能够高效的进行距离计算,从而得到较优的检索结果。本发明提出的技术方案是:
一种基于深层模型的跨模态检索方法,该方法包括:
利用特征提取方法分别获得目标检索模态与检索库中每一个被检索模态的低级表达向量;
所述目标检索模态的低级表达向量分别与所述检索库中每一个被检索模态的低级表达向量,通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得所 述目标检索模态的高级表达向量和所述检索库中每一个被检索模态的高级表达向量;
利用所述目标检索模态的高级表达向量和所述检索库中每一个被检索模态的高级表达向量计算所述目标检索模态与所述检索库中每一个被检索模态的距离;
将所述检索库中与所述目标检索模态距离最近的至少一个被检索模态确定为与所述目标检索模态匹配的对象。
综上所述,本发明技术方案提出了一种基于深层模型的跨模态检索方法,对于跨模态原始数据进行特征提取获得的低级表达,通过堆叠对应的受限波尔兹曼机(Corr-RBM,Correspondence Restricted Boltzmann Machine)的Corr-RBMs深层模型的处理,得到跨模态数据在相同表示空间中的低维高级表达,进而对跨模态数据的低维高级表达进行距离计算,根据距离确定检索结果。
附图说明
图1为本发明技术方案的流程图;
图2为本发明Corr-RBMs深层模型神经网络结构图;
图3为本发明Corr-RBM模型神经网络结构图;
图4为受限波尔兹曼机RBM模型的结构图;
图5为根据目标函数F确定Θ的方法流程图;
图6为本发明实施例的流程图。
具体实施方式
为解决跨模态间的检索问题,本发明提出一种基于Corr-RBMs深层模型的跨模态检索方法,本发明技术方案的流程图如图1所示,包括以下步骤:
步骤101:利用特征提取方法分别获得目标检索模态与检索库中任一被检索模态的低级表达向量。
本步骤中,为在检索库中检索与目标检索模态匹配的对象,首先需要对 目标检索模态和检索库中任一被检索模态的低级表达向量,特征提取方法获得的低级表达向量一般维数较高,且不同模态的低级表达向量元素各异,一般不能直接用于检索运算。
步骤102:目标检索模态的低级表达向量分别与检索库中每一个被检索模态的低级表达向量,通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量。
本步骤中,将目标检索模态的低级表达向量分别与检索库中每一个被检索模态的低级表达向量作为一个组合,通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量。通过Corr-RBMs深层模型得到的目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量具有低维、空间元素一致等特点,能够高效的进行检索运算。
步骤103:利用目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量计算目标检索模态与检索库中任一被检索模态的距离。
具体地,可以用欧氏距离表示目标检索模态与检索库中每一个被检索模态的距离。
步骤104:将检索库中与目标检索模态距离最近的至少一个被检索模态确定为与目标检索模态匹配的对象。
本步骤中,将检索库中每个被检索模态与目标检索模态的距离进行排序,选择距离目标检索模态最近的至少一个被检索模态确定为与目标检索模态匹配的对象。
本发明提出了一种使用堆叠Corr-RBM的Corr-RBMs深层模型进行跨模态检索的方法,图2为本发明堆叠Corr-RBM的Corr-RBMs深层模型神经网络结构图,如图2所示,Corr-RBMs深层模型由至少两层Corr-RBM模型堆叠而成,该Corr-RBMs深层模型能够由两种不同模态原始数据的低级表达获得该两种不同模态原始数据的高级表达;每层Corr-RBM模型神经网络结构图如图3所示,Corr-RBM模型是在受限波尔兹曼机RBM的基础上建立 的,图4为受限波尔兹曼机的神经网络结构图,下面分别对RBM模型、Corr-RBM模型以及Corr-RBMs深层模型进行详细介绍。
(一)RBM模型:
图4为RBM的神经网络结构图,如图4所示,RBM可见层V包含m个神经单元v1~vm,每个神经单元vi的偏置为bi,可见层神经单元之间没有连接;隐藏层H包含s个神经单元h1~hs,每个神经单元hj的偏置为cj,可见层神经单元之间没有连接;可见层神经单元vi与隐藏层神经单元hj的连接权值为wij。为了便于理解,图4中仅画出了部分可见层神经单元与隐藏层神经单元的连接权值。
RBM具有无向图的结构,具有Logistic激活函数δ(x)=1/(1+exp(-x)),则可见层V和隐藏层H神经单元的联合概率分布为:
p(v,h)=1Zexp(-E(v,h))]]>
其中,Z为归一化常数,E(v,h)是由RBM的可见层神经单元、隐藏层神经单元的不同配置定义的能量函数,根据可见层神经单元、隐藏层神经单元的不同配置,E(v,h)有不同的表示,即只要RBM的可见层神经单元配置与隐藏层神经单元配置确定,就有相应的能量函数,在此不作详细介绍。
RBM的可见层神经单元vi的偏置bi、隐藏层神经单元hj的偏置cj、可见层神经单元vi与隐藏层神经单元hj的连接权值wij的学习可以通过比照散度估计算法得到,比照散度估记算法为较为成熟的现有技术,在此不作详细介绍。
(二)对应的受限波尔兹曼机Corr-RBM模型:
图3为本发明Corr-RBM模型的结构图,如图3所示,Corr-RBM模型包含第一模态RBM和第二模态RBM,第一模态RBM与第二模态RBM包含有相同的可见层神经单元数目m和相同的隐藏层神经单元数目s,并且第一模态RBM与所述第二模态RBM的隐藏层之间具有相关性约束。
假定Θ表示Corr-RBM模型的参数集合,即Θ={WI,CI,BI,WT,CT,BT},其 中,上标I表示第一模态,上标T表示第二模态,具体地,WI为第一模态RBM的各可见层神经单元与隐藏层神经单元之间的连接权值参数集合,CI为第一模态RBM的可见层神经单元偏置参数集合,BI为第一模态RBM的隐藏层神经单元偏置参数集合,WT为第二模态RBM的各可见层神经单元与隐藏层神经单元之间的连接权值参数集合,CT为第二模态RBM的可见层神经单元偏置参数集合,BT为第二模态RBM的隐藏层神经单元偏置参数集合。
Corr-RBM模型的参数集合Θ通过下面的参数学习算法进行确定:
根据下述原则定义目标函数F:Corr-RBM模型的参数集合Θ能够最小化第一模态与第二模态在共享表示空间上的距离,以及最小化第一模态和第二模态的负对数似然函数。目标函数F为F=lD+αlI+βlT,即Θ为令F最小的参数集合。
其中,
lD=Σi=1m||fI(viI)-fT(viT)||2;]]>
lI=-Σi=1mlogpI(viI);]]>
lT=-Σi=1mlogpT(viT).]]>
其中,lD为第一模态与第二模态在嵌套空间上的距离,lI为第一模态的负对数似然函数,lT为第二模态的负对数似然函数,α和β是常数,α∈(0,1),β∈(0,1);fI(·)是第一模态RBM可见层到隐藏层的映射函数,fT(·)是第二模态RBM可见层到隐藏层的映射函数;pI(·)为第一模态RBM可见层和隐藏层神经单元的联合概率分布,pT(·)为第二模态RBM可见层和隐藏层神经单元的联合概率分布,||·||为二范数映射。
为了根据目标函数F确定Θ,可以采用交替迭代的优化过程,首先对两个似然函数lI和lT采用比照散度估记算法进行更新,然后使用梯度下降法更新lD,收敛性可以在验证集上使用跨模态检索进行检测,具体地,图5为根 据目标函数F确定Θ的流程图,包括以下步骤:
步骤501:利用比照散度估记算法更新第一模态RBM的参数。
第一模态RBM的可见层神经单元与隐藏层神经单元之间的连接权值参数集合可见层神经单元的偏置和隐藏层神经单元的偏置用θI统一表示,根据公式θI←θI+τ·α·△θI进行更新,其中τ为学习速率,τ∈(0,1);α∈(0,1);ΔθI={ΔωijI,ΔbiI,ΔcjI},]]>并且,
ΔωijI=τ&CenterDot;&PartialD;logp(viI)&PartialD;ωijI=τ&CenterDot;(<viI&CenterDot;hjI>data-<viI&CenterDot;hjI>model);]]>
ΔbiI=τ&CenterDot;&PartialD;log p(viI)&PartialD;hjI=τ&CenterDot;(<hjI>data-<hjI>model);]]>
ΔcjI=τ&CenterDot;&PartialD;logp(viI)&PartialD;cjI=τ&CenterDot;(<viI>data-<viI>model);]]>
其中,<·>data为经验分布下的数学期望,<·>model为模型分布下的数学期望;
步骤502:利用比照散度估记算法更新第二模态RBM的参数。
第二模态RBM的可见层神经单元与隐藏层神经单元之间的连接权值参数集合可见层神经单元的偏置和隐藏层神经单元的偏置用θT统一表示,根据公式θT←θT+τ·β·△θT进行更新,其中β∈(0,1);并且,
ΔωijT=τ&CenterDot;&PartialD;logp(viT)&PartialD;ωijT=τ&CenterDot;(<viT&CenterDot;hjT>data-<viT&CenterDot;hjT>model);]]>
ΔbiT=τ&CenterDot;&PartialD;logp(viT)&PartialD;hjT=τ&CenterDot;(<hjT>data-<hjT>model);]]>
ΔcjT=τ&CenterDot;&PartialD;logp(viT)&PartialD;cjT=τ&CenterDot;(<viT>data-<viT>model)]]>
步骤503:使用梯度下降的方法更新第一模态与第二模态在嵌套空间上的距离。
具体地,根据以下公式使用梯度下降的方法更新第一模态与第二模态在嵌套空间上的距离lD:
ωijI&LeftArrow;ωijI-τ&CenterDot;(hjT-hjI)&CenterDot;δ(hjI)&CenterDot;viI;]]>
biI&LeftArrow;biI-τ&CenterDot;(hjT-hjI)&CenterDot;δ(hjI);]]>
ωijT&LeftArrow;ωijT-τ&CenterDot;(hjI-hjT)&CenterDot;δ(hjT)&CenterDot;viT;]]>
biT&LeftArrow;biT-τ&CenterDot;(hjI-hjT)&CenterDot;δ(hjT);]]>
其中,δ'(·)=δ(·)(1-δ(·)),且δ(·)为Logistic激活函数δ(x)=1/(1+exp(-x))。
步骤504:重复步骤501~503,直至算法收敛。
通过上述方法即可获得Corr-RBM模型的参数集合Θ。
(三)Corr-RBMs深层模型
图2为Corr-RBMs深层模型神经网络结构图,如图2所示,Corr-RBMs深层模型由至少两层对应的受限波尔兹曼机Corr-RBM模型堆叠而成,Corr-RBMs深层模型包括第一模态Corr-RBMs和第二模态Corr-RBMs,第一模态Corr-RBMs处理目标检索模态低级表达,第二模态Corr-RBMs处理检索库中任一被检索模态的低级表达。
底层Corr-RBM的第一模态RBM可见层神经单元的输入为第一模态原始数据经特征提取获得的第一模态的低级表达,底层Corr-RBM的第二模态RBM可见层神经单元的输入为第二模态原始数据经特征提取获得的第一模态的低级表达,由原始数据经过特定提取获得低级表达为现有技术,在此不作详细介绍。
顶层Corr-RBM的第一RBM隐藏层输出第一模态的高级表达,顶层Corr-RBM的第二RBM隐藏层输出第二模态的高级表达。
为使本发明的目的、技术方案和优点表达的更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
本实施例假设检索库包括N个被检索模态,以在该检索库中检索与图片P相关的对象为例对本发明技术方案进行说明,图6为本实施例的流程图,如图6所示,包括以下步骤:
步骤601:采用特征提取方法获得检索库中各被检索模态的低级表达, 以及图片P的低级表达。
本步骤中,检索库中的被检索模态的模态种类不作限定,可能为图像模态,可能为文本模态,也可能为语音模态,不同模态的原始数据目前均有较成熟的特征提取方法,例如图像模态可以应用MPEG-7和Gist描述符进行特征提取,文本模态可以应用词袋模型进行特征提取等,在此不再对获得图片P与检索库中各被检索模态的低级表达的过程进行详细描述。
步骤602:图片P的低级表达分别与检索库中每个被检索模态的低级表达通过Corr-RBMs深层模型处理,获得图片P的高级表达与检索库中每个被检索模态的的高级表达,再利用图片P的高级表达与检索库中每个被检索模态的的高级表达进行欧氏距离计算,计算图片P与检索库中每个被检索模态的欧氏距离。
本步骤中,将检索库中任一个被检索模态与图片P作为一个组合,通过Corr-RBMs深层模型对组合中的被检索模态低级表达和图片P的低级表达进行处理,获得该组合中被检索模态的高级表达、图片P的高级表达,然后根据欧氏距离计算公式计算图片P与该被检索模态的欧氏距离。
一般的,对于n维欧式空间中的两点t和y,他们的距离d的计算公式为以此计算图片P和任一被检索模态的欧氏距离。
步骤603:根据图片P与检索库中每个被检索模态的欧氏距离由低到高进行排序,选择排在前面的K个被检索模态作为检索结果输出。
本实施例通过Corr-RBMs深层模型对图片模态的低级表达和检索库中各被检索模态的低级表达进行处理,获得各自的高级表达,再利用高级表达进行欧氏距离计算能够高效的获得检索结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

一种基于深层模型的跨模态检索方法.pdf_第1页
第1页 / 共12页
一种基于深层模型的跨模态检索方法.pdf_第2页
第2页 / 共12页
一种基于深层模型的跨模态检索方法.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《一种基于深层模型的跨模态检索方法.pdf》由会员分享,可在线阅读,更多相关《一种基于深层模型的跨模态检索方法.pdf(12页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410800393.4(22)申请日 2014.12.18G06F 17/30(2006.01)G06N 3/02(2006.01)(71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号(72)发明人李睿凡 鲁鹏 芦效峰 冯方向李蕾 刘咏彬 王小捷(74)专利代理机构北京德琦知识产权代理有限公司 11018代理人谢安昆 宋志强(54) 发明名称一种基于深层模型的跨模态检索方法(57) 摘要本发明提出了一种基于深层模型的跨模态检索方法,该方法包括:利用特征提取方法分别获得目标检索模态与检索库中每一个被检索模态的低级表。

2、达向量;目标检索模态的低级表达向量分别与检索库中每一个被检索模态的低级表达向量,通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量;利用目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量计算目标检索模态与检索库中每一个被检索模态的距离;将检索库中与目标检索模态距离最近的至少一个被检索模态确定为与目标检索模态匹配的对象。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书6页 附图3页(10)申请公布号 CN 104462489 A(43)申请公布日 2015。

3、.03.25CN 104462489 A1/2页21.一种基于深层模型的跨模态检索方法,其特征在于,该方法包括:利用特征提取方法分别获得目标检索模态与检索库中每一个被检索模态的低级表达向量;所述目标检索模态的低级表达向量分别与所述检索库中每一个被检索模态的低级表达向量,通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得所述目标检索模态的高级表达向量和所述检索库中每一个被检索模态的高级表达向量;利用所述目标检索模态的高级表达向量和所述检索库中每一个被检索模态的高级表达向量计算所述目标检索模态与所述检索库中每一个被检索模态的距离;将所述检索库中与所述目标检索模态距离最近的至少一个被检索模态。

4、确定为与所述目标检索模态匹配的对象。2.根据权利要求1所述的方法,其特征在于,所述Corr-RBMs深层模型由至少两层对应的受限波尔兹曼机Corr-RBM模型堆叠而成,所述Corr-RBMs深层模型包括第一模态Corr-RBMs和第二模态Corr-RBMs,所述第一模态Corr-RBMs处理所述目标检索模态低级表达向量,所述第二模态Corr-RBMs处理所述检索库中任一被检索模态的低级表达向量。3.根据权利要求2所述的方法,其特征在于,所述Corr-RBM包含第一模态受限波尔兹曼机RBM和第二模态受限波尔兹曼机RBM,所述第一模态RBM与所述第二模态RBM包含有相同的可见层神经单元数目m和相同。

5、的隐藏层神经单元数目s,所述第一模态RBM与所述第二模态RBM的隐藏层之间具有相关性约束。4.根据权利要求3所述的方法,其特征在于,该方法进一步包括:所述Corr-RBM的配置参数WI,CI,BI,WT,CT,BT,其中,上标I表示第一模态,上标T表示第二模态,具体地,WI为第一模态RBM的各可见层神经单元与隐藏层神经单元之间的连接权值参数集合,CI为第一模态RBM的可见层神经单元偏置参数集合,BI为第一模态RBM的隐藏层神经单元偏置参数集合,WT为第二模态RBM的各可见层神经单元与隐藏层神经单元之间的连接权值参数集合,CT为第二模态RBM的可见层神经单元偏置参数集合,BT为第二模态RBM的隐。

6、藏层神经单元偏置参数集合;所述对应的受限波尔兹曼机Corr-RBM的配置参数为令目标函数FlD+lI+lT最小的配置参数,且其中,和是常数,且(0,1),(0,1);fI()是第一模态RBM可见层到隐藏层的映射函数,fT()和第二模态RBM可见层到隐藏层的映射函数;pI()为第一模态RBM可见层和隐藏层神经单元的联合概率分布,pT()为第二模态RBM可见层和隐藏层神经单元的联合概率分布;为二范数映射。5.根据权利要求4所述的方法,其特征在于,根据目标函数F确定的算法为:A、第一模态RBM的可见层神经单元与隐藏层神经单元之间的连接权值参数集合可见层神经单元的偏置和隐藏层神经单元的偏置用I统一表示。

7、,根据公式II+I进行更新,其中为学习速率,且(0,1);(0,1);并且,权 利 要 求 书CN 104462489 A2/2页3其中,data为经验分布下的数学期望,model为模型分布下的数学期望;B、第二模态RBM的可见层神经单元与隐藏层神经单元之间的连接权值参数集合可见层神经单元的偏置和隐藏层神经单元的偏置用T统一表示,根据公式TT+T进行更新,其中,(0,1);并且,C、根据以下公式使用梯度下降的方法更新lD:其中,()()(1-(),且()为Logistic激活函数(x)1/(1+exp(-x);重复步骤AC,直至该算法收敛。权 利 要 求 书CN 104462489 A1/6页。

8、4一种基于深层模型的跨模态检索方法技术领域0001 本发明涉及多媒体检索技术,特别是一种基于深层模型的跨模态检索方法。背景技术0002 近些年互联网的发展使得多模态的数据呈现爆炸式增长。例如,电子商务网站上的产品通常包含主干文字、简短的文本描述、以及相关的图片;社交网站上分享的图片通常伴有标记的描述词;一些在线新闻上包含的图片和视频信息比单纯的文字报道更具有吸引力,多模态数据的快速增长带来了巨大的跨模态检索需求。0003 与传统的单模态检索不同,跨模态检索更多关注不同模态间的关系。因此,跨模态检索问题包含两个挑战问题:一是来自不同模态的数据具有完全不同的统计特性,这使得很难直接获得不同模态数据。

9、的关联关系;二是从不同模态数据中抽取的特征通常具有高维的特性并且数据集的规模非常大,这使得高效的检索不容易实现。发明内容0004 有鉴于此,本发明提供了一种基于深层模型的跨模态检索方法,应用深层模型解决跨模态数据的处理问题,使得经深层模型处理后的跨模态数据能够高效的进行距离计算,从而得到较优的检索结果。本发明提出的技术方案是:0005 一种基于深层模型的跨模态检索方法,该方法包括:0006 利用特征提取方法分别获得目标检索模态与检索库中每一个被检索模态的低级表达向量;0007 所述目标检索模态的低级表达向量分别与所述检索库中每一个被检索模态的低级表达向量,通过堆叠对应的受限波尔兹曼机Corr-。

10、RBMs深层模型获得所述目标检索模态的高级表达向量和所述检索库中每一个被检索模态的高级表达向量;0008 利用所述目标检索模态的高级表达向量和所述检索库中每一个被检索模态的高级表达向量计算所述目标检索模态与所述检索库中每一个被检索模态的距离;0009 将所述检索库中与所述目标检索模态距离最近的至少一个被检索模态确定为与所述目标检索模态匹配的对象。0010 综上所述,本发明技术方案提出了一种基于深层模型的跨模态检索方法,对于跨模态原始数据进行特征提取获得的低级表达,通过堆叠对应的受限波尔兹曼机(Corr-RBM,Correspondence Restricted Boltzmann Machin。

11、e)的Corr-RBMs深层模型的处理,得到跨模态数据在相同表示空间中的低维高级表达,进而对跨模态数据的低维高级表达进行距离计算,根据距离确定检索结果。附图说明0011 图1为本发明技术方案的流程图;0012 图2为本发明Corr-RBMs深层模型神经网络结构图;说 明 书CN 104462489 A2/6页50013 图3为本发明Corr-RBM模型神经网络结构图;0014 图4为受限波尔兹曼机RBM模型的结构图;0015 图5为根据目标函数F确定的方法流程图;0016 图6为本发明实施例的流程图。具体实施方式0017 为解决跨模态间的检索问题,本发明提出一种基于Corr-RBMs深层模型的。

12、跨模态检索方法,本发明技术方案的流程图如图1所示,包括以下步骤:0018 步骤101:利用特征提取方法分别获得目标检索模态与检索库中任一被检索模态的低级表达向量。0019 本步骤中,为在检索库中检索与目标检索模态匹配的对象,首先需要对目标检索模态和检索库中任一被检索模态的低级表达向量,特征提取方法获得的低级表达向量一般维数较高,且不同模态的低级表达向量元素各异,一般不能直接用于检索运算。0020 步骤102:目标检索模态的低级表达向量分别与检索库中每一个被检索模态的低级表达向量,通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得目标检索模态的高级表达向量和检索库中每一个被检索模态的高级。

13、表达向量。0021 本步骤中,将目标检索模态的低级表达向量分别与检索库中每一个被检索模态的低级表达向量作为一个组合,通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量。通过Corr-RBMs深层模型得到的目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量具有低维、空间元素一致等特点,能够高效的进行检索运算。0022 步骤103:利用目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量计算目标检索模态与检索库中任一被检索模态的距离。0023 具体地,可以用欧氏距离表示目标检索模态与检索库中每一。

14、个被检索模态的距离。0024 步骤104:将检索库中与目标检索模态距离最近的至少一个被检索模态确定为与目标检索模态匹配的对象。0025 本步骤中,将检索库中每个被检索模态与目标检索模态的距离进行排序,选择距离目标检索模态最近的至少一个被检索模态确定为与目标检索模态匹配的对象。0026 本发明提出了一种使用堆叠Corr-RBM的Corr-RBMs深层模型进行跨模态检索的方法,图2为本发明堆叠Corr-RBM的Corr-RBMs深层模型神经网络结构图,如图2所示,Corr-RBMs深层模型由至少两层Corr-RBM模型堆叠而成,该Corr-RBMs深层模型能够由两种不同模态原始数据的低级表达获得该。

15、两种不同模态原始数据的高级表达;每层Corr-RBM模型神经网络结构图如图3所示,Corr-RBM模型是在受限波尔兹曼机RBM的基础上建立的,图4为受限波尔兹曼机的神经网络结构图,下面分别对RBM模型、Corr-RBM模型以及Corr-RBMs深层模型进行详细介绍。0027 (一)RBM模型:0028 图4为RBM的神经网络结构图,如图4所示,RBM可见层V包含m个神经单元v1vm,每个神经单元vi的偏置为bi,可见层神经单元之间没有连接;隐藏层H包含s个神经单说 明 书CN 104462489 A3/6页6元h1hs,每个神经单元hj的偏置为cj,可见层神经单元之间没有连接;可见层神经单元v。

16、i与隐藏层神经单元hj的连接权值为wij。为了便于理解,图4中仅画出了部分可见层神经单元与隐藏层神经单元的连接权值。0029 RBM具有无向图的结构,具有Logistic激活函数(x)1/(1+exp(-x),则可见层V和隐藏层H神经单元的联合概率分布为:0030 0031 其中,Z为归一化常数,E(v,h)是由RBM的可见层神经单元、隐藏层神经单元的不同配置定义的能量函数,根据可见层神经单元、隐藏层神经单元的不同配置,E(v,h)有不同的表示,即只要RBM的可见层神经单元配置与隐藏层神经单元配置确定,就有相应的能量函数,在此不作详细介绍。0032 RBM的可见层神经单元vi的偏置bi、隐藏层。

17、神经单元hj的偏置cj、可见层神经单元vi与隐藏层神经单元hj的连接权值wij的学习可以通过比照散度估计算法得到,比照散度估记算法为较为成熟的现有技术,在此不作详细介绍。0033 (二)对应的受限波尔兹曼机Corr-RBM模型:0034 图3为本发明Corr-RBM模型的结构图,如图3所示,Corr-RBM模型包含第一模态RBM和第二模态RBM,第一模态RBM与第二模态RBM包含有相同的可见层神经单元数目m和相同的隐藏层神经单元数目s,并且第一模态RBM与所述第二模态RBM的隐藏层之间具有相关性约束。0035 假定表示Corr-RBM模型的参数集合,即WI,CI,BI,WT,CT,BT,其中,。

18、上标I表示第一模态,上标T表示第二模态,具体地,WI为第一模态RBM的各可见层神经单元与隐藏层神经单元之间的连接权值参数集合,CI为第一模态RBM的可见层神经单元偏置参数集合,BI为第一模态RBM的隐藏层神经单元偏置参数集合,WT为第二模态RBM的各可见层神经单元与隐藏层神经单元之间的连接权值参数集合,CT为第二模态RBM的可见层神经单元偏置参数集合,BT为第二模态RBM的隐藏层神经单元偏置参数集合。0036 Corr-RBM模型的参数集合通过下面的参数学习算法进行确定:0037 根据下述原则定义目标函数F:Corr-RBM模型的参数集合能够最小化第一模态与第二模态在共享表示空间上的距离,以及。

19、最小化第一模态和第二模态的负对数似然函数。目标函数F为FlD+lI+lT,即为令F最小的参数集合。0038 其中,0039 0040 0041 0042 其中,lD为第一模态与第二模态在嵌套空间上的距离,lI为第一模态的负对数似然函数,lT为第二模态的负对数似然函数,和是常数,(0,1),(0,1);fI()是第一模态RBM可见层到隐藏层的映射函数,fT()是第二模态RBM可见层到隐藏层的映说 明 书CN 104462489 A4/6页7射函数;pI()为第一模态RBM可见层和隐藏层神经单元的联合概率分布,pT()为第二模态RBM可见层和隐藏层神经单元的联合概率分布,|为二范数映射。0043 。

20、为了根据目标函数F确定,可以采用交替迭代的优化过程,首先对两个似然函数lI和lT采用比照散度估记算法进行更新,然后使用梯度下降法更新lD,收敛性可以在验证集上使用跨模态检索进行检测,具体地,图5为根据目标函数F确定的流程图,包括以下步骤:0044 步骤501:利用比照散度估记算法更新第一模态RBM的参数。0045 第一模态RBM的可见层神经单元与隐藏层神经单元之间的连接权值参数集合可见层神经单元的偏置和隐藏层神经单元的偏置用I统一表示,根据公式II+I进行更新,其中为学习速率,(0,1);(0,1);并且,0046 0047 0048 0049 其中,data为经验分布下的数学期望,model。

21、为模型分布下的数学期望;0050 步骤502:利用比照散度估记算法更新第二模态RBM的参数。0051 第二模态RBM的可见层神经单元与隐藏层神经单元之间的连接权值参数集合可见层神经单元的偏置和隐藏层神经单元的偏置用T统一表示,根据公式TT+T进行更新,其中(0,1);并且,0052 0053 0054 0055 步骤503:使用梯度下降的方法更新第一模态与第二模态在嵌套空间上的距离。0056 具体地,根据以下公式使用梯度下降的方法更新第一模态与第二模态在嵌套空间上的距离lD:0057 0058 说 明 书CN 104462489 A5/6页80059 0060 0061 其中,( )( )(1。

22、-( ),且( )为Logistic激活函数(x)1/(1+exp(-x)。0062 步骤504:重复步骤501503,直至算法收敛。0063 通过上述方法即可获得Corr-RBM模型的参数集合。0064 (三)Corr-RBMs深层模型0065 图2为Corr-RBMs深层模型神经网络结构图,如图2所示,Corr-RBMs深层模型由至少两层对应的受限波尔兹曼机Corr-RBM模型堆叠而成,Corr-RBMs深层模型包括第一模态Corr-RBMs和第二模态Corr-RBMs,第一模态Corr-RBMs处理目标检索模态低级表达,第二模态Corr-RBMs处理检索库中任一被检索模态的低级表达。00。

23、66 底层Corr-RBM的第一模态RBM可见层神经单元的输入为第一模态原始数据经特征提取获得的第一模态的低级表达,底层Corr-RBM的第二模态RBM可见层神经单元的输入为第二模态原始数据经特征提取获得的第一模态的低级表达,由原始数据经过特定提取获得低级表达为现有技术,在此不作详细介绍。0067 顶层Corr-RBM的第一RBM隐藏层输出第一模态的高级表达,顶层Corr-RBM的第二RBM隐藏层输出第二模态的高级表达。0068 为使本发明的目的、技术方案和优点表达的更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。0069 本实施例假设检索库包括N个被检索模态,以在该检索库。

24、中检索与图片P相关的对象为例对本发明技术方案进行说明,图6为本实施例的流程图,如图6所示,包括以下步骤:0070 步骤601:采用特征提取方法获得检索库中各被检索模态的低级表达,以及图片P的低级表达。0071 本步骤中,检索库中的被检索模态的模态种类不作限定,可能为图像模态,可能为文本模态,也可能为语音模态,不同模态的原始数据目前均有较成熟的特征提取方法,例如图像模态可以应用MPEG-7和Gist描述符进行特征提取,文本模态可以应用词袋模型进行特征提取等,在此不再对获得图片P与检索库中各被检索模态的低级表达的过程进行详细描述。0072 步骤602:图片P的低级表达分别与检索库中每个被检索模态的。

25、低级表达通过Corr-RBMs深层模型处理,获得图片P的高级表达与检索库中每个被检索模态的的高级表达,再利用图片P的高级表达与检索库中每个被检索模态的的高级表达进行欧氏距离计算,计算图片P与检索库中每个被检索模态的欧氏距离。0073 本步骤中,将检索库中任一个被检索模态与图片P作为一个组合,通过Corr-RBMs深层模型对组合中的被检索模态低级表达和图片P的低级表达进行处理,获得该组合中被检索模态的高级表达、图片P的高级表达,然后根据欧氏距离计算公式计算图片P与该被检索模态的欧氏距离。0074 一般的,对于n维欧式空间中的两点t和y,他们的距离d的计算公式为说 明 书CN 104462489 。

26、A6/6页9以此计算图片P和任一被检索模态的欧氏距离。0075 步骤603:根据图片P与检索库中每个被检索模态的欧氏距离由低到高进行排序,选择排在前面的K个被检索模态作为检索结果输出。0076 本实施例通过Corr-RBMs深层模型对图片模态的低级表达和检索库中各被检索模态的低级表达进行处理,获得各自的高级表达,再利用高级表达进行欧氏距离计算能够高效的获得检索结果。0077 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。说 明 书CN 104462489 A1/3页10图1图2说 明 书 附 图CN 104462489 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1