基于逐层标签融合深度网络的图像标注方法.pdf

上传人:a*** 文档编号:4441915 上传时间:2018-10-02 格式:PDF 页数:8 大小:1.19MB
返回 下载 相关 举报
基于逐层标签融合深度网络的图像标注方法.pdf_第1页
第1页 / 共8页
基于逐层标签融合深度网络的图像标注方法.pdf_第2页
第2页 / 共8页
基于逐层标签融合深度网络的图像标注方法.pdf_第3页
第3页 / 共8页
点击查看更多>>
资源描述

《基于逐层标签融合深度网络的图像标注方法.pdf》由会员分享,可在线阅读,更多相关《基于逐层标签融合深度网络的图像标注方法.pdf(8页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 104021224 A (43)申请公布日 2014.09.03 C N 1 0 4 0 2 1 2 2 4 A (21)申请号 201410290316.9 (22)申请日 2014.06.25 G06F 17/30(2006.01) G06K 9/66(2006.01) (71)申请人中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人徐常胜 袁召全 桑基韬 (74)专利代理机构中科专利商标代理有限责任 公司 11021 代理人宋焰琴 (54) 发明名称 基于逐层标签融合深度网络的图像标注方法 (57) 摘要 本发明公开了一种。

2、基于逐层标签融合深度网 络的图像标注方法,该方法包括以下步骤:对于 训练集中的训练图像,提取其底层视觉特征;对 于训练图像的标签进行层级化,构建标签的层级 结构;对于训练图像,逐层融合其底层视觉特征 信息和标签信息,并通过深度网络参数学习,得到 训练图像的层级特征表示;对于测试集中的测试 图像,提取其底层视觉特征,然后通过深度网络学 习得到其层级特征表示,最后根据测试图像的层 级特征表示预测其标注信息本发明所述的图像标 注方法属于一种层级的标注,比传统的标注方法 更加精确。 (51)Int.Cl. 权利要求书2页 说明书4页 附图1页 (19)中华人民共和国国家知识产权局 (12)发明专利申请。

3、 权利要求书2页 说明书4页 附图1页 (10)申请公布号 CN 104021224 A CN 104021224 A 1/2页 2 1.一种基于逐层标签融合深度网络的图像标注方法,其特征在于,该方法包括以下步 骤: 步骤1、对于训练集中的训练图像,提取其底层视觉特征X; 步骤2、对于所述训练图像的标签进行层级化,构建标签的层级结构; 步骤3、对于所述训练图像,逐层融合其底层视觉特征信息和标签信息,并通过深度网 络参数学习,得到所述训练图像的层级特征表示; 步骤4、对于测试集中的测试图像,提取其底层视觉特征,然后通过所述深度网络学习 得到其层级特征表示,最后根据所述测试图像的层级特征表示预测其。

4、标注信息。 2.根据权利要求1所述的方法,其特征在于,所述训练图像的底层视觉特征为其尺度 不变特征变换特征。 3.根据权利要求1所述的方法,其特征在于,所述深度网络的层数为L,标签层级结构 的层数为K,其中,LK,所述深度网络各层的变量表示为h=h (0) ,.,h (L) ,其中,h (0) 表示 图像的底层视觉特征X;所述标签层级结构对应各层的变量表示为y=y (L-K+1) ,.,y (L) 。 4.根据权利要求3所述的方法,其特征在于,所述步骤3包括以下步骤: 步骤3.1:通过构建自编码器,基于重构误差对于深度网络中从h (0) 层到h (L-K+1) 层的参 数进行初步调整; 步骤3。

5、.2:对于所述深度网络中的h (L-K+1) 层到最高h (L) 层,结合深度网络中的某一层, 比如h (l) 层和标签层级结构中的相应层,比如y (l) 层,进行特征融合以及所述深度网络中相 应参数的调整。 5.根据权利要求4所述的方法,其特征在于,所述步骤3.1进一步包括以下步骤: 步骤3.1.1:从h (0) 层向上到h (L-K+1) 层,在每相邻两层之间构建一个自编码器,通过所 述自编码器可由下一层的表示得到上一层表示的映射; 步骤3.1.2:由上一层表示映射回来得到下一层的重构表示; 步骤3.1.3:根据正确表示与重构表示之间的差错,对于所述深度网络的参数进行调 整,直到h (L-。

6、K+1) 层。 6.根据权利要求5所述的方法,其特征在于,所述步骤3.1.3中,使用最小化重构交叉 熵来对所述深度网络的参数进行调整。 7.根据权利要求4所述的方法,其特征在于,所述步骤3.2进一步包括以下步骤: 步骤3.2.1:利用所述标签层级结构中的某一层y (l) 标签调整所述深度网络中从h (0) 到 h (l) 层的参数; 步骤3.2.2:通过h (l) 层和y (l) 层表示合并学习得到h (l+1) 层的特征表示,并对所述深度 网络的相应参数进行调整,直至h (L) 层。 8.根据权利要求7所述的方法,其特征在于,所述步骤3.2.1和步骤3.2.2中,基于交 叉熵损失,利用后向传。

7、播算法对于所述深度网络进行参数调整。 9.根据权利要求7所述的方法,其特征在于,所述步骤3.2.2中,将h (l) 层和y (l) 层的 表示合并起来,与h (l+1) 层的表示构成一个自编码器。 10.根据权利要求1所述的方法,其特征在于,所述步骤4进一步包括以下步骤: 步骤4.1:对于测试图像提取其底层视觉特征; 步骤4.2:利用所述深度网络,得到所述测试图像底层视觉特征的层级特征表示; 权 利 要 求 书CN 104021224 A 2/2页 3 步骤4.3:利用所述测试图像的层级特征表示预测所述测试图像的标签信息。 权 利 要 求 书CN 104021224 A 1/4页 4 基于逐层。

8、标签融合深度网络的图像标注方法 技术领域 0001 本发明涉及社交网络图像标注技术领域,尤其涉及一种基于逐层标签融合深度网 络的图像标注方法。 背景技术 0002 近年来,随着社交媒体的不断发展,社交平台上的图像数量呈爆炸式增长,如何对 海量的社交图像进行标注成为网络多媒体领域重要的研究内容。 0003 目前主流的图像标注方法主要集中在基于视觉信息的方法,该类方法首先进行底 层特征提取,然后利用机器学习模型来对基于特征表示的图像进行分类。该类方法在一定 程度上取得了较好的效果,然而由于仅利用视觉信息而忽视了其上下文的文本信息,其效 果仍不够理想。 0004 图像标注的核心在于利用图像相关的信息。

9、(包括视觉,上下文文本标签信息等) 进行图像内容的理解,融合图像的标签信息和视觉信息,得到更加有表达能力的图像特征, 对图像标注,特别是社交图像有重要的促进作用。然而,视觉特征和文本标签信息的异构 性,给两类信息的融合带来了挑战,本发明提出的基于逐层标签融合深度网络的图像标注 方法逐层地融合两类信息,解决了异构信息融合的难题,对于社交图像标注有着重要的作 用。 发明内容 0005 为了解决现有技术中存在的上述问题,本发明提出了一种基于逐层标签融合深度 网络的图像标注方法。 0006 本发明提出的一种基于逐层标签融合深度网络的图像标注方法包括以下步骤: 0007 步骤1、对于训练集中的训练图像,。

10、提取其底层视觉特征X; 0008 步骤2、对于所述训练图像的标签进行层级化,构建标签的层级结构; 0009 步骤3、对于所述训练图像,逐层融合其底层视觉特征信息和标签信息,并通过深 度网络参数学习,得到所述训练图像的层级特征表示; 0010 步骤4、对于测试集中的测试图像,提取其底层视觉特征,然后通过所述深度网络 学习得到其层级特征表示,最后根据所述测试图像的层级特征表示预测其标注信息。 0011 互联网图像标注在很多重要的相关领域已经有了广泛的应用。由于视觉顶层信息 与高层语义之间的语义鸿沟的存在,基于视觉的图像标注是一个具有挑战性的难题。本发 明提出的上述基于逐层标签融合深度网络的图像标注。

11、的方法能够自动对社交图像进行标 注,另外本发明层级的标注方法比传统的标注方法更加精确。 附图说明 0012 图1是根据本发明一实施例的基于逐层标签融合深度网络的图像标注方法的流 程图; 说 明 书CN 104021224 A 2/4页 5 0013 图2是标签层级示例图; 0014 图3是根据本发明一实施例的逐层特征融合深度网络的模型结构图。 具体实施方式 0015 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明进一步详细说明。 0016 本发明所提出的方法所涉及的相关数据集包括:1)训练集,其中包括图像以及该 图像所对应的社交标签;2)测试集,仅包括。

12、待标注的测试图像,而没有标签信息。 0017 考虑到图像底层视觉信息和社交标签信息的异构性,本发明提出了一种基于逐层 标签融合深度网络的图像标注方法。该方法的核心思想是在深度网络的框架下,逐层地进 行标签信息和视觉信息的融合,从而学习图像的层级特征,为图像的标注提供特征表示。 0018 图1示出了本发明提出的基于逐层标签融合深度网络的图像标注方法流程图,如 图1所示,所述方法包括: 0019 步骤1、对于训练集中的训练图像,提取其底层视觉特征; 0020 步骤2、对于所述训练图像的标签进行层级化,构建标签的层级结构; 0021 步骤3、对于所述训练图像,逐层融合其底层视觉特征信息和标签信息,并。

13、通过深 度网络参数学习,得到所述训练图像的层级特征表示; 0022 步骤4、对于测试集中的测试图像,提取其底层视觉特征,然后通过所述深度网络 学习得到其层级特征表示,最后根据所述测试图像的层级特征表示预测其标注信息。 0023 下面详细介绍上述四个步骤的具体执行过程。 0024 步骤1中,对象的底层视觉特征提取是得到对象的初始表示,对于图像信息,本发 明优选采用尺度不变特征变换特征(SIFT)(比如1000维)作为图像的底层视觉特征,图像 的底层视觉特征用X来表示。 0025 步骤2中,利用一些可以用的工具,本发明优选WordNet,对于图像的社交标签构 建层数为K的标签层级。比如:若某图像带。

14、有标签animal,plant,cat,dog,flower,则对应 的标签层级如图2所示(此处层数为2)。 0026 所述步骤3为对于训练图像,逐层融合其底层视觉特征信息和标签信息,并通过 深度网络参数学习,得到所述训练图像的层级特征。 0027 步骤3中,构建层数为L(LK)的深度网络,并使标签层级结构的K层对应深度网 络的最高层。设深度网络各层的变量表示为h=h (0) ,.,h (L) ,其中,h (0) 表示图像的底层 视觉特征X;K层的标签层级结构对应的各个层的变量表示为y=y (L-K+1) ,.,y (L) 。 0028 该步骤是本发明的重要部分,图3是根据本发明一实施例的逐层。

15、特征融合深度网 络的模型结构图,参照图3,所述步骤3可以分为以下几个子步骤: 0029 步骤3.1:通过构建自编码器(auto-encoder),基于重构误差对于深度网络中从 h (0) 层到h (L-K+1) 层的参数进行初步调整; 0030 所述步骤3.1进一步包括以下步骤: 0031 步骤3.1.1:从h (0) 层向上到h (L-K+1) 层,在每相邻两层之间构建一个自编码器,通 过所述自编码器可由下一层的表示得到上一层表示的映射; 0032 比如,基于h (l-1) 和h (l) 层之间的自编码器,由h (l-1) 层的表示可映射得到h (l) 层的 说 明 书CN 10402122。

16、4 A 3/4页 6 表示: 0033 0034 其中,表示h (l-1) 和h (l) 层之间的权重参数,b (l) 表示h (l) 层的偏置(bias) 参数,s()表示logistic函数: 0035 这样由h (l-1) 层的表示通过映射就可得到h (l) 层的表示。 0036 步骤3.1.2:由上一层表示映射回来得到下一层的重构表示; 0037 比如,由h (l) 的表示映射回来可得到h (l-1) 的重构表示z: 0038 0039 其中,为的转置表示,b表示h (l-1) 的偏置(bias)参数。 0040 步骤3.1.3:根据正确表示与重构表示之间的差错,对于所述深度网络的参数。

17、进 行调整。 0041 比如通过最小化z与h (l-1) 层表示之间的重构差错就可实现对于所述深度网络参 数的初步调整,在本发明一实施例中,优选使用最小化重构交叉熵来对上述参数进行初步 调整: 0042 0043 其中,k表示z的分量的下标,D (l-1) 表示z的维数。 0044 如此进行下去,一直调整到h (L-K+1) 层。 0045 步骤3.2:对于所述深度网络中的h (L-K+1 )层到最高h (L) 层,结合深度网络中的某一 层,比如h (l) 层和标签层级结构中的相应层,比如u (l) 层,进行特征融合以及所述深度网络 中相应参数的调整; 0046 该步骤又可以分为两个子步骤:(。

18、以h (l) 为例) 0047 步骤3.2.1:利用所述标签层级结构中的y (l) 层标签调整所述深度网络中从h (0) 到 h (l) 层的参数; 0048 该步骤中,首先计算交叉熵损失: 0049 0050 其中,N表示样本的数目,K表示该层的标签的个数,y nt 表示模型对第n个样本的 预测的第k维的值,t nk 表示训练样本中第n个样本的第k维的真实的值。 0051 然后将该损失反过来对深度网络从h (0) 到h (l) 层进行参数调整,在本发明一实施 例中,采用著名的后向传播算法进行全局参数调整。 0052 步骤3.2.2:通过h (l) 层和y (l) 层表示合并学习得到h (l+。

19、1) 层的特征表示; 0053 该步骤中,将h (l) 层和y (l) 层的表示合并起来,与h (l+1) 层的表示构成一个自编码器 说 明 书CN 104021224 A 4/4页 7 (auto-encoder): 0054 0055 同样,h (l) ,y (l) 和h (l+1) 之间的参数通过最小化重构交叉熵来优化。 0056 如此进行下去,一直到h (L) 层。 0057 通过上述逐层的特征融合,就可以将图像的标签信息融合到视觉信息中,同时深 度网络的参数也得到了优化。 0058 步骤4中,利用参数已经优化的深度网络,对于测试集中的测试图像进行标注。 0059 所述步骤4进一步分为。

20、以下几个子步骤: 0060 步骤4.1:对于测试图像提取其底层视觉特征X test ,该步骤与步骤1中对训练集中 的训练图像提取底层视觉特征的方法类似; 0061 步骤4.2:利用优化参数后的深度网络,得到所述测试图像底层视觉特征X test 的层 级特征表示h (L-K+1) ,.,h (L) ; 0062 步骤4.3:利用该层级特征表示预测所述测试图像的标签信息h (L-K+1) ,.,h (L) : 0063 0064 其中,W i 表示标签与特征h (l) 之间的权重。 0065 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡 在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。 说 明 书CN 104021224 A 1/1页 8 图1 图2 图3 说 明 书 附 图CN 104021224 A 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1