基于卷积神经网络和递归自动编码器模型的场景识别方法.pdf

上传人:T****z 文档编号:11305576 上传时间:2021-09-16 格式:PDF 页数:10 大小:517.42KB
返回 下载 相关 举报
基于卷积神经网络和递归自动编码器模型的场景识别方法.pdf_第1页
第1页 / 共10页
基于卷积神经网络和递归自动编码器模型的场景识别方法.pdf_第2页
第2页 / 共10页
基于卷积神经网络和递归自动编码器模型的场景识别方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《基于卷积神经网络和递归自动编码器模型的场景识别方法.pdf》由会员分享,可在线阅读,更多相关《基于卷积神经网络和递归自动编码器模型的场景识别方法.pdf(10页珍藏版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910470014.2 (22)申请日 2019.05.29 (71)申请人 创意信息技术股份有限公司 地址 610000 四川省成都市青羊区万和路 号丽阳天下 室 (72)发明人 花福军陆文斌张应福周正斌 李成伟 (74)专利代理机构 成都金英专利代理事务所 (普通合伙) 51218 代理人 袁英 (51)Int.Cl. G06K 9/62(2006.01) G06N 3/04(2006.01) (54)发明名称 一种基于卷积神经网络和递归自动编码器 模型的场景识别方法 。

2、(57)摘要 本发明公开了一种基于卷积神经网络和递 归自动编码器模型的场景识别方法, 包括: 构建 卷积神经网络, 构建递归自动编码器, 数据预处 理和场景预测分类; 构建卷积神经网络, 是利用 大规模场景数据集构建并改进卷积神经深度网 络; 构建递归自动编码器, 是利用卷积神经网络 提取的图像特征和场景标签构建并改进递归自 动编码器; 数据预处理, 是将图像进行数据增强 的操作, 同时将场景的文本标签实现嵌入操作完 成数据预处理; 场景预测分类, 构建预测图像场 景分类器, 将图像特征输入训练完成的模型中进 行场景预测分类。 本发明改进了传统的图像与文 本信息的编码模型, 提出了一种新的卷积。

3、神经网 络和递归自动编码器网络的结合方法, 能够显著 的提升场景识别的效果。 权利要求书2页 说明书6页 附图1页 CN 110188827 A 2019.08.30 CN 110188827 A 1.一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 其特征在于, 包括: 构建卷积神经网络, 构建递归自动编码器, 数据预处理和场景预测分类; 所述构建卷积神经网络, 是利用大规模场景数据集构建并改进卷积神经深度网络; 所述构建递归自动编码器, 是利用卷积神经网络提取的图像特征和场景标签构建并改 进递归自动编码器; 所述数据预处理, 是将图像进行数据增强的操作, 同时将场景的文本标签实现嵌。

4、入操 作完成数据预处理; 所述场景预测分类, 构建预测图像场景分类器, 将图像特征输入训练完成的模型中进 行场景预测分类。 2.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方 法, 其特征在于, 所述构建卷积神经网络包括以下步骤: S11: 获取公开的场景数据构建大规模场景标注数据集; S12: 将所述数据集处理为固定大小的224*224 RGB图像, 作为卷积神经网络的输入; S13: 输入图像通过多个卷积层, 卷积核大小为3*3, 步长为1个像素, 填充为1个像素; S14: 空间池化由五个最大池化层进行, 步长为2, 网络最后是三个全连接层,将最后的 全连接层输。

5、出向量作为后续的递归自动编码器的部分输入。 3.根据权利要求2所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方 法, 其特征在于, 所述神经网络中所有隐藏层采用ReLU作为激活函数。 4.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方 法, 其特征在于, 所述构建递归自动编码器包括以下步骤: S21: 特征向量输入: 获取卷积神经网络中提取的特征向量, 将其分割成若干个512维向 量, 用于编码器的输入序列; S22: 构建递归自动编码器: 对输入序列的二叉树中前两个叶子节点进行重构, 然后依 次对后续的叶子节点及前一个隐藏节点进行重构, 最终完成重构原始序。

6、列, 隐藏节点满足: yif(W(1)xi; ci-1+b(i) 其中, xi表示输入序列节点, ci-1表示节点, 其中i1时, ci-1x2, i1时, ci-1yi-1, 且i 1,m-1, m表示输入序列长度, W表示子节点之间的连接向量, b表示偏移量; 重构过程是将父子节点yi反向重构子节点, 真实值和重构过程的差异使用xi; ci-1 W(1)yi+b(1)表示, 还原计算过程满足: S23: 优化递归自动编码器: 设定A(x)表示输入x的可构建二叉树的全集, T(y)表示树中 非叶子节点的索引位置s, 模型中的错误满足: S24: 节点匹配: 利用贪心算法, 对节点进行两两配对。

7、, 选取最小误差的组合作为重构对 象, 在不同的节点具有不同的权重连接, 需要满足: 权利要求书 1/2 页 2 CN 110188827 A 2 5.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方 法, 其特征在于, 对数据预处理的包括以下子步骤: S31: 对训练集中的图像进行增强处理, 包括部分旋转、 平移、 缩放、 边缘填充的操作; S32: 将训练集中的图像对应的场景进行嵌入化处理, 其中词典规格为训练集中的词汇 总量, 每位单词向量的维度是256; 同时保证场景单词向量和训练集中的图像一一对应。 S33: 对图像全连接层中输出的特征向量进行分割, 保证向量。

8、维度与单词维度相同, 若 维度不足, 进行补零操作。 6.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方 法, 其特征在于, 所述场景预测分类包括以下子步骤: S41: 初始化标签矩阵, 其中多标签情况下, 标签的概率总和为1; S42: 将节点递归正向编码, 同时计算重构之后的偏差, 经过反向传播更新参数集; S43: 充分训练底层网络, 底层网络的权重和偏移量固定后, 隐藏状态自下而上进行传 播, 依次训练隐藏层, 全面训练编码器; S44: 在隐藏层的递归自动编码器训练过程中, 图像场景的文本嵌入式向量, 同样作为 节点进行编码; S45: 将卷积神经网络提取的。

9、图像特征分割输入到自动编码器, 经过迭代编码和重构通 过Softmax分类器, 实现图像场景预测。 7.根据权利要求6所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方 法, 其特征在于, 所述步骤S45包括以下步骤: S451: 设置自动编码器中场景类别的预测函数, 需要满足: d(yi; )Softmax(Wlabelyi) 其中, Wlabel表示具有监督性质的标签矩阵, 在多个标签K的情况下, 则有d1; S452: 将标签tk的预测概率进行交叉验证作为损失函数, 需要满足: S453: 根据S452设置的自动编码器中损失函数, 将提出的模型中的目标函数设置如下: 目标函数的梯。

10、度下降算法需要满足: 其中公式中的 表示参数集W(1), b(1), W(1), b(1), Wlabel, L, L表示图像特征表示的特征 空间。 权利要求书 2/2 页 3 CN 110188827 A 3 一种基于卷积神经网络和递归自动编码器模型的场景识别 方法 技术领域 0001 本发明涉及图像场景理解领域, 尤其涉及一种基于卷积神经网络和递归自动编码 器模型的场景识别方法。 背景技术 0002 如何准确、 有效的识别输入图像中的场景, 已经成为一个重要的研究课题。 在传统 的图像理解算法技术中, 图像分类, 相似图像索引是主要的研究方向。 图像分类问题需要更 好的获得输入图像的特征向。

11、量, 并基于特征向量学习优化。 传统的算法中使用常见的图像 特征是HOG特征。 HOG特征是将归一化的图像分割成若干个像素块, 计算每个像素块的亮度 梯度并将所有的像素块的亮度梯度进行串联。 传统的图像分类算法包括KNN(k-Nearest Neighbor)和SVM(Support Vector Machine)两种主要的方法。 0003 在传统的图像分类算法常使用的全局特征有Gabor特征, LBP特征, HOG梯度方向直 方图, GIST特征等特征, 局部特征有SIFT特征(Scale Invariant Feature Transform), SURF特征(Speeded Up Rob。

12、ust Features), DAISY特征等。 特征描述子和特征检测子关系相 对紧密, 其中检测子越多, 图像特征提取的时间越长, 相应的噪声也会增多, 检测子少的情 况下, 有效的特征匹配也会减少。 0004 (1)KNN算法: 0005 KNN算法的主旨思想是寻找与测试图像中的最相似的图像的, 后在最相似的图片 组中进行交叉验证, 得出测试图像最高的概率值得标签值。 两张图像的相似度之间的计算 被称为曼哈顿距离, 计算所有的像素块的差距, 最后计算出两张图像的距离。 通过度量图像 之间的差异, 利用该种思想的分类器实现比较简单, 并且训练学习的没有大量的时间花销, 但测试时间复杂度巨大,。

13、 效率偏低。 0006 (2)SVM分类器: 0007 SVM分类器是上世纪60年代被提出的一种按照监督学习方式对输入数据进行二元 分类的广义线性分类器。 经过多年的发展包括了多种衍生算法和模型, 比如多分类SVM, 最 小二乘法SVM, 支持向量回归等模型。 SVM在众多模式识别的研究领域中被广泛应用, 比如图 像识别和文本分类等。 SVM的经典结构的思路是使用一个超平面将不同的类别分开, 并让难 区分的特征点尽可能的表现出最大的差距。 0008 SVM模型展现出小样本数据规模即可提取数据中的非线性关系结构, 且解决在繁 多的神经网络结构中进行选择和调优问题, 高维问题得到解决。 而SVM模。

14、型不具有普适性, 需要具体问题具体解决, 模型的核函数选择繁琐, 并且计算复杂度高, 不适用大规模数据等 问题。 0009 基于现有方法的缺陷, 需要一种新的卷积神经网络和递归自动编码器网络的结合 方法, 来实现显著提升场景识别效果。 说明书 1/6 页 4 CN 110188827 A 4 发明内容 0010 为了解决上述问题, 本发明提出一种基于卷积神经网络和递归自动编码器模型的 场景识别方法。 0011 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 包括: 构建卷积 神经网络, 构建递归自动编码器, 数据预处理和场景预测分类; 0012 所述构建卷积神经网络, 是利用大规模场。

15、景数据集构建并改进卷积神经深度网 络; 0013 所述构建递归自动编码器, 是利用卷积神经网络提取的图像特征和场景标签构建 并改进递归自动编码器; 0014 所述数据预处理, 是将图像进行数据增强的操作, 同时将场景的文本标签实现嵌 入操作完成数据预处理; 0015 所述场景预测分类, 构建预测图像场景分类器, 将图像特征输入训练完成的模型 中进行场景预测分类。 0016 进一步的, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 所述 构建卷积神经网络包括以下步骤: 0017 S11: 获取公开的场景数据构建大规模场景标注数据集; 0018 S12: 将所述数据集处理为固定大小的2。

16、24*224RGB图像, 作为卷积神经网络的输 入; 0019 S13: 输入图像通过多个卷积层, 卷积核大小为3*3, 步长为1个像素, 填充为1个像 素; 0020 S14: 空间池化由五个最大池化层进行, 步长为2, 网络最后是三个全连接层,将最 后的全连接层输出向量作为后续的递归自动编码器的部分输入。 0021 进一步的, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 所述 神经网络中所有隐藏层采用ReLU作为激活函数。 0022 进一步的, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 所述 构建递归自动编码器包括以下步骤: 0023 S21: 特征向量输入:。

17、 获取卷积神经网络中提取的特征向量, 将其分割成若干个512 维向量, 用于编码器的输入序列; 0024 S22: 构建递归自动编码器: 对输入序列的二叉树中前两个叶子节点进行重构, 然 后依次对后续的叶子节点及前一个隐藏节点进行重构, 最终完成重构原始序列, 隐藏节点 满足: 0025 yif(W(1)xi; ci-1+b(i) 0026 其中, xi表示输入序列节点, ci-1表示节点, 其中i1时, ci-1x2, i1时, ci-1yi-1, 且i1,m-1, m表示输入序列长度, W表示子节点之间的连接向量, b表示偏移量; 0027 重构过程是将父子节点yi反向重构子节点, 真实值。

18、和重构过程的差异使用xi; ci-1W(1)yi+b(1)表示, 还原计算过程满足: 0028 0029 S23: 优化递归自动编码器: 设定A(x)表示输入x的可构建二叉树的全集, T(y)表示 说明书 2/6 页 5 CN 110188827 A 5 树中非叶子节点的索引位置s, 模型中的错误满足: 0030 0031 S24: 节点匹配: 利用贪心算法, 对节点进行两两配对, 选取最小误差的组合作为重 构对象, 在不同的节点具有不同的权重连接, 需要满足: 0032 0033 进一步的, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 对数 据预处理的包括以下子步骤: 0034。

19、 S31: 对训练集中的图像进行增强处理, 包括部分旋转、 平移、 缩放、 边缘填充的操 作; 0035 S32: 将训练集中的图像对应的场景进行嵌入化处理, 其中词典规格为训练集中的 词汇总量, 每位单词向量的维度是256; 同时保证场景单词向量和训练集中的图像一一对 应。 0036 S33: 对图像全连接层中输出的特征向量进行分割, 保证向量维度与单词维度相 同, 若维度不足, 进行补零操作。 0037 进一步的, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 其特 征在于, 所述场景预测分类包括以下子步骤: 0038 S41: 初始化标签矩阵, 其中多标签情况下, 标签的概率。

20、总和为1; 0039 S42: 将节点递归正向编码, 同时计算重构之后的偏差, 经过反向传播更新参数集; 0040 S43: 充分训练底层网络, 底层网络的权重和偏移量固定后, 隐藏状态自下而上进 行传播, 依次训练隐藏层, 全面训练编码器; 0041 S44: 在隐藏层的递归自动编码器训练过程中, 图像场景的文本嵌入式向量, 同样 作为节点进行编码; 0042 S45: 将卷积神经网络提取的图像特征分割输入到自动编码器, 经过迭代编码和重 构通过Softmax分类器, 实现图像场景预测。 0043 进一步的, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 所述 步骤S45包括以下。

21、步骤: 0044 S451: 设置自动编码器中场景类别的预测函数, 需要满足: 0045 d(yi; )Softmax(Wlabelyi) 0046 其中, Wlabel表示具有监督性质的标签矩阵, 在多个标签K的情况下, 则有d1; 0047 S452: 将标签tk的预测概率进行交叉验证作为损失函数, 需要满足: 0048 0049 S453: 根据S452设置的自动编码器中损失函数, 将提出的模型中的目标函数设置 如下: 0050 0051 目标函数的梯度下降算法需要满足: 说明书 3/6 页 6 CN 110188827 A 6 0052 0053 其中公式中的 表示参数集W(1), b。

22、(1), W(1), b(1), Wlabel, L, L表示图像特征表示的 特征空间。 0054 本发明的有益效果在于: 本发明改进了传统的图像与文本信息的编码模型, 提出 了一种新的卷积神经网络和递归自动编码器网络的结合方法, 能够显著的提升场景识别的 效果。 附图说明 0055 图1是本发明的系统结构框图; 0056 图2是本发明中递归自动编码器结构图; 具体实施方式 0057 为了对本发明的技术特征、 目的和效果有更加清楚的理解, 现对照附图说明本发 明的具体实施方式。 0058 如图1、 图2所示, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 包括: 构建卷积神经网络,。

23、 构建递归自动编码器, 数据预处理和场景预测分类; 0059 所述构建卷积神经网络, 是利用大规模场景数据集构建并改进卷积神经深度网 络; 0060 所述构建递归自动编码器, 是利用卷积神经网络提取的图像特征和场景标签构建 并改进递归自动编码器; 0061 所述数据预处理, 是将图像进行数据增强的操作, 同时将场景的文本标签实现嵌 入操作完成数据预处理; 0062 所述场景预测分类, 构建预测图像场景分类器, 将图像特征输入训练完成的模型 中进行场景预测分类。 0063 本实施例中, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 所 述构建卷积神经网络采用以下步骤: 0064 S1。

24、1: 获取公开的场景数据构建大规模场景标注数据集; 0065 S12: 将所述数据集处理为固定大小的224*224RGB图像, 作为卷积神经网络的输 入; 0066 S13: 输入图像通过多个卷积层, 卷积核大小为3*3, 步长为1个像素, 填充为1个像 素; 0067 S14: 空间池化由五个最大池化层进行, 步长为2, 网络最后是三个全连接层,将最 后的全连接层输出向量作为后续的递归自动编码器的部分输入。 神经网络中所有隐藏层采 用ReLU作为激活函数。 0068 本实施例中, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 所 述构建递归自动编码器包括以下步骤: 0069 S2。

25、1: 特征向量输入: 获取卷积神经网络中提取的特征向量, 将其分割成若干个512 说明书 4/6 页 7 CN 110188827 A 7 维向量, 用于编码器的输入序列; 0070 S22: 构建递归自动编码器: 对输入序列的二叉树中前两个叶子节点进行重构, 然 后依次对后续的叶子节点及前一个隐藏节点进行重构, 最终完成重构原始序列, 隐藏节点 满足: 0071 yif(W(1)xi; ci-1+b(i) 0072 其中, xi表示输入序列节点, ci-1表示节点, 其中i1时, ci-1x2, i1时, ci-1yi-1, 且i1,m-1, m表示输入序列长度, W表示子节点之间的连接向量。

26、, b表示偏移量; 0073 重构过程是将父子节点yi反向重构子节点, 真实值和重构过程的差异使用xi; ci-1W(1)yi+b(1)表示, 还原计算过程满足: 0074 0075 S23: 优化递归自动编码器: 设定A(x)表示输入x的可构建二叉树的全集, T(y)表示 树中非叶子节点的索引位置s, 模型中的错误满足: 0076 0077 S24: 节点匹配: 利用贪心算法, 对节点进行两两配对, 选取最小误差的组合作为重 构对象, 在不同的节点具有不同的权重连接, 需要满足: 0078 0079 本实施例中, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 对 数据预处理的包括。

27、以下子步骤: 0080 S31: 对训练集中的图像进行增强处理, 包括部分旋转、 平移、 缩放、 边缘填充的操 作; 0081 S32: 将训练集中的图像对应的场景进行嵌入化处理, 其中词典规格为训练集中的 词汇总量, 每位单词向量的维度是256; 同时保证场景单词向量和训练集中的图像一一对 应。 0082 S33: 对图像全连接层中输出的特征向量进行分割, 保证向量维度与单词维度相 同, 若维度不足, 进行补零操作。 0083 进一步的, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 其特 征在于, 所述场景预测分类包括以下子步骤: 0084 S41: 初始化标签矩阵, 其中多标。

28、签情况下, 标签的概率总和为1; 0085 S42: 将节点递归正向编码, 同时计算重构之后的偏差, 经过反向传播更新参数集; 0086 S43: 充分训练底层网络, 底层网络的权重和偏移量固定后, 隐藏状态自下而上进 行传播, 依次训练隐藏层, 全面训练编码器; 0087 S44: 在隐藏层的递归自动编码器训练过程中, 图像场景的文本嵌入式向量, 同样 作为节点进行编码; 0088 S45: 将卷积神经网络提取的图像特征分割输入到自动编码器, 经过迭代编码和重 构通过Softmax分类器, 实现图像场景预测。 0089 本实施例中, 一种基于卷积神经网络和递归自动编码器模型的场景识别方法, 。

29、所 说明书 5/6 页 8 CN 110188827 A 8 述步骤S45包括以下步骤: 0090 S451: 设置自动编码器中场景类别的预测函数, 需要满足: 0091 d(yi; )Softmax(Wlabelyi) 0092 其中, Wlabel表示具有监督性质的标签矩阵, 在多个标签K的情况下, 则有d1; 0093 S452: 将标签tk的预测概率进行交叉验证作为损失函数, 需要满足: 0094 0095 S453: 根据S452设置的自动编码器中损失函数, 将提出的模型中的目标函数设置 如下: 0096 0097 目标函数的梯度下降算法需要满足: 0098 0099 其中公式中的 。

30、表示参数集W(1), b(1), W(1), b(1), Wlabel, L, L表示图像特征表示的 特征空间。 0100 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以 通过计算机程序来指令相关的硬件来完成, 所述的程序可存储于计算机可读取存储介质 中, 该程序在执行时, 可包括如上述各方法的实施例的流程。 其中, 所述的存储介质可为磁 碟、 光盘、 ROM、 RAM等。 0101 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。 本行业的技术 人员应该了解, 本发明不受上述实施例的限制, 上述实施例和说明书中描述的只是说明本 发明的原理, 在不脱离本发明精神和范围的前提下, 本发明还会有各种变化和改进, 这些变 化和改进都落入要求保护的本发明范围内。 本发明要求保护范围由所附的权利要求书及其 等效物界定。 说明书 6/6 页 9 CN 110188827 A 9 图1 图2 说明书附图 1/1 页 10 CN 110188827 A 10 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1