《基于实例的多视角视觉融合转导式零样本分类方法.pdf》由会员分享,可在线阅读,更多相关《基于实例的多视角视觉融合转导式零样本分类方法.pdf(15页珍藏版)》请在专利查询网上搜索。
1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410017127.8(22)申请日 2024.01.05(71)申请人 南京信息工程大学地址 210044 江苏省南京市江北新区宁六路219号(72)发明人 汤龙赵靖涛(74)专利代理机构 南京苏高专利商标事务所(普通合伙)32204专利代理师 柏尚春(51)Int.Cl.G06V 10/764(2022.01)G06V 10/774(2022.01)G06V 10/40(2022.01)(54)发明名称一种基于实例的多视角视觉融合转导式零样本分类方法(57)摘要本发明公开了一种基于实例的。
2、多视角视觉融合转导式零样本分类方法包括:提取已见类图片的多视角视觉特征;将已见类图片的多视角视觉特征和语义属性送入多视角视觉语义映射模型,利用交替方向乘子法学习不同视角上的转换矩阵;利用学习到的转换矩阵预测未见类图片的语义投影;再从语义投影进一步提取未见类图片的最终语义表示并基于此实现对未见类图片的识别;本发明提出采用单一的线性约束实现不同视角上的视觉信息的交互共享,简化了传统多视角信息融合模型的复杂度;同时,为了进一步挖掘在未见类中隐藏的视觉语义关联,提出一种自监督学习策略并利用多视角之间的一致性实现对未见类图片的语义校准,可大幅提升零样本分类的性能。权利要求书4页 说明书9页 附图1页CN。
3、 117541882 A2024.02.09CN 117541882 A1.一种基于实例的多视角视觉融合转导式零样本分类方法,其特征在于,包括以下步骤:(1)提取已见类图片和未见类图片的多视角视觉特征;(2)将已见类图片的多视角视觉特征以及对应的类别语义属性送入多视角视觉语义映射模型,利用交替方向乘子法学习不同视角上的转换矩阵;(3)利用学习到的转换矩阵预测未见类图片的语义投影;(4)根据步骤(3)得到的语义投影进一步提取未见类图片的最终语义并对未见类图片进行识别。2.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法,其特征在于,所述步骤(1)具体如下:使用在ImageNe。
4、t数据库上预先训练的ResNet和GoogLeNet提取视觉特征,分别代表视角A和视角B。3.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法,其特征在于,所述步骤(2)多视角视觉语义映射模型表示为如下优化问题:;约束条件为:;其中,是优化变量矩阵;表示已见类图片第v个视角上的视角特征矩阵,其每一列对应一个已见类图片;表示已见类图片的类别语义属性矩阵,其每一列对应一个已见类图片;表示已见类语义属性均值矩阵,其每一列都为所有已见类语义属性的均值向量;为第v个视角上的视角特征的维度;m为类别语义属性的维度;n为已见类图片数;、均为超参数;V为视角数。4.根据权利要求1所述的一种。
5、基于实例的多视角视觉融合转导式零样本分类方法,其特征在于,所述步骤(2)交替方向乘子法具体如下:初始化:权利要求书1/4 页2CN 117541882 A2,;令迭代次数,确定收敛阈值,和参数,;通过求解以下的方程得到;其中,为交替方向乘子法里面的参数,公式如下:;通过求解以下的优化问题得到,公式如下:;通过求解以下的方程得到,公式如下:;通过下式更新:;通过下式更新:;通过以下公式更新拉格朗日乘子,和:;权利要求书2/4 页3CN 117541882 A3;如果;则收敛;否则,令,继续进行上述更新操作;通过迭代最终得到的转换矩阵为:。5.根据权利要求4所述的一种基于实例的多视角视觉融合转导式。
6、零样本分类方法,其特征在于,步骤(3)得到未见类图片在单个视角上的语义投影为:;其中,表示未见类图片第v个视角上的视角特征矩阵,其每一列对应一个未见类图片;为未见类图片数。6.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法,其特征在于,步骤(4)提取未见类图片的最终语义公式如下:;其 中,为 待 提 取 的 未 见 类 图 片 的 最 终 语 义 表 示,即 优 化 变 量;为对角矩阵;为超参数。7.根据权利要求6所述的一种基于实例的多视角视觉融合转导式零样本分类方法,其特征在于,通过下式计算得到:权利要求书3/4 页4CN 117541882 A4;其中,为分块矩阵,。。
7、8.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法,其特征在于,步骤(4)对未见类图片的识别包括:对未见类图片在各个视角上的最终语义表示进行平均,公式如下:;使用如下公式获取未见类图片的类别标记:;其中,返回表示输入矩阵每一列最大元素的编号向量;为未见类语义属性;为未见类别数;为识别的未见类图片的类别标记。9.一种基于实例的多视角视觉融合转导式零样本识别系统,其特征在于,包括:数据获取模块,用于提取已见类图片和未见类图片的多视角视觉特征;模型学习模块,用于将已见类图片的多视角视觉特征以及对应的类别语义属性送入多视角视觉语义映射模型,利用交替方向乘子法学习不同视角上的转换矩。
8、阵;并利用学习到的转换矩阵预测未见类图片的语义投影;再从语义投影进一步提取未见类图片的最终语义表示;图片识别模块,用于提取到的未见类图片的最终语义表示对它们进行分类。10.一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求18中任一项所述的一种基于实例的多视角视觉融合转导式零样本分类方法。权利要求书4/4 页5CN 117541882 A5一种基于实例的多视角视觉融合转导式零样本分类方法技术领域0001本发明涉及图像识别技术领域,具体涉及一种基于实例的多视角视觉融合转导式零样本分类方法。背景技术0002近年来,。
9、零样本学习(ZSL)受到越来越广泛的关注。与传统的模式识别不同,ZSL能够识别具有训练中未使用的标签的样本。利用类别之间语义属性的内在关联,ZSL通过构建视觉特征与语义属性之间的映射关系对未见类别的样本进行分类。目前大多数ZSL方法仅使用单一的视觉特征表示,然而在很多实际场景中,往往可通过不同的渠道获取多视角的视觉特征表示。对于高分辨率图像,可以使用不同的特征提取器(SIFT、SURF、PHOG、预训练深度网络等)来获取特征。由于不同视角之间的差异性,基于实例的多视角视觉数据可以提供比单一视觉数据更全面的描述,如果利用得当,有望大幅度提高ZSL的性能。发明内容0003发明目的:本发明的目的是提。
10、供一种基于实例的多视角视觉融合转导式零样本分类方法提升零样本分类器的泛化性能,从而实现对未见类图片的更精准的识别。0004技术方案:本发明所述的一种基于实例的多视角视觉融合转导式零样本分类方法,包括以下步骤:(1)提取已见类图片和未见类图片的多视角视觉特征;(2)将已见类图片的多视角视觉特征以及对应的类别语义属性送入多视角视觉语义映射模型,利用交替方向乘子法学习不同视角上的转换矩阵;(3)利用学习到的转换矩阵预测未见类图片的语义投影;(4)根据步骤(3)得到的语义投影进一步提取未见类图片的最终语义并对未见类图片进行识别。0005进一步的,所述步骤(1)具体如下:使用在ImageNet数据库上预。
11、先训练的ResNet和GoogLeNet提取视觉特征,分别代表视角A和视角B。0006进一步的,所述步骤(2)多视角视觉语义映射模型表示为如下优化问题:;约束条件为:说明书1/9 页6CN 117541882 A6;其中,是优化变量矩阵;表示已见类图片第v个视角上的视角特征矩阵,其每一列对应一个已见类图片;表示已见类图片的类别语义属性矩阵,其每一列对应一个已见类图片;表示已见类语义属性均值矩阵,其每一列都为所有已见类语义属性的均值向量;为第v个视角上的视角特征的维度;m为类别语义属性的维度;n为已见类图片数;、均为超参数;V为视角数。0007进一步的,所述步骤(2)交替方向乘子法具体如下:初始。
12、化:,;令迭代次数,确定收敛阈值,和相关参数,;通过求解以下的方程得到;其中,为交替方向乘子法里面的参数,公式如下:;通过求解以下的优化问题得到,公式如下:;说明书2/9 页7CN 117541882 A7通过求解以下的方程得到,公式如下:;通过下式更新:;通过下式更新:;通过以下公式更新拉格朗日乘子,和:;如果;则收敛;否则,令,继续进行上述更新操作;通过迭代最终得到的转换矩阵为:。0008进一步的,步骤(3)得到未见类图片在单个视角上的语义投影为:;其中,表示未见类图片第v个视角上的视角特征矩阵,其每一列对说明书3/9 页8CN 117541882 A8应一个未见类图片;为未见类图片数。0。
13、009进一步的,步骤(4)提取未见类图片的最终语义公式如下:;其 中,为 待 提 取 的 未 见 类 图 片 的 最 终 语 义 表 示,即 优 化 变 量;为对角矩阵;为超参数。0010进一步的,通过下式计算得到:;其中,为分块矩阵,。0011进一步的,步骤(4)对未见类图片的识别包括:对未见类图片在各个视角上的最终语义表示进行平均,公式如下:;使用如下公式获取未见类图片的类别标记:;其 中,返 回表 示输 入 矩阵 每 一 列最大 元素 的 编号 向量;为未见类语义属性;为未见类别数;为识别的未见类图片的类别标记。0012本发明所述的一种基于实例的多视角视觉融合转导式零样本识别系统,包括:。
14、数据获取模块,用于提取已见类图片和未见类图片的多视角视觉特征;模型学习模块,用于将已见类图片的多视角视觉特征以及对应的类别语义属性送入多视角视觉语义映射模型,利用交替方向乘子法学习不同视角上的转换矩阵;并利用学习到的转换矩阵预测未见类图片的语义投影;再从语义投影进一步提取未见类图片的最终语义表示;说明书4/9 页9CN 117541882 A9图片识别模块,用于提取到的未见类图片的最终语义表示对它们进行分类。0013本发明所述的一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现任一项所述的一种基于实例的多视角视觉融合转导式零样本分类方。
15、法。0014有益效果:与现有技术相比,本发明具有如下显著优点:利用多视角视觉特征包含训练样本更丰富、更充分、更全面的信息,有效提升零样本分类器的泛化性能,从而实现对未见类图片的更精准的识别。与已有的零样本学习方法相比,较大程度上提高了对未见类图片的分类准确率,且本方法简单高效,在模式识别、数据挖掘、计算机视觉等相关领域有很好的应用前景。附图说明0015图1为本发明的流程图。实施方式0016下面结合附图对本发明的技术方案作进一步说明。0017如图1所示,本发明实施例提供一种基于实例的多视角视觉融合转导式零样本分类方法,包括以下步骤:(1)提取已见类图片和未见类图片的多视角视觉特征;具体如下:使用。
16、在ImageNet数据库上预先训练的ResNet(fc9层2048维)和GoogLeNet(fc17层1024维)提取视觉特征,分别代表视角A和视角B。0018(2)将已见类图片的多视角视觉特征以及对应的类别语义属性送入多视角视觉语义映射模型,利用交替方向乘子法学习不同视角上的转换矩阵;多视角视觉语义映射模型表示为如下优化问题P1:;约束条件为:;0019其中,说明书5/9 页10CN 117541882 A10,是优化变量矩阵;表示已见类图片第v个视角上的视角特征矩阵,其每一列对应一个已见类图片;表示已见类图片的类别语义属性矩阵,其每一列对应一个已见类图片;表示已见类语义属性均值矩阵,其每一。
17、列都为所有已见类语义属性的均值向量;为第v个视角上的视角特征的维度;m为类别语义属性的维度;n为已见类图片数;、均为超参数;V为视角数。为损失项;为一致性项,使各个视角的预测结果在已见类样本上保持一致,约束1.1是采用单一的线性约束实现不同视角上的视觉信息的交互共享;约束1.21.4用于构建映射中的可重构子空间;约束1.5为非负性约束。问题P1输入的变量是,;求解变量是,。0020针对优化问题P1,采用交替方向乘子法来求解,具体如下:输入训练集数据,;超参数,、;令迭代次数,确定收敛阈值,和相关参数,;初始化:,;令迭代次数,确定收敛阈值,和相关参数,;通过求解以下的方程得到;其中,为交替方向。
18、乘子法里面的参数,公式如下:;通过求解以下的优化问题得到,公式如下:;说明书6/9 页11CN 117541882 A11通过求解以下的方程得到,公式如下:;通过下式更新:;通过下式更新:;通过以下公式更新拉格朗日乘子,和:;如果;则收敛;否则,令,继续进行上述更新操作;通过迭代最终得到的转换矩阵为:。0021(3)利用学习到的转换矩阵预测未见类图片的语义投影;得到未见类图片在单个视角上的语义投影为:说明书7/9 页12CN 117541882 A12;其中,表示未见类图片第v个视角上的视角特征矩阵,其每一列对应一个未见类图片;为未见类图片数。0022(4)根据步骤(3)得到的语义投影进一步提。
19、取未见类图片的最终语义并对未见类图片进行识别。提取未见类图片的最终语义公式如下:;其 中,为 待 提 取 的 未 见 类 图 片 的 最 终 语 义 表 示,即 优 化 变 量;为对角矩阵;为超参数。0023通过下式计算得到:;其中,为分块矩阵,。0024对未见类图片的识别包括:对未见类图片在各个视角上的最终语义表示进行平均,公式如下:;使用如下公式获取未见类图片的类别标记:;其 中,返 回表 示输 入 矩阵 每 一 列最大 元素 的 编号 向量;为未见类语义属性;为未见类别数;为识别的未见类图片的类别标记。0025为了验证本发明所提出方法的效果和性能,本发明采用AwA2、CUB、SUN等三个。
20、经典的零样本分类数据集进行了对比实验。表1列出了若干个现有ZSL方法的未见类识别精度。0026表1 几种方法识别结果对比说明书8/9 页13CN 117541882 A130027从实验结果可以看出,相比于其他方法,本发明提出的基于实例的多视角视觉融合转导式零样本分类方法,能够充分利用不同视角的特征信息,在泛化性能上具有显著的优势,对未见类图片识别的准确率可达到较高的水准。0028本发明实施例还提供一种基于实例的多视角视觉融合转导式零样本识别系统,包括:数据获取模块,用于提取已见类图片和未见类图片的多视角视觉特征;模型学习模块,用于将已见类图片的多视角视觉特征以及对应的类别语义属性送入多视角视觉语义映射模型,利用交替方向乘子法学习不同视角上的转换矩阵;并利用学习到的转换矩阵预测未见类图片的语义投影;再从语义投影进一步提取未见类图片的最终语义表示;图片识别模块,用于提取到的未见类图片的最终语义表示对它们进行分类。0029本发明实施例还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现任一项所述的一种基于实例的多视角视觉融合转导式零样本分类方法。说明书9/9 页14CN 117541882 A14图 1说明书附图1/1 页15CN 117541882 A15。