一种基于生成图像标注库的图像自动标注的方法.pdf

摘要
申请专利号：	CN201611004682.9	申请日：	2016.11.15
公开号：	CN106599051A	公开日：	2017.04.26
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20161115\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	北京航空航天大学
发明人：	牛建伟; 马骏; 郑世超
地址：	100191 北京市海淀区学院路37号
优先权：
专利代理机构：	北京永创新实专利事务所 11121	代理人：	赵文颖
PDF下载：	PDF下载

内容摘要

本发明公开了一种基于生成图像标注库的图像自动标注的方法，主要包括三个过程：(1)建立并改善自动标注的基准图像标注库；(2)利用提取的图像特征信息，构建图像近邻传播模型(3)在图像近邻传播模型的框架下，对未标注图像进行图像标签推断。本发明可以在一般图像原始标注库的基础上，减少甚至避免图像弱标签性，自动填补缺失标签，过滤明显噪声标签；增加图像标签权重，使图像标签在进行近邻传播时，更加有层次和目标性，增加图像标签传递的准确性。

权利要求书

1.一种基于生成图像标注库的图像自动标注的方法，包括以下几个步骤：
步骤1：图像标签库的构建；
图像标签库由图像库，对应的标签标注矩阵以及标签列表构成，标签列表包含所有用
于图像标注的标签，标签标注矩阵由所有图像对应的标注向量构成，图像的标注向量0,1
串，标明图像是否存在标签列表对应的标签，如存在则为1，不存在则为0；
令原始图像标签库为{(x1,y1),...,(xl,yl)}，(xi，yi)表示第i个带有标签的图像，xi为
图像i的视觉特征向量，yi为图像i的标签向量，标签列表为C＝{c1,c2,...,cq}，代表所有在
图像标签库中出现过的标签；标签向量集合构成标签矩阵Y0＝[y1,y2,...,yl]，处理后的标
签矩阵为Y＝[y1′,y2′,...,yl′]；令R为标签相关矩阵，Ri,j表示标签ci与标签cj之间的相关
性,其中oi表示标注库中标签ci的频数，Coli,j表示标签ci与cj的共现，
标签ci与cj的共现指的是标签ci与cj同时对一幅图像进行标注；
设误差函数为E＝E1+αE2+βE3，dij表示图像i与图像j之间的
距离，表示所有图像之间距离的和，s表示此图像标注库所有含有的标签列表
中标签的个数，也即此图像标注库共有多少个不重复的标签；E1表示期望标签矩阵和样本
的视觉相似性之间的差异性；E2＝||YTY-R||2，Y为处理后的标签矩阵，E3＝||Y-Y0||2，Y为处
理后的标签标注矩阵，Y0为初始的标签标注矩阵；
优化目标为min{E1+αE2+βE3}，α和β均为非负整数，求解出近似的最优解，最优解即处理
过后的最优图像标签库；
针对一个标注集为T＝{T1,T2,...,Tn}的图像，首先对其进行图像分割，得到m个图像
块，再从该标注集T中为每个图像块确定一个最佳标注，最后合并具有相同标注的相邻区
域，从而实现了为图像进行区域标注的目的；计算分割之后每一个标签对应的图像块面积，
得到面积序列为S＝{S1,S2,...,Sn}，将图像的长宽分别进行8等分分割，每一层的权重由内
置外依次递减，最外层的权重每分割为1，依次为1,2,4,8，一共四层；计算标注区域对应的
图像权重块，如果图像区域与图像块有交集，则对应图像块总权重增加对应分割块的权重，
得到权重序列W＝{W1,W2,...,Wn}；对应的标签权重计算公式为：
最终的图像标注库中图像标签矩阵中每一个图像的标签向量为标签权重；
步骤2：基于距离的最近邻传播模型的构建；
提取图像的多维特征，包括图像颜色特征，图像纹理特征，图像局部兴趣点特征，图像
特征分多个维度计算其距离；
其中，图像颜色特征包括颜色矩和颜色聚合向量，采用YUV颜色空间进行颜色特征提
取；
颜色矩采集包括一阶矩、二阶矩和三阶矩：
一阶矩：
二阶矩：
三阶矩：
其中，pi,j表示彩色图像第i个颜色通道分量中灰度为j的像素出现的概率，N表示图像
中的像素个数，μi为图像第i个颜色通道分量的平均值，或者简单说即一阶矩；
图像的3个分量Y，U，V的前三阶颜色矩组成一个9维直方图向量，即图像的颜色特征：
Fcolor＝[μY,σY,sY,μU,σU,sU,μV,σV,sV]，其中字母μ，σ和s分别代表一阶矩，二阶矩和三阶矩，
下标Y，U和V分别代表图像的三个分量，组合起来为颜色分量对应的颜色矩；
颜色聚合向量：将直方图的每一个纵向条纹bin的像素分为两部分，如果该bin内的某
些像素所占据的连续区域的面积大于给定的阈值，则该区域内的像素作为聚合像素，否则
作为非聚合像素，将每一个bin分为颜色聚合向量和颜色非聚合向量；
图像的纹理特征采用基于Gabor小波的纹理特征；
最后，图像特征还包含SIFT算子提取的图像特征点特征；
提取图像各项特征之后，构建基于距离的最近邻传播模型，其近邻被定义为融合多维
图像特征的图像距离与目标图像最为接近的若干张图像，其距离权重w被定义为：
$<mrow> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>d</mi> <mi>θ</mi> </msub> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mrow> <mi>Σ</mi> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>d</mi> <mi>θ</mi> </msub> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mfrac> </mrow>$
其中，j为训练集中的图片，d为各种距离加权和，dθ(i,j)＝θTdij，d是一个维度的距离，θ
是权值矩阵；dθ(i,j)是多维距离的线性组合，其中核心参数是权值矩阵θ的计算，通过使用
TagProp模型进行学习，学习的结果是得到权值矩阵θ；
步骤3：对未标注图像进行标签概率计算；
计算待标注的图像i对应的标签y存在的概率p(yi)：
$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>σ</mi> <mrow> <mo>(</mo> <mi>α</mi> <munder> <mo>Σ</mo> <mi>j</mi> </munder> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>·</mo> <mi>v</mi> <mrow> <mo>(</mo> <mrow> <mi>j</mi> <mo>,</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mi>β</mi> <mo>)</mo> </mrow> </mrow>$
其中，σ(z)＝(1+exp(-z))-1，其作为概率计算结果——的一个平滑
处理，wij表示图像i和j在图像集中的距离权重，v(j,yj)代表在图像j中，标签y的权重，α,β
是公式中的一组调和参数，作为不同训练集调优的一个设置，对于一幅图像，通过标签推断
公式计算得出的不同概率的若干标签，取概率最大的前五个标签为此幅图像的标签。

说明书

一种基于生成图像标注库的图像自动标注的方法

技术领域

本发明涉及一种基于生成图像标注库的图像自动标注方法，属于数字图像处理技
术领域。

背景技术

目前，随着网络时代的发展，信息量呈爆炸趋势增长，每天都有海量图片产生出
来。如何有效的管理这些图片，查找符合自己需求的目标图片成了急需解决的问题。目前，
主流的做法是给这些图片加上合适的语义标签，以供用户进行管理和检索。由于图像数据
的庞大性，提高图像语义自动标注的丰富度和准确性都十分迫切。

在此之前，对于固定的图像库标注的方法中，主要采用概率模型，计算对应图像特
征的标签最大可能性，但是由于模型参数的复杂度有限，并不能准确描述图像特征和标签
之间的关系，这种概率模型可能不是最好的模型。另外，如果过分追求训练模型的复杂度和
参数调整，又会出现过拟合现象，使模型的适用性十分低。

发明内容

本发明的目的是为了解决对大量图像进行计算机自动标注的问题，通过构建相关
的图像标注库，训练标注模型，提出了一种基于图像近邻传播的一种图像自动标注算法，该
方法是在一个良好的图像标注库的构建基础上，通过近邻传播对未标注图像的标签推断，
完成图像的自动标注。

本发明方法包含了图像标签库构建、图像近邻传播模型学习和图像标签概率计算
三个过程，图像标签库构建主要对初始图像标签库进行优化处理，补充图像缺失标签，增加
图像标签等级，过滤错误标签；图像近邻传播模型的学习构建，主要采用机器学习的方法，
在采集图像颜色特征、纹理特征以及局部兴趣点特征等多种图像特征的基础上，对训练集
图像进行距离学习，得到一个可以计算图像近邻图像的模型；图像标签推断是通过图像近
邻传播模型的计算，得到与未标注图像最相似的图像标注库中的图像，通过相关公式完成
图像标签推断。

一种图像自动标注方法，包括以下几个步骤：

步骤1：图像标签库的构建。

首先要构建一个图像标签库，作为后续图像自动标注的基础。图像标签库由图像
库，对应的标签标注矩阵以及标签列表构成。标签列表包含所有用于图像标注的标签。标签
标注矩阵由所有图像对应的标注向量构成，图像的标注向量为一个0,1串，标明图像是否存
在标签列表对应的标签，如存在则为1，不存在则为0。例如，如果标签集为{sea,tree,sun,
plane,sand}({海洋，树，太阳，飞机，沙子})，那么一幅拥有海洋和落日的图像的标注向量
为{1,0,1,0,0}。

原始图像标签库由人工手动标注，每幅图像含有3-5个图像标签，图像标签为对应
图像所包含的图像元素，相关场景以及与图像主体相关的信息。但是由于图像人工标注是
一件极其繁琐、费力的工作，人工标注给出的标签存在标签不完整以及不正确等弱标签情
况，为了改善这种情况，针对图像标签库做进一步处理。

令原始图像标签库为{(x1,y1),...,(xl,yl)}，这里(xi，yi)表示第i个带有标签的
图像，其中，xi为图像i的视觉特征向量，yi为图像i的标签向量，标签列表为C＝{c1,c2,...,
cq}，代表所有在图像标签库中出现过的标签。标签向量集合构成标签矩阵Y0＝[y1,y2,...,
yl]，处理后(处理的过程就下面将要讲的优化的过程，标签矩阵Y是理想矩阵，假设一个矩
阵Y＝[y′1,y′2,...,y′l]，然后通过计算，计算出这个矩阵，也就是处理得到这个矩阵)的标
签矩阵为Y＝[y′1,y′2,...,y′l]。另外，令R为标签相关矩阵，Ri,j表示标签ci与标签cj之间的
相关性。定义其中oi表示标注库中标签ci的频数，Coli,j表示标签ci与cj
的共现。这里，标签ci与cj的共现指的是标签ci与cj同时对一幅图像进行标注。

定义误差函数为E＝E1+αE2+βE3。首先，由于要保证近邻图像标签的平衡性，所以视
觉特征相似的图像，其对应的图像标签向量也应该相似，因此令
其中，dij表示图像i与图像j之间的距离，表示所有图像之间距离的和，s表示
此图像标注库所有含有的标签列表中标签的个数，也即此图像标注库共有多少个不重复的
标签。E1表示期望标签矩阵和样本的视觉相似性之间的差异性。其次，语义相近的标签，或
者属于同一语义环境的标签，其共现相关性也会较高，例如，一幅描述ice，snow，bear，
white(冰，雪，熊，白色)的图像，标签polar(北极)出现的概率就很大，因为冰雪场景出没白
色熊一般为北极熊。数据集中蕴含的这种语境相关信息应对标签填充起到指导作用，因此
令E2＝||YTY-R||2，其中Y为处理后的标签矩阵，R为上文提到的标签相关矩阵。另外，原始标
签对于期望标签也是有一定的指导意义，所以，令E3＝||Y-Y0||2，其中，Y为处理后的标签标
注矩阵，Y0为初始的标签标注矩阵。

优化目标为min{E1+αE2+βE3}，其中，α和β均为非负整数，根据训练样本的不同进行
调整。通过梯度下降法可以求解出近似的最优解，最优解即处理过后的最优图像标签库。

以上步骤完成之后，得到了一个相比初始图像标注库更加完善的，并剔除部分错
误标签的图像标注库。但是对应的图像标签没有等级或者说权重。为了增加图像标签的等
级，对标注库中的所有图像进行多示例学习，具体过程如图1所示。针对一个标注集为T＝
{T1,T2,...,Tn}的图像，首先对其进行图像分割，得到m个图像块，再从该标注集T中为每个
图像块确定一个最佳标注，最后合并具有相同标注的相邻区域，从而实现了为图像进行区
域标注的目的。计算分割之后每一个标签对应的图像块面积，得到面积序列为S＝{S1,
S2,...,Sn}，将图像的长宽分别进行8等分分割(长的1/8和宽的1/8)，如图2及图3所示，每一
层的权重由内置外依次递减，最外层的权重每分割为1，依次为1,2,4,8，一共四层。计算标
注区域对应的图像权重块，如果图像区域与图像块有交集，则对应图像块总权重增加对应
分割块的权重，得到权重序列W＝{W1,W2,...,Wn}。对应的标签权重计算公式为：
这样做的主要依据是，既考虑到图像标签对应的图像元素面积对于标签权
重的影响，即面积越大标签权重越高，也考虑到图像主题元素对于图像标签权重的影响，即
处于画面中间的图像元素，越有可能是图像的主要元素。

最终的图像标注库中图像标签矩阵中每一个图像的标签向量不再是原始的0,1
串，而是经过多示例学习之后所计算出来的标签权重。例如，如果标签集为{sea,tree,sun,
plane,sand}({海洋，树，太阳，飞机，沙子})，那么一幅拥有海洋和落日的图像的标注向量
为{0.85,0,0.15,0,0}。

步骤2：基于距离的最近邻传播模型的构建；

首先是提取图像的多维特征。

本方法主要使用了包括图像颜色特征，图像纹理特征，图像局部兴趣点特征等图
像特征分多个维度计算其距离。

其中，图像颜色特征主要采用两种颜色特征进行提取计算，包括颜色矩和颜色聚
合向量。本文中主要采用YUV颜色空间进行颜色特征提取，该模型的特点是将亮度和色度分
离开，从而适合于图像处理领域。

颜色矩主要采集包括一阶矩(均值，mean)、二阶矩(方差，variance)和三阶矩(斜
度，skewers)，由于颜色信息主要分布于低阶矩中，所以用一阶矩，二阶矩和三阶矩足以表
达图像的颜色分布，对应的公式如下所示：

一阶矩：

二阶矩：

三阶矩：

其中，pi,j表示彩色图像第i个颜色通道分量中灰度为j的像素出现的概率，N表示
图像中的像素个数，μi为图像第i个颜色通道分量的平均值，或者简单说即一阶矩。

图像的3个分量Y，U，V的前三阶颜色矩组成一个9维直方图向量，即图像的颜色特
征：Fcolor＝[μY,σY,sY,μU,σU,sU,μV,σV,sV]。其中字母μ，σ和s分别代表一阶矩，二阶矩和三阶
矩，下标Y，U和V分别代表图像的三个分量，组合起来就是颜色分量对应的颜色矩。

由于颜色矩无法表达图像色彩的空间位置，所以还采用了另一种颜色特征，即颜
色聚合向量。其核心思想是将属于直方图的每一个纵向条纹(下文称bin)的像素分为两部
分，如果该bin内的某些像素所占据的连续区域的面积大于给定的阈值，则该区域内的像素
作为聚合像素，否则作为非聚合像素，从而将每一个bin分为颜色聚合向量和颜色非聚合向
量。

图像的纹理特征采用基于Gabor小波的纹理特征。Gabor滤波器组在多分辨率方面
十分突出，并已经证明Gabor变换在2D测不准(时间分辨率和频率分辨率是一对矛盾的量)
的情况下，能够得到对信号的频率域和空间域的最优描述。

最后，图像特征还包含SIFT算子提取的图像特征点特征。

提取图像各项特征之后，构建基于距离的最近邻传播模型，其近邻被定义为融合
多维图像特征的图像距离与目标图像最为接近的若干张图像，其距离权重w被定义为：

其中，j为训练集中的图片，d为各种距离加权和。其中，dθ(i,j)＝θTdij，d是一个维
度的距离，θ是权值矩阵。dθ(i,j)是多维距离的线性组合，其中核心参数是权值矩阵θ的计
算。这里主要通过使用TagProp模型进行学习，学习的结果是得到权值矩阵θ，此矩阵描述了
不同特征在计算图像之间距离时的权重，为下一步对未标注图像进行标签推断。

步骤3：对未标注图像进行标签概率计算；

标签推断的核心是基于近邻的标签推断，计算待标注的图像i对应的标签y存在的
概率p(yi)，使用的是如下公式：

其中，σ(z)＝(1+exp(-z))-1，其作用是作为概率计算结果——
的一个平滑处理。其中，wij表示图像i和j在图像集中的距离权重，由步骤二计算所得；v(j,
yj)代表在图像j中，标签y的权重，这个在步骤1中计算得到。α,β是公式中的一组调和参数，
作为不同训练集调优的一个设置。对于一幅图像，通过标签推断公式计算得出的不同概率
的若干标签。取概率最大的前五个标签为此幅图像的标签。

本发明的优点在于：

(1)提出了一种对图像标注库进行处理的方法，可以在一般原始图像标注库的基
础上，减少甚至避免图像弱标签性，自动填补缺失标签，过滤明显噪声标签。

(2)提出了一种增加图像标签权重的算法，使图像标签在进行近邻传播时，更加有
层次和目标性，增加图像标签传递的准确性。

附图说明

图1是标注库中的所有图像进行多示例学习的流程图。

图2是确定图像标签权重时，权重模块分割计算示意图。

图3是关于图像标签权重分布的示意图。

图4是标注结果示例，对于此图的标注算法给出的结果是：sky天空，sun太阳，
water水，clouds云，sunset日落。

图5是标注结果示例，对于此图的标注算法给出的结果是：tree树木，forest森林，
tiger老虎，cat猫，bengal孟加拉。

图6是标注结果示例，对于此图的标注算法给出的结果是：grass草，field野外，
horses马，mare母马，foals马驹子。

图7是标注结果示例，对于此图的标注算法给出的结果是：wall墙，cars车，tracks
跑道，formula方程式赛车，turn弯。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提出的图像自动标注算法是针对目前海量图像信息进行的一种高效管理，
索引方式，提供一种计算机自动标注的方法，省去了大量繁琐复杂的人工操作，提高了图像
标注的完整性和准确性。

本发明提出的图像自动标注算法主要包括三个过程：(1)建立并改善自动标注的
基准图像标注库；(2)利用提取的图像特征信息，构建图像近邻传播模型(3)在图像近邻传
播模型的框架下，对未标注图像进行图像标签推断。

步骤1：建立图像标注库。

以通用的图像库Corel5K为例，其作为初始的图像标注库，但是由于其存在前文所
述的诸多缺点，所以进行以下优化处理。

令原始图像标注库为L＝{(x1,y1),...,(xl,yl)}，标签集为C＝{c1,c2,...,cq}，其
中，xi为图像的视觉特征向量，yi为图像的标签向量。标签向量集合构成标签矩阵Y0＝[y1,
y2,...,yl]，处理后的标签矩阵为Y＝[y′1,y′2,...,y′l]。另外，令R为标签相关矩阵，Ri,j表
示标签ci与标签cj之间的相关性。定义其中oi表示标注库中标签ci的频
数，Coli,j表示标签ci与cj的共现。这里，标签ci与cj的共现指的是标签ci与cj同时对一幅图
像进行标注。

定义误差函数为E＝E1+αE2+βE3。首先，由于要保证近邻图像标签的平衡性，所以视
觉特征相似的图像，其对应的图像标签向量也应该相似，因此令
其中，dij表示图像i与图像j之间的距离，表示所有图像之间距离的和。E1表示
期望标签矩阵和样本的视觉相似性之间的差异性。其次，语义相近的标签，或者属于同一语
义环境的标签，其共现相关性也会较高，例如，一幅描述ice，snow，bear的图像，标签polar
出现的概率就很大。数据集中蕴含的这种语境相关信息应对标签填充起到指导作用，因此
令E2＝||YTY-R||2。另外，原始标签对于期望标签也是有一定的指导意义，所以，令E3＝||Y-
Y0||2。优化目标为min{E1+αE2+βE3}，其中，α取0.3，β取0.1。通过梯度下降法可以求解出近似
的最优解。

以上步骤进行完之后，得到了一个相比初始图像标注库，更加完善并剔除部分错
误标签的图像标注库。但是对应的图像标签没有等级或者说权重。为了增加图像标签的等
级，对于标注库中的所有图像进行多示例学习，实现为图像进行区域标注的目的。然后计算
分割之后每一个标签对应的图像块面积，得到面积序列为S＝{S1,S2,...,Sn}，将图像的长
宽分别进行8等分分割(长的1/8和宽的1/8)，如图2及图3所示，每一层的权重由内置外依次
递减，最外层的权重每分割为1，依次为1,2,4,8，一共四层。计算标注区域对应的图像权重
块，如果图像区域与图像块有交集，则对应图像块总权重增加对应分割块的权重，得到权重
序列W＝{W1,W2,...,Wn}。对应的标签权重计算公式为：

步骤2：图像近邻传播模型构建。

首先提取图像的多维特征，包括图像颜色特征，图像纹理特征，图像局部特征和图
像全局特征等图像特征分多个维度计算其距离。

颜色矩主要采集包括一阶矩(均值，mean)、二阶矩(方差，variance)和三阶矩(斜
度，skewers)。

由于颜色矩无法表达图像色彩的空间位置，所以还采用了另一中颜色特征，即颜
色聚合向量。

图像的纹理特征为基于Gabor小波的纹理特征。

最后，图像特征还包含SIFT检测特征算法提取的图像特征点特征。

提取图像各项特征之后，构建基于距离的最近邻传播模型，其近邻被定义为融合
多维图像特征的图像距离与目标图像最为接近若干张图像。其距离权重w被定义为：

其中，j为训练集中的图片，d为各种距离加权和。其中，dθ(i,j)＝θTdij，d是一个维
度的距离，θ是权值矩阵。dθ(i,j)是多维距离的线性组合，其中核心参数是权值矩阵θ的计
算。这里主要通过使用TagProp模型进行学习，实际上就是采用metric learning的方法，在
训练集上计算一个最大化对数似然概率(maximize the log-likelihood)。

步骤3：标签推断；

标签推断核心是基于近邻的标签推断，计算待标注的图像i对应的标签y存在的概
率p(yi)，使用的是如下公式：

为了验证本发明方法的效果性能，对步骤1,2,3中用到的方法进行了实验验证。

实验采用Corel5K作为标准数据集进行对比测试。Corel5K数据集中，图像数量为
5000张，标签数量为260个单词，训练集个数为4500张图像，测试集为500张图像。

使用以上测试集与经典的图像自动标注算法，包括JEC算法，CRM算法，MBRM算法以
及原始TagProp算法进行对比结果如下：

平均查准率(P)
平均召回率(R)
F1scroe
MBRM
0.31
0.33
0.32
JEC
0.27
0.32
0.29
CRM
0.16
0.19
0.17
TagProp
0.31
0.37
0.34
本专利算法
0.33
0.42
0.37