基于稀疏组群结构的图像标注方法 技术领域 本发明涉及一种基于稀疏组群结构的图像标注的方法。 该方法利用稀疏组群结构 进行特征选择, 结合标注单词间的相关性学习来对图像进行标注。
背景技术 随着图像特征提取技术的日益成熟, 可以提取的异构特征越来越多, 它们可以用 来描述图像视觉特征的多个方面, 例如全局特征 ( 颜色、 纹理 ) 和局部特征 (SIFT、 形状上下 文、 GLOH( 梯度位置和方向直方图 ))。虽然可从图像中提取众多异构特征, 但是不同异构特 征有着不同的内在表达能力。也就是说, 若干种类异构特征的组合可充分表达图像某一语 义, 而不是所有异构特征全部组合起来表达图像某一语义, 后者将会引入过多无关特征或 噪音, 影响图像语义的精确表达。
因此, 在图像标注过程中, 对于给定的图像标注单词, 将会只有有限种异构特征可 以用来表达这一标注单词, 对某个图像语义来说, 所选择的异构特征因此往往是比较稀疏
的。 近年来, lasso(least absolution shrinkage and selection operator) 这一思 想被提出, 借助于其所具有的变量选择特性, 一些在 lasso 基础上进行图像特征稀疏性选 择的方法被提出。 但是, 图像的视觉特征具有明显的组群结构, 不同类别的视觉特征具有不 同的视觉特性。如果在图像标注中能够充分利用这种组群结构, 构造相应异构特征的选择 机制, 将会促进图像标注结果的 “可解释性” 。
在传统图像多标注处理过程中, 一般会对每个标注单词构建一个独立的回归模型 而预测标注结果, 这种方法没有考虑到标注单词之间的相关性, 影响了标注结果。 为了将标 注间的相关性考虑进来, 一些算法利用了典型相关分析或者共享结构来更好的学习多标注 间的关联。
发明内容
本发明的目的是克服现有技术的不足, 提供一种基于稀疏组群结构的图像标注方法。 基于稀疏组群结构的图像标注方法包括如下步骤 :
1) 对图像数据集进行特征提取 ;
2) 对每个图像数据集选取 n 个数据作为训练集, 其余作为测试集, 使每个标注单 词都出现在训练集合中 ;
3) 利用稀疏组群结构对图像进行特征选择 ;
4) 利用图像标注单词之间的关系进一步优化标注结果。
所述的对图像数据集进行特征提取的步骤为 :
1) 对图像数据进行特征提取, 特征包括全局特征和局部特征, 全局特征包括颜色、 纹理、 形状, 局部特征包括 SIFT、 形状上下文 ;
2) 将每幅图像用多种异构特征向量的组合来表示, 即, 一幅图像表示为 (xi, C T p yi) ∈ R ×{0, 1} , 其中 xi = (xi1, ..., xip) ∈ R 表示图像的特征向量, p 表示特征维数, yi T C = (yi1, ..., yiC) ∈ {0, 1} 是相应的标注向量, C 表示数据集的标注单词总数, yij = 1 表示 第 i 幅图像有第 j 个标注, 否则, yij = 0, 假设从图像数据中提取 G 类特征, dg 表示第 g 类p特征的维数, g ∈ {1, ..., G}, 那么
图像的特征向量重新表示为所述的利用稀疏组群结构对图像进行特征选择的步骤为 : 1) 对每个标注单词 c(c ∈ {1, ..., C}), 训练回归模型 fc, 训练模型包括一个逻辑 其中 λ 是一个可调节的参 是截距项,损失函数和一个正则化项 : 数,表示对应第 g 类异构特征的参数向量 ;
2) 通 过 迭 代 求 解 上 述 最 优 化 问 题, 得 到 参 数 向 量 β, 图像特征选择结果为 所述的利用图像标注单词之间的关系进一步优化标注结果的步骤为 :
1) 假设给定 n 个有标注单词的图像样例, X = (x1, x2, ..., xn) ∈ Rp×n, Y = (y1, c×n y2, ..., yn) ∈ R , 分别表示图像的特征向量和标注单词向量 ;
2) 运用典型相关分析选择向量 wx 和 wy 使 X 和 Y 之间相关性最大, 即求解以下最 优化问题 :
解得相关向量 wx 和 wy ; 3) 优化的标注结果 , 其中 是前一步通过回归模型解得的, B = T-1DT, T是 D是一个 C×C 的矩阵, 其中的每一行是运用典型相关分析得到的典型相关坐标, 即一个 C×C 的对角矩阵 D = diag(d1, d2, ..., dC), 其对角线上的元素通过典型相关分析以后 的 X 和 Y 的协方差得到 :
其中k = 1, 2, ..., C, γ = p/n。本发明利用稀疏组群结构进行特征选择, 结合标注单词间的相关性学习来对图像 进行标注, 可以取得比传统的标注方法更准确的标注结果。 附图说明
图 1 是基于稀疏组群结构的图像标注方法流程图 ; 图 2 是举例本发明的 5 幅图像标注结果。具体实施方式
基于稀疏组群结构的图像标注方法包括如下步骤 :
1) 对图像数据集进行特征提取 ;
2) 对每个图像数据集选取 n 个数据作为训练集, 其余作为测试集, 使每个标注单 词都出现在训练集合中 ;
3) 利用稀疏组群结构对图像进行特征选择 ;
4) 利用图像标注单词之间的关系进一步优化标注结果。
所述的对图像数据集进行特征提取的步骤为 :
1) 对图像数据进行特征提取, 特征包括全局特征和局部特征, 全局特征包括颜色、 纹理、 形状, 局部特征包括 SIFT、 形状上下文 ;
2) 将每幅图像用多种异构特征向量的组合来表示, 即, 一幅图像表示为 (xi, p C T p yi) ∈ R ×{0, 1} , 其中 xi = (xi1, ..., xip) ∈ R 表示图像的特征向量, p 表示特征维数, yi T C = (yi1, ..., yiC) ∈ {0, 1} 是相应的标注向量, C 表示数据集的标注单词总数, yij = 1 表示 第 i 幅图像有第 j 个标注, 否则, yij = 0, 假设从图像数据中提取 G 类特征, dg 表示第 g 类 特征的维数, g ∈ {1, ..., G}, 那么
图像的特征向量重新表示为所述的利用稀疏组群结构对图像进行特征选择的步骤为 : 1) 对每个标注单词 c(c ∈ {1, ..., C}), 训练回归模型 fc, 训练模型包括一个逻辑 其中 λ 是一个可调节的参 是截距项,损失函数和一个正则化项 : 数,表示对应第 g 类异构特征的参数向量 ;
2) 通 过 迭 代 求 解 上 述 最 优 化 问 题, 得 到 参 数 向 量 β, 图像特征选择结果为 所述的利用图像标注单词之间的关系进一步优化标注结果的步骤为 :
1) 假设给定 n 个有标注单词的图像样例, X = (x1, x2, ..., xn) ∈ Rp×n, Y = (y1, c×n y2, ..., yn) ∈ R , 分别表示图像的特征向量和标注单词向量 ;
2) 运用典型相关分析选择向量 wx 和 wy 使 X 和 Y 之间相关性最大, 即求解以下最 优化问题 :
解得相关向量 wx 和 wy ; 3) 优化的标注结果 , 其中 是前一步通过回归模型解得的, B = T-1DT, T是 D是一个 C×C 的矩阵, 其中的每一行是运用典型相关分析得到的典型相关坐标, 即一个 C×C 的对角矩阵 D = diag(d1, d2, ..., dC), 其对角线上的元素通过典型相关分析以后 的 X 和 Y 的协方差得到 :
其中k = 1, 2, ..., C, γ = p/n。实施例 :
基于稀疏组群结构的图像标注方法包括如下步骤 :
1) 对图像数据进行特征提取, 包括全局特征和局部特征, 全剧特征有颜色直方图、 颜色矩、 颜色相关图、 小波变换, 局部特征有 SIFT、 形状上下文 ;
2) 将每幅图像用提取出的多种异构特征向量的组合来表示。即, 一幅图像 i 表 p C T p 示为 (xi, yi) ∈ R ×{0, 1} , 其中 xi = (xi1, ..., xip) ∈ R 表示图像的特征向量, p 表示特 T C 征维数, yi = (yi1, ..., yiC) ∈ {0, 1} 是相应的标注单词向量, C 表示数据集的标注单词 总数, yij = 1 表示第 i 幅图像具有第 j 个标注, 否则, yij = 0。假设图像有 G 类特征表示, dg 表示第 g 类特征的维数, g ∈ {1, ..., G}, 那么 即 G 类特征向量的组合。 3) 对每个图像数据集, 随机选取 n 幅图像作为训练集, 其余作为测试集 ; 保证选取 的训练集中, 所有标注单词都至少出现一次, 即这 n 个数据要包括所有的 C 个标注单词, 否 则重新选取。
4) 给定 n 个图像训练数据 {(xi, yi) ∈ Rp×{0, 1}C : i = 1, 2, ..., n}, 对每个标注 单词 c(c ∈ {1, ..., C}), 训练回归模型 fc, 训练模型包括一个逻辑损失函数 ( 度量模型和 数据间的拟合优度 ) 和一个正则化项 ( 增强组群结构的效应 ) :
图像 i 的特征向量重新表示为
其中 λ 是一个可调节的参数, 是截距项, 表示对应第 g 类异构特征的参数向 中的系数全为 0 或者全为非 0 值。因此, 对每个 能够确定哪些量。(1) 式中的 l2 范数使得 标注单词 c 训练模型 fc 得到的参数向量异构特征的组群被选择作为标注单词 c 的最适合特征。
5) 为了求解参数向量 β, 即求解 (1) 式的最优化问题, 使用分块坐标下降法, 算法 描述如下 :
步骤 1 : 初始化 βc ∈ Rp+1 ;
7步骤 2 : 步骤 3 : For g = 1, ..., G102375855 A CN 102375862
说明书5/6 页elseend end 步骤 4 : 重复步骤 2-3 直到收敛 ; 步骤 5 : 预测值 步骤 4 中, 用 表示把 设为 0, 其余的 保持不变时的参数向量 βc, 函数 p 表示一个概率模型 : 6) 给定 n 个样例, X = (x1, x2, ..., xn) ∈ Rp×n 和 Y = (y1, y2, ..., yn) ∈ Rc×n 分 别表示 n 幅图像的特征向量和标注单词向量 ;
7) 运用典型相关分析选择向量 wx 和 wy 使 X 和 Y 之间相关性最大, 即求解以下最 优化问题 :
通过缩放 wx 和 wy, (2) 式的优化问题可以转换成一个有约束的最优化问题 :为了解 (4) 式的最优化问题, 构造拉普拉斯方程如下 :上式对 wx 和 wy 求导得 : XYTwy-λxXXTwx = 0 YXTwx-λyYYTwy = 0 (6) 式乘以 减去 (7) 式乘以 得:(6) (7)即 λy = λx, 令 λ = λx = λy, 代入 (6)(7) 式, 解得 :其中 Cxx = XXT, Cxy = XYT, Cyx = YXT, Cyy = YYT。
显然, (8) 式即是一个求解特征根的问题, 这样就可以解得相关向量 wy, 同样方法 可以解得相关向量 wx。
8102375855 A CN 102375862
-1说明书6/6 页8) 进一步优化的标注结果其中 是前一步通过回归模型解得的, B=T DT, T 是一个 C×C 的矩阵, 其中的每一行是运用典型相关分析得到的典型相关坐标, 即 D 是一个 C×C 的对角矩阵 D = diag(d1, d2, ..., dC), 其对角线上的元素通过典型 相关分析以后的 X 和 Y 的协方差得到 :
其中k = 1, 2, ..., C, γ = p/n。图 2 给出了本发明的 5 幅图像标注结果。
从上面的例子可以看到, 与传统的图像标注方法不同的是, 本发明利用了稀疏组 群结构进行特征选择, 并结合标注单词间的相关性学习来对图像进行标注, 取得了比传统 的标注方法更准确的标注结果。