一种鲁棒直推式标签估计及数据分类方法和系统技术领域
本发明涉及机器学习和模式识别领域,具体涉及一种数据分类方法和系统,尤其
是一种直推式标签估计及数据分类方法和系统。
背景技术
数据分类技术在过去几十年里成为机器学习和计算机视觉中十分流行的研究课
题。近年来,一些基于图像数据的分类系统,例如人脸图像识别、指纹图像识别系统等,已经
投入使用并产生了巨大的社会、经济效益。数据分类方法主要有几何特征识别、基于特征点
识别、神经网络识别和支持向量机识别等。
在实际应用中,无标签的样本数据能比较容易收集到,但是有标签的样本数据相
对是稀缺的,且通过人工来标定数据的过程会耗费大量时和人力,因此基于半监督学习的
数据分类方法具有更高的实用价值与现实意义。在众多半监督学习方法中,标签传播方法
因其具有快速、有效、简单的优点而引起人们的广泛关注。
标签传播于2002年由Zhu等人提出,一经提出即引起国内外学者的广泛关注,并逐
渐被证实为一种简单、快速、扩展性强,性能稳定的算法,其应用遍布多个领域,如社交平台
的社会关系分析、多媒体信息检索分类等。近年,其在图像数据分类方面也表现出优秀的性
能。然而目前大多数直推式标签传播模型主要围绕权重稀疏构造的方面开展研究,具有一
些明显的缺点,即基于弗罗贝尼乌斯范数(Frobeniusnorm)的学习模型对噪声比较敏感,
标签估计的过程容易受到噪声的负面影响,降低了标签估计结果的准确性。
因此,提出一种基于鲁棒l2,1-范数正则化的直推式标签估计方法,提升对噪声的
鲁棒性,增强分类性能,是本领域人员亟待解决的问题。
发明内容
本发明的发明目的是提供一种鲁棒直推式标签估计及数据分类方法,以完善现行
标签传播研究领域一些方法的不足,提高分类过程中对噪声的鲁棒性,降低精度损失等问
题。本发明的另一发明目的是提供一种鲁棒直推式标签估计及数据分类系统。
为达到上述发明目的,本发明采用的技术方案是:一种鲁棒直推式标签估计及数
据分类方法,利用基于l2,1-范数正则化的度量进行数据半监督标签估计的直推式分类,包
括:
(1)利用有标签训练样本和无标签训练样本人工初始化一个类标签矩阵,并通过近邻
搜索过程,完成构造相似近邻图和归一化后的权重系数矩阵,用于表征样本间的近邻特性;
(2)通过平衡近邻重构项和标签拟合项,计算得到未知标签训练样本的软标签矩阵;
其中,基于鲁棒l2,1-范数度量的近邻重构错误,用于定义流形平滑项;对标签拟合项进行
l2,1-范数正则化;
(3)通过迭代计算得到每个未知标签样本数据的软类别标签向量,其中向量元素为未
知标签样本归属各个类别的概率,根据软标签中概率的最大值对应的位置,估计出样本类
别,得到分类结果。
上述技术方案中,步骤(1)用于完成基于l2,1-范数的直推式分类的预处理过程。包
括通过近邻搜索过程,完成构造相似近邻图和归一化后的权重系数矩阵,用于表征样本间
的近邻特性,并人工标定原始标签矩阵Y用于记录初始已知的监督信息。可选地,此部分还
包括必要的数据预处理和参数设置等操作。
进而通过平衡近邻重构项和标签拟合项,进行迭代计算拟合训练软标签;得到所
有无标签训练样本的预测软标签F。
其中,完成基于l2,1-范数的直推式标签估计及其数据分类的预处理过程,包括构
造权重系数矩阵;并人工标定原始标签矩阵Y用于记录初始已知的监督信息,该过程具体
为:
对每个训练样本xi寻找其在训练集中的K个最近邻,构建每个训练样本xi的近邻集N
(xi),其中K=7。任意训练集样本xi和xj间的相似度使用LLE-重构权进行表征,具体如下:
对于给定的一个包含N个样本的数据集,其中包括l个有标签训练样本和u个无标签训
练样本(满足l+u=N),其中无标签样本的类别为类别待估计样本。其中包含有类别标签c(共
c个类别,c>2)的训练样本集和无任何标签的训练样本集
。计算重构系数矩阵时,所述解决以下近邻重构
错误最小化问题:
其中为行和为1约束,为非负约束,即权重稀疏满足该概率定
义。进而,对所述重构系数矩阵进行对称化和归一化处理,得到归一化后的权重系数矩阵,
用于表征样本的近邻特性。
本发明方法为了有效降低近邻重构错误,提出基于鲁棒l2,1-范数度量的近邻重构
错误,用于定义流形平滑项。此外,也对标签拟合项进行了l2,1-范数正则化,提升在度量预
测标签和初始标签之间差异过程中的健壮性。所述解决以下最小化问题:
其中,包含样本xi邻域内的样本点,Wi,j为重构系数,ui是平衡近邻重构项和标
签拟合项之间的正权衡参数,fi为每个样本数据的软类别标签向量,其中,向量中元素为未
知标签样本归属各个类别的概率,概率最大值对应的位置,决定了样本的类别归属。
是基于l2,1-范数度量的重构错误项,是基于l2,1-范
数正则化度量的标签拟合项,yi为每个样本xi的初始标签向量。基于矩阵形式,上述目标函
数可以转化为如下表示:
,
其中,U为对角矩阵,且对角线上的元素为,xi为的调整参数,当训练集中的样本xi的
标签已知时,对应的,反之。V则是以为元素的
对角矩阵,hi则为矩阵FT-YT的第i个行向量。,的主对角线上的所
有元素之和称之为X的迹,记为tr(X),为l2-范数,为l2,1-范数,分别定义如下:
,,,
其中,所述优化得到的软标签矩阵可以对数据有标签训练样本和无标签训练样本进行
直接分类。
本发明方法具体为:
完成基于l2,1-范数的直推式分类的预处理过程,包括使用LLE-重构权构建相似近邻
图,得到归一化的权重系数矩阵;并且人工标记原始标签矩阵Y用于记录初始已知的监督信
息。
建立直推式标签传播模型,包括流行平滑项和标签拟合项,进行迭代拟合训练软
标签;得到所有无标签训练样本的预测软标签F;
最后每个无标签训练样本的硬标签可以被表示为预测软标签列向量最大元素对应的
类别标签。
本发明同时提供了一种鲁棒直推式标签估计及数据分类系统,基于l2,1-范数的直
推式标签估计方法,包括:
训练预处理模块,利用有标签训练样本和无标签训练样本人工初始化一个类标签矩
阵,并通过近邻搜索过程,完成构造相似近邻图和归一化后的权重系数矩阵,用于表征样本
间的近邻特性;
训练模块,基于初始化的所述类标签矩阵和归一化后的权重系数矩阵,通过平衡近邻
重构项和标签拟合项建立直推式标签传播模型;通过迭代优化,得到所有样本数据的软类
别标签预测矩阵F;
确定模块,根据训练模块得到的软类别标签矩阵F,得到每个未知标签样本数据的软类
别标签向量,其中向量中元素为未知标签样本归属各个类别的概率,根据软标签中概率的
最大值对应的位置,估计出样本类别,得到最准确的分类结果。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
本发明通过引入基于l2,1-范数正则化的度量思想,利用标签传播方法对数据进行直推
式分类处理,快速估计出未标定的数据标签。在构建模型框架时,本发明方法为了有效降低
近邻重构错误,提出基于鲁棒l2,1-范数度量的近邻重构错误,用于定义流形平滑项。此外,
也对标签拟合项进行了l2,1-范数正则化,提升在度量预测标签和初始标签之间差异过程中
的健壮性。通过多次迭代,最终得到一个软标签矩阵,最后每个无标签训练样本的硬标签可
以被归结为,表示预测的软标签向量fi第i个元素位置。根据无标签训练样本
集对应的软标签中的最大值得到样本对应的预测类别。通过引入l2,1-范数正则化技术,有
效提升了系统对于噪音的鲁棒性,增强学习性能。
附图说明
图1为本发明实施例公开的一种鲁棒直推式标签估计以及数据分类系统的方法流
程图;
图2为本发明实施例公开的一种鲁棒直推式标签估计以及数据分类系统的结构图;
图3为本发明实施例公开的一种鲁棒直推式标签估计的人脸分类预测示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:一种鲁棒直推式标签估计方法,通过引入基于l2,1-范数正则化度量思想,利
用标签传播方法对数据进行直推式分类处理,快速估计出未标定的数据标签。在构建模型
框架时,为了有效降低近邻重构错误,提出基于鲁棒l2,1-范数度量的近邻重构错误,用于定
义流形平滑项。此外,也对标签拟合项进行了l2,1-范数正则化,提升在度量预测标签和初始
标签之间差异过程中的健壮性。最后每个无标签训练样本的硬标签可以被归结为
,表示预测的软标签向量fi第i个元素位置。根据无标签训练样本集对应的软
标签中的最大值得到样本对应的预测类别。
本发明在四个不同的数据库进行了测试:HP0机器错误数据集,COIL20目标图像数
据集以及ORL和GTF人脸图像数据集,其中COIL20目标图像数据集共有1440个Object目标图
像识别数据集样本;ORL是Face人脸图像识别数据集,包括40人共400幅面部图像,局部志愿
者的图像包括了姿势、表情和面部饰物等改变。GTF脸数据库包含了50个被测试者的750幅
图片(每人15幅图像),并且每张图片具有不同的姿势、光照强度和表情。HP0机器错误数据
集,包含400个样本,其中包含10个类别,每个类别40个样本,这些数据库从多方面收集,因
而测试结果具有普遍说明性。测试表明,本发明的方法有效提升了系统对于噪音的鲁棒性,
增强学习性能。
参见附图1,为本发明实施例公开的一种鲁棒性直推式标签估计及其数据分类方
法流程图。具体实施步骤为:
步骤101:主要使用LLE-重构权构建相似近邻图,权重有效范围设定为K近邻(K=7),对
所述相似度量矩阵进行对称化、归一化处理,得到所述权重系数矩阵。并且人工标记原始标
签矩阵Y用于记录初始已知的监督信息,具体为:
对于给定的一个包含N个图像样本的数据集,其中包括l个有标签训练样本和u个无标
签训练样本(满足l+u=N),其中无标签训练样本的类别为类别待估计样本。然后基于训练集
进行K近邻搜索,找出每个样本在训练集中的K个最近邻样本,计算重构系数矩阵用到了
LLE-重构权的方法,所述解决以下近邻重构错误最小化问题:
其中为行和为1约束,为非负约束,即权重稀疏满足该概率定
义。进而,对所述重构系数矩阵进行对称化和归一化处理,得到归一化后
的权重系数矩阵,用于表征样本的近邻特性。
基于原始标签矩阵,初始化定义一个行、列数分别为c(共c个类别,c>2)和N(训练
样本总数)的矩阵Y(所有元素均初始化为0)来记录所有训练样本的初始化标签信息。对有
标签的训练样本,若样本xj属于第i类,令,其中类别标签i属于集合;对于
所有无标签样本xj,令。故保证Y中所有列的元素之和均为1,表示每个训练样本有且
仅有一个已知的标签。
由此,得到了权重系数矩阵w以及初始类别标签矩阵Y。
步骤102:基于所述初始类别标签矩阵和归一化后的权重系数矩阵,通过平衡近邻
重构项和标签拟合项建立直推式标签传播模型。迭代优化,得到所有样本数据的软类别标
签预测矩阵F,具体如下:
基于步骤101对于给定的一个含有已经标注的数据集合和未标注的数据集合
(其中,n是数据样本的维度,N=l+u是数据样本总数,l为有标签训练
集样本数,u为无标签训练集样本数),其中包含有类别标签的训练样本集
和无任何标签的训练样本集。然后建立
直推式标签传播模型,解决以下最小化问题:
,
其中,包含样本xi邻域内的样本点,Wi,j为重构系数,ui是平衡近邻重构项和标签
拟合项之间的正权衡参数,fi为每个样本数据的软类别标签向量,其中,向量中元素为未知
训练标签样本归属各个类别的概率,概率最大值对应的位置,决定了样本的类别归属。
是基于l2,1-范数度量的重构错误项,是基于l2,1-范
数正则化度量的标签拟合项,yi为每个样本xi的初始类别标签向量。基于矩阵形式,上述目
标函数可以转化为如下表示:
,
其中,U为以为元素的对角矩阵,为调整参数,当训练集中的样本xi的标签为已知
时,对应的,反之。V则是以为元素的对角矩阵,
hi则为矩阵FT-YT的第i个行向量。其中,,的主对角线上的所有元素
之和称之为X的迹,记为tr(X),为l2-范数,为l2,1-范数,分别定义如下:
,,。
在计算时,可以注意到目标函数是凸的,所以可对目标函数求其F的偏导,在导数
等于0处,即为目标函数的极值点。首先有:
对目标函数求F偏导,表示如下:
其中,设,设,ti则为矩阵的第i行向量,Q则是以
为元素的对角矩阵。
最后,因为V和Q都是关于F的函数,所以该方法通过对三个变量相互迭代使目标函
数得到有效解决,最后得出软类别标签矩阵F和预测分类结果。具体所述算法如下:
基于l2,1-范数的直推式标签估计方法及其数据分类算法
输入:原始数据矩阵,训练集标签矩阵。
输出:软标签矩阵、预测矩阵。
初始化:
Para=0,tol=le-5,knn=7,K=4,V=I=G=I,F=Y,maxIter=10,converged=0
while还未收敛时do
固定G和V并更新Fk+1:
固定F并更新Vk+1:
,其中,hi则为矩阵FT-YT的第i个行向量
固定F并更新Qk+1:
,其中,ti则为矩阵FT-WYT的第i行向量;
检查是否收敛:
若则停止;迭代停止的条件为:超过预先设定
的最大迭代次数maxIter,或者计算连续两次迭代得到的矩阵F之间的距离(判断依据为:
所有元素平方和开根号的结果小于规定值tol),若小于预先设定值,则迭代停止。
否则k=k+1
endwhile
其中,U为以为元素的对角矩阵,为调整参数,当训练集中的样本xi的标签为已知
时,对应的,反之。V则是以为元素的对角矩阵,
hi则为矩阵FT-YT的第i个行向量。,设t=FT-WYT,ti则为矩阵FT-WYT的第i行向量,Q则
是以为元素的对角矩阵。
步骤103:对于上述迭代生成的软标签矩阵F,最后每个无标签训练样本的硬标签
可以被归结为,表示预测的软标签向量fi第i个元素位置。根据无标签训练样
本对应的软标签中的最大值,得到无标签训练集样本对应的预测类别。
本发明公开了一种鲁棒直推式标签估计方法及其数据分类系统,为了有效降低近
邻重构错误,提出基于鲁棒l2,1-范数度量的近邻重构错误,用于定义流形平滑项。此外,也
对标签拟合项进行了l2,1-范数正则化,提升在度量预测标签和初始标签之间差异过程中的
健壮性。通过多次迭代,最终得到一个软标签矩阵,最后每个无标签训练样本的硬标签可以
被归结为,表示预测的软标签向量fi第i个元素位置。根据无标签训练样本对
应的软标签中的最大值得到样本对应的预测类别。通过引入基于l2,1-范数正则化度量思
想,提出一种基于鲁棒l2,1-范数正则化的直推式标签估计及其数据分类方法,提升对噪声
的鲁棒性,增强了分类性能。上述本发明公开的实施例中详细描述了方法,对于本发明的方
法可采用多种形式的系统实现,因此本发明还公开了一种系统,下面给出具体的实施例进
行详细说明。
请参阅附图2,为本发明实施例公开的一种鲁棒直推式标签估计方法及其数据分
析系统的系统结构图。本发明公开了一种鲁棒直推式标签估计方法及其数据分析的系统,
该系统具体包括:
训练预处理模块201利用有标签训练样本和无标签训练样本人工初始化一个类标签矩
阵,并通过近邻搜索过程,完成构造相似近邻图和归一化后的权重系数矩阵,用于表征样本
间的近邻特性;另外,可选地,此部分还包括必要的数据预处理和参数设置等操作:
对于给定的一个包含N个数据样本的数据集,其中包括l个有标签样本和u个无标签样
本(满足l+u=N),其中无标签样本的类别为类别待估计样本。然后,基于原始数据集进行K近
邻搜索,即找出每个样本在样本集合中的K个距离最近的样本点,进而采用LLE-重构权的构
造方法,并进行归一化处理后得到重构系数矩阵,用于衡量样本点之间的相似性或近邻特
性。所述解决以下近邻重构错误最小化问题:
其中为行和为1约束,为非负约束,即权重稀疏满足该概率定
义。进而,对所述重构系数矩阵进行对称化和归一化处理,得到归一化后
的权重系数矩阵,用于表征样本的近邻特性。
基于原始数据类别标签,初始化定义一个行、列数分别为c(共c个类别,c>2)和N
(训练样本总数)的矩阵Y(所有元素均初始化为0)来记录所有训练样本的初始化标签信息。
对有标签的训练样本,若样本xj属于第i类,令,其中类别标签i属于集合;对
于所有无标签样本xi,令。故保证Y中所有列的元素之和均为1,表示每个训练样本有
且仅有一个已知的标签。
训练模块202基于所述初始类别矩阵和归一化后的权重系数矩阵,通过平衡近邻
重构项和标签拟合项建立直推式标签传播模型。通过迭代优化,得到所有样本数据的软类
别标签预测矩阵F,具体所述算法如下:
基于l2,1-范数的直推式标签估计方法及其数据分类算法
输入:原始数据矩阵,训练集标签矩阵。
输出:软标签矩阵、预测矩阵。
初始化:
Para=0,tol=le-5,knn=7,K=4,V=I=G=I,F=Y,maxIter=10,converged=0
while还未收敛时do
固定G和V并更新Fk+1:
固定F并更新Vk+1:
,其中,hi则为矩阵FT-YT的第i个行向量
固定F并更新Qk+1:
,其中,ti则为矩阵FT-WYT的第i行向量;
检查是否收敛:
若则停止;迭代停止的条件为:超过预先设定
的最大迭代次数maxIter,或者计算连续两次迭代得到的矩阵F之间的距离(判断依据为:
所有元素平方和开根号的结果小于规定值tol),若小于预先设定值,则迭代停止。
否则k=k+1
endwhile
其中,U为以为元素的对角矩阵,为调整参数,当训练集中的样本xi的标签为已知
时,对应的,反之。V则是以为元素的对角矩阵,
hi则为矩阵FT-YT的第i个行向量。,设t=FT-WYT,ti则为矩阵FT-WYT的第i行向量,Q则
是以为元素的对角矩阵。
确定模块203通过所述模型对软类别标签矩阵F和其他变量的相互迭代得到所有
样本数据的软类别标签矩阵F,最后每个类标签信息未知的样本xnew的类别标签可以被归结
为,fnew为xnew的软标签向量,即根据软标签fnew中类别归属概率的最大值对
应的位置,估计出类标签信息未知的样本类别,完成分类过程。
请参阅表1,为本发明方法和SparseNP(SparseNeighborhoodPropagation)、SLP
(SpecialLabelPropagation)、LNP(LabelNeighborhoodPropagation)、LLGC(Learning
withLocalandGlobalConsistency)、LapLDA(LaplacianLinearDiscriminant
Analysis)以及GFHF(GaussianFieldsandHarmonicFunctions)方法识别结果对比表,
给出了各方法实验的平均和最高识别率。本例中,参与比较的SparseNP、LNP和LapLDA方法
采用各文献中算法使用的默认参数,且分类均采用K-最近邻(K=7)分类器。分别从COIL20目
标图像数据集和HP0机器错误实验训练样本数据集中每类随机选取15个和2个作为已标记
数据,其他未标记数据作为测试集。分别从ORL和GTF人脸图像这两组实验训练样本数据集
中每类随机选取5个和7个作为已标记数据。其他未标记数据作为测试集。
表1.本发明和SparseNP、SLP、LNP、LLGC、LapLDA、GFHF方法识别结果对比
。
请参阅附图2,为本发明实施例公开的一种鲁棒直推式标签估计方法及其数据分
类系统的结构图;
请参阅附图3,为本发明实施例公开的一种鲁棒直推式标签估计方法及其图像分类示
意图。
通过实验结果我们可以看出本发明的数据分类效果明显优于相关的其他几种方
法,且表现出了较强的稳定性,具有一定的优势。
综上所述:本发明公开了一种鲁棒直推式标签估计方法及其数据分类系统,为了
有效降低近邻重构错误,提出基于鲁棒l2,1-范数度量的近邻重构错误,用于定义流形平滑
项。此外,也对标签拟合项进行了l2,1-范数正则化,提升在度量预测标签和初始标签之间差
异过程中的健壮性。通过多次迭代,最终得到一个软标签矩阵,最后每个无标签训练样本的
硬标签可以被归结为,表示预测的软标签向量fi第i个元素位置。根据无标签
训练样本对应的软标签中的最大值得到无标签训练集样本对应的预测类别。通过引入基于
l2,1-范数正则化度量思想,提出一种基于鲁棒l2,1-范数正则化的直推式标签传播方法,使
得对与噪声具有很好的鲁棒性,增强分类性能,有效提高了数据分类的能力。
对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述得比
较简单,相关之处可以参见方法部分说明。