一种高光谱遥感数据多类别监督分类方法 【技术领域】
本发明涉及一种高光谱遥感数据多类别监督分类方法,属于高光谱数据处理方法与应用技术领域,适用于高光谱数据监督分类的理论方法和应用技术研究。
背景技术
高光谱遥感数据监督分类的方法主要包括两大类:基于光谱特征匹配的方法和基于统计分析模型的方法。由于高光谱数据获取过程中,受到大气、地形、光照等条件的影响,使得其获得的地物光谱特征变化较大,因此,基于光谱特征匹配的方法会出现不同地物之间混淆较大、不稳定等问题,使得分类结果精度降低;基于统计分析模型的方法主要是对高光谱数据样本的总体特征进行统计分析,根据样本采样点统计分布特征实现不同地物的分类。但是在统计分析模型建立过程中为了实现精确的分类,需要对样本进行分布假设以及大量的统计参数实现分类建模。
对数(Logistic)两分类模型广泛的应用于医学和生物学,尤其在流行病学得到及其广泛的应用。1989年Hosmer和Lemeshow将Logistic回归模型的响应变量扩展到k(k>2),使得Logistic回归模型成功应用到k(k>2)类别的分类问题。近年来随着遥感技术的发展和数据处理的需求,Logisitc回归模型被引入到遥感图像分类应用中。与高斯分类模型相似,Logistic是监督分类模型,需要训练样本估计模型参数。但在Logistic回归模型中,仅仅需要对影响因变量的因素进行线性关系假设,不需要对图像中样本进行任何分布假设。通常情况下,需要对高光谱数据降维后才能实现Logistic建模,否则将带来庞大的计算负担,但是数据降维方法将在减少数据维数的同时丢失光谱的细节特征,从而导致相似类别的混淆。
【发明内容】
本发明的目的在于克服现有技术的不足,提供一种不需要样本分布假设、参数估计少的高光谱遥感数据多类别监督分类方法。
本发明的技术解决方案为:一种利用分形理论实现较少训练样本条件下的高精度高光谱遥感数据多类别监督分类方法,该方法主要利用分形理论和统计分析模型,通过计算光谱的多重分形谱参数实现Logistic建模,最后利用最大似然估计模型参数估计,从而实现高光谱数据的监督分类。多重分形谱主要通过光谱概率测度计算和配分函数估计得到,并根据多重分形谱的特点选择α*、αmin、αmax、f(αmin)作为Logistic建模参数,从而在有效降低模型估计参数数目的同时增加类间可分性。
本发明一种高光谱遥感数据多类别监督分类方法,其步骤如下:
(1)读入高光谱数据;
(2)确定分类类别数目,并选择训练样本和测试样本;
(3)计算多重分形谱参数;
(4)建立基于多重分形谱参数的对数回归多类别分类模型;
(5)利用极大似然估计进行模型求解;
(6)利用概率最大原则进行分类,并计算分类精度。
其中,步骤(1)中所述的读入高光谱数据为:X=[x1,x2,…,xn]T,n为像元数。
其中,步骤(2)中所述的分类类别数目为J,训练样本和测试样本选择根据参考图像和地面调查确定,且训练样本与测试样本不相同。
其中,步骤(3)中所述的多重分形谱f(α)计算如下:首先计算光谱概率测度:
Pi(δ)=Si(δ)Σi=1N(δ)Si(δ),]]>i=1,2...,N(δ)
式中,N(δ)表示光谱曲线划分为尺寸是δ的一维小盒子的个数,Si(δ)表示盒子尺寸为δ时第i个小盒子内所有光谱波段的辐亮度数值之和;
然后估计配分函数,配分函数χq(δ)为光谱概率测度Pi(δ)的q阶矩:
χq(δ)=Σi=1N(δ)Piq,]]>i=1,2...,N(δ)
式中,q为权重因子,N(δ)为尺度δ下的盒子数目。
再通过光谱概率测度计算与配分函数估计得到的尺度函数τ(q):
log2χq(δi)≈τ(q)log2δi+C(q)
式中τ(q)为尺度函数。
最后,通过勒让德(Legendre)变换f(α)与τ(q)联系起来,并得到如下关系式:
α(q)=dτ(q)dqf(α)=q·α(q)-τ(q)=q·dτ(q)dq-τ(q)]]>
其中,q为权重因子。本发明建模过程中选择的多重分形谱参数为:
[α*,αmin,αmax,f(αmin)]T,其中,α*为多重分形谱f(α)最大值点对应的Holder指数,αmin和αmax表示给定条件下概率奇异性的最小值和最大值,f(αmin)为光谱曲线上Holder指数取最小值的波段子集分形维数。
其中,步骤(4)所述的基于参考类别NC建立的基于多重分形谱参数的对数回归多类别分类模型如下:
log(PjPNC)=βj0+βj1α*+βj2αmin+βj3αmax+βj4f(αmin)Pj=exp(βj0+βj1α*+βj2αmin+βj3αmax+βj4f(αmin))1+Σi=1NC-1exp(βi0+βi1α*+βi2αmin+βi3αmax+βi4f(αmin))]]>
其中,NC为参考类别,J为类别数目,j=1,2,...,J-1,Pj为输入变量属于第j个类别的概率,α*、αmin、αmax、f(αmin)分别为多重分形谱参数,βji为模型待估计参数,j=1,2,...,J-1,i=0,1,...,4。
其中步骤(5)所述的利用极大似然方法进行模型参数估计过程如下:对步骤(4)建立的模型进行极大似然参数估计,采用牛顿-拉斐逊(Newton-Raphson)迭代法解得NC为参考类别的Logistic模型参数的极大似然估计值为β^j=(β^j0,β^j1,β^j2,β^j3,β^j4)]]>,j=1,2,…J-1。
其中,步骤(6)所述的分类准则为概率最大原则,即:
if Pi(x)=max(P1(x),P2(x),…PJ(x))则x∈Gi
x属于第i个类别的概率最大,那么就将其归入类别Gi;分类精度分析采用混淆矩阵和Kappa系数实现。
本发明与现有技术相比的优点在于:克服了传统的基于统计分析模型的高光谱数据监督分类方法参数估计多、样本假设分布等局限,本方法利用多重分形理论和Logsitic模型,实现了高精度的地物类型分类。它具有以下的优点:(1)采用统计分析模型,解决了由于光谱特征匹配高光谱遥感数据监督分类方法受大气、光照、地形等外界影响较大带来的误差增多和可靠性下降等问题;(2)利用Logistic多类别模型进行高光谱数据分类,不需要对样本分布进行假设;(3)引入多重分形理论,建立基于多重分形参数地Logistic多类别分类模型,有效的利用了光谱曲线的差异和细节信息,并降低了模型估计参数数目、提高了类间可分性。
【附图说明】
图1为本发明中多重分形参数α*、αmin、αmax、f(αmin)的定义示意图;
【具体实施方式】
为了更好的说明本发明涉及的高光谱遥感数据多类别监督分类方法,利用PHI航空高光谱数据进行江苏方麓茶场地区农作物精细分类。本发明一种高光谱遥感数据多类别监督分类方法,具体实现步骤如下:
(1)读入高光谱数据:读入方麓茶场推扫高光谱成像仪(PHI)高光谱数据,数据大小为210×150×64,波段区间455~805nm;
(2)确定分类类别数目,并选择训练样本:根据参考图像,分类类别数目为J=6,训练样本和测试样本根据参考图像获得,具体的分类类别、训练样本与测试样本如下表所示;
分类类别、训练样本与测试样本
(3)计算多重分形谱参数:首先计算光谱概率测度:
Pi(δ)=Si(δ)Σi=1N(δ)Si(δ),]]>i=1,2...,N(δ)
式中,N(δ)表示光谱曲线划分为尺寸是δ的一维小盒子的个数,Si(δ)表示盒子尺寸为δ时第i个小盒子内所有光谱波段的辐亮度数值之和;
然后估计配分函数,配分函数χq(δ)为光谱概率测度Pi(δ)的q阶矩:
χq(δ)=Σi=1N(δ)Piq,]]>i=1,2...,N(δ)
式中,q为权重因子,N(δ)为尺度δ下的盒子数目。
再通过光谱概率测度计算与配分函数估计得到的尺度函数τ(q):
log2χq(δi)≈τ(q)log2 δi+C(q)
式中τ(q)为尺度函数。
最后,通过Legendre变换f(α)与τ(q)联系起来,并得到如下关系式:
α(q)=dτ(q)dqf(α)=q·α(q)-τ(q)=q·dτ(q)dq-τ(q)]]>
其中,q为权重因子。本发明建模过程中选择的多重分形谱参数为:
[α*,αmin,αmax,f(αmin)]T,其中,α*为多重分形谱f(α)最大值点对应的Holder指数,αmin和αmax表示给定条件下概率奇异性的最小值和最大值,f(αmin)为光谱曲线上Holder指数取最小值的波段子集分形维数,各参数定义如图1所示;
(4)建立基于多重分形谱参数的Logistic多类别分类模型:以水(W2)P6作为参考类别,得到Logistic分类模型的判别函数如下:
log(P1P6)=β10+β11α*+β12αmin+β13αmax+β14f(αmin)log(P2P6)=β20+β21α*+β22αmin+β23αmax+β24f(αmin)log(P3P6)=β30+β31α*+β32αmin+β33αmax+β34f(αmin)log(P4P6)=β40+β41α*+β42αmin+β43αmax+β44f(αmin)log(P5P6)=β50+β51α*+β52αmin+β53αmax+β54f(αmin)]]>
(5)利用极大似然估计进行模型求解,得到的以水(W2)P6作为参考类别,其余五个类别均具有一套独立的参数,得到Logistic分类模型的判别函数如下:
log(P1P6)=1395.1-979.18a*-619.12amin+87.786amax+131.97f(amin)log(P2P6)=647.53-381.87a*-222.54amin-58.701amax+85.502f(amin)log(P3P6)=-17082+16677a*+960.82amin-1377.1amax+46.077f(amin)log(P4P6)=-682.83+1110.3a*-64.418amin-391.78amax+59.898f(amin)log(P5P6)=-17269+17419a*+277.23amin-1541.3amax+281.89f(amin)]]>
(6)利用概率最大原则进行分类,并计算分类精度:分类准则为概率最大原则,即if Pi(x)=max(P1(x),P2(x),…PJ(x))则x∈Gi,x属于第i个类别的概率最大,那么就将其归入类别Gi;分类精度分析采用混淆矩阵和Kappa系数实现,如下表所示分类精度。
多重分形参数Logisitc分类模型对测试样本分类混淆矩阵
从利用本发明方法得到的分类结果可以看出:总体分类精度达到98.506%,主要原因是经过多重分形参数的计算,类别间的差别较明显。水稻(C4)、茶(T7)、红薯(V2)、及水(W2)光谱可分性较高,基于多重分形参数的Logistic监督分类精度都在95%以上;对于较难区分的竹(T6)与香菜(V13),通过提取光谱曲线的多重分形参数,有效的提高了地物间的可分性,建立的基于多重分形参数的Logistic监督分类方法对竹(T6)和香菜(V13)的分类精度分别达94%与98%;多重分形谱参数的kappa系数为0.981,分类结果的一致较高。