基于综合分层聚类的湖库、流域的水质监测断面优化布设方法.pdf

上传人:小** 文档编号:1900244 上传时间:2018-07-23 格式:PDF 页数:12 大小:688.26KB
返回 下载 相关 举报
摘要
申请专利号:

CN201410806392.0

申请日:

2014.12.22

公开号:

CN104572878A

公开日:

2015.04.29

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20141222|||公开

IPC分类号:

G06F17/30; G06Q10/04(2012.01)I

主分类号:

G06F17/30

申请人:

北京工商大学

发明人:

连晓峰; 王小艺; 彭森

地址:

100048北京市海淀区阜成路33号

优先权:

专利代理机构:

北京永创新实专利事务所11121

代理人:

祗志洁

PDF下载: PDF下载
内容摘要

本发明属于水环境监控与治理领域,公开了一种基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,包括以下步骤:首先根据原始采集的水质监测数据建立标准化矩阵,通过5种距离算法计算监测数据变量之间的相似性以获得变量之间的亲疏关系,接着通过4种连接算法以实现对数据集合的自动聚类;然后以加权重的皮尔逊相关系数为判定准则来选择最优组合以进行分层聚类,最后通过生成的相应最优聚类树矩阵,来优化设置断面监测站点,从而可获得反映水域整体水质的监测数据,以提高水环境的监测质量。本方法方便简捷、结果直观、具有很高的可行性。

权利要求书

权利要求书
1.  一种基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,其特征在于,包括以下步骤:
步骤1:通过监测采集不同断面的水质指标,建立原始数据矩阵Z,将矩阵Z标准化处理后得到矩阵X;矩阵Z为m×n的矩阵,其中m为监测断面个数,n为每个监测断面的水质指标个数;
步骤2:将监测断面的水质指标作为变量,对应为矩阵X的列向量,采用五种距离度量方法得出各变量之间的相似性;所述的距离度量方法包括:欧氏距离、标准欧氏距离、马氏距离、布洛克距离以及切比雪夫距离;
步骤3:根据变量间的亲疏关系,采用四种连接方法对变量进行聚类;所述的连接方法包括:最短距离法、最长距离法、平均距离法和质心距离法;
步骤4:确定连接方法与距离度量方法的相关系数,选取相关系数最大情况下的距离度量方法与连接方法,根据相关系数最大情况下的聚类来优化水质监测断面的布设;
设a=1,2,3,4,5分别代表五种距离度量方法,b=1,2,3,4分别代表四种连接方法;
对于某种连接方法与距离度量方法的相关系数cab为:
cab=Σi<jα(daij-da&OverBar;)β(Dbij-Db&OverBar;)Σi<j(daij-da&OverBar;)2Σi<j(Dbij-Db&OverBar;)2,a&Element;[1,2,3,4,5],b&Element;[1,2,3,4]]]>
其中,i和j分别指代矩阵X中第i个变量与第j个变量,daij表示第a种距离度量方法计算两个变量之间的距离,Dbij表示第b种连接方法计算的两个变量之间的距离,和分别是向量daij和Dbij中的平均值;
α和β为权重系数,α=daijda&OverBar;,β=DbijDb&OverBar;.]]>

2.  根据权利要求1所述的湖库、流域的水质监测断面优化布设方法,其特征在于,所述的步骤1中运用平均绝对偏差进行标准化处理,具体方法为:设z1k,z2k,…,zmk为水质指标fk的m个度量值,k=1,2,…,n;
1)计算水质指标fk的所有度量值的绝对偏差的平均值
d&OverBar;=1m(|z1k-z&OverBar;k|+|z2k-z&OverBar;k|+...+|zmk-z&OverBar;k|)]]>
其中,为fk的m个度量值的平均值,z&OverBar;k=1m(z1k+z2k+...+zmk);]]>
2)水质指标fk的第i个度量值zik归一化得到的标准值xik为:

说明书

说明书基于综合分层聚类的湖库、流域的水质监测断面优化布设方法
技术领域
本发明属于水环境监测与治理技术领域,涉及一种基于综合分层聚类的湖库、流域的水质监测断面优化布设方法。
背景技术
近年来,在水环境监测与治理技术领域,如何对水质监测断面进行优化布设受到研究人员的广泛关注。传统的湖库断面监测是按照水体区域大小以平均分布的原则进行布设,即将湖库水域平均分割为固定大小(通常为2平方公里)的网格,并在每个网格的中心位置布测点。这种方法虽然简单易行,但往往会导致相邻断面出现水质监测结果相近,造成监测资源浪费。由于自然环境和社会环境的变化,地表水环境的分布规律也并不是一成不变的,因此需要对水环境检测的断面进行不断优化。水质监测的断面优化,即用最少的测点获得最具有空间代表性的监测数据,充分说明环境质量的状况和变化。通过断面优化,可以有效整合水环境监测资源,减少重复投资和建设,最大程度地客观反映出水环境整体质量状况,实现更加有效的水环境监测。
聚类分析是数理统计研究中研究“物以类聚”的一种多元分析方法,即用数理定量地确定样品之间的亲疏关系。近年来,已有很多研究学者将这种模糊数学方法引入到水环境灰色系统中,以更加准确地进行对不同断面的水质分型划类。1993年,王建珊等人采用模糊数学“最大树”聚类分析法,对秦淮河水系的监测点位进行了优化调整,经检验,优化后的监测点位不仅保留原有功能,而且能够较好反映秦淮河水质情况。梁伟臻等人于2002年采用模糊数学中的聚类原理,以广州市某河涌为例对水质监测站点进行优化。马飞等人于2006年采用模糊数学中的聚类原理对南运河进行了水质监测断面优化设置,经验证,该方法不仅能够全面控制南运河水质变化动态,同时能够减少监测工作量,节约人力物力。聚类分析在样本数量较少的情况下比较简单,无需复杂编程,逐渐被应用于国内外地表水环境监测点位优化。
目前广泛应用的聚类方法为分层聚类法,即通过计算距离得到数据集合中变量两两之间的相似性和非相似性,进而再通过定义变量之间的连接,对所得聚类信息进行评价,最终创建聚类,并实现以图形化显示聚类分析结果。但其缺点在于距离度量方法和连接方法的选择上较单一,对于不同水域不同的数据特征,无法自适应选择最佳方法以获取效果最好的水质监测断面优化布设。
发明内容
本发明提出一种基于综合分层聚类(CHC)的湖库、流域的水质监测断面优化布设方法。可针对不同水域,自适应地选择分层聚类法中的距离方法和连接方法,从而提高综合分层聚类的结果准确度,以获取效果更佳的水质监测断面优化设置,实验结果表明本发明采用的综 合分层聚类方法在实际应用当中更加合理有效,可更好地对水域进行水质监控提供合理、有效的数据支持。
本发明提供的基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,包括如下步骤:
步骤1:通过监测采集不同断面的水质指标,建立原始数据矩阵Z,Z为m×n的矩阵,其中m为监测断面个数,n为每个监测断面的水质指标个数将矩阵Z标准化后得到矩阵X;
步骤2:将监测断面的水质指标作为变量,对应为矩阵X的列向量,采用五种距离度量方法得出各变量之间的相似性;所述的距离度量方法包括:欧氏距离、标准欧氏距离、马氏距离、布洛克距离以及切比雪夫距离;
步骤3:根据变量间的亲疏关系,采用四种连接方法对变量进行聚类;所述的连接方法包括:最短距离法、最长距离法、平均距离法和质心距离法;
步骤4:确定连接方法与距离度量方法的相关系数,选取相关系数最大情况下的距离度量方法与连接方法,根据相关系数最大情况下的聚类来优化水质监测断面的布设。
设a=1,2,3,4,5分别代表五种距离度量方法,b=1,2,3,4分别代表四种连接方法。
对于某种连接方法与距离度量方法的相关系数cab为:
cab=Σi<jα(daij-da&OverBar;)β(Dbij-Db&OverBar;)Σi<j(daij-da&OverBar;)2Σi<j(Dbij-Db&OverBar;)2,a&Element;[1,2,3,4,5],b&Element;[1,2,3,4]]]>
其中,i和j分别指代矩阵X中第i个变量与第j个变量,daij表示第a种距离度量方法计算两个变量之间的距离,Dbij表示第b种连接方法计算的两个变量之间的距离,和分别是向量daij和Dbij中的平均值。
α和β为权重系数,其中
与现有技术相比,本发明的有益效果是:
(1)本发明提供的基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,利用五种距离度量方法和四种连接方法,除默认欧氏距离和最小距离法外,距离度量方法还包括有标准欧式距离,马氏距离,布洛克距离以及切比雪夫距离,此外,连接方法还包括有最长距离,平均距离以及质心距离,这样有效避免了单一方法的局限性,能自适应选择更好的聚类结果来优化水质监测断面布设。
(2)本发明提供的基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,以加权的皮尔逊相关系数作为判定准则,即检验某种距离度量方法与某种连接方法所产生的聚类树和实际情况的相符程度,以此来针对不同的水域水质特征,选取相关性最高的一组距离度量方法与连接方法进行聚类进而对监测断面进行优化分析。通过实验验证表明,采用本发明提供的相关系数来判断符合程度,所选的聚类结果更优,可更好的优化水质监测断面布设。
附图说明
图1为本发明的基于CHC的湖库、流域的水质监测断面优化布设方法的流程示意图;
图2为默认聚类方法和本发明CHC方法相关系数对比
图3为采用本发明方法生成的聚类树的示意图;(a)~(e)分别对应实施例中五个水域。
具体实施方式
下面结合附图和实施例来说明本发明的技术方案。本发明采用综合分层聚类,通过相关系数作为判别指标,从5种距离方法和4种连接方法当中选取最优组合,解决了传统聚类法在距离方法和连接方法唯一的局限性,可针对不同水域不同的数据特征进行适应性选择,实现对水质监测断面的优化布设。
本发明是关于一种基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,如图1所示,具体包括如下步骤:
步骤1:建立原始矩阵并进行标准化处理。
由水质监测所得不同断面的水质指标,建立原始数据矩阵Z,Z为m行n列的矩阵,其中m为监测断面个数,n为每个监测断面的水质指标个数。
对原始数据矩阵进行标准化得到标准化矩阵。因为各水质指标的量纲不同,为了能够将指标参与后面的计算,需要对由各监测断面水质指标值组成的原始数据矩阵进行标准化,通过函数变换将其数值映射到某个数值区间。
对于第k个水质指标fk的度量值(k=1,2,…,n),进行标准化的方法如下:
1)计算该水质指标的所有度量值的绝对偏差的平均值
d&OverBar;=1m(|z1k-z&OverBar;k|+|z2k-z&OverBar;k|+...+|zmk-z&OverBar;k)]]>
其中,z1k,z2k,…,zmk为水质指标fk的m个度量值,为矩阵Z中的第k列元素值,为fk的m个度量值的平均值,即
z&OverBar;k=1m(z1k+z2k+...+zmk)]]>
2)对该水质指标的所有度量值进行归一化,水质指标fk的第i个度量值zik归一化得到的标准值xik可由以下公式求得:
xik=zik-z&OverBar;kd&OverBar;]]>
通过上面标准化处理,得到标准化矩阵X。对于孤立点,运用平均绝对偏差比标准差具有更好的鲁棒性。
步骤2:计算各监测断面的水质指标之间的相似性。将各监测断面的水质指标作为变量,通过距离度量方法来计算其相似性。
距离度量方法除了常用的欧氏距离,还有标准欧氏距离、马氏距离、布洛克距离、以及 切比雪夫距离。
(2.1)欧式距离。 
基于各变量间的距离来计算相似度通常采用欧氏距离进行计算。
d1ij=Σk=1n(xik-xjk)2]]>
其中(xi1,xi2,...,xin)和(xj1,xj2,...,xjn)分别为第i个和第j个监测断面的水质指标,均为n维的数据对象,为矩阵X中的第i行和第j行元素值,d1ij表示第i个和第j个监测断面的水质指标的欧式距离。但欧氏距离的缺点是将样品不同属性之间的差别等同看待,在某些情况下,不能满足实际需求。
(2.2)标准欧式距离。
d2ij=Σk=1n(xik-xjksk)2]]>
其中sk为第k个水质指标的标准差,如果将方差的倒数看成是一个权重,上式可看作是一种加权欧式距离。d2ij表示第i个和第j个监测断面的水质指标的标准欧式距离。
(2.3)马氏距离。 
d3ij=(Xi-Xj)′S-1(Xi-Xj) 
其中,Xi=(xi1,xi2,...,xin),Xj=(xj1,xj2,...,xjn),S是Xi和Xj的协方差矩阵。d3ij表示第i个和第j个监测断面的水质指标的马氏距离。马氏距离不受量纲影响,两点之间的马氏距离与原始数据的测量单位无关,还可以排除变量之间的相关性的干扰。缺点是使得微小变化的作用被不切实际的放大。
(2.4)布洛克距离。 
布洛克距离(城市街区距离)也称作曼哈顿距离,是指在曼哈顿要从一个十字路口到另外一个十字路口,所需的实际驾驶距离。
d4ij=Σk=1n|xik-xjk|]]>
d4ij表示第i个和第j个监测断面的水质指标的布洛克距离。
(2.5)切比雪夫距离。
切比雪夫距离是指若将国际象棋棋盘放在二维直角坐标系中,棋盘格的边长定义为1,x、y坐标轴与棋盘格平行,原点位于某一棋盘格的中心点处,则王从一个位置走到其他位置所需要的步数恰为这两个位置的切比雪夫距离,因此切比雪夫距离也称为棋盘距离。
d5ij=limp&RightArrow;(Σk=1n|xik-xjk|p)1p]]>
d5ij表示第i个和第j个监测断面的水质指标的切比雪夫距离。
步骤3:根据变量间的亲疏关系,采用4种不同的连接方法对变量进行聚类。
对不同变量进行聚类的方法除了最常用的最短距离法,还有最长距离法、未加权平均距离法、加权平均距离法和质心距离法。
(3.1)最短距离法。 
根据计算得出数据对象之间的亲疏关系,通常采用最短距离法,即首先合并最近或最相似的两项,对变量进行聚类,形成聚类树。如果H、K是两个聚类,则两类间的最短距离D1HK可定义为
D1HK=min{d1(XH,XK)}XH∈H,XK∈K
其中,d1(XH,XK)表示H类中的样本XH和K类中的样本XK之间的欧式距离;D1HK表示H类中的所有样本与K类中的所有样本之间的最小距离。min表示求取最小值。
如果K类由I和J两类合并而成,则有
D1HI=min{d1(XH,XI)}XH∈H,XI∈I
D1HJ=min{d1(XH,XJ)}XH∈H,XJ∈J
由此,可得递推公式
D1HK=min{D1HI,D1HJ} 
(3.2)最长距离法。
最长距离法是用两类之间最远点的距离代表两类之间的距离,也称为完全连接法。其缺点是样品有连接聚合的趋势,不适合一般数据的分类处理。
与最短距离法类似,若H、K是两个聚类,则两类间的最短距离D2HK定义为
D2HK=max{da(XH,XK)},XH∈H,XK∈K
max表示求取最大值。da(XH,XK)表示H类中的样本XH和K类中的样本XK之间的距离,其中a∈[1,5],对应步骤2中的五种距离度量方法。
如果K类由I和J两类合并而成,则
D2HI=max{daij(XH,XI)},XH∈H,XI∈I
D2HJ=max{daij(XH,XJ)},XH∈H,XJ∈J
得递推公式 
D2HK=max{D2HI,D2HJ} 
(3.3)平均距离。
同样的,如果H、K是两个聚类,则两类间的距离D3HK定义为
D3HK=1nHnKΣi&Element;Hj&Element;Kdaji2]]>
其中,daij2为H类中的任一样本Xi和K类中的任一样本Xj之间的距离平方;nH和nK分 别为H类和K类的样本数目。
如果K类是由I类和J类合并而成,则可以得到H类和K类的递推式 
D3HK=nInI+nJD3HI2+nJnI+nJD3HJ2]]>
nI和nJ分别为I类和J类的样本数目。
(3.4)质心距离法。 
质心距离法将两类之间的距离定义为两类质心之间的距离,对样品分类而言,每一类中心为属于该类样品的均值。该距离会随着聚类的进行不断缩小。
运用质心距离法需考虑每一类中所包含的样本数目,如果I类中有nI个样本,J类中有nJ个样本,则I和J合并后共有nI+nJ个样本。用和代替中间距离法的系数,即可得到质心法的类与类之间的距离D4HK递推式
D4HK=nInI+nJdaij2HI+nJnI+nJdaij2HJ-nInJ(nI+nJ)2daij2IJ]]>
步骤4:相关系数准则与最优组合方法选择。
以加权重的皮尔逊相关系数作为相关性判定准则,即检验一定算法下产生的聚类树和实际情况的相符程度,也就是检测聚类树中各元素间的距离D和计算产生的实际距离d之间有多大的相关性。
对于某个连接方法计算的距离Dbij和某个距离度量方法计算的距离daij,相关系数cab为:
cab=Σi<jα(daij-da&OverBar;)β(Dbij-Db&OverBar;)Σi<j(daij-da&OverBar;)2Σi<j(Dbij-Db&OverBar;)2,a&Element;[1,2,3,4,5],b&Element;[1,2,3,4]]]>
其中,距离权重系数α和连接权重系数β分别为:
α=daijda&OverBar;,β=DbijDb&OverBar;]]>
daij是矩阵X中第i个变量与第j个变量之间的距离,变量是指监测断面的水质指标;Dbij是矩阵X中第i个变量与第j个变量之间的表象距离,是指a取1~5中某一值时daij的平均值,是指a取1~5中某一值时Dbij的平均值。权重系数α和β可将其相关性进行放大,使结果更加直观。相关系数值cab越大,则说明相似度越高,聚类效果越好。
分别采用5种距离度量方法和4种连接方法进行分层聚类,分别有5×4种组合,每一种都有相关系数准则对其相符程度进行检验,得到的5×4相关系数矩阵C。
综合分层聚类方法的本质是通过最优系数来选择距离算法与连接算法的最佳组合。通过程序运算得出矩阵C中最大的元素以及相应的位置(a,b),由相关系数最大可知应用此方法聚类可得到最佳聚类效果,最后通过生成的相应最优聚类树矩阵,来优化设置断面监测站 点,从而可获得反映水域整体水质的监测数据,以提高水环境的监测质量。
现有水质监测断面优化布设中,所使用的距离度量方法与连接方法单一,所得到的聚类结果并不一定适合某个水域水质特征,也没有来判断对某个水域水质监测断面的聚类结果优劣的技术指标。而本发明提供的水质监测断面优化布设方法,以加权的皮尔逊相关系数作为判定准则,来选取最优的距离度量方法与连接方法组合,以此来针对不同的水域水质特征,选取最合适的聚类结果,进而对监测断面进行优化分析。
实施例
本发明采用CHC方法对北京不同水域进行水质监测断面的优化布设实验。分别对北京五个水域(北海、后海、前海、玉渊潭、筒子河)各平均选取15个断面9个参数的水质数据,其中包括pH值、电导率、浑浊度、溶解氧、氨氮、透明度、总氮、总磷、叶绿素,以北海为例,其原始监测数据如表1:
表1北海原始断面水质参数测量值

应用CHC方法分别对这五个湖域的水质监测断面进行优化,可得实验结果对比如下:
表2五大水域断面优化结果

由上表可以看出,针对不同的数据样本,没有一种方法是可以保证相对系数最佳的,只有综合不同的分层聚类方法,自主地选取最优算法组合对其进行聚类,才能达到最佳相对系数的结果。采用默认的欧氏距离法和最短距离法与采用CHC方法进行分层聚类的相关系数对 比如图2所示。
如图2所示,对北京市内五大水域进行聚类分析,采用本发明的CHC方法得到的相关系数均大于以默认算法计算所得,即计算结果与实际结果较原始算法更接近,说明该方法集成度高,具有很好的实际意义和指导价值。
经本发明的基于CHC的湖库、流域的水质监测断面优化布设方法,得到距离方法和连接方法的最优组合并生成的聚类树(冰状图)如图3所示。图3中,横轴为聚类变量,对应图中的断面编号,纵轴为变量之间的距离。图(a)对应北海水域,由图(a)可知,聚类树从左到右反映了聚类的先后次序。若要由15个断面减少至9个断面,即筛掉6个断面,则需将此矩阵从上到下每行减少一个断面,需删掉的断面编号为:1、2、9、3、4、16,其中16为1与5聚类后的结果编号,故需删掉的断面最终为:1、2、3、4、5、9。保留断面编号为:6、7、8、10、11、12、13、14、15共9个断面。
同理,经分析得后海水域最终保留断面为图(b):1、2、3、5、6、8、10、14、15;前海水域最终保留断面为图(c):1、2、4、5、9、10、12、14、15;玉渊潭水域最终保留断面为图(d):2、5、6、7、8、9、12、13、15;筒子河水域最终保留断面为图(e):2、4、7、8、9、11、12、13、15。如需保留断面个数为其他,采用相同方法以此类推。

基于综合分层聚类的湖库、流域的水质监测断面优化布设方法.pdf_第1页
第1页 / 共12页
基于综合分层聚类的湖库、流域的水质监测断面优化布设方法.pdf_第2页
第2页 / 共12页
基于综合分层聚类的湖库、流域的水质监测断面优化布设方法.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《基于综合分层聚类的湖库、流域的水质监测断面优化布设方法.pdf》由会员分享,可在线阅读,更多相关《基于综合分层聚类的湖库、流域的水质监测断面优化布设方法.pdf(12页珍藏版)》请在专利查询网上搜索。

本发明属于水环境监控与治理领域,公开了一种基于综合分层聚类的湖库、流域的水质监测断面优化布设方法,包括以下步骤:首先根据原始采集的水质监测数据建立标准化矩阵,通过5种距离算法计算监测数据变量之间的相似性以获得变量之间的亲疏关系,接着通过4种连接算法以实现对数据集合的自动聚类;然后以加权重的皮尔逊相关系数为判定准则来选择最优组合以进行分层聚类,最后通过生成的相应最优聚类树矩阵,来优化设置断面监测站点。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1