一种面向智能电网的缺失数据填充方法.pdf

摘要
申请专利号：	CN201410344391.9	申请日：	2014.07.18
公开号：	CN104133866A	公开日：	2014.11.05
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20141105\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20140718\|\|\|公开
IPC分类号：	G06F17/30; G06Q50/06(2012.01)I	主分类号：	G06F17/30
申请人：	国家电网公司; 江苏省电力公司; 江苏电力信息技术有限公司; 江苏省电力公司信息通信分公司
发明人：	祁建; 周红林; 王青国
地址：	100031 北京市西城区西长安街86号
优先权：
专利代理机构：	南京汇盛专利商标事务所(普通合伙) 32238	代理人：	陈扬
PDF下载：	PDF下载

内容摘要

本发明公开一种面向智能电网的缺失数据填充方法，首先将源系统数据集中的部分不完整数据打回源系统，由源系统重新生成数据集D；然后将重新生成的数据集D分成两部分，即完整数据子集Dc和缺失数据子集Di，并对完全数据集D进行聚类；最后通过聚类结果对缺失数据子集Di进行填充，得到填充结果Di’。本发明能够在存在噪声和离群点的情况下，有效聚类空间数据，将其应用于缺失值填充中，提升了数据填充的准确性，为电力公司实现对业务系统数据的智能管理奠定了基础。

权利要求书

1.  一种面向智能电网的缺失数据填充方法，其特征在于：首先将源系统数据集中的部分不完整数据打回源系统，由源系统重新生成数据集D，D由完整数据子集D_c和缺失数据子集D_i构成；然后对D进行聚类，形成N个紧密耦合的簇；最后根据聚类结果对缺失数据子集D_i进行填充，得到填充结果D_i’，具体步骤如下：
1)将源系统数据集中的部分不完整数据打回让源系统重新生成，这些数据包含有较多缺失值的记录和较少完整值的属性；通常情况下如果一条记录的缺失属性值占记录全部属性值的一半及以上需要打回该记录；如果某个属性的完整属性值占全部记录的比例低于50％，也需要打回该属性；
2)对重新生成的数据集D将重新生成的数据集分成完整数据子集D_c和缺失数据子集D_i，并对D进行K-Means聚类，从而产生紧密耦合的K个小簇，这些小簇能够将噪声和离群点与其他点有效地分离开来，然后通过动态合并的方式不断地合并这些小簇，在D上产生N个紧密耦合的簇；
3)根据聚类后的结果对缺失数据子集进行填充，在填充过程中，如果簇中含有完整属性的数据，利用该簇相应的属性均值来填充该记录的缺失值；如果簇中没有完整属性的数据，则根据完整数据子集D_c的平均值和方差，基于正态分布数据分发器来对这些缺失值进行填充。

2.  根据权利要求1所述的面向智能电网的缺失数据填充方法，其特征在于：步骤(2)中，对完整数据子集进行聚类时，采用基于动态建模的K-means聚类算法，该算法采用K-means算法来划分数据集，并基于自相似性概念合并簇。

3.  根据权利要求2所述的面向智能电网的缺失数据填充方法，其特征在于：对完全数据集D进行聚类的具体步骤如下：
步骤一：选择K个点作为初始质心；
步骤二：根据欧几里得距离(Euclidean Distance)将每个点指派到最近的质心，形成K个小簇，K值一般选取为数据集中总记录条数的10％-20％，欧几里得距离的计算公式如公式(1)所示：
dist(X,Y)=Σi=1n(xi-yi)2---(1)]]>
其中：X＝(x₁,x₂,...,x_n)，Y＝(y₁,y₂,...,y_n)；
步骤三：根据指派到簇的点，重新计算每个簇的质心；
步骤四：重复步骤二和步骤三，直到簇不发生变化；
步骤五：采用相近邻近度量，合并各个小簇对，并设置一个阈值，如果RC(C_i,C_j)值小于阈值，则不断地合并小簇，如果合并过程中某个类簇对之间的距离大于阈值，则停止类簇合并，并以此阶段得到类簇作为最总的类簇结果，合并后产生N个类簇；相对接近度的计算公式如公式(2)所示：
RC(Ci,Cj)=S&OverBar;EC(Ci,Cj)kiki+kjS&OverBar;EC(Ci)+kjki+kjS&OverBar;EC(Cj)---(2)]]>
其中，k_i，k_j分别是簇C_i和C_j的大小；是连接簇C_i和C_j的边的平均权值；是二分簇C_i的边的平均权值；是二分簇C_j的边的平均权值；EC表示割边；
基于自相似性概念，两个簇合并，仅当结果簇中的点之间的接近程度与原来的每个簇一样，能够有效聚类空间数据，即便存在噪声和离群点。

说明书

一种面向智能电网的缺失数据填充方法
技术领域
本发明属于智能电网术领域，涉及一种缺失值填充方法，特别是一种面向智能电网的缺失数据填充方法。
背景技术
由于电力行业数字化技术的广泛应用，电力系统中各种数据正以前所未有的速度剧增，数据类型也越来越复杂。海量多源异构数据的深度分析和利用，对于电力企业盈利与控制水平的提升有很高的价值。有电网专家分析称，每当数据利用率调高10％，便可使电网提高20％～49％的利润。而数据质量的高低对数据分析的准确性和实时性有直接的影响。这是因为由于信息、技术、流程等种种因素，电力系统中数据存在着种种质量问题，如数据不完整、不一致、冗余，程序逻辑错误等，其中至关重要的就是数据缺失问题。
数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘与分析来说，数据缺失可能造成以下影响：(1)系统可能丢失大量的有用信息；(2)系统中所表现出的不确定性可能更加显著；(3)系统产生不可靠的输出。因此在电网数据分析和利用中，为了能够更加充分地利用已经搜集到的数据，对缺失数据进行处理是非常必要的。
针对电网系统中存在的数据缺失问题，综观已有缺失数据填充方法，K-means填补算法是一种比较常用的方法，该方法的主要思想是：首先通过计算完全数据集中各样本间的距离将数据样本分成不同簇，并使同一个簇中的对象之间具有很高的相似度，而不同簇中的对象高度相异；然后计算缺失数据集中各缺失数据与各聚类簇的聚类，并将该缺失数据分到对应的聚类簇中；最后采用不同核函数对缺失数据进行填充。但是该算法针对电网系统缺失数据填充的准确性不甚理想，尤其是对于噪声点和离群点的处理方面，仍待进一步提高。
发明内容
针对电网系统缺失数据填充数据准确性不甚理想的问题，本发明的目的是提供一种面向智能电网的缺失数据填充方法，该方法首先将源系统数据集中的部分不完整数据打回源系统，由源系统重新生成数据集D，D由完整数据子集D_c和缺失数据子集D_i构成；然后对D进行聚类，形成N个紧密耦合的簇；最后根据聚类结果对缺失数据子集D_i进行填充，得到填充结果D_i’。
本发明的目的通过以下技术方案实现：
一种面向智能电网的缺失数据填充方法，其特征在于：该方法首先将源系统数据集中的部分不完整数据打回源系统，由源系统重新生成数据集D，D由完整数据子集D_c和缺失数据子集D_i构成；然后对D进行聚类，形成N个紧密耦合的簇；最后根据聚类结果对缺失数据子集进行填充，得到填充结果。具体步骤如下：
1)将源系统数据集中的部分不完整数据打回让源系统重新生成，这些数据包含有较多缺失值的记录和较少完整值的属性；通常情况下如果一条记录的缺失属性值占记录全部属性值的一半及以上需要打回该记录；如果某个属性的完整属性值占全部记录的比例低于50％，也需要打回该属性；
2)对重新生成的数据集D将重新生成的数据集分成完整数据子集D_c和缺失数据子集D_i，并对D进行K-Means聚类，从而产生紧密耦合的K个小簇，这些小簇能够将噪声和离群点与其他点有效地分离开来，然后通过动态合并的方式不断地合并这些小簇，在D上产生N个紧密耦合的簇；
3)根据聚类后的结果对缺失数据子集进行填充，在填充过程中，如果簇中含有完整属性的数据，利用该簇相应的属性均值来填充该记录的缺失值。如果簇中没有完整属性的数据，则根据完整数据子集D_c的平均值和方差，基于正态分布数据分发器来对这些缺失值进行填充。
本发明在对数据集进行聚类时，采用基于动态建模的K-means聚类算法，该算法采用K-means算法来划分数据集，并基于自相似性概念合并簇。
对完全数据集D进行聚类的具体步骤如下：
步骤一：选择K个点作为初始质心；
步骤二：根据欧几里得距离(Euclidean Distance)将每个点指派到最近的质心，形成K个小簇，K值一般选取为数据集中总记录条数的10％-20％，欧几里得距离的计算公式如公式(1)所示：
dist(X,Y)=Σi=1n(xi-yi)2---(1)]]>
其中：X＝(x₁,x₂,...,x_n)，Y＝(y₁,y₂,...,y_n)；
步骤三：根据指派到簇的点，重新计算每个簇的质心；
步骤四：重复步骤二和步骤三，直到簇不发生变化；
步骤五：采用相近邻近度量，合并各个小簇对，并设置一个阈值，如果RC(C_i,C_j)值小于阈值，则不断地合并小簇，如果合并过程中某个类簇对之间的距离大于阈值，则停止类簇合并，并以此阶段得到类簇作为最总的类簇结果，合并后产生N个类簇；相对接近度的计算公式如公式(2)所示：
RC(Ci,Cj)=S&OverBar;EC(Ci,Cj)kiki+kjS&OverBar;EC(Ci)+kjki+kjS&OverBar;EC(Cj)---(2)]]>
其中，k_i，k_j分别是簇C_i和C_j的大小；是连接簇C_i和C_j的边的平均权值；是二分簇C_i的边的平均权值；是二分簇C_j的边的平均权值；EC表示割边；
基于自相似性概念，两个簇合并，仅当结果簇中的点之间的接近程度与原来的每个簇一样，能够有效聚类空间数据，即便存在噪声和离群点。
本发明的有益效果在于，该方法能够在存在噪声和离群点的情况下，能够有效完成数据聚类，并将其应用于缺失值填充中，提升了数据填充的准确性，为电力公司实现对业务系统数据的智能管理奠定了基础。
附图说明
图1为本发明的总体框架图。
具体实施方式
一种面向智能电网的缺失数据填充方法，首先将源系统数据集中的部分不完整数据打回源系统，由源系统重新生成数据集D，D由完整数据子集D_c和缺失数据子集D_i构成；然后对D进行聚类，形成N个紧密耦合的簇；最后根据聚类结果对缺失数据子集进行填充，得到填充结果，总体框架图如图1所示。该方法的具体步骤如下：
1)将源系统数据集中的部分不完整数据打回让源系统重新生成，这些数据包含有较多缺失值的记录和较少完整值的属性。通常情况下如果一条记录的缺失属性值占记录全部属性值的一半及以上需要打回该记录；如果某个属性的完整属性值占全部记录条数的比例低于50％，也需要打回该属性。
2)对重新生成的数据集D将重新生成的数据集分成完整数据子集D_c和缺失数据子集D_i，并对D进行K-Means聚类，从而产生紧密耦合的K个小簇，这些小簇能够将噪声和离群点与其他点有效地分离开来，然后通过动态合并的方式不断地合并这些小簇，在D上产生N个紧密耦合的簇。
3)根据聚类后的结果对缺失数据子集进行填充，在填充过程中，如果簇中含有完整属性的数据，利用该簇相应的属性均值来填充该记录的缺失值。如果簇中没有完整属性的数据，则根据完整数据子集D_c的平均值和方差，基于正态分布数据分发器来对这些缺失值进行填充。
对完整数据子集进行聚类时，采用基于动态建模的K-means聚类算法，该算法采用 K-means算法来划分数据集，并基于自相似性概念合并簇。
对完全数据集D进行聚类的具体步骤如下：
步骤一：选择K个点作为初始质心；
步骤二：根据欧几里得距离(Euclidean Distance)将每个点指派到最近的质心，形成K个小簇(K值一般选取为数据集中总记录条数的10％-20％)，欧几里得距离的计算公式如公式(1)所示：
dist(X,Y)=Σi=1n(xi-yi)2---(1)]]>
其中：X＝(x₁,x₂,...,x_n)，Y＝(y₁,y₂,...,y_n)。
步骤三：根据指派到簇的点，重新计算每个簇的质心；
步骤四：重复步骤二和步骤三，直到簇不发生变化；
步骤五：采用相近邻近度量，合并各个小簇对，并设置一个阈值，如果RC(C_i,C_j)值小于阈值，则不断地合并小簇，如果合并过程中某个类簇对之间的距离大于阈值，则停止类簇合并，并以此阶段得到类簇作为最总的类簇结果，合并后产生N个类簇。相对接近度的计算公式如公式(2)所示：
RC(Ci,Cj)=S&OverBar;EC(Ci,Cj)kiki+kjS&OverBar;EC(Ci)+kjki+kjS&OverBar;EC(Cj)---(2)]]>
其中，k_i，k_j分别是簇C_i和C_j的大小；是连接簇C_i和C_j的边的平均权值；是二分簇C_i的边的平均权值；是二分簇C_j的边的平均权值；EC表示割边。
基于自相似性概念，两个簇合并，仅当结果簇中的点之间的接近程度几乎与原来的每个簇一样，能够有效聚类空间数据，即便存在噪声和离群点。
本发明首先将源系统数据集中的部分不完整数据打回让源系统重新生成，然后将重新生成的数据集分成完整数据子集和缺失数据子集，并对完整数据子集进行层次聚类，最后对缺失数据子集进行填充，填充结果准确。

资源描述

《一种面向智能电网的缺失数据填充方法.pdf》由会员分享，可在线阅读，更多相关《一种面向智能电网的缺失数据填充方法.pdf（8页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104133866A43申请公布日20141105CN104133866A21申请号201410344391922申请日20140718G06F17/30200601G06Q50/0620120171申请人国家电网公司地址100031北京市西城区西长安街86号申请人江苏省电力公司江苏电力信息技术有限公司江苏省电力公司信息通信分公司72发明人祁建周红林王青国74专利代理机构南京汇盛专利商标事务所普通合伙32238代理人陈扬54发明名称一种面向智能电网的缺失数据填充方法57摘要本发明公开一种面向智能电网的缺失数据填充方法，首先将源系统数据集中的部分不完整数据打回源系统，由源系统重。

2、新生成数据集D；然后将重新生成的数据集D分成两部分，即完整数据子集DC和缺失数据子集DI，并对完全数据集D进行聚类；最后通过聚类结果对缺失数据子集DI进行填充，得到填充结果DI。本发明能够在存在噪声和离群点的情况下，有效聚类空间数据，将其应用于缺失值填充中，提升了数据填充的准确性，为电力公司实现对业务系统数据的智能管理奠定了基础。51INTCL权利要求书2页说明书4页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书4页附图1页10申请公布号CN104133866ACN104133866A1/2页21一种面向智能电网的缺失数据填充方法，其特征在于首先将源系统数据集中的。

3、部分不完整数据打回源系统，由源系统重新生成数据集D，D由完整数据子集DC和缺失数据子集DI构成；然后对D进行聚类，形成N个紧密耦合的簇；最后根据聚类结果对缺失数据子集DI进行填充，得到填充结果DI，具体步骤如下1将源系统数据集中的部分不完整数据打回让源系统重新生成，这些数据包含有较多缺失值的记录和较少完整值的属性；通常情况下如果一条记录的缺失属性值占记录全部属性值的一半及以上需要打回该记录；如果某个属性的完整属性值占全部记录的比例低于50，也需要打回该属性；2对重新生成的数据集D将重新生成的数据集分成完整数据子集DC和缺失数据子集DI，并对D进行KMEANS聚类，从而产生紧密耦合的K个小簇，这。

4、些小簇能够将噪声和离群点与其他点有效地分离开来，然后通过动态合并的方式不断地合并这些小簇，在D上产生N个紧密耦合的簇；3根据聚类后的结果对缺失数据子集进行填充，在填充过程中，如果簇中含有完整属性的数据，利用该簇相应的属性均值来填充该记录的缺失值；如果簇中没有完整属性的数据，则根据完整数据子集DC的平均值和方差，基于正态分布数据分发器来对这些缺失值进行填充。2根据权利要求1所述的面向智能电网的缺失数据填充方法，其特征在于步骤2中，对完整数据子集进行聚类时，采用基于动态建模的KMEANS聚类算法，该算法采用KMEANS算法来划分数据集，并基于自相似性概念合并簇。3根据权利要求2所述的面向智能电网的。

5、缺失数据填充方法，其特征在于对完全数据集D进行聚类的具体步骤如下步骤一选择K个点作为初始质心；步骤二根据欧几里得距离EUCLIDEANDISTANCE将每个点指派到最近的质心，形成K个小簇，K值一般选取为数据集中总记录条数的1020，欧几里得距离的计算公式如公式1所示其中XX1,X2,XN，YY1,Y2,YN；步骤三根据指派到簇的点，重新计算每个簇的质心；步骤四重复步骤二和步骤三，直到簇不发生变化；步骤五采用相近邻近度量，合并各个小簇对，并设置一个阈值，如果RCCI,CJ值小于阈值，则不断地合并小簇，如果合并过程中某个类簇对之间的距离大于阈值，则停止类簇合并，并以此阶段得到类簇作为最总的类簇结。

6、果，合并后产生N个类簇；相对接近度的计算公式如公式2所示权利要求书CN104133866A2/2页3其中，KI，KJ分别是簇CI和CJ的大小；是连接簇CI和CJ的边的平均权值；是二分簇CI的边的平均权值；是二分簇CJ的边的平均权值；EC表示割边；基于自相似性概念，两个簇合并，仅当结果簇中的点之间的接近程度与原来的每个簇一样，能够有效聚类空间数据，即便存在噪声和离群点。权利要求书CN104133866A1/4页4一种面向智能电网的缺失数据填充方法技术领域0001本发明属于智能电网术领域，涉及一种缺失值填充方法，特别是一种面向智能电网的缺失数据填充方法。背景技术0002由于电力行业数字化技术的广泛。

7、应用，电力系统中各种数据正以前所未有的速度剧增，数据类型也越来越复杂。海量多源异构数据的深度分析和利用，对于电力企业盈利与控制水平的提升有很高的价值。有电网专家分析称，每当数据利用率调高10，便可使电网提高2049的利润。而数据质量的高低对数据分析的准确性和实时性有直接的影响。这是因为由于信息、技术、流程等种种因素，电力系统中数据存在着种种质量问题，如数据不完整、不一致、冗余，程序逻辑错误等，其中至关重要的就是数据缺失问题。0003数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘与分析来说，数据缺失可能造成以下影响1系统可能丢失大量的有用信息；2系统中所表现出的不确定性可能更加显著；3系统。

8、产生不可靠的输出。因此在电网数据分析和利用中，为了能够更加充分地利用已经搜集到的数据，对缺失数据进行处理是非常必要的。0004针对电网系统中存在的数据缺失问题，综观已有缺失数据填充方法，KMEANS填补算法是一种比较常用的方法，该方法的主要思想是首先通过计算完全数据集中各样本间的距离将数据样本分成不同簇，并使同一个簇中的对象之间具有很高的相似度，而不同簇中的对象高度相异；然后计算缺失数据集中各缺失数据与各聚类簇的聚类，并将该缺失数据分到对应的聚类簇中；最后采用不同核函数对缺失数据进行填充。但是该算法针对电网系统缺失数据填充的准确性不甚理想，尤其是对于噪声点和离群点的处理方面，仍待进一步提高。发。

9、明内容0005针对电网系统缺失数据填充数据准确性不甚理想的问题，本发明的目的是提供一种面向智能电网的缺失数据填充方法，该方法首先将源系统数据集中的部分不完整数据打回源系统，由源系统重新生成数据集D，D由完整数据子集DC和缺失数据子集DI构成；然后对D进行聚类，形成N个紧密耦合的簇；最后根据聚类结果对缺失数据子集DI进行填充，得到填充结果DI。0006本发明的目的通过以下技术方案实现0007一种面向智能电网的缺失数据填充方法，其特征在于该方法首先将源系统数据集中的部分不完整数据打回源系统，由源系统重新生成数据集D，D由完整数据子集DC和缺失数据子集DI构成；然后对D进行聚类，形成N个紧密耦合的簇。

10、；最后根据聚类结果对缺失数据子集进行填充，得到填充结果。具体步骤如下00081将源系统数据集中的部分不完整数据打回让源系统重新生成，这些数据包含有较多缺失值的记录和较少完整值的属性；通常情况下如果一条记录的缺失属性值占记录全说明书CN104133866A2/4页5部属性值的一半及以上需要打回该记录；如果某个属性的完整属性值占全部记录的比例低于50，也需要打回该属性；00092对重新生成的数据集D将重新生成的数据集分成完整数据子集DC和缺失数据子集DI，并对D进行KMEANS聚类，从而产生紧密耦合的K个小簇，这些小簇能够将噪声和离群点与其他点有效地分离开来，然后通过动态合并的方式不断地合并这些小。

11、簇，在D上产生N个紧密耦合的簇；00103根据聚类后的结果对缺失数据子集进行填充，在填充过程中，如果簇中含有完整属性的数据，利用该簇相应的属性均值来填充该记录的缺失值。如果簇中没有完整属性的数据，则根据完整数据子集DC的平均值和方差，基于正态分布数据分发器来对这些缺失值进行填充。0011本发明在对数据集进行聚类时，采用基于动态建模的KMEANS聚类算法，该算法采用KMEANS算法来划分数据集，并基于自相似性概念合并簇。0012对完全数据集D进行聚类的具体步骤如下0013步骤一选择K个点作为初始质心；0014步骤二根据欧几里得距离EUCLIDEANDISTANCE将每个点指派到最近的质心，形成K。

12、个小簇，K值一般选取为数据集中总记录条数的1020，欧几里得距离的计算公式如公式1所示00150016其中XX1,X2,XN，YY1,Y2,YN；0017步骤三根据指派到簇的点，重新计算每个簇的质心；0018步骤四重复步骤二和步骤三，直到簇不发生变化；0019步骤五采用相近邻近度量，合并各个小簇对，并设置一个阈值，如果RCCI,CJ值小于阈值，则不断地合并小簇，如果合并过程中某个类簇对之间的距离大于阈值，则停止类簇合并，并以此阶段得到类簇作为最总的类簇结果，合并后产生N个类簇；相对接近度的计算公式如公式2所示00200021其中，KI，KJ分别是簇CI和CJ的大小；是连接簇CI和CJ的边的平均。

13、权值；是二分簇CI的边的平均权值；是二分簇CJ的边的平均权值；EC表示割边；0022基于自相似性概念，两个簇合并，仅当结果簇中的点之间的接近程度与原来的每个簇一样，能够有效聚类空间数据，即便存在噪声和离群点。0023本发明的有益效果在于，该方法能够在存在噪声和离群点的情况下，能够有效完成数据聚类，并将其应用于缺失值填充中，提升了数据填充的准确性，为电力公司实现对业务系统数据的智能管理奠定了基础。说明书CN104133866A3/4页6附图说明0024图1为本发明的总体框架图。具体实施方式0025一种面向智能电网的缺失数据填充方法，首先将源系统数据集中的部分不完整数据打回源系统，由源系统重新生成。

14、数据集D，D由完整数据子集DC和缺失数据子集DI构成；然后对D进行聚类，形成N个紧密耦合的簇；最后根据聚类结果对缺失数据子集进行填充，得到填充结果，总体框架图如图1所示。该方法的具体步骤如下00261将源系统数据集中的部分不完整数据打回让源系统重新生成，这些数据包含有较多缺失值的记录和较少完整值的属性。通常情况下如果一条记录的缺失属性值占记录全部属性值的一半及以上需要打回该记录；如果某个属性的完整属性值占全部记录条数的比例低于50，也需要打回该属性。00272对重新生成的数据集D将重新生成的数据集分成完整数据子集DC和缺失数据子集DI，并对D进行KMEANS聚类，从而产生紧密耦合的K个小簇，这。

15、些小簇能够将噪声和离群点与其他点有效地分离开来，然后通过动态合并的方式不断地合并这些小簇，在D上产生N个紧密耦合的簇。00283根据聚类后的结果对缺失数据子集进行填充，在填充过程中，如果簇中含有完整属性的数据，利用该簇相应的属性均值来填充该记录的缺失值。如果簇中没有完整属性的数据，则根据完整数据子集DC的平均值和方差，基于正态分布数据分发器来对这些缺失值进行填充。0029对完整数据子集进行聚类时，采用基于动态建模的KMEANS聚类算法，该算法采用KMEANS算法来划分数据集，并基于自相似性概念合并簇。0030对完全数据集D进行聚类的具体步骤如下0031步骤一选择K个点作为初始质心；0032步骤。

16、二根据欧几里得距离EUCLIDEANDISTANCE将每个点指派到最近的质心，形成K个小簇K值一般选取为数据集中总记录条数的1020，欧几里得距离的计算公式如公式1所示00330034其中XX1,X2,XN，YY1,Y2,YN。0035步骤三根据指派到簇的点，重新计算每个簇的质心；0036步骤四重复步骤二和步骤三，直到簇不发生变化；0037步骤五采用相近邻近度量，合并各个小簇对，并设置一个阈值，如果RCCI,CJ值小于阈值，则不断地合并小簇，如果合并过程中某个类簇对之间的距离大于阈值，则停止类簇合并，并以此阶段得到类簇作为最总的类簇结果，合并后产生N个类簇。相对接近度的计算公式如公式2所示说明。

17、书CN104133866A4/4页700380039其中，KI，KJ分别是簇CI和CJ的大小；是连接簇CI和CJ的边的平均权值；是二分簇CI的边的平均权值；是二分簇CJ的边的平均权值；EC表示割边。0040基于自相似性概念，两个簇合并，仅当结果簇中的点之间的接近程度几乎与原来的每个簇一样，能够有效聚类空间数据，即便存在噪声和离群点。0041本发明首先将源系统数据集中的部分不完整数据打回让源系统重新生成，然后将重新生成的数据集分成完整数据子集和缺失数据子集，并对完整数据子集进行层次聚类，最后对缺失数据子集进行填充，填充结果准确。说明书CN104133866A1/1页8图1说明书附图CN104133866A。

展开阅读全文