基于稽查数据的电力营销业务诊断模型的建立方法及系统.pdf

摘要
申请专利号：	CN201510817672.6	申请日：	2015.11.20
公开号：	CN105373894A	公开日：	2016.03.02
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06Q 10/06申请日:20151120\|\|\|公开
IPC分类号：	G06Q10/06(2012.01)I; G06Q50/06(2012.01)I	主分类号：	G06Q10/06
申请人：	广州供电局有限公司
发明人：	吴峰; 武华; 余飞鸥; 吕浩晖; 刘飞; 潘炜; 伍笑颜; 陈碧仪; 陈敬红; 吴疆
地址：	510620广东省广州市天河区天河南二路2号
优先权：
专利代理机构：	广州华进联合专利商标代理有限公司44224	代理人：	黄晓庆
PDF下载：	PDF下载

内容摘要

一种基于稽查数据的电力营销业务诊断模型的建立方法及系统，根据采集条件采集异常数据信息；对所述异常数据信息进行体检分析确定关联规则；根据所述关联规则建立专家样本库；根据所述专家样本库，建立稽查异常的诊断模型。上述基于稽查数据的电力营销业务诊断模型的建立方法及系统，首先根据采集条件采集异常数据信息，然后对所述异常数据信息进行体检分析确定关联规则，进而根据所述关联规则建立专家样本库，最后根据所述专家样本库，建立稽查异常的诊断模型。从而可以对电力营销数据中的异常进行异常类型及异常程度的诊断，为电力营销稽查工作提供支持。

权利要求书

1.一种基于稽查数据的电力营销业务诊断模型的建立方法，其特征在于，
包括步骤：
根据采集条件采集异常数据信息；
对所述异常数据信息进行体检分析确定关联规则；
根据所述关联规则建立专家样本库；
根据所述专家样本库，建立稽查异常的诊断模型。
2.根据权利要求1所述的基于稽查数据的电力营销业务诊断模型的建立方
法，其特征在于，所述根据所述专家样本库，建立稽查异常的诊断模型的步骤
之后，还包括步骤：
通过所述诊断模型对实时监控的实时异常信息进行诊断，确定诊断异常类
型及诊断异常程度；
接收所述诊断异常类型及所述诊断异常程度是否准确的诊断结果判定信
息；
根据所述诊断结果判定信息更新异常数据信息，并更新关联规则、专家样
本库及诊断模型。
3.根据权利要求1所述的基于稽查数据的电力营销业务诊断模型的建立方
法，其特征在于，所述对所述异常数据信息进行体检分析确定关联规则的步骤，
具体包括：
根据所述异常数据信息确定异常数据信息项集间的支持度和置信度；
根据所述支持度和所述置信度确定最小支持度和最小置信度；
根据所述最小支持度确定最大异常信息频繁项集；
根据所述最大异常信息频繁项集确定待定关联规则；
根据所述待定关联规则及所述最小置信度确定所述关联规则。
4.根据权利要求1所述的基于稽查数据的电力营销业务诊断模型的建立方
法，其特征在于，
所述诊断模型为决策树模型，所述根据所述专家样本库，建立稽查异常的诊断
模型的步骤，具体包括：
获取所述专家样本库的每列异常属性，分别根据每列异常属性的异常属性
值进行异常分类，并进行统计，根据统计结果确定每列异常属性的信息增益值；
根据所述信息增益值确定所述每列异常属性在所述决策树模型中的节点位
置。
5.根据权利要求1所述的基于稽查数据的电力营销业务诊断模型的建立方
法，其特征在于，所述根据采集条件采集异常数据信息的步骤之前，还包括步
骤：获取用户自定义的采集条件。
6.一种基于稽查数据的电力营销业务诊断模型的建立系统，其特征在于，
包括：
异常采集模块，用于根据采集条件采集异常数据信息；
规则确定模块，用于对所述异常数据信息进行体检分析确定关联规则；
样本确定模块，用于根据所述关联规则建立专家样本库；
模型建立模块，用于根据所述专家样本库，建立稽查异常的诊断模型。
7.根据权利要求6所述的基于稽查数据的电力营销业务诊断模型的建立系
统，其特征在于，还包括：
模型诊断模块，用于通过所述诊断模型对实时监控的实时异常信息进行诊
断，确定诊断异常类型及诊断异常程度；
结果接收模块，用于接收所述诊断异常类型及所述诊断异常程度是否准确
的诊断结果判定信息；
模型更新模块，用于根据所述诊断结果判定信息更新异常数据信息，并更
新关联规则、专家样本库及诊断模型。
8.根据权利要求6所述的基于稽查数据的电力营销业务诊断模型的建立系
统，其特征在于，所述规则确定模块，具体包括：
特征确定单元，用于根据所述异常数据信息确定异常数据间的支持度和置
信度；
最小特征确定单元，用于根据所述支持度和所述置信度确定最小支持度和
最小置信度；
频繁项集确定单元，用于根据所述最小支持度确定最大异常信息频繁项集；
待定规则确定单元，用于根据所述最大异常信息频繁项集确定待定关联规
则；
关联规则确定单元，用于根据所述待定关联规则及所述最小置信度确定所
述关联规则。
9.根据权利要求6所述的基于稽查数据的电力营销业务诊断模型的建立系
统，其特征在于，所述诊断模型为决策树模型，所述模型建立模块，具体包括：
增益确定单元，用于获取所述专家样本库的每列异常属性，分别根据每列
异常属性的异常属性值进行异常分类，并进行统计，根据统计结果确定每列异
常属性的信息增益值；
节点确定单元，用于根据所述信息增益值确定所述每列异常属性在所述决
策树模型中的节点位置。
10.根据权利要求6所述的基于稽查数据的电力营销业务诊断模型的建立
系统，其特征在于，所述基于稽查数据的电力营销业务诊断模型的建立系统，
还包括：
条件获取模块，用于获取用户自定义的采集条件。

说明书

基于稽查数据的电力营销业务诊断模型的建立方法及系统

技术领域

本发明涉及电力营销监控系统领域，尤其涉及一种基于稽查数据的电力营
销业务诊断模型的建立方法及系统。

背景技术

电力营销稽查是供电企业按照国家法律法规和企业规章制度，对电力营销
工作质量和服务质量的全过程核查、管理和监督。营销稽查监控是依据国家有
关政策、法律、法规和供电企业营销相关的规章制度和管理规定，对供电企业
从事电力营销工作的单位和人员，在电力营销过程中的行为进行监督和检查。

为了进行电力营销稽查工作，全面提升电力营销系统信息化建设的水平和
应用效能，需要结合监控与稽查的异常信息，开展多维分析和深度挖掘；搭建
一套完善的电力营销稽查诊断模型，把“死数据”变成支持营销决策的有用信
息。从而，提高对营销稽查历史数据的管理水平，为营销稽查提供有力的决策
支持；对历史稽查数据中稽查对象之间的关联关系进行数据挖掘，得到合理的
规则，为营销管理决策提供依据，全面防范营销风险，提升营销运作能力、客
户服务能力及管理控制能力，对稽查人员开展稽查工作有一定的指导意义。

发明内容

基于此，有必要提供一种建立为电力营销稽查工作提供支持的诊断模型的
方法及系统。

一种基于稽查数据的电力营销业务诊断模型的建立方法，包括步骤：

根据采集条件采集异常数据信息；

对所述异常数据信息进行体检分析确定关联规则；

根据所述关联规则建立专家样本库；

根据所述专家样本库，建立稽查异常的诊断模型。

上述基于稽查数据的电力营销业务诊断模型的建立方法，首先根据采集条
件采集异常数据信息，然后对所述异常数据信息进行体检分析确定关联规则，
进而根据所述关联规则建立专家样本库，最后根据所述专家样本库，建立稽查
异常的诊断模型。从而可以对电力营销数据中的异常进行异常类型及异常程度
的诊断，为电力营销稽查工作提供支持。

一种基于稽查数据的电力营销业务诊断模型的建立系统，包括：

异常采集模块，用于根据采集条件采集异常数据信息；

规则确定模块，用于对所述异常数据信息进行体检分析确定关联规则；

样本确定模块，用于根据所述关联规则建立专家样本库；

模型建立模块，用于根据所述专家样本库，建立稽查异常的诊断模型。

上述基于稽查数据的电力营销业务诊断模型的建立系统，异常采集模块首
先根据采集条件采集异常数据信息，然后规则确定模块对所述异常数据信息进
行体检分析确定关联规则，进而样本确定模块根据所述关联规则建立专家样本
库，最后模型建立模块根据所述专家样本库，建立稽查异常的诊断模型。从而
可以对电力营销数据中的异常进行异常类型及异常程度的诊断，为电力营销稽
查工作提供支持。

附图说明

图1为一种实施方式的基于稽查数据的电力营销业务诊断模型的建立方法
的流程图；

图2为另一种实施方式的基于稽查数据的电力营销业务诊断模型的建立方
法的流程图；

图3为图1的一个步骤的具体流程图；

图4为图1的另一个步骤的具体流程图；

图5为一种实施方式的基于稽查数据的电力营销业务诊断模型的建立系统
的结构图；

图6为另一种实施方式的基于稽查数据的电力营销业务诊断模型的建立系
统的结构图；

图7为图5的一个模块的单元结构图；

图8为图5的另一个模块的单元结构图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。
附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来
实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对
本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术
领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术
语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的
术语“或/及”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，一种基于稽查数据的电力营销业务诊断模型的建立方法，包
括步骤：

S100：根据采集条件采集异常数据信息。

采集条件可以为用户自定义的查询条件，也可以为实现该基于稽查数据的
电力营销业务诊断模型的建立方法的系统预设好的查询条件。异常数据信息为
现有监查平台中对电力营销数据进行稽查时，发现的历史电力营销异常数据。

在其中一个实施例中，所述根据采集条件采集异常数据信息的步骤之前，
还包括步骤：获取用户自定义的采集条件。

S200：对所述异常数据信息进行体检分析确定关联规则。

S300：根据所述关联规则建立专家样本库。

S400：根据所述专家样本库，建立稽查异常的诊断模型。

如此，可以充分利用历史的异常数据信息，将其变成支持营销决策的有用
信息，建立可以稽查异常的诊断模型。通过诊断模型，诊断监控的实时或历史
电力营销数据，对电力营销数据中的异常进行异常类型及异常程度的诊断，为
电力营销稽查工作提供支持；对诊断到的容易出现异常的业务以及疑难客户进
行进重点跟踪。

上述基于稽查数据的电力营销业务诊断模型的建立方法，首先根据采集条
件采集异常数据信息，然后对所述异常数据信息进行体检分析确定关联规则，
进而根据所述关联规则建立专家样本库，最后根据所述专家样本库，建立稽查
异常的诊断模型。从而可以对电力营销数据中的异常进行异常类型及异常程度
的诊断，为电力营销稽查工作提供支持。

为了进一步提高诊断模型的准确性，在其中一个实施例中，如图2所示，
步骤S400之后，还包括步骤：

S500：通过所述诊断模型对实时监控的实时异常信息进行诊断，确定诊断
异常类型及诊断异常程度。

诊断异常类型及诊断异常程度组成诊断结果，通过诊断模型诊断得到的诊
断异常类型及诊断异常程度为模型诊断结果。

S600：接收所述诊断异常类型及所述诊断异常程度是否准确的诊断结果判
定信息。

诊断结果判定信息通常可以由人工判定，并输入到实现该基于稽查数据的
电力营销业务诊断模型的建立方法的系统中。具体地，诊断结果判定信息具体
根据人工诊断结果与模型诊断结果是否一致进行判定。在本实施例中，认定其
人工诊断结果为准确的判定。

通过人工诊断得到的诊断异常类型及诊断异常程度为人工诊断结果。

可以通过多人次判定的方式，提高人工诊断的准确性，从而提高诊断结果
判定信息的准确性，最终提高诊断模型的准确性。

S700：根据所述诊断结果判定信息更新异常数据信息，并更新关联规则、
专家样本库及诊断模型。

当诊断结果判定信息为人工判定结果与模型判定结果一致时，说明诊断模
型判定准确，不需要重新建立，保持诊断模型不变。

当诊断结果判定信息为人工判定结果与模型判定结果不一致时，说明诊断
模型判定不够准确，需要重新建立，因此，重新更新关联规则、专家样本库及
诊断模型。

如图3所示，在其中一个实施例中，步骤S200，具体包括：

S210：根据所述异常数据信息确定异常数据信息项集间的支持度和置信度。

记具有n列不同属性的的异常数据信息为n异常信息项集，即n异常信息
项集包括异常数据信息中的n个不同属性的属性值。原异常数据信息具有的属
性不少于n列。n异常信息项集的表达形式为：{A1,A2,…,An-1,An}，即异常数据信
息项集的第一列属性值为A1，第二列属性值为A2，…….，第n-1项属性值为
An-1，第n项属性值为An，n异常信息项集支持度为：

S u p p o r t ( A 1 , A 2 , ... , A n - 1 ⇒ A n ) = P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ∪ A n ) ]]>

其中，

n异常信息项集{A1,A2,…,An-1,An}的置信度为：

C o n f i d e n c e ( A 1 , A 2 , ... , A n - 1 ⇒ A n ) = P ( A n | A 1 ∪ A 2 ∪ ... ∪ A n - 1 ) ]]>

P ( A n | A 1 ∪ A 2 ∪ ... ∪ A n - 1 ) = P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ∪ A n ) P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ) . ]]>

S220：根据所述支持度和所述置信度确定最小支持度和最小置信度。

将最小的支持度和最小的置信度作为一个衡量所有支持度和所有置信度的
一个阈值，分别表示异常数据信息项集在统计意义上的最低重要性和最低可靠
性。

S230：根据所述最小支持度确定最大异常信息频繁项集。

通过最小支持度，找出所有异常信息频繁项集，即支持度必须大于等于最
小支持度阈值的异常信息项集为异常信息频繁项集。

在本实施例中，根据计算所得的最小支持度阈值，对异常数据信息进行连
接操作，即分别对1项候选异常信息项集C1，剔除小于该阈值的异常信息项集
得到1项异常信息频繁项集L1；下一步由L1自身连接产生2项候选异常信息项
集C2，保留C2中满足约束条件的异常信息项集得到2项异常信息频繁项集，记
为L2；再下一步由L2与L1连接产生3项候选异常信息项集C3，保留C2中满足
约束条件的异常信息项集得到3项异常信息频繁项集，记为L3，这样循环下去，
得到最大异常信息频繁项集Lk。

在其中一个实施例中，在对异常数据信息进行连接操作时，还进行剪枝操
作，在产生候选异常信息项集Ck的过程中起到减小搜索空间的目的。由于候选
异常信息项集Ck是异常信息频繁项集Lk-1与L1连接产生的，根据Apriori的性
质异常信息频繁项集的所有非空异常信息项集也必须是异常信息频繁项集，所
以不满足该性质的项集将不会存在于候选异常信息项集Ck中，该过程就是剪枝。

S240：根据所述最大频繁异常信息项集确定待定关联规则。

最大异常信息频繁项集Lk满足最小支持度阈值，因此可以通过最大异常信
息频繁项集Lk，确定待定关联规则。

S250：根据所述待定关联规则及所述最小置信度确定所述关联规则。

在步骤S230中，未超过最小支持度阈值的异常信息项集已被剔除，将待定
关联规则中能够满足最小置信度阈值的规则，确定为关联规则，即是同时满足
最小支持度阈值和最小置信度阈值的规则。

在其中一个实施例中，采用ID3算法，以专家样本库中每列异常属性的信
息熵的下降速度作为构造决策树模型选取节点顺序的标准，直到生成的决策树
模型能完美分类训练样例。所述专家样本库中的异常属性为根据所述关联规则
确定的异常数据信息项集所分别包含的属性值所对应的属性。

具体地，如图4所示，步骤S400包括：

S410：获取所述专家样本库的每列异常属性，分别根据每列所述异常属性
的异常属性值进行异常分类，并进行统计，根据统计结果确定每列异常属性的
信息增益值。

在其中一个实施例中，所述专家样本库的异常属性为根据所述关联规则确
定的满足最小支持度阈值的最大异常信息频繁项集所包含的属性值所对应的属
性。

专家样本库包括多条异常数据信息记录，每条异常数据信息记录包括若干
列异常属性。

(一)假设一列异常属性A中有t个不相关的异常属性值A1,A2,…,At，即t
个不相关的异常类别信息A1,A2,…,At，则他们的平均信息量，即异常属性A的平
均信息量，为：

I ( A 1 , A 2 , ... , A t ) = Σ j = 1 t I ( A j ) = Σ j = 1 t p ( A j ) log 2 1 p ( A j ) , ]]>

其中，p(Aj)是异常属性A的取值为Aj发生的概率。

(二)假设S是专家样本库，即所有根据关联规则确定的异常数据信息的
样本集合，|S|是异常数据信息样本集合的样本数。根据每列异常属性的异常属
性值将异常数据信息样本划分为m个不同的异常信息类别C1,C2,…,Cm，这些信
息类别的大小，即属性值分别为C1,C2,…,Cm的异常数据信息记录的条数，分别标
记为|C1|,|C2|,…,|Cm|，那么专家样本库S是Cj类的概率为:

p ( S j ) = | C j | | S | . ]]>

异常属性A具有若干个异常属性值，分别取其中一个异常属性值为v的样
本子集，记做Sv。在选择异常属性A后的分支节点上，确定该节点的样本子集
Sv的熵为E(Sv)。为了得到异常属性A导致的期望熵值，计算每个样本子集Sv
的熵的加权和，其权值是属于样本子集Sv在专家样本库S中所占有的比例p
(Sv)，即|Sv|/|S|。因此异常属性A的平均信息期望熵为：

E(S,A)＝Σp(Sv)·E(Sv)；即，E(S,A)＝Σ(|Sv|/|S|)·E(Sv)。

那么，异常属性A对于专家样本库S的信息增益值G(S,A)为：

G(S,A)＝E(S)-E(S,A)；

E(S)等于异常属性A的平均信息量I(A1,A2,…,At)。

如此，确定每一个异常属性对于专家样本库S的信息增益值。

S430：根据所述信息增益值确定所述每列异常属性在所述决策树模型中的
节点位置。

信息增益值G(S,A)越大，说明异常属性A对分类提供的信息越多，故选择
信息增益值G(S,A)最大的属性作为决策树模型的根节点，以此将信息增益值递
减而往下分级，最终至异常类别为叶节点，形成完整的决策树模型。

如图5所示，一种基于稽查数据的电力营销业务诊断模型的建立系统，包
括：

异常采集模块100，用于根据采集条件采集异常数据信息。

采集条件可以为用户自定义的查询条件，也可以为基于稽查数据的电力营
销业务诊断模型的建立系统预设好的查询条件。异常数据信息为现有监查平台
中对电力营销数据进行稽查时，发现的历史电力营销异常数据。

在其中一个实施例中，所述系统，还包括：

条件获取模块(图未示)，用于获取用户自定义的采集条件。

规则确定模块200，用于对所述异常数据信息进行体检分析确定关联规则。

样本确定模块300，用于根据所述关联规则建立专家样本库。

模型建立模块400，用于根据所述专家样本库，建立稽查异常的诊断模型。

如此，可以充分利用历史的异常数据信息，将其变成支持营销决策的有用
信息，建立可以稽查异常的诊断模型。通过诊断模型，诊断监控的实时或历史
电力营销数据，对电力营销数据中的异常进行异常类型及异常程度的诊断，为
电力营销稽查工作提供支持；对诊断到的容易出现异常的业务以及疑难客户进
行进重点跟踪。

上述基于稽查数据的电力营销业务诊断模型的建立系统，异常采集模块100
首先根据采集条件采集异常数据信息，然后规则确定模块200对所述异常数据
信息进行体检分析确定关联规则，进而样本确定模块300根据所述关联规则建
立专家样本库，最后模型建立模块400根据所述专家样本库，建立稽查异常的
诊断模型。从而可以对电力营销数据中的异常进行异常类型及异常程度的诊断，
为电力营销稽查工作提供支持。

为了进一步提高诊断模型的准确性，在其中一个实施例中，如图6所示，
基于稽查数据的电力营销业务诊断模型的建立系统，还可以包括：

模型诊断模块500，用于通过所述诊断模型对实时监控的实时异常信息进行
诊断，确定诊断异常类型及诊断异常程度。

诊断异常类型及诊断异常程度组成诊断结果，通过模型诊断得到的诊断异
常类型及诊断异常程度为模型诊断结果。

结果接收模块600，用于接收所述诊断异常类型及所述诊断异常程度是否准
确的诊断结果判定信息。

诊断结果判定信息通常可以由人工判定，并输入到基于稽查数据的电力营
销业务诊断模型的建立系统中。具体地，诊断结果判定信息具体根据人工诊断
结果与模型诊断结果是否一致进行判定。在本实施例中，认定其人工诊断结果
为准确的判定。

通过人工诊断得到的诊断异常类型及诊断异常程度为人工诊断结果。

可以通过多人次判定的方式，提高人工诊断的准确性，从而提高诊断结果
判定信息的准确性，最终提高诊断模型的准确性。

模型更新模块700，用于根据所述诊断结果判定信息更新异常数据信息，并
更新关联规则、专家样本库及诊断模型。

当诊断结果判定信息为人工判定结果与模型判定结果一致时，说明诊断模
型判定准确，不需要重新建立，保持诊断模型不变。

当诊断结果判定信息为人工判定结果与模型判定结果不一致时，说明诊断
模型判定不够准确，需要重新建立，因此，重新更新关联规则、专家样本库及
诊断模型。

如图7所示，在其中一个实施例中，规则确定模块200，具体包括：

特征确定单元210，用于根据所述异常数据信息确定异常数据信息项集间的
支持度和置信度。

记具有n列属性的异常数据信息为n异常信息项集，即n异常信息项集包
括异常数据信息的中的n个不同属性的属性值。原异常数据信息具有的属性不
少于n列。n异常信息项集的表达形式为：{A1,A2,…,An-1,An}，即异常数据信息项
集的第一列属性值为A1，第二列属性值为A2，…….，第n-1项属性值为An-1，
第n项属性值为An，n异常信息项集的支持度为：

S u p p o r t ( A 1 , A 2 , ... , A n - 1 ⇒ A n ) = P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ∪ A n ) ]]>

其中，

n异常信息项集{A1,A2,…,An-1,An}的置信度为：

C o n f i d e n c e ( A 1 , A 2 , ... , A n - 1 ⇒ A n ) = P ( A n | A 1 ∪ A 2 ∪ ... ∪ A n - 1 ) ]]>

P ( A n | A 1 ∪ A 2 ∪ ... ∪ A n - 1 ) = P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ∪ A n ) P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ) . ]]>

最小特征确定单元220，用于根据所述支持度和所述置信度确定最小支持度
和最小置信度。

将最小的支持度和最小的置信度作为一个衡量所有支持度和所有置信度的
一个阈值，分别表示异常数据信息项集在统计意义上的最低重要性和最低可靠
性。

频繁项集确定单元230，用于根据所述最小支持度确定最大异常信息频繁项
集。

通过最小支持度，找出所有异常信息频繁项集，即支持度必须大于等于最
小支持度阈值的异常信息项集为异常信息频繁项集。

在本实施例中，根据计算所得的最小支持度阈值，对异常数据信息进行连
接操作，即分别对1项候选异常信息项集C1，剔除小于该阈值的异常信息项集
得到1项异常信息频繁项集L1；下一步由L1自身连接产生2项候选异常信息项
集C2，保留C2中满足约束条件的异常信息项集得到2项异常信息频繁项集，记
为L2；再下一步由L2与L1连接产生3项候选异常信息项集C3，保留C2中满足
约束条件的异常信息项集得到3项异常信息频繁项集，记为L3，这样循环下去，
得到最大异常信息频繁项集Lk。

在其中一个实施例中，在对异常数据信息进行连接操作时，还进行剪枝操
作，在产生候选异常信息项集Ck的过程中起到减小搜索空间的目的。由于候选
异常信息项集Ck是异常信息频繁项集Lk-1与L1连接产生的，根据Apriori的性
质异常信息频繁项集的所有非空异常信息项集也必须是异常信息频繁项集，所
以不满足该性质的项集将不会存在于候选异常信息项集Ck中，该过程就是剪枝。

待定规则确定单元240，用于根据所述最大频繁异常信息项集确定待定关联
规则。

最大异常信息频繁项集Lk满足最小支持度阈值，因此可以通过最大异常信
息频繁项集Lk，确定待定关联规则。

关联规则确定单元250，用于根据所述待定关联规则及所述最小置信度确定
所述关联规则。

在频繁项集确定单元230中，未超过最小支持度阈值的异常信息项集已被
剔除。关联规则确定单元250将待定关联规则中能够满足最小置信度阈值的规
则，确定为关联规则。即关联规则，是同时满足最小支持度阈值和最小置信度
阈值的规则。

在其中一个实施例中，采用ID3算法，以专家样本库中每列异常属性的信
息熵的下降速度作为构造决策树模型选取节点顺序的标准，直到生成的决策树
模型能完美分类训练样例。所述专家样本库中的异常属性为根据所述关联规则
确定的异常数据信息项集所分别包含的属性值所对应的属性。

具体地，如图8所示，模型建立模块400包括：

增益确定单元410，用于获取所述专家样本库的每列所述异常属性，分别根
据每列异常属性的异常属性值进行异常分类，并进行统计，根据统计结果确定
每列异常属性的信息增益值。

在其中一个实施例中，所述专家样本库的异常属性为根据所述关联规则确
定的满足最小支持度阈值的最大异常信息频繁项集所包含的属性值所对应的属
性。

专家样本库包括多条异常数据信息记录，每条异常数据信息记录包括若干
列异常属性。

(一)假设一列异常属性A中有t个不相关的异常属性值A1,A2,…,At，即t
个不相关的异常类别信息A1,A2,…,At，则他们的平均信息量，即异常属性A的平
均信息量，为：

I ( A 1 , A 2 , ... , A t ) = Σ j = 1 t I ( A j ) = Σ j = 1 t p ( A j ) log 2 1 p ( A j ) , ]]>

其中，p(Aj)是异常属性A的取值为Aj发生的概率。

(二)假设S是专家样本库，即所有根据关联规则确定的异常数据信息的
样本集合，|S|是异常数据信息样本集合的样本数。根据每列异常属性的异常属
性值将异常数据信息样本划分为m个不同的异常信息类别C1,C2,…,Cm，这些信
息类别的大小，即属性值分别为C1,C2,…,Cm的异常数据信息记录的条数，分别标
记为|C1|,|C2|,…,|Cm|，那么专家样本库S是Cj类的概率为:

p ( S j ) = | C j | | S | . ]]>

异常属性A具有若干个异常属性值，分别取其中一个异常数属性值为v的
样本子集，记做Sv。在选择异常属性A后的分支节点上，确定该节点的样本子
集Sv的熵为E(Sv)。为了得到异常属性A导致的期望熵值，计算每个样本子集
Sv的熵的加权和，其权值是属于样本子集Sv在专家样本库S中所占有的比例p
(Sv)，即|Sv|/|S|。因此异常属性A的平均信息期望熵为：

E(S,A)＝Σp(Sv)·E(Sv)；即，E(S,A)＝Σ(|Sv|/|S|)·E(Sv)。

那么，异常属性A对于专家样本库S的信息增益值G(S,A)为：

G(S,A)＝E(S)-E(S,A)；

E(S)等于异常属性A的平均信息量I(A1,A2,…,At)。

如此，确定每一个异常属性对于专家样本库S的信息增益值。

节点确定单元430，用于根据所述信息增益值确定所述每列异常属性在所述
决策树模型中的节点位置。

信息增益值G(S,A)越大，说明异常属性A对分类提供的信息越多，故选择
信息增益值G(S,A)最大的属性作为决策树模型的根节点，以此将信息增益值递
减而往下分级，最终至异常类别为叶节点，形成完整的决策树模型。

下面以广州白云区大用户用电异常的分类识别为例进行说明。

从自定义查询中采集异常情况相关数据信息如表1：

表1原始异常数据信息列表

由于抽样专业和抽样业务分别已确定是抄核收、当月抄表(核、收)业务，
故对各异常数据信息项集进行关联度计算时不考虑这两项，而用户编号与总户
号基本一致，故只计算用户编号。可以得到异常数据信息项集的支持度和置信
度如下表2、表3：

表2各异常数据信息项集的支持度

表3各异常数据信息项集的置信度

由于没有研究意义，首先对支持度置信度都为0的异常数据信息项去除，
然后从剩下的异常信息项中确定最小支持度和最小置信度分别为0.00008和
0.00013，则由这最小支持度和最小置信度产生的具有关联规则的最大异常信息
频繁项集后根据其关联规则构造出专家样本库部分数据如表4所示：

表4专家样本库

为了使实例计算简单易懂，现只以用电类别、抽样业务以及异常类别中的
3705990和3705979为例来计算决策树模型的异常属性中异常类别的平均信息
量：

分别统计各异常属性样本数如下表5：

表5异常属性样本数统计表

最终的异常属性中异常类别有两类结果：3705990和3705979，其样本数统
计结果分别为A1,A2，则：

A1＝641,A2＝383；A＝A1+A2＝1024

计算分别属于每一类的概率为：

P 1 = 641 1024 = 0.626 ; P 2 = 383 1024 = 0.374 ]]>

平均信息量为：

I(A1,A2)＝I(641,383)＝-P1·log2P1-P2·log2P2＝0.9537

抽样业务大工业中，异常类别为3705990和3705979分别为A1＝256,A2＝0，
则分别属于每一类的概率为：

P 1 = 256 256 = 1 ; P 2 = 0 256 = 0 ]]>

平均信息量为：

I(S1,S2)＝I(256,0)＝-P1·log2P1-P2·log2P2＝0

抽样业务住宅中，异常类别为3705990和3705979分别为A1＝257,A2＝127，
则分别属于每一类的概率为：

P 1 = 257 384 ; P 2 = 127 384 ]]>

平均信息量为：

I(S1,S2)＝I(257,127)＝-P1·log2P1-P2·log2P2＝0.9157

抽样业务商业中，异常类别为3705990和3705979分别为A1＝128,A2＝256，
则分别属于每一类的概率为：

P 1 = 128 384 ; P 2 = 256 384 ]]>

平均信息量为：

I(S1,S2)＝I(128,256)＝-P1·log2P1-P2·log2P2＝0.9183

抽样业务中各组所占比例分别：

大工业：256/1024＝0.25；

住宅：384/1024＝0.375；

商业：384/1024＝0.375。

则用电类别的平均信息期望为：

E(用电类别)＝0.375×0.9183+0.25×0+0.375×0.9157＝0.6877

因此用电类别的信息增益值为：

G(用电类别)＝0.9537-0.6877＝0.266

如上计算得到每个异常属性的信息增益值，其中用电类别的增益值最大，
故选择用电类别为根节点，内部节点为抽样业务，最后叶节点为异常类别。

抽取1000组样本数据做验证数据，由决策树模型诊断异常类别结果如下：

表6模型的自动诊断

这1000组数据中，异常类别被准确的预测的有782组，即该诊断模型的预
测准确率达到了78.2％。具有较高精准性和实用性，根据该诊断模型识别出容易
出现异常的业务以及疑难客户，进行重点的跟踪，从而及时发现异常并改进，
可以节省人力、物力、财力，提高工作效率，为营销稽查工作提供坚实的技术
支持。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但
并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的
普通技术人员来说，在不脱离本发明构思的前提下，还可以做出多个变形和改
进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权
利要求为准。