《一种适用于智能变电站一体化监控系统的数据挖掘方法.pdf》由会员分享,可在线阅读,更多相关《一种适用于智能变电站一体化监控系统的数据挖掘方法.pdf(16页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103455563 A(43)申请公布日 2013.12.18CN103455563A*CN103455563A*(21)申请号 201310356065.5(22)申请日 2013.08.15G06F 17/30(2006.01)G06Q 50/06(2012.01)(71)申请人国家电网公司地址 100031 北京市西城区西长安街86号申请人中国电力科学研究院(72)发明人姚志强 樊陈 窦仁晖 任浩耿明志 徐歆(74)专利代理机构北京安博达知识产权代理有限公司 11271代理人徐国文(54) 发明名称一种适用于智能变电站一体化监控系统的数据挖掘方法(57) 摘要本。
2、发明提供一种适用于智能变电站一体化监控系统的数据挖掘方法,包括以下步骤:对变电站数据进行分类和预处理;对经过预处理的变电站数据进行离散时间划分,形成数据集;进行变电站数据挖掘,实现历史数据库中数据成员关联规则的挖掘;对变电站新增数据进行挖掘,实现变电站新增数据与历史数据库中数据成员关联规则的挖掘;将所述数据成员关联规则对外输出。采用数据权重计数,使得数据规则强度有了量化指标,便于后续应用分析和处理;新增数据挖掘采用分离式动态挖掘,独立对新增数据块进行操作,极大提高算法效率,并实现知识库的定期自学习和自动更新。本发明为智能变电站高级应用提供可靠的同一事件数据,提高智能变电站安全运行水平。(51)。
3、Int.Cl.权利要求书2页 说明书12页 附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书12页 附图1页(10)申请公布号 CN 103455563 ACN 103455563 A1/2页21.一种适用于智能变电站一体化监控系统的数据挖掘方法,其特征在于:所述方法包括以下步骤:步骤1:对变电站数据进行分类和预处理;步骤2:对经过预处理的变电站数据进行离散时间划分,形成数据集;步骤3:进行变电站数据挖掘,实现历史数据库中数据成员关联规则的挖掘;步骤4:对变电站新增数据进行挖掘,实现变电站新增数据与历史数据库中数据成员关联规则的挖掘;步骤5:提供服务接口,。
4、实现所述数据成员关联规则对外输出。2.根据权利要求1所述的适用于智能变电站一体化监控系统的数据挖掘方法,其特征在于:所述步骤1包括以下步骤:步骤1-1:将变电站数据分为状态量和量测量;步骤1-2:对所述状态量中的单双状态量进行单一化处理,形成开关状态的独立数据;并对所述量测量的值域范围进行泛化处理,形成域度状态进行标示的独立数据。3.根据权利要求2所述的适用于智能变电站一体化监控系统的数据挖掘方法,其特征在于:所述步骤1-2中,对所述状态量中的单双状态量进行单一化处理,具体采用:D1=0:01,1:10,2:00|11或D1=0:0,1:1其中,D1为某个状态量;对所述量测量的值域范围进行泛化。
5、处理,具体采用:F1=0:Fllimint-Fhlimint,1:Flllimint-Fllimint|Fhlimint-Fhhlimint,2:Fmax,3:Fhhlimint其中,F1为某个量测量,Fllimint表示量测值的值域下限,Flllimint表示量测值的值域下下限,Fhlimint表示量测值的值域上限,Fhhlimint表示量测值的值域上上限,Fzero表示量测值的值域异常下限,Fmax表示量测值的值域异常上限。4.根据权利要求1所述的适用于智能变电站一体化监控系统的数据挖掘方法,其特征在于:所述步骤2中,对经过预处理的变电站数据按照变电站运行时间以及历史数据库规模大小进行离散。
6、时间划分,形成数据集。5.根据权利要求1所述的适用于智能变电站一体化监控系统的数据挖掘方法,其特征在于:所述步骤3中,通过对数据集的反复迭代,计算各个变电站数据的支持度计数和权重计数,从而根据预定的关联挖掘深度实现历史数据库中数据成员关联规则的挖掘;其中,变电站数据的支持度计数为多个数据集之和,记为support(X);数据集A中包含的变电站数据的个数计为项集A,数据集B中变电站数据的个数计为项集B,则变电站数据的权重计数为:权重计数包含数据I的项集A计数+包含数据I的项集B计数。6.根据权利要求1所述的适用于智能变电站一体化监控系统的数据挖掘方法,其特征在于:所述步骤4中,通过对变电站新增数。
7、据进行挖掘,提取其中数据成员关联规则,并与历史数据库中数据成员关联规则进行比对,计算并分析包含不同数据集的原始数据集,分析每个数据集中各自变电站数据的支持度因子,并重复迭代扫描历史数据库即可获取变电站新增数据中的数据成员关联规则,实现变电站新增数据与历史数据库中数据成员关联规权 利 要 求 书CN 103455563 A2/2页3则的挖掘。7.根据权利要求6所述的适用于智能变电站一体化监控系统的数据挖掘方法,其特征在于:变电站数据的支持度因子为历史数据库中同时包含数据I的项集A计数和项集B计数与数据I权重计数在项集总数中所占比的乘积,即支持度因子包含数据I的项集A计数和项集B计数8.根据权利要。
8、求1所述的适用于智能变电站一体化监控系统的数据挖掘方法,其特征在于:所述步骤5中,通过数据挖掘,实现变电站新增数据与历史数据库中数据成员关联规则的挖掘,提供服务接口,实现所述数据成员关联规则对外输出。权 利 要 求 书CN 103455563 A1/12页4一种适用于智能变电站一体化监控系统的数据挖掘方法技术领域0001 本发明属于电力系统自动化技术领域,具体涉及一种适用于智能变电站一体化监控系统的数据挖掘方法。背景技术0002 随着国家智能电网建设工作逐步推荐,智能变电站已进入全面建设阶段,智能变电站相较于传统变电站和数字变电站的重要区别之一就是智能变电站集成了大量智能电子设备,信息化、数字。
9、化和互动化程度得以提升,带来数据量的大幅增加。而智能变电站一体化监控系统则建立了全站统一数据库,不同子系统及设备的数据集中存放在统一数据库中,虽然信息量有了量的提高,但还没有提出针对大量数据的有效数据处理方法。目前智能变电站一体化监控系统的信息分类和检索大多采用按时间、按间隔、按告警等级等进行过滤和筛选,在进行信息综合分析和智能告警分析处理时,从数据库仅仅能获得单个数据的信息,数据之间的相关性无法通过常规手段获取,导致智能变电站高级应用还停留在使用固定规则库的基础上,无法实现高效准确的智能分析和告警功能。0003 随着国家电网公司“三集五大”体系建设的深入,尤其是“大运行、大检修”的发展建设,。
10、对主站系统的建设提出了更高的智能化要求。新需求的提出也使得主站系统对变电站的数据需求有了重大改变,不再局限于传统的“四遥”信息和控制命令信息,更多的需要变电站的全景信息(如电网实时运行信息、一二次设备状态监测信息、设备台账和配置信息、模型图形文件等)以及大量预处理后的结果信息(智能告警信息、故障分析报告信息等)。新需求使得主站对众多数据获取的途径提出了新要求,传统方式下各类数据分别存储于各个设备,不仅获取数据困难,而且获取的数据还十分有限,而新需求迫切改变分布式获取数据的方式,取而代之的是从一个数据中心统一获取,而这需要现有厂站监控系统的体系架构进行优化和重新构建,从而智能变电站中的统一数据库。
11、应运而生,加上智能设备自身的监控告警信号数量也有大幅提升,从而导致智能变电站数据库的信息量较之前有了质的飞跃,传统变电站和数字化变电站的数据处理方法已无法满足一体化监控系统应用需求,因此出现了基于数据挖掘方法的数据处理方式设想。0004 所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整策略,减少风险,做出正确的决策。而对于电力自动化领域而言,常年累月在后台系统数据中保存的海。
12、量的变电站运行数据,包括电网运行数据、设备装置告警信息、事故动作数据、录波数据、电力设备基本信息等各种数据,如何对其进行有效的处理和分析是现阶段变电站提升智能化水平的关键,从其他领域衍生出来的数据挖掘方法正好满足了智能变电站一体化监控系统对数据内在相关性迫切诉求。0005 数据挖掘技术在问世之初就获得了各行业的广泛关注,电力系统也对其开展大量研究,针对电力系统数据特点提出了各种挖掘算法和应用模式。但对于变电站而言,数据说 明 书CN 103455563 A2/12页5挖掘并未开展相关研究工作,考虑智能变电站的一体化监控系统推广应用,其建立的统一数据库给智能变电站信息综合分析带来机遇和挑战。利用。
13、数据挖掘算法对数据进行处理,获取同一事件数据,为一体化监控系统的信息综合分析和智能告警功能提供有效的基础数据。在对智能变电站数据进行挖掘同时也实现了高级应用功能的自学习型知识库的建立。发明内容0006 为了克服上述现有技术的不足,本发明提供一种适用于智能变电站一体化监控系统的数据挖掘方法,为智能变电站高级应用提供可靠的同一事件数据,提高智能变电站安全运行水平。0007 为了实现上述发明目的,本发明采取如下技术方案:0008 提供一种适用于智能变电站一体化监控系统的数据挖掘方法,所述方法包括以下步骤:0009 步骤1:对变电站数据进行分类和预处理;0010 步骤2:对经过预处理的变电站数据进行离。
14、散时间划分,形成数据集;0011 步骤3:进行变电站数据挖掘,实现历史数据库中数据成员关联规则的挖掘;0012 步骤4:对变电站新增数据进行挖掘,实现变电站新增数据与历史数据库中数据成员关联规则的挖掘;0013 步骤5:将所述数据成员关联规则对外输出。0014 所述步骤1包括以下步骤:0015 步骤1-1:将变电站数据分为状态量和量测量;0016 步骤1-2:对所述状态量中的单双状态量进行单一化处理,形成发生和消除等开关状态的独立数据;并对所述量测量的值域范围进行泛化处理,形成越限、严重越限、正常以及异常状态进行标示的独立数据。0017 所述步骤1-2中,对所述状态量中的单双状态量进行单一化处。
15、理,具体采用:0018 D1=0:01,1:10,2:00|11或D1=0:0,1:10019 其中,D1为某个状态量;0020 对所述量测量的值域范围进行泛化处理,具体采用:0021 F1=0:Fllimint-Fhlimint,1:Flllimint-Fllimint|Fhlimint-Fhhlimint,2:0022 Fmax,3:Fhhlimint0023 其中,F1为某个量测量,Fllimint表示量测值的值域下限,Flllimint表示量测值的值域下下限,Fhlimint表示量测值的值域上限,Fhhlimint表示量测值的值域上上限,Fzero表示量测值的值域异常下限,Fmax表示。
16、量测值的值域异常上限。0024 所述步骤2中,对经过预处理的变电站数据按照变电站运行时间以及历史数据库规模大小进行离散时间划分,形成数据集。0025 所述步骤3中,通过对数据集的反复迭代,计算各个变电站数据的支持度计数和权重计数,从而根据预定的关联挖掘深度实现历史数据库中数据成员关联规则的挖掘;0026 其中,变电站数据的支持度计数为多个数据集之和,记为support(X);0027 数据集A中包含的变电站数据的个数计为项集A,数据集B中变电站数据的个数计为项集B,则变电站数据的权重计数为:说 明 书CN 103455563 A3/12页60028 权重计数包含数据I的项集A计数+包含数据I的。
17、项集B计数。0029 所述步骤4中,通过对变电站新增数据进行挖掘,提取其中数据成员关联规则,并与历史数据库中数据成员关联规则进行比对,计算并分析包含不同数据集的原始数据集,分析每个数据集中各自变电站数据的支持度因子,并重复迭代扫描历史数据库即可获取变电站新增数据中的数据成员关联规则,实现变电站新增数据与历史数据库中数据成员关联规则的挖掘。0030 变电站数据的支持度因子为历史数据库中同时包含数据I的项集A计数和项集B计数与数据I权重计数在项集总数中所占比的乘积,即0031 支持度因子0032 包含数据I的项集A计数和项集B计数0033 所述步骤5中,通过数据挖掘,实现变电站新增数据与历史数据库。
18、中数据成员关联规则的挖掘,提供服务接口,实现所述数据成员关联规则对外输出。0034 与现有技术相比,本发明的有益效果在于:0035 1)数据划分清晰,各步骤之间耦合性较弱,方便程序的升级和改造;0036 2)生成的数据模型和挖掘对象清晰明了,按照类型分类建模;0037 3)关于量测量的处理,采用分级值域处理,符合变电站运行规程要求,同时大大简化了计算过程,优化了转化算法;0038 4)关于数据挖掘的算法,在基于Apriori算法的基础上,采用可实现数据成员权重计数的方法,使得数据规则强度有了量化指标,便于后续应用分析和处理;0039 5)关于新增数据挖掘方法,采用分离式动态挖掘,独立对新增数据。
19、块进行操作,极大提高算法效率,并实现知识库的定期自学习和自动更新。附图说明0040 图1是适用于智能变电站一体化监控系统的数据挖掘方法流程图。具体实施方式0041 下面结合附图对本发明作进一步详细说明。0042 如图1,本发明提供一种适用于智能变电站一体化监控系统的数据挖掘方法,具体实现步骤如下:0043 1)变电站数据分类和预处理;0044 对于智能变电站的数据库来说,所表示的信息系统多为实值系统,不能直接采用数据挖掘常用的状态值来处理,应首先将实值转变为宜理解和处理的离散值,如将电流值转化为高、低,湿度值转化为潮湿、干燥等。0045 智能变电站一体化监控系统数据库可看成是信息系统,而信息系。
20、统是数据集,经常表示为数据表。该数据表的每一行代表一个对象,这些对象可以是事例、事件等。而数据表的每一列是对象的属性,这些属性可以是对象的特征、状态、度量等。0046 考虑变电站所包含的状态量和量测量存在其特有属性以及存放方法,可采用ID说 明 书CN 103455563 A4/12页7号与状态属性联合编码的方式进行。用数据库信息唯一编号代表信息名称,对状态量采用0(消除)、1(发生)、2(故障)三种状态来反映;对量测量采用3(严重越限)、1(越限)、0(正常)、2(异常)来表示。该编码不仅编码简单、易于实现,而且也便于挖掘算法对数据的操作。如下示例,0047 0:99-121,1:55-99。
21、|121-165,2:9999,3:165。0048 对于量测量而言,U1代表某110kV母线电压量测量,在99-121的值域区间为正常范围,用0表示;在55-99或121-165为越限,用1表示;在小于0或大于9999则为异常,用2表示;在0至55或高于165时则为严重越限,用3表示。0049 对于状态量而言,A1代表某开关位置,变电站一般采用双位开关位置进行判断其位置状态,00和11代表故障位,01代表分位,10代表合位。A2代表某信号状态,0代表信号消除,1代表信号发生。这里统一对状态量进行分类,都利用发生和消除来表示其状态,对双位开关01用0表示,10用1表示,00或11用2表示。如下。
22、示例:0050 A1=0:01,1:10,2:00|11;0051 A2=0:0,1:1。0052 2)对经过预处理的变电站数据进行离散时间划分0053 对经过预处理的变电站数据按照变电站运行时间以及历史数据库规模大小进行离散时间划分,形成数据集。该数据集是在变电站数据库中的最小单位,用T表示。例如集合T=I1,I2,Ik是项集,I是变电站历史数据库中单个数据,T中I个数的数量为K,则T称为K为项集。0054 在数据集的挖掘过程中,挖掘范围包含全站范围的数据,从时间断面角度分析,由于变电站很多发生的事件不仅仅影响到单间隔,有部分事件会与其他间隔或设备有关,因此需要通过时间段来划分数据集。以数据。
23、库中时间段为数据集,以T1、T2、T3、 Tn来表示时间段。按时间间隔划分的数据集属性如表1所示:0055 表10056 说 明 书CN 103455563 A5/12页80057 在离散时间间隔的数据聚合方式下,通过时间段对数据库中的状态量和量测量进行分段,以Ix来表示单个事件数据,各段时间内的信号以表1中的项ID列表作为数据集中的项,数据集列表如表2所示:0058 表20059 0060 在完成数据集列表后,按照变电站数据库中实际信号发生的次数进行计数,各段时间内的信号以上表中的项ID列表作为数据集中各项内容发生的次数作为数据集中的子项,数据集及计数如表3所示:0061 表30062 00。
24、63 上表中同时记载了项ID之间的关系和项ID出现的次数。表中I12:2表示信号I12在第一条记录T1(Record)中出现的次数是2,即发生了2次I12,其他依次类推。0064 对于智能变电站这个特殊的信息系统来说,状态量次数根据实际发生情况进行统计即可。对量测量则需利用前面提到的值域范围进行泛化处理。如表4所示,表中字段内容分别表示各数据集ID及其发生的次数,如I14=0:2,1:1,2:2,3:4分别表示在T1时间段内I14发生的次数:电压值在99到121之间的次数为2,在55到99和121到165之间的次数为1,大于9999和小于0的次数为2,小于55和大于165的次数为4。其它字段依。
25、此类推。0065 表40066 0067 说 明 书CN 103455563 A6/12页90068 在获取变电站数据库中的各状态量、量测量和遥控的变化次数后,组建如下表所示的数据分类表,通过信号的不同状态来区分数据,如I14的正常(0)状态可表示为I14-0,其越限状态表示为I14-1,其异常状态表示为I14-2,其严重越限状态表示为I14-3,具体如表5所示:0069 表50070 0071 至此,在完成对变电站数据库中的数据分类和预处理后,基于不同状态的状态量和量测量都作为独立的数据参与到数据挖掘中,Ix-0、Ix-1,、Ix-2、Ix-3分别代表了量测量Ix信号的4种状态,状态量依次类。
26、推。为便于理解,简化文字描述内容,尽量做到通俗易懂,后面的具体算法推导和方法分析等相关内容依旧采用Ix的表达方式,不进行复杂下标的标示。具体算法使用的数据模型如表6所示。0072 表60073 属性名称说明Information_Attribute信号基本信息Information_ID数据代号Information_TID数据所属时间间隔Information_time信号发生时间Information_type信号类型Information_state信号状态Information_serialnumber数据唯一编码Information_value数据值说 明 书CN 10345556。
27、3 A7/12页100074 Information_Substation信号所属厂站Substation_id厂站序号Substation_name厂站名称Substation_voltage厂站电压等级Information_Equipment信号所属设备信息Equipment_id设备编号Equipment_name设备名称Equipment_type设备类型Equipment_voltage设备电压等级Information_Fault信号发生时故障属性Fault_type故障类别Fault_id故障编号Fault_name故障名称Information_Environment信号发生时的环境属性Environment_humidity环境湿度Environment_temp环境温度0075 3)数据挖掘0076 以表3的数据为例,本发明的数据挖掘算法实现过程如下:首先扫描数据库,计算各数据集支持度和支持度因子的计数。获得的数据集支持度和权重计数如表7所示内容(表中的I12等项的实际含义为Ix-0,以下以此类推):0077 表7说 明 书CN 103455563 A10。