一种基于算法组态和分布式流计算的大数据分析平台装置及方法.pdf

上传人:zhu****_FC 文档编号:6285266 上传时间:2019-05-28 格式:PDF 页数:12 大小:909.26KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510962436.3

申请日:

2015.12.17

公开号:

CN105608758A

公开日:

2016.05.25

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G07C 3/00申请日:20151217|||公开

IPC分类号:

G07C3/00; G06Q50/06(2012.01)I

主分类号:

G07C3/00

申请人:

山东鲁能软件技术有限公司

发明人:

丁书耕; 张建辉; 孙燕; 王震; 丛兴滋; 杨立涛; 刘涛

地址:

250101 山东省济南市高新区新泺大街2008号银荷大厦B座5层

优先权:

专利代理机构:

北京元本知识产权代理事务所 11308

代理人:

李斌

PDF下载: PDF下载
内容摘要

一种基于算法组态和分布式流计算的大数据分析平台装置及方法,包括依次连接的数据源获取装置、数据整合单元、时序数据存储器、计算单元、无线终端和数据服务终端,可以快速、高效、及时地处理海量实时数据,保证计算效率高效,灵活和可扩展强,同时保证设备安全、稳定、高效地运行。

权利要求书

1.一种基于算法组态和分布式流计算的大数据分析平台装置,包括依次连接的数
据源获取装置、数据整合单元、时序数据存储器、计算单元、无线终端和数据服务终
端,其中数据服务终端还分别与时序数据存储器、数据源获取装置和无线终端连接,
其特征在于:
数据源获取装置,用于获取设备监测数据和常规的设备数据,并发送至数据整合
单元;
数据整合单元,用于以接收来自数据源获取装置发送的设备监测数据和常规的设
备数据,经过预处理后将结果发送给时序数据存储器;
时序数据存储器,用于存储预处理后的数据和配置数据,并且将访问频度高、性
能要求高的数据集中缓存到时序数据存储器中的内存器;
计算单元,用于驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依
据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,其
中计算单元包括多个子计算单元,多个子计算单元按照实际业务需求动态配置,每个
子计算单元独立存在,能够根据行业专家经验独立演化,采用分布式的流式计算引擎
对调用和接收的数据进行计算后实时输出,回传到时序数据存储器和/或数据服务端;
数据服务端,包括数据服务端处理器、接口单元和显示装置,其中数据服务端处
理器用于从时序数据存储器直接读取数据和/或接收来自计算单元处理后的数据,并且
进行分析处理,将处理后的结果通过显示装置进行显示,同时通过接口单元将处理后
的结果发送给无线终端;
无线终端,用于接收来自数据服务端发送的处理后的结果,并且能够无线发送控
制命令至数据服务端,数据服务端接收到控制命令后控制数据源获取装置,调整数据
源获取装置的数据采集频率。
2.如权利要求1所述的装置,其特征在于:数据源获取装置包括监测传感器、监
测数据存储器和设备数据存储器,其中监测数据存储器分别与监测传感器和数据整合
单元连接,数据整合单元还连接设备数据存储器:
监测传感器,用于实时或准实时获取设备监测数据,并将采集到的设备监测数据传
输给监测数据存储器;
监测数据存储器,用于将设备监测数据存储,并且以流式输出的方式,将设备监
测数据输出至数据整合单元;
设备数据存储器,用于存储常规的设备数据,并且以批量输出的方式,将常规的
设备数据输出至数据整合单元。
3.如权利要求2所述的装置,其特征在于:分布式的流式计算引擎的通讯协议都
采用统一的标准协议。
4.如权利要求3所述的装置,其特征在于:所述标准协议为消息传输协议MQTT。
5.如权利要求2-4任一项所述的装置,其特征在于:还包括与数据整合单元连接
的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入
监测设备数据。
6.如权利要求5所述的装置,其特征在于:配置数据为描述设备监测数据和/或
常规的设备数据的业务含义数据、存储结构数据和/或处理逻辑数据。
7.如权利要求6所述的装置,其特征在于:所述访问频度高、性能要求高的数据
是指近期的监测数据、常规的设备数据,以及关注率较高的历史指标数据、模型元数
据和预处理规则数据。
8.如权利要求7所述的装置,其特征在于:数据服务端处理后的结果为故障预警
结果和/或负荷预测结果。
9.如权利要求1或8任一项所述的装置,其特征在于:所述无线终端为笔记本电
脑、平板电脑和/或手机。
10.一种利用如上述权利要求2-9任一项所述的装置的大数据分析方法,其特征
在于,依次包括如下步骤:
(1)初始化,设置数据服务端的初始参数,根据设置好的初始参数控制监测传感
器的采样周期为每秒6次,采样时间为1分钟,将1分钟内采样的数据求平均值A;
(2)在同样的初始参数条件下,重复步骤(1)3次,分别求得3次的平均值B、
C、D;
(3)将平均值A、B、C、D求和后再求平均值P:
A.如果则监测传感器性能稳定,进入步骤(4);
B.如果则监测传感器性能不稳定,则进入步骤(1);
(4)实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给监测数
据存储器后存储,以流式输出的方式,将设备监测数据输出至数据整合单元;
(5)以批量接入的方式,通过预定义的调度计划自动获取设备数据存储器中的常
规的设备数据,将设备监测数据和常规的设备数据以预处理规则进行数据的清洗、过
滤、转换的预处理,并将预处理后的数据输出至时序数据存储器进行存储;
(6)将近期的监测数据、常规的设备数据,以及关注率较高的历史指标数据、模
型元数据和预处理规则数据集中缓存到时序数据存储器中的内存器;
(7)通过计算单元驱动调度引擎来调用和接收时序数据存储器存储的数据,并且
依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,
其中计算单元包括多个子计算单元,多个子计算单元按照实际业务需求动态配置,每
个子计算单元独立存在,能够根据行业专家经验独立演化,采用分布式的流式计算引
擎对调用和接收的数据进行计算后实时输出,回传到时序数据存储器和/或数据服务
端;
(8)从时序数据存储器直接读取数据和/或接收来自计算单元处理后的数据,并
且进行分析处理,将处理后的结果通过显示装置进行显示,同时通过接口单元将处理
后的结果发送给无线终端;
(9)通过无线终端接收来自数据服务端发送的处理后的结果,根据处理后的结果
决定是否发送控制命令至数据服务端,数据服务端接收到控制命令后控制监测传感器,
调整监测传感器的数据采集频率,其中处理后的结果为故障预警结果和/或负荷预测结
果,根据处理后的结果决定是否发送控制命令至数据服务端满足:
A.当故障预警结果和/或负荷预测结果为正常时,降低监测传感器的数据采集频
率;
B.当故障预警结果和/或负荷预测结果为不正常时,提高监测传感器的数据采集
频率,并且重复步骤(1)-(9),同时在数据服务端发出警报,在数据服务端的显示
装置上实时显示故障预警结果和/或负荷预测结果,并且通知维修人员。

说明书

一种基于算法组态和分布式流计算的大数据分析平台装置及方法

技术领域

本发明涉及设备监测分析应用领域,具体涉及到一种基于算法组态和分布式流计算的大数据分
析平台装置及方法。

背景技术

随着计算机技术的飞速发展,各行业的数据急速增长,数据量变的越来越大,类型也越来越多,
数据结构也趋于复杂化,传统的数据库不但各设备独立放置,并且需要较大的部署空间,存在不易
部署、成本较高等缺点,不能满足用户的一般要求。

时序数据是带时间标签的时间序列数据,其典型特点是产生频率快、严重依赖于采集时间、测
点多信息量大。在电力行业中,为了保证设备安全、稳定、高效地运行,通常会对发电、变电等各
类设备的运行状态进行实时监测,采集获得大量的时序数据可作为设备运行状态评估、设备运行故
障预警、设备可靠性分析等高级应用的基础,因而,如何快速、高效、及时地处理海量实时数据,
一直是电力、化工、石油、钢铁等重资产行业面临的一项重大课题。

电力行业中历史业务数据收集和分析、实时或准实时数据的即时分析是电力行业中信息化建设
过程中比较重要的内容,它需要一套完整、稳定、契合实际业务场景的大数据分析装置的解决方案,
对设备故障预警等实时分析类业务场景提供稳定可靠的底层数据支撑。

近年来,随着云计算、大数据、机器学习、数据挖掘等IT技术迅猛发展,分布式存储、高性
能计算在理论研究和技术实践层面均获得了关键性突破,业界涌现出了一批以Hadoop为代表的大
数据处理和应用解决方案。

Hadoop是一个分布式系统基础架构,包括分布式文件系统HDFS(HadoopDistributedFile
System)、分布式存储系统HBase、并行计算编程模型MapReduce等几个核心部分,它可以极大地
简化大规模数据的处理过程,但它在功能完整性、运行稳定性方面存在一定的局限性,而基于Hadoop
衍生的一些商用大数据平台又跟电力业务场景的实际需求存在偏差,因而,深度分析研究电力行业
的业务需求,构建一种基于分布式时序数据服务的大数据分析装置,具有深远的意义和较强的利用
价值。

电力行业中业务模型的多样性以及复杂性是电力行业中信息化建设过程中比较核心的内容,算
法模型解决了由一系列计算单元依照实际业务需求动态编排,从而形成业务模型的过程,计算单元
独立演化能够更好地提高计算单元的准确性;流式计算引擎能够保证计算效率的高效,灵活和可扩
展等。

然而,目前并没有专门针对大数据分析平台装置而设计的结合了算法组态和分布式流计算方式
的装置。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于算法组态和分布式流计算的大数据分析
平台装置及方法,可以快速、高效、及时地处理海量实时数据,保证计算效率高效,灵活和可扩展
强,同时保证设备安全、稳定、高效地运行。

本发明提供了一种基于算法组态和分布式流计算的大数据分析平台装置,包括依次连接的数据
源获取装置、数据整合单元、时序数据存储器、计算单元、无线终端和数据服务终端,其中数据服
务终端还分别与时序数据存储器、数据源获取装置和无线终端连接,

数据源获取装置,用于获取设备监测数据和常规的设备数据,并发送至数据整合单元;

数据整合单元,用于以接收来自数据源获取装置发送的设备监测数据和常规的设备数据,经过
预处理后将结果发送给时序数据存储器;

时序数据存储器,用于存储预处理后的数据和配置数据,并且将访问频度高、性能要求高的数
据集中缓存到时序数据存储器中的内存器;

计算单元,用于驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编排好
的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,其中计算单元包括多个子计算
单元,多个子计算单元按照实际业务需求动态配置,每个子计算单元独立存在,能够根据行业专家
经验独立演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,回传到时序
数据存储器和/或数据服务端;

数据服务端,包括数据服务端处理器、接口单元和显示装置,其中数据服务端处理器用于从时
序数据存储器直接读取数据和/或接收来自计算单元处理后的数据,并且进行分析处理,将处理后
的结果通过显示装置进行显示,同时通过接口单元将处理后的结果发送给无线终端;

无线终端,用于接收来自数据服务端发送的处理后的结果,并且能够无线发送控制命令至数据
服务端,数据服务端接收到控制命令后控制数据源获取装置,调整数据源获取装置的数据采集频率。

进一步地,数据源获取装置包括监测传感器、监测数据存储器和设备数据存储器,其中监测数
据存储器分别与监测传感器和数据整合单元连接,数据整合单元还连接设备数据存储器:

监测传感器,用于实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给监测数
据存储器;

监测数据存储器,用于将设备监测数据存储,并且以流式输出的方式,将设备监测数据输出至
数据整合单元;

设备数据存储器,用于存储常规的设备数据,并且以批量输出的方式,将常规的设备数据输出
至数据整合单元;

进一步地,分布式的流式计算引擎的通讯协议都采用统一的标准协议。

进一步地,所述标准协议为消息传输协议MQTT。

进一步地,还包括与数据整合单元连接的人工输入装置,用于在因安全要求实施了隔离措施或
不支撑数据接入的情形下输入监测设备数据。

进一步地,配置数据为描述设备监测数据和/或常规的设备数据的业务含义数据、存储结构数
据和/或处理逻辑数据。

进一步地,所述访问频度高、性能要求高的数据是指近期的监测数据、常规的设备数据,以及
关注率较高的历史指标数据、模型元数据和预处理规则数据。

进一步地,数据服务端处理后的结果为故障预警结果和/或负荷预测结果。

进一步地,所述无线终端为笔记本电脑、平板电脑和/或手机。

本发明还提供了一种基于算法组态和分布式流计算的大数据分析平台装置的大数据分析方法,
依次包括如下步骤:

(1)初始化,设置数据服务端的初始参数,根据设置好的初始参数控制监测传感器的采样周
期为每秒6次,采样时间为1分钟,将1分钟内采样的数据求平均值A;

(2)在同样的初始参数条件下,重复步骤(1)3次,分别求得3次的平均值B、C、D;

(3)将平均值A、B、C、D求和后再求平均值P:

A.如果则监测传感器性能稳定,进入步骤(4);

B.如果则监测传感器性能不稳定,则进入步骤(1);

(4)实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给监测数据存储器后
存储,以流式输出的方式,将设备监测数据输出至数据整合单元;

(5)以批量接入的方式,通过预定义的调度计划自动获取设备数据存储器中的常规的设备数
据,将设备监测数据和常规的设备数据以预处理规则进行数据的清洗、过滤、转换的预处理,并将
预处理后的数据输出至时序数据存储器进行存储;

(6)将近期的监测数据、常规的设备数据,以及关注率较高的历史指标数据、模型元数据和
预处理规则数据集中缓存到时序数据存储器中的内存器;

(7)通过计算单元驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编
排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,其中计算单元包括多个子
计算单元,多个子计算单元按照实际业务需求动态配置,每个子计算单元独立存在,能够根据行业
专家经验独立演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,回传到
时序数据存储器和/或数据服务端;

(8)从时序数据存储器直接读取数据和/或接收来自计算单元处理后的数据,并且进行分析处
理,将处理后的结果通过显示装置进行显示,同时通过接口单元将处理后的结果发送给无线终端;

(9)通过无线终端接收来自数据服务端发送的处理后的结果,根据处理后的结果决定是否发
送控制命令至数据服务端,数据服务端接收到控制命令后控制监测传感器,调整监测传感器的数据
采集频率,其中处理后的结果为故障预警结果和/或负荷预测结果,根据处理后的结果决定是否发
送控制命令至数据服务端满足:

A.当故障预警结果和/或负荷预测结果为正常时,降低监测传感器的数据采集频率;

B.当故障预警结果和/或负荷预测结果为不正常时,提高监测传感器的数据采集频率,并且重
复步骤(1)-(9),同时在数据服务端发出警报,在数据服务端的显示装置上实时显示故障预警结
果和/或负荷预测结果,并且通知维修人员。

本发明的大数据分析装置和方法,可以实现:

1)以稳定、可靠、高效的开源分布式存储系统和并行计算服务为核心,针对重资产行业时间
序列数据存储和访问需求定向封装,为设备故障预警等实时分析类业务场景提供了稳定可靠的底层
数据支撑;

2)实时和准时的采集数据,时效性高,并且优化设计了数据采集频率,采集效率高,能效低
但是效能高,并且装置功能强大,可以使得监测和维修人员在远程控制和监控设备状态,即时处理,
处理时效性更高,并且因为缩短了处理时间使得减少了设备损耗,节约了成本;

3)针对系统数据的可靠性,设计了平均值数据确认方案,使得监测数据更加稳定可靠,并且
通过根据设备的实时状态调整监测频率,减轻了装置的工作负荷,使用寿命更长,性能更加稳定;

4)用分布式的流式计算引擎实现了对基于海量数据计算任务的实时推送、实时计算和输出。

附图说明

图1大数据分析平台装置结构示意图

图2算法组态和分布式流计算方法流程图

具体实施方式

下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说
明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出
的一些非本质的改进和调整,仍然属于本发明的保护范围。

本发明提供了一种基于分布式时序数据服务的大数据分析装置,如附图1所示,包括监测传感
器1、监测数据存储器2、设备数据存储器3组成的数据源获取装置,还包括数据整合单元4、时
序数据存储器5、计算单元6、无线终端8和数据服务终端7,其中监测数据存储器2分别与监测
传感器1和数据整合单元4,数据整合单元4还分别连接设备数据存储器3和时序数据存储器5,
数据整合单元4、时序数据存储器5、计算单元6和数据服务终端7依次连接,数据服务终端7还
分别与时序数据存储器5、监测传感器1和无线终端8连接;

监测传感器,用于实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给监测数
据存储器,监测传感器为安装于监测设备上的信息采集传感器,还可以为监测设备安装区域的摄像
头、温度检测器等传感器,监测数据存储器可以实时的将设备监测数据存储,并且以流式输出的方
式,将设备监测数据输出至数据整合单元。

设备数据存储器用于存储常规的设备数据,并且以批量输出的方式,将常规的设备数据输出至
数据整合单,其中常规的设备数据来自于系统配置管理,主要用于描述业务数据的业务含义、存储
结构和处理逻辑,一般在系统配置阶段产生。

数据整合单元,用于以流式接入的方式接收来自监测数据存储器发送的设备监测数据和以批量
接入的方式,通过预定义的调度计划自动获取设备数据存储器中的常规的设备数据,数据整合单元
将采集到的数据通过批量接入、流式接入、人工导入等多种形式获取,也可以直接连接采集点获取
监测数据。接入的数据在存储之前,可以进行必要的预处理,利用预先配置好的预处理规则进行清
洗、过滤、转换等操作,数据经过数据整合或者直接存储到时序数据存储器中,对于一些规则等一
些访问频率高的数据,一般存储在缓存数据中,对于一些历史业务数据,访问频率不大的数据,经
过数据整合后,一般存储在业务数据中;对于系统定义的一些数据预处理规则,计算规则,模型数
据等数据,一般存储在配置数据中;数据访问服务通过数据访问接口直接读取数据。无论是业务数
据还是配置数据,其访问频度、性能需求在具体业务场景中存在较大的差异,对于访问频度高、性
能要求高的数据,系统将其集中缓存到了系统内存中,这些被缓存的业务数据和配置数据统称为缓
存数据。一般而言,近期的业务数据、关注率较高的历史指标、模型元数据、数据预处理规则等数
据访问频度较高,可视作缓存数据。数据存储能够为数据查询服务提供基础保障,能够为在线计算
服务和离线分析服务提供输入,同时也支持相应计算结果的回写。时序数据存储器5中涉及的数据
库主要有分布式文件系统HDFS(HadoopDistributedFileSystem),列式数据库HBase(Hadoop
Database)、内存数据库Redis、关系数据库Oracle等。Oracle数据库主要用于存储配置数据以及
部分业务数据,HDFS作为大数据平台底层的分布式文件系统单元,为上层的HBASE提供支撑,也
可以直接存储业务数据中的非时序部分,HBASE是一个高可靠性、高性能、面向列、可伸缩的分布
式存储系统,主要用于存储业务数据中的时序部分,Redis是一个基于内存的key-value存储系统,
在这里主要用于存放缓存数据。

计算单元可以利用行业专家的管理经验结合统计学原理研究分析挖掘算法,以电力设备运行相
关的历史数据为输入,训练形成数据挖掘模型,不同的样本数据可形成不同的数据挖掘模型(例:
按季节区分),针对设备运行产生的新的时序数据可以重复执行训练过程,进行数据挖掘模型的持
续改进;创建完成的数据挖掘模型可参与在线计算,采用实时或准实时的方式分析电力设备的各项
评价指标。挖掘模型的训练过程涉及到了批量计算,通过批量计算作业实现;挖掘模型的应用过程
涉及到了流式计算,通过流式计算作业实现;此外,两种计算模式还可以用于实现设备评价指标、
语音语义识别、文本语义分析等等与挖掘模型无关的计算任务。

计算单元通过驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编排好的
处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,其中计算单元包括多个子计算单
元,多个子计算单元按照实际业务需求动态配置,每个子计算单元独立存在,能够根据行业专家经
验独立演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,回传到时序数
据存储器和/或数据服务端。计算单元是算法模型的组成部分,计算单元由计算单元设计器灵活设
计配置,每个计算单元可以根据行业专家经验独立演化,计算单元是独立存在的,某一个计算单元
可以进行版本升级,不断的进行演化,提高计算单元的计算准确性。大数据平台需要支持成千上万
个计算模型的大规模实时、准实时流式计算,流引擎必须高效、灵活、可扩展性,易于接入未来可
以支撑百万级别甚至千万级别测点的计算,所以使用Spark作为流计算引擎,所有的接入流计算引
擎的通讯协议都采用统一的标准,目前统一为MQTT(消息传输协议)协议。Spark提供了一栈式解决
方案,支持Batch、Streaming、Graph、Sql等多种混合计算。对于基于消息服务的实时计算结果
使用kafka技术,使用kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,
也是为了通过集群机来提供实时的消费;

对于时序数据与计算结果的列式分布式存储,通过封装PI、EDNA、Inova、庚盾等异构类型的
实时数据库采用数据连接器,采用的是Hadoop平台中面向列家族的分布式存储大数据HBASE;

对于中间计算结果的集群式缓存,使用Redis;大数据平台中提供的大量数据都需要在短时间
快速完成,对于系统的吞吐量要求很高,借助分布式内存数据库机制对访问的数据进行缓存可以极
大的提高效率。

Redis是一个key-value存储系统,和Memcached类似,它支持存储的value类型相对更多,
包括string(字符串)、list(链表)、set(集合)、zset(sortedset--有序集合)和hash(哈希类
型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些
操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证
效率,数据都是缓存在内存中。此外,Redis支持集群模式,可以对在集群节点上的数据进行分片,
镜像,极大的提高了分布式内存的可靠性和可扩展性。

不同的外部数据源,对应不同的整合方式:Sqoop支持关系库中的数据导入到大数据平台中;
SparkStreaming支持流式数据导入;普通的SparkJob可以提供批量的数据解析和处理。企业服
务总线ESB提供了服务的集成和管理。

批量计算作业通过调度引擎驱动,从数据存储区域读入业务历史数据,依据预先编排好的处理
逻辑进行计算,计算结果可以回写到数据存储区,也可以通过离线分析服务直接对外提供;流式计
算作业也是通过调度引擎驱动,数据从数据存储中以流的方式接入进来,依据预先编排好的处理逻
辑进行计算,计算结果可以回写到数据存储区,也可以通过在线计算服务直接对外提供。

计算作业用于定义计算任务的(也称作业节点)拓扑结构和执行逻辑,类似于工作流
(Workflow),其定义过程可在系统提供的作业设计器中完成,从计算引擎的视角看,每个作业节
点对应于一个计算单元(ComputeUnit),计算单元对应的程序逻辑称之为算子(Transformation)。
系统提供可视化建模工具、预置丰富的数据处理和数据展示算子,同时开放算子开发规范,支持实
际业务场景的二次开发。

数据服务端可以实现对算法组态和分布式流计算的大数据分析平台装置各类功能的封装,可以
实现数据访问服务、在线计算服务和离线分析服务。数据访问服务直接从数据存储区读取数据,它
的交互过程不涉及数据计算,可以进一步细分为配置信息访问服务、交互式查询服务,典型应用场
景主要是综合查询、可视化展示等。在线计算服务通常的时间跨度在数百毫秒到数秒之间,高并发
并且需要快速响应分析结果,典型应用场景包括故障预警、负荷预测等。离线分析服务的时间跨度
在数十分钟到数小时之间,主要用于多维统计预测、准实时分析以及聚类、分类等数据挖掘应用,
典型应用场景包括故障模式识别、稳定工况分析等。数据服务的交互模式包括同步、异步两种,在
线计算服务通常采用同步模式,离线分析服务通常采用异步模式,异步模式会引入消息服务中间件
接管计算状态和计算结果信息的传递。

无线终端可以为笔记本电脑、平板电脑和/或手机,监测人员或者维修工作人员可以通过无线
终端远程的和数据服务端实现交互,可以主动的实时查询或者被动接收数据服务端推送的监测结
果,并且也可以通过无线终端远程的操控数据服务端及装置的其他的部分,实现远程实时的操控、
监测,此外对于出现异常的情况,也可以及时的处理。

本发明还提供一种基于算法组态和分布式流计算的大数据分析平台装置的大数据分析方法,依
次包括如下步骤:

(1)初始化,设置数据服务端的初始参数,根据设置好的初始参数控制监测传感器的采样周
期为每秒6次,采样时间为1分钟,将1分钟内采样的数据求平均值A;

(2)在同样的初始参数条件下,重复步骤(1)3次,分别求得3次的平均值B、C、D;

(3)将平均值A、B、C、D求和后再求平均值P:

A.如果则监测传感器性能稳定,进入步骤(4);

B.如果则监测传感器性能不稳定,则进入步骤(1);

(4)实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给监测数据存储器后
存储,以流式输出的方式,将设备监测数据输出至数据整合单元;

(5)以批量接入的方式,通过预定义的调度计划自动获取设备数据存储器中的常规的设备数
据,将设备监测数据和常规的设备数据以预处理规则进行数据的清洗、过滤、转换的预处理,并将
预处理后的数据输出至时序数据存储器进行存储;

(6)将近期的监测数据、常规的设备数据,以及关注率较高的历史指标数据、模型元数据和
预处理规则数据集中缓存到时序数据存储器中的内存器;

(7)通过计算单元驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编
排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,其中计算单元包括多个子
计算单元,多个子计算单元按照实际业务需求动态配置,每个子计算单元独立存在,能够根据行业
专家经验独立演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,回传到
时序数据存储器和/或数据服务端;

(8)从时序数据存储器直接读取数据和/或接收来自计算单元处理后的数据,并且进行分析处
理,将处理后的结果通过显示装置进行显示,同时通过接口单元将处理后的结果发送给无线终端;

(9)通过无线终端接收来自数据服务端发送的处理后的结果,根据处理后的结果决定是否发
送控制命令至数据服务端,数据服务端接收到控制命令后控制监测传感器,调整监测传感器的数据
采集频率,其中处理后的结果为故障预警结果和/或负荷预测结果,根据处理后的结果决定是否发
送控制命令至数据服务端满足:

A.当故障预警结果和/或负荷预测结果为正常时,降低监测传感器的数据采集频率;

B.当故障预警结果和/或负荷预测结果为不正常时,提高监测传感器的数据采集频率,并且重
复步骤(1)-(9),同时在数据服务端发出警报,在数据服务端的显示装置上实时显示故障预警结
果和/或负荷预测结果,并且通知维修人员。

本发明的算法组态和分布式流计算的大数据分析平台装置及方法是通过软件和硬件装置的配
合完成,但是并不局限于此,在一定条件下,也可以完全通过硬件的方式实现。

尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不
脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加
和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护
的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公
开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不
受以上实施方式的限制,而是由权利要求或其等同物进行限定。

一种基于算法组态和分布式流计算的大数据分析平台装置及方法.pdf_第1页
第1页 / 共12页
一种基于算法组态和分布式流计算的大数据分析平台装置及方法.pdf_第2页
第2页 / 共12页
一种基于算法组态和分布式流计算的大数据分析平台装置及方法.pdf_第3页
第3页 / 共12页
点击查看更多>>
资源描述

《一种基于算法组态和分布式流计算的大数据分析平台装置及方法.pdf》由会员分享,可在线阅读,更多相关《一种基于算法组态和分布式流计算的大数据分析平台装置及方法.pdf(12页珍藏版)》请在专利查询网上搜索。

一种基于算法组态和分布式流计算的大数据分析平台装置及方法,包括依次连接的数据源获取装置、数据整合单元、时序数据存储器、计算单元、无线终端和数据服务终端,可以快速、高效、及时地处理海量实时数据,保证计算效率高效,灵活和可扩展强,同时保证设备安全、稳定、高效地运行。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 核算装置


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1