《实时数据采集系统的异常数据实时处理方法.pdf》由会员分享,可在线阅读,更多相关《实时数据采集系统的异常数据实时处理方法.pdf(7页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104181883A43申请公布日20141203CN104181883A21申请号201410387938322申请日20140808G05B19/41820060171申请人青岛高校信息产业有限公司地址266071山东省青岛市市南区宁夏路288号72发明人杨斌杜长河尚永涛于灏李秀福辜晓川贺岩74专利代理机构青岛发思特专利商标代理有限公司37212代理人万桂斌54发明名称实时数据采集系统的异常数据实时处理方法57摘要本发明涉及一种数据处理方法,本发明的实时数据采集系统的异常数据实时处理方法,包括如下步骤1初始化样本数据选取运行正常的偶数个样本数据;2用一次指数平滑方法,采用。
2、样本数据的1/2为移动步长,运用一次指数平滑递推方法对样本数据的后半部分进行预测;3通过后半部分的预测值和实测值计算出预测结果的残差;4对残差序列依据拉依达准则进行异常分析,确认实测值是否为异常数据;5如果是异常数据,则用预测值替换该实测值。本方法的主要优势在于预测算法系数自适应调整,采用移动指数平滑分析误差,异常判断方法更符合拉以达准则的使用条件,从而提高对异常数据判断的准确性,一定程度上不误判、不漏判。51INTCL权利要求书1页说明书4页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书4页附图1页10申请公布号CN104181883ACN104181883A1。
3、/1页21一种实时数据采集系统的异常数据实时处理方法,其特征在于,包括如下步骤1初始化样本数据选取运行正常的偶数个样本数据;2用一次指数平滑方法,采用样本数据的1/2为移动步长,运用一次指数平滑递推方法对样本数据的后半部分进行预测;3通过后半部分的预测值和实测值计算出预测结果的残差;4对残差序列依据拉依达准则进行异常分析,确认实测值是否为异常数据;5如果是异常数据,则用预测值替换该实测值。2根据权利要求1所述的实时数据采集系统的异常数据实时处理方法,其特征在于,步骤1中的运行正常的样本数据为对采集的当前运行的样本数据序列,进行正态分布检验并通过检验,再进行拉依达准则判断无异常;或对采集的当前运。
4、行的样本数据差分序列,进行正态分布检验并通过检验,再进行拉依达准则判断无异常。3根据权利要求1或2所述的实时数据采集系统的异常数据实时处理方法,其特征在于,步骤1中的偶数个样本数据的取值范围为2050之间的偶数。4根据权利要求1所述的实时数据采集系统的异常数据实时处理方法,其特征在于,步骤2中的一次指数平滑方法为YT1XT1YT,本方法采用固定样本的移动一次指数平滑方法,即对2N个样本数据,利用1至N个数据预测第N1个数据,利用2至N1个数据预测第N2个数据,以此递推预测至第2N个数据,形式为Y1X1,YT1XT1YT,C1YN1XN1YN,Y1X2,YT1XT1YT,C2YN1XN1YN,Y。
5、1XN,YT1XT1YT,CNYN1XN1YN,则序列C1,C2,CN为预测序列,其中为平滑系数、XT为T时刻的实测值、YT为时刻T的预测值、YT1为时刻T1的预测值,N的取值范围为10N25。5根据权利要求4所述的实时数据采集系统的异常数据实时处理方法,其特征在于,平滑系数取值为0206。6根据权利要求5所述的实时数据采集系统的异常数据实时处理方法,其特征在于,平滑系数为0206之间每次间隔005、取值9次试算取步骤4中残差序列均方误差最小值对应的平滑系数。7根据权利要求4所述的实时数据采集系统的异常数据实时处理方法,其特征在于,步骤3中预测结果的残差为RIX2ICI,I1,N。8根据权利要。
6、求4所述的实时数据采集系统的异常数据实时处理方法,其特征在于,步骤4中的异常数据判定RIMEANRMSTDR,其中,RI为第I个预测结果的残差,I1,N;MEANR为残差序列的均值;STDR为残差序列的标准差;M为判定系数。9根据权利要求8所述的实时数据采集系统的异常数据实时处理方法,其特征在于,判定系数M取值为3。权利要求书CN104181883A1/4页3实时数据采集系统的异常数据实时处理方法技术领域0001本发明涉及一种数据处理方法,尤其涉及一种用于工业实时数据采集系统中异常数据的处理方法。背景技术0002目前在工业信息化相关领域,基本上都包括工业实时数据采集系统,在数据采集过程中很多情。
7、况,特别是由于设备环境温度、湿度、灰尘、磁场、采集元件的信号干扰等瞬间发生采集数据的异常情况,这种数据并不能反应真实情况,并且会造成误报警、运行系统中实时生产曲线异常波动等,影响生产运行,并且在后期数据汇总分析时会造成计算错误等等。这就需要在数据采集时对这种异常数据进行处理,避免出现错误数据。0003然而很多的工业实时数据采集系统的数据采集模块并没有对采集上来的数据进行实时处理,并且工业实时数据采集系统的采集频率要求较高,有的达到秒级甚至是毫秒级,这就需要有一种快速的异常数据的处理方法,能够编程实现并且计算快速,来对每个采集上来的数据进行分析,判断出异常数据,并做出相应的处理,剔除或者替换,将。
8、正常数据传送到采集系统中。0004国内外研究文献中的异常数据的处理方法包括0005概率统计规则算法包括拉依达准则法、格拉布斯准则法、肖维勒准则法、狄克逊准则法等,该类方法都要求数据满足正态分布,而许多实时数据并不满足该条件,另外该类方法都是基于数据为相同条件下的测量数据异常判断,而非动态变化的工业数据,因此拉以达准则也不能直接应用于工业实时数据的异常判断。0006滤波算法该方法要求系统状态方程和观测方程已知并且满足线性,而且计算方法较为复杂,不能满足更高实时性技术的要求,难以广泛应用。0007基于密度的技术该方法需要确定聚类的初始中心,并且两点之间的聚类阈值需要人工设定,计算结果差别大,如果采。
9、集数据过多,计算量大,不适用于实时异常数据的处理。0008以上方法为主要在研究和试验中运用的异常数据的处理算法,都具有一定局限性,并且很难在工业实时处理采集系统中推广应用。0009在工业实时数据采集系统,数据具有动态性和连续性,工业采集的实时数据是不断变化的,因为真实设备的采集测点本身就是在变化,在数据异常处理的采样数据集中,采集的数据并不一定满足正态分布。工业数据的实时变化一般由生产设备决定,实时数据和历史数据相关,运用一次指数平滑预测实时数据符合工业数据时间序列模型,当预测误差出现异常时,则认为采集数据为异常,因此对指数平滑的预测误差做异常检测。0010而对于一次指数平滑预测实时数据处理方。
10、法,之前也有论文及发明专利文献提及,但是论文中运用的指数平滑方法的系数没有动态变化,并且误差从模型初始点开始统计,由于指数平滑的预测误差与初值选择、系数选择和迭代步数相关,这样统计的误差结果不符合每个数据的预测模型,模型开始部分的预测数据点的误差一般大于模型后面预测数说明书CN104181883A2/4页4据点的误差,造成异常判断的错误;专利文献中也没有指数平滑的预测误差运用拉以达准则进行判断,而是对当前采集值与前一采集值的差运用了拉以达准则,这种直接利用数据差分结果判断数据异常算法,以采集数据的差分数据为异常判断对象,没有充分满足拉以达准则使用的前提条件即等精度测量。指数平滑算法的系数只有两。
11、个选择,并且没有实现递推的指数平滑方法,预测精度不高。特别是对于一些有延迟的工业采集数据如温度、压力等容易造成误判。发明内容0011本发明的技术效果能够克服上述缺陷,提供一种实时数据采集系统的异常数据实时处理方法,其解决了工业数据采集数据的异常数据处理方法中的异常处理的准确性问题。0012为实现上述目的,本发明采用如下技术方案其包括如下步骤00131初始化样本数据选取运行正常的偶数个样本数据;00142用一次指数平滑方法,采用样本数据的1/2为移动步长,运用一次指数平滑递推方法对样本数据的后半部分进行预测;00153通过后半部分的预测值和实测值计算出预测结果的残差;00164对残差序列依据拉依。
12、达准则进行异常分析,确认实测值是否为异常数据;00175如果是异常数据,则用预测值替换该实测值。0018本发明采用了对异常判断样本数据分两段,根据后半段的预测误差选择模型系数,提高了预测精度,同时对后半段的预测误差运用拉以达准则进行判断,以对采集数据的模型预测误差为判断对象,预测误差近似符合拉以达准则的条件,即总体满足正态分布和等精度测量均值检验。0019本方法的主要技术为用自适应系数移动一次指数平滑方法,即采用数据样本的1/2为移动步长,运用移动一次指数平滑递推方法对样本的后半部分进行预测,通过采集样本和新采集值的实测值计算出预测结果的残差,通过拉依达准则进行判定新采集值是否为异常数据,如果。
13、为异常数据,则采用预测值替换该值。0020步骤1中的运行正常的样本数据可采用两种方式来判断为对采集的当前运行的样本数据序列,进行正态分布检验并通过检验,再进行拉依达准则判断无异常;或对采集的当前运行的样本数据差分序列,进行正态分布检验并通过检验,再进行拉依达准则判断无异常。经过上述两种方式对采集的要本数据进行判断,符合规定的即可认为是正常数据。0021优选地,步骤1中的偶数个样本数据的取值范围为2050之间的偶数。0022步骤2中的一次指数平滑方法为0023YT1XT1YT,0024本方法采用固定样本的移动一次指数平滑方法,即对2N个样本数据,利用1至N个数据预测第N1个数据,利用2至N1个数。
14、据预测第N2个数据,以此递推预测至第2N个数据,形式为0025Y1X1,YT1XT1YT,C1YN1XN1YN,0026Y1X2,YT1XT1YT,C2YN1XN1YN,说明书CN104181883A3/4页500270028Y1XN,YT1XT1YT,CNYN1XN1YN,0029则序列C1,C2,CN为预测序列,0030其中为平滑系数、XT为T时刻的实测值、YT为时刻T的预测值、YT1为时刻T1的预测值,N的取值范围为10N25。0031优选地,平滑系数取值为0206。0032更加优选地,平滑系数为0206之间每次间隔005、取值9次试算取步骤4中残差序列均方误差最小值对应的平滑系数,实现。
15、动态调整确定。0033步骤3中预测结果的残差为RIX2ICI,I1,N。0034步骤4中的异常数据判定RIMEANRMSTDR,其中,RI为第I个预测结果的残差,I1,N;MEANR为残差序列的均值;STDR为残差序列的标准差;M为判定系数。0035优选地,判定系数M取值为3。0036本方法的主要优势在于预测算法系数自适应调整,采用移动指数平滑分析误差,异常判断方法更符合拉以达准则的使用条件,从而提高对异常数据判断的准确性,一定程度上不误判、不漏判。附图说明0037图1为本发明的流程示意图;0038图2为本发明实施例数据曲线。具体实施方式0039如图1所示,本发明的实时数据采集系统的异常数据实。
16、时处理方法实现步骤如下00401初始化样本数据,通过对数据曲线分析,选取运行正常的2N个样本数据用于异常处理模块的初始化样本数据。00412实时获取采集样本数据,包括历史数据和一个新采集的数据共同组成试验样本数据,设样本数据量为2N,样本数据量控制在2050之间,取偶数个,样本序列记为0042X1,X2,X2N,其中第2N个数据为新采集样本数据和待判定异常数据。00433利用一次指数方法对试验样本数据进行预测分析,平滑系数初值设为02,平滑预测值的初值为平滑样本的第一个样本值。0044一次指数平滑方法形式为0045YT1XT1YT,Y1X10046本方法采用固定样本的移动一次指数平滑方法,即对。
17、2N个样本数据,利用1至N个数据预测第N1个数据,利用2至N1个数据预测第N2个数据,以此递推预测至第2N个数据。形式为0047Y1X1,YT1XT1YT,C1YN1XN1YN,0048Y1X2,YT1XT1YT,C2YN1XN1YN,0049说明书CN104181883A4/4页60050Y1XN,YT1XT1YT,CNYN1XN1YN,0051则序列C1,C2,CN为预测序列,并计算预测残差为R1XN1C1,RNX2NCN,。00524令平滑系数初值加005,重复步骤3直至平滑系数为06,通过对预测结果的残差分析,选择残差序列R1,R2,RN均方误差最小的平滑系数为模型的平滑系数。0053。
18、5对确定的残差序列R1,R2,RN依据拉依达准则3准则进行异常分析,主要分析RN,即当满足RIMEANRMSTDR,M3,I1,N。其中MEANR为RN的均值,STDR为RN的标准差。根据数据运行的时间和业务背景,可以对判定系数M做适当调整,可调整异常性的强弱,但不能调整过大,否则失去拉依达准则的意义。00546当判定新采集值为异常值,采用预测值来代替后再上传数据,否则直接上传数据。通过本方法的实时运用,实时剔除异常数据,可以保持数据的连续稳定与正常采集。0055如图2所示,以某工业采集的锅炉主蒸汽压力的90条数据每3秒一条,依次以41条数据为采集样本,递推50次,相当于50个采集样本。运用不。
19、同方法进行统计检验,得到00560057由上表可以看出,运用一次指数平滑和本发明中移动一次指数平滑进行误差分析比较,本发明更满足拉以达准则的条件。0058但是直接用一次指数平滑进行预测,由于一次指数平滑的初值和平滑系数的选取,会造成部分数据特别的初始部分数据的预测误差增大,从而造成误差分析不准确,容易造成漏判。如对图2的数据进行异常判断,本发明方法判断最后一个数据为异常数据,而直接采用一次指数平滑进行误差判断,选择初值为第一个数据,平滑系数为02,结果为数据没有异常点。0059从以上分析得出,本发明的异常数据处理方法,从预测准确性和差异判断规则的条件上都具有一定的优势,因此能够提高工业实时数据采集系统的异常数据判断的准确度。0060本发明方法可用于工业数据采集系统的嵌入式应用,具体实现方式为00611、根据本发明方法的实现原理,运用C语言编程实现,并形成调用接口。00622、数据采集系统调用本方法的实现接口,并将数据系统采集软件安装到数据采集设备上如热力发电厂生产信息化系统中的采集设备。00633、数据采集系统实时采集工业生产运行数据,并通过本发明方法对每个数据测处理,将处理后的数据上传至上位系统中,实现数据的采集。说明书CN104181883A1/1页7图1图2说明书附图CN104181883A。