《数据仓库异常数据的检测方法及装置.pdf》由会员分享,可在线阅读,更多相关《数据仓库异常数据的检测方法及装置.pdf(11页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102339288A43申请公布日20120201CN102339288ACN102339288A21申请号201010235550322申请日20100721G06F17/3020060171申请人中国移动通信集团辽宁有限公司地址110179辽宁省沈阳市浑南新区新隆街6号72发明人范哲74专利代理机构北京中誉威圣知识产权代理有限公司11279代理人彭晓玲丛芳54发明名称数据仓库异常数据的检测方法及装置57摘要本发明提供了一种数据仓库异常数据的检测方法及装置,其中,该检测方法包括根据指标参数的历史时序数据确定检测阈值,并根据检测阈值确定指标参数的当前时序数据中的初始异常时序数。
2、据;根据指标参数的历史时序数据中的异常时序数据,确定异常时序数据的周期;根据周期对初始异常时序数据进行剔重处理,得到当前异常时序数据。本发明克服了凭经验设定阈值不能准确发现数据波动异常的缺点,同时实现得到真正异常的当前异常时序数据,提高检测的准确率。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书6页附图2页CN102339301A1/2页21一种数据仓库异常数据的检测方法,其特征在于,包括根据指标参数的历史时序数据确定检测阈值,并根据所述检测阈值确定所述指标参数的当前时序数据中的初始异常时序数据;根据所述指标参数的历史时序数据中的异常时序数据,确定所述异常时。
3、序数据的周期;根据所述周期对所述初始异常时序数据进行剔重处理,得到当前异常时序数据。2根据权利要求1所述的数据仓库异常数据的检测方法,其特征在于,还包括选择与预设百分位对应的所述指标参数的历史时序数据;根据所述预设百分位对应的历史时序数据及所述异常时序数据的周期判断所述指标参数的当前时序数据是否存在渐近性异常。3根据权利要求1所述的数据仓库异常数据的检测方法,其特征在于,还包括根据所述指标参数的历史时序数据中的正常历史时序数据以及另一指标参数的历史时序数据中的正常历史时序数据,确定所述指标参数与另一指标参数的联动系数;在所述指标参数的当前时序数据与所述另一指标参数的当前时序数据不满足所述联动系。
4、数时,判定所述指标参数的当前时序数据与所述另一指标参数的当前时序数据异常。4根据上述权利要求13中任一项所述的数据仓库异常数据的检测方法,其特征在于,在所述根据指标参数的历史时序数据确定检测阈值的步骤之前包括将所述指标参数的历史时序数据及当前时序数据进行符合正态分布的预处理。5根据权利要求4所述的数据仓库异常数据的检测方法,其特征在于,所述根据指标参数的历史时序数据确定检测阈值,并根据所述检测阈值确定所述指标参数的当前时序数据中的初始异常时序数据的步骤包括将所述指标参数的历史时序数据的平均值确定为所述检测阈值;分别计算所述指标参数的当前时序数据与所述检测阈值间差值,将差值的绝对值大于预设值的当。
5、前时序数据确定为所述初始异常时序数据。6根据权利要求5所述的数据仓库异常数据的检测方法,其特征在于,所述根据所述指标参数的历史时序数据中的异常时序数据,确定所述异常时序数据的周期的步骤包括根据所述指标参数的历史时序数据的标准差,确定所述异常历史时序数据;根据所述异常历史时序数据的时序信息确定备选周期,并统计所述异常历史时序数据基于每一备选周期的发生概率,并将概率最大的备选周期作为所述异常时序数据的周期。7一种数据仓库异常数据的检测装置,其特征在于,包括阈值确定模块,用于根据指标参数的历史时序数据确定检测阈值,以及根据所述指标参数的历史时序数据中的异常时序数据,确定所述异常时序数据的周期;检测模。
6、块,用于根据所述检测阈值,确定所述指标参数的当前时序数据中的初始异常时序数据;剔重模块,用于根据所述周期对所述初始异常时序数据进行剔重处理,得到当前异常时序数据。8根据权利要求7所述的数据仓库异常数据的检测装置,其特征在于,还包括分布异常检测模块,用于选择与预设百分位对应的所述指标参数的历史时序数据;根据所述预设百分位对应的历史时序数据及所述异常时序数据的周期判断所述指标参数的权利要求书CN102339288ACN102339301A2/2页3当前时序数据是否存在渐近性异常。9根据权利要求7所述的数据仓库异常数据的检测装置,其特征在于,还包括联动异常检测模块,用于根据所述指标参数的历史时序数据。
7、中的正常历史时序数据以及另一指标参数的历史时序数据中的正常历史时序数据,确定所述指标参数与另一指标参数的联动系数;在所述指标参数的当前时序数据与所述另一指标参数的当前时序数据不满足所述联动系数时,判定所述指标参数的当前时序数据与所述另一指标参数的当前时序数据异常。10根据上述权利要求79中任一项所述的数据仓库异常数据的检测装置,其特征在于,还包括预处理模块,用于将所述指标参数的历史时序数据及当前时序数据进行符合正态分布的预处理。权利要求书CN102339288ACN102339301A1/6页4数据仓库异常数据的检测方法及装置技术领域0001本发明涉及管理信息系统及业务支撑领域,具体涉及一种数。
8、据仓库异常数据的检测方法及装置。背景技术0002数据仓库对海量数据进行抽取、转换、清洗和加载,从中挖据有分析价值的数据,并通过不断聚集展示分析结果,为市场精准化营销水平和深度运营能力提供了有力支撑。由此,数据质量监控或检测成为数据仓库建设的重中之重,现有检测方法一般包括如下步骤维护人员通过终端登陆前台系统,并访问经分后台数据库;维护人员通过前台系统的分析结果,如趋势分析图及双条对比分析线等,对系统生成的指标进行检查;分析当日数据与前日数据波动范围比例或者计算年同期比,月同期环比,分析历史数据并设定波动阀值,在数据波动范围超过阀值时进行数据异常告警;以及,根据检查结果初步分析波动原因,并通过后台。
9、数据库表,检查明细,如果指标不正常,则处理故障。0003现有数据仓库异常数据的检测技术有如下不足00041凭对历史数据的经验观察设定用于检测异常数据的波动阈值,不能及时、准确地发现系统生成指标的变化异常,同时现有人工监控不能及时在众多的系统生成指标中发现异常数据,数据监控效率低;00052数据仓库中大部分数据都具有时序特征,而现有检测方法没有针对数据的时序性进行监控,对具有周期性的数据监控易出现错误告警;00063无法监控渐进性异常数据;00074不能及时发现系统生成多指标的数据联动异常波动。发明内容0008本发明的第一目的是提出一种准确高的数据仓库异常数据的检测方法。0009本发明的第二目的。
10、是提出一种准确高的数据仓库异常数据的检测装置。0010为实现上述第一目的,本发明提供了一种数据仓库异常数据的检测方法包括根据指标参数的历史时序数据确定检测阈值,并根据检测阈值确定指标参数的当前时序数据中的初始异常时序数据;根据指标参数的历史时序数据中的异常时序数据,确定异常时序数据的周期;根据周期对初始异常时序数据进行剔重处理,得到当前异常时序数据。0011为实现上述第二目的,本发明提供了一种数据仓库异常数据的检测装置,包括阈值确定模块,用于根据指标参数的历史时序数据确定检测阈值,以及根据指标参数的历史时序数据中的异常时序数据,确定异常时序数据的周期;检测模块,用于根据检测阈值,确定指标参数的。
11、当前时序数据中的初始异常时序数据;剔重模块,用于根据周期对初始异常时序数据进行剔重处理,得到当前异常时序数据。0012本发明各个实施例通过根据历史时序数据信息确定检测阈值,进而根据该检测阈值确定异常时序数据,克服了凭经验设定阈值不能准确发现数据波动异常的缺点,同时根说明书CN102339288ACN102339301A2/6页5据历史时序数据的时序信息对根据检测阈值确定的初始异常数据进行周期性异常数据的剔重处理,得到真正异常的当前异常时序数据,提高检测的准确率。附图说明0013附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一并用于解释本发明,并不构成对本发明的限制。。
12、在附图中0014图1为本发明的数据仓库异常数据的检测方法的实施例一流程图;0015图2为本发明的数据仓库异常数据的检测方法的实施例二流程图;0016图3为本发明的数据仓库异常数据的检测装置的实施例结构图。具体实施方式0017以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。0018方法实施例0019图1为本发明的数据仓库异常数据的检测方法的实施例一流程图。如图1所示,本实施例包括0020步骤102根据指标参数的历史时序数据确定检测阈值,并根据检测阈值确定指标参数的当前时序数据中的初始异常时序数据;详见图2的解释说明;0021步。
13、骤104根据指标参数的历史时序数据中的异常时序数据,确定异常时序数据的周期;详见图2的解释说明;0022步骤106根据周期对初始异常时序数据进行剔重处理,得到当前异常时序数据;详见图2的解释说明。0023本实施例通过根据历史时序数据信息确定检测阈值,进而根据该检测阈值确定异常时序数据,克服了凭经验设定阈值不能准确发现数据波动异常的缺点,同时根据历史时序数据的时序信息对根据检测阈值确定的初始异常数据进行周期性异常数据的剔重处理,得到真正异常的当前异常时序数据,提高检测的准确率。0024图2为本发明的数据仓库异常数据的检测方法的实施例二流程图。如图2所示,本实施例包括0025步骤201将指标参数的。
14、历史时序数据及当前时序数据进行预处理以符合正态分布;具体操作时,可以包括0026首先,提取每个指标即指标参数的历史数据如最近200天的历史数据,分别计算每个指标是否属于正态分布;如,具体操作时,可以计算四分位QS和标准差S,进而计算比值QS/S,若指标的比值QS/S在128,132之间则符合正态分布,否则不符合正态分布;0027其次,在指标不符合正态分布时进行数据转换,如进行指数变换以保证满足正态分布;0028最后,将时间特征与历史数据一一对应,得到历史时序数据,如,具体操作时可以将历史数据与其产生的月,日,星期等信息关联;0029步骤202根据指标参数的历史时序数据确定检测阈值,并根据检测阈。
15、值确定指说明书CN102339288ACN102339301A3/6页6标参数的当前时序数据中的初始异常时序数据;0030具体操作时,可以将指标参数的历史时序数据的平均值确定为检测阈值,分别计算指标参数的当前时序数据与该平均值间的差值,将差值的绝对值大于预设值的当前时序数据确定为初始异常时序数据;还可以判断指标参数的标准差与历史时序数据平均值的差异,如果差异大于预设值,如25,说明数据异常的概率已经达到90以上;另外也可以利用聚类计算方法,如将数据分为15个组,每个类里面有K个元素,取为异常指标组中的元素;0031步骤203,根据指标参数的历史时序数据中的异常时序数据,确定异常时序数据的周期;。
16、具体操作时,可以包括0032首先,根据指标参数的历史时序数据的标准差,确定异常历史时序数据;如,利用每个指标参数的历史数据计算出对应的标准差,并计算每个指标参数的历史数据与标准差之间的值,筛选值超过2的XI计为异常历史时序数据XI如产生了N个XI;0033其次,根据异常历史时序数据的时序信息确定备选周期,并统计异常历史时序数据基于每一备选周期的发生概率,并将概率最大的备选周期作为周期;如,具体操作时,可以以XI产生的月AI,日BI,星期CI作为备选周期,还可以按照XI产生的时间排序计算每相邻的两个XI产生时间天数DI,计算平均天数为计算XI与其产生的月AI,日BI,星期CI,周期D四个信息产生。
17、的概率,将概率P最大所对应的备选周期作为异常时序数据产生的周期,其中,各备选周期对应的概率计算方法如下,P异常数据产生|产生的月AI,P异常数据产生|产生的日BI,P异常数据产生|产生的星期CI,P异常数据产生|产生的周期D;如当一个指标只有在每个月的1号异常,出现6次,并且1号的数据总共出现6次那么P异常数据产生|产生的月AI解释为当1号的数据产生时异常数据产生的概率为100;0034步骤204根据周期对初始异常时序数据进行剔重处理,得到当前异常时序数据;也就是说经过步骤202确定的初始异常时序数据不直接作为最后确定的异常时序数据,还要考虑步骤203所确定的异常时序数据的周期信息,看其是否属。
18、于重复异常信息,即分析初始异常时序数据产生的月,日,星期,周期A0,B0,C0,D是否产生在步骤203所确定的异常时序数据的周期上,若不是,则判定数据异常;若是,则判定数据不异常;0035步骤205选择与预设百分位对应的指标参数的历史时序数据,并根据该预设百分位对应的历史时序数据及异常时序数据的周期确定当前时序数据是否存在渐近性异常包括逐渐增高及逐渐降低,即判断是否在数据轴上下分布异常;具体操作时,可以包括0036首先,在时间变量与数据变量之间有明确的关系时,则可以以时间轴为1至180对应于200天的历史数据,该时间轴长度的选择可以根据实际需要而自由设定、数据轴为X1X180计算出信息量解释最。
19、大的直线L如方差线,计算X1X180与L之间的差值Y1Y180,对Y1Y180分布进行巡检分析,具体计算步骤可以如下0037AAA计算YI连续大于等于0的天数YI及YI连续小于0的天数YI,同时计算说明书CN102339288ACN102339301A4/6页7MAXYI,MAXYI,留取MAXMAXYI,MAXYI,20个历史时序数据;0038BBB联合留取的历史数据与当前时序数据以分析分布是否异常,判断最近历史时序数据和当前时序数据X0连续大于0或者小于0的天数Y0,结合周期A0,B0,C0,D剔重处理,计算出YI,YI的分位数以YI,YI,根据95分位数Y为判断依据如果Y0大于Y说明数据。
20、出现异常的概率超过90;0039其次,在时间变量与数据变量之间没有明确的关系,也可以按照上述步骤进行计算,如可以计算直线L为前180天的平均值,计算X1X180与L之间的差值Y1Y180,对Y1Y180分布进行巡检分析,计算步骤如下YI为YI连续大于等于0的天数,YI为YI连续小于0的天数,同时计算MAXYI,MAXYI,留取MAXMAXYI,MAXYI,20个数据加上当期数据分析分布是否异常,判断最近和X0连续大于0或者小于0的天数Y0,结合周期A0,B0,C0,D,计算出YI,YI的分位数以YI,YI,根据95分位数Y为判断依据如果Y0大于Y说明数据出现异常的概率超过90;0040步骤20。
21、6根据指标参数的历史时序数据中的正常历史时序数据以及另一指标参数的历史时序数据中的正常历史时序数据,确定指标参数与另一指标参数的联动关系;以及在指标参数的当前时序数据与另一指标参数的当前时序数据不满足联动关系时,判定指标参数的当前时序数据与另一指标参数的当前时序数据异常;0041可以利用每个指标的最近200天历史数据计算每两个指标的联动系数;联动系数用于描述两个具有内在联系之间的变量之间的关系,比如人的身高和体重两个指标存在内在联系,如果这种联系存在异常就需要通过联动系数及联动计算方法来判断是否异常,将计算的联动系数指标镞作为判断当前指标是否异常的依据;将指标参数1,指标参数2在步骤204中确。
22、定的当前异常数据剔除,计算经过当前异常数据剔除处理后的指标参数1与指标参数2是否存在同时增减的关系,具体操作时,可以应用以下方法004211计算指标参数1与指标参数2同时增长或同时降低的概率,则1P1指标1,指标2同时增减P2指标2不增,指标1增加P3指标1不增,指标2增加,该指标参数1与指标参数2的一组联动概率P1、P2、P3取MINP1,P2,P301计为一个异常的联动系数,判断异常的联动系数是否存在,如指标参数1与指标参数2的当前异常数据满足异常的联动系数小于MINP1,P2,P3条件则判断为联动异常;004322可以利用数据的相关系数进行计算,如指标参数1与指标参数2相关系数为,检验值。
23、计为T,如果根据前200天的数据计算出的T01,说明指标参数1和指标参数2存在稳定的联动系数,将这个系数计为指标1,指标2,将指标参数的相关系数计为1,2,因为由于对异常数据较为敏感,如果指标参数1,指标参数2的当前时序数据异常,则先计算T值,如T值变化大于等于01说明当期指异常,如果1,2/指标1,指标2波动超出10可以判断数据异常;004433可以利用指标参数1为数据值,F指标2,指标3,指标4指标N进行拟和训练模拟,这种方式也可以进行计算。0045本实施例通过根据历史时序数据信息确定检测阈值,进而根据该检测阈值确定异常时序数据,克服了凭经验设定阈值不能准确发现数据波动异常的缺点,同时根据。
24、历史时说明书CN102339288ACN102339301A5/6页8序数据的时序信息对根据检测阈值确定的初始异常数据进行周期性异常数据的剔重处理,得到真正异常的当前异常时序数据,提高检测的准确率,实现时序数据的波动异常的自动化监控,并可以自动判断数据是否属于周期性波动异常;通过提取数据在时间轴分布的关系,根据提取的特征系数判断数据连续低于或者高于历史平均值的天数是否异常,进而判断在时间轴的分布是否异常,即数据是否存在渐进型降低或者渐进型增长异常;自动进行多维数据检查,利用指标之间的关联关系监控计算一定时期内的数据是否属于正常数据,发现潜在的业务异常数据与质量异常数据,提升了异常数据监控能力。。
25、0046装置实施例0047图3为本发明的数据仓库异常数据的检测装置的实施例结构图。图1及2所示的各方法实施例均可适用于本实施例。本实施例包括阈值确定模块31,用于根据指标参数的历史时序数据确定检测阈值,以及根据指标参数的历史时序数据中的异常时序数据,确定异常时序数据的周期;检测模块32,用于根据检测阈值,确定指标参数的当前时序数据中的初始异常时序数据;剔重模块33,用于根据周期对初始异常时序数据进行剔重处理,得到当前异常时序数据。0048具体操作时,该装置还可以包括0049预处理模块30,用于将指标参数的历史时序数据及当前时序数据进行符合正态分布的预处理;0050分布异常检测模块34,用于选择。
26、与预设百分位对应的指标参数的历史时序数据;根据预设百分位对应的历史时序数据及异常时序数据的周期判断指标参数的当前时序数据是否存在渐近性异常;0051联动异常检测模块35,用于根据指标参数的历史时序数据中的正常历史时序数据以及另一指标参数的历史时序数据中的正常历史时序数据,确定指标参数与另一指标参数的联动系数;在指标参数的当前时序数据与另一指标参数的当前时序数据不满足联动系数时,判定指标参数的当前时序数据与另一指标参数的当前时序数据异常。0052本领域技术人员应当可以理解阈值确定模块31、检测模块32及剔重模块33即可实现本发明的发明目的,其他模块为优选模块。0053本实施例通过阈值确定模块31。
27、根据历史时序数据信息确定检测阈值,进而检测模块32根据该检测阈值确定异常时序数据,克服了凭经验设定阈值不能准确发现数据波动异常的缺点,同时剔重模块33根据历史时序数据的时序信息对根据检测阈值确定的初始异常数据进行周期性异常数据的剔重处理,得到真正异常的当前异常时序数据,提高检测的准确率,实现时序数据的波动异常的自动化监控,并可以自动判断数据是否属于周期性波动异常;分布异常检测模块34通过提取数据在时间轴分布的关系,根据提取的特征系数判断数据连续低于或者高于历史平均值的天数是否异常,进而判断在时间轴的分布是否异常,即数据是否存在渐进型降低或者渐进型增长异常;联动异常检测模块35自动进行多维数据检。
28、查,利用指标之间的关联关系监控计算一定时期内的数据是否属于正常数据,发现潜在的业务异常数据与质量异常数据,提升了异常数据监控能力。0054最后应说明的是以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在说明书CN102339288ACN102339301A6/6页9本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。说明书CN102339288ACN102339301A1/2页10图1图2说明书附图CN102339288ACN102339301A2/2页11图3说明书附图CN102339288A。