一种海量数据的信息处理方法及装置.pdf

上传人:r7 文档编号:6199429 上传时间:2019-05-20 格式:PDF 页数:39 大小:3.13MB
返回 下载 相关 举报
摘要
申请专利号:

CN201510054747.X

申请日:

2015.01.31

公开号:

CN105989032A

公开日:

2016.10.05

当前法律状态:

公开

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20150131|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

华为技术有限公司

发明人:

王平辉; 潘璐伽; 范伟

地址:

518129 广东省深圳市龙岗区坂田华为总部办公楼

优先权:

专利代理机构:

北京同达信恒知识产权代理有限公司 11291

代理人:

冯艳莲

PDF下载: PDF下载
内容摘要

本发明公开了一种海量数据的信息处理方法及装置,解决目前在对数据相关性获取的过程中,存在无法获取数据序列变量和事件变量之间相关性的问题。本发明实施例中,分别从每一个数据源获取数据序列以及事件信息集合;将获取的数据源的数据序列和事件信息集合输入预设的海量数据信息处理模型,从而输出数据序列与事件信息集合中任意时间信息之间的相关性结果。采用本发明技术方案,基于多个数据源的事件信息,采用预设的海量数据信息处理模型即可获取每一种事件信息与数据序列的关联性,无须人工判定,有效节约了人力资源,并保证了获取的结果的准确性。

权利要求书

1.一种海量数据的信息处理方法,其特征在于,包括:
从至少一个数据源获取数据序列和事件信息集合;其中,第一数据源的所
述数据序列中包含所述第一数据源在n个采集周期内所采集的数据,第一数据
源为所述至少一个数据源中的任一数据源,所述第一数据源的所述事件信息集
合中包含所述第一数据源在所述n个采集周期内发生的事件的事件信息,所述
事件信息包括所述事件的事件类型,以及所述事件发生的起始时间和结束时
间;n为大于等于2的整数;
通过海量数据信息处理模型将获取的所述数据序列和所述事件信息集合
进行处理,得到所述数据序列和所述事件信息集合中任一事件信息之间的相关
性结果;其中,所述海量数据信息处理模型用于根据所述至少一个数据源获取
数据序列和事件信息集合,确定所述数据序列和所述事件信息集合中任一事件
信息之间的相关性结果。
2.如权利要求1所述的方法,其特征在于,所述通过海量数据信息处理
模型将获取的所述数据序列和所述事件信息集合进行处理,包括:
对于所述至少一个数据源中的每一个数据源,均执行如下操作:在第一数
据源的事件信息集合中,对所述第一数据源对应的第一采集周期内的事件信息
进行筛选,获取筛选事件信息,所述筛选事件信息为所述事件信息集合中满足
第一预设筛选条件的事件信息,将所述筛选事件信息存储至筛选事件信息集合
中;其中,所述第一采集周期为所述n个采集周期中的任一采集周期;从所述
第一数据源对应的n个采集周期内的数据序列中,选取筛选数据,其中,所述
筛选数据为所述数据序列中满足第二预设筛选条件的数据;
根据所述筛选事件信息集合中包含的所述至少一个数据源的筛选事件信
息的事件类型,对所述筛选事件信息集合中包含的筛选事件信息进行分类,获
取每一种事件类型对应的筛选事件信息;
从所述每一个数据源的筛选数据中,选取第一事件类型对应的筛选事件信
息的起始时间和结束时间之间的筛选数据;其中,所述第一事件类型为所述筛
选事件信息集合中包含的事件类型中的任一事件类型;
根据获取的所述第一事件类型对应的筛选事件信息的起始时间和结束时
间之间的筛选数据,获取所述第一事件类型的相关性指标;
根据所述相关性指标获取所述数据序列和所述第一事件类型之间的相关
性结果。
3.如权利要求2所述的方法,其特征在于,在第一数据源的事件信息集
合中,对所述第一数据源对应的第一采集周期内的事件信息进行筛选,获取筛
选事件信息,具体包括:
在所述第一数据源的事件信息集合中,对所述第一数据源对应的第一采集
周期内的任一事件信息,执行如下操作:
根据所述第一事件信息的第一事件发生的起始时间和结束时间,确定所述
第一事件所对应的时间窗;其中,所述第一事件信息为所述第一数据源的事件
信息集合中,所述第一数据源对应的第一采集周期内的任一事件信息;
当判定在所述第一事件所对应的时间窗内,没有除所述第一事件之外的其
他事件发生时,确定所述第一事件信息为所述筛选事件信息并获取所述筛选事
件信息。
4.如权利要求2或3所述的方法,其特征在于,从所述第一数据源对应
的n个采集周期内的数据序列中,选取筛选数据,具体包括:
从所述第一数据源对应的所述第一采集周期内的数据序列中,选取所述第
一数据源的每一个筛选事件信息的起始时间和结束时间之间的数据,将选取的
所述数据作为第一数据源对应的第一采集周期的筛选数据;以及
从除所述第一采集周期之外的其他采集周期中,选取在所述每一个筛选事
件信息的所述起始时间和所述结束时间之间的数据,并根据获取的数据确定所
述第一数据源对应的所述其他采集周期的筛选数据;
将所述第一数据源对应的第一采集周期的筛选数据,以及所述第一数据源
对应的所述其他采集周期的筛选数据,确定为所述第一数据源的筛选数据。
5.如权利要求2至4任一所述的方法,其特征在于,所述根据获取的所
述第一事件类型对应的筛选事件信息的起始时间和结束时间之间的筛选数据,
获取所述第一事件类型的相关性指标,具体包括:
对于事件类型为所述第一事件类型的第一筛选事件信息,根据所述第一采
集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包
含的第一空类型筛选数据和第一非空类型筛选数据,获取所述第一筛选事件信
息的第一特性值和第二特性值;其中,所述第一特性值用于表征所述第一采集
周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第一空类型
筛选数据的出现概率,所述第二特性值用于表征所述第一采集周期内的所述第
一筛选事件信息的起始时间和结束时间之间,所述第一非空类型筛选数据的平
均值;所述第一筛选事件信息为事件类型为所述第一事件类型的任一筛选事件
信息;
对于事件类型为所述第一事件类型的第一筛选事件信息,根据所述其他采
集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包
含的第二空类型筛选数据和第二非空类型筛选数据,获取所述第一筛选事件信
息的第三特性值和第四特性值;其中,所述第三特性值用于表征所述n个采集
周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第二空类型
筛选数据的出现概率,所述第四特性值用于表征所述n个采集周期内的所述第
一筛选事件信息的起始时间和结束时间之间,所述第二非空类型的所述筛选数
据的平均值;
对于事件类型为所述第一事件类型的第一筛选事件信息,获取所述第一筛
选事件信息的第一特性值和第三特性值的差值,将所述差值确定为所述第一筛
选事件信息的第一增量值;以及获取所述第一筛选事件信息的第二特性值和第
四特性值的差值,将所述差值确定为所述第一筛选事件信息的第二增量值;其
中,所述第一增量值用于表征在所述第一采集周期内,所述第一筛选事件信息
的起始时间和结束时间之间,所述第一空类型筛选数据的出现概率相对于所述
n个采集周期内的所述起始时间和结束时间之间所述第二空类型筛选数据的出
现概率的增量,所述第二增量值用于表征在所述第一采集周期内,所述第一筛
选事件信息的起始时间和结束时间之间,第一非空类型筛选数据的平均值相对
于所述n个采集周期内的所述起始时间和结束时间之间第二非空类型筛选数据
的平均值的增量;
分别获取事件类型为所述第一事件类型的每一个筛选事件信息的第一增
量值和第二增量值;
根据获取的所述每一个筛选事件信息的第一增量值和第二增量值,确定所
述第一事件类型的相关性指标。
6.如权利要求5所述的方法,其特征在于,根据所述第一采集周期内,
所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包含的第一
空类型筛选数据和第一非空类型筛选数据,获取所述第一筛选事件信息的第一
特性值和第二特性值,具体包括:
从所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之
间的筛选数据中,选取第一空类型筛选数据;并根据所述第一空类型筛选数据,
所述第一筛选事件信息所对应的时间窗,采用指示函数,获取所述第一筛选事
件信息的第一特性值;
从所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之
间的筛选数据中,选取第一非空类型筛选数据;并根据所述第一非空类型筛选
数据,所述第一筛选事件信息所对应的时间窗,采用指示函数,获取所述筛选
事件信息的第二特性值。
7.如权利要求5所述的方法,其特征在于,根据所述其他采集周期内,
所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包含的第二
空类型筛选数据和第二非空类型筛选数据,获取所述第一筛选事件信息的第三
特性值和第四特性值,具体包括:
从所述其他采集周期内,所述第一筛选事件信息的起始时间和结束时间之
间的筛选数据中,选取第二空类型筛选数据;并根据所述第二空类型筛选数据,
所述其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选
数据的数目,采用指示函数,获取所述筛选事件信息的第三特性值;
从所述其他采集周期内,所述第一筛选事件信息的起始时间和结束时间之
间的筛选数据中,选取第二非空类型筛选数据;并根据所述第二非空类型筛选
数据,所述其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的
筛选数据,所述其他采集周期内的第一筛选事件信息的起始时间和结束时间之
间的筛选数据的数目,采用指示函数,获取所述筛选事件信息的第四特性值。
8.如权利要求5-7任一项所述的方法,其特征在于,根据获取的所述每
一个筛选事件信息的第一增量值和第二增量值,确定所述第一事件类型的相关
性指标,具体包括:
根据事件类型为所述第一事件类型的所有筛选事件信息的第一增量值,确
定所述第一事件类型的第一相关性指标;其中,第一相关性指标用于表征空类
型数据的出现概率与发生对应于所述第一事件类型的事件相关;或者,
从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选
取大于预设阈值的第二增量值,并根据选取的大于预设阈值的第二增量值,确
定所述第一事件类型的第二相关性指标;其中,所述第二相关性指标用于表征
当发生对应于所述第一事件类型的事件时,数据取值增大的概率;或者,
从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选
取小于预设阈值的第二增量值,并根据选取的小于预设阈值的第二增量值,确
定所述第一事件类型的第三相关性指标;其中,所述第三相关性指标用于表征
当发生对应于所述第一事件类型的事件时,数据取值减小的概率;或者,
从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选
取大于所述预设阈值的第二增量值,并根据选取的大于预设阈值的第二增量
值,以及事件类型为所述第一事件类型的所述筛选事件信息的第二增量值,确
定所述第一事件类型的第四相关性指标;其中,所述第四相关性指标用于表征
当发生对应于所述第一事件类型的事件时,数据平均值的增大量;或者,
从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选
取小于所述预设阈值的第二增量值,并根据选取的小于预设阈值的第二增量
值,以及事件类型为所述第一事件类型的所述筛选事件信息的第二增量值,确
定所述第一事件类型的第五相关性指标;其中,所述第五相关性指标用于表征
当发生对应于所述第一事件类型的事件时,数据平均值的减小量。
9.如权利要求8所述的方法,其特征在于,根据所述相关性指标获取所
述数据序列和所述第一事件类型之间的相关性结果,具体包括:
若所述第一事件类型的第四相关性指标大于第一预设增大平均值阈值,且
所述第一事件类型的第二相关性指标与所述第一事件类型的第三相关性指标
的差值大于差值阈值,则确定所述相关性结果为,所述第一事件类型和所述数
据序列相关,且对应于所述第一事件类型的事件发生,将引起所述数据序列中
的数据取值增大,增大量为所述第四相关性指标;
否则,若所述第一事件类型的第五相关性指标小于第二预设增大平均值阈
值,且所述第一事件类型的第二相关性指标与所述第一事件类型的第三相关性
指标的差值大于所述差值阈值,则确定所述相关性结果为,第一事件类型和所
述数据序列相关,且对应于所述第一事件类型的事件发生,将引起所述数据序
列中的数据取值减小,减小量为所述第一事件类型的第五相关性指标;若所述
第一事件类型的第五相关性指标大于第二预设增大平均值阈值,或者所述第一
事件类型的第二相关性指标与所述第一事件类型的第三相关性指标的差值小
于所述差值阈值,则当所述第一事件类型的第一相关性指标大于预设概率阈值
时,确定所述相关性结果为,所述第一事件类型和所述数据序列相关,且对应
于所述第一事件类型的事件发生将引起数据序列中空类型数据的出现概率增
大。
10.一种海量数据的信息处理装置,其特征在于,包括:
数据序列和事件信息集合获取单元,从至少一个数据源获取数据序列和事
件信息集合;其中,第一数据源的所述数据序列中包含所述第一数据源在n个
采集周期内所采集的数据,第一数据源为所述至少一个数据源中的任一数据
源,所述第一数据源的所述事件信息集合中包含所述第一数据源在所述n个采
集周期内发生的事件的事件信息,所述事件信息包括所述事件的事件类型,以
及所述事件发生的起始时间和结束时间;n为大于等于2的整数;
相关性结果获取单元,用于通过海量数据信息处理模型将所述数据序列和
事件信息集合获取单元获取的所述数据序列和所述事件信息集合进行处理,得
到所述数据序列和所述事件信息集合中任一事件信息之间的相关性结果;其
中,所述海量数据信息处理模型用于根据所述至少一个数据源获取数据序列和
事件信息集合,确定所述数据序列和所述事件信息集合中任一事件信息之间的
相关性结果。
11.如权利要求10所述的装置,其特征在于,所述相关性结果获取单元,
具体用于:
对于所述至少一个数据源中的每一个数据源,均执行如下操作:在第一数
据源的事件信息集合中,对所述第一数据源对应的第一采集周期内的事件信息
进行筛选,获取筛选事件信息,所述筛选事件信息为所述事件信息集合中满足
第一预设筛选条件的事件信息,将所述筛选事件信息存储至筛选事件信息集合
中;其中,所述第一采集周期为所述n个采集周期中的任一采集周期;从所述
第一数据源对应的n个采集周期内的数据序列中,选取筛选数据,其中,所述
筛选数据为所述数据序列中满足第二预设筛选条件的数据;根据所述筛选事件
信息集合中包含的所述至少一个数据源的筛选事件信息的事件类型,对所述筛
选事件信息集合中包含的筛选事件信息进行分类,获取每一种事件类型对应的
筛选事件信息;从所述每一个数据源的筛选数据中,选取第一事件类型对应的
筛选事件信息的起始时间和结束时间之间的筛选数据;其中,所述第一事件类
型为所述筛选事件信息集合中包含的事件类型中的任一事件类型;根据获取的
所述第一事件类型对应的筛选事件信息的起始时间和结束时间之间的筛选数
据,获取所述第一事件类型的相关性指标;根据所述相关性指标获取所述数据
序列和所述第一事件类型之间的相关性结果。
12.如权利要求11所述的装置,其特征在于,所述相关性获取单元单元,
具体用于:
在所述第一数据源的事件信息集合中,对所述第一数据源对应的第一采集
周期内的任一事件信息,执行如下操作:根据所述第一事件信息的第一事件发
生的起始时间和结束时间,确定所述第一事件所对应的时间窗;其中,所述第
一事件信息为所述第一数据源的事件信息集合中,所述第一数据源对应的第一
采集周期内的任一事件信息;当判定在所述第一事件所对应的时间窗内,没有
除所述第一事件之外的其他事件发生时,确定所述第一事件信息为所述筛选事
件信息并获取所述筛选事件信息。
13.如权利要求11或12所述的装置,其特征在于,所述相关性结果获取
单元,具体用于:
从所述第一数据源对应的所述第一采集周期内的数据序列中,选取所述第
一数据源的每一个筛选事件信息的起始时间和结束时间之间的数据,将选取的
所述数据作为第一数据源对应的第一采集周期的筛选数据;以及从除所述第一
采集周期之外的其他采集周期中,选取在所述每一个筛选事件信息的所述起始
时间和所述结束时间之间的数据,并根据获取的数据确定所述第一数据源对应
的所述其他采集周期的筛选数据;将所述第一数据源对应的第一采集周期的筛
选数据,以及所述第一数据源对应的所述其他采集周期的筛选数据,确定为所
述第一数据源的筛选数据。
14.如权利要求11-13任一所述的装置,其特征在于,所述相关性结果获
取单元,具体用于:
对于事件类型为所述第一事件类型的第一筛选事件信息,根据所述第一采
集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包
含的第一空类型筛选数据和第一非空类型筛选数据,获取所述第一筛选事件信
息的第一特性值和第二特性值;其中,所述第一特性值用于表征所述第一采集
周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第一空类型
筛选数据的出现概率,所述第二特性值用于表征所述第一采集周期内的所述第
一筛选事件信息的起始时间和结束时间之间,所述第一非空类型筛选数据的平
均值;所述第一筛选事件信息为事件类型为所述第一事件类型的任一筛选事件
信息;对于事件类型为所述第一事件类型的第一筛选事件信息,根据所述其他
采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中
包含的第二空类型筛选数据和第二非空类型筛选数据,获取所述第一筛选事件
信息的第三特性值和第四特性值;其中,所述第三特性值用于表征所述n个采
集周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第二空类
型筛选数据的出现概率,所述第四特性值用于表征所述n个采集周期内的所述
第一筛选事件信息的起始时间和结束时间之间,所述第二非空类型的所述筛选
数据的平均值;对于事件类型为所述第一事件类型的第一筛选事件信息,获取
所述第一筛选事件信息的第一特性值和第三特性值的差值,将所述差值确定为
所述第一筛选事件信息的第一增量值;以及获取所述第一筛选事件信息的第二
特性值和第四特性值的差值,将所述差值确定为所述第一筛选事件信息的第二
增量值;其中,所述第一增量值用于表征在所述第一采集周期内,所述第一筛
选事件信息的起始时间和结束时间之间,所述第一空类型筛选数据的出现概率
相对于所述n个采集周期内的所述起始时间和结束时间之间所述第二空类型筛
选数据的出现概率的增量,所述第二增量值用于表征在所述第一采集周期内,
所述第一筛选事件信息的起始时间和结束时间之间,第一非空类型筛选数据的
平均值相对于所述n个采集周期内的所述起始时间和结束时间之间第二非空类
型筛选数据的平均值的增量;分别获取事件类型为所述第一事件类型的每一个
筛选事件信息的第一增量值和第二增量值;根据获取的所述每一个筛选事件信
息的第一增量值和第二增量值,确定所述第一事件类型的相关性指标。
15.如权利要求14所述的装置,其特征在于,所述相关性结果获取单元,
具体用于:
从所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之
间的筛选数据中,选取第一空类型筛选数据;并根据所述第一空类型筛选数据,
所述第一筛选事件信息所对应的时间窗,采用指示函数,获取所述第一筛选事
件信息的第一特性值;从所述第一采集周期内,所述第一筛选事件信息的起始
时间和结束时间之间的筛选数据中,选取第一非空类型筛选数据;并根据所述
第一非空类型筛选数据,所述第一筛选事件信息所对应的时间窗,采用指示函
数,获取所述筛选事件信息的第二特性值。
16.如权利要求14所述的装置,其特征在于,所述相关性结果获取单元,
具体用于:
从所述其他采集周期内,所述第一筛选事件信息的起始时间和结束时间之
间的筛选数据中,选取第二空类型筛选数据;并根据所述第二空类型筛选数据,
所述其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选
数据的数目,采用指示函数,获取所述筛选事件信息的第三特性值;从所述其
他采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据
中,选取第二非空类型筛选数据;并根据所述第二非空类型筛选数据,所述其
他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数据,所
述其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数
据的数目,采用指示函数,获取所述筛选事件信息的第四特性值。
17.如权利要求14-16任一项所述的装置,其特征在于,所述相关性结果
获取单元,具体用于:
根据事件类型为所述第一事件类型的所有筛选事件信息的第一增量值,确
定所述第一事件类型的第一相关性指标;其中,第一相关性指标用于表征空类
型数据的出现概率与发生对应于所述第一事件类型的事件相关;或者,从事件
类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取大于预设
阈值的第二增量值,并根据选取的大于预设阈值的第二增量值,确定所述第一
事件类型的第二相关性指标;其中,所述第二相关性指标用于表征当发生对应
于所述第一事件类型的事件时,数据取值增大的概率;或者,从事件类型为所
述第一事件类型的所述筛选事件信息的第二增量值中,选取小于预设阈值的第
二增量值,并根据选取的小于预设阈值的第二增量值,确定所述第一事件类型
的第三相关性指标;其中,所述第三相关性指标用于表征当发生对应于所述第
一事件类型的事件时,数据取值减小的概率;或者,从事件类型为所述第一事
件类型的所述筛选事件信息的第二增量值中,选取大于所述预设阈值的第二增
量值,并根据选取的大于预设阈值的第二增量值,以及事件类型为所述第一事
件类型的所述筛选事件信息的第二增量值,确定所述第一事件类型的第四相关
性指标;其中,所述第四相关性指标用于表征当发生对应于所述第一事件类型
的事件时,数据平均值的增大量;或者,从事件类型为所述第一事件类型的所
述筛选事件信息的第二增量值中,选取小于所述预设阈值的第二增量值,并根
据选取的小于预设阈值的第二增量值,以及事件类型为所述第一事件类型的所
述筛选事件信息的第二增量值,确定所述第一事件类型的第五相关性指标;其
中,所述第五相关性指标用于表征当发生对应于所述第一事件类型的事件时,
数据平均值的减小量。
18.如权利要求17所述的装置,其特征在于,所述相关性结果获取单元,
具体用于:
若所述第一事件类型的第四相关性指标大于第一预设增大平均值阈值,且
所述第一事件类型的第二相关性指标与所述第一事件类型的第三相关性指标
的差值大于差值阈值,则确定所述相关性结果为,所述第一事件类型和所述数
据序列相关,且对应于所述第一事件类型的事件发生,将引起所述数据序列中
的数据取值增大,增大量为所述第四相关性指标;否则,若所述第一事件类型
的第五相关性指标小于第二预设增大平均值阈值,且所述第一事件类型的第二
相关性指标与所述第一事件类型的第三相关性指标的差值大于所述差值阈值,
则确定所述相关性结果为,第一事件类型和所述数据序列相关,且对应于所述
第一事件类型的事件发生,将引起所述数据序列中的数据取值减小,减小量为
所述第一事件类型的第五相关性指标;若所述第一事件类型的第五相关性指标
大于第二预设增大平均值阈值,或者所述第一事件类型的第二相关性指标与所
述第一事件类型的第三相关性指标的差值小于所述差值阈值,则当所述第一事
件类型的第一相关性指标大于预设概率阈值时,确定所述相关性结果为,所述
第一事件类型和所述数据序列相关,且对应于所述第一事件类型的事件发生将
引起数据序列中空类型数据的出现概率增大。

说明书

一种海量数据的信息处理方法及装置

技术领域

本发明涉及数据处理领域,尤其涉及一种海量数据的信息处理方法及装
置。

背景技术

目前,对获取到的数据进行处理,以确定不同类型数据之间的相关性,对
于行业发展有着至关重要的作用。例如,在医学领域,探究人体疾病的诱发原
因时,常常需要关联分析患者的疾病和生活习惯之间的相关性,如分析吸烟习
惯和患肺癌的相关性;又如,在金融领域,也常常需要关联分析不同股票的价
格波动的相关性。

在现有技术中,数据之间的相关性分析仅局限于同类型数据之间,如是否
吸烟和是否患肺癌,都属于事件类型,两支股票价格均为随时间变化的数据序
列,该数据序列中包含取值为整数、小数或者空的数据。然而,随着科技的迅
猛发展,不同业务之间的相互交叉也越来越频繁,使得挖掘数据序列变量和事
件变量之间的相关性也变成越来越重要。

目前,针对两个事件类型变量之间相关性,主要采用卡方检验(chi-squared
test)方法获取;而针对两个数据序列之间的相关性,主要通过皮尔逊相关系
数(Pearson’s correlation coefficient)方法获取,上述两种方式均不能相互使用,
因此,目前仅能获取不同数据序列之间的相关性,或者不同事件信息集合之间
的相关性,而针对数据序列和事件信息集合之间的相关性的获取,需要通过人
工实现,缺乏定性定量的分析技术方法。

由此可见,目前在对数据相关性获取的过程中,存在无法获取数据序列变
量和事件变量之间相关性的问题。

发明内容

本发明实施例提供一种海量数据的信息处理方法及装置,用以解决目前在
对数据相关性获取的过程中,存在无法获取数据序列变量和事件变量之间相关
性的问题。

本发明实施例提供的具体技术方案如下:

第一方面,提供一种海量数据的信息处理方法,包括:从至少一个数据源
获取数据序列和事件信息集合;其中,第一数据源的所述数据序列中包含所述
第一数据源在n个采集周期内所采集的数据,第一数据源为所述至少一个数据
源中的任一数据源,所述第一数据源的所述事件信息集合中包含所述第一数据
源在所述n个采集周期内发生的事件的事件信息,所述事件信息包括所述事件
的事件类型,以及所述事件发生的起始时间和结束时间;n为大于等于2的整
数;通过海量数据信息处理模型将获取的所述数据序列和所述事件信息集合进
行处理,得到所述数据序列和所述事件信息集合中任一事件信息之间的相关性
结果;其中,所述海量数据信息处理模型用于根据所述至少一个数据源获取数
据序列和事件信息集合,确定所述数据序列和所述事件信息集合中任一事件信
息之间的相关性结果。

结合第一方面,在第一种可能的实现方式中,对于所述至少一个数据源中
的每一个数据源,均执行如下操作:在第一数据源的事件信息集合中,对所述
第一数据源对应的第一采集周期内的事件信息进行筛选,获取筛选事件信息,
所述筛选事件信息为所述事件信息集合中满足第一预设筛选条件的事件信息,
将所述筛选事件信息存储至筛选事件信息集合中;其中,所述第一采集周期为
所述n个采集周期中的任一采集周期;从所述第一数据源对应的n个采集周期
内的数据序列中,选取筛选数据,其中,所述筛选数据为所述数据序列中满足
第二预设筛选条件的数据;根据所述筛选事件信息集合中包含的所述至少一个
数据源的筛选事件信息的事件类型,对所述筛选事件信息集合中包含的筛选事
件信息进行分类,获取每一种事件类型对应的筛选事件信息;从所述每一个数
据源的筛选数据中,选取第一事件类型对应的筛选事件信息的起始时间和结束
时间之间的筛选数据;其中,所述第一事件类型为所述筛选事件信息集合中包
含的事件类型中的任一事件类型;根据获取的所述第一事件类型对应的筛选事
件信息的起始时间和结束时间之间的筛选数据,获取所述第一事件类型的相关
性指标;根据所述相关性指标获取所述数据序列和所述第一事件类型之间的相
关性结果。

结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,在
所述第一数据源的事件信息集合中,对所述第一数据源对应的第一采集周期内
的任一事件信息,执行如下操作:根据所述第一事件信息的第一事件发生的起
始时间和结束时间,确定所述第一事件所对应的时间窗;其中,所述第一事件
信息为所述第一数据源的事件信息集合中,所述第一数据源对应的第一采集周
期内的任一事件信息;当判定在所述第一事件所对应的时间窗内,没有除所述
第一事件之外的其他事件发生时,确定所述第一事件信息为所述筛选事件信息
并获取所述筛选事件信息。

结合第一方面的第一种可能的实现方式或者第二种可能的实现方式,在第
三种可能的实现方式中,从所述第一数据源对应的所述第一采集周期内的数据
序列中,选取所述第一数据源的每一个筛选事件信息的起始时间和结束时间之
间的数据,将选取的所述数据作为第一数据源对应的第一采集周期的筛选数
据;以及从除所述第一采集周期之外的其他采集周期中,选取在所述每一个筛
选事件信息的所述起始时间和所述结束时间之间的数据,并根据获取的数据确
定所述第一数据源对应的所述其他采集周期的筛选数据;将所述第一数据源对
应的第一采集周期的筛选数据,以及所述第一数据源对应的所述其他采集周期
的筛选数据,确定为所述第一数据源的筛选数据。

结合第一方面的第一种可能的实现方式至第三种可能的实现方式中的任
一种,在第四种可能的实现方式中,对于事件类型为所述第一事件类型的第一
筛选事件信息,根据所述第一采集周期内,所述第一筛选事件信息的起始时间
和结束时间之间的筛选数据中包含的第一空类型筛选数据和第一非空类型筛
选数据,获取所述第一筛选事件信息的第一特性值和第二特性值;其中,所述
第一特性值用于表征所述第一采集周期内的所述第一筛选事件信息的起始时
间和结束时间之间,所述第一空类型筛选数据的出现概率,所述第二特性值用
于表征所述第一采集周期内的所述第一筛选事件信息的起始时间和结束时间
之间,所述第一非空类型筛选数据的平均值;所述第一筛选事件信息为事件类
型为所述第一事件类型的任一筛选事件信息;对于事件类型为所述第一事件类
型的第一筛选事件信息,根据所述其他采集周期内,所述第一筛选事件信息的
起始时间和结束时间之间的筛选数据中包含的第二空类型筛选数据和第二非
空类型筛选数据,获取所述第一筛选事件信息的第三特性值和第四特性值;其
中,所述第三特性值用于表征所述n个采集周期内的所述第一筛选事件信息的
起始时间和结束时间之间,所述第二空类型筛选数据的出现概率,所述第四特
性值用于表征所述n个采集周期内的所述第一筛选事件信息的起始时间和结束
时间之间,所述第二非空类型的所述筛选数据的平均值;对于事件类型为所述
第一事件类型的第一筛选事件信息,获取所述第一筛选事件信息的第一特性值
和第三特性值的差值,将所述差值确定为所述第一筛选事件信息的第一增量
值;以及获取所述第一筛选事件信息的第二特性值和第四特性值的差值,将所
述差值确定为所述第一筛选事件信息的第二增量值;其中,所述第一增量值用
于表征在所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间
之间,所述第一空类型筛选数据的出现概率相对于所述n个采集周期内的所述
起始时间和结束时间之间所述第二空类型筛选数据的出现概率的增量,所述第
二增量值用于表征在所述第一采集周期内,所述第一筛选事件信息的起始时间
和结束时间之间,第一非空类型筛选数据的平均值相对于所述n个采集周期内
的所述起始时间和结束时间之间第二非空类型筛选数据的平均值的增量;分别
获取事件类型为所述第一事件类型的每一个筛选事件信息的第一增量值和第
二增量值;根据获取的所述每一个筛选事件信息的第一增量值和第二增量值,
确定所述第一事件类型的相关性指标。

结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,从
所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛
选数据中,选取第一空类型筛选数据;并根据所述第一空类型筛选数据,所述
第一筛选事件信息所对应的时间窗,采用指示函数,获取所述第一筛选事件信
息的第一特性值;从所述第一采集周期内,所述第一筛选事件信息的起始时间
和结束时间之间的筛选数据中,选取第一非空类型筛选数据;并根据所述第一
非空类型筛选数据,所述第一筛选事件信息所对应的时间窗,采用指示函数,
获取所述筛选事件信息的第二特性值。

结合第一方面的第四种可能的实现方式,在第六种可能的实现方式中,从
所述其他采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛
选数据中,选取第二空类型筛选数据;并根据所述第二空类型筛选数据,所述
其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数据
的数目,采用指示函数,获取所述筛选事件信息的第三特性值;从所述其他采
集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,
选取第二非空类型筛选数据;并根据所述第二非空类型筛选数据,所述其他采
集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数据,所述其
他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数据的
数目,采用指示函数,获取所述筛选事件信息的第四特性值。

结合第一方面的第四种可能的实现方式至第六种可能的实现方式,在第七
种可能的实现方式中,根据事件类型为所述第一事件类型的所有筛选事件信息
的第一增量值,确定所述第一事件类型的第一相关性指标;其中,第一相关性
指标用于表征空类型数据的出现概率与发生对应于所述第一事件类型的事件
相关;或者,从事件类型为所述第一事件类型的所述筛选事件信息的第二增量
值中,选取大于预设阈值的第二增量值,并根据选取的大于预设阈值的第二增
量值,确定所述第一事件类型的第二相关性指标;其中,所述第二相关性指标
用于表征当发生对应于所述第一事件类型的事件时,数据取值增大的概率;或
者,从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选
取小于预设阈值的第二增量值,并根据选取的小于预设阈值的第二增量值,确
定所述第一事件类型的第三相关性指标;其中,所述第三相关性指标用于表征
当发生对应于所述第一事件类型的事件时,数据取值减小的概率;或者,从事
件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取大于所
述预设阈值的第二增量值,并根据选取的大于预设阈值的第二增量值,以及事
件类型为所述第一事件类型的所述筛选事件信息的第二增量值,确定所述第一
事件类型的第四相关性指标;其中,所述第四相关性指标用于表征当发生对应
于所述第一事件类型的事件时,数据平均值的增大量;或者,从事件类型为所
述第一事件类型的所述筛选事件信息的第二增量值中,选取小于所述预设阈值
的第二增量值,并根据选取的小于预设阈值的第二增量值,以及事件类型为所
述第一事件类型的所述筛选事件信息的第二增量值,确定所述第一事件类型的
第五相关性指标;其中,所述第五相关性指标用于表征当发生对应于所述第一
事件类型的事件时,数据平均值的减小量。

结合第一方面的第七种可能的实现方式,在第八种可能的实现方式中,若
所述第一事件类型的第四相关性指标大于第一预设增大平均值阈值,且所述第
一事件类型的第二相关性指标与所述第一事件类型的第三相关性指标的差值
大于差值阈值,则确定所述相关性结果为,所述第一事件类型和所述数据序列
相关,且对应于所述第一事件类型的事件发生,将引起所述数据序列中的数据
取值增大,增大量为所述第四相关性指标;否则,若所述第一事件类型的第五
相关性指标小于第二预设增大平均值阈值,且所述第一事件类型的第二相关性
指标与所述第一事件类型的第三相关性指标的差值大于所述差值阈值,则确定
所述相关性结果为,第一事件类型和所述数据序列相关,且对应于所述第一事
件类型的事件发生,将引起所述数据序列中的数据取值减小,减小量为所述第
一事件类型的第五相关性指标;若所述第一事件类型的第五相关性指标大于第
二预设增大平均值阈值,或者所述第一事件类型的第二相关性指标与所述第一
事件类型的第三相关性指标的差值小于所述差值阈值,则当所述第一事件类型
的第一相关性指标大于预设概率阈值时,确定所述相关性结果为,所述第一事
件类型和所述数据序列相关,且对应于所述第一事件类型的事件发生将引起数
据序列中空类型数据的出现概率增大。

第二方面,提供一种海量数据的信息处理装置,包括:数据序列和事件信
息集合获取单元,从至少一个数据源获取数据序列和事件信息集合;其中,第
一数据源的所述数据序列中包含所述第一数据源在n个采集周期内所采集的数
据,第一数据源为所述至少一个数据源中的任一数据源,所述第一数据源的所
述事件信息集合中包含所述第一数据源在所述n个采集周期内发生的事件的事
件信息,所述事件信息包括所述事件的事件类型,以及所述事件发生的起始时
间和结束时间;n为大于等于2的整数;相关性结果获取单元,用于通过海量
数据信息处理模型将所述数据序列和事件信息集合获取单元获取的所述数据
序列和所述事件信息集合进行处理,得到所述数据序列和所述事件信息集合中
任一事件信息之间的相关性结果;其中,所述海量数据信息处理模型用于根据
所述至少一个数据源获取数据序列和事件信息集合,确定所述数据序列和所述
事件信息集合中任一事件信息之间的相关性结果。

结合第二方面,在第一种可能的实现方式,所述相关性结果获取单元,具
体用于:对于所述至少一个数据源中的每一个数据源,均执行如下操作:在第
一数据源的事件信息集合中,对所述第一数据源对应的第一采集周期内的事件
信息进行筛选,获取筛选事件信息,所述筛选事件信息为所述事件信息集合中
满足第一预设筛选条件的事件信息,将所述筛选事件信息存储至筛选事件信息
集合中;其中,所述第一采集周期为所述n个采集周期中的任一采集周期;从
所述第一数据源对应的n个采集周期内的数据序列中,选取筛选数据,其中,
所述筛选数据为所述数据序列中满足第二预设筛选条件的数据;根据所述筛选
事件信息集合中包含的所述至少一个数据源的筛选事件信息的事件类型,对所
述筛选事件信息集合中包含的筛选事件信息进行分类,获取每一种事件类型对
应的筛选事件信息;从所述每一个数据源的筛选数据中,选取第一事件类型对
应的筛选事件信息的起始时间和结束时间之间的筛选数据;其中,所述第一事
件类型为所述筛选事件信息集合中包含的事件类型中的任一事件类型;根据获
取的所述第一事件类型对应的筛选事件信息的起始时间和结束时间之间的筛
选数据,获取所述第一事件类型的相关性指标;根据所述相关性指标获取所述
数据序列和所述第一事件类型之间的相关性结果。

结合第二方面的第一种可能的实现方式,在第二种可能的实现方式,所述
相关性获取单元单元,具体用于:在所述第一数据源的事件信息集合中,对所
述第一数据源对应的第一采集周期内的任一事件信息,执行如下操作:根据所
述第一事件信息的第一事件发生的起始时间和结束时间,确定所述第一事件所
对应的时间窗;其中,所述第一事件信息为所述第一数据源的事件信息集合中,
所述第一数据源对应的第一采集周期内的任一事件信息;当判定在所述第一事
件所对应的时间窗内,没有除所述第一事件之外的其他事件发生时,确定所述
第一事件信息为所述筛选事件信息并获取所述筛选事件信息。

结合第二方面的第一种可能的实现方式或第二种可能的实现方式,在第三
种可能的实现方式中,所述相关性结果获取单元,具体用于:从所述第一数据
源对应的所述第一采集周期内的数据序列中,选取所述第一数据源的每一个筛
选事件信息的起始时间和结束时间之间的数据,将选取的所述数据作为第一数
据源对应的第一采集周期的筛选数据;以及从除所述第一采集周期之外的其他
采集周期中,选取在所述每一个筛选事件信息的所述起始时间和所述结束时间
之间的数据,并根据获取的数据确定所述第一数据源对应的所述其他采集周期
的筛选数据;将所述第一数据源对应的第一采集周期的筛选数据,以及所述第
一数据源对应的所述其他采集周期的筛选数据,确定为所述第一数据源的筛选
数据。

结合第二方面的第一种可能的实现方式至第三种可能的实现方式中任一
种,在第四种可能的实现方式中,所述相关性结果获取单元,具体用于:对于
事件类型为所述第一事件类型的第一筛选事件信息,根据所述第一采集周期
内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包含的第
一空类型筛选数据和第一非空类型筛选数据,获取所述第一筛选事件信息的第
一特性值和第二特性值;其中,所述第一特性值用于表征所述第一采集周期内
的所述第一筛选事件信息的起始时间和结束时间之间,所述第一空类型筛选数
据的出现概率,所述第二特性值用于表征所述第一采集周期内的所述第一筛选
事件信息的起始时间和结束时间之间,所述第一非空类型筛选数据的平均值;
所述第一筛选事件信息为事件类型为所述第一事件类型的任一筛选事件信息;
对于事件类型为所述第一事件类型的第一筛选事件信息,根据所述其他采集周
期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包含的
第二空类型筛选数据和第二非空类型筛选数据,获取所述第一筛选事件信息的
第三特性值和第四特性值;其中,所述第三特性值用于表征所述n个采集周期
内的所述第一筛选事件信息的起始时间和结束时间之间,所述第二空类型筛选
数据的出现概率,所述第四特性值用于表征所述n个采集周期内的所述第一筛
选事件信息的起始时间和结束时间之间,所述第二非空类型的所述筛选数据的
平均值;对于事件类型为所述第一事件类型的第一筛选事件信息,获取所述第
一筛选事件信息的第一特性值和第三特性值的差值,将所述差值确定为所述第
一筛选事件信息的第一增量值;以及获取所述第一筛选事件信息的第二特性值
和第四特性值的差值,将所述差值确定为所述第一筛选事件信息的第二增量
值;其中,所述第一增量值用于表征在所述第一采集周期内,所述第一筛选事
件信息的起始时间和结束时间之间,所述第一空类型筛选数据的出现概率相对
于所述n个采集周期内的所述起始时间和结束时间之间所述第二空类型筛选数
据的出现概率的增量,所述第二增量值用于表征在所述第一采集周期内,所述
第一筛选事件信息的起始时间和结束时间之间,第一非空类型筛选数据的平均
值相对于所述n个采集周期内的所述起始时间和结束时间之间第二非空类型筛
选数据的平均值的增量;分别获取事件类型为所述第一事件类型的每一个筛选
事件信息的第一增量值和第二增量值;根据获取的所述每一个筛选事件信息的
第一增量值和第二增量值,确定所述第一事件类型的相关性指标。

结合第二方面的第四种可能的实现方式,在第五种可能的实现方式中,所
述相关性结果获取单元,具体用于:从所述第一采集周期内,所述第一筛选事
件信息的起始时间和结束时间之间的筛选数据中,选取第一空类型筛选数据;
并根据所述第一空类型筛选数据,所述第一筛选事件信息所对应的时间窗,采
用指示函数,获取所述第一筛选事件信息的第一特性值;从所述第一采集周期
内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第
一非空类型筛选数据;并根据所述第一非空类型筛选数据,所述第一筛选事件
信息所对应的时间窗,采用指示函数,获取所述筛选事件信息的第二特性值。

结合第二方面的第四种可能的实现方式,在第六种可能的实现方式中,所
述相关性结果获取单元,具体用于:从所述其他采集周期内,所述第一筛选事
件信息的起始时间和结束时间之间的筛选数据中,选取第二空类型筛选数据;
并根据所述第二空类型筛选数据,所述其他采集周期内的第一筛选事件信息的
起始时间和结束时间之间的筛选数据的数目,采用指示函数,获取所述筛选事
件信息的第三特性值;从所述其他采集周期内,所述第一筛选事件信息的起始
时间和结束时间之间的筛选数据中,选取第二非空类型筛选数据;并根据所述
第二非空类型筛选数据,所述其他采集周期内的第一筛选事件信息的起始时间
和结束时间之间的筛选数据,所述其他采集周期内的第一筛选事件信息的起始
时间和结束时间之间的筛选数据的数目,采用指示函数,获取所述筛选事件信
息的第四特性值。

结合第二方面的第四种可能的实现方式至第六种可能的实现方式中的任
一种,在第七种可能的实现方式中,所述相关性结果获取单元,具体用于:根
据事件类型为所述第一事件类型的所有筛选事件信息的第一增量值,确定所述
第一事件类型的第一相关性指标;其中,第一相关性指标用于表征空类型数据
的出现概率与发生对应于所述第一事件类型的事件相关;或者,从事件类型为
所述第一事件类型的所述筛选事件信息的第二增量值中,选取大于预设阈值的
第二增量值,并根据选取的大于预设阈值的第二增量值,确定所述第一事件类
型的第二相关性指标;其中,所述第二相关性指标用于表征当发生对应于所述
第一事件类型的事件时,数据取值增大的概率;或者,从事件类型为所述第一
事件类型的所述筛选事件信息的第二增量值中,选取小于预设阈值的第二增量
值,并根据选取的小于预设阈值的第二增量值,确定所述第一事件类型的第三
相关性指标;其中,所述第三相关性指标用于表征当发生对应于所述第一事件
类型的事件时,数据取值减小的概率;或者,从事件类型为所述第一事件类型
的所述筛选事件信息的第二增量值中,选取大于所述预设阈值的第二增量值,
并根据选取的大于预设阈值的第二增量值,以及事件类型为所述第一事件类型
的所述筛选事件信息的第二增量值,确定所述第一事件类型的第四相关性指
标;其中,所述第四相关性指标用于表征当发生对应于所述第一事件类型的事
件时,数据平均值的增大量;或者,从事件类型为所述第一事件类型的所述筛
选事件信息的第二增量值中,选取小于所述预设阈值的第二增量值,并根据选
取的小于预设阈值的第二增量值,以及事件类型为所述第一事件类型的所述筛
选事件信息的第二增量值,确定所述第一事件类型的第五相关性指标;其中,
所述第五相关性指标用于表征当发生对应于所述第一事件类型的事件时,数据
平均值的减小量。

结合第二方面的第七种可能的实现方式,在第八种可能的实现方式中,所
述相关性结果获取单元,具体用于:若所述第一事件类型的第四相关性指标大
于第一预设增大平均值阈值,且所述第一事件类型的第二相关性指标与所述第
一事件类型的第三相关性指标的差值大于差值阈值,则确定所述相关性结果
为,所述第一事件类型和所述数据序列相关,且对应于所述第一事件类型的事
件发生,将引起所述数据序列中的数据取值增大,增大量为所述第四相关性指
标;否则,若所述第一事件类型的第五相关性指标小于第二预设增大平均值阈
值,且所述第一事件类型的第二相关性指标与所述第一事件类型的第三相关性
指标的差值大于所述差值阈值,则确定所述相关性结果为,第一事件类型和所
述数据序列相关,且对应于所述第一事件类型的事件发生,将引起所述数据序
列中的数据取值减小,减小量为所述第一事件类型的第五相关性指标;若所述
第一事件类型的第五相关性指标大于第二预设增大平均值阈值,或者所述第一
事件类型的第二相关性指标与所述第一事件类型的第三相关性指标的差值小
于所述差值阈值,则当所述第一事件类型的第一相关性指标大于预设概率阈值
时,确定所述相关性结果为,所述第一事件类型和所述数据序列相关,且对应
于所述第一事件类型的事件发生将引起数据序列中空类型数据的出现概率增
大。

本发明实施例中,分别从每一个数据源获取数据序列以及事件信息集合;
将获取的数据源的数据序列和事件信息集合输入预设的海量数据信息处理模
型,从而输出数据序列与事件信息集合中任意时间信息之间的相关性结果。采
用本发明技术方案,基于多个数据源的事件信息,采用预设的海量数据信息处
理模型即可获取每一种事件信息与数据序列的关联性,无须人工判定,有效节
约了人力资源,并保证了获取的结果的准确性。

附图说明

图1为本发明实施例中海量数据的信息处理系统架构图;

图2为本发明实施例中海量数据的信息处理流程图;

图3为本发明实施例中相关性结果获取流程图;

图4为本发明实施例中海量数据的信息处理;

图5为本发明实施例中具体应用场景下海量数据的信息处理流程;

图6为本发明实施例中海量数据的信息处理装置结构示意图;

图7为本发明实施例中海量数据的信息处理设备结构示意图。

具体实施方式

为了解决目前在对数据相关性获取的过程中,存在无法获取数据序列变量
和事件变量之间相关性的问题。本发明实施例中,分别从每一个数据源获取数
据序列以及事件信息集合;将获取的数据源的数据序列和事件信息集合输入预
设的海量数据信息处理模型,从而输出数据序列与事件信息集合中任意时间信
息之间的相关性结果。采用本发明技术方案,基于多个数据源的事件信息,采
用预设的海量数据信息处理模型即可获取每一种事件信息与数据序列的关联
性,无须人工判定,有效节约了人力资源,并保证了获取的结果的准确性。

参阅图1所示,为本发明实施例中海量数据的信息处理系统架构图,该海
量数据的信息处理系统包括信息处理设备,该信息处理设备用于将获取到的数
据源的数据序列以及事件信息集合进行处理,以确定事件信息集合和数据序列
之间的相关性,该信息处理设备可以具备用户交互界面,以便于向用户呈现相
关性判断结果;该信息处理设备还可以不具备用户交互界面,该信息处理设备
与具备用户交互界面的客户端相连接,以通过该客户端向用户呈现相关性判断
结果;此外,上述海量数据的信息处理系统中还可以包含多个数据源,用于向
信息处理设备提供待处理的数据序列以及事件信息集合;可选的,上述海量数
据的信息处理系统中还可以包含采集设备,用于采集数据源提供的待处理的数
据序列以及事件信息集合,并将采集到的信息发送至信息处理设备。

下面结合说明书附图,对本发明实施例作进一步详细描述。

参阅图2所示,本发明实施例中,海量数据的信息处理过程,包括:

步骤200:从至少一个数据源获取数据序列和事件信息集合;其中,第一
数据源的数据序列中包含第一数据源在n个采集周期内所采集的数据,第一数
据源为至少一个数据源中的任一数据源,第一数据源的事件信息集合中包含第
一数据源在n个采集周期内发生的事件的事件信息,该事件信息包括事件的事
件类型,以及该事件发生的起始时间和结束时间;n为大于等于2的整数。

步骤210:通过海量数据信息处理模型将获取的数据序列和事件信息集合
进行处理,得到该数据序列和该事件信息集合中任一事件信息之间的相关性结
果;其中,海量数据信息处理模型用于根据至少一个数据源获取数据序列和事
件信息集合,确定数据序列和事件信息集合中任一事件信息之间的相关性结
果。

在步骤200中,采集设备分别将从每一个数据源获取的数据序列和事件信
息集合发送至信息处理设备,使信息处理设备直接获取每一个数据源的数据序
列和事件信息集合;或者,采集设备将所有采集到的数据序列和事件信息发送
至信息处理设备,信息处理设备根据每一个数据序列和事件信息集合所携带的
数据源标识,对所有数据序列和事件信息集合进行分类,以确定哪个数据序列
和哪个事件信息集合对应于同一个数据源。当采用后一种技术方案时,信息处
理设备对获取的事件信息集合和数据序列进行关联关系匹配,以确定对应于同
一个数据源的数据序列和事件信息集合,建立数据序列和事件信息集合在时空
域中的匹配关系,从而便于后期获取单个数据源对应的相关参数。基于此,信
息处理设备可以获取多个数据序列和多个事件信息集合,每一个数据序列对应
一个数据源,每一个事件信息集合也对应一个数据源,此外,信息处理设备可
以获取一个数据序列和一个事件信息集合,该数据序列中包含所有数据源的数
据,事件信息集合中包含所有数据源的事件信息,且在该筛选信息集合中,筛
选事件信息均以其自身对应的数据源的不同而分类,即每一个分类中仅包含同
一个数据源的筛选事件信息。以下以第二种方式为例,详细介绍获取数据序列
和事件信息集合之间相关性的方法。

信息处理设备从每一个数据源获取到数据序列和事件信息集合,如任意一
数据源用k表示,1≤k≤K,K为数据源的总数目,该数据源k的数据序列用
表示,i表示时间窗的标识,表示数据源k在第i个时间窗
中的变量值,该的值为空(NULL)类型或者为非空类型(包含整数和小
数);该数据源k的事件信息集合用E(k)表示,表
示数据源k上发生的任一事件的事件信息,该事件信息包括该任一事件的开始
时间(由e.start表示),结束时间(由e.end表示),以及事件类型(由e.type
表示)。

其中,上述时间窗为信息处理设备在本地预设的一个时间段,如该时间窗
为30分钟,且每一个时间窗的时间长度相等,此外该时间窗与数据源本地预
设的时间窗的时间段长度相等;通过该时间窗将一个采集周期划分为多个时间
段。

由于时间窗为数据源本地预设的参数,因此,当数据源本地没有预设时间
窗的情况下,可选的,信息处理设备在本地也不设置时间窗。

在步骤210中,信息处理设备在本地预先建立海量数据信息处理模型,用
于对输入的数据源的数据序列和事件信息集合进行处理,以确定数据序列与事
件信息集合中包含的事件信息之间的相关性结果。

参阅图3所示,在步骤210中,通过海量数据信息处理模型将获取的数据
序列和事件信息集合进行处理的过程,包括:

步骤a1:对于上述至少一个数据源中的每一个数据源,均执行如下操作:
在第一数据源的事件信息集合中,对第一数据源对应的第一采集周期内的事件
信息进行筛选,获取筛选事件信息,该筛选事件信息为上述事件信息集合中满
足第一预设筛选条件的事件信息,将该筛选事件信息存储至筛选事件信息集合
中;其中,第一采集周期为n个采集周期中的任一采集周期;从第一数据源对
应的n个采集周期内的数据序列中,选取筛选数据,其中,该筛选数据为数据
序列中满足第二预设筛选条件的数据。

本发明实施例中,信息处理设备在本地预设筛选事件信息集合,该筛选事
件信息集合为空;对每一个数据源的事件信息集合中的事件信息进行筛选,获
取满足预设筛选条件的事件信息,并将获取的事件信息作为筛选事件信息存储
至上述筛选事件信息集合中。其中,该预设筛选条件为在事件对应的时间窗内,
不存在其他事件发生。

具体的,以信息处理设备对第一数据源的事件信息集合中进行事件信息筛
选为例,该第一数据源为信息处理设备获取到的所有数据源中的任一数据源,
则信息处理设备获取第一数据源的筛选事件信息的过程为:对于第一数据源的
事件信息集合中的第一事件信息,该第一事件信息为第一数据源的所有事件信
息中的任一事件信息,第一事件信息包含发生第一事件的起始时间和结束时
间;信息处理设备根据第一事件发生的起始时间和结束时间,确定该第一事件
所对应的时间窗;当判定在该第一事件所对应的时间窗内,没有除该第一事件
之外的其他事件发生时,确定该第一事件满足上述预设筛选条件;当判定在该
第一事件所对应的时间窗内,除该第一事件之外,还存在其他事件时,确定该
第一事件不满足预设筛选条件,此时,不将该第一事件存储至筛选事件信息集
合中;信息处理设备将第一数据源的所有事件信息均采用上述方式进行筛选处
理,以获取第一数据源的所有筛选事件信息。例如,针对第一数据源的第一事
件e1,该第一事件e1对应的时间窗为a,若在该时间窗a中,第一数据源上仅
发生了第一事件e1,此时,将第一事件e1的第一事件信息作为筛选事件信息存
储至筛选事件信息集合中;若在该时间窗a中,第一数据源上除了发生第一事
件e1以外,还发生了第二事件e2,此时,不将第一事件e1存储至筛选事件信
息集合中。信息处理设备对于获取的每一个数据源的事件信息,均执行上述操
作,以获取所有数据源的筛选事件信息。

在上述过程中,若信息处理设备在本地设置时间窗时,还可以设置时间窗
的关联函数f(t),该关联函数f(t)用于表示时间窗的标识,即已知任意一事
件发生的起始时间和结束时间,即可获取该任意一事件对应的时间窗标识;例
如,对于第一数据源上发生的第一事件e,n1=f(e.start),n2=f(e.end),n1
和n2均为第一事件e对应的时间窗标识,n1和n2可以相等,也可以不相等。
例如,当以一天为一个周期,一个小时为一个时间窗时,10:00~11:00为时
间窗10,11:00~12:00为时间窗11,若第一事件e的起始时间为10:30,
结束时间为11:30,则第一事件e对应的时间窗n1为时间窗10,时间窗n2为
时间窗11,此时n1和n2不相等;若第一时间e的起始时间为10:30,结束时
间为10:40,则第一事件e对应的时间窗n1为时间窗10,时间窗n2为时间窗
10,此时n1和n2相等。采用该技术方案,获取每一个事件信息对应的时间窗
标识,便于后期进行筛选事件信息的判断。

进一步的,当信息处理设备在本地没有预设时间窗时,在获取每一个数据
源的筛选事件信息时,仅以事件信息的起始时间和结束时间为基准进行筛选即
可,如对于第一数据源的事件信息集合中的第一事件信息,该第一事件信息为
第一数据源的所有事件信息中的任一事件信息,第一事件信息包含发生第一事
件的起始时间和结束时间;信息处理设备判定在第一事件发生的起始时间和结
束时间之间,没有除该第一事件之外的其他事件发生时,确定该第一事件满足
上述预设筛选条件;当判定在该第一事件发生的起始时间和结束时间之间,除
该第一事件之外,还存在其他事件时,确定该第一事件不满足预设筛选条件,
此时,不将该第一事件存储至筛选事件信息集合中;信息处理设备将第一数据
源的所有事件信息均采用上述方式进行筛选处理,以获取第一数据源的所有筛
选事件信息。

采用该技术方案,将在第一事件的时间窗内仅发生第一事件的第一事件信
息作为筛选事件信息,避免当在第一事件的时间窗内发生多个事件时,无法判
定该时间窗对应的数据是由哪一个事件的发生造成的,保证了最终获取的结果
的准确性。

在上述步骤a1中,信息处理设备在本地预设筛选数据集合,以第一数据
源的第一筛选事件信息为例,该第一筛选事件信息为第一数据源的所有筛选事
件信息中的任一筛选事件信息,获取筛选数据集合中筛选数据的过程包括:在
第一采集周期内,确定第一筛选事件信息的起始时间和结束时间;根据该第一
筛选事件信息的起始时间和结束时间,选取第一数据源的数据序列中,该起始
时间和结束时间之间的数据。例如,第一数据源对应的第一采集周期内,第一
筛选事件信息的起始时间为周一10:00~11:00,此时,从第一数据源的数据
序列中,选取周一10:00~11:00之间的数据,将该数据作为第一周期内的筛
选数据。

进一步的,根据该第一筛选事件信息的起始时间和结束时间,从第一数据
源的数据序列中,获取除上述第一采集周期之外的其他采集周期内,该第一筛
选事件信息的起始时间和结束时间之间的数据;若除上述第一采集周期之外的
其他采集周期内,存在任意一采集周期,在该任意一采集周期内的第一筛选事
件信息的起始时间和结束时间之间没有任何事件发生,则保留该任意一采集周
期的第一筛选事件信息的起始时间和结束时间之间的数据,并将保留的数据作
为第一数据源对应的其他采集周期内的筛选数据,保存至筛选数据集合中;否
则,剔除掉该任意一采集周期内的第一筛选事件信息的起始时间和结束时间之
间的数据。

例如,对于第一数据源,一个采集周期为7天,在第一采集周期内,第一
数据源发生了事件e1,该事件e1的起始时间为10:00,结束时间为11:00,
除第一采集周期之外,还包括第二采集周期、第三采集周期和第四采集周期,
在第二采集周期的10:00~11:00之间,发生了事件e2,由于仅需要保留在上
述10:00~11:00之间没有任何事件发生的该时间段的数据,因此,此时将剔
除第二采集周期的10:00~11:00之间的数据;在第三采集周期的10:00~11:
00之间,仅发生了事件e1,由于仅需要保留在上述10:00~11:00之间没有任
何事件发生的该时间段的数据,因此,此时将剔除第三采集周期的10:00~11:
00之间的数据;在第四采集周期的10:00~11:00之间,没有发生任何事件,
由于仅需要保留在上述10:00~11:00之间没有任何事件发生的该时间段的数
据,因此,此时将第四采集周期的10:00~11:00之间的数据作为筛选数据,
存储至筛选事件集合中。

进一步的,信息处理设备对筛选事件信息集合中的每一个筛选事件信息,
均执行上述操作,以获取所有数据源的筛选数据。

采用上述技术方案,针对每一个数据源,信息处理设备将除上述第一采集
周期以外的其他采集周期内,在特定时间段中存在事件发生的数据剔除,仅保
留在该特定时间段内不存在任何事件发生的该特定时间段内的数据,便于后期
确定该特定时间段内数据变化是否与上述第一采集周期发生的事件相关,避免
其他事件对判断结果造成的干扰,提高了最终获取的判断结果的准确性。

步骤a2:根据筛选事件信息集合中包含的至少一个数据源的筛选事件信息
的事件类型,对筛选事件信息集合中包含的筛选事件信息进行分类,获取每一
种事件类型对应的筛选事件信息。

本发明实施例中,信息处理设备获取该筛选事件信息集合中包含的每一个
筛选事件信息的事件类型,根据事件类型对所有的筛选事件信息进行分类,使
每一个分类中包含对应于同一个事件类型的筛选事件信息。例如,针对事件e1、
e2、e3和e4,事件e1的事件类型为小区不可用告警,事件e2的事件类型为网络
中断告警,事件e3的事件类型为网络中断告警,事件e4的事件类型为小区不
可用告警,则事件e1和事件e2的事件类型相同,属于同一个分类,事件e3和
事件e4的事件类型相同,属于同一个分类。

步骤a3:从每一个数据源的筛选数据中,获取第一事件类型对应的筛选事
件信息的起始时间和结束时间之间的筛选数据;其中,第一事件类型为筛选事
件信息集合中包含的事件类型中的任一事件类型。

步骤a4:根据获取的第一事件类型对应的筛选事件信息的起始时间和结束
时间之间的筛选数据,获取第一事件类型的相关性指标。

本发明实施例中,以事件类型为第一事件类型的第一筛选事件信息为例,
该第一事件类型为分类后得到的所有事件类型中的任一种事件类型,第一筛选
事件信息为事件类型为第一事件类型的任一筛选时间信息,详细描述相关性指
标的获取:

对于事件类型为第一事件类型的第一筛选事件信息,信息处理设备根据上
述第一采集周期内,每一个筛选事件信息的起始时间和结束时间之间的筛选数
据中包含的第一空类型筛选数据和第一非空类型筛选数据,获取第一筛选事件
信息的第一特性值和第二特性值;其中,第一特性值用于表征上述第一采集周
期内的所述第一筛选事件信息的起始时间和结束时间之间,第一空类型筛选数
据的出现概率,第二特性值用于表征上述第一采集周期内的所述第一筛选事件
信息的起始时间和结束时间之间,第一非空类型筛选数据的平均值;对于事件
类型为第一事件类型的第一筛选事件信息,根据其他采集周期内,第一筛选事
件信息的起始时间和结束时间之间的筛选数据中包含的第二空类型筛选数据
和第二非空类型筛选数据,获取第一筛选事件信息的第三特性值和第四特性
值;其中,第三特性值用于表征n个采集周期内的第一筛选事件信息的起始时
间和结束时间之间,第二空类型筛选数据的出现概率,第四特性值用于表征n
个采集周期内的第一筛选事件信息的起始时间和结束时间之间,第二非空类型
筛选数据的平均值;对于事件类型为第一事件类型的第一筛选事件信息,获取
第一筛选事件信息的第一特性值和第三特性值的差值,将该差值确定为上述第
一筛选事件信息对应的第一增量值;以及获取第一筛选事件信息的第二特性值
和第四特性值的差值,将该差值确定为上述第一筛选事件信息对应的第二增量
值;其中,第一增量值用于表征在所述第一采集周期内,第一筛选事件信息的
起始时间和结束时间之间,所述第一空类型筛选数据的出现概率相对于所述n
个采集周期内的所述起始时间和结束时间之间所述第二空类型筛选数据的出
现概率的增量,所述第二增量值用于表征在所述第一采集周期内,所述第一筛
选事件信息的起始时间和结束时间之间,第一非空类型筛选数据的平均值相对
于所述n个采集周期内的所述起始时间和结束时间之间第二非空类型筛选数据
的平均值的增量。

针对事件类型为第一事件类型的筛选事件信息,均采用上述方法获取相应
的第一增量值和第二增量值,因此,信息处理设备获取事件类型为第一事件类
型的所有筛选事件信息分别对应的第一增量值和第二增量值;根据所有数据源
的筛选事件信息中,事件类型为第一事件类型的各个筛选事件信息分别对应的
所有第一增量值和所有第二增量值,确定该任意一事件类型对应的相关性指
标。

在步骤a4中,第一筛选事件信息的第二特性值获取:从第一数据源对应
的第一采集周期内,第一筛选事件信息的起始时间和结束时间之间的筛选数据
中,选取第一空类型筛选数据;并根据第一空类型筛选数据,第一筛选事件信
息所对应的时间窗标识,采用指示函数,获取该筛选事件信息的第一特性值;
例如,针对第一数据源的第一筛选事件信息e,针对该第一筛选事件信息e,
其对应的选取的数据序列为该第一筛选事件信息e的起始时间对应的时
间窗标识为n1,结束时间对应的时间窗标识为n2,n1≤n≤n2;则第一筛选事件
信息e的第一特性值可以采用如下公式获取:

<mrow> <msub> <mi>e</mi> <mrow> <mi>NULL</mi> <mo>_</mo> <mi>ratio</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>n</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>n</mi> <mn>1</mn> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <msub> <mi>n</mi> <mn>1</mn> </msub> </mrow> <msub> <mi>n</mi> <mn>2</mn> </msub> </munderover> <mn>1</mn> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mi>NULL</mi> <mo>)</mo> </mrow> </mrow>

其中,eNULL_ratio为第一筛选事件信息e的第一特性值;n1为第一筛选事件
信息e的起始时间对应的时间窗标识;n2为第一筛选事件信息e的结束时间对
应的时间窗标识;1(Q)为指示函数。

第一筛选事件信息的第二特性值的获取:信息处理设备从第一筛选事件信
息的起始时间和结束时间之间筛选数据中,选取第一非空类型数据;并根据第
一非空类型数据,该第一筛选事件信息所对应的时间窗标识,采用指示函数,
获取该第一筛选事件信息的第二特性值。例如,上述第一筛选事件信息e的第
二特性值可以采用如下公式获取:

<mrow> <msub> <mi>e</mi> <mrow> <mi>X</mi> <mo>_</mo> <mi>mean</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <msub> <mi>n</mi> <mn>1</mn> </msub> </mrow> <msub> <mi>n</mi> <mn>2</mn> </msub> </munderover> <msubsup> <mi>X</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mn>1</mn> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>&NotEqual;</mo> <mi>NULL</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <msub> <mi>n</mi> <mn>1</mn> </msub> </mrow> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </munderover> <mn>1</mn> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>&NotEqual;</mo> <mi>NULL</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中,eX_mean为第一筛选事件信息e的第二特性值;n1为第一筛选事件信
息e的起始时间对应的时间窗标识;n2为第一筛选事件信息e的结束时间对应
的时间窗标识;1(Q)为指示函数。

第一筛选事件信息的第三特性值的获取:信息处理设备从筛选数据集合
中,选取第一筛选事件信息的起始时间和结束时间之间的第二空类型筛选数
据;并根据选取的第二空类型筛选数据,该筛选数据集合中包含的其他采集周
期内,第一筛选事件信息的起始时间和结束时间之间的筛选数据的数目,采用
指示函数,获取第一筛选事件信息的第三特性值;例如,在上述第一筛选事件
信息e的其他采集周期内,该第一筛选事件信息e的起始时间和结束时间之间
的筛选数据记为1≤n'≤N,N为第一筛选事件信息的起始时间和结束时间
之间的筛选数据的数目,则第一筛选事件信息e的第三特性值可以采用如下公
式获取:

<mrow> <msub> <mi>e</mi> <mrow> <mi>NULL</mi> <mo>_</mo> <mi>ratio</mi> <mo>_</mo> <mi>base</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <msup> <mi>n</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mn>1</mn> <mrow> <mo>(</mo> <msubsup> <mover> <mi>X</mi> <mo>^</mo> </mover> <msup> <mi>n</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mi>NULL</mi> <mo>)</mo> </mrow> </mrow>

其中,eNULL_ratio_base为事件信息e的第三特性值;N为其他采集周期内,第
一筛选事件信息的起始时间和结束时间之间的筛选数据的数目;1(Q)为指示
函数。

第一筛选事件信息的第四特性值的获取:信息处理设备从筛选数据集合
中,选取第一数据源对应的其他采集周期内第一筛选事件信息的起始时间和结
束时间之间的第二非空类型筛选数据;并根据选取的第二非空类型筛选数据,
其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数据,
以及筛选数据集合中,其他采集周期内的第一筛选事件信息的起始时间和结束
时间之间的筛选数据的数目,采用指示函数,获取该第一筛选事件信息的第四
特性值。例如,上述第一筛选事件信息e的第四特性值可以采用如下公式获取:

<mrow> <msub> <mi>e</mi> <mrow> <mi>X</mi> <mo>_</mo> <mi>mean</mi> <mo>_</mo> <mi>base</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mover> <mi>X</mi> <mo>^</mo> </mover> <mi>n</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mn>1</mn> <mrow> <mo>(</mo> <msubsup> <mover> <mi>X</mi> <mo>^</mo> </mover> <mi>n</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>&NotEqual;</mo> <mi>NULL</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mn>1</mn> <mrow> <mo>(</mo> <msubsup> <mover> <mi>X</mi> <mo>^</mo> </mover> <mi>n</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>&NotEqual;</mo> <mi>NULL</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中,eX_mean_base为第一筛选事件信息e的第四特性值;N为其他采集周期
内,第一筛选事件信息的起始时间和结束时间之间的筛选数据的数目;1(Q)
为指示函数。

信息处理设备根据上述第一筛选事件信息e的第一特性值和第一筛选事件
信息e的第三特性值,可以采用如下公式获取第一筛选事件信息e的第一增量
值:

eNULL_ratio_increment=eNULL_ratio-eNULL_ratio_base

其中,eNULL_ratio_increment为第一筛选事件信息e的第一增量值;eNULL_ratio为
第一筛选事件信息e的第一特性值;eNULL_ratio_base为第一筛选事件信息e的第三
特性值。

基于上述第一事件信息e的第二特性值和第一事件信息e的第四特性值,
可以采用如下公式获取第一事件信息e的第二增量值:

emean_increment=eX_mean-eX_mean_base

其中,emean_increment为第一事件信息e的第二增量值;eX_mean为第一事件信
息e的第二特性值;eX_mean_base为第一事件信息e的第四特性值。

信息处理设备根据对应于第一事件类型的每一个筛选事件信息的第一增
量值和第二增量值,确定第一事件类型对应的相关性指标,其中,该相关性指
标包含五个相关性指标,其中:

第一相关性指标的获取:信息处理设备确定事件类型为第一事件类型的筛
选事件信息;并分别获取确定的每一个筛选事件信息对应的第一增量值;以及
根据获取的每一个筛选事件信息对应的第一增量信息,确定该第一事件类型对
应的第一相关性指标;其中,第一相关性指标用于表征空类型数据的出现概率
与发生对应于该第一事件类型的事件相关,该第一相关性指标为大于等于-1且
小于等于1的值,该第一相关性指标越大,表明当存在第一(记为c)类型事
件发生时,数据序列中数据类型为空的概率越大;例如,上述第一事件类型c
对应的第一相关性指标可以采用如下公式获取:


其中,TNULL_ratio_increment_c为第一事件类型c对应的第一相关性指标;e为筛
选事件信息,且筛选事件信息e的事件类型为c;E*为筛选事件信息集合;e.type
为事件类型;we为筛选事件信息e的权重值,该值为根据具体情况预先设定的
值;eNULL_ratio_increment为筛选事件信息e对应的第一增量值。

第二相关性指标的获取:信息处理设备确定事件类型为第一事件类型的筛
选事件信息;并分别获取确定的每一个筛选事件信息对应的第二增量值;选取
获取的所有第二增量值中大于预设阈值的第二增量值,并根据选取的所有大于
预设阈值的第二增量值,确定上述第一事件类型对应的第二相关性指标;其中,
第二相关性指标用于表征当发生对应于上述第一事件类型的事件时,数据取值
增大的概率;例如,上述第一事件类型c对应的第二相关性指标可以采用如下
公式获取:


其中,Traise_ratio_c为第一事件类型c对应的第二相关性指标;e为筛选事件
信息,且筛选事件信息e的事件类型为c;E*为筛选事件信息集合;e.type一
事件类型;we为筛选事件信息e的权重值,该值为根据具体情况预先设定的值;
emean_increment为筛选事件信息e对应的第二增量值;1(Q)为指示函数。

第三相关性值指标的获取:信息处理设备确定事件类型为第一事件类型的
筛选事件信息;并分别获取确定的每一个筛选事件信息对应的第二增量值;选
取获取的所有第二增量值中小于预设阈值的第二增量值,并根据选取的所有小
于预设阈值的第二增量值,确定上述第一事件类型对应的第三相关性指标;其
中,第三相关性指标用于表征当发生对应于上述第一事件类型的事件时,数据
取值减小的概率;例如,上述第一事件类型c对应的第三相关性指标可以采用
如下公式获取:


其中,Tdrop_ratio_c为第一事件类型c对应的第三相关性指标;e为筛选事件
信息,且筛选事件信息e的事件类型为c;E*为筛选事件信息集合;e.type为
事件类型;we为筛选事件信息e的权重值,该值为根据具体情况预先设定的值;
emean_increment为筛选事件信息e对应的第二增量值;1(Q)为指示函数。

第四相关性指标的获取:信息处理设备确定事件类型为第一事件类型的筛
选事件信息;并分别获取确定的每一个筛选事件信息对应的第二增量值;选取
获取的所有第二增量值中大于预设阈值的第二增量值,并根据选取的所有大于
预设阈值的第二增量值,以及获取的每一个筛选事件信息对应的第二增量值,
确定上述第一事件类型对应的第四相关性指标;其中,第四相关性指标用于表
征当发生对应于上述第一事件类型的事件时,数据平均值的增大量;例如,上
述第一事件类型c对应的第四相关性指标可以采用如下公式获取:


其中,Tmean_increment_c+为第一事件类型c对应的第四相关性指标;e为筛选
事件信息,且筛选事件信息e的事件类型为c;E*为筛选事件信息集合;e.type
为事件类型;we为筛选事件信息e的权重值,该值为根据具体情况预先设定的
值;emean_increment为筛选事件信息e对应的第二增量值;1(Q)为指示函数。

第五相关性指标的获取:信息处理设备确定事件类型为第一事件类型的筛
选事件信息;并分别获取确定的每一个筛选事件信息对应的第一增量值;取获
取的所有第二增量值中小于所述预设阈值的第二增量值,并根据选取的所有小
于预设阈值的第二增量值,以及获取的每一个筛选事件信息对应的第二增量
值,确定第一事件类型对应的第五相关性指标;其中,第五相关性指标用于表
征当发生对应于第一事件类型的事件时,数据平均值的减小量;例如,上述第
一事件类型c对应的第五相关性指标可以采用如下公式获取:


其中,Tmean_increment_c-为第一事件类型c对应的第五相关性指标;e为筛选
事件信息,且筛选事件信息e的事件类型为c;E*为筛选事件信息集合;e.type
为事件类型;we为筛选事件信息e的权重值,该值为根据具体情况预先设定的
值;emean_increment为筛选事件信息e对应的第二增量值;1(Q)为指示函数。

采用上述技术方案,信息处理设备能够获取每一个事件类型对应的各种类
型相关性指标,并根据该各种类型相关性指标来确定数据序列中的数据变化与
哪一种事件类型相关,有效保证了最终得到的判断结果的准确性。

步骤a5:根据上述相关性指标获取数据序列和第一事件类型之间的相关性
结果。

本发明实施例中,若第一事件类型对应的第四相关性指标大于第一预设增
大平均值阈值,且该第一事件类型对应的第二相关性指标与该第一事件类型对
应的第三相关性指标的差值大于差值阈值,则确定该第一事件类型和对应的数
据序列相关,且对应于上述第一事件类型的事件发生,将引起该数据序列中的
数据取值增大,增大量为第四相关性指标;

否则,若上述第一事件类型对应的第五相关性指标小于第二预设增大平均
值阈值,且该第一事件类型对应的第二相关性指标与该第一事件类型对应的第
三相关性指标的差值大于上述差值阈值,则确定该第一事件类型和相应的数据
序列相关,且对应于该第一事件类型的事件发生,将引起上述数据序列中的数
据取值减小,减小量为第五相关性指标;若上述第一事件类型对应的第五相关
性指标大于第二预设增大平均值阈值,或者该第一事件类型对应的第二相关性
指标与该第一事件类型对应的第三相关性指标的差值小于上述差值阈值,则当
上述第一事件类型对应的第一相关性指标大于预设概率阈值时,确定上述第一
事件类型和相应的数据序列相关,且对应于该第一事件类型的事件发生将引起
数据序列中空类型数据的概率增大。

进一步的,当信息处理设备在本地没有预设时间窗时,信息处理设备能够
根据每一个筛选事件信息的起始时间和结束时间,采用上述方式获取上述第一
事件类型对应的各个相关性指标,在此不再赘述。

基于上述技术方案,参阅图4所示,针对任意一数据源k的事件信息集合
E,该事件信息集合E对应的数据序列为X,采用步骤200进行数据时空域关
联匹配,采用步骤a1至步骤a3进行数据序列X和事件信息集合E之间的特征
构建与提取,采用步骤a4至步骤a5,进行相关性指标和相关性结果确定。

例如,在通信应用领域,当某一基站对应的某一特定KPI(Key Performance
Indicator;企业关键绩效指标)指标较差时,需要查看该基站的话统指标,以
及KPI指标较差的时间段内是否存在告警。如果存在告警,则可以定位到硬件
问题,或者硬件资源不够等原因,无须关注其他的射频方面原因;如果KPI指
标较差的时间段内没有告警,将从射频方面深入分析KPI指标较差的原因。基
于上述过程,采用本发明技术方案时,即为将基站作为一个数据源,由信息处
理设备收集不同基站对应的话统指标,并根据待分析KPI的定义公式,计算各
个基站的KPI数据序列X,其中,时间窗和采集周期均由数据源决定,如以30
分钟为时间窗,且采集周期为七天;将告警作为事件信息集合中的变量,将每
一个告警作为一个事件信息e,告警的名称记为e.type,告警的起始时间记为
e.start,告警的结束时间记为e.end。同时根据告警定位的设备信息,将每个事
件信息e和相应的基站关联起来。采用本发明技术方案,确定事件信息集合E与
数据序列X之间的相关程度,从物理上确定各种类型告警与上述KPI是否强相
关,以及每一种类型的告警均会引起该KPI指标如何变化和变化幅度。

又例如,电商平台基于对用户的网络行为和节假日之间的相关性分析,针
对不同节假日进行不同的营销活动策划,如中秋节和月饼类产品为强相关关
系,因此,电商平台在中秋节期间将进行月饼类产品的促销。基于上述问题,
采用本发明技术方案时,即信息处理设备将用户针对不同关键字在每一个时间
窗内的搜索数量作为数据序列X中的数据变量,将节假日作为事件信息集合E
中的事件,采集周期为一个月,节假日的类型作为e.type,节假日的起始时间
记为e.start,节假日的结束时间记为e.end。采用本发明技术方案,确定事件信
息集合E与数据序列X之间的相关程度,物理确定关键字与各类节假日的相关
程度。

采用本发明技术方案,基于数据序列和事件集合中所包含的变量,确定两
者之间的相关性,无须人工确定两者之间的相关性,有效节约了人力资源,提
高了相关性确定的效率;并且,信息处理设备能够定量确定两者之间相关性指
标,避免了现有技术中依靠人为确定相关性指标所造成的误差,提高了所确定
的相关性指标的准确性。

基于上述技术方案,参阅图5所示,信息处理设备基于上述五种类型的相
关性指标,确定任意一事件类型与数据序列的相关性的过程,具体包括:

步骤500:信息处理设备判断上述任意一事件类型对应的相关性指标是否
满足,第四相关性能指标大于第一预设增大平均值阈值,且第二相关性能指标
与第三相关性能指标的差值大于差值阈值(即Tmean_increment_c+>a且Traise_ratio_
c-Tdrop_ratio_c>b),当满足时,执行步骤510;否则,执行步骤520。

步骤510:信息处理设备确定该任意一事件类型和对应的数据序列相关,
且对应于上述任意一事件类型的事件发生,将引起该数据序列中的数据取值增
大,增大量为第四相关性指标。

步骤520:信息处理设备判断上述任意一事件类型的相关性能指标是否满
足,第五相关性指标小于第二预设增大平均值阈值,且该任意一事件类型对应
的第二相关性指标与该任意一事件类型对应的第三相关性指标的差值大于上
述差值阈值(即Traise_ratio_c<c且Traise_ratio_c-Tdrop_ratio_c>b);若满足,执行步骤
530;否则,执行步骤540。

本发明实施例中,上述c=-a。

步骤530:信息处理设备确定该任意一事件类型和相应的数据序列相关,
且对应于该任意一事件类型的事件发生,将引起上述数据序列中的数据取值减
小,减小量为第五相关性指标。

步骤540:信息处理设备判断上述任意一事件类型对应的第一相关性指标
是否大于预设概率阈值(即TNULL_ratio_increment_c>d),若是,则执行步骤550;
否则,结束当前操作。

步骤550:信息处理设备确定上述任意一事件类型和相应的数据序列相关,
且对应于该任意一事件类型的事件发生将引起数据序列中空类型的数据概率
增大。

基于上述技术方案,参阅图6所示,本发明实施例中还提供一种信息处理
装置,包括数据序列和事件信息集合获取单元60,相关性结果获取单元61,
其中:

数据序列和事件信息集合获取单元60,用于从至少一个数据源获取数据序
列和事件信息集合;其中,第一数据源的所述数据序列中包含所述第一数据源
在n个采集周期内所采集的数据,第一数据源为所述至少一个数据源中的任一
数据源,所述第一数据源的所述事件信息集合中包含所述第一数据源在所述n
个采集周期内发生的事件的事件信息,所述事件信息包括所述事件的事件类
型,以及所述事件发生的起始时间和结束时间;n为大于等于2的整数;

相关性结果获取单元61,用于通过海量数据信息处理模型将所述数据序列
和事件信息集合获取单元60获取的所述数据序列和所述事件信息集合进行处
理,得到所述数据序列和所述事件信息集合中任一事件信息之间的相关性结
果;其中,所述海量数据信息处理模型用于根据所述至少一个数据源获取数据
序列和事件信息集合,确定所述数据序列和所述事件信息集合中任一事件信息
之间的相关性结果。

可选的,所述相关性结果获取单元61,用于对于所述至少一个数据源中的
每一个数据源,均执行如下操作:在第一数据源的事件信息集合中,对所述第
一数据源对应的第一采集周期内的事件信息进行筛选,获取筛选事件信息,所
述筛选事件信息为所述事件信息集合中满足第一预设筛选条件的事件信息,将
所述筛选事件信息存储至筛选事件信息集合中;其中,所述第一采集周期为所
述n个采集周期中的任一采集周期;从所述第一数据源对应的n个采集周期内
的数据序列中,选取筛选数据,其中,所述筛选数据为所述数据序列中满足第
二预设筛选条件的数据;根据所述筛选事件信息集合中包含的所述至少一个数
据源的筛选事件信息的事件类型,对所述筛选事件信息集合中包含的筛选事件
信息进行分类,获取每一种事件类型对应的筛选事件信息;从所述每一个数据
源的筛选数据中,选取第一事件类型对应的筛选事件信息的起始时间和结束时
间之间的筛选数据;其中,所述第一事件类型为所述筛选事件信息集合中包含
的事件类型中的任一事件类型;根据获取的所述第一事件类型对应的筛选事件
信息的起始时间和结束时间之间的筛选数据,获取所述第一事件类型的相关性
指标;根据所述相关性指标获取所述数据序列和所述第一事件类型之间的相关
性结果。

可选的,所述相关性获取单元单元61,具体用于:在所述第一数据源的事
件信息集合中,对所述第一数据源对应的第一采集周期内的任一事件信息,执
行如下操作:根据所述第一事件信息的第一事件发生的起始时间和结束时间,
确定所述第一事件所对应的时间窗;其中,所述第一事件信息为所述第一数据
源的事件信息集合中,所述第一数据源对应的第一采集周期内的任一事件信
息;当判定在所述第一事件所对应的时间窗内,没有除所述第一事件之外的其
他事件发生时,确定所述第一事件信息为所述筛选事件信息并获取所述筛选事
件信息。

可选的,所述相关性结果获取单元61,具体用于:从所述第一数据源对应
的所述第一采集周期内的数据序列中,选取所述第一数据源的每一个筛选事件
信息的起始时间和结束时间之间的数据,将选取的所述数据作为第一数据源对
应的第一采集周期的筛选数据;以及从除所述第一采集周期之外的其他采集周
期中,选取在所述每一个筛选事件信息的所述起始时间和所述结束时间之间的
数据,并根据获取的数据确定所述第一数据源对应的所述其他采集周期的筛选
数据;将所述第一数据源对应的第一采集周期的筛选数据,以及所述第一数据
源对应的所述其他采集周期的筛选数据,确定为所述第一数据源的筛选数据。

可选的,所述相关性结果获取单元61,具体用于:对于事件类型为所述第
一事件类型的第一筛选事件信息,根据所述第一采集周期内,所述第一筛选事
件信息的起始时间和结束时间之间的筛选数据中包含的第一空类型筛选数据
和第一非空类型筛选数据,获取所述第一筛选事件信息的第一特性值和第二特
性值;其中,所述第一特性值用于表征所述第一采集周期内的所述第一筛选事
件信息的起始时间和结束时间之间,所述第一空类型筛选数据的出现概率,所
述第二特性值用于表征所述第一采集周期内的所述第一筛选事件信息的起始
时间和结束时间之间,所述第一非空类型筛选数据的平均值;所述第一筛选事
件信息为事件类型为所述第一事件类型的任一筛选事件信息;对于事件类型为
所述第一事件类型的第一筛选事件信息,根据所述其他采集周期内,所述第一
筛选事件信息的起始时间和结束时间之间的筛选数据中包含的第二空类型筛
选数据和第二非空类型筛选数据,获取所述第一筛选事件信息的第三特性值和
第四特性值;其中,所述第三特性值用于表征所述n个采集周期内的所述第一
筛选事件信息的起始时间和结束时间之间,所述第二空类型筛选数据的出现概
率,所述第四特性值用于表征所述n个采集周期内的所述第一筛选事件信息的
起始时间和结束时间之间,所述第二非空类型的所述筛选数据的平均值;对于
事件类型为所述第一事件类型的第一筛选事件信息,获取所述第一筛选事件信
息的第一特性值和第三特性值的差值,将所述差值确定为所述第一筛选事件信
息的第一增量值;以及获取所述第一筛选事件信息的第二特性值和第四特性值
的差值,将所述差值确定为所述第一筛选事件信息的第二增量值;其中,所述
第一增量值用于表征在所述第一采集周期内,所述第一筛选事件信息的起始时
间和结束时间之间,所述第一空类型筛选数据的出现概率相对于所述n个采集
周期内的所述起始时间和结束时间之间所述第二空类型筛选数据的出现概率
的增量,所述第二增量值用于表征在所述第一采集周期内,所述第一筛选事件
信息的起始时间和结束时间之间,第一非空类型筛选数据的平均值相对于所述
n个采集周期内的所述起始时间和结束时间之间第二非空类型筛选数据的平均
值的增量;分别获取事件类型为所述第一事件类型的每一个筛选事件信息的第
一增量值和第二增量值;根据获取的所述每一个筛选事件信息的第一增量值和
第二增量值,确定所述第一事件类型的相关性指标。

可选的,所述相关性结果获取单元61,具体用于:从所述第一采集周期内,
所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第一空
类型筛选数据;并根据所述第一空类型筛选数据,所述第一筛选事件信息所对
应的时间窗,采用指示函数,获取所述第一筛选事件信息的第一特性值;从所
述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选
数据中,选取第一非空类型筛选数据;并根据所述第一非空类型筛选数据,所
述第一筛选事件信息所对应的时间窗,采用指示函数,获取所述筛选事件信息
的第二特性值。

可选的,所述相关性结果获取单元61,具体用于:从所述其他采集周期内,
所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第二空
类型筛选数据;并根据所述第二空类型筛选数据,所述其他采集周期内的第一
筛选事件信息的起始时间和结束时间之间的筛选数据的数目,采用指示函数,
获取所述筛选事件信息的第三特性值;从所述其他采集周期内,所述第一筛选
事件信息的起始时间和结束时间之间的筛选数据中,选取第二非空类型筛选数
据;并根据所述第二非空类型筛选数据,所述其他采集周期内的第一筛选事件
信息的起始时间和结束时间之间的筛选数据,所述其他采集周期内的第一筛选
事件信息的起始时间和结束时间之间的筛选数据的数目,采用指示函数,获取
所述筛选事件信息的第四特性值。

可选的,所述相关性结果获取单元61,具体用于:根据事件类型为所述第
一事件类型的所有筛选事件信息的第一增量值,确定所述第一事件类型的第一
相关性指标;其中,第一相关性指标用于表征空类型数据的出现概率与发生对
应于所述第一事件类型的事件相关;或者,从事件类型为所述第一事件类型的
所述筛选事件信息的第二增量值中,选取大于预设阈值的第二增量值,并根据
选取的大于预设阈值的第二增量值,确定所述第一事件类型的第二相关性指
标;其中,所述第二相关性指标用于表征当发生对应于所述第一事件类型的事
件时,数据取值增大的概率;或者,从事件类型为所述第一事件类型的所述筛
选事件信息的第二增量值中,选取小于预设阈值的第二增量值,并根据选取的
小于预设阈值的第二增量值,确定所述第一事件类型的第三相关性指标;其中,
所述第三相关性指标用于表征当发生对应于所述第一事件类型的事件时,数据
取值减小的概率;或者,从事件类型为所述第一事件类型的所述筛选事件信息
的第二增量值中,选取大于所述预设阈值的第二增量值,并根据选取的大于预
设阈值的第二增量值,以及事件类型为所述第一事件类型的所述筛选事件信息
的第二增量值,确定所述第一事件类型的第四相关性指标;其中,所述第四相
关性指标用于表征当发生对应于所述第一事件类型的事件时,数据平均值的增
大量;或者,从事件类型为所述第一事件类型的所述筛选事件信息的第二增量
值中,选取小于所述预设阈值的第二增量值,并根据选取的小于预设阈值的第
二增量值,以及事件类型为所述第一事件类型的所述筛选事件信息的第二增量
值,确定所述第一事件类型的第五相关性指标;其中,所述第五相关性指标用
于表征当发生对应于所述第一事件类型的事件时,数据平均值的减小量。

可选的,所述相关性结果获取单元61,具体用于:若所述第一事件类型的
第四相关性指标大于第一预设增大平均值阈值,且所述第一事件类型的第二相
关性指标与所述第一事件类型的第三相关性指标的差值大于差值阈值,则确定
所述相关性结果为,所述第一事件类型和所述数据序列相关,且对应于所述第
一事件类型的事件发生,将引起所述数据序列中的数据取值增大,增大量为所
述第四相关性指标;否则,若所述第一事件类型的第五相关性指标小于第二预
设增大平均值阈值,且所述第一事件类型的第二相关性指标与所述第一事件类
型的第三相关性指标的差值大于所述差值阈值,则确定所述相关性结果为,第
一事件类型和所述数据序列相关,且对应于所述第一事件类型的事件发生,将
引起所述数据序列中的数据取值减小,减小量为所述第一事件类型的第五相关
性指标;若所述第一事件类型的第五相关性指标大于第二预设增大平均值阈
值,或者所述第一事件类型的第二相关性指标与所述第一事件类型的第三相关
性指标的差值小于所述差值阈值,则当所述第一事件类型的第一相关性指标大
于预设概率阈值时,确定所述相关性结果为,所述第一事件类型和所述数据序
列相关,且对应于所述第一事件类型的事件发生将引起数据序列中空类型数据
的出现概率增大。

基于上述技术方案,参阅图7所示,本发明实施例中还提供一种海量数据
的信息处理设备,包括收发器70,存储器71,以及处理器72,其中:

收发器70,用于接收至少一个数据源发送的数据序列以及事件信息集合;
其中,第一数据源的所述数据序列中包含所述第一数据源在n个采集周期内所
采集的数据,第一数据源为所述至少一个数据源中的任一数据源,所述第一数
据源的所述事件信息集合中包含所述第一数据源在所述n个采集周期内发生的
事件的事件信息,所述事件信息包括所述事件的事件类型,以及所述事件发生
的起始时间和结束时间;

存储器71,用于存储应用程序,以及预设的筛选事件信息集合和筛选数据
集合;

处理器72,用于运行存储器71中存储的应用程序,执行如下操作:

通过海量数据信息处理模型将所述数据序列和事件信息集合获取单元获
取的所述数据序列和所述事件信息集合进行处理,得到所述数据序列和所述事
件信息集合中任一事件信息之间的相关性结果;其中,所述海量数据信息处理
模型用于根据所述至少一个数据源获取数据序列和事件信息集合,确定所述数
据序列和所述事件信息集合中任一事件信息之间的相关性结果。

可选的,所述处理器72,具体用于:对于所述至少一个数据源中的每一个
数据源,均执行如下操作:在第一数据源的事件信息集合中,对所述第一数据
源对应的第一采集周期内的事件信息进行筛选,获取筛选事件信息,所述筛选
事件信息为所述事件信息集合中满足第一预设筛选条件的事件信息,将所述筛
选事件信息存储至筛选事件信息集合中;其中,所述第一采集周期为所述n个
采集周期中的任一采集周期;从所述第一数据源对应的n个采集周期内的数据
序列中,选取筛选数据,其中,所述筛选数据为所述数据序列中满足第二预设
筛选条件的数据;根据所述筛选事件信息集合中包含的所述至少一个数据源的
筛选事件信息的事件类型,对所述筛选事件信息集合中包含的筛选事件信息进
行分类,获取每一种事件类型对应的筛选事件信息;从所述每一个数据源的筛
选数据中,选取第一事件类型对应的筛选事件信息的起始时间和结束时间之间
的筛选数据;其中,所述第一事件类型为所述筛选事件信息集合中包含的事件
类型中的任一事件类型;根据获取的所述第一事件类型对应的筛选事件信息的
起始时间和结束时间之间的筛选数据,获取所述第一事件类型的相关性指标;
根据所述相关性指标获取所述数据序列和所述第一事件类型之间的相关性结
果。

可选的,所述处理器72,具体用于:在所述第一数据源的事件信息集合中,
对所述第一数据源对应的第一采集周期内的任一事件信息,执行如下操作:根
据所述第一事件信息的第一事件发生的起始时间和结束时间,确定所述第一事
件所对应的时间窗;其中,所述第一事件信息为所述第一数据源的事件信息集
合中,所述第一数据源对应的第一采集周期内的任一事件信息;当判定在所述
第一事件所对应的时间窗内,没有除所述第一事件之外的其他事件发生时,确
定所述第一事件信息为所述筛选事件信息并获取所述筛选事件信息。

可选的,所述处理器72,具体用于:从所述第一数据源对应的所述第一采
集周期内的数据序列中,选取所述第一数据源的每一个筛选事件信息的起始时
间和结束时间之间的数据,将选取的所述数据作为第一数据源对应的第一采集
周期的筛选数据;以及从除所述第一采集周期之外的其他采集周期中,选取在
所述每一个筛选事件信息的所述起始时间和所述结束时间之间的数据,并根据
获取的数据确定所述第一数据源对应的所述其他采集周期的筛选数据;将所述
第一数据源对应的第一采集周期的筛选数据,以及所述第一数据源对应的所述
其他采集周期的筛选数据,确定为所述第一数据源的筛选数据。

可选的,所述处理器72,具体用于:对于事件类型为所述第一事件类型的
第一筛选事件信息,根据所述第一采集周期内,所述第一筛选事件信息的起始
时间和结束时间之间的筛选数据中包含的第一空类型筛选数据和第一非空类
型筛选数据,获取所述第一筛选事件信息的第一特性值和第二特性值;其中,
所述第一特性值用于表征所述第一采集周期内的所述第一筛选事件信息的起
始时间和结束时间之间,所述第一空类型筛选数据的出现概率,所述第二特性
值用于表征所述第一采集周期内的所述第一筛选事件信息的起始时间和结束
时间之间,所述第一非空类型筛选数据的平均值;所述第一筛选事件信息为事
件类型为所述第一事件类型的任一筛选事件信息;对于事件类型为所述第一事
件类型的第一筛选事件信息,根据所述其他采集周期内,所述第一筛选事件信
息的起始时间和结束时间之间的筛选数据中包含的第二空类型筛选数据和第
二非空类型筛选数据,获取所述第一筛选事件信息的第三特性值和第四特性
值;其中,所述第三特性值用于表征所述n个采集周期内的所述第一筛选事件
信息的起始时间和结束时间之间,所述第二空类型筛选数据的出现概率,所述
第四特性值用于表征所述n个采集周期内的所述第一筛选事件信息的起始时间
和结束时间之间,所述第二非空类型的所述筛选数据的平均值;对于事件类型
为所述第一事件类型的第一筛选事件信息,获取所述第一筛选事件信息的第一
特性值和第三特性值的差值,将所述差值确定为所述第一筛选事件信息的第一
增量值;以及获取所述第一筛选事件信息的第二特性值和第四特性值的差值,
将所述差值确定为所述第一筛选事件信息的第二增量值;其中,所述第一增量
值用于表征在所述第一采集周期内,所述第一筛选事件信息的起始时间和结束
时间之间,所述第一空类型筛选数据的出现概率相对于所述n个采集周期内的
所述起始时间和结束时间之间所述第二空类型筛选数据的出现概率的增量,所
述第二增量值用于表征在所述第一采集周期内,所述第一筛选事件信息的起始
时间和结束时间之间,第一非空类型筛选数据的平均值相对于所述n个采集周
期内的所述起始时间和结束时间之间第二非空类型筛选数据的平均值的增量;
分别获取事件类型为所述第一事件类型的每一个筛选事件信息的第一增量值
和第二增量值;根据获取的所述每一个筛选事件信息的第一增量值和第二增量
值,确定所述第一事件类型的相关性指标。

可选的,所述处理器72,具体用于:从所述第一采集周期内,所述第一筛
选事件信息的起始时间和结束时间之间的筛选数据中,选取第一空类型筛选数
据;并根据所述第一空类型筛选数据,所述第一筛选事件信息所对应的时间窗,
采用指示函数,获取所述第一筛选事件信息的第一特性值;从所述第一采集周
期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取
第一非空类型筛选数据;并根据所述第一非空类型筛选数据,所述第一筛选事
件信息所对应的时间窗,采用指示函数,获取所述筛选事件信息的第二特性值。

可选的,所述处理器72,具体用于:从所述其他采集周期内,所述第一筛
选事件信息的起始时间和结束时间之间的筛选数据中,选取第二空类型筛选数
据;并根据所述第二空类型筛选数据,所述其他采集周期内的第一筛选事件信
息的起始时间和结束时间之间的筛选数据的数目,采用指示函数,获取所述筛
选事件信息的第三特性值;从所述其他采集周期内,所述第一筛选事件信息的
起始时间和结束时间之间的筛选数据中,选取第二非空类型筛选数据;并根据
所述第二非空类型筛选数据,所述其他采集周期内的第一筛选事件信息的起始
时间和结束时间之间的筛选数据,所述其他采集周期内的第一筛选事件信息的
起始时间和结束时间之间的筛选数据的数目,采用指示函数,获取所述筛选事
件信息的第四特性值。

可选的,处理器72,具体用于:根据事件类型为所述第一事件类型的所有
筛选事件信息的第一增量值,确定所述第一事件类型的第一相关性指标;其中,
第一相关性指标用于表征空类型数据的出现概率与发生对应于所述第一事件
类型的事件相关;或者,从事件类型为所述第一事件类型的所述筛选事件信息
的第二增量值中,选取大于预设阈值的第二增量值,并根据选取的大于预设阈
值的第二增量值,确定所述第一事件类型的第二相关性指标;其中,所述第二
相关性指标用于表征当发生对应于所述第一事件类型的事件时,数据取值增大
的概率;或者,从事件类型为所述第一事件类型的所述筛选事件信息的第二增
量值中,选取小于预设阈值的第二增量值,并根据选取的小于预设阈值的第二
增量值,确定所述第一事件类型的第三相关性指标;其中,所述第三相关性指
标用于表征当发生对应于所述第一事件类型的事件时,数据取值减小的概率;
或者,从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,
选取大于所述预设阈值的第二增量值,并根据选取的大于预设阈值的第二增量
值,以及事件类型为所述第一事件类型的所述筛选事件信息的第二增量值,确
定所述第一事件类型的第四相关性指标;其中,所述第四相关性指标用于表征
当发生对应于所述第一事件类型的事件时,数据平均值的增大量;或者,从事
件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取小于所
述预设阈值的第二增量值,并根据选取的小于预设阈值的第二增量值,以及事
件类型为所述第一事件类型的所述筛选事件信息的第二增量值,确定所述第一
事件类型的第五相关性指标;其中,所述第五相关性指标用于表征当发生对应
于所述第一事件类型的事件时,数据平均值的减小量。

可选的,所处理器72,具体用于:若所述第一事件类型的第四相关性指标
大于第一预设增大平均值阈值,且所述第一事件类型的第二相关性指标与所述
第一事件类型的第三相关性指标的差值大于差值阈值,则确定所述相关性结果
为,所述第一事件类型和所述数据序列相关,且对应于所述第一事件类型的事
件发生,将引起所述数据序列中的数据取值增大,增大量为所述第四相关性指
标;否则,若所述第一事件类型的第五相关性指标小于第二预设增大平均值阈
值,且所述第一事件类型的第二相关性指标与所述第一事件类型的第三相关性
指标的差值大于所述差值阈值,则确定所述相关性结果为,第一事件类型和所
述数据序列相关,且对应于所述第一事件类型的事件发生,将引起所述数据序
列中的数据取值减小,减小量为所述第一事件类型的第五相关性指标;若所述
第一事件类型的第五相关性指标大于第二预设增大平均值阈值,或者所述第一
事件类型的第二相关性指标与所述第一事件类型的第三相关性指标的差值小
于所述差值阈值,则当所述第一事件类型的第一相关性指标大于预设概率阈值
时,确定所述相关性结果为,所述第一事件类型和所述数据序列相关,且对应
于所述第一事件类型的事件发生将引起数据序列中空类型数据的出现概率增
大。

综上所述,本发明实施例中,从至少一个数据源获取数据序列和事件信息
集合;其中,第一数据源的数据序列中包含第一数据源在n个采集周期内所采
集的数据,第一数据源为至少一个数据源中的任一数据源,第一数据源的事件
信息集合中包含第一数据源在n个采集周期内发生的事件的事件信息,该事件
信息包括事件的事件类型,以及该事件发生的起始时间和结束时间;对于上述
至少一个数据源中的每一个数据源,均执行如下操作:在第一数据源的事件信
息集合中,对第一数据源对应的第一采集周期内的事件信息进行筛选,获取筛
选事件信息,筛选事件信息为事件信息集合中满足预设筛选条件的事件信息,
将该筛选事件信息存储至筛选事件信息集合中;其中,第一采集周期为n个采
集周期中的任一采集周期;从第一数据源对应的第一采集周期内的数据序列
中,选取第一数据源的筛选事件信息集合中包含的每一个筛选事件信息的起始
时间和结束时间之间的数据;以及从除第一采集周期之外的其他采集周期中,
选取在每一个筛选事件信息的起始时间和结束时间之间没有任何事件发生的
时间段,并获取除第一采集周期之外的其他采集周期中每一个筛选事件信息的
起始时间和结束时间之间的数据,并从获取的数据中选取在上述时间段之间的
数据,将选取的数据确定为第一数据源的筛选数据,存储至筛选数据集合中;
根据筛选事件信息集合中包含的至少一个数据源的筛选事件信息的事件类型,
对筛选事件信息集合中包含的筛选事件信息进行分类,获取每一种事件类型对
应的筛选事件信息;从每一个数据源对应的第一采集周期内的数据中,选取第
一事件类型对应的筛选事件信息的起始时间和结束时间之间的数据,以及从每
一个数据源的筛选数据中,选取第一事件类型对应的筛选事件信息的起始时间
和结束时间之间的筛选数据;其中,第一事件类型为筛选事件信息集合中包含
的事件类型中的任意一种事件类型;根据获取的第一事件类型对应的筛选事件
信息的起始时间和结束时间之间的数据,以及获取的第一事件类型对应的筛选
事件信息的起始时间和结束时间之间的筛选数据,获取第一事件类型的相关性
指标;根据上述相关性指标,确定第一事件类型与数据序列的相关性。采用本
发明技术方案,基于多个数据源对应的事件信息,获取筛选事件信息集合中每
一个筛选事件信息对应的不同周期的相应数据,确定每一种事件类型与数据序
列的关联性,无须人工判定,有效节约了人力资源,并保证了获取的结果的准
确性。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计
算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结
合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包
含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、
CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产
品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和
/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/
或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入
式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算
机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一
个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设
备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中
的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个
流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使
得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处
理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个
流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基
本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要
求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱
离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属
于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和
变型在内。

一种海量数据的信息处理方法及装置.pdf_第1页
第1页 / 共39页
一种海量数据的信息处理方法及装置.pdf_第2页
第2页 / 共39页
一种海量数据的信息处理方法及装置.pdf_第3页
第3页 / 共39页
点击查看更多>>
资源描述

《一种海量数据的信息处理方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种海量数据的信息处理方法及装置.pdf(39页珍藏版)》请在专利查询网上搜索。

本发明公开了一种海量数据的信息处理方法及装置,解决目前在对数据相关性获取的过程中,存在无法获取数据序列变量和事件变量之间相关性的问题。本发明实施例中,分别从每一个数据源获取数据序列以及事件信息集合;将获取的数据源的数据序列和事件信息集合输入预设的海量数据信息处理模型,从而输出数据序列与事件信息集合中任意时间信息之间的相关性结果。采用本发明技术方案,基于多个数据源的事件信息,采用预设的海量数据信息处。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1