一种用于大数据分析的数据预测方法和装置.pdf

上传人:e2 文档编号:1307194 上传时间:2018-04-14 格式:PDF 页数:13 大小:884.04KB
返回 下载 相关 举报
摘要
申请专利号:

CN201611121868.2

申请日:

2016.12.08

公开号:

CN106649635A

公开日:

2017.05.10

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20161208|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

上海云信留客信息科技有限公司

发明人:

王大亮

地址:

200030 上海市徐汇区斜土路1223号之俊大厦1802室

优先权:

专利代理机构:

北京冠和权律师事务所 11399

代理人:

朱健;陈国军

PDF下载: PDF下载
内容摘要

本发明公开了一种用于大数据分析的数据预测方法,包括步骤:为每个数据集建立索引;提取每个数据集中的数据元素;确定每个数据集中数据元素之间的关联关系,根据所述关联关系确定数据预测规则;利用所述数据预测规则对目标数据进行预测,并根据预测结果准确性的反馈来改进数据预测规则。本发明还提供了一种用于大数据分析的数据预测装置。

权利要求书

1.一种用于大数据分析的数据预测方法,其特征在于,包括:
为每个数据集建立索引;
提取每个数据集中的数据元素;
确定每个数据集中数据元素之间的关联关系,根据所述关联关系确定数据预测规则;
利用所述数据预测规则对目标数据进行预测,并根据预测结果准确性的反馈来改进数
据预测规则。
2.如权利要求1所述的方法,其特征在于,
所述提取每个数据集中的数据元素,包括:
判断当前数据集的数据是结构化数据还是非结构化数据;
如果当前数据集的数据为非结构化数据,则将当前数据集的数据转化为结构化数据;
从当前数据集的结构化数据中提取数据元素,并为每个数据元素设置唯一标识。
3.如权利要求1所述的方法,其特征在于,
所述确定每个数据集中数据元素之间的关联关系,根据所述关联关系确定数据预测规
则,包括:
针对每个数据集:按照计算公式计算当前数据集中每两个数据元素同时出现的概率;
根据所述当前数据集中每两个数据元素同时出现的概率,确定所述当前数据集的频繁数据
元素集,所述频繁数据元素集中包括至少两个数据元素;根据所述当前数据集的频繁数据
元素集,确定数据预测规则;
所述计算公式为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>,</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>&lsqb;</mo> <mrow> <mi>&beta;</mi> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <msub> <mi>&Sigma;</mi> <mrow> <mi>X</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </msub> <mi>C</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
或者,
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mroot> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </mroot> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>min</mi> <mo>&lsqb;</mo> <mi>&beta;</mi> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>2</mn> <msub> <mi>&Sigma;</mi> <mrow> <mi>X</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </msub> <mi>C</mi> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mrow> <mn>2</mn> <msub> <mi>&Sigma;</mi> <mrow> <mi>X</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </msub> <mi>C</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </msup> <mo>,</mo> <mroot> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </mroot> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>
P(A,B)表示数据元素A和数据元素B在当前数据集中同时出现的概率,C(A∩B)表示数
据元素A和数据元素B在当前数据集中同时出现的次数,C(A)表示数据元素A在当前数据集
中出现的次数,C(B)表示数据元素B在当前数据集中出现的次数,T为当前数据集中所有数
据元素的集合,∑X∈T C(X)为当前数据集中所有数据元素出现的次数,α和β为可调节的修正
系数,用于使特殊情况计算得到的P(A,B)所受数据偏差的影响更小,n1和n2为可调节系数,
用于更精细的调节,其值大于0。
4.如权利要求3所述的方法,其特征在于,所述根据所述当前数据集中每两个数据元素
同时出现的概率,确定所述当前数据集的频繁数据元素集,包括:
当两个数据元素同时出现的概率达到预设概率阈值时,确定该两个数据元素构成了一
频繁数据元素集;
当两个频繁数据元素集具有相同的数据元素时,提取该两个频繁数据元素集中不同的
数据元素,计算不同的数据元素在当前数据集中出现的概率;当不同的数据元素在当前数
据集中出现的概率达到预设概率阈值时,确定不同的数据元素构成了一频繁数据元素集。
5.如权利要求1所述的方法,其特征在于,所述利用所述数据预测规则对目标数据进行
预测,包括:
根据已被规则引擎解析过的数据预测规则对目标数据进行预测。
6.如权利要求1所述的方法,其特征在于,还包括:
根据预测结果准确性的反馈,对所述数据预测规则及其形成机制进行修正改进。
7.一种用于大数据分析的数据预测装置,其特征在于,包括:
索引建立模块,用于为每个数据集建立索引;
数据元素提取模块,用于提取每个数据集中的数据元素;
预测规则建立模块,用于确定每个数据集中数据元素之间的关联关系,根据所述关联
关系确定数据预测规则;
预测模块,用于利用所述数据预测规则对目标数据进行预测,并根据预测结果准确性
的反馈来改进数据预测规则。
8.如权利要求7所述的装置,其特征在于:
数据元素提取模块,用于判断当前数据集的数据是结构化数据还是非结构化数据,如
果当前数据集的数据为非结构化数据,则将当前数据集的数据转化为结构化数据,并从当
前数据集的结构化数据中提取数据元素,并为每个数据元素设置唯一标识。
9.如权利要求7所述的装置,其特征在于:
预测规则建立模块,用于针对每个数据集:按照计算公式计算当前数据集中每两个数
据元素同时出现的概率;根据所述当前数据集中每两个数据元素同时出现的概率,确定所
述当前数据集的频繁数据元素集,所述频繁数据元素集中包括至少两个数据元素;根据所
述当前数据集的频繁数据元素集,确定数据预测规则;
所述计算公式为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>,</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>&lsqb;</mo> <mrow> <mi>&beta;</mi> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <msub> <mi>&Sigma;</mi> <mrow> <mi>X</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </msub> <mi>C</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
或者,
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mroot> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </mroot> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>min</mi> <mo>&lsqb;</mo> <mi>&beta;</mi> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>2</mn> <msub> <mi>&Sigma;</mi> <mrow> <mi>X</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </msub> <mi>C</mi> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mrow> <mn>2</mn> <msub> <mi>&Sigma;</mi> <mrow> <mi>X</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </msub> <mi>C</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </msup> <mo>,</mo> <mroot> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mfrac> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>C</mi> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mo>&cap;</mo> <mi>B</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </mroot> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,P(A,B)表示数据元素A和数据元素B在当前数据集中同时出现的概率,C(A∩B)
表示数据元素A和数据元素B在当前数据集中同时出现的次数,C(A)表示数据元素A在当前
数据集中出现的次数,C(B)表示数据元素B在当前数据集中出现的次数,T为当前数据集中
所有数据元素的集合,ΣX∈T C(X)为当前数据集中所有数据元素出现的次数,α和β为可调节
的修正系数,用于使特殊情况计算得到的P(A,B)所受数据偏差的影响更小,n1和n2为可调
节系数,用于更精细的调节,其值大于0。
10.如权利要求7所述的装置,其特征在于,还包括:
修正模块,用于根据预测结果准确性的反馈,对所述数据预测规则及其形成机制进行
修正改进。

说明书

一种用于大数据分析的数据预测方法和装置

技术领域

本发明涉及计算机信息处理技术,更具体地说,涉及一种用于大数据分析的数据
预测方法和装置。

背景技术

从SGI的首席科学家John R.Masey在1998年提出大数据概念,到大数据分析技术
广泛应用于社会的各个领域,已经走过了18年的时间。现在再也没有企业怀疑大数据分析
的力量,并且都在竞相利用大数据来增强自己企业的业务竞争力。但是,即使18年过去,大
数据分析行业仍然处于快速发展的初期,每时每刻都在产生新的变化。从概念到实用、从结
构化数据分析到非结构化数据分析,大数据分析技术在不断地进化。大数据分析的研究已
经进入到了一个全新的阶段,“预测分析”技术成为最具有代表性的未来技术方向。

发明内容

本发明的目的是提供一种可以有效的进行数据预测的方法和装置,优点是实施方
便,并可以方便的根据新增数据对预测规则进行修正改进。

为解决上述技术问题,根据本发明的一个方面,提供了一种用于大数据分析的数
据预测方法,包括步骤:为每个数据集建立索引;提取每个数据集中的数据元素;确定每个
数据集中数据元素之间的关联关系,根据所述关联关系确定数据预测规则;利用所述数据
预测规则对目标数据进行预测,并根据预测结果准确性的反馈来改进数据预测规则。

优选的,所述提取每个数据集中的数据元素,包括:

判断当前数据集的数据是结构化数据还是非结构化数据,如果当前数据集的数据
为非结构化数据,则将当前数据集的数据转化为结构化数据,并从当前数据集的结构化数
据中提取数据元素,并为每个数据元素设置唯一标识。

优选的,所述确定每个数据集中数据元素之间的关联关系,根据所述关联关系确
定数据预测规则,包括:针对每个数据集,按照计算公式计算当前数据集中每两个数据元素
同时出现的概率;根据所述当前数据集中每两个数据元素同时出现的概率,确定所述当前
数据集的频繁数据元素集,所述频繁数据元素集中包括至少两个数据元素;根据所述当前
数据集的频繁数据元素集,确定数据预测规则;

所述计算公式为:


或者,



其中,P(A,B)表示数据元素A和数据元素B在当前数据集中同时出现的概率,C(A∩
B)表示数据元素A和数据元素B在当前数据集中同时出现的次数,C(A)表示数据元素A在当
前数据集中出现的次数,C(B)表示数据元素B在当前数据集中出现的次数,T为当前数据集
中所有数据元素的集合,∑X∈TC(X)为当前数据集中所有数据元素出现的次数,α和β为可调
节的修正系数,用于使特殊情况计算得到的P(A,B)所受数据偏差的影响更小,n1和n2为可
调节系数,用于更精细的调节,其值大于0。

优选的,根据所述当前数据集中每两个数据元素同时出现的概率,确定所述当前
数据集的频繁数据元素集,包括:当两个数据元素同时出现的概率达到预设概率阈值时,确
定该两个数据元素构成了一频繁数据元素集;当两个频繁数据元素集具有相同的数据元素
时,提取该两个频繁数据元素集中不同的数据元素,计算不同的数据元素在当前数据集中
出现的概率;当不同的数据元素在当前数据集中出现的概率达到预设概率阈值时,确定不
同的数据元素构成了一频繁数据元素集。

优选的,所述利用所述数据预测规则对目标数据进行预测,包括:根据已被规则引
擎解析过的数据预测规则对目标数据进行预测。

优选的,所述方法还可以包括:利用神经网络方法,根据当前大数据及历史数据进
行预测。

优选的,所述方法还可以包括:根据预测结果准确性的反馈,对所述数据预测规则
及其形成机制进行修正改进。

根据本发明的另一个方面,提供了一种用于大数据分析的数据预测装置,包括:

索引建立模块,用于为每个数据集建立索引;

数据元素提取模块,用于提取每个数据集中的数据元素;

预测规则建立模块,用于确定每个数据集中数据元素之间的关联关系,根据所述
关联关系确定数据预测规则;

预测模块,用于利用所述数据预测规则对目标数据进行预测,并根据预测结果准
确性的反馈来改进数据预测规则。

优选的,数据元素提取模块,用于判断当前数据集的数据是结构化数据还是非结
构化数据,如果当前数据集的数据为非结构化数据,则将当前数据集的数据转化为结构化
数据,并从当前数据集的结构化数据中提取数据元素,并为每个数据元素设置唯一标识。

优选的,预测规则建立模块,用于针对每个数据集:按照计算公式计算当前数据集
中每两个数据元素同时出现的概率;根据所述当前数据集中每两个数据元素同时出现的概
率,确定所述当前数据集的频繁数据元素集,所述频繁数据元素集中包括至少两个数据元
素;根据所述当前数据集的频繁数据元素集,确定数据预测规则;

所述计算公式为:


或者,



其中,P(A,B)表示数据元素A和数据元素B在当前数据集中同时出现的概率,C(A∩
B)表示数据元素A和数据元素B在当前数据集中同时出现的次数,C(A)表示数据元素A在当
前数据集中出现的次数,C(B)表示数据元素B在当前数据集中出现的次数,T为当前数据集
中所有数据元素的集合,∑X∈TC(X)为当前数据集中所有数据元素出现的次数,α和β为可调
节的修正系数,用于使特殊情况计算得到的P(A,B)所受数据偏差的影响更小,n1和n2为可
调节系数,用于更精细的调节,其值大于0。

优选的,还可以包括:修正模块,用于根据预测结果准确性的反馈,对所述数据预
测规则及其形成机制进行修正改进。

附图说明

图1是根据本发明实施例的一种用于大数据分析的数据预测方法的流程图;

图2是根据本发明实施例的一种用于大数据分析的数据预测装置的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并
不用于限定本发明。

图1是根据本发明实施例的一种用于大数据分析的数据预测方法的流程图。

在步骤101,为每个数据集建立索引。

在步骤102,提取每个数据集中的数据元素。

在一个实施例中,判断当前数据集的数据是结构化数据还是非结构化数据,如果
当前数据集的数据为非结构化数据,则将当前数据集的数据转化为结构化数据,并从当前
数据集的结构化数据中提取数据元素,并为每个数据元素设置唯一标识。在本发明的一个
实施例中,提取出的数据元素的标识分别为A1,A2,A3,A4,A5。

在步骤103,确定每个数据集中数据元素之间的关联关系,根据所述关联关系确定
数据预测规则。

在一个实施例中,数据元素之间的关联关系可用数据元素在数据集中同时出现的
概率来表征。此时,步骤103中,针对每个数据集可实施为如下步骤B1-B3:

步骤B1、按照计算公式计算当前数据集中每两个数据元素同时出现的概率。

步骤B2、根据所述当前数据集中每两个数据元素同时出现的概率,确定所述当前
数据集的频繁数据元素集,所述频繁数据元素集中包括至少两个数据元素。

在一个实施例中,当两个数据元素同时出现的概率达到预设概率阈值时,确定该
两个数据元素构成了一频繁数据元素集;

当两个频繁数据元素集具有相同的数据元素时,提取该两个频繁数据元素集中不
同的数据元素,计算不同的数据元素在当前数据集中出现的概率;当不同的数据元素在当
前数据集中出现的概率达到预设概率阈值时,确定不同的数据元素构成了一频繁数据元素
集。

步骤B3、根据所述当前数据集的频繁数据元素集,确定数据预测规则。

上述步骤B1中的计算公式为:


或者,



其中,P(A,B)表示数据元素A和数据元素B在当前数据集中同时出现的概率,C(A∩
B)表示数据元素A和数据元素B在当前数据集中同时出现的次数,C(A)表示数据元素A在当
前数据集中出现的次数,C(B)表示数据元素B在当前数据集中出现的次数,T为当前数据集
中所有数据元素的集合,ΣX∈TC(X)为当前数据集中所有数据元素出现的次数,α和β为可调
节的修正系数,用于使特殊情况计算得到的P(A,B)所受数据偏差的影响更小,n1和n2为可
调节系数,用于更精细的调节,其值大于0。在本发明的一个实施例中,使用前一个公式,其
中,0≤α≤3,0≤β≤0.1。

在本发明的一个实施例中,给定在一个数据集中,A1出现11次,A2出现9次,A3-A5
均出现10次,A1和A2同时出现的次数有8次,此处给定α=1,β=0.05,则按照前述计算公式
可以计算出:


在本实施例中,设定预设概率阈值为0.5,由于P(A1,A2)大于0.5,所以将A1和A2归
入同一个频繁数据元素集{A1,A2},可得到一个数据预测规则为A1:—A2,表示当A1出现的
时候,可预测A2也会出现。

如果在当前数据集中,P(A1,A3)也大于0.5,则将A1和A3归入同一个频繁数据元素
集{A1,A3},可得到一个数据预测规则为A1:—A3,表示当A1出现的时候,可预测A3也会出
现。

进一步可推测A2,A3有可能也是两个频繁同时出现的数据元素,接下来可根据前
述计算公式计算P(A2,A3),如果计算得出P(A2,A3)也大于0.5,则可将A1、A2和A3归入同一
个频繁数据元素集{A1,A2,A3},可得到一个数据预测规则为A1:—(A2,A3),表示当A1出现
的时候,可预测A2和A3也会出现。

根据频繁数据元素集中元素的出现,可以预期同一个频繁数据元素集中其他的元
素也有较高的概率出现。

在步骤104,利用所述数据预测规则对目标数据进行预测,并根据预测结果准确性
的反馈来改进数据预测规则。在本发明的一个实施例中,将一批新的数据被提交至智能分
析引擎,新的数据包含(A1,A6,A7……)。判断当中是否包含已有预测规则中的数据元素,发
现A1包含在已有的预测规则中。由于新提交的数据当中存在A1,根据已有的预测规则:
A1:—A2,则预测A2也会出现。

通过数据预测规则进行预测后,进行预测准确性的比较,当添加新数据后的预测
准确性较差时(如A1和A2同时出现的概率低于0.3,已经小于预设概率阈值0.5),则删除该
规则。

确定新数据中的数据元素之间的关联关系,再根据新数据元素间的关联关系确定
新的数据预测规则,并将新的数据预测规则加入原有的数据预测规则中。

本发明通过优点是实施方便,可以实时添加数据并根据新的数据内容对预测规则
进行修改。

图2是根据本发明实施例的一种用于大数据分析的数据预测装置的示意图;

根据本发明的另一个方面,提供了一种用于大数据分析的数据预测装置,包括:

索引建立模块,用于为每个数据集建立索引;

数据元素提取模块,用于提取每个数据集中的数据元素;

预测规则建立模块,用于确定每个数据集中数据元素之间的关联关系,根据所述
关联关系确定数据预测规则;

预测模块,用于利用所述数据预测规则对目标数据进行预测,并根据预测结果准
确性的反馈来改进数据预测规则。

优选的,数据元素提取模块,用于判断当前数据集的数据是结构化数据还是非结
构化数据,如果当前数据集的数据为非结构化数据,则将当前数据集的数据转化为结构化
数据,并从当前数据集的结构化数据中提取数据元素,并为每个数据元素设置唯一标识。

优选的,预测规则建立模块,用于针对每个数据集:按照计算公式计算当前数据集
中每两个数据元素同时出现的概率;根据所述当前数据集中每两个数据元素同时出现的概
率,确定所述当前数据集的频繁数据元素集,所述频繁数据元素集中包括至少两个数据元
素;根据所述当前数据集的频繁数据元素集,确定数据预测规则;

所述计算公式为:


或者,



其中,P(A,B)表示数据元素A和数据元素B在当前数据集中同时出现的概率,C(A∩
B)表示数据元素A和数据元素B在当前数据集中同时出现的次数,C(A)表示数据元素A在当
前数据集中出现的次数,C(B)表示数据元素B在当前数据集中出现的次数,T为当前数据集
中所有数据元素的集合,∑X∈TC(X)为当前数据集中所有数据元素出现的次数,α和β为可调
节的修正系数,用于使特殊情况计算得到的P(A,B)所受数据偏差的影响更小,n1和n2为可
调节系数,用于更精细的调节,其值大于0。

优选的,还可以包括:修正模块,用于根据预测结果准确性的反馈,对所述数据预
测规则及其形成机制进行修正改进。

以上述依据本发明的理想实施例为启示,通过上述的说明内容,本领域普通技术
人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明
的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范
围。

一种用于大数据分析的数据预测方法和装置.pdf_第1页
第1页 / 共13页
一种用于大数据分析的数据预测方法和装置.pdf_第2页
第2页 / 共13页
一种用于大数据分析的数据预测方法和装置.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《一种用于大数据分析的数据预测方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种用于大数据分析的数据预测方法和装置.pdf(13页珍藏版)》请在专利查询网上搜索。

本发明公开了一种用于大数据分析的数据预测方法,包括步骤:为每个数据集建立索引;提取每个数据集中的数据元素;确定每个数据集中数据元素之间的关联关系,根据所述关联关系确定数据预测规则;利用所述数据预测规则对目标数据进行预测,并根据预测结果准确性的反馈来改进数据预测规则。本发明还提供了一种用于大数据分析的数据预测装置。 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1