面向不确定数据模型中的效用项集挖掘方法.pdf

上传人:bo****18 文档编号:6286000 上传时间:2019-05-28 格式:PDF 页数:11 大小:618.12KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510974903.4

申请日:

2015.12.23

公开号:

CN105608182A

公开日:

2016.05.25

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20151223|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

一兰云联科技股份有限公司

发明人:

兰雨晴; 王洋

地址:

100191 北京市海淀区学院路35号世宁大厦1002A单元

优先权:

专利代理机构:

北京汇智英财专利代理事务所(普通合伙) 11301

代理人:

刘祖芬

PDF下载: PDF下载
内容摘要

本发明涉及一种面向不确定数据模型中的效用项集挖掘方法,包括步骤:S1、验证项集的事务加权效用和期望支持度,将通过验证的项集作为候选集形成总候选集;以及S2、通过不确定数据模型验证总候选集中各项集的效用得到基于不确定性的高效用项集。其中,所述事务加权效用等于不确定数据模型中所有包含该项集的事务的事务效用之和,构成总候选集的项集包括通过步骤S1验证的k项集,其中,k=1、2、3……n,n为不确定数据模型的项数最多的事务的项数,k大于1时,k项集是用总候选集中的k-1项集作为子集再通过步骤S1验证得到的。本发明通过在现有挖掘方法中加入优化方法,达到了节省资源的消耗,降低运行时间的技术效果。

权利要求书

1.一种面向不确定数据模型中的效用项集挖掘方法,其特征在
于,其包括如下步骤:
S1、验证项集的事务加权效用和期望支持度,将通过验证的项集作
为候选集形成总候选集;以及
S2、通过不确定数据模型验证总候选集中各项集的效用得到基于不
确定性的高效用项集。
2.如权利要求1所述的面向不确定数据模型中的效用项集挖掘方
法,其特征在于:所述事务加权效用等于不确定数据模型中所有包含该
项集的事务的事务效用之和。
3.如权利要求1所述的面向不确定数据模型中的效用项集挖掘方
法,其特征在于,构成总候选集的项集包括通过步骤S1验证的k项集,
其中,k=1、2、3……n,n为不确定数据模型的项数最多的事务的项
数。
4.如权利要求3所述的面向不确定数据模型中的效用项集挖掘方
法,其特征在于:k大于1时,k项集是用总候选集中的k-1项集作为子
集再通过步骤S1验证得到的。
5.如权利要求4所述的面向不确定数据模型中的效用项集挖掘方
法,其特征在于,步骤S1具体为:
S1.1:验证所有1项集的事务加权效用和期望支持度,将通过验证
的项集加入总候选集;
S1.2:用总候选集中的1项集作为子集,生成2项候选集,验证所有
2项候选集的事务加权效用和期望支持度,将通过验证的项集加入总候
选集;
S1.3:用总候选集中的2项集作为子集,生成3项候选集,验证所有
3项候选集的事务加权效用和期望支持度,将通过验证的项集加入总候
选集;
……
S1.n:用总候选集中的n-1项集作为子集,生成n项候选集,验证所
有n项候选集的事务加权效用和期望支持度,将通过验证的项集加入总
候选集。
6.如权利要求5所述的面向不确定数据模型中的效用项集挖掘方
法,其特征在于:
步骤S1.1至S1.n中的每一步扫描一次不确定数据模型,直到无候选
项集生成。
7.如权利要求5所述的面向不确定数据模型中的效用项集挖掘方
法,其特征在于:只有生成的k项集的全部k‐1项子集都在总候选集中,
才能生成k项集,其中,k大于1。
8.如权利要求1至7中任一项所述的面向不确定数据模型中的效用
项集挖掘方法,其特征在于:步骤S1中的验证是指将事务加权效用和期
望支持度超过各自预设阈值的项集加入总候选集。
9.如权利要求8所述的面向不确定数据模型中的效用项集挖掘方
法,其特征在于:步骤S2中的验证是指将效用不小于预设阈值的项集作
为基于不确定性的高效用项集。
10.如权利要求1所述的面向不确定数据模型中的效用项集挖掘方
法,其特征在于,还包括步骤:S3、将通过步骤S2得到的基于不确定性
的高效用项集形成数据集。

说明书

面向不确定数据模型中的效用项集挖掘方法

技术领域

本发明涉及一种数据挖掘技术,用于从大量的数据中,有效地提取
出有用的信息,具体是涉及一种面向不确定数据模型中的效用项集挖掘
方法,可以用于面向电商平台套装商品销售不确定数据模型中的效用项
集的挖掘。

背景技术

数据挖掘技术的出现,使人们可以从大量的数据中,有效地提取出有用
的信息。电商平台上广泛存在的套装销售模式(以洗护用品、化妆品为代表
的多类商品),使得不确定数据中的效用项集挖掘模型及方法逐渐受到关注。
可以通过发现产品与产品间实际上的关联性,在盈利达到某一标准的前提
下,制定正确的套装销售模式。同时必须注意到用户的反馈,这是用户是否
对消费商品满意,或者说是某个消费数据是否有效的标准。

这一类不确定数据中的效用项集挖掘模型有三个关键点:

1.平台上套装类商品中实际包含的各种商品的数目可能并不相同;

2.平台上套装类商品中实际包含的各种商品所带来的利润各不相同;

3.平台上套装类商品的销售是将套装中的所有商品作为一件商品来销售
的,用户评分、反馈意见、退换货的诉求同时针对了套装商品中的每一件商
品。

基于以上三点,我们可以对该类不确定数据中的效用项集挖掘模型建模
如下:

在效用项集挖掘中,一般用一条事务表示一条某件套装商品的消费记
录,一个项代表一件单独的商品,一条事务中一个项包含的值表示此次消费
中某套装商品中的某单独商品的数量,一条事务还有一个可能性值表示某件
套装商品在此次消费中被用户认可的可能性,而且由于此次消费中的套装是
1件商品,所以套装中任一单个商品被用户认可的可能性与套装商品的可能
性一致,见表1;另外,每件单独商品都有各自的利润值,一般用项的单位
效用来表示,见表2。

下面,我们用两张数据表带来一个不确定数据中的效用项集挖掘模型的
实例:

表1不确定事务数据集

编号
A
B
C
D
E
可能性
1
2
0
3
0
2
0.9
2
0
1
0
2
0
0.7
3
1
2
1
0
3
0.85
4
0
0
2
0
0
0.5
5
0
3
0
2
1
0.75
6
2
0
2
5
0
0.7
7
1
1
0
4
1
0.45
8
0
4
0
0
1
0.36
9
3
0
3
2
0
0.81
10
0
2
3
0
1
0.6

表2效用表

编号
A
B
C
D
E
单位效用
4
1
12
6
15

事务数据集D={T1,T2,T3,T4,T5,T6,T7,T8,T9,T10}共有10个事务;事务数
据集D中所有项的集合I={A,B,C,D,E};事务Ti中项i出现的次数表示为
q(i,Tj),例如q(A,T1)=2;某项的单位效用用pr(i)表示,例如pr(A)=4;项
i在事务Ti中的效用用U(i,Tj)表示,例如U(A,T1)=q(A,T1)×pr(A)=8。
事务Tj的可能性值用p(Tj)表示,事务Tj中的某一项i的可能性值用p(i,Tj)
表示,p(i,Tj)=p(Tj)。另外,会根据需要设定最小效用阈值参数ε和最小期
望支持度阈值参数μ。

定义1.项集的事务效用:项集的事务效用等于项集中所有项的效用之
和,例如,项集X={AC},U(X,T1)=U({AC},T1)=U(A,T1)+U(C,T1)=q(A,
T1)×pr(A)+q(C,T1)×pr(C)=8+36=44。

定义2.项集效用:项集效用等于数据集中项集所有的事务效用之和,
例如,项集X={AC},U({AC})=U({AC},T1)+U({AC},T3)+U({AC},T6)+
U({AC},T9)=140。

定义3.期望支持度:项集的期望支持度等于项集在所有事务中的可能
性值之和,例如,X={AC},expSup({AC})=p({AC},T1)+p({AC},T3)+
p({AC},T6)+p({AC},T9)=p(T1)+p(T3)+p(T6)+p(T9)=3.26。

定义4.事务效用:事务中包含各项的效用之和,例如,TU(T1)=U(A,T1)
+U(C,T1)+U(E,T1)=q(A,T1)×pr(A)+q(C,T1)×pr(C)+q(E,T1)×
pr(E)=8+36+30=74。

定义5.数据集总效用:数据集中所有事务效用之和,DU=TU(T1)+
TU(T2)+TU(T3)+TU(T4)+TU(T5)+TU(T6)+TU(T7)+TU(T8)+TU(T9)+
TU(T10)=74+13+63+24+30+62+44+19+60+53=442。

上文提到,最小效用阈值参数ε和最小期望支持度阈值参数μ,那么,
最小效用阈值等于其参数与数据集总效用的乘积,即DU×ε;最小期望支持
度阈值等于其参数与事务数的乘积,即|D|×μ。

定义6.基于不确定性的高效用项集:若某项集的效用大于或等于最小
期望支持度阈值且其期望支持度大于或等于最小期望支持度阈值,那么这个
项集就是一个基于不确定性的高效用项集。例如,设定最小效用阈值参数ε
和最小期望支持度阈值参数μ分别为25%和15%,那么,在这个实例中,最
小效用阈值DU×ε=442×25%=110.5,最小期望支持度阈值|D|×μ=10×
15%=1.5。对于项集{AC},U({AC})=140>110.5且expSup({AC})=3.26>
1.5,所以项集{AC}是一个基于不确定性的高效用项集;而项集{A}中,
U({A})=36<110.5,所以项集{A}不是一个基于不确定性的高效用项集。

问题定义:不确定数据中的效用项集挖掘方法就是从不确定数据集中,
挖掘出所有基于不确定性的高效用项集的过程。

常规的方法是:通过扫描数据中的数据信息,分别计算出数据集中存在
的所有项集的效用和期望支持度。在表1和表2的例子中,实际出现的项集
有{A}、{B}、{C}、{D}、{E}、{AB}、{AC}、{AD}、{AE}、{BC}、{BD}、
{BE}、{CD}、{CE}、{DE}、{ABC}、{ABD}、{ABE}、{ACD}、{ACE}、
{ADE}、{BCE}、{BDE}、{ABCE}、{ABDE}共25个(理论上可能出现25-1
共31个)。

但是当数据集中的项数增加时,比如有40项时,理论上会出现的项集
有240-1个,约1.1×1012,虽然实际的项集数不会达到这个数目,但是,数
目依然会非常庞大,分别查询验证每个项集会占用和消耗非常多的资源,运
行时间也较长。

对此,为了提高效率,现有技术中具有多种方法,例如目前效率较高的
“IHUP-FPG”混合法,即可以用FP-Growth(频繁模式增长)挖掘大于等于期
望支持度阈值的项集,用IHUP(IncrementalHighUtilityPattern)方法可以
挖掘高效用项集,然后两个结果集取交集,该种方法虽然能够以较高的效率
得到目标结果集,但是其依然具有改进的空间。

发明内容

本发明目的在于提供一种面向不确定数据模型中的效用项集挖掘方
法,可以节省资源的消耗,降低运行时间。

本发明的设计思路是:在现有技术的方法中加入一定的优化方法,
来达到节省资源的消耗,降低运行时间的技术效果。

为了达到上述目的,本发明提供的主要技术方案包括:

一种面向不确定数据模型中的效用项集挖掘方法,其包括如下步
骤:

S1、验证项集的事务加权效用和期望支持度,将通过验证的项集作
为候选集形成总候选集;以及

S2、通过不确定数据模型验证总候选集中各项集的效用得到基于不
确定性的高效用项集。

其中,所述事务加权效用等于不确定数据模型中所有包含该项集的
事务的事务效用之和。

其中,构成总候选集的项集包括通过步骤S1验证的k项集,其中,
k=1、2、3……n,n为不确定数据模型的项数最多的事务的项数。

其中,k大于1时,k项集是用总候选集中的k-1项集作为子集再通
过步骤S1验证得到的。

其中,步骤S1具体为:

S1.1:验证所有1项集的事务加权效用和期望支持度,将通过验证
的项集加入总候选集;

S1.2:用总候选集中的1项集作为子集,生成2项候选集,验证所有
2项候选集的事务加权效用和期望支持度,将通过验证的项集加入总候
选集;

S1.3:用总候选集中的2项集作为子集,生成3项候选集,验证所有
3项候选集的事务加权效用和期望支持度,将通过验证的项集加入总候
选集;

……

S1.n:用总候选集中的n-1项集作为子集,生成n项候选集,验证所
有n项候选集的事务加权效用和期望支持度,将通过验证的项集加入总
候选集。

其中,步骤S1.1至S1.n中的每一步扫描一次不确定数据模型,直到
无候选项集生成。

其中,只有生成的k项集的全部k‐1项子集都在总候选集中,才能
生成k项集,其中,k大于1。

上述任一种面向不确定数据模型中的效用项集挖掘方法,其中,步
骤S1中的验证是指将事务加权效用和期望支持度超过各自预设阈值的项
集加入总候选集。

其中,步骤S2中的验证是指将效用不小于预设阈值的项集作为基于
不确定性的高效用项集。

其中,还包括步骤:S3、将通过步骤S2得到的基于不确定性的高效
用项集形成数据集。

本发明的有益效果是:本发明通过加入一定的优化方法,节省了资
源的消耗,降低了运行时间。

附图说明

图1为本发明实施例1的整体挖掘过程示意图(其是以背景技术部
分表1和表2所示的不确定事务数据集作为基础模型的);

图2为本发明与现有技术的运行时间的结果比较;

图3为本发明与现有技术的内存消耗的结果比较。

具体实施方式

为了更好地解释本发明,以便于理解,下面通过对本发明的理论分
析,以及结合附图通过具体实施例,对本发明作详细描述。

理论分析

衡量一个项集是否是基于不确定性的高效用项集一共有两个必要条
件:效用和期望支持度分别达到各自的阈值。

据此,本发明的设计思路为:

优化策略1:

在数据集中,一个项集出现的次数,一定不会少于其任意一个超集出现
的次数。

证明:若k+1项集Xk+1是k项集Xk的超集,当(Xk+1在Tj中
出现)时,一定存在(Xk在Tj中出现)。

对于期望支持度而言,一个项集的期望支持度如果没有达到阈值,它的
任何一个超集都不可能达到阈值。

证明:若k+1项集Xk+1是k项集Xk的超集

exp S u p ( X k ) = exp S u p ( X k + 1 ) + Σ X k T l X k + 1 T l p ( T l ) , ]]>

所以expSup(Xk)≥expSup(Xk+1)。

综上可得优化策略1:如果项集X的期望支持度expSup(X)小于期望支
持度阈值,那么,项集X不是基于不确定性的高效用项集,X的任意超集也
都不是基于不确定性的高效用项集。

优化策略2:

由于,对于项集的效用而言,若k+1项集Xk+1是k项集Xk的超集,U(Xk)
≥U(Xk+1)并不成立。例如,实施例1中,U({B})=13,而U({BE})=
117>110.5。

因此,本发明引入事务加权效用来实现对过程的优化。

项集的事务加权效用等于所有包含该项集的事务的事务效用之和。例
如,实施例1中,TWU(E)=TU(T1)+TU(T3)+TU(T5)+TU(T7)+TU(T8)+
TU(T10)=74+63+30+44+19+53=283。

在数据集中,一个项集的事务加权效用,一定不会少于其任意一个超集
的事务加权效用。

证明:若k+1项集Xk+1是k项集Xk的超集

T W U ( X k ) = T W U ( X k + 1 ) + Σ X k T l X k + 1 T l T U ( T l ) , ]]>

所以TWU(Xk)≥TWU(Xk+1)。

另外一点,一个项集的事务加权效用一定不小于其项集效用,即TWU(X)
≥U(X)。

综上可得优化策略2:如果项集X的事务加权效用小于效用阈值,那么
这个项集不是基于不确定性的高效用项集,X的所有的超集也都不可能是基
于不确定性的高效用项集。

参见图1,本发明实施例1的整体挖掘过程,其中,U表示TWU,E
表示expSup,实线圆里的项集的事务加权效用和期望支持度都达到阈值,
是查找的结果集,单点划线圆表示的是因为事务加权效用或者期望支持
度中的至少一种没有达到阈值,而没有进入结果集,同时它们的全部超
集都不可能进入结果集,双点划线圆表示的节点表示数据集中出现但是
通过剪枝优化策略可以不进行验证直接剔除的项集,虚线圆表示的节点
表示理论上存在但数据集中实际没有出现的项集。

第一阶段

第一步:验证所有1项集的事务加权效用和期望支持度,将超过两个阈
值的项集加入总候选集。如{A},{B},{C},{D},{E}均超过阈值,加入总
候选集。

第二步:用总候选集中的1项集,生成2项候选集,验证所有2项候选
集的事务加权效用和期望支持度,将超过两个阈值的项集加入总候选集。如
{AB}、{AC}、{AD}、{AE}、{BC}、{BD}、{BE}、{CD}、{CE}、{DE}
中,只有{AC}、{AD}、{AE}、{BE}、{CD}、{CE}超过两个阈值,加入总
候选集。

第三步:用总候选集中的2项集,生成3项候选集(只有生成的3项集
的全部2项子集都在总候选集中,才能生成),验证所有3项候选集的事务
加权效用和期望支持度,将超过两个阈值的项集加入总候选集。如只有
{ACD}、{ACE}生成,成为3项候选集,验证后,两项均超过两个阈值,加
入总候选集。

……

每一步扫描一次数据库(即不确定数据模型),直到无候选项集生成。

第二阶段

再对数据库进行一次扫描,验证总候选集中各项集的效用,效用不小于
阈值的项集就是基于不确定性的高效用项集。例如:

表3基于不确定性的高效用项集表



由表3可见,总候选集中,项集{A}、{B}、{D}、{AD}、{AE}、{CD}
的效用没有超过最小效用阈值,所以{C},{E},{AC},{BE},{CE},{ACD},
{ACE}是当最小效用阈值参数ε和最小期望支持度阈值参数μ分别为25%和
15%时,数据集D中基于不确定性的高效用项集。

下面我们通过实验来检验本发明的挖掘方法相较现有技术方法的高效
性。其中,我们用foodmart和accidents两个数据集(原始数据集为只有事
务和项,需要生成次数、单位效用、可能性值)为例分别进行实验测试结果。
本发明中提出的方法简称为UHUI(UncertainHighUtilityItemsetsMining)
方法,与之对比的方法为现有方法“IHUP-FPG”。

实验结果参见图2和图3:图中MU代表最小效用阈值参数,ME代表
最小期望支持度阈值参数。

通过实验结果可以看出,在运行时间以及内存消耗上,本发明的UHUI
方法的效率是“IHUP+FPG”混合方法的两倍以上。其中阈值越低的时候,
UHUI的优化效果越明显。

因为UHUI与“IHUP+FPG”混合方法是一个协同剪枝的过程,无论是效
用还是期望支持度,只要有一个条件没有达到,就可以省去对其超集的扫描
检验的过程。而且执行一次UHUI方法本身比分别执行IHUP方法和FPG方
法一次要高效。

综上所述可知,本发明的方法中,由于加入了优化方法,节省了资源的
消耗,降低了运行时间。

面向不确定数据模型中的效用项集挖掘方法.pdf_第1页
第1页 / 共11页
面向不确定数据模型中的效用项集挖掘方法.pdf_第2页
第2页 / 共11页
面向不确定数据模型中的效用项集挖掘方法.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《面向不确定数据模型中的效用项集挖掘方法.pdf》由会员分享,可在线阅读,更多相关《面向不确定数据模型中的效用项集挖掘方法.pdf(11页珍藏版)》请在专利查询网上搜索。

本发明涉及一种面向不确定数据模型中的效用项集挖掘方法,包括步骤:S1、验证项集的事务加权效用和期望支持度,将通过验证的项集作为候选集形成总候选集;以及S2、通过不确定数据模型验证总候选集中各项集的效用得到基于不确定性的高效用项集。其中,所述事务加权效用等于不确定数据模型中所有包含该项集的事务的事务效用之和,构成总候选集的项集包括通过步骤S1验证的k项集,其中,k1、2、3n,n为不确定数据模型的项。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1