用于数据库入侵检测领域的压缩中间候选频繁项集的算法.pdf

上传人:a2 文档编号:4043086 上传时间:2018-08-12 格式:PDF 页数:8 大小:446.72KB
返回 下载 相关 举报
摘要
申请专利号:

CN201410851266.7

申请日:

2014.12.31

公开号:

CN104516978A

公开日:

2015.04.15

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20141231|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

天津南大通用数据技术股份有限公司

发明人:

李淼; 吕迅; 朱宏军; 崔维力; 武新

地址:

300384天津市滨海新区高新区华苑产业区海泰发展六道6号海泰绿色产业基地J-518

优先权:

专利代理机构:

天津滨海科纬知识产权代理有限公司12211

代理人:

杨慧玲

PDF下载: PDF下载
内容摘要

本发明提供一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法,包括如下步骤:1)依据目标事务数目值,从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库;2)使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库,计算产生频繁1-项集L(1);3)找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数值的几项候选项集;4)扫描候选项集,得到目标事务数目值的频繁项集。本发明具有的优点和积极效果是:能免去按照自然数顺序,从1开始,逐个生成中间候选频繁项集和中间频繁项集的操作,大幅提高了数据挖掘搜索效率;达到减少数据库扫描工作量,从而大幅提高了计算频繁项集的速度。

权利要求书

权利要求书
1.  一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法,其 特征在于包括如下步骤:
1)依据目标事务数目值,从事务数据库中筛选出项目数不小于目标事 务数目值的事务作为新事务数据库;
2)使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库,计 算产生频繁1-项集L(1);
3)找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数 值的几项候选项集;
4)依据候选项集扫描新事务数据库,得到目标事务数目值的频繁项集。

说明书

说明书用于数据库入侵检测领域的压缩中间候选频繁项集的算法
技术领域
本发明属于Apriori算法技术领域,尤其是涉及一种用于数据库入侵检 测领域的压缩中间候选频繁项集的算法。
背景技术
关联规则(Associate rule)挖掘在数据挖掘中占有极其重要的地位,是 数据挖掘的主要任务之一。关联规则的经典算法是Apriori算法。Apriori算 法使用一种称为逐层迭代方法,k-项集用于(k+1)-项集的搜索,Apriori 算法性质:频繁项集的所有非空子集都必须也是频繁项集。
Apriori算法:根据定义,如果项集I不满足最小支持度(min_sup), 则项集I不是频繁的,即P(I)<(min_sup)。如果项A添加到项集I,则 结果项集I即(I∪A)不可能比项集I更频繁出现。因此,P(I∪A)也不是 频繁的,即P(I∪A)<(min_sup)。
Apriori算法主要包括两个操作:
(1)连接步
C1=I,I为事务数据库所包含的项目,扫描数据库,得到频繁1-项目 集L1,执行连接产生C2,扫描数据库,得到L2,执行连接产生C3。如此下去,在第k遍扫描中,则是首先利用L(k-1)来生 成若Ck=Φ,则算法结束,否则扫描数据库 得到Lk。
(2)剪枝步
利用Apriori算法性质,进行对事务的删除,提高扫描的效率。在第k 遍扫描中,第一步,利用第(k-1)次扫描得到的L(k-1)来产生Ck,首 先将L(k-1)中前k-1项相同的项集进行连接产生Ck,接着将连接得到的 项集,若其子集L(k-1)不是频繁项集,那么任何(k-1)-项集都不可能 是频繁项集,则删除,即修剪;第二步,对每个事务,若Ck中某项集包含 在该事务中,则该项集的支持度加1,扫描结束后,将Ck中支持度大于最 小支持度的所有项集加入Lk(Ck称为候选频繁k项集的集合,Lk称为k项 频繁项集;即以Ck表示k-itemsets备选项集,以Lk表示k-itemsets频繁 项集)。
上述Apriori算法对候选集的大小进行了压缩,但是在生成Ck的过程 中仍需k次扫描整个事务数据库。因而,对于海量的数据库,经典Apriori算 法的效率会下降,并且系统的I/O开销也很大。
后来发明了改进的Apriori算法,如下:
根据项集有序性和事务的压缩,在候选频繁项目集Ck的产生过程中, 采用两次剪枝,删除其中不必要的扫描的事务;产生一个新的事务数据库 D(K+1),在下一轮的迭代中使用。D(K+1)比DK包含了较少的事务,从而提 高扫描的效率,节省系统的开销。
(1)连接步不变
(2)事务剪枝步
事务t包含一个k-项集,则k-频繁项集的所有子k-1项集都是k-1频 繁项集。根据定义1,在第k步扫描前,对事务Dk的每个事务t进行剪枝, 得到新的事务D’。
例1:设K=3,若事务t={1,2,3,4,5,6,7,8},L2={(1,2),(1, 3),(2,4),(4,5),(5,6),4,7),(6,8),(1,8)},则 要求项目1,2,3,4,5,6,7,8至少在L2中出现2次,才可能进入下一 轮的迭代。所以进行k剪枝得到事务数据库t’(1,2,4,5,6,8)。项 目3,和项目7被剪枝。
(3)候项集剪枝步
利用Apriori算法性质,进行对事务的删除,提高扫描的效率。在第k 遍扫描中,第一步,利用第(k–1)次扫描得到的L(k–1)来产生Ck,首 先将L(k–1)中前k-1项相同的项集进行连接产生Ck,接着将连接得到的 项集,若其子集L(k–1)不是频繁项集,那么任何(k–1)-项集都不可能 是频繁项集,则删除,
即修剪;第二步,对每个事务,若Ck中某项集包含在该事务中,则该 项集的支持度加1,扫描结束后,将Ck中支持度大于最小支持度的所有项 集加入Lk。
在以后各次连接生成Ck均为有序的。并且不包含任何k-项子集的事务 不可能包含任何(k+1)项子集,因为若一个事务设但而 C ( k + 1 ) = C ( k ) &CircleTimes; C ( k ) , ]]>得到,因而因此,第一次扫描 事务后,对每一个事务进行计数,并删除长度小于最小支持度(min_sup) 的当前事务,因为该事务不会对生成频繁2-选项集起作用。以此类推,在对 每次事务扫描后,对每一个事务进行计数,并删除长度小于最小支持度 (min_sup)的当前事务,因为该事务不会对以后生成的下层候选项集产生 作用。如此,压缩了事务,提高了效率,减少了I/O的开销。
基于数据挖掘的数据库入侵检测,由于数据挖掘技术能够发现隐藏在数据背 后的用户模式和特征,因此,在基于主机和网络的入侵检测中,基于数据挖 掘的检测方法是重要的研究课题,也存在着来自统计、模式识别、机器学习 等多个领域的数据挖掘算法。使用元学习的方法来进行分布式事务模式挖 掘,元学习是一种用于处理从大型分布式数据库中计算全局分类器的技术, 元学习首先在分布式数据库中使用学习程序并行的计算独立的分类器,然后 再使用另一个学习程序在这些分类器上集成元分类器。在使用元学习得出异 常或偏差事务模型后,使用模式指导的推理系统来检测欺骗事务。在上述的 学习程序中,要用到检测频繁项集的技术,来找到用户的正常高频模式,来对 正常行为进行范围定义。对于海量的数据库,频繁项集的数目会变得很大, 改进的Apriori算法的效率会下降,还是不能满足要求,并且系统的I/O 开销也很大。
发明内容
本发明要解决的问题是提供一种用于数据库入侵检测领域的压缩中间 候选频繁项集的算法,减小了对目标事务数据库的扫描数目,提高了数据挖 掘搜索效率。
为解决上述技术问题,本发明采用的技术方案是:
一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法,包括如 下步骤:
1)依据目标事务数目值,从事务数据库中筛选出项目数不小于目标事 务数目值的事务作为新事务数据库;
2)使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库,计 算产生频繁1-项集L(1);
3)找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数 值的几项候选项集;
4)依据候选项集扫描新事务数据库,得到目标事务数目值的频繁项集。
本发明具有的优点和积极效果是:
本发明算法能免去按照自然数顺序,从1开始,逐个生成中间候选频繁 项集和中间频繁项集的操作,大幅提高了数据挖掘搜索效率;达到减少数据 库扫描工作量,和减少生成中间生成候选频繁项集C(k)和中间频繁项集的效 果,从而大幅提高了计算频繁项集的速度;在某些情况下,比Apriori算法 和改进的Apriori算法性能上,甚至快几个数量级。
附图说明
图1是本发明一实施例的数据库;
图2是本发明一实施例算法的执行流程图。
具体实施方式
下面结合附图对本发明的具体实施例做详细说明。
在背景技术中描述的改进的Apriori算法基础上,(Ck称为候选频繁k 项集的集合,Lk称为k项频繁项集),提出的一种用于数据库入侵检测领域的 压缩中间候选频繁项集的算法,包括如下步骤,以图1所示的数据库为例, 本发明算法的执行流程如图2所示:
步骤1:依据目标事务数目值,从事务数据库中筛选出项目数不小于目 标事务数目值的事务作为新事务数据库;本实施例目标事务数目值为3,即 从事务数据库D中筛选出项目数不小于3的事务作为新事务数据库D1;
步骤2:使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库, 计算产生频繁1-项集L(1);本实施例即扫描新事务数据库D1,得到频繁项 集L1;
步骤3:找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相 同数值的几项候选项集;本实施例即从频繁项集L1中刷选出排在前3位的 项目,及{1,2,3,5},其中{3}排前第一位,{1,2,5}并列前第二位,前三位 得到的组合候选项集C2包含{1,2,3}、{2,3,5}、{1,3,5};
步骤4:依据候选项集扫描新事务数据库,得到目标事务数目值的频繁 项集;本实施例即依据候选项集C2扫描新事务数据库D1,得到满足最小支 持度的频繁3项集L2。
本发明上述用于数据库入侵检测领域的压缩中间候选频繁项集的算法 的主要程序描述如下:



以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳 实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作 的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

用于数据库入侵检测领域的压缩中间候选频繁项集的算法.pdf_第1页
第1页 / 共8页
用于数据库入侵检测领域的压缩中间候选频繁项集的算法.pdf_第2页
第2页 / 共8页
用于数据库入侵检测领域的压缩中间候选频繁项集的算法.pdf_第3页
第3页 / 共8页
点击查看更多>>
资源描述

《用于数据库入侵检测领域的压缩中间候选频繁项集的算法.pdf》由会员分享,可在线阅读,更多相关《用于数据库入侵检测领域的压缩中间候选频繁项集的算法.pdf(8页珍藏版)》请在专利查询网上搜索。

本发明提供一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法,包括如下步骤:1)依据目标事务数目值,从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库;2)使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库,计算产生频繁1-项集L(1);3)找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数值的几项候选项集;4)扫描候选项集,得到目标事务数目值的频繁项。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1