基于指纹多重哈希布隆过滤器的网络取证内容溯源方法.pdf

上传人:b*** 文档编号:1685568 上传时间:2018-07-04 格式:PDF 页数:10 大小:993.05KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510147426.4

申请日:

2015.03.30

公开号:

CN104794170A

公开日:

2015.07.22

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150330|||公开

IPC分类号:

G06F17/30; H04L29/06

主分类号:

G06F17/30

申请人:

中国科学院信息工程研究所

发明人:

陈小军; 时金桥; 蒲以国; 郭莉; 徐菲; 陈雁; 于晓杰; 文新; 徐睿

地址:

100093北京市海淀区闵庄路甲89号

优先权:

专利代理机构:

北京君尚知识产权代理事务所(普通合伙)11200

代理人:

余长江

PDF下载: PDF下载
内容摘要

本发明涉及一种基于指纹多重哈希布隆过滤器的网络取证内容溯源方法。该方法对捕获的原始网络流量数据包进行重组并构建应用层的会话;在每一个时间间隔内,将会话内容分块存储到增强版指纹多重哈希布隆过滤器中,并保存会话索引表,每一个分块不仅存储到基本布隆过滤器中,还串联会话索引存储到带会话索引的布隆过滤器中;收到查询请求后,使用相同的方法对所查询的摘录进行分块,然后在可能的时间间隔内的所有存档单元中检索,首先将得到的分块在基本布隆过滤器中查询,若能够查询到这些分块,则将得到的分块串联候选的会话索引,并在带会话索引的布隆过滤器中查询,得到传输该摘录的应用层信息。本发明能够提高网络取证内容溯源能力和准确性。

权利要求书

权利要求书1.  一种网络取证内容溯源方法,其步骤包括:1)从网关上捕获原始网络流量数据包,对其进行重组并构建应用层的会话,然后将所获得的会话内容和会话信息进行存储;2)在每一个时间间隔内,将会话内容分块存储到增强版指纹多重哈希布隆过滤器中,并保存会话索引表;所述增强版指纹多重哈希布隆过滤器包含基本布隆过滤器和带会话索引的布隆过滤器,每一个分块不仅存储到基本布隆过滤器中,还串联会话索引存储到带会话索引的布隆过滤器中;3)收到查询请求后,使用与步骤2)相同的方法对所查询的摘录进行分块,然后在可能的时间间隔内的所有存档单元中检索,首先将得到的分块在基本布隆过滤器中进行查询,若能够查询到这些分块,则将得到的分块串联候选的会话索引,并在带会话索引的布隆过滤器中进行查询,从而得到传输该摘录的应用层信息。2.  如权利要求1所述的方法,其特征在于:步骤2)将会话内容分块存储到增强版指纹多重哈希布隆过滤器中的方法是:a)在每一个指纹哈希布隆过滤器中,使用winnowing指纹方法设置两个不同大小的窗口,通过该两个不同大小的窗口在会话内容中滑动来选择块边界;b)由每两个块边界之间的部分和下一个块的前缀组成分块;c)对分块大小小于预先设定的阈值的块和下一个块进行合并,直到分块大小大于阈值;d)使用过滤器中的哈希算法将最终的分块插入到过滤器中。3.  如权利要求1或2所述的方法,其特征在于:步骤1)所述应用层的会话包括http会话,邮件会话,以及网络电话会话。4.  如权利要求1或2所述的方法,其特征在于:步骤1)所述会话内容是指通信传输的实体,包括邮件中的文档、图片,以及网络聊天中的聊天记录;所述会话信息是指会话内容所对应的应用层会话原信息。5.  如权利要求1或2所述的方法,其特征在于:每过一个时间间隔对当前的布隆过滤器进行存档,以方便进行时间索引。6.  一种采用权利要求1所述方法的网络取证内容溯源系统,其特征在于,包括:数据重组模块,用于对原始网络流量数据包进行重组,构建应用层的会话,并将所获得的会话内容和会话信息进行存储;内容处理模块,用于在每一个时间间隔内,将会话内容分块存储到增强版指纹多重哈希布隆过滤器中,并保存会话索引表;所述增强版指纹多重哈希布隆过滤器包含基本布隆过 滤器和带会话索引的布隆过滤器,每一个分块不仅存储到基本布隆过滤器中,还串联会话索引存储到带会话索引的布隆过滤器中;查询处理模块,用于对查询请求进行处理,首先将所查询的摘录分块存储到增强版指纹多重哈希布隆过滤器中,然后将得到的分块在基本布隆过滤器中进行查询,若能够查询到这些分块,则将得到的分块串联候选的会话索引,并在带会话索引的布隆过滤器中进行查询,从而得到传输该摘录的应用层信息。7.  如权利要求6所述的系统,其特征在于:所述内容处理模块将会话内容分块存储到增强版指纹多重哈希布隆过滤器中的方法是:a)在每一个指纹哈希布隆过滤器中,使用winnowing指纹方法设置两个不同大小的窗口,通过该两个不同大小的窗口在会话内容中滑动来选择块边界;b)由每两个块边界之间的部分和下一个块的前缀组成分块;c)对分块大小小于预先设定的阈值的块和下一个块进行合并,直到分块大小大于阈值;d)使用过滤器中的哈希算法将最终的分块插入到过滤器中。

说明书

说明书基于指纹多重哈希布隆过滤器的网络取证内容溯源方法
技术领域
本发明涉及网络取证领域,是一个基于增强版指纹多重哈希布隆过滤器(EWMB)数据结构进行会话内容溯源的网络取证方法和系统。
背景技术
计算机和网络的普及给本发明带来了极大的便利,而与此同时也产生了大量的信息安全威胁。其中引人关注的是如今网络犯罪日益猖獗,无论在范围上还是所使用的技术手段上都日新月异。在防止网络犯罪方面已经有一些出色的工作对其进行研究,然而在帮助执法机关或者安全专家进行网络犯罪的调查取证方面却鲜有成果,需要一种可以对网络上传输过的内容进行溯源的系统。
最直接的方法是捕获并且存储原始的网络流量,但是由于网络规模的日益扩大,即使利用先进的存储技术将这些流量包全部收集起来,对这些数据进行分析查找也是极其不现实的。那么,为了减少存储和计算能力的需求并且提供一些隐私保护,对其稍加改进的方法是存储这些原始网络流量的哈希值。这种方法(例如:SHA-1哈希方法)可以对每个原始的网络流量包减少大概20字节的存储需求,但由于哈希碰撞存在一定的误报率,显而易见该方法只能对整个包的内容进行溯源,而不能对通信内容的某一摘录进行溯源。
对此,Shanmugasundaram等人(Shanmugasundaram K,H,Memon N.Payload attribution via hierarchical bloom filters[C]//Proceedings of the 11th ACM conference on Computer and communications security.ACM,2004:31-41.)提出一种存储有效负载哈希值的数据结构——分层布隆过滤器(HBF),然后基于HBF设计了有效负载溯源系统(PAS)作为网络取证分布式系统ForNet的核心模块。该系统监控网络流量,创建基于哈希的有效负载摘录并定期的对其存档,可以对有效负载的某一摘录进行溯源。纵观溯源系统的发展,该系统的提出可以说是一次质的飞越,使得对摘录的溯源成为可能。随后,大量的研究集中在对有效负载溯源系统进行改进上,改进方法可以分为两大类:1)对有效负载的块划分方法进行改进,例如:固定块覆盖(FBS)、可变块覆盖(VBS);2)实现更复杂的有效负载溯源查询,例如带通配符的查询。虽然该方法具有一定的溯源取证能力,但是它的缺点是只能对有效负载进行溯源,并且只能获取到源端和目的端的四元组。在网络安全事件 中为了判断受害者或者犯罪者进行取证,该系统的溯源能力是远远不够的。
发明内容
当前的有效负载溯源系统(PAS,Payload Attribution System)均是工作在网络层,只能对有效负载的摘录进行溯源,如要对通信的具体内容进行溯源还要进行一些变换处理,除此只能溯源到源端和目的端的四元组。随着网络安全事件的层出不穷,为了能够在事件中判断受害者或者犯罪者进行取证,想进一步获得一些应用层信息,例如:HTTP会话的URL、cookies,该系统溯源能力的不足越来越引起重视。基于此,本发明旨在提高溯源能力和准确性,提出了一种基于增强版指纹多重哈希布隆过滤器(EWMB,Enhanced Winnowing Multihashing Bloom Filter)的数据结构和基于此工作在应用层的网络取证内容溯源方法和系统。
具体来说,本发明采用的技术方案如下:
一种网络取证内容溯源方法,其步骤包括:
1)从网关上捕获原始网络流量数据包,对其进行重组并构建应用层的会话,然后将所获得的会话内容和会话信息进行存储;
2)在每一个时间间隔内,将会话内容分块存储到增强版指纹多重哈希布隆过滤器中,并保存会话索引表;所述增强版指纹多重哈希布隆过滤器是基于当前效果最好的指纹多重哈希布隆过滤器所提出的改进,它包含基本布隆过滤器和带会话索引的布隆过滤器,每一个分块不仅存储到基本布隆过滤器中,还串联会话索引存储到带会话索引的布隆过滤器中;
3)收到查询请求后,使用与步骤2)相同的方法对所查询的摘录进行分块,然后在可能的时间间隔内的所有存档单元中检索,首先将得到的分块在基本布隆过滤器中进行查询,若能够查询到这些分块,则将得到的分块串联候选的会话索引,并在带会话索引的布隆过滤器中进行查询,从而得到传输该摘录的应用层信息。
进一步地,步骤2)将会话内容分块存储到增强版指纹多重哈希布隆过滤器中的方法是:
a)在每一个指纹哈希布隆过滤器中,使用winnowing指纹方法设置两个不同大小的窗口,通过该两个不同大小的窗口在会话内容中滑动来选择块边界;
b)由每两个块边界之间的部分和下一个块的前缀组成分块;
c)对分块大小小于预先设定的阈值的块和下一个块进行合并,直到分块大小大于阈值;
d)使用过滤器中的哈希算法将最终的分块插入到过滤器中。
一种采用上述方法的网络取证内容溯源系统,其包括:
数据重组模块,用于对原始网络流量数据包进行重组,构建应用层的会话,并将所获得的会话内容和会话信息进行存储;
内容处理模块,用于在每一个时间间隔内,将会话内容分块存储到增强版指纹多重哈希布隆过滤器中,并保存会话索引表;所述增强版指纹多重哈希布隆过滤器包含基本布隆过滤器和带会话索引的布隆过滤器,每一个分块不仅存储到基本布隆过滤器中,还串联会话索引存储到带会话索引的布隆过滤器中;
查询处理模块,用于对查询请求进行处理,首先将所查询的摘录分块存储到增强版指纹多重哈希布隆过滤器中,然后将得到的分块在基本布隆过滤器中进行查询,若能够查询到这些分块,则将得到的分块串联候选的会话索引,并在带会话索引的布隆过滤器中进行查询,从而得到传输该摘录的应用层信息。
与现有技术相比,本发明的有益效果如下:
1)基于当前效果最好的指纹多重哈希布隆过滤器(WMH,Winnowing Mutihashing Bloom filter)的数据结构,提出了一种增强版指纹多重哈希布隆过滤器用于网络取证内容溯源系统中,使其具有更高的准确率和压缩比;
2)在网络取证内容溯源系统中,提出了会话索引(session-index)和时间索引(time-index),使其具有更强的溯源能力和效率,在短时间内获得应用层的信息;
3)为了能够直接对通信内容进行溯源,对网络取证内容溯源方法和系统架构进行了设计;
4)实现了网络取证内容溯源的原型系统,实验显示该系统具有更高的处理效率以及准确率。
本发明基于增强版指纹多重哈希布隆过滤器,使用会话索引和时间索引对网络取证内容溯源系统的架构进行整体设计,并对实现的网络取证溯源原型系统进行一些性能的测试与比较。本发明的原型系统具有对通信具体内容溯源的能力,利用实验室网关上所捕获的一天4258.71MB的网络流量进行模拟测试,与没有时间索引的系统相比较,该系统以10%的存储空间为代价,使其溯源效率提高了30多倍。
附图说明
图1是本发明的CAS系统的架构图。
图2是WBS和EWMB方法的示意图。
图3是WMH方法的两个实例示意图。
图4是WMH和EWMB方法的块分布大小的比较图。
图5是WMH和EWMB方法的误报率比较图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
为了实现网络安全事件中的内容溯源,本发明提供了一种基于增强版指纹多重哈希布隆过滤器(EWMB)的网络取证内容溯源方法和系统,该系统简称CAS。主要包含两个方面:(1)网络取证内容溯源系统(CAS)架构的设计;(2)提出了一种增强版指纹多重哈希布隆过滤器(EWMB)的数据结构。
本发明的网络取证内容溯源系统(CAS)的架构图如图1所示,包括以下三个部分:
(一)数据重组:将从网关上捕获的原始网络流量数据包进行重组,构建应用层的会话,例如http会话,邮件会话,网络电话会话等。并将所获得的会话内容和会话信息分别进行存储。一些成熟的开源工具(wireshark,xways等)可以完成这部分工作。
(二)内容处理:在每一个时间间隔内,CAS利用EWMB方法对会话内容分块存储到布隆过滤器中,并保存一份会话索引(session-index)表,图1中EWMB_H1~EWMB_Hn即表示每个时间索引内的布隆过滤器。并且,每过一个时间间隔对当前的布隆过滤器进行存档,以方便进行time-index即时间索引。本发明中,会话索引是指根据会话的唯一标识(可以是会话的四元组)而形成的索引;时间索引是指根据选择的时间间隔而形成的索引。在EWMB方法中,不同的指纹分块方法所得分块插入到不同的过滤器中。对于每一个指纹分块方法,所得的每一个分块不仅存储到基本布隆过滤器中,还需串联会话索引并存储到带会话索引的布隆过滤器中。
(三)查询处理:当一个查询请求到来时,它包含需要查询的摘录以及查询参数,例如可能的时间间隔(用户指定的该摘录可能被传输的时间段),以及候选的会话索引(依据用户指定的该摘录可能被传输的源和目的端而生成的会话索引)。对所查询的摘录使用同样的EWMB方法对其进行分块,然后在可能的时间间隔内的所有存档单元中检索,首先将得到的分块在基本布隆过滤器中进行查询,若得到的均是肯定答案(即基本布隆过滤器中能够查询到这些分块),那么将得到的分块串联候选的会话索引在带会话索引的布隆过滤器中进行查询,从而得到传输该摘录的应用层信息;若得到的不是肯定答案(即基本布隆过滤器中不能查询到这些分块),则该摘录没有在这个时间段内出现过。
上述部分(二)中所使用的EWMB方法是本发明的关键部分之一。该算法的核心是如何划分块和如何判断两个块在同一通信实体中是否是连续的。如图2所示,其中(a)图为当前效果最好的WMH(指纹多重哈希布隆过滤器)方法,在其基础上,本发明提出了(b)图所示的EWMB方法,即增强版指纹多重哈希布隆过滤器。图中,Max表示块边界,X1~X4表示各分块,X12表示合并后的分块。
如图3所示,WMH方法使用多个指纹哈希布隆过滤器(WBS)以减小误报率,WBS方法基于winnowing指纹对会话内容进行分块,并使用覆盖来判断两个块在同一通信实体中是否是连续的。
基于此,本发明提出的EWMB算法具体是:
1)在每一个指纹哈希布隆过滤器中,使用winnowing指纹方法,设置两个不同大小的窗口,通过该两个不同大小的窗口在会话内容中滑动来选择块边界;
2)分块由每两个块边界之间的部分和下一个块的前缀(覆盖)组成;
3)对分块大小小于预先设定的阈值的块和下一个块进行合并,直到分块大小大于或等于阈值,阈值的大小设定需考虑合并前块的大小分布情况,它的值决定了产生的块大小的最小值,过大或者过小会影响查询的效率以及准确率;
4)使用过滤器中的哈希算法将最终的分块插入到过滤器中。
上述步骤(3)中对步骤(2)所产生的小块进行合并,大大的提高了空间利用率和准确率,并且与原来的WMH方法比较并没有增加计算压力。
在CAS架构中有两个主要的数据存储单元。第一个数据存储单元是对原始网络流量数据包进行重组获得的应用层的会话进行存储,它包括会话内容和会话信息。会话内容是指通信传输的实体,例如邮件中的文档、图片,网络聊天中的聊天记录。会话信息是指会话内容所对应的应用层会话原信息。Http会话信息可包括URL、cookies等,Email会话信息可包括发送和接收方的邮箱地址、主题等。所有的会话信息必须包括一些可用于溯源的信息,例如session-index,time-index。第二个数据存储单元用于存储EWMB布隆过滤器和session-index表。每过一个时间间隔对当前的布隆过滤器进行存档,以方便对时间进行索引,提高查询效率。对于每一个时间间隔内,EWMB的不同的winnowing方法对应两个布隆过滤器,分别是基本布隆过滤器用于存储会话内容的分块,带会话索引的过滤器用于存储串联session-index的分块。
本发明利用从网关上捕获的相同的数据集,分别利用WMH方法和EWMB方法对其进行分块、存储、查询。在WMH方法中,设置窗口大小为64字节,分块大小取值于[1,64]区间中。在EWMB方法中,同样设置窗口大小为64字节,最小阈值大小为32字节,分 块大小取值于[32,95]区间中。其分块大小分布如图4所示,可以看出EWMB方法既不会生成过小的块也不会生成过大的块。在进行查询测试时,先将10000条摘录插入到布隆过滤器中,每组实验对1000条没存储到过滤器中的摘录进行查询,那么肯定答案就表示一次误报,由此统计误报次数和计算误报率。如图5所示,EWMB方法的误报率是传统WMH方法的误报率的1/6以下。
本发明利用实验室网关上所捕获的一天4258.71MB的网络流量进行模拟测试,比较传统的弹性搜索,一小时为时间索引的CAS,没有时间索引的CAS的性能。如表1所示,CAS大大优于传统的弹性搜索,有时间索引的CAS具有更好的数据压缩比,并且以更快的查询速度获得更低的误报率。相比于没有时间索引的CAS,有时间索引的CAS以10%的存储空间为代价,使其溯源效率提高了30多倍。
表1.CAS性能测试

以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

基于指纹多重哈希布隆过滤器的网络取证内容溯源方法.pdf_第1页
第1页 / 共10页
基于指纹多重哈希布隆过滤器的网络取证内容溯源方法.pdf_第2页
第2页 / 共10页
基于指纹多重哈希布隆过滤器的网络取证内容溯源方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《基于指纹多重哈希布隆过滤器的网络取证内容溯源方法.pdf》由会员分享,可在线阅读,更多相关《基于指纹多重哈希布隆过滤器的网络取证内容溯源方法.pdf(10页珍藏版)》请在专利查询网上搜索。

本发明涉及一种基于指纹多重哈希布隆过滤器的网络取证内容溯源方法。该方法对捕获的原始网络流量数据包进行重组并构建应用层的会话;在每一个时间间隔内,将会话内容分块存储到增强版指纹多重哈希布隆过滤器中,并保存会话索引表,每一个分块不仅存储到基本布隆过滤器中,还串联会话索引存储到带会话索引的布隆过滤器中;收到查询请求后,使用相同的方法对所查询的摘录进行分块,然后在可能的时间间隔内的所有存档单元中检索,首先。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1