WEB页面分割方法及装置.pdf

上传人:b*** 文档编号:472175 上传时间:2018-02-18 格式:PDF 页数:16 大小:3.15MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310069892.6

申请日:

2013.03.05

公开号:

CN104035932A

公开日:

2014.09.10

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20130305|||公开

IPC分类号:

G06F17/30; H04L29/08

主分类号:

G06F17/30

申请人:

中国移动通信集团湖南有限公司

发明人:

曾彬

地址:

410015 湖南省长沙市芙蓉中路三段446号

优先权:

专利代理机构:

北京同达信恒知识产权代理有限公司 11291

代理人:

郭润湘

PDF下载: PDF下载
内容摘要

本发明公开了一种web页面分割方法及装置,根据该方法,在预定时间段内,根据各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,并以此为分割规则,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,不用维护和使用流表、所占用的系统开销小、节省处理资源,分割规则与请求数据包的数据包属性值集合和文件类型相关,能够提高web页面分割的准确率。

权利要求书

1.  一种web页面分割方法,其特征在于,包括:
在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;其中,所述请求数据包用于请求获取构成web页面的文件,所述请求数据包的数据包属性值集合包括:相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;
并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型包括:容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;
确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合;
根据所确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。

2.
  根据权利要求1所述的方法,其特征在于,在所述预定时间段内,确定请求数据包的数据包属性值集合,具体包括:
在所述预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;其中,所述滑动窗口的时间长度小于或等于所述预定时间段的时间长度。

3.
  根据权利要求2所述的方法,其特征在于,确定当前滑动窗口中的属性值集合中的属性值,具体包括:
在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的 源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;
将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;
将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,
将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;
将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值。

4.
  根据权利要求1所述的方法,其特征在于,识别出各个请求数据包所请求的文件的文件类型,具体包括:
在所述预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;
如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“.”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;
如果请求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔符“.”至该URL最后一个分隔符“?”之间的字符串为该请求包的所请求的文件的文件类型。

5.
  根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所确定的请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库,在无法根据请求数据包的REFERER字段中的URL识别该请 求数据包所请求的文件的文件类型的情况下,如果所述URL库中存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为容器对象文件,如果所述URL库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为嵌入对象文件。

6.
  根据权利要求3所述的方法,其特征在于,确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,具体包括:
确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个web页面的第一个数据包;
每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于所述第一时间间隔;
每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于所述第二时间间隔;和/或,
每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第一HTTP净载荷长度差值;
每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第二HTTP净载荷长度差值。

7.
  根据权利要求1或6所述的方法,其特征在于,确定属于同一个页面的请求数据包,具体包括:
将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;
根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和所确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求 数据包。

8.
  根据权利要求7所述的方法,其特征在于,确定属于同一个页面的请求数据包,具体包括:
在当前滑动窗口中,根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,以及所确定的属于同一个web页面的请求数据包所请求的文件的文件类型和属于同一个web页面的请求数据包的数据包属性值集合,确定得到多个web页面的情况下,分别确定这多个web页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的web页面作为最终分割得到的web页面。

9.
  一种web页面分割装置,其特征在于,包括:
第一确定模块,用于在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合,其中,所述请求数据包用于请求获取构成web页面的文件,所述请求数据包的数据包属性值集合包括:相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;
识别模块,用于在所述预定时间段内,根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型包括:容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;
第二确定模块,用于根据所述第一确定模块确定得到的请求数据包的数据包属性值集合和所述识别模块识别出的各个请求数据包所请求的文件的文件类型,确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属 于同一个web页面的请求数据包的数据包属性值集合;
第三确定模块,用于根据所述第二确定模块确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。

10.
  根据权利要求9所述的装置,其特征在于,所述第一确定模块,具体用于:
在所述预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;其中,所述滑动窗口的时间长度小于或等于所述预定时间段的时间长度。

11.
  根据权利要求10所述的装置,其特征在于,所述第一确定模块,具体用于:
在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;
将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;
将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,
将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;
将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的 HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值。

12.
  根据权利要求9所述的装置,其特征在于,所述识别模块,具体用于:
在所述预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;
如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“.”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;
如果请求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔符“.”至该URL最后一个分隔符“?”之间的字符串为该请求包的所请求的文件的文件类型。

13.
  根据权利要求12所述的装置,其特征在于,所述装置还包括:
第四确定模块,用于将所述第一确定模块确定的请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库,在所述识别模块无法根据请求数据包的REFERER字段中的URL识别该请求数据包所请求的文件的文件类型的情况下,如果所述URL库中存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为容器对象文件,如果所述URL库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为嵌入对象文件。

14.
  根据权利要求11所述的装置,其特征在于,所述第二确定模块,具体用于:
确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个web页面的第一个数据包;
每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于所述第一时间间隔;
每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于所述第二时间间隔;和/或,
每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第一HTTP净载荷长度差值;
每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第二HTTP净载荷长度差值。

15.
  根据权利要求9或权利要求14所述的装置,其特征在于,所述第三确定模块,具体用于:
将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;
根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和所述第二确定模块所确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包。

16.
  根据权利要求15所述的装置,其特征在于,所述第三确定模块,具体用于:
在当前滑动窗口中,根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,以及所确定的属于同一个web页面的请求数据包所请求的文件的文件类型和属于同一个web页面的请求数据包的数据包属性值集合,确定得到多个web页面的情况下,分别确定这多个web页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的web页面作为最终分割得到的web页面。

说明书

web页面分割方法及装置
技术领域
本发明涉及网络通信系统,具体涉及一种web页面分割方法及装置。
背景技术
网络流量测量和网络性能优化中一项重要指标是页面响应速度,通过测量属于同一个页面的数据包的传输速度来测量页面响应速度,确定属于同一个页面的数据包的技术手段被称为web页面分割。
目前,web页面分割的方法包括两种,解析HTTP方式和不解析HTTP方式:
第一,解析HTTP方式,针对网络流量,在流表中记录各个请求数据包的HTTP头部的REFRER字段和各个请求数据包的目的URL,将请求嵌入对象文件(例如JPG文件、PNG文件等等)的请求数据包的REFERER字段的域值即URL与请求容器对象文件(例如HTML文件、HTM文件、SHTML文件等等)的请求包的目的URL进行对比,若二者相同则表明该嵌入对象文件属于该容器对象文件的目的URL所指示的页面。并通过根据请求数据包和响应数据包之间的对应关系组合出属于同一个web页面的数据包,也即对不同的web页面进行了分割。
第二,不解析HTTP方式,基于大多数浏览器发送的请求容器对象文件的请求数据包的大小显著地大于请求嵌入对象文件的请求数据包的大小这一观察事实,并且认为下一个页面的请求容器对象的请求数据包到来之前,上一个页面最后一个响应数据包已经传输完成,基于这两个前提,根据请求数据包的大小将请求容器对象文件的请求数据包识别出来,作为当前新的web页面的第一个数据包,并将该请求容器对象的请求数据包之前的一个数据包作为当前 web页面的上一个web页面的数据包,以此来进行web页面分割。
上述第一种方式的优点在于页面分割的准确率高,缺点在于维护流表的开销大、占用的处理资源过多,并且不能适用于REFERER头部无法获取以及嵌套页面的情况。
上述第二种方式的优点在于不用维护流表开销较小、能够节省处理资源,也能够适用于REFERER头部不能获取的情况,但是,该方法的缺点在于准确率低于上述第一种方法的准确率。
可见,在现有的web页面分割的方法中,存在获得较高的分割准确率和占用较少的处理资源不能兼顾的问题。
发明内容
有鉴于此,本发明实施例提供了一种web页面分割方法及装置,用以解决现有技术中的web页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。
本发明实施例技术方案如下:
一种web页面分割方法,包括:在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;其中,所述请求数据包用于请求获取构成web页面的文件,所述请求数据包的数据包属性值集合包括:相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合;所述文件类型包括:容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;根据所确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于 同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。
一种web页面分割装置,包括:第一确定模块,用于在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合,其中,所述请求数据包用于请求获取构成web页面的文件,所述请求数据包的数据包属性值集合包括:相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;识别模块,用于在所述预定时间段内,根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型包括:容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;第二确定模块,用于根据所述第一确定模块确定得到的请求数据包的数据包属性值集合和所述识别模块识别出的各个请求数据包所请求的文件的文件类型,确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合;第三确定模块,用于根据所述第二确定模块确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。
根据本发明实施例的技术方案,通过在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,并以此为分割规则,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,能够仅通过请求数据包的TCP头部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定 进行web页面分割的分割规则,不用维护和使用流表、所占用的系统开销小、节省处理资源,并且在预定时间段内基于实际的网络数据流量自主学习到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,能够提高web页面分割的准确率,从而能够解决现有技术中的web页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明实施例提供的web页面分割方法的工作流程图;
图2是本发明实施例提供的web页面分割装置的结构框图;
图3是图2所示装置的优选结构框图。
具体实施方式
以下结合附图对本发明的实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
针对现有技术中的web页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题,本发明实施例提供了一种web页面分割方案,用于解决该问题。在本发明实施例提供的web页面分割方法中,仅通过请求数据包的TCP头部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定进行web页面分割的分割规则,也即属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,不用维护和使用流表、所占用的系统开销小、节省处理资源,并且在预定时间段内基于实际的网络数据流量自主学习 到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,能够提高web页面分割的准确率,从而能够解决现有技术中的web页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。
下面对本发明实施例进行详细说明。
图1示出了本发明实施例提供的web页面分割方法的工作流程,该方法包括:
步骤11、在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;请求数据包的数据包属性值集合,具体包括:相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;
具体地,预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值,并且,当前滑动窗口的权重大于上一个滑动窗口的权重;其中,所述滑动窗口的时间长度小于或等于所述预定时间段的时间长度;通过该处理步骤可知,确定当前滑动窗口中的请求数据包的属性值集合依赖于上一个滑动窗口中请求数据包的属性值集合,这是因为在实际的网络流量中,数据流量通常具有连续性,属于同一个web页面的请求数据包的数据包属性值也具有数值连续的特性,故为了确定更为准确的请求数据包的属性值集合,确定当前滑动窗口中的请求数据包的数据包属性值集合的过程中,依赖于上一个滑动窗口中请求数据包的属性值集合;
确定当前滑动窗口的请求数据包的属性值集合的处理,具体包括:在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;
将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值;
步骤12、并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;请求数据包所请求的文件的文件类型,具体包括:容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;
具体地,在预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;
如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“.”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;
如果请求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔符“.”至该URL最后一个分隔符“?”之间的字符串为该请求包的所请求的文件的文件类型;
更进一步地,将请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库;针对所提取的字符串无法明确地确定文件类型的情况下,也即在无法根据请求数据包的REFERER字段中的URL识别该请求数据包所请求的文件的文件类型的情况下,如果所述URL库中存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件 的文件类型为容器对象文件,如果所述URL库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为嵌入对象文件;
步骤13、确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合;
具体地,在预定时间段内,确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合即为web页面分割规则,该规则包括:
规则1、确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个web页面的第一个数据包;
规则2、每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于所述第一时间间隔;、
规则3、每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于所述第二时间间隔;和/或,
规则4、每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第一HTTP净载荷长度差值;
规则5、每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第二HTTP净载荷长度差值;
步骤104、根据所确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包;
具体地,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;如上述步骤101中所述,当前滑动窗口的权重大于上一个滑动窗口的权重,其理由如上述步骤101中所述;具体确定请求数据包的数据包属性值集合的方法也如上述步骤101中所述
根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和所确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包,也即根据上述步骤103中的web页面分割规则进行判断和分割;
更进一步地,当请求数据包的数据包属性值集合中只包括相同源IP地址的相邻两个请求数据包的时间间隔时,上述分割规则就只包括规则1~规则3,当请求数据包的数据包属性值集合中只包括相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值时,上述分割规则就只包括规则1、规则4和规则5,依据这样的分割规则进行web页面分割时,得到单一的分割结果的可能性较大,也即分割得到一个页面的可能性较大;
但是,当请求数据包的数据包属性值集合中同时包括相同源IP地址的相邻两个请求数据包的时间间隔和相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值时,上述分割规则中就同时包括规则1~规则5,依据这样的分割规则,得到多样性的分割结果的可能性较大,也即对于同一个滑动窗口中的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,依据规则1~规则5,可能会分割得到多个web页面,则,在这种情况下,分别确定这多个web页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的web页面作为最终分割得到的web页面。
上述只是一种在分割得到的多个web页面中确定一个最终的web页面的方法,在实际应用中,还可以通过其它方式来确定。
根据图1所示的方法,通过在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;并根据各个请求数据包的HTTP头部的REFERER字段, 识别出各个请求数据包所请求的文件的文件类型;确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,并以此为分割规则,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,能够仅通过请求数据包的TCP头部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定进行web页面分割的分割规则,不用维护和使用流表、所占用的系统开销小、节省处理资源,确定请求数据包的数据包属性值集合和识别请求数据包所请求的文件的文件类型的操作的复杂度低、处理速度快、处理效率高;并且在预定时间段内基于实际的网络数据流量自主学习到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,相比于现有技术中不解析HTTP方式进行web页面分割的方法中,仅根据请求数据包的大小来区分请求数据包所请求的文件的类型,能够更为准确地识别请求数据包所请求的文件的类型、获得更准确的分割规则,从而能够提高web页面分割的准确率,进而能够解决现有技术中的web页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。
基于相同的发明构思,本发明实施例还提供了一种web页面分割装置,该装置可以位于进行流量监测的网络设备中,或者位于网络性能测量的网络设备中,还可以位于其它的除客户端和服务器之外的、进行网络流量转发的网络设备中。
图2示出了本发明实施例提供的web页面分割装置的结构框图,该装置包括:
第一确定模块21,用于在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;
具体地,请求数据包的数据包属性值集合,具体包括:相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包 的HTTP净载荷长度差值;
第一确定模块21,具体用于在预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;其中,滑动窗口的时间长度小于或等于预定时间段的时间长度;
并且,在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值;
识别模块22,用于在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;文件类型,具体包括:容器对象文件、嵌入对象文件或独立对象文件,独立对象文件包括RAR文件、TXT文件或PDF文件;
具体地,识别模块22在预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“.”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;如果请求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔 符“.”至该URL最后一个分隔符“?”之间的字符串为该请求包的所请求的文件的文件类型;
第二确定模块23,连接至第一确定模块21和识别模块22,用于根据第一确定模块21确定得到的请求数据包的数据包属性值集合和识别模块22识别出的各个请求数据包所请求的文件的文件类型,确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合;
具体地,第二确定模块23确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个web页面的第一个数据包;每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于第一时间间隔;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于第二时间间隔;和/或,每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于第一HTTP净载荷长度差值;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于第二HTTP净载荷长度差值;
第三确定模块24,连接至第二确定模块23,用于根据第二确定模,23确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。
具体地,第三确定模块24将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和第二确定模块所确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包;
更进一步,第三确定模块24在当前滑动窗口中,根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,以及所确定的属于同一个web页面的请求数据包所请求的文件的文件类型和属于同一个web页面的请求数据包的数据包属性值集合,确定得到多个web页面的情况下,分别确定这多个web页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的web页面作为最终分割得到的web页面。
根据如图2所示装置,也能够仅通过请求数据包的TCP头部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定进行web页面分割的分割规则,不用维护和使用流表、所占用的系统开销小、节省处理资源,确定请求数据包的数据包属性值集合和识别请求数据包所请求的文件的文件类型的操作的复杂度低、处理速度快、处理效率高,并且在预定时间段内基于实际的网络数据流量自主学习到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,能够更为准确地识别请求数据包所请求的文件的类型、获得更准确的分割规则,从而能够提高web页面分割的准确率,进而能够解决现有技术中的web页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。
优选地,在图2所示装置的基础上,如图3所示,本发明实施例提供的web页面分割装置还可以包括第四确定模块25,连接至第一确定模块21、识别模块22和第二确定模块23,用于将第一确定模块21确定的请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库,在识别模块22无法根据请求数据包的REFERER字段中的URL识别该请求数据包所请求的文件的文件类型的情况下,如果URL库中存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为 容器对象文件,如果URL库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为嵌入对象文件,识别出来的请求数据包所请求的文件的文件类型为第二确定模块23提供参考。
通过第四确定模块25,可以识别出第二确定模块23无法识别出类型的文件,提高识别请求数据包所请求的文件的文件类型的准确率。
综上所述,本发明实施例通过在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,并以此为分割规则,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,能够仅通过请求数据包的TCP头部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定进行web页面分割的分割规则,不用维护和使用流表、所占用的系统开销小、节省处理资源,相比现有技术中解析HTTP的方式,本发明实施例的方法确定请求数据包的数据包属性值集合和识别请求数据包所请求的文件的文件类型的操作的复杂度低、处理速度快、处理效率高;并且在预定时间段内基于实际的网络数据流量自主学习到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,相比于现有技术中不解析HTTP方式进行web页面分割的方法中,仅根据请求数据包的大小来区分请求数据包所请求的文件的类型,能够更为准确地识别请求数据包所请求的文件的类型、获得更准确的分割规则,从而能够提高web页面分割的准确率,进而能够解决现有技术中的web页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。
本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步 骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

WEB页面分割方法及装置.pdf_第1页
第1页 / 共16页
WEB页面分割方法及装置.pdf_第2页
第2页 / 共16页
WEB页面分割方法及装置.pdf_第3页
第3页 / 共16页
点击查看更多>>
资源描述

《WEB页面分割方法及装置.pdf》由会员分享,可在线阅读,更多相关《WEB页面分割方法及装置.pdf(16页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104035932A43申请公布日20140910CN104035932A21申请号201310069892622申请日20130305G06F17/30200601H04L29/0820060171申请人中国移动通信集团湖南有限公司地址410015湖南省长沙市芙蓉中路三段446号72发明人曾彬74专利代理机构北京同达信恒知识产权代理有限公司11291代理人郭润湘54发明名称WEB页面分割方法及装置57摘要本发明公开了一种WEB页面分割方法及装置,根据该方法,在预定时间段内,根据各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;并根据各个请求数据。

2、包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,并以此为分割规则,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,不用维护和使用流表、所占用的系统开销小、节省处理资源,分割规则与请求数据包的数据包属性值集合和文件类型相关,能够提高WEB页面分割的准确率。51INTCL权利要求书4页说明书9页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书9页附图2页10申请公布号CN104035932ACN104。

3、035932A1/4页21一种WEB页面分割方法,其特征在于,包括在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;其中,所述请求数据包用于请求获取构成WEB页面的文件,所述请求数据包的数据包属性值集合包括相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型包括容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件。

4、或PDF文件;确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合;根据所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。2根据权利要求1所述的方法,其特征在于,在所述预定时间段内,确定请求数据包的数据包属性值集合,具体包括在所述预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;其中,所述。

5、滑动窗口的时间长度小于或等于所述预定时间段的时间长度。3根据权利要求2所述的方法,其特征在于,确定当前滑动窗口中的属性值集合中的属性值,具体包括在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两。

6、个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值。4根据权利要求1所述的方法,其特征在于,识别出各个请求数据包所请求的文件的文件类型,具体包括在所述预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;如果请求数据包的REFERER字段中的URL是静态UR。

7、L,提取该静态URL的最后一个分隔权利要求书CN104035932A2/4页3符“”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;如果请求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔符“”至该URL最后一个分隔符“”之间的字符串为该请求包的所请求的文件的文件类型。5根据权利要求4所述的方法,其特征在于,所述方法还包括将所确定的请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库,在无法根据请求数据包的REFERER字段中的URL识别该请求数据包所请求的文件的文件类型的情况下,如果所述URL库中存在的一个URL与该请。

8、求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为容器对象文件,如果所述URL库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为嵌入对象文件。6根据权利要求3所述的方法,其特征在于,确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,具体包括确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个WEB页面的第一个数据包;每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于所述第一时间间隔;每。

9、两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于所述第二时间间隔;和/或,每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第一HTTP净载荷长度差值;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第二HTTP净载荷长度差值。7根据权利要求1或6所述的方法,其特征在于,确定属于同一个页面的请求数据包,具体包括将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;根据在当前。

10、滑动窗口中所确定的请求数据包的数据包属性值集合,和所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包。8根据权利要求7所述的方法,其特征在于,确定属于同一个页面的请求数据包,具体包括在当前滑动窗口中,根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,以及所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型和属于同一个WEB页面的请求数据包的数据包属性值集合,确定得到多个WEB页面的情况下,分别确定这多个WEB页面的请求容器对象文件的请求数据包的R。

11、EFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它权利要求书CN104035932A3/4页4URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的WEB页面作为最终分割得到的WEB页面。9一种WEB页面分割装置,其特征在于,包括第一确定模块,用于在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合,其中,所述请求数据包用于请求获取构成WEB页面的文件,所述请求数据包的数据包属性。

12、值集合包括相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;识别模块,用于在所述预定时间段内,根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型包括容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;第二确定模块,用于根据所述第一确定模块确定得到的请求数据包的数据包属性值集合和所述识别模块识别出的各个请求数据包所请求的文件的文件类型,确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的。

13、数据包属性值集合;第三确定模块,用于根据所述第二确定模块确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。10根据权利要求9所述的装置,其特征在于,所述第一确定模块,具体用于在所述预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;其中,所述滑动窗口的时间长度小于或等于所述预定时间段的时间长度。11根据权利要求10所述的装置,其特征在于,所述第一确定模。

14、块,具体用于在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确。

15、定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值。12根据权利要求9所述的装置,其特征在于,所述识别模块,具体用于在所述预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;权利要求书CN104035932A4/4页5如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;如果请。

16、求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔符“”至该URL最后一个分隔符“”之间的字符串为该请求包的所请求的文件的文件类型。13根据权利要求12所述的装置,其特征在于,所述装置还包括第四确定模块,用于将所述第一确定模块确定的请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库,在所述识别模块无法根据请求数据包的REFERER字段中的URL识别该请求数据包所请求的文件的文件类型的情况下,如果所述URL库中存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为容器对象文件,如果所述URL。

17、库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为嵌入对象文件。14根据权利要求11所述的装置,其特征在于,所述第二确定模块,具体用于确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个WEB页面的第一个数据包;每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于所述第一时间间隔;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于所述第二时间间隔;和/或,每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所。

18、述第一HTTP净载荷长度差值;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第二HTTP净载荷长度差值。15根据权利要求9或权利要求14所述的装置,其特征在于,所述第三确定模块,具体用于将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和所述第二确定模块所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请。

19、求数据包。16根据权利要求15所述的装置,其特征在于,所述第三确定模块,具体用于在当前滑动窗口中,根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,以及所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型和属于同一个WEB页面的请求数据包的数据包属性值集合,确定得到多个WEB页面的情况下,分别确定这多个WEB页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的。

20、URL的请求数量,将该URL对应的分割得到的WEB页面作为最终分割得到的WEB页面。权利要求书CN104035932A1/9页6WEB页面分割方法及装置技术领域0001本发明涉及网络通信系统,具体涉及一种WEB页面分割方法及装置。背景技术0002网络流量测量和网络性能优化中一项重要指标是页面响应速度,通过测量属于同一个页面的数据包的传输速度来测量页面响应速度,确定属于同一个页面的数据包的技术手段被称为WEB页面分割。0003目前,WEB页面分割的方法包括两种,解析HTTP方式和不解析HTTP方式0004第一,解析HTTP方式,针对网络流量,在流表中记录各个请求数据包的HTTP头部的REFRER。

21、字段和各个请求数据包的目的URL,将请求嵌入对象文件(例如JPG文件、PNG文件等等)的请求数据包的REFERER字段的域值即URL与请求容器对象文件(例如HTML文件、HTM文件、SHTML文件等等)的请求包的目的URL进行对比,若二者相同则表明该嵌入对象文件属于该容器对象文件的目的URL所指示的页面。并通过根据请求数据包和响应数据包之间的对应关系组合出属于同一个WEB页面的数据包,也即对不同的WEB页面进行了分割。0005第二,不解析HTTP方式,基于大多数浏览器发送的请求容器对象文件的请求数据包的大小显著地大于请求嵌入对象文件的请求数据包的大小这一观察事实,并且认为下一个页面的请求容器对。

22、象的请求数据包到来之前,上一个页面最后一个响应数据包已经传输完成,基于这两个前提,根据请求数据包的大小将请求容器对象文件的请求数据包识别出来,作为当前新的WEB页面的第一个数据包,并将该请求容器对象的请求数据包之前的一个数据包作为当前WEB页面的上一个WEB页面的数据包,以此来进行WEB页面分割。0006上述第一种方式的优点在于页面分割的准确率高,缺点在于维护流表的开销大、占用的处理资源过多,并且不能适用于REFERER头部无法获取以及嵌套页面的情况。0007上述第二种方式的优点在于不用维护流表开销较小、能够节省处理资源,也能够适用于REFERER头部不能获取的情况,但是,该方法的缺点在于准确。

23、率低于上述第一种方法的准确率。0008可见,在现有的WEB页面分割的方法中,存在获得较高的分割准确率和占用较少的处理资源不能兼顾的问题。发明内容0009有鉴于此,本发明实施例提供了一种WEB页面分割方法及装置,用以解决现有技术中的WEB页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。0010本发明实施例技术方案如下0011一种WEB页面分割方法,包括在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;其中,所述请求数据包用于请求获取构成WEB页面的文件,所述请求数据包的数据包属性值集合包括相同源。

24、IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址说明书CN104035932A2/9页7的相邻两个请求数据包的HTTP净载荷长度差值;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合;所述文件类型包括容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;根据所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定。

25、属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。0012一种WEB页面分割装置,包括第一确定模块,用于在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合,其中,所述请求数据包用于请求获取构成WEB页面的文件,所述请求数据包的数据包属性值集合包括相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;识别模块,用于在所述预定时间段内,根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型。

26、包括容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;第二确定模块,用于根据所述第一确定模块确定得到的请求数据包的数据包属性值集合和所述识别模块识别出的各个请求数据包所请求的文件的文件类型,确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合;第三确定模块,用于根据所述第二确定模块确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。0013根据本发明实施。

27、例的技术方案,通过在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,并以此为分割规则,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,能够仅通过请求数据包的TCP头部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定进行WEB页面分割的分割规则,不用维护和使用流表、。

28、所占用的系统开销小、节省处理资源,并且在预定时间段内基于实际的网络数据流量自主学习到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,能够提高WEB页面分割的准确率,从而能够解决现有技术中的WEB页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。0014本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明0015图1为本发明实施例提供的WEB页面分割方法的工作流程图;说明书CN1。

29、04035932A3/9页80016图2是本发明实施例提供的WEB页面分割装置的结构框图;0017图3是图2所示装置的优选结构框图。具体实施方式0018以下结合附图对本发明的实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。0019针对现有技术中的WEB页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题,本发明实施例提供了一种WEB页面分割方案,用于解决该问题。在本发明实施例提供的WEB页面分割方法中,仅通过请求数据包的TCP头部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定进行WEB页面分割的分割规则,也即属于同一个页面。

30、的请求数据包以及与所确定的请求数据包对应的响应数据包,不用维护和使用流表、所占用的系统开销小、节省处理资源,并且在预定时间段内基于实际的网络数据流量自主学习到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,能够提高WEB页面分割的准确率,从而能够解决现有技术中的WEB页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。0020下面对本发明实施例进行详细说明。0021图1示出了本发明实施例提供的WEB页面分割方法的工作流程,该方法包括0022步骤11、在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP。

31、头部信息,确定请求数据包的数据包属性值集合;请求数据包的数据包属性值集合,具体包括相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;0023具体地,预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值,并且,当前滑动窗口的权重大于上一个滑动窗口的权重;其中,所述滑动窗口的时间长度小于或等于所述预定时间段的时间长度;通过该处理步骤可知,确定当前滑动窗口中的请求数据包的属性值集合依赖于上一个滑动窗口中请求数据包的属性值集合,这是因为。

32、在实际的网络流量中,数据流量通常具有连续性,属于同一个WEB页面的请求数据包的数据包属性值也具有数值连续的特性,故为了确定更为准确的请求数据包的属性值集合,确定当前滑动窗口中的请求数据包的数据包属性值集合的过程中,依赖于上一个滑动窗口中请求数据包的属性值集合;0024确定当前滑动窗口的请求数据包的属性值集合的处理,具体包括在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;0025将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的。

33、时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源说明书CN104035932A4/9页9IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值;0026。

34、步骤12、并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;请求数据包所请求的文件的文件类型,具体包括容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;0027具体地,在预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;0028如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;0029如果请求数据包的REFERER字段中的URL是动态URL,提取该动态。

35、URL的最后一个分隔符“”至该URL最后一个分隔符“”之间的字符串为该请求包的所请求的文件的文件类型;0030更进一步地,将请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库;针对所提取的字符串无法明确地确定文件类型的情况下,也即在无法根据请求数据包的REFERER字段中的URL识别该请求数据包所请求的文件的文件类型的情况下,如果所述URL库中存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为容器对象文件,如果所述URL库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文。

36、件的文件类型为嵌入对象文件;0031步骤13、确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合;0032具体地,在预定时间段内,确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合即为WEB页面分割规则,该规则包括0033规则1、确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个WEB页面的第一个数据包;0034规则2、每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于所述第一时间间隔;、0035规则3、每两个相邻的具。

37、有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于所述第二时间间隔;和/或,0036规则4、每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第一HTTP净载荷长度差值;0037规则5、每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第二HTTP净载荷长度差值;0038步骤104、根据所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包;说明书。

38、CN104035932A5/9页100039具体地,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;如上述步骤101中所述,当前滑动窗口的权重大于上一个滑动窗口的权重,其理由如上述步骤101中所述;具体确定请求数据包的数据包属性值集合的方法也如上述步骤101中所述0040根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包,也即根据上述步骤10。

39、3中的WEB页面分割规则进行判断和分割;0041更进一步地,当请求数据包的数据包属性值集合中只包括相同源IP地址的相邻两个请求数据包的时间间隔时,上述分割规则就只包括规则1规则3,当请求数据包的数据包属性值集合中只包括相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值时,上述分割规则就只包括规则1、规则4和规则5,依据这样的分割规则进行WEB页面分割时,得到单一的分割结果的可能性较大,也即分割得到一个页面的可能性较大;0042但是,当请求数据包的数据包属性值集合中同时包括相同源IP地址的相邻两个请求数据包的时间间隔和相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值时,上述分割。

40、规则中就同时包括规则1规则5,依据这样的分割规则,得到多样性的分割结果的可能性较大,也即对于同一个滑动窗口中的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,依据规则1规则5,可能会分割得到多个WEB页面,则,在这种情况下,分别确定这多个WEB页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的WEB页面作为最终分割得到的WEB页面。0043上述只是一。

41、种在分割得到的多个WEB页面中确定一个最终的WEB页面的方法,在实际应用中,还可以通过其它方式来确定。0044根据图1所示的方法,通过在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,并以此为分割规则,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,能够仅通过请求数据包的TCP头。

42、部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定进行WEB页面分割的分割规则,不用维护和使用流表、所占用的系统开销小、节省处理资源,确定请求数据包的数据包属性值集合和识别请求数据包所请求的文件的文件类型的操作的复杂度低、处理速度快、处理效率高;并且在预定时间段内基于实际的网络数据流量自主学习到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,相比于现有技术中不解析HTTP方式进行WEB页面分割的方法中,仅根据请求数据包的大小来区分请求数据包所请求的文件的类型,能够更为准确地识别请求数据包所请求的文件的说明书CN104035932A106。

43、/9页11类型、获得更准确的分割规则,从而能够提高WEB页面分割的准确率,进而能够解决现有技术中的WEB页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。0045基于相同的发明构思,本发明实施例还提供了一种WEB页面分割装置,该装置可以位于进行流量监测的网络设备中,或者位于网络性能测量的网络设备中,还可以位于其它的除客户端和服务器之外的、进行网络流量转发的网络设备中。0046图2示出了本发明实施例提供的WEB页面分割装置的结构框图,该装置包括0047第一确定模块21,用于在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求。

44、数据包的数据包属性值集合;0048具体地,请求数据包的数据包属性值集合,具体包括相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;0049第一确定模块21,具体用于在预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;其中,滑动窗口的时间长度小于或等于预定时间段的时间长度;0050并且,在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP。

45、地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值。

46、的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值;0051识别模块22,用于在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;文件类型,具体包括容器对象文件、嵌入对象文件或独立对象文件,独立对象文件包括RAR文件、TXT文件或PDF文件;0052具体地,识别模块22在预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“”至该URL最后一个字符之间的字。

47、符串为该请求包的所请求的文件的文件类型;如果请求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔符“”至该URL最后一个分隔符“”之间的字符串为该请求包的所请求的文件的文件类型;0053第二确定模块23,连接至第一确定模块21和识别模块22,用于根据第一确定模块21确定得到的请求数据包的数据包属性值集合和识别模块22识别出的各个请求数据包所请求的文件的文件类型,确定属于同一个WEB页面的请求数据包所请求的文件的文件类型说明书CN104035932A117/9页12以及属于同一个WEB页面的请求数据包的数据包属性值集合;0054具体地,第二确定模块23确定请求容器。

48、对象文件的请求数据包或者请求独立对象文件的请求数据包为一个WEB页面的第一个数据包;每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于第一时间间隔;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于第二时间间隔;和/或,每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于第一HTTP净载荷长度差值;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于第二HTTP净载荷长度差值;0055第三确定模块24,连接至第二确定模块23,用于根据第二确定模。

49、,23确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。0056具体地,第三确定模块24将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和第二确定模块所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包;0057更进一步,第三确定模块24在当前滑动窗口中,根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,以及所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型和属于同一个WEB页面的请求数据包的数据包属性值集合,确定得到多个WEB页面的情况下,分别确定这多个WEB页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的W。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1