《WEB页面分割方法及装置.pdf》由会员分享,可在线阅读,更多相关《WEB页面分割方法及装置.pdf(16页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104035932A43申请公布日20140910CN104035932A21申请号201310069892622申请日20130305G06F17/30200601H04L29/0820060171申请人中国移动通信集团湖南有限公司地址410015湖南省长沙市芙蓉中路三段446号72发明人曾彬74专利代理机构北京同达信恒知识产权代理有限公司11291代理人郭润湘54发明名称WEB页面分割方法及装置57摘要本发明公开了一种WEB页面分割方法及装置,根据该方法,在预定时间段内,根据各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;并根据各个请求数据。
2、包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,并以此为分割规则,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,不用维护和使用流表、所占用的系统开销小、节省处理资源,分割规则与请求数据包的数据包属性值集合和文件类型相关,能够提高WEB页面分割的准确率。51INTCL权利要求书4页说明书9页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书9页附图2页10申请公布号CN104035932ACN104。
3、035932A1/4页21一种WEB页面分割方法,其特征在于,包括在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;其中,所述请求数据包用于请求获取构成WEB页面的文件,所述请求数据包的数据包属性值集合包括相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型包括容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件。
4、或PDF文件;确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合;根据所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。2根据权利要求1所述的方法,其特征在于,在所述预定时间段内,确定请求数据包的数据包属性值集合,具体包括在所述预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;其中,所述。
5、滑动窗口的时间长度小于或等于所述预定时间段的时间长度。3根据权利要求2所述的方法,其特征在于,确定当前滑动窗口中的属性值集合中的属性值,具体包括在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两。
6、个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值。4根据权利要求1所述的方法,其特征在于,识别出各个请求数据包所请求的文件的文件类型,具体包括在所述预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;如果请求数据包的REFERER字段中的URL是静态UR。
7、L,提取该静态URL的最后一个分隔权利要求书CN104035932A2/4页3符“”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;如果请求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔符“”至该URL最后一个分隔符“”之间的字符串为该请求包的所请求的文件的文件类型。5根据权利要求4所述的方法,其特征在于,所述方法还包括将所确定的请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库,在无法根据请求数据包的REFERER字段中的URL识别该请求数据包所请求的文件的文件类型的情况下,如果所述URL库中存在的一个URL与该请。
8、求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为容器对象文件,如果所述URL库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为嵌入对象文件。6根据权利要求3所述的方法,其特征在于,确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,具体包括确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个WEB页面的第一个数据包;每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于所述第一时间间隔;每。
9、两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于所述第二时间间隔;和/或,每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第一HTTP净载荷长度差值;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第二HTTP净载荷长度差值。7根据权利要求1或6所述的方法,其特征在于,确定属于同一个页面的请求数据包,具体包括将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;根据在当前。
10、滑动窗口中所确定的请求数据包的数据包属性值集合,和所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包。8根据权利要求7所述的方法,其特征在于,确定属于同一个页面的请求数据包,具体包括在当前滑动窗口中,根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,以及所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型和属于同一个WEB页面的请求数据包的数据包属性值集合,确定得到多个WEB页面的情况下,分别确定这多个WEB页面的请求容器对象文件的请求数据包的R。
11、EFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它权利要求书CN104035932A3/4页4URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的WEB页面作为最终分割得到的WEB页面。9一种WEB页面分割装置,其特征在于,包括第一确定模块,用于在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合,其中,所述请求数据包用于请求获取构成WEB页面的文件,所述请求数据包的数据包属性。
12、值集合包括相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;识别模块,用于在所述预定时间段内,根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型包括容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;第二确定模块,用于根据所述第一确定模块确定得到的请求数据包的数据包属性值集合和所述识别模块识别出的各个请求数据包所请求的文件的文件类型,确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的。
13、数据包属性值集合;第三确定模块,用于根据所述第二确定模块确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。10根据权利要求9所述的装置,其特征在于,所述第一确定模块,具体用于在所述预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;其中,所述滑动窗口的时间长度小于或等于所述预定时间段的时间长度。11根据权利要求10所述的装置,其特征在于,所述第一确定模。
14、块,具体用于在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确。
15、定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值。12根据权利要求9所述的装置,其特征在于,所述识别模块,具体用于在所述预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;权利要求书CN104035932A4/4页5如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;如果请。
16、求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔符“”至该URL最后一个分隔符“”之间的字符串为该请求包的所请求的文件的文件类型。13根据权利要求12所述的装置,其特征在于,所述装置还包括第四确定模块,用于将所述第一确定模块确定的请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库,在所述识别模块无法根据请求数据包的REFERER字段中的URL识别该请求数据包所请求的文件的文件类型的情况下,如果所述URL库中存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为容器对象文件,如果所述URL。
17、库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为嵌入对象文件。14根据权利要求11所述的装置,其特征在于,所述第二确定模块,具体用于确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个WEB页面的第一个数据包;每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于所述第一时间间隔;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于所述第二时间间隔;和/或,每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所。
18、述第一HTTP净载荷长度差值;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第二HTTP净载荷长度差值。15根据权利要求9或权利要求14所述的装置,其特征在于,所述第三确定模块,具体用于将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和所述第二确定模块所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请。
19、求数据包。16根据权利要求15所述的装置,其特征在于,所述第三确定模块,具体用于在当前滑动窗口中,根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,以及所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型和属于同一个WEB页面的请求数据包的数据包属性值集合,确定得到多个WEB页面的情况下,分别确定这多个WEB页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的。
20、URL的请求数量,将该URL对应的分割得到的WEB页面作为最终分割得到的WEB页面。权利要求书CN104035932A1/9页6WEB页面分割方法及装置技术领域0001本发明涉及网络通信系统,具体涉及一种WEB页面分割方法及装置。背景技术0002网络流量测量和网络性能优化中一项重要指标是页面响应速度,通过测量属于同一个页面的数据包的传输速度来测量页面响应速度,确定属于同一个页面的数据包的技术手段被称为WEB页面分割。0003目前,WEB页面分割的方法包括两种,解析HTTP方式和不解析HTTP方式0004第一,解析HTTP方式,针对网络流量,在流表中记录各个请求数据包的HTTP头部的REFRER。
21、字段和各个请求数据包的目的URL,将请求嵌入对象文件(例如JPG文件、PNG文件等等)的请求数据包的REFERER字段的域值即URL与请求容器对象文件(例如HTML文件、HTM文件、SHTML文件等等)的请求包的目的URL进行对比,若二者相同则表明该嵌入对象文件属于该容器对象文件的目的URL所指示的页面。并通过根据请求数据包和响应数据包之间的对应关系组合出属于同一个WEB页面的数据包,也即对不同的WEB页面进行了分割。0005第二,不解析HTTP方式,基于大多数浏览器发送的请求容器对象文件的请求数据包的大小显著地大于请求嵌入对象文件的请求数据包的大小这一观察事实,并且认为下一个页面的请求容器对。
22、象的请求数据包到来之前,上一个页面最后一个响应数据包已经传输完成,基于这两个前提,根据请求数据包的大小将请求容器对象文件的请求数据包识别出来,作为当前新的WEB页面的第一个数据包,并将该请求容器对象的请求数据包之前的一个数据包作为当前WEB页面的上一个WEB页面的数据包,以此来进行WEB页面分割。0006上述第一种方式的优点在于页面分割的准确率高,缺点在于维护流表的开销大、占用的处理资源过多,并且不能适用于REFERER头部无法获取以及嵌套页面的情况。0007上述第二种方式的优点在于不用维护流表开销较小、能够节省处理资源,也能够适用于REFERER头部不能获取的情况,但是,该方法的缺点在于准确。
23、率低于上述第一种方法的准确率。0008可见,在现有的WEB页面分割的方法中,存在获得较高的分割准确率和占用较少的处理资源不能兼顾的问题。发明内容0009有鉴于此,本发明实施例提供了一种WEB页面分割方法及装置,用以解决现有技术中的WEB页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。0010本发明实施例技术方案如下0011一种WEB页面分割方法,包括在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;其中,所述请求数据包用于请求获取构成WEB页面的文件,所述请求数据包的数据包属性值集合包括相同源。
24、IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址说明书CN104035932A2/9页7的相邻两个请求数据包的HTTP净载荷长度差值;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合;所述文件类型包括容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;根据所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定。
25、属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。0012一种WEB页面分割装置,包括第一确定模块,用于在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合,其中,所述请求数据包用于请求获取构成WEB页面的文件,所述请求数据包的数据包属性值集合包括相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;识别模块,用于在所述预定时间段内,根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型。
26、包括容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;第二确定模块,用于根据所述第一确定模块确定得到的请求数据包的数据包属性值集合和所述识别模块识别出的各个请求数据包所请求的文件的文件类型,确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合;第三确定模块,用于根据所述第二确定模块确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。0013根据本发明实施。
27、例的技术方案,通过在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,并以此为分割规则,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,能够仅通过请求数据包的TCP头部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定进行WEB页面分割的分割规则,不用维护和使用流表、。
28、所占用的系统开销小、节省处理资源,并且在预定时间段内基于实际的网络数据流量自主学习到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,能够提高WEB页面分割的准确率,从而能够解决现有技术中的WEB页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。0014本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明0015图1为本发明实施例提供的WEB页面分割方法的工作流程图;说明书CN1。
29、04035932A3/9页80016图2是本发明实施例提供的WEB页面分割装置的结构框图;0017图3是图2所示装置的优选结构框图。具体实施方式0018以下结合附图对本发明的实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。0019针对现有技术中的WEB页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题,本发明实施例提供了一种WEB页面分割方案,用于解决该问题。在本发明实施例提供的WEB页面分割方法中,仅通过请求数据包的TCP头部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定进行WEB页面分割的分割规则,也即属于同一个页面。
30、的请求数据包以及与所确定的请求数据包对应的响应数据包,不用维护和使用流表、所占用的系统开销小、节省处理资源,并且在预定时间段内基于实际的网络数据流量自主学习到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,能够提高WEB页面分割的准确率,从而能够解决现有技术中的WEB页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。0020下面对本发明实施例进行详细说明。0021图1示出了本发明实施例提供的WEB页面分割方法的工作流程,该方法包括0022步骤11、在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP。
31、头部信息,确定请求数据包的数据包属性值集合;请求数据包的数据包属性值集合,具体包括相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;0023具体地,预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值,并且,当前滑动窗口的权重大于上一个滑动窗口的权重;其中,所述滑动窗口的时间长度小于或等于所述预定时间段的时间长度;通过该处理步骤可知,确定当前滑动窗口中的请求数据包的属性值集合依赖于上一个滑动窗口中请求数据包的属性值集合,这是因为。
32、在实际的网络流量中,数据流量通常具有连续性,属于同一个WEB页面的请求数据包的数据包属性值也具有数值连续的特性,故为了确定更为准确的请求数据包的属性值集合,确定当前滑动窗口中的请求数据包的数据包属性值集合的过程中,依赖于上一个滑动窗口中请求数据包的属性值集合;0024确定当前滑动窗口的请求数据包的属性值集合的处理,具体包括在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;0025将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的。
33、时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源说明书CN104035932A4/9页9IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值;0026。
34、步骤12、并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;请求数据包所请求的文件的文件类型,具体包括容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;0027具体地,在预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;0028如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;0029如果请求数据包的REFERER字段中的URL是动态URL,提取该动态。
35、URL的最后一个分隔符“”至该URL最后一个分隔符“”之间的字符串为该请求包的所请求的文件的文件类型;0030更进一步地,将请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库;针对所提取的字符串无法明确地确定文件类型的情况下,也即在无法根据请求数据包的REFERER字段中的URL识别该请求数据包所请求的文件的文件类型的情况下,如果所述URL库中存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为容器对象文件,如果所述URL库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文。
36、件的文件类型为嵌入对象文件;0031步骤13、确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合;0032具体地,在预定时间段内,确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合即为WEB页面分割规则,该规则包括0033规则1、确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个WEB页面的第一个数据包;0034规则2、每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于所述第一时间间隔;、0035规则3、每两个相邻的具。
37、有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于所述第二时间间隔;和/或,0036规则4、每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第一HTTP净载荷长度差值;0037规则5、每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第二HTTP净载荷长度差值;0038步骤104、根据所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包;说明书。
38、CN104035932A5/9页100039具体地,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;如上述步骤101中所述,当前滑动窗口的权重大于上一个滑动窗口的权重,其理由如上述步骤101中所述;具体确定请求数据包的数据包属性值集合的方法也如上述步骤101中所述0040根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包,也即根据上述步骤10。
39、3中的WEB页面分割规则进行判断和分割;0041更进一步地,当请求数据包的数据包属性值集合中只包括相同源IP地址的相邻两个请求数据包的时间间隔时,上述分割规则就只包括规则1规则3,当请求数据包的数据包属性值集合中只包括相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值时,上述分割规则就只包括规则1、规则4和规则5,依据这样的分割规则进行WEB页面分割时,得到单一的分割结果的可能性较大,也即分割得到一个页面的可能性较大;0042但是,当请求数据包的数据包属性值集合中同时包括相同源IP地址的相邻两个请求数据包的时间间隔和相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值时,上述分割。
40、规则中就同时包括规则1规则5,依据这样的分割规则,得到多样性的分割结果的可能性较大,也即对于同一个滑动窗口中的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,依据规则1规则5,可能会分割得到多个WEB页面,则,在这种情况下,分别确定这多个WEB页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的WEB页面作为最终分割得到的WEB页面。0043上述只是一。
41、种在分割得到的多个WEB页面中确定一个最终的WEB页面的方法,在实际应用中,还可以通过其它方式来确定。0044根据图1所示的方法,通过在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,并以此为分割规则,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包,能够仅通过请求数据包的TCP头。
42、部信息和IP头部信息以及HTTP头部的REFERER字段就能够确定进行WEB页面分割的分割规则,不用维护和使用流表、所占用的系统开销小、节省处理资源,确定请求数据包的数据包属性值集合和识别请求数据包所请求的文件的文件类型的操作的复杂度低、处理速度快、处理效率高;并且在预定时间段内基于实际的网络数据流量自主学习到分割规则,且分割规则与请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型相关,相比于现有技术中不解析HTTP方式进行WEB页面分割的方法中,仅根据请求数据包的大小来区分请求数据包所请求的文件的类型,能够更为准确地识别请求数据包所请求的文件的说明书CN104035932A106。
43、/9页11类型、获得更准确的分割规则,从而能够提高WEB页面分割的准确率,进而能够解决现有技术中的WEB页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。0045基于相同的发明构思,本发明实施例还提供了一种WEB页面分割装置,该装置可以位于进行流量监测的网络设备中,或者位于网络性能测量的网络设备中,还可以位于其它的除客户端和服务器之外的、进行网络流量转发的网络设备中。0046图2示出了本发明实施例提供的WEB页面分割装置的结构框图,该装置包括0047第一确定模块21,用于在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求。
44、数据包的数据包属性值集合;0048具体地,请求数据包的数据包属性值集合,具体包括相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;0049第一确定模块21,具体用于在预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;其中,滑动窗口的时间长度小于或等于预定时间段的时间长度;0050并且,在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP。
45、地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值。
46、的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值;0051识别模块22,用于在预定时间段内,根据WEB客户端发送给WEB服务器的各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;文件类型,具体包括容器对象文件、嵌入对象文件或独立对象文件,独立对象文件包括RAR文件、TXT文件或PDF文件;0052具体地,识别模块22在预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“”至该URL最后一个字符之间的字。
47、符串为该请求包的所请求的文件的文件类型;如果请求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔符“”至该URL最后一个分隔符“”之间的字符串为该请求包的所请求的文件的文件类型;0053第二确定模块23,连接至第一确定模块21和识别模块22,用于根据第一确定模块21确定得到的请求数据包的数据包属性值集合和识别模块22识别出的各个请求数据包所请求的文件的文件类型,确定属于同一个WEB页面的请求数据包所请求的文件的文件类型说明书CN104035932A117/9页12以及属于同一个WEB页面的请求数据包的数据包属性值集合;0054具体地,第二确定模块23确定请求容器。
48、对象文件的请求数据包或者请求独立对象文件的请求数据包为一个WEB页面的第一个数据包;每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于第一时间间隔;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于第二时间间隔;和/或,每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于第一HTTP净载荷长度差值;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于第二HTTP净载荷长度差值;0055第三确定模块24,连接至第二确定模块23,用于根据第二确定模。
49、,23确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。0056具体地,第三确定模块24将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和第二确定模块所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型以及属于同一个WEB页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包;0057更进一步,第三确定模块24在当前滑动窗口中,根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,以及所确定的属于同一个WEB页面的请求数据包所请求的文件的文件类型和属于同一个WEB页面的请求数据包的数据包属性值集合,确定得到多个WEB页面的情况下,分别确定这多个WEB页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的W。