一种基于时间滑动窗口的互联网流量建模方法.pdf

摘要
申请专利号：	CN201410425563.5	申请日：	2014.08.27
公开号：	CN105376105A	公开日：	2016.03.02
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):H04L 12/26申请日:20140827\|\|\|公开
IPC分类号：	H04L12/26; H04L12/807(2013.01)I; G06F17/30	主分类号：	H04L12/26
申请人：	苏州大数聚信息技术有限公司
发明人：	吴晓非; 禹可
地址：	215137江苏省苏州市相城区高铁新城金澄路88-1栋402室
优先权：
专利代理机构：	南京纵横知识产权代理有限公司32224	代理人：	董建林; 汪庆朋
PDF下载：	PDF下载

内容摘要

本发明公开了一种基于时间滑动窗口的互联网流量建模方法，具体包括以下几个步骤：(1)通过网络中的流量监控设备对不同时刻产生的流信息进行采集，采集到的每个流信息对应一条流记录；(2)对采集到的流信息建立流量图；(3)利用时间窗口的滑动对流量图进行迭代更新，(1a)在时间窗口W1中建立一个流量图G1；(2a)将时间窗口W1往后滑动τ形成时间窗口W2，并对流量图G1进行更新，形成流量图G2；(4)通过时间窗口的滑动，生成一系列的流量图，通过对流量图进行对比分析，得出网络流量的动态变化特性。本发明引入时间滑动窗口，既表征了网络流量的动态变化特性，又避免了流量的时间累积效应，降低了模型的分析处理复杂度。

权利要求书

1.一种基于时间滑动窗口的互联网流量建模方法，其特征在于，
具体包括以下几个步骤：
(1)通过网络中的流量监控设备对不同时刻产生的流信息进行
采集，采集到的每个流信息对应一条流记录；
(2)根据步骤(1)采集到的流信息建立流量图，所述流量图的
建图方法如下：
将流记录中的源主机和目的主机作为节点，将源主机和目的主机
之间的流量交互作为边，将所述边上的流量交互总和设为边的权值，
所述节点的强度为与它相连的所有边的权值总和；
(3)利用时间窗口的滑动对流量图进行迭代更新，所述时间窗
口包含窗口大小W和滑动时间间隔τ两个参数，具体迭代更新方法
如下：
(1a)在时间窗口W1中，通过步骤(2)的建图方法建立一个
流量图G1；
(2a)将时间窗口W1往后滑动τ，从而形成时间窗口W2，并
对流量图G1进行更新，具体更新方法如下：
若时间窗口W2包含了新的流记录，则在流量图G1上增加新的
节点和边；
对每条在时间窗口W1中已经存在的旧边，所述旧边即时间窗口
W1中有一条流记录，但时间窗口W2中无相同节点对之间的流记录，
或者时间窗口W2中的一条流记录具有相同的节点对；仅对该旧边的
权值进行更新，即减去时间窗口W1中流记录的流量大小，再加上时
间窗口W2中流记录的流量大小；若旧边的权值已减为0，则删除该
旧边；若旧节点已无边相连，则删除该节点，从而形成流量图G2；
(4)通过步骤(3)中时间窗口的滑动，从而生成一系列的流量
图，通过对流量图进行对比分析，可得出网络流量的动态变化特性。
2.根据权利要求1所述的基于时间滑动窗口的互联网流量建模
方法，其特征在于，
步骤(1)中，每条所述流记录的内容包括发生时间、源和目的
IP地址、源和目的端口、包数及字节数和应用类型。
3.根据权利要求1所述的基于时间滑动窗口的互联网流量建模
方法，其特征在于，
步骤(1)中，在固定网络中，所述流量监控设备可安装在接入
网和骨干网之间的链路上；
在移动网络中，所述流量监控设备可安装在GPRS网络中SGSN
和GGSN之间的链路上；
通过这些链路的所有流信息均被所述流量监控设备记录和分析。
4.根据权利要求1所述的基于时间滑动窗口的互联网流量建模
方法，其特征在于，
步骤(3)中，可通过流量图的度分布和强度分布的幂指数来确
定窗口大小W。
5.根据权利要求1所述的基于时间滑动窗口的互联网流量建模
方法，其特征在于，
在P2P流量测试中，所述窗口大小W设为60分钟。
6.根据权利要求1所述的基于时间滑动窗口的互联网流量建模
方法，其特征在于，
步骤(3)中，通过流持续时间的经验值或流量图的重边比例来
确定滑动时间间隔τ。
7.根据权利要求1所述的基于时间滑动窗口的互联网流量建模
方法，其特征在于，
在P2P流量测试中，所述滑动时间间隔τ设为10分钟。

说明书

一种基于时间滑动窗口的互联网流量建模方法

技术领域

本发明涉及互联网流量建模技术领域，具体涉及一种基于时间滑
动窗口的互联网流量建模方法。

背景技术

随着近年来网络技术、规模和业务的发展，互联网已经成为人类
社会的重要基础设施，它从根本上改变了人们以前的交流方式和生活
方式。互联网的繁荣带来了许多新的挑战，网络流量爆炸式增长，应
用变化发展和推陈出新的速度非常迅速，用户行为趋于复杂化。互联
网流量建模有助于把握应用流量特征，为流量预测、网络维护、网络
设施升级、网络安全防御等提供基础的数据支撑能力，具有明显的现
实意义。

流量建模是网络测量领域的一个重要方面，产生了种类繁多的网
络流量模型。传统的流量模型包括泊松模型、马尔可夫模型、自回归
模型等。最早的泊松模型是根据电话业务流量的特征提出来的，是指
在时间序列t内,呼叫或数据包到达的数量符合参数为t的泊松分布，
其相应的呼叫或包到达的时间间隔序列呈负指数分布。马尔可夫模型
针对分组交换网络流量，每次状态转换代表一个新的到达，未来状态
只依赖于当前状态,而描述一个状态持续时间的随机变量的分布呈指
数分布(连续时间)或几何分布(离散时间)。自回归模型采用自动
回归法,强调时间序列未来的点数由同一时间序列过去的值来决定。
上述流量模型只存在短相关性,即在不同的时间尺度上有不同特性，
并且大量源叠加会平缓突发性，与实际数据网络流量特征存在较大的
偏差。

互联网研究人员随后发现实际业务流在各个时间尺度下表现出
自相似的突发特性,在相关函数上表现为长相关特性，又相继提出了
若干长相关模型，包括重尾分布的ON/OFF模型、分形布朗运动模型、
FARIMA模型等。重尾分布的ON/OFF模型首先叠加大量的ON/OFF
源,每个源都有两个状态,即周期交替的ON和OFF，在ON状态中,
数据源连续地发送数据包；在OFF状态中,数据源不发送任何数据包。
每个发送源的ON状态和OFF状态的时长独立地符合重尾分布(如
Pareto分布)。分形布朗运动模型是一种统计自相似过程的数学模型，
它是一个均值为0的连续高斯过程,其平稳增量过程是分形高斯噪
声。FARIMA模型是一个时间序列模型，它是一个二阶渐进自相似过
程,通过3个参数来控制自相关结构。上述流量模型可以描述流量的
突发性和长相关性，刻画了业务流量的自相似特性。

以上流量模型大多从纯粹的数学角度对网络流量的性质进行挖
掘，通过包长、包到达时刻、包到达时间间隔、包突发数量等微观性
质的数学描述，试图找出最有效的建模方式，但却忽略了网络流量的
现实意义，即流量是为网络交互而产生，天然具有多个参与者的特性，
而不仅仅是通信单方或双方的问题。此外，现有的一些长相关流量模
型存在较高的计算复杂度，由于其结构复杂、参数众多，导致算法收
敛速度慢，已无法实际应用于网络流量管理和预测中。

发明内容

针对现有技术存在的不足，本发明目的是提供一种基于时间滑动
窗口的互联网流量建模方法，引入时间滑动窗口，既表征了网络流量
的动态变化特性，又避免了流量的时间累积效应，降低了模型的分析
处理复杂度。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明的一种基于时间滑动窗口的互联网流量建模方法，具体包
括以下几个步骤：

(1)通过网络中的流量监控设备对不同时刻产生的流信息进行
采集，采集到的每个流信息对应一条流记录；

(2)根据步骤(1)采集到的流信息建立流量图，流量图的建图
方法如下：

将流记录中的源主机和目的主机作为节点，将源主机和目的主机
之间的流量交互作为边，将边上的流量交互总和设为边的权值，节点
的强度为与它相连的所有边的权值总和；

(3)利用时间窗口的滑动对流量图进行迭代更新，时间窗口包
含窗口大小W和滑动时间间隔τ两个参数，具体迭代更新方法如下：

(1a)在时间窗口W1中，通过步骤(2)的建图方法建立一个
流量图G1；

(2a)将时间窗口W1往后滑动τ，从而形成时间窗口W2，并
对流量图G1进行更新，具体更新方法如下：

若时间窗口W2包含了新的流记录，则在流量图G1上增加新的
节点和边；

对每条在时间窗口W1中已经存在的旧边(即W1中有一条流记
录，但是W2中无相同节点对之间的流记录，或者W2中的一条流记
录具有相同的节点对)，仅对该边的权值进行更新，即减去W1中流
记录的流量大小，再加上W2中流记录的流量大小(可能为0)；若
旧边的权值已减为0，则删除该旧边；若旧节点已无边相连，则删除
该节点，从而形成流量图G2；

(4)通过步骤(3)中时间窗口的滑动，从而生成一系列的流量
图，通过对流量图的统计特性如度分布进行对比分析(对比分析的方
法为现有技术)，可得出网络流量的动态变化特性。

步骤(1)中，每条流记录的内容包括发生时间、源和目的IP地
址、源和目的端口、包数及字节数和应用类型。

步骤(1)中，在固定网络中，流量监控设备可安装在接入网和
骨干网之间的链路上；

在移动网络中，流量监控设备可安装在GPRS网络中SGSN和
GGSN之间的链路上；

通过这些链路的所有流信息均被流量监控设备记录和分析。

步骤(3)中，可通过流量图的度分布和强度分布的幂指数来确
定窗口大小W。

在P2P流量测试中，窗口大小W设为60分钟。

步骤(3)中，通过流持续时间的经验值或流量图的重边比例来
确定滑动时间间隔τ。

在P2P流量测试中，滑动时间间隔τ设为10分钟。

本发明的有益效果如下：

(1)从宏观层面而非微观层面考虑流量建模问题，涉及到网络
多个用户的多维通信，而忽略一个流或一个包的微观特征，便于大规
模网络流量建模；

(2)从实际流量数据出发建立流量图模型，准确表征了网络用
户的交互行为，通过图结构统计特性易于挖掘全局流量特征；

(3)引入时间滑动窗口，既表征了网络流量的动态变化特性，
又避免了流量的时间累积效应，降低了模型的分析处理复杂度。

附图说明

图1为本发明的基于时间滑动窗口的互联网流量建模方法原理
图(图中虚线框表示W1，实线框表示W2)。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明
白了解，下面结合具体实施方式，进一步阐述本发明。

网络流量数据通过部署于运营商网络中的流量监控设备进行采
集。在固定网络中，流量监控设备可部署于接入网和骨干网之间的链
路上；而在移动网络中，流量监控设备可部署于GPRS网络中SGSN
和GGSN之间的链路上。通过这些链路的所有流信息均被流量监控
设备记录和分析，一天24小时就能产生上亿条流记录。

对于如此大规模的流量数据，采用基于时间滑动窗口的流量图模
型进行建模。

参见图1，一条竖线代表某时刻产生的一条流记录，竖线的粗细
表示了这条流记录中的流量大小(以包数或字节数表示)。用一个时
间窗口覆盖一部分流记录，窗口大小设定为W，每次向后滑动τ。
在时间窗口W1中，建立一个流量图G1，其节点为流记录中的源/目
的IP地址，源和目的之间的流量传送形成边，边上的权值为传送的
流量大小。当时间窗口从W1往后滑动τ形成时间窗口W2时，将
G1更新为G2：W2中新的流记录使得G1增加新的节点和边；已在
G1中存在的边(旧边)减去相应的权值；若边的权值已减为0，则
删除该边；若节点已无边相连，则删除该节点。

时间滑动窗口的两个重要参数为窗口大小W和滑动时间间隔τ，
可根据实际流量情况进行配置。如使用流量图的度分布和强度分布的
幂指数来确定窗口大小W。实际P2P流量测试发现当窗口大小W小
于60分钟时，流量图的度分布和强度分布的幂指数快速变化，当W
大于60分钟时，幂指数基本稳定，因此可设窗口大小W为60分钟。
使用流持续时间的经验值或流量图的重边比例来确定滑动时间间隔
τ。实际P2P流量测试发现当滑动时间间隔τ小于10分钟时，流量
图的重边比例快速增加，当τ大于10分钟后，重边比例基本稳定，
因此可设滑动时间间隔τ为10分钟。

以上显示和描述了本发明的基本原理和主要特征和本发明的优
点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上
述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明
精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改
进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权
利要求书及其等效物界定。