一种基于时间滑动窗口的互联网流量建模方法技术领域
本发明涉及互联网流量建模技术领域,具体涉及一种基于时间滑
动窗口的互联网流量建模方法。
背景技术
随着近年来网络技术、规模和业务的发展,互联网已经成为人类
社会的重要基础设施,它从根本上改变了人们以前的交流方式和生活
方式。互联网的繁荣带来了许多新的挑战,网络流量爆炸式增长,应
用变化发展和推陈出新的速度非常迅速,用户行为趋于复杂化。互联
网流量建模有助于把握应用流量特征,为流量预测、网络维护、网络
设施升级、网络安全防御等提供基础的数据支撑能力,具有明显的现
实意义。
流量建模是网络测量领域的一个重要方面,产生了种类繁多的网
络流量模型。传统的流量模型包括泊松模型、马尔可夫模型、自回归
模型等。最早的泊松模型是根据电话业务流量的特征提出来的,是指
在时间序列t内,呼叫或数据包到达的数量符合参数为t的泊松分布,
其相应的呼叫或包到达的时间间隔序列呈负指数分布。马尔可夫模型
针对分组交换网络流量,每次状态转换代表一个新的到达,未来状态
只依赖于当前状态,而描述一个状态持续时间的随机变量的分布呈指
数分布(连续时间)或几何分布(离散时间)。自回归模型采用自动
回归法,强调时间序列未来的点数由同一时间序列过去的值来决定。
上述流量模型只存在短相关性,即在不同的时间尺度上有不同特性,
并且大量源叠加会平缓突发性,与实际数据网络流量特征存在较大的
偏差。
互联网研究人员随后发现实际业务流在各个时间尺度下表现出
自相似的突发特性,在相关函数上表现为长相关特性,又相继提出了
若干长相关模型,包括重尾分布的ON/OFF模型、分形布朗运动模型、
FARIMA模型等。重尾分布的ON/OFF模型首先叠加大量的ON/OFF
源,每个源都有两个状态,即周期交替的ON和OFF,在ON状态中,
数据源连续地发送数据包;在OFF状态中,数据源不发送任何数据包。
每个发送源的ON状态和OFF状态的时长独立地符合重尾分布(如
Pareto分布)。分形布朗运动模型是一种统计自相似过程的数学模型,
它是一个均值为0的连续高斯过程,其平稳增量过程是分形高斯噪
声。FARIMA模型是一个时间序列模型,它是一个二阶渐进自相似过
程,通过3个参数来控制自相关结构。上述流量模型可以描述流量的
突发性和长相关性,刻画了业务流量的自相似特性。
以上流量模型大多从纯粹的数学角度对网络流量的性质进行挖
掘,通过包长、包到达时刻、包到达时间间隔、包突发数量等微观性
质的数学描述,试图找出最有效的建模方式,但却忽略了网络流量的
现实意义,即流量是为网络交互而产生,天然具有多个参与者的特性,
而不仅仅是通信单方或双方的问题。此外,现有的一些长相关流量模
型存在较高的计算复杂度,由于其结构复杂、参数众多,导致算法收
敛速度慢,已无法实际应用于网络流量管理和预测中。
发明内容
针对现有技术存在的不足,本发明目的是提供一种基于时间滑动
窗口的互联网流量建模方法,引入时间滑动窗口,既表征了网络流量
的动态变化特性,又避免了流量的时间累积效应,降低了模型的分析
处理复杂度。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明的一种基于时间滑动窗口的互联网流量建模方法,具体包
括以下几个步骤:
(1)通过网络中的流量监控设备对不同时刻产生的流信息进行
采集,采集到的每个流信息对应一条流记录;
(2)根据步骤(1)采集到的流信息建立流量图,流量图的建图
方法如下:
将流记录中的源主机和目的主机作为节点,将源主机和目的主机
之间的流量交互作为边,将边上的流量交互总和设为边的权值,节点
的强度为与它相连的所有边的权值总和;
(3)利用时间窗口的滑动对流量图进行迭代更新,时间窗口包
含窗口大小W和滑动时间间隔τ两个参数,具体迭代更新方法如下:
(1a)在时间窗口W1中,通过步骤(2)的建图方法建立一个
流量图G1;
(2a)将时间窗口W1往后滑动τ,从而形成时间窗口W2,并
对流量图G1进行更新,具体更新方法如下:
若时间窗口W2包含了新的流记录,则在流量图G1上增加新的
节点和边;
对每条在时间窗口W1中已经存在的旧边(即W1中有一条流记
录,但是W2中无相同节点对之间的流记录,或者W2中的一条流记
录具有相同的节点对),仅对该边的权值进行更新,即减去W1中流
记录的流量大小,再加上W2中流记录的流量大小(可能为0);若
旧边的权值已减为0,则删除该旧边;若旧节点已无边相连,则删除
该节点,从而形成流量图G2;
(4)通过步骤(3)中时间窗口的滑动,从而生成一系列的流量
图,通过对流量图的统计特性如度分布进行对比分析(对比分析的方
法为现有技术),可得出网络流量的动态变化特性。
步骤(1)中,每条流记录的内容包括发生时间、源和目的IP地
址、源和目的端口、包数及字节数和应用类型。
步骤(1)中,在固定网络中,流量监控设备可安装在接入网和
骨干网之间的链路上;
在移动网络中,流量监控设备可安装在GPRS网络中SGSN和
GGSN之间的链路上;
通过这些链路的所有流信息均被流量监控设备记录和分析。
步骤(3)中,可通过流量图的度分布和强度分布的幂指数来确
定窗口大小W。
在P2P流量测试中,窗口大小W设为60分钟。
步骤(3)中,通过流持续时间的经验值或流量图的重边比例来
确定滑动时间间隔τ。
在P2P流量测试中,滑动时间间隔τ设为10分钟。
本发明的有益效果如下:
(1)从宏观层面而非微观层面考虑流量建模问题,涉及到网络
多个用户的多维通信,而忽略一个流或一个包的微观特征,便于大规
模网络流量建模;
(2)从实际流量数据出发建立流量图模型,准确表征了网络用
户的交互行为,通过图结构统计特性易于挖掘全局流量特征;
(3)引入时间滑动窗口,既表征了网络流量的动态变化特性,
又避免了流量的时间累积效应,降低了模型的分析处理复杂度。
附图说明
图1为本发明的基于时间滑动窗口的互联网流量建模方法原理
图(图中虚线框表示W1,实线框表示W2)。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明
白了解,下面结合具体实施方式,进一步阐述本发明。
网络流量数据通过部署于运营商网络中的流量监控设备进行采
集。在固定网络中,流量监控设备可部署于接入网和骨干网之间的链
路上;而在移动网络中,流量监控设备可部署于GPRS网络中SGSN
和GGSN之间的链路上。通过这些链路的所有流信息均被流量监控
设备记录和分析,一天24小时就能产生上亿条流记录。
对于如此大规模的流量数据,采用基于时间滑动窗口的流量图模
型进行建模。
参见图1,一条竖线代表某时刻产生的一条流记录,竖线的粗细
表示了这条流记录中的流量大小(以包数或字节数表示)。用一个时
间窗口覆盖一部分流记录,窗口大小设定为W,每次向后滑动τ。
在时间窗口W1中,建立一个流量图G1,其节点为流记录中的源/目
的IP地址,源和目的之间的流量传送形成边,边上的权值为传送的
流量大小。当时间窗口从W1往后滑动τ形成时间窗口W2时,将
G1更新为G2:W2中新的流记录使得G1增加新的节点和边;已在
G1中存在的边(旧边)减去相应的权值;若边的权值已减为0,则
删除该边;若节点已无边相连,则删除该节点。
时间滑动窗口的两个重要参数为窗口大小W和滑动时间间隔τ,
可根据实际流量情况进行配置。如使用流量图的度分布和强度分布的
幂指数来确定窗口大小W。实际P2P流量测试发现当窗口大小W小
于60分钟时,流量图的度分布和强度分布的幂指数快速变化,当W
大于60分钟时,幂指数基本稳定,因此可设窗口大小W为60分钟。
使用流持续时间的经验值或流量图的重边比例来确定滑动时间间隔
τ。实际P2P流量测试发现当滑动时间间隔τ小于10分钟时,流量
图的重边比例快速增加,当τ大于10分钟后,重边比例基本稳定,
因此可设滑动时间间隔τ为10分钟。
以上显示和描述了本发明的基本原理和主要特征和本发明的优
点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上
述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明
精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改
进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权
利要求书及其等效物界定。