基于UDP统计指印混合模型的VOIP流量检测方法.pdf

上传人:n****g 文档编号:4752905 上传时间:2018-11-06 格式:PDF 页数:9 大小:2.91MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210264260.0

申请日:

2012.07.29

公开号:

CN102821217A

公开日:

2012.12.12

当前法律状态:

终止

有效性:

无权

法律详情:

未缴年费专利权终止IPC(主分类):H04M 7/00申请日:20120729授权公告日:20131225终止日期:20150729|||授权|||实质审查的生效IPC(主分类):H04M 7/00申请日:20120729|||公开

IPC分类号:

H04M7/00

主分类号:

H04M7/00

申请人:

西北工业大学

发明人:

蔡皖东; 丁要军; 张玉冲

地址:

710072 陕西省西安市友谊西路127号

优先权:

专利代理机构:

西北工业大学专利中心 61204

代理人:

王鲜凯

PDF下载: PDF下载
内容摘要

本发明公开了一种基于UDP统计指印混合模型的VoIP流量检测方法,用于解决现有的方法对VoIP流量检测精确度差的技术问题。技术方案是首先解析PCAP包文件并组装UDP流,再对组装后的UDP流进行标注,生成VoIP协议的UDP指印M,计算网络流与VoIP指印的相异度,生成训练集和测试集,采用训练集训练SVM分类器,采用测试集测试VoIP流量的精度。由于将UDP流的统计特征与网络流的统计指印相异度结合共同训练一个支持向量机分类模型,把基于分类阈值点的分类转换到基于多维特征的高维空间中的分类面的分类,综合运用包层次和流层次统计特征,降低了因网络不稳定造成的统计特征偏差对分类模型精确度的影响。检测结果表明,本发明对VoIP流量的检测精确度达到90%以上。

权利要求书

1.一种基于UDP统计指印混合模型的VoIP流量检测方法,其特征在于包括以下步骤:(a)解析PCAP包文件,并根据五元组{源IP、源端口、目的IP、目的端口以及传输层协议}完成UDP流的组装;(b)使用17-fileter对组装后的UDP流进行标注,标注数据分为VoIP协议流和非VoIP协议流两类;(c)使用(b)中标注好的VoIP协议流的包特征建立VoIP协议的UDP指印,用矩阵表示网络流 x → = s 1 . . . s r Δt 1 . . . Δt r ]]>式中,S是VoIP协议流中包的大小,Δt是VoIP协议流中包的到达时间间隔,r表示流中包含数据包的个数;若选取n个VoIP协议流来构造第i个数据包的指印,则得到如下矩阵F: F = ( s 1 , Δt 1 ) 1 ( s 1 , Δt 1 ) 2 . . . ( s 1 , Δt 1 ) n ( s 2 , Δt 2 ) 1 ( s 2 , Δt 2 ) 2 . . . ( s 2 , Δt 2 ) n . . . . . . . . . . . . ( s r , Δt r ) 1 ( s r , Δt r ) 2 . . . ( s r , Δt r ) n ]]>式中,n列代表n个网络流,第i行代表每个流的第i个数据包,矩阵F中的所有包用来构建VoIP的UDP指印,使用核函数对UDP指印进行高斯过滤以消除噪声:K(‖X-XC‖)=exp{-‖X-XC‖2/2*σ2}式中,XC为核函数中心,σ为函数的宽度参数;经过去噪和归一化处理后得到最终的协议指印M;(d)采用公式 S ( x → | ω t ) = | log 10 Π i = 1 r p ( x i | ω t ) / r | ]]>计算步骤(b)中标注好的VoIP协议流和非VoIP协议流与步骤(c)中生成的VoIP的UDP指印的相异度;式中,p(xi|ωt)表示第i个数据包属于类别ωt的条件概率,r表示从待检测数据流中挑选的包的个数,p(xi|ωt)通过步骤(c)中生成的协议指印M来计算:p(xi|ωt)=M(si,Δti)(e)将步骤(d)中得到的VoIP协议流和非VoIP协议流与VoIP协议的UDP指印的相异度作为一个新的流特征加入到步骤(a)中提取的相应的UDP流特征中,并生成一个由流特征构成的训练集Training Set;(f)使用步骤(e)中生成的训练集Training_Set训练一个SVM分类器;给定一组独立同分布的样本点,(x1,y1),…(xn,yn),xi∈Rm,yi∈{-1,+1}式中,xi是指样本向量,yi是指样本所属类别,正例用+1表示,反例用-1表示;SVM的目标是在高维空间上寻求一个最优分类面:wTx+b=0若某些样本不能被最优分类面正确分类,引入松弛变量ξ1,ξ2,…,ξn以及惩罚因子C,将最优分类面的求解转化为有约束的二次规划问题: min w , b , ξ 1 2 | | w | | 2 + C Σ i = 1 n ξ i ]]>满足:yi(w·xi+b)≥1-ξiξi≥0,i=1,…,n式中,常数C>0称为“惩罚因子”;为求解二次规划问题引入Lagrange算子αi,i=1,…,l,并定义 w ( α ) = Σ i = 1 l α i y i x i ]]>将二次规划问题转化为对偶问题: max W ( α ) = Σ i α i - 1 2 w ( α ) · w ( α ) ]]>满足 α i ≥ 0 , Σ i α i y i = 0 ]]>最终求得分类判别函数为: f ( x ) = sgn ( Σ i = 1 n α i y i ( x i · x ) + b ) ]]>使用第5步中生成的Test_Set来测试分类模型的分类精确度。(g)使用步骤(e)中生成的训练集Training Set训练一个支持向量机分类模型,实现对VoIP流量的检测。

说明书

基于UDP统计指印混合模型的VoIP流量检测方法

技术领域

本发明涉及一种VoIP流量检测方法,特别是涉及一种基于UDP统计指印混合模
型的VoIP流量检测方法。

背景技术

Voice over Internet Protocol(以下简称VoIP)技术是一种以IP电话为主,并推出
相应的增值业务的技术。与传统的语音业务相比,VoIP能在同样带宽条件下使通话数
量成倍增加,可以实现低成本的语音传送、传真等传统电信业务。应用较为广泛的VoIP
技术主要有Skype和QQ语音等,在网络带宽中占有一定比例,VoIP流量的精确检测
有助于提高网络服务质量,提升网络管理和控制的水平,并有助于维护网络安全。

文献1“SalmanA.Baset,Henning Schulzrinne.An Analysis of the Skype Peer-to-Peer 
Internet Telephony Protocol.IEEE Infocom’06,Barcelona,Spain,Apr.2006”对Skype协议
进行了详细分析,发现Skype协议使用动态端口而且负载部分完全加密,传统的基于
端口和DPI(Deep Packet Inspection)的协议识别方法已基本失效。

文献2“徐鹏,刘琼,林森.基于支持向量机的Internet流量分类研究[J].计算机研究与
发展,2009,46(3):407-414”公开了一种基于SVM(Support Vector Machine)的流量分类方
法,能有效降低冗余属性的干扰,有很好的分类准确率和稳定性,但目前这方面的研
究并未考虑VoIP流量的识别。

文献3“Manuel Crotti,Maurizio Dusi.Traffic Classification through Simple Statistical 
Fingerprinting,ACM SIGCOMM Computer Communication Review,Vol.37,No.1,pp.
5-16,Jan.2007”使用统计指印方法实现对HTTP、POP3、SMTP等常用协议的识别,该
方法基于TCP流的前四个包的统计特征建立相应的统计指印,并通过计算TCP流的
相异度来判定流的协议类别,但文献中并未研究UDP指印的构造和应用。

文献4“D.Bonfiglio,M.Mellia,M.Meo.Revealing Skype Traffic:When Randomness 
Plays with You[C]//Proceedings of 2007ACM SIGCOMM Computer Communication 
Review,New York,USA:ACM,2007:37-48”使用卡方检验和朴素贝叶斯的方法实现对
Skype协议流量的识别,这也是目前在Skype流量识别方面最有效的方法,但该方法
是根据Skype协议的编码方式和包头特征提出的,只能识别特定版本的Skype协议流
量,无法识别QQ语音、MSN语音等其它VoIP流量,有一定的局限性。

发明内容

为了克服现有的方法对VoIP流量检测精确度差的不足,本发明提供一种基于UDP
统计指印混合模型的VoIP流量检测方法。该方法将UDP流的统计特征与网络流的统
计指印相异度结合共同训练一个支持向量机分类模型,把基于分类阈值点的分类转换
到基于多维特征的高维空间中的分类面的分类,综合运用包层次和流层次统计特征,
可以降低因网络不稳定造成的统计特征偏差对分类模型精确度的影响,提高对VoIP
流量检测的精确度。

本发明解决其技术问题所采用的技术方案是:一种基于UDP统计指印混合模型
的VoIP流量检测方法,其特点是包括以下步骤:

(a)解析PCAP包文件,并根据五元组{源IP、源端口、目的IP、目的端口以及传
输层协议}完成UDP流的组装。

(b)使用17-fileter对组装后的UDP流进行标注,标注数据分为VoIP协议流和非VoIP
协议流两类。

(c)使用(b)中标注好的VoIP协议流的包特征建立VoIP协议的UDP指印,用矩
阵表示网络流

x = s 1 . . . s r Δt 1 . . . Δt r ]]>

式中,s是VoIP协议流中包的大小,Δt是VoIP协议流中包的到达时间间隔,r表示流
中包含数据包的个数;若选取n个VoIP协议流来构造第i个数据包的指印,则得到如下
矩阵F:

F = ( s 1 , Δt 1 ) 1 ( s 1 , Δt 1 ) 2 . . . ( s 1 , Δt 1 ) n ( s 2 , Δt 2 ) 1 ( s 2 , Δt 2 ) 2 . . . ( s 2 , Δt 2 ) n . . . . . . . . . . . . ( s r , Δt r ) 1 ( s r , Δt r ) 2 . . . ( s r , Δt r ) n ]]>

式中,n列代表n个网络流,第i行代表每个流的第i个数据包,矩阵F中的所有包用
来构建VoIP的UDP指印,使用核函数对UDP指印进行高斯过滤以消除噪声:

K(‖X-XC‖)=exp{-‖X-XC‖2/2*σ2}

式中,XC为核函数中心,σ为函数的宽度参数;经过去噪和归一化处理后得到最终的
协议指印M。

(d)采用公式

S ( x | ω t ) = | log 10 Π i = 1 r p ( x i | ω t ) / r | ]]>

计算步骤(b)中标注好的VoIP协议流和非VoIP协议流与步骤(c)中生成的VoIP的UDP
指印的相异度;式中,p(xi|ωt)表示第i个数据包属于类别ωt的条件概率,r表示从待检
测数据流中挑选的包的个数,p(xi|ωt)通过步骤(c)中生成的协议指印M来计算:

p(xi|ωt)=M(si,Δti)

(e)将步骤(d)中得到的VoIP协议流和非VoIP协议流与VoIP协议的UDP指印的
相异度作为一个新的流特征加入到步骤(a)中提取的相应的UDP流特征中,并生成一
个由流特征构成的训练集Training Set。

(f)使用步骤(e)中生成的训练集Training_Set训练一个SVM分类器;

给定一组独立同分布的样本点,

(x1,y1),…(xn,yn),xi∈Rm,yi∈{-1,+1}

式中,xi是指样本向量,yi是指样本所属类别,正例用+1表示,反例用-1表示。

SVM的目标是在高维空间上寻求一个最优分类面:

wTx+b=0

若某些样本不能被最优分类面正确分类,引入松弛变量ξ1,ξ2,…,ξn以及惩罚因子C,将
最优分类面的求解转化为有约束的二次规划问题:

min w , b , ξ 1 2 | | w | | 2 + C Σ i = 1 n ξ i ]]>

满足:yi(w·xi+b)≥1-ξi

ξi≥0,i=1,…,n

式中,常数C>0称为“惩罚因子”;

为求解二次规划问题引入Lagrange算子αi,i=1,…,l,并定义

w ( α ) = Σ i = 1 l α i y i x i ]]>

将二次规划问题转化为对偶问题:

max W ( α ) = Σ i α i - 1 2 w ( α ) · w ( α ) ]]>

满足 α i 0 , Σ i α i y i = 0 ]]>

最终求得分类判别函数为:

f ( x ) = sgn ( Σ i = 1 n α i y i ( x i · x ) + b ) ]]>

使用第5步中生成的Test_Set来测试分类模型的分类精确度。

(g)使用步骤(e)中生成的训练集Training Set训练一个支持向量机分类模型,
实现对VoIP流量的检测。

本发明的有益效果是:由于将UDP流的统计特征与网络流的统计指印相异度结
合共同训练一个支持向量机分类模型,把基于分类阈值点的分类转换到基于多维特征
的高维空间中的分类面的分类,综合运用包层次和流层次统计特征,降低了因网络不
稳定造成的统计特征偏差对分类模型精确度的影响。检测结果表明,本发明对VoIP
流量的检测精确度达到90%以上。

下面结合附图实施例对本发明作详细说明。

附图说明

图1是本发明基于UDP统计指印混合模型的VoIP流量检测方法的流程图。

具体实施方式

1.解析PCAP包文件并组装UDP流。

解析PCAP包文件(一种网络流量采集后的保存类型),并根据五元组{源IP,源端
口,目的IP,目的端口,传输层协议}完成UDP流的组装。

首先根据五元组{源IP,源端口,目的IP,目的端口,传输层协议}完成UDP流的组
装,然后挑选流长度大于10个包的流并以流为单位分别提取流的统计特征和流中各个
包的特征。包特征的选取主要根据建立UDP指印的需要,选取流的前10个包的包大小
和到达时间间隔。流特征的选取参照文献“LI Wei,CANINI M,MOORE A W.Efficient 
Application Identification and the Temporal and Spatial Stability of Classification 
Schema[J].Computer Networks,2009,53(6):790-809”中给出的UDP流统计特征。

2.挑选流并提取特征。

挑选流长度大于10个包的流并以流为单位分别提取流的统计特征和流中各个包的
包特征。

使用17-fileter对重组后的网络流进行标注,标注数据分为VoIP协议流和非VoIP协议
流两类。

3.生成VoIP协议的UDP指印。

使用步骤2中标注好的VoIP协议流的包特征建立VoIP协议流的UDP指印,假设VoIP
协议流中包的大小为S,包的到达时间间隔为Δt。可以用一个矩阵来表示网络流

x = s 1 . . . s r Δt 1 . . . Δt r - - - ( 1 ) ]]>

式中,r表示流中包含r个数据包,若选取n个流来构造第i个数据包的指印,则得
到如下矩阵F:

F = ( s 1 , Δt 1 ) 1 ( s 1 , Δt 1 ) 2 . . . ( s 1 , Δt 1 ) n ( s 2 , Δt 2 ) 1 ( s 2 , Δt 2 ) 2 . . . ( s 2 , Δt 2 ) n . . . . . . . . . . . . ( s r , Δt r ) 1 ( s r , Δt r ) 2 . . . ( s r , Δt r ) n - - - ( 2 ) ]]>

式中,每列代表一个网络流,共有n列代表n个网络流,第i行代表每个流的第i个数据
包,矩阵F中的所有包用来构建VoIP的UDP指印。

因为同一协议下的包大小和时间间隔存在一定的规律,所有的点会落在一个相对
稳定的区域,在同一点上落的点较多时,这个点上的灰度值会比较高。在网络中存在
丢包和拥塞等情况,统计指印通常存在一定量的噪声,使用核函数对指印进行高斯过
滤可以有效的消除噪声,核函数如下所示:

K(‖X-XC‖)=exp{-‖X-XC‖2/2*σ2}    (3)

式中,XC为核函数中心,σ为函数的宽度参数,控制了函数的径向作用范围。经过去
噪和归一化处理后得到最终的VoIP协议的指印M。

4.计算网络流与VoIP指印的相异度。

计算所有的VoIP协议流和非VoIP协议流与第3步中生成的VoIP的协议指印M的相异
度,计算公式如下:

S ( x | ω t ) = | log 10 Π i = 1 r p ( x i | ω t ) / r | - - - ( 4 ) ]]>

其中,p(xi|ωt)表示第i个数据包属于类别ωt的条件概率,r表示从待检测数据流中挑选
的包的个数,p(xi|ωt)通过步骤3中生成的协议指印M来计算:

p(xi|ωt)=M(si,Δti)    (5)

对于p(xi|ωt)为空值的情况,我们计算的时候用一个很小的数10-300来代替它。

5.生成训练集和测试集。

将第4步中计算出来的网络流与VoIP协议的UDP指印的相异度作为一个新的流特征
加入到第2步中提取的相应的UDP流特征中,并生成一个由流特征构成的训练集
Training_Set和测试集Test_Set。

6.训练SVM分类器。

使用第5步中生成的训练集Training_Set训练一个SVM分类器,SVM的分类原理
如下:

给定一组独立同分布的样本点,

(x1,y1),…(xn,yn),xi∈Rm,yi∈{-1,,+1}

其中xi是指样本向量,yi是指样本所属类别,正例用+1表示,反例用-1表示。

SVM的目标是在高维空间上寻求一个最优分类面:

wTx+b=0    (6)

最优分类面不仅能将两类样本分开,而且要使得两类样本到最优分类面的距离最大。
考虑一些样本可能不能被分类面正确分类,引入松弛变量ξ1,ξ2,…,ξn以及惩罚因子C,
将最优分类面的求解转化为有约束的二次规划问题:

min w , b , ξ 1 2 | | w | | 2 + C Σ i = 1 n ξ i - - - ( 7 ) ]]>

满足:yi(w·xi+b)≥1-ξi    (8)

ξi≥0,i=1,…,n

其中,常数C>0称为“惩罚因子”,它在分类器的复杂度和经验风险之间进行权衡。

为求解二次规划问题引入Lagrange算子αi,i=1,…,l,并定义

w ( α ) = Σ i = 1 l α i y i x i - - - ( 9 ) ]]>

将二次规划问题转化为对偶问题:

max W ( α ) = Σ i α i - 1 2 w ( α ) · w ( α ) - - - ( 10 ) ]]>

满足 α i 0 , Σ i α i y i = 0 - - - ( 11 ) ]]>

最终求得分类判别函数为:

f ( x ) = sgn ( Σ i = 1 n α i y i ( x i · x ) + b ) - - - ( 12 ) ]]>

7.VoIP流量检测。

使用第5步中生成的训练集Training Set训练一个支持向量机分类模型,实现对VoIP
流量的检测。

总之,本发明将UDP流与VoIP指印的相异度作为一个新的流特征并与UDP流的
其它统计特征结合,共同训练一个支持向量机分类模型,综合运用包层次和流层次统
计特征,降低了因网络不稳定造成的统计特征偏差对分类模型精确度的影响。检测结
果表明,本发明对VoIP流量的检测精度可以达到90%以上。

基于UDP统计指印混合模型的VOIP流量检测方法.pdf_第1页
第1页 / 共9页
基于UDP统计指印混合模型的VOIP流量检测方法.pdf_第2页
第2页 / 共9页
基于UDP统计指印混合模型的VOIP流量检测方法.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《基于UDP统计指印混合模型的VOIP流量检测方法.pdf》由会员分享,可在线阅读,更多相关《基于UDP统计指印混合模型的VOIP流量检测方法.pdf(9页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102821217 A (43)申请公布日 2012.12.12 CN 102821217 A *CN102821217A* (21)申请号 201210264260.0 (22)申请日 2012.07.29 H04M 7/00(2006.01) (71)申请人 西北工业大学 地址 710072 陕西省西安市友谊西路 127 号 (72)发明人 蔡皖东 丁要军 张玉冲 (74)专利代理机构 西北工业大学专利中心 61204 代理人 王鲜凯 (54) 发明名称 基于UDP统计指印混合模型的VoIP流量检测 方法 (57) 摘要 本发明公开了一种基于 UDP 统计指印混合。

2、模 型的 VoIP 流量检测方法, 用于解决现有的方法对 VoIP 流量检测精确度差的技术问题。技术方案是 首先解析 PCAP 包文件并组装 UDP 流, 再对组装后 的 UDP 流进行标注, 生成 VoIP 协议的 UDP 指印 M, 计算网络流与 VoIP 指印的相异度, 生成训练集和 测试集, 采用训练集训练 SVM 分类器, 采用测试集 测试 VoIP 流量的精度。由于将 UDP 流的统计特 征与网络流的统计指印相异度结合共同训练一个 支持向量机分类模型, 把基于分类阈值点的分类 转换到基于多维特征的高维空间中的分类面的分 类, 综合运用包层次和流层次统计特征, 降低了因 网络不稳定造。

3、成的统计特征偏差对分类模型精确 度的影响。检测结果表明, 本发明对 VoIP 流量的 检测精确度达到 90以上。 (51)Int.Cl. 权利要求书 2 页 说明书 5 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 5 页 附图 1 页 1/2 页 2 1. 一种基于 UDP 统计指印混合模型的 VoIP 流量检测方法, 其特征在于包括以下步骤 : (a) 解析 PCAP 包文件, 并根据五元组 源 IP、 源端口、 目的 IP、 目的端口以及传输层协 议 完成 UDP 流的组装 ; (b) 使用17-fileter对组装后的UDP流。

4、进行标注, 标注数据分为VoIP协议流和非VoIP 协议流两类 ; (c) 使用 (b) 中标注好的 VoIP 协议流的包特征建立 VoIP 协议的 UDP 指印, 用矩阵表示 网络流 式中, S 是 VoIP 协议流中包的大小, t 是 VoIP 协议流中包的到达时间间隔, r 表示流 中包含数据包的个数 ; 若选取 n 个 VoIP 协议流来构造第 i 个数据包的指印, 则得到如下 矩阵 F : 式中, n 列代表 n 个网络流, 第 i 行代表每个流的第 i 个数据包, 矩阵 F 中的所有包用 来构建 VoIP 的 UDP 指印, 使用核函数对 UDP 指印进行高斯过滤以消除噪声 : K。

5、(X-XC)=exp-X-XC2/2*2 式中, XC为核函数中心, 为函数的宽度参数 ; 经过去噪和归一化处理后得到最终的协 议指印 M ; (d) 采用公式 计算步骤 (b) 中标注好的 VoIP 协议流和非 VoIP 协议流与步骤 (c) 中生成的 VoIP 的 UDP 指印的相异度 ; 式中, p(xi|t) 表示第 i 个数据包属于类别 t的条件概率, r 表示从 待检测数据流中挑选的包的个数, p(xi|t) 通过步骤 (c) 中生成的协议指印 M 来计算 : p(xi|t)=M(si, ti) (e) 将步骤 (d) 中得到的 VoIP 协议流和非 VoIP 协议流与 VoIP 。

6、协议的 UDP 指印的相异 度作为一个新的流特征加入到步骤 (a) 中提取的相应的 UDP 流特征中, 并生成一个由流特 征构成的训练集 Training Set ; (f) 使用步骤 (e) 中生成的训练集 Training_Set 训练一个 SVM 分类器 ; 给定一组独立同分布的样本点, (x1, y1),(xn, yn), xi Rm, yi -1, +1 式中, xi是指样本向量, yi是指样本所属类别, 正例用 +1 表示, 反例用 -1 表示 ; SVM 的目标是在高维空间上寻求一个最优分类面 : wTx+b=0 若某些样本不能被最优分类面正确分类, 引入松弛变量 1, 2, n。

7、以及惩罚因子 权 利 要 求 书 CN 102821217 A 2 2/2 页 3 C, 将最优分类面的求解转化为有约束的二次规划问题 : 满足 : yi(wxi+b) 1-i i 0, i 1, n 式中, 常数 C0 称为 “惩罚因子” ; 为求解二次规划问题引入 Lagrange 算子 i, i 1, l, 并定义 将二次规划问题转化为对偶问题 : 满足 最终求得分类判别函数为 : 使用第 5 步中生成的 Test_Set 来测试分类模型的分类精确度。 (g) 使用步骤 (e) 中生成的训练集 Training Set 训练一个支持向量机分类模型, 实现 对 VoIP 流量的检测。 权 。

8、利 要 求 书 CN 102821217 A 3 1/5 页 4 基于 UDP 统计指印混合模型的 VoIP 流量检测方法 技术领域 0001 本发明涉及一种VoIP流量检测方法, 特别是涉及一种基于UDP统计指印混合模型 的 VoIP 流量检测方法。 背景技术 0002 Voice over Internet Protocol(以下简称 VoIP) 技术是一种以 IP 电话为主, 并 推出相应的增值业务的技术。与传统的语音业务相比, VoIP 能在同样带宽条件下使通话数 量成倍增加, 可以实现低成本的语音传送、 传真等传统电信业务。应用较为广泛的 VoIP 技 术主要有 Skype 和 QQ。

9、 语音等, 在网络带宽中占有一定比例, VoIP 流量的精确检测有助于提 高网络服务质量, 提升网络管理和控制的水平, 并有助于维护网络安全。 0003 文 献 1“SalmanA.Baset, Henning Schulzrinne.An Analysis of the Skype Peer-to-Peer Internet Telephony Protocol.IEEE Infocom 06, Barcelona, Spain, Apr.2006” 对Skype协议进行了详细分析, 发现Skype协议使用动态端口而且负载部分完全 加密, 传统的基于端口和 DPI(Deep Packet I。

10、nspection) 的协议识别方法已基本失效。 0004 文献 2“徐鹏, 刘琼, 林森 . 基于支持向量机的 Internet 流量分类研究 J. 计算 机研究与发展 ,2009, 46(3) : 407-414” 公开了一种基于 SVM(Support Vector Machine) 的 流量分类方法, 能有效降低冗余属性的干扰, 有很好的分类准确率和稳定性, 但目前这方面 的研究并未考虑 VoIP 流量的识别。 0005 文献 3“Manuel Crotti, Maurizio Dusi.Traffic Classification through Simple Statistical。

11、 Fingerprinting, ACM SIGCOMM Computer Communication Review, Vol.37, No.1, pp.5-16, Jan.2007” 使用统计指印方法实现对 HTTP、 POP3、 SMTP 等常用协议 的识别, 该方法基于TCP流的前四个包的统计特征建立相应的统计指印, 并通过计算TCP流 的相异度来判定流的协议类别, 但文献中并未研究 UDP 指印的构造和应用。 0006 文献 4“D.Bonfiglio, M.Mellia, M.Meo.Revealing Skype Traffic : When Randomness Plays wi。

12、th YouC/Proceedings of 2007ACM SIGCOMM Computer Communication Review, New York, USA : ACM, 2007 : 37-48” 使用卡方检验和朴素贝叶斯的方 法实现对Skype协议流量的识别, 这也是目前在Skype流量识别方面最有效的方法, 但该方 法是根据Skype协议的编码方式和包头特征提出的, 只能识别特定版本的Skype协议流量, 无法识别 QQ 语音、 MSN 语音等其它 VoIP 流量, 有一定的局限性。 发明内容 0007 为了克服现有的方法对 VoIP 流量检测精确度差的不足, 本发明提供一种基。

13、于 UDP 统计指印混合模型的 VoIP 流量检测方法。该方法将 UDP 流的统计特征与网络流的统计指 印相异度结合共同训练一个支持向量机分类模型, 把基于分类阈值点的分类转换到基于多 维特征的高维空间中的分类面的分类, 综合运用包层次和流层次统计特征, 可以降低因网 络不稳定造成的统计特征偏差对分类模型精确度的影响, 提高对 VoIP 流量检测的精确度。 说 明 书 CN 102821217 A 4 2/5 页 5 0008 本发明解决其技术问题所采用的技术方案是 : 一种基于 UDP 统计指印混合模型的 VoIP 流量检测方法, 其特点是包括以下步骤 : 0009 (a) 解析 PCAP 。

14、包文件, 并根据五元组 源 IP、 源端口、 目的 IP、 目的端口以及传输 层协议 完成 UDP 流的组装。 0010 (b) 使用 17-fileter 对组装后的 UDP 流进行标注, 标注数据分为 VoIP 协议流和非 VoIP 协议流两类。 0011 (c) 使用 (b) 中标注好的 VoIP 协议流的包特征建立 VoIP 协议的 UDP 指印, 用矩阵 表示网络流 0012 0013 式中, s 是 VoIP 协议流中包的大小, t 是 VoIP 协议流中包的到达时间间隔, r 表 示流中包含数据包的个数 ; 若选取 n 个 VoIP 协议流来构造第 i 个数据包的指印, 则得到 。

15、如下矩阵 F : 0014 0015 式中, n 列代表 n 个网络流, 第 i 行代表每个流的第 i 个数据包, 矩阵 F 中的所有 包用来构建 VoIP 的 UDP 指印, 使用核函数对 UDP 指印进行高斯过滤以消除噪声 : 0016 K(X-XC)=exp-X-XC2/2*2 0017 式中, XC为核函数中心, 为函数的宽度参数 ; 经过去噪和归一化处理后得到最终 的协议指印 M。 0018 (d) 采用公式 0019 0020 计算步骤 (b) 中标注好的 VoIP 协议流和非 VoIP 协议流与步骤 (c) 中生成的 VoIP 的 UDP 指印的相异度 ; 式中, p(xi|t)。

16、 表示第 i 个数据包属于类别 t的条件概率, r 表示 从待检测数据流中挑选的包的个数, p(xi|t) 通过步骤 (c) 中生成的协议指印 M 来计算 : 0021 p(xi|t)=M(si, ti) 0022 (e) 将步骤 (d) 中得到的 VoIP 协议流和非 VoIP 协议流与 VoIP 协议的 UDP 指印的 相异度作为一个新的流特征加入到步骤 (a) 中提取的相应的 UDP 流特征中, 并生成一个由 流特征构成的训练集 Training Set。 0023 (f) 使用步骤 (e) 中生成的训练集 Training_Set 训练一个 SVM 分类器 ; 0024 给定一组独立同。

17、分布的样本点, 0025 (x1, y1),(xn, yn), xi Rm, yi -1, +1 0026 式中, xi是指样本向量, yi是指样本所属类别, 正例用 +1 表示, 反例用 -1 表示。 0027 SVM 的目标是在高维空间上寻求一个最优分类面 : 0028 wTx+b=0 说 明 书 CN 102821217 A 5 3/5 页 6 0029 若某些样本不能被最优分类面正确分类, 引入松弛变量 1, 2, n以及惩罚 因子 C, 将最优分类面的求解转化为有约束的二次规划问题 : 0030 0031 满足 : yi(wxi+b) 1-i 0032 i 0, i 1, n 003。

18、3 式中, 常数 C0 称为 “惩罚因子” ; 0034 为求解二次规划问题引入 Lagrange 算子 i, i 1, l, 并定义 0035 0036 将二次规划问题转化为对偶问题 : 0037 0038 满足 0039 最终求得分类判别函数为 : 0040 0041 使用第 5 步中生成的 Test_Set 来测试分类模型的分类精确度。 0042 (g) 使用步骤 (e) 中生成的训练集 Training Set 训练一个支持向量机分类模型, 实现对 VoIP 流量的检测。 0043 本发明的有益效果是 : 由于将 UDP 流的统计特征与网络流的统计指印相异度结合 共同训练一个支持向量机。

19、分类模型, 把基于分类阈值点的分类转换到基于多维特征的高维 空间中的分类面的分类, 综合运用包层次和流层次统计特征, 降低了因网络不稳定造成的 统计特征偏差对分类模型精确度的影响。检测结果表明, 本发明对 VoIP 流量的检测精确度 达到 90以上。 0044 下面结合附图实施例对本发明作详细说明。 附图说明 0045 图 1 是本发明基于 UDP 统计指印混合模型的 VoIP 流量检测方法的流程图。 具体实施方式 0046 1. 解析 PCAP 包文件并组装 UDP 流。 0047 解析 PCAP 包文件 (一种网络流量采集后的保存类型) , 并根据五元组 源 IP, 源端 口, 目的 IP。

20、, 目的端口, 传输层协议 完成 UDP 流的组装。 0048 首先根据五元组源IP, 源端口, 目的IP, 目的端口, 传输层协议完成UDP流的组 装, 然后挑选流长度大于 10 个包的流并以流为单位分别提取流的统计特征和流中各个包 的特征。包特征的选取主要根据建立 UDP 指印的需要, 选取流的前 10 个包的包大小和到达 说 明 书 CN 102821217 A 6 4/5 页 7 时间间隔。 流特征的选取参照文献 “LI Wei, CANINI M, MOORE A W.Efficient Application Identification and the Temporal and 。

21、Spatial Stability of Classification SchemaJ.Computer Networks, 2009,53(6) : 790-809” 中给出的 UDP 流统计特征。 0049 2. 挑选流并提取特征。 0050 挑选流长度大于 10 个包的流并以流为单位分别提取流的统计特征和流中各个包 的包特征。 0051 使用 17-fileter 对重组后的网络流进行标注, 标注数据分为 VoIP 协议流和非 VoIP 协议流两类。 0052 3. 生成 VoIP 协议的 UDP 指印。 0053 使用步骤 2 中标注好的 VoIP 协议流的包特征建立 VoIP 协议流。

22、的 UDP 指印, 假设 VoIP 协议流中包的大小为 S, 包的到达时间间隔为 t。可以用一个矩阵来表示网络流 0054 0055 式中, r表示流中包含r个数据包, 若选取n个流来构造第i个数据包的指印, 则 得到如下矩阵 F : 0056 0057 式中, 每列代表一个网络流, 共有 n 列代表 n 个网络流, 第 i 行代表每个流的第 i 个数据包, 矩阵 F 中的所有包用来构建 VoIP 的 UDP 指印。 0058 因为同一协议下的包大小和时间间隔存在一定的规律, 所有的点会落在一个相对 稳定的区域, 在同一点上落的点较多时, 这个点上的灰度值会比较高。 在网络中存在丢包和 拥塞等。

23、情况, 统计指印通常存在一定量的噪声, 使用核函数对指印进行高斯过滤可以有效 的消除噪声, 核函数如下所示 : 0059 K(X-XC)=exp-X-XC2/2*2 (3) 0060 式中, XC为核函数中心, 为函数的宽度参数, 控制了函数的径向作用范围。经过 去噪和归一化处理后得到最终的 VoIP 协议的指印 M。 0061 4. 计算网络流与 VoIP 指印的相异度。 0062 计算所有的 VoIP 协议流和非 VoIP 协议流与第 3 步中生成的 VoIP 的协议指印 M 的相异度, 计算公式如下 : 0063 0064 其中, p(xi|t) 表示第 i 个数据包属于类别 t的条件概。

24、率, r 表示从待检测数据 流中挑选的包的个数, p(xi|t) 通过步骤 3 中生成的协议指印 M 来计算 : 0065 p(xi|t)=M(si, ti) (5) 0066 对于 p(xi|t) 为空值的情况, 我们计算的时候用一个很小的数 10-300来代替它。 说 明 书 CN 102821217 A 7 5/5 页 8 0067 5. 生成训练集和测试集。 0068 将第 4 步中计算出来的网络流与 VoIP 协议的 UDP 指印的相异度作为一个新的 流特征加入到第 2 步中提取的相应的 UDP 流特征中, 并生成一个由流特征构成的训练集 Training_Set 和测试集 Test。

25、_Set。 0069 6. 训练 SVM 分类器。 0070 使用第 5 步中生成的训练集 Training_Set 训练一个 SVM 分类器, SVM 的分类原理 如下 : 0071 给定一组独立同分布的样本点, 0072 (x1, y1),(xn, yn), xi Rm, yi -1, , +1 0073 其中 xi是指样本向量, yi是指样本所属类别, 正例用 +1 表示, 反例用 -1 表示。 0074 SVM 的目标是在高维空间上寻求一个最优分类面 : 0075 wTx+b=0 (6) 0076 最优分类面不仅能将两类样本分开, 而且要使得两类样本到最优分类面的距离最 大。考虑一些样。

26、本可能不能被分类面正确分类, 引入松弛变量 1, 2, n以及惩罚因 子 C, 将最优分类面的求解转化为有约束的二次规划问题 : 0077 0078 满足 : yi(wxi+b) 1-i (8) 0079 i 0, i 1, n 0080 其中, 常数 C0 称为 “惩罚因子” , 它在分类器的复杂度和经验风险之间进行权衡。 0081 为求解二次规划问题引入 Lagrange 算子 i, i 1, l, 并定义 0082 0083 将二次规划问题转化为对偶问题 : 0084 0085 满足 0086 最终求得分类判别函数为 : 0087 0088 7.VoIP 流量检测。 0089 使用第5步中生成的训练集Training Set训练一个支持向量机分类模型, 实现对 VoIP 流量的检测。 0090 总之, 本发明将 UDP 流与 VoIP 指印的相异度作为一个新的流特征并与 UDP 流的其 它统计特征结合, 共同训练一个支持向量机分类模型, 综合运用包层次和流层次统计特征, 降低了因网络不稳定造成的统计特征偏差对分类模型精确度的影响。检测结果表明, 本发 明对 VoIP 流量的检测精度可以达到 90以上。 说 明 书 CN 102821217 A 8 1/1 页 9 图 1 说 明 书 附 图 CN 102821217 A 9 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1