一种基于集成学习和半监督SVM的计算机入侵检测方法.pdf

摘要
申请专利号：	CN201410748171.2	申请日：	2014.12.09
公开号：	CN104598813A	公开日：	2015.05.06
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 21/55申请日:20141209\|\|\|公开
IPC分类号：	G06F21/55(2013.01)I; G06K9/62	主分类号：	G06F21/55
申请人：	西安电子科技大学
发明人：	王爽; 焦李成; 程伟; 熊涛; 刘红英; 马文萍; 马晶晶
地址：	710071陕西省西安市太白南路2号
优先权：
专利代理机构：	北京科亿知识产权代理事务所(普通合伙)11350	代理人：	汤东凤
PDF下载：	PDF下载

内容摘要

本发明公开了一种基于集成学习和半监督SVM的计算机入侵检测方法，主要用于解决现有技术在处理计算机入侵检测问题时，在标记样本非常有限且数据集严重不平衡的情况下，对攻击样本的分类准确率较低的问题。其实现步骤为：(1)归一化入侵检测数据集；(2)初始有标记样本集和未标记样本集；(3)训练SVM分类器，对未标记样本预测得到预测标记；(4)训练半监督SVM分类器，迭代更新未标记样本的标记；(5)移除支持向量对应的样本数据；(6)使用T个分类模型预测未标记样本的标记；(7)将T组标记输入基于邓恩指数的集成分类器中，得到最终检测结果并输出。在标记样本非常少的数据上，本发明提高了攻击样本的检测精度，可用于训练样本非常少的计算机入侵检测。

权利要求书

权利要求书
1.  一种基于集成学习和半监督SVM的计算机入侵检测方法，包括如下步骤：
步骤1，将一个包括正常样本和攻击样本的计算机入侵检测数据集中的所有数据归一化到区间[0,1]；
步骤2，从该入侵检测数据集中选取标记样本集和未标记样本集；
统计该入侵检测数据集中正常样本的数量和攻击样本的数量，分别将正常样本和攻击样本记为多数类numpos和少数类numneg，然后从这两类中随机选取一部分作为标记样本集其中xi是标记样本，yi是标记样本xi的标记，用于标识标记样本xi是攻击样本还是正常样本，i是选取的标记样本，l是标记样本的个数；将剩余的数据作为未标记样本集其中xj是未标记样本，j是选取的未标记样本，u是未标记样本的个数；
步骤3，使用标记样本集训练SVM分类器，使用SVM分类器对未标记样本集进行预测，得到未标记样本集的预测标记集其中yj是未标记样本xj的预测标记；
步骤4，使用标记样本集、未标记样本集及预测标记集训练半监督SVM分类器，使用半监督SVM分类器迭代更新未标记样本的预测标记集输出并记录此时的分类模型modelt，其中，t为步骤4当前已经执行的次数，modelt表示步骤4执行第t次时得到的分类模型；
步骤5，提取半监督SVM分类器输出的分类模型modelt中的负类支持向量对应的样本，在标记样本集和未标记样本集中移除与负类支持向量对应的样本；
步骤6，如果半监督SVM分类器输出的分类模型modelt中的负类支持向量不为空，则返回执行步骤3，否则执行步骤7；
步骤7，设步骤4总共执行了T次，则得到T个分类模型使用对未标记样本集进行预测，得到T组未标记样本集的预测标记集其中t表示选取的分类模型，j表示选取的未标记样本，u表示未标记样本的个数，yj,t表示第t组未标记样本集中第j个样本的预测标记；
步骤8，将标记样本集未标记样本集及T组未标记样本集的预测标记集输入基于邓恩指数的集成学习分类器中，得到未标记样本集的最终分类结果根据最终分类结果确定入侵检测数据集中的正常样本和攻击样本。

2.  根据权利要求1所述的计算机入侵检测方法，其中，使用标记样本集训练SVM 分类器，使用SVM分类器对未标记样本集进行预测，得到未标记样本集的预测标记集 { y j } j = 1 u , ]]>具体包括：
3a)首先利用标记样本集训练SVM分类器，SVM分类器通过把数据特征映射到高维空间，以最大化几何间隔为原则，寻找最优超平面；同时为了降低离群点对SVM分类器的影响，引入了松弛变量和惩罚因子放松约束条件，SVM分类器的优化函数为：
min ( 1 2 | | w | | 2 + C Σ i = 1 l ξ i ) s . t y i ( w · x i + b ) &GreaterEqual; 1 - ξ i ( i = 1,2 , . . . , l ) - - - ( 1 ) ]]>
其中xi是训练样本，w是SVM分类器得到的最优超平面的权值向量，b是偏置向量，C是惩罚因子，ξi是松弛变量；
3b)利用SVM分类器的决策函数对未标记样本集 { x j } j = 1 u ]]>进行预测，得到预测标记 { y j } j = 1 u = sgn ( w · x j * + b ) , ]]>其中sgn()是符号函数，是未标记样本。

3.  根据权利要求1所述的计算机入侵检测方法，其中，步骤4具体包括：
4a)设置迭代次数为200次，根据未标记样本集的预测标记通过优化 SVM分类器的目标函数求解{w,b}，然后固定此时的{w,b}，并用它对未标记样本集进行分类，求解出每个未标记样本的并按降序排列；
4b)按照顺序，更新前hp个未标记样本为少数类，倒数hn个未标记样本为多数类，中间样本遵循进行标记，记此时未标记样本集的标记为其中 h p = 1 2 ( 1 + β - α ) ( num pos + num neg ) ]]>为少数类样本数， h n = 1 2 ( 1 - β - α ) ( num pos + num neg ) ]]>为多数类样本数，α是一个常数，一般的取值为0.1；
4c)随机选择30％的样本返回更新前的标记，记此时未标记样本集的标记为
4d)判断未标记样本集的标记和是否相同或者迭代次数是否为200，如果或者迭代次数等于200次，则得到半监督SVM的分类模型modelt并保存，结束循环执行下一步，否则返回执行(4a)。

4.  根据权利要求1所述的计算机入侵检测方法，其中，步骤8包括：
8a)对于每组未标记样本集的预测标记，首先针对每个样本，找出跟它同类别的 K近邻样本集合和不同类别的K近邻样本集合，然后在这两个集合中分别加入对应类别的标记样本，组成一个聚类的集合；
8b)使用聚类的评价指标邓恩指数计算这种聚类方法的评价参数，具体的计算方法是：
DI ( R ) = min < d i , d j > &NotElement; R { | | d i , d j | | } max < d i , d j > &Element; R { | | d i , d j | | } - - - ( 2 ) ]]>
其中，di，dj表示聚类内任意两个样本，||di,dj||表示任意两个样本之间的距离，表示两个同类别样本之间的最大距离，表示不同类别样本之间的最小距离，即邓恩指数越大，表明聚类效果越好；
8c)重复执行步骤(8a)～(8b)，直至得到T组预测标记中每个标记的邓恩指数；
8d)将每个未标记样本的T个邓恩指数按降序排列，取前30％邓恩指数对应的预测标记，采用投票的策略得到未标记样本的最终分类结果，根据最终分类结果确定入侵检测数据集中的正常样本和攻击样本。

说明书

说明书一种基于集成学习和半监督SVM的计算机入侵检测方法
技术领域
本发明属于计算机入侵检测领域，是数据挖掘方法在计算机入侵检测领域的应用，具体的说是一种基于集成学习和半监督SVM的计算机入侵检测方法，可用于对计算机入侵进行检测。
背景技术
近年来，随着网络的普及与应用领域的逐渐扩展，网络安全与信息安全问题日渐突出。入侵检测技术是近年来出现的新型网络安全技术，目的是提供实时的入侵检测及采取相应的防护手段,如记录日志、断开网络连接等。扩展了系统管理员的安全管理能力(包括安全日志、监控、攻击识别及响应)，帮助计算机系统抵御攻击。它以探测与控制技术为本质，起着主动防御的作用，是网络安全中极其重要的部分。
日常使用计算机时，我们可以收集到很多正常入侵计算机的样本，例如访问的网页、聊天信息等，但是可收集的攻击样本却很少，类似于木马病毒信息等。对于这些样本信息，计算机系统都要对其进行识别，判断它们是否对计算机系统造成危害。所以计算机入侵检测的目的就是检测出这些攻击样本，对它们进行分析和解读，得到有用的信息帮助我们提高计算机的防御能力。通常大家把正常样本称为多数类，把攻击样本称为少数类，便于理解和记录。
计算机入侵检测技术的研究已经走过了二十多年的发展历史：1980年4月，James第一次详细阐述了计算机入侵检测的概念。他将计算机入侵尝试或威胁定义为：潜在的、有预谋的、未经授权的访问信息、操作信息，致使系统不可靠或无法使用的企图，并提出用审计追踪来监视入侵威胁。1987年，乔治敦大学的Denning和SRI/CSL的Peter提出了一个经典的入侵检测模型，首次将计算机入侵检测的概念作为一种计算机系统的安全防御措施提出；1990年，加州大学戴维斯分校的Heberlein等提出了新的概念：基于网络的入侵检测NSM，入侵检测被分为基于主机的和基于网络的两个基本类型，同时该系统第一次直接将网络流作为数据来源。
本质上，计算机入侵检测是一个模式识别和分类的问题，但入侵检测中需要分类的数据更加复杂，体现为多维，小样本和不可分性。近年来，国内外学者利用人工智能和机器学习的算法来解决传统入侵检测技术中存在的若干问题，主要包括数据挖掘、计算机免疫学、神经网络、支持向量机等，并且在原有技术的基础上进行了有效改进，使得机器学习成为当前入侵检测研究领域的一个热点。但是，当前的入侵检测系统仍存在以下不足：(1)由于入侵检测数据维度高，导致检测效率低；(2)对未知攻击无能为力，缺乏泛化能力，漏报率高：(3)攻击行为特征库不断更新，系统维护工作量大。
发明内容
本发明的目的在于针对现有技术的不足，提出一种基于集成学习和半监督SVM的计算机入侵检测方法，以提高检测结果的准确率和稳定性。
为实现上述目的，本发明包括如下步骤：
(1)将一个包括正常样本和攻击样本的计算机入侵检测数据集中的所有数据归一化到区间[0,1]；
(2)从该入侵检测数据集中选取标记样本集和未标记样本集；
统计该入侵检测数据集中正常样本的数量和攻击样本的数量，分别将正常样本和攻击样本记为多数类numpos和少数类numneg，然后从这两类中随机选取一部分作为标记样本集其中xi是标记样本，yi是标记样本xi的标记，用于标识标记样本xi是攻击样本还是正常样本，i是选取的标记样本，l是标记样本的个数；将剩余的数据作为未标记样本集其中xj是未标记样本，j是选取的未标记样本，u是未标记样本的个数；
(3)使用标记样本集训练SVM分类器，使用SVM分类器对未标记样本集进行预测，得到未标记样本集的预测标记集其中yj是未标记样本xj的预测标记；
(4)使用标记样本集、未标记样本集及预测标记集训练半监督SVM分类器，使用半监督SVM分类器迭代更新未标记样本的预测标记集输出并记录此时的分类模型modelt，其中，t为步骤4当前已经执行的次数，modelt表示步骤(4)执行第t次时得到的分类模型；
(5)提取半监督SVM分类器输出的分类模型modelt中的负类支持向量对应的样本，在标记样本集和未标记样本集中移除与负类支持向量对应的样本；
(6)如果半监督SVM分类器输出的分类模型modelt中的负类支持向量不为空，则返回执行步骤(3)，否则执行步骤(7)；
(7)设步骤(4)总共执行了T次，则得到T个分类模型使用对未标记样本集进行预测，得到T组未标记样本集的预测标记集其中t表示选取的分类模型，j表示选取的未标记样本，u表示未标记样本的个数，yj,t表示第t组未标记样本集中第j个样本的预测标记；
(8)将标记样本集未标记样本集及T组未标记样本集的预测标记集输入基于邓恩指数的集成学习分类器中，得到未标记样本集的最终分类结果根据最终分类结果确定入侵检测数据集中的正常样本和攻击样本。
本发明与现有的技术相比具有以下优点：
1.本发明综合考虑在实际应用中，采集到的入侵检测数据经常会出现标记样本很少，同时存在大量未标记样本的情况，通过采用半监督学习的方法，充分利用了所有正常样本的信息，避免了这部分信息的丢失；
2.本发明在计算机入侵检测的过程中，引入了重复欠采样半监督SVM支持向量的策略，让分类器的分类结果逐渐逼近真实的分类结果，有利于SVM对入侵检测数据进行分类；
3.本发明通过使用集成学习策略，提高了计算机入侵检测方法的稳定性；
4.本发明易实现并行化处理，并通过消除冗余数据，提高了模型的训练速度。
附图说明
图1是本发明的总流程图；
图2是本发明中参数k的设置对分类器的性能影响分析图；
具体实施方式
参照图1，本发明的具体实现步骤如下：
步骤1，将一个包括正常样本和攻击样本的计算机入侵检测数据集中的所有数据归一化到区间[0,1]；
步骤2，从该入侵检测数据集中选取标记样本集和未标记样本集；
统计该入侵检测数据集中正常样本的数量和攻击样本的数量，分别将正常样本和攻击样本记为多数类numpos和少数类numneg，然后从这两类中随机选取一部分作为标记样本集其中xi是标记样本，yi是标记样本xi的标记，用于标识标记样本xi是攻击样本还是正常样本，i是选取的标记样本，l是标记样本的个数；将剩余的数据作为未标记样本集其中xj是未标记样本，j是选取的未标记样本，u是未标记样本的个数；
步骤3，使用标记样本集训练SVM分类器，使用SVM分类器对未标记样本集进行预测，得到未标记样本集的预测标记集其中yj是未标记样本xj的预测标记；
3a)首先利用标记样本集训练SVM分类器，SVM分类器通过把数据特征映射到高维空间，以最大化几何间隔为原则，寻找最优超平面；同时为了降低离群点对SVM分类器的影响，引入了松弛变量和惩罚因子放松约束条件，SVM分类器的优化函数为：
min ( 1 2 | | w | | 2 + C Σ i = 1 l ξ i ) , s . t y i ( w · x i + b ) &GreaterEqual; 1 - ξ i ( i = 1,2 , . . . , l ) - - - ( 1 ) ]]>
其中xi是训练样本，w是SVM分类器得到的最优超平面的权值向量，b是偏置向量，C是惩罚因子，ξi是松弛变量；
3b)利用SVM分类器的决策函数对未标记样本集进行预测，得到预测标记其中sgn()是符号函数，是未标记样本；
步骤4，使用标记样本集、未标记样本集及预测标记集训练半监督SVM分类器，使用半监督SVM分类器迭代更新未标记样本的预测标记集输出并记录此时的分类模型modelt，其中，t为步骤4当前已经执行的次数，modelt表示步骤4执行第t次时得到的分类模型；
4a)设置迭代次数为200次，根据未标记样本集的预测标记通过优化SVM分类器的目标函数求解{w,b}，然后固定此时的{w,b}，并用它对未标记样本集进行分类，求解出每个未标记样本的并按降序排列；
4b)按照顺序，更新前hp个未标记样本为少数类，倒数hn个未标记样本为多数类，中间样本遵循进行标记，记此时未标记样本集的标记为其中 h p = 1 2 ( 1 + β - α ) ( num pos + num neg ) ]]>为少数类样本数， h n = 1 2 ( 1 - β - α ) ( num pos + num neg ) ]]>为多数类样本数，α是一个常数，一般的取值为0.1；
4c)随机选择30％的样本返回更新前的标记，记此时未标记样本集的标记为
4d)判断未标记样本集的标记和是否相同或者迭代次数是否为200，如果或者迭代次数等于200次，则得到半监督SVM的分类模型modelt并保存，结束循环执行下一步，否则返回执行(4a)；
步骤5，提取半监督SVM分类器输出的分类模型modelt中的负类支持向量对应的样本，在标记样本集和未标记样本集中移除与负类支持向量对应的样本；
步骤6，如果半监督SVM分类器输出的分类模型modelt中的负类支持向量不为空，则返回执行步骤3，否则执行步骤7；
步骤7，设步骤4总共执行了T次，则得到T个分类模型使用对未标记样本集进行预测，得到T组未标记样本集的预测标记集其中t表示选取的分类模型，j表示选取的未标记样本，u表示未标记样本的个数，yj,t表示第t组未标记样本集中第j个样本的预测标记；
步骤8，将标记样本集未标记样本集及T组未标记样本集的预测标记集输入基于邓恩指数的集成学习分类器中，得到未标记样本集的最终分类结果根据最终分类结果确定入侵检测数据集中的正常样本和攻击样本；
8a)对于每组未标记样本集的预测标记，首先针对每个样本，找出跟它同类别的K近邻样本集合和不同类别的K近邻样本集合，然后在这两个集合中分别加入对应类别的标记样本，组成一个聚类的集合；
8b)使用聚类的评价指标邓恩指数计算这种聚类方法的评价参数，具体的计算方法是：
DI ( R ) = min < d i , d j > &NotElement; R { | | d i , d j | | } max < d i , d j > { | | d i , d j | | } - - - ( 2 ) ]]>
其中，di，dj表示聚类内任意两个样本，||di,dj||表示任意两个样本之间的距离，表示两个同类别样本之间的最大距离，表示不同类别样本之间的最小距离，即邓恩指数越大，表明聚类效果越好；
8c)重复执行步骤(8a)～(8b)，直至得到T组预测标记中每个标记的邓恩指数；
8d)将每个未标记样本的T个邓恩指数按降序排列，取前30％邓恩指数对应的预测标记，采用投票的策略得到未标记样本的最终分类结果，根据最终分类结果确定入侵检测数据集中的正常样本和攻击样本。
1、实验条件与方法
硬件平台为：Intel Core2Duo CPU E6550@2.33GHZ、2GB RAM；
软件平台为：MATLAB R2013a、基于支持向量机SVMlight工具箱；
实验方法：分别为本发明和现有处理计算机入侵检测的方法。其中现有的这四种种方法都是计算机入侵检测领域中引用较多的方法。
2、仿真内容与结果
为了验证本发明方法相比现有技术在计算机入侵检测问题上的优势，实验中使用几组不同的数据集对各方法进行对比实验，数据集信息如表1所示。
表1：计算机入侵检测数据集的描述

表1中的数据不平衡度指计算机入侵检测数据集中攻击样本个数和正常样本个数的比值。实验中使用的对比方法包括：本发明方法以及现有的支持向量机SVM方法、过采样Oversampling方法、欠采样Undersampling方法、少数类样本合成技术SMOTE方法、集成学习EasyEnsemble方法。
a)利用表1的入侵检测数据集对各方法进行的相关实验内容如下：
a1)本发明方法与现有技术在入侵检测数据集上的分类对比实验。
使用本发明方法在少数类样本数目依次取值{1,2,3,4,5,6,7,8,9,10}的条件下对入侵检测数据集进行分类实验，为了更好的评估各种分类方法的整体分类性能，入侵检测数据集在各种分类方法下的几何均值G-means如表2—表4所示。
a2)本发明中参数k的设置对分类的性能影响分析实验。
使用本发明方法在参数k依次取值为{3,6,9,12}的条件下对入侵检测数据Com-ID1进行分类实验，其结果如图2所示，图2中的横坐标表示少数类标记样本的个数，纵坐标表示G-means正确率。各柱状图是本发明方法在参数k的不同取值条件下，其分类性能随迭代次数的变化结果。从图2可以看出，随着少数类标记样本个数的增加，方法的分类性能整体呈现增长的趋势，随着k值的变化，正确率的误差在2％以内，属于可接受的范围。由此可见，k值的选取应该是少数类标记样本数目和分类性能的折中，实验中依据大量实验结果统一取经验值k＝5。
表2：数据集Com-ID1的实验结果

表3：数据集Com-ID2的实验结果

表4：数据集Com-ID3的实验结果

b)实验结果分析
从表2—表4可以看出，现有技术的G-means正确率较低，这是因为在处理计算机入侵检测数据分类问题时，现有技术将很多未标记数据样本都错分成了多数类，而本发明方法相比现有技术取得了更高的几何均值G-means，从而对入侵检测数据获得了更好的分类精度。
当前针对计算机入侵检测数据分类研究的关键在于，如何在保证正常样本分类精度的同时，最大程度的提高攻击样本的分类精度，从而提高整体的分类精度。
综上所述，本发明针对有标记样本非常少的计算机入侵检测问题，提出一种基于集成学习和半监督SVM的计算机入侵检测方法，通过对本发明方法和现有技术实施分类对比实验，验证了本发明方法相比现有技术而言，对计算机入侵检测的有效性。