一种动态评估网络连接可信度的方法及系统.pdf

摘要
申请专利号：	CN201410855655.7	申请日：	2014.12.31
公开号：	CN104539484A	公开日：	2015.04.22
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):H04L 12/26申请日:20141231\|\|\|公开
IPC分类号：	H04L12/26; H04L29/06	主分类号：	H04L12/26
申请人：	深圳先进技术研究院
发明人：	何晨光; 李烨; 葛瑞泉; 樊小毛; 李薇
地址：	518055广东省深圳市南山区西丽大学城学苑大道1068号
优先权：
专利代理机构：	广州华进联合专利商标代理有限公司44224	代理人：	吴平
PDF下载：	PDF下载

内容摘要

本发明提供了一种动态评估网络连接可信度的方法，所述方法包括如下步骤：对不同类型的网络连接数据，进行数据预处理和特征提取；根据所提取的特征，通过广义回归神经网络结合模糊聚类算法进行迭代和训练得出的聚类结果；根据所述聚类结果，通过设置可信度权重向量和网络连接可信度算法计算相应分类的可信度估值；通过改进的关联属性判定算法计算网络入侵规则的可信度，作为入侵检测系统中规则库动态调整的依据。通过广义回归神经网络结合模糊聚类算法迭代学习和训练，使得网络入侵连接的分类更加准确。根据置信度的评估值对关联规则所包含的属性集进行动态更新，适应了网络环境的变化。

权利要求书

权利要求书1. 一种动态评估网络连接可信度的方法，其特征在于，所述方法包括如下步骤：对不同类型的网络连接数据，进行数据预处理和特征提取；根据所提取的特征，通过广义回归神经网络结合模糊聚类算法进行迭代和训练得出的聚类结果；根据所述聚类结果，通过设置可信度权重向量和网络连接可信度算法计算相应分类的可信度估值；通过改进的关联属性判定算法计算网络入侵规则的可信度，作为入侵检测系统中规则库动态调整的依据。 2. 如权利要求1所述的动态评估网络连接可信度的方法，其特征在于，所述对不同类型的网络连接数据，进行数据预处理和特征提取具体包括：取网络连接记录作为训练集，将所述训练集内数据标准化；通过属性计算公式将每一属性值归一化。 3. 如权利要求1所述的动态评估网络连接可信度的方法，其特征在于，所述根据所提取的特征，通过广义回归神经网络结合模糊聚类算法进行迭代和训练得出的聚类结果具体包括：根据所述模糊聚类算法将入侵数据进行分类，并计算每类的聚类中心；通过隶属度函数计算隶属度值，构成模糊矩阵；从模糊矩阵中选择训练样本，作为广义神经网络的训练输入；根据广义神经网络的训练输入，预测输出所述入侵数据的类别；将上述步骤进行迭代，输出聚类结果。 4. 如权利要求1所述的动态评估网络连接可信度的方法，其特征在于，所述根据所述聚类结果，通过设置可信度权重向量和网络连接可信度算法计算相应分类的可信度估值具体包括：设置正检率和误检率计算混淆表；设置假阳率和假阴率，将入侵检测的性能评价简化；设置可信度权重向量，根据可信度权重向量计算所述网络连接可信度估值。 5. 如权利要求1所述的动态评估网络连接可信度的方法，其特征在于，所述通过改进的关联属性判定算法计算网络入侵规则的可信度，作为入侵检测系统中规则库动态调整的依据具体包括：对数据库进行分段；对每个分段选取随机样本进行挖掘，读取频繁项集；根据所述频繁项集生成候选项集；扫描所述数据库，确定每一候选集的支持度，删除支持度小于阈值的候选项集；合并分段样本的频繁项集，并扫描验证；根据对应类别属性的可信度权重向量，再次调整规则的可信度。 6. 一种动态评估网络连接可信度的系统，其特征在于，所述系统包括：特征提取模块，用于对不同类型的网络连接数据，进行数据预处理和特征提取；网络数据分类模块，用于根据所提取的特征，通过广义回归神经网络结合模糊聚类算法进行迭代和训练得出的聚类结果；可信度估值模块，用于根据所述聚类结果，通过设置可信度权重向量和网络连接可信度算法计算相应分类的可信度估值；动态调整模块，用于通过改进的关联属性判定算法计算网络入侵规则的可信度，作为入侵检测系统中规则库动态调整的依据。 7. 如权利要求6所述的动态评估网络连接可信度的系统，其特征在于，所述特征提取模块包括：数据标准化单元，用于取网络连接记录作为训练集，将所述训练集内数据标准化；属性值归一化单元，用于通过属性计算公式将每一属性值归一化。 8. 如权利要求6所述的动态评估网络连接可信度的系统，其特征在于，所述网络数据分类模块包括：聚类中心计算单元，用于根据所述模糊聚类算法将入侵数据进行分类，并计算每类的聚类中心；矩阵构成单元，用于通过隶属度函数计算隶属度值，构成模糊矩阵；训练输入单元，用于从模糊矩阵中选择训练样本，作为广义神经网络的训练输入；预测类别单元，用于根据广义神经网络的训练输入，预测输出所述入侵数据的类别；聚类输出单元，用于将上述步骤进行迭代，输出聚类结果。 9. 如权利要求6所述的动态评估网络连接可信度的系统，其特征在于，所述可信度估值模块包括：混淆表计算单元，用于设置正检率和误检率计算混淆表；简化性能评价单元，用于设置假阳率和假阴率，将入侵检测的性能评价简化；可信度权重单元，用于设置可信度权重向量，根据可信度权重向量计算所述网络连接可信度估值。 10. 如权利要求6所述的动态评估网络连接可信度的系统，其特征在于，所述动态调整模块包括：数据分段单元，用于对数据库进行分段；频繁项挖掘单元，用于对每个分段选取随机样本进行挖掘，读取频繁项集；候选项集生成单元，用于根据所述频繁项集生成候选项集；候选项集确定单元，用于扫描所述数据库，确定每一候选集的支持度，删除支持度小于阈值的候选项集；频繁项集合并单元，用于合并分段样本的频繁项集，并扫描验证；可信度调整单元，根据对应类别属性的所述可信度权重向量，再次调整规则的可信度。

说明书

说明书一种动态评估网络连接可信度的方法及系统
技术领域
本发明属于计算机网络领域，特别是涉及一种动态评估网络连接可信度的方法及系统。
背景技术
TCG(Trusted Computing Group，可信计算组织)开创性地提出了将可信计算机制引入网络访问控制中，研究如何对TNC(trusted network connection)进行扩展，使得可信概念能够进一步与网络相融合，并制定了可信网络连接规范，将传统的网络安全技术与可信计算技术相结合，从终端入手构建可信网络，将不信任的访问操作控制在源端。而可信度评估是可信网络的重要环节，通过入侵检测的手段对网络连接可信度进行评估，可以为网络安全防御策略的实施提供依据。随着网络传输速度和海量数据的增长，入侵检测越来越缺乏对未知攻击的检测能力。
目前，通过综合分析现有入侵检测和可信评估的技术特点，可以看出大多数网络入侵检测要么多着重于入侵数据的分类和识别，要么是对网络节点的可信度进行计算，但缺乏网络连接可信度的评估。基于可信计算平台架构，硬件要求高，整个系统配置复杂，而且所用的度量方法仅是完整性度量，做不到预测效果。引入多种信任度参数，考察用户和移动网络之间的互操作关系，但信任度的计算比较简单(仅是时间戳和直接信任度的乘积)，无法应对更广泛、更复杂的网络数据变化情况。
发明内容
本发明实施例提供一种动态评估网络连接可信度的方法和系统，旨在解决缺乏对网络入侵有效分类和网络连接可信度评估，做不到预测效果的问题，提供评估结果，作为动态调整入侵规则依据。
本发明实施例是这样实现的，一种动态评估网络连接可信度的方法，所述方法包括如下步骤：
对不同类型的网络连接数据，进行数据预处理和特征提取；
根据所提取的特征，通过广义回归神经网络结合模糊聚类算法进行迭代和训练得出的聚类结果；
根据所述聚类结果，通过设置可信度权重向量和网络连接可信度算法计算相应分类的可信度估值；
通过改进的关联属性判定算法计算网络入侵规则的可信度，作为入侵检测系统中规则库动态调整的依据。
本发明实施例还提供，一种动态评估网络连接可信度的系统，所述系统包括：特征提取模块，用于对不同类型的网络连接数据，进行数据预处理和特征提取；
网络数据分类模块，用于根据所提取的特征，通过广义回归神经网络结合模糊聚类算法进行迭代和训练得出的聚类结果；
可信度估值模块，用于根据所述聚类结果，通过设置可信度权重向量和网络连接可信度算法计算相应分类的可信度估值；
动态调整模块，用于通过改进的关联属性判定算法计算网络入侵规则的可信度，作为入侵检测系统中规则库动态调整的依据。
在本发明实施例中，通过GRNN对FCM聚类结果的迭代学习和训练，使得网络入侵连接的分类更加准确，而且GRNN由于只使用了单层隐函数的结构，比其他普通的多层神经网络运行时间更短。将网络连接的置信度与连接的分类信息直接关联起来，为评估系统威胁提供了基础。针对已有的入侵检测规则库，改进了经典的Apriori算法，降低了其时间复杂度，根据置信度的评估值对关联规则所包含的属性集进行动态更新，适应了网络环境的变化。
附图说明
图1是本发明实施例提供的动态评估网络连接可信度方法的实现流程图；
图2是本发明实施例提供的数据预处理和特征提取的实现流程图；
图3是本发明实施例提供的模糊聚类算法和广义神经网络方法的结合的实现流程图；
图4是本发明实施例提供的网络连接可信度计算的实现流程图；
图5是本发明实施例提供的改进的关联属性判定算法计算入侵规则的实现流程图；
图6是本发明实施例提供的改进的关联属性判定算法结果图；
图7是本发明实施例提供的动态评估网络连接可信度系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
除非上下文另有特定清楚的描述，本发明中的元件和组件，数量既可以单个的形式存在，也可以多个的形式存在，本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的动态评估网络连接可信度方法的实现流程，详述如下：
在步骤S101中，对不同类型的网络连接数据，进行数据预处理和特征提取；
在本发明实施例中，主要是对不同类型的网络连接数据，如TCP、UDP协议、连接属性值等进行数值标准化和归一化操作。网络连接信息用网络连接记录表示，每条记录有4类(基本、内容、流量、主机)属性集，共有41种不同属性，取值也均不相同，最后还有一个标识属性表示此连接是正常连接(normal) 还是异常连接(abnormal)，由于连接记录值既有连续值(32个属性)也有离散值(9个属性)，因此，针对连续值先进行标准化操作，以避免不同度量单位给值域所造成的差异，而影响到聚类效果。
在步骤S102中，根据所提取的特征，通过广义回归神经网络结合模糊聚类算法进行迭代和训练得出的聚类结果；
模糊聚类也称为模糊c均值聚类算法(FCM，Fuzzy C-Mean)，是通过定义隶属度函数来确定每个元素属于某个类别程度的一种聚类算法，特别适用于属性信息量较小，值差别不明显的样本数据(比如网络入侵数据)。模糊聚类分析适用于所涉及事物界限是模糊的、或非数值计算情况下比较有效，其大粒度的特征，对于入侵检测来说，由于入侵特征维数较多、不同入侵类别间的数据差别较小，不少入侵模式不能准确分类，因此还需要对模糊聚类的结果做进一步的优化。
采用广义回归神经网络(General Regression Neural Network，GRNN)的方法实现对模糊聚类结果的分类修正，以期获得更加准确的入侵模式类别信息。广义回归神经网络是一种径向基神经网络，具有很强的非线性映射能力和柔性网络结构，可以达到高度容错和鲁棒性，即使样本数据较少也可获得很好的预测结果。
在步骤S103中，根据聚类结果，通过设置可信度权重向量和网络连接可信度算法计算相应分类的可信度估值；
对于网络连接最终可信度的计算取决于对入侵类型的正确识别，因此得到聚类结果后，可对不同类别的入侵连接数据可行度进行评估，评判其对系统的影响。具体评估指标为：正检率、误检率、假阴率、假阳率和可信权重。
在步骤S104中，通过改进的关联属性判定算法计算网络入侵规则的可信度，作为入侵检测系统中规则库动态调整的依据。
改进的关联属性判定算法，利用可信度权重向量更新规则库的置信度，达到入侵检测规则数据库自动调整的目的。
关联属性判定算法是利用关联规则进行属性相关性判定的经典方法。一个关联规则是形如X→Y的蕴涵式，这里I是全体属性集，并且XY＝ Φ。规则X→Y在事务数据库D中的支持度(support)是事务集中包含X和Y 的事务数与所有事务数之比，记为support(XY)，即support(XY)＝P(XY),规则X →Y在事务集中的可信度(confidence)是指包含X和Y的事务数与包含X的交易数之比，记为confidence(XY)，即confidence(XY)＝P(X|Y),给定一个事务集 D，挖掘关联规则问题就是寻找支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。
改进的算法在利用原始算法对数据集进行挖掘之前首先对数据库进行分段操作，因为在整个数据库上的频繁项目集至少在数据库的一个分段上是频繁的，因此，可以利用每个分段上的频繁项集的并集就是整个数据库上的潜在的频繁项目集的集合，其时间复杂度为O(n2)/k，k是分段个数。虽然在渐进意义上时间复杂度没有变化，但在频度上有所降低，总的执行效率也有所提高。通过改进的关联属性判定算法获得的频繁项集结果如图6所示。
图2示出了本发明实施例提供的数据预处理和特征提取的实现流程，详述如下：
在步骤S201中，取网络连接记录作为训练集，将训练集内数据标准化；
在本发明实施例中，取n条记录作为训练集，第i条记录的连续属性值作为一个向量Xi＝<xi1,xi2,…,xij>,i＝1..n,j＝1..32，标准化计算公式如下：
x ′ ij = x ij - AVG j STD j , ]]>且
其中， AVG j = 1 n Σ i = 1 n x ij , STD j = 1 n Σ i = 1 n | x ij - AVG j | ]]>
n为训练集的记录条数，j为属性列，AVGj和STDj分别为一个训练集中，第j列属性的平均值和标准差，x’ij为每一属性的值。
在步骤S202中，通过属性计算公式将每一属性值归一化。
通过属性计算公式将x’ij归一化到[0,1]区间，x”ij作为最终样本属性的取值，具体公式为：
其中，minj为训练集中第j列属性的最小值，MAXj为训练集中第j列属性的最大值。
作为本发明的优选实施例，为提高计算效率，可选择方差分析，
S 2 j = 1 n Σ i = 1 n ( x ″ ij - AVG j ) 2 ]]>
若则将对应属性列j的值删除，以达到属性约减的效果，这类方差为零的属性对分类的影响不大。
图3示出了模糊聚类算法和广义神经网络方法的结合的实现流程，详述如下：
在步骤S301中，根据模糊聚类算法将入侵数据进行分类，并计算每类的聚类中心；
FCM把n个向量xk分为c个模糊类，并求每类的聚类中心ci，从而使模糊目标函数最小。
模糊聚类的目标函数为： J ( U , c 1 , . . . , c c ) = Σ i = 1 c J i = Σ i = 1 c Σ j n u ij m d ij 2 . ]]>
其中，dij＝||ci-xj||，为样本向量距离中心点的欧式距离，ci是第i类的中心，， m为样本个数，j为属性列。每一聚类中心的计算公式为：
c i = Σ j = 1 n u ij m x j Σ j = 1 n u ij m ]]>
在步骤S302中，通过隶属度函数计算隶属度值，构成模糊矩阵；
隶属度函数为：
u ij = 1 Σ k = 1 c ( d ij d ik ) 2 / ( m - 1 ) if d ik &NotEqual; 0 1 if d ik = 0 , k = j 0 if d ik = 0 , k &NotEqual; j ]]>
在步骤S303中，从模糊矩阵中选择训练样本，作为广义神经网络的训练输入；
在本发明实施例中，在模糊矩阵中选择距离中心值最小的m个样本作为训练样本，然后，通过n*m组数据作为广义神经网络的训练输入。其中，n为根据模糊聚类算法将入侵数据分类的个数，m可以为1～5之间的数据。
在步骤S304中，根据广义神经网络的训练输入，预测输出入侵数据类别；
广义神经网络由输入层、模式层、求和层和输出层四级结构组成，具体计算如下：
对于非独立变量Y相对于独立变量X的回归分析实际上是计算具有最大概率值的y，通过公式①即为在输入X的条件下，Y的预测输出。其中：f(x,y)为随机变量x和随机变量y的联合概率密度函数。其估算值可由样本数据集{xi,yi},i＝1..n根据Parzen非参估计来近似： f ^ ( X , y ) = 1 n ( 2 π ) p + 1 2 σ p + 1 Σ i = 1 n exp [ - ( X - X i ) T ( X - X i ) 2 σ 2 ] exp [ - ( X - Y i ) 2 2 σ 2 ] ]]>②式中，Xi，Yi为随机变量x和y的样本观测值；n为样本容量；p为随机变量x的维数；σ为高斯函数的宽度系数，亦称光滑因子。将②式替换①中f，交换积分与加和顺序： Y ^ ( X ) = Σ i = 1 n exp [ - ( X - X i ) T ( X - X i ) 2 σ 2 ] &Integral; - ∞ ∞ yexp [ - ( X - Y i ) 2 2 σ 2 ] dy Σ i = 1 n exp [ - ( X - X i ) T ( X - X i ) 2 σ 2 ] &Integral; - ∞ ∞ exp [ - ( X - Y i ) 2 2 σ 2 ] dy ]]>③而 &Integral; - ∞ ∞ ze - z 2 dz = 0 , ]]>故最后的网络输出为： Y ^ ( X ) = Σ i = 1 n Y i exp [ - ( X - X i ) T ( X - X i ) 2 σ 2 ] Σ i = 1 n exp [ - ( X - X i ) T ( X - X i ) 2 σ 2 ] ]]>④。
在步骤S305中，将上述步骤S301至S304进行迭代，输出聚类结果。
在本发明实施例中，迭代法也称辗转法，是一种不断用变量的旧值递推新值的过程。具体为，将入侵数据重新分为n类，找出最靠近每类中心值的样本作为训练样本。然后通过上述公式得出最终的聚类结果。
在本发明实施例中，通过模糊聚类算法和广义神经网络方法的结合对网络入侵连接数据库进行了测试，效果符合预期。实验首先筛选了带有5类标签的 4500个数据进行训练，使用FCM方法作为对照。模糊聚类之前，对实验数据进行基本的均值、方差分析，约减掉其中的12列特征属性，然后用FCM聚类进行分析。FCM相关参数设置为：模糊系数a＝2，目标函数收敛误差为1e-5，迭代次数最多为100次。广义神经网络训练时，每一类取了距离中心最近的20 个进行训练，迭代10次以后重新获取各类中心，统计获得每类中的样本数量。表1、表2是不同算法的混淆表统计结果。
表1 FCM分类结果混淆表

从表1可以看出FCM聚类没有将类别2到类别5进行有效区分。
表2 FCM-GRNN分类结果混淆表

上表2为统计的广义神经网络分类样本在实际类别中的分布数量，从表中可以看出FCM-GRNN比FCM聚类结果有所改进，FCM-GRNN将类别1与类别2，类别4与类别5进行了有效区分。
经过对网络连接数据的有效分类，我们还需要对不同类型的网络连接进行可信度的评估，以便调整入侵检测规则库的置信区间。
图4示出了网络连接可信度计算的实现流程，详述如下：
在步骤S401中，设置正检率和误检率计算混淆表；
正检率是被系统正确判断所属类别的实例数目与总实例数目之比。误检率是未被系统正确判断所属类别的实例数目与总实例数目之比。正检率R可由式 ⑤进行计算，相应的误检率Re由⑥式可得出：
R = Σ k = 1 N C kk Σ i = 1 N Σ j = 1 N C ij ]]>    ⑤
Re＝1-R    ⑥
其中，Cij是混淆表(i行为真实分类，j列为算法分类)中各分量值，N为分类总数。
在这里FCM结果分类1中1496个，分类2中2097个被正确识别，其误检率为20.16％；FCM-GRNN结果分类1中1454个，分类2中2097个，分类 4中658个被正确识别，其误检率为6.47％。方法改进以后，误检率有所降低。与文献[1]中的算法也作了对比，结果如下表所示：
表3 算法检测率比较

误检率 9.7％ 20.16％ 6.47％
在步骤S402中，设置假阳率和假阴率，将入侵检测的性能评价简化；
为综合判断系统的性能，分类正确率并非唯一的评价准则，定义入侵数据属于阳性数据，正常数据为阴性数据。
设评判矩阵为J(混淆表的二类(正常normal，异常abnormal)形式)，则：
假阳率(Positive False Rate，PFR)：正常数据被错误标记为入侵数据的个数与正常数据总数的比值：
PFR = J normal , abnormal J normal , normal + J normal , abnormal ]]>
假阴率(Negative False Rate，NFR)：入侵数据被错误标记为正常数据的个数与入侵数据总数的比值：
NFR = J abnormal , normal J abnormal , normal + J abnormal , abnormal ]]>
可计算出不同算法对应的假阳率和假阴率，结果如下表所示：
表4 算法性能比较

由以上比较可以看出，FCM-GRNN方法比其他方法在正检率上有所提高，假阳率虽然比FCM高些，但假阴率比FCM方法有所降低，所以，从保障网络安全性的角度看，采用FCM-GRNN进行分类识别和可信估算属于更加保守的方法。
在步骤S403中，设置可信度权重向量，根据可信度权重向量计算网络连接可信度估值。
在本发明实施例中，定义分类算法的可信权重如下：可信度权重向量 wt＝v×Cn×n，其中wt为n维向量，在[0，1]取值，v是预定义的各类连接可信度估值，如v＝(0.99,0.01,0.3,0.2,0.1)，可用来表示相应类别的网络连接数据对系统安全的置信值(值越大，连接可信度越高，对系统威胁越小)。Cn×n为n阶方阵，且cij＝mij/S，mij是混淆表M中的分量，S是测试集实例总数，可以得到分类结果下新的可信度权重向量wt。
定义分类算法的可信权重如下：
可信度权重向量wt＝v×Cn×n，其中wt为n维向量，在[0,1]取值，v是预定义的各类连接初始可信度估值。Cnxn为n阶方阵，且cij＝mij/S，mij是混淆表M中的分量，S是测试集实例总数。因此，本文中v＝(0.99,0.01,0.3,0.2,0.1)，根据混淆表M，分别计算出FCM和FCM-GRNN的
C FCM = 0.3324 0 0.0020 0.0102 0.0027 0 0.4660 0 0 0 0.2889 0 0 0 0 0 0.1462 0 0 0 0 0.1156 0 0 0 , ]]>
C FCM - GRNN = 0.3231 0 0.0033 0.0051 0.0158 0 0.4660 0 0 0 0.0064 0.0189 0.0004 0.0020 0.0011 0 0 0 0.1462 0 0.0113 0 0 0 0.0002 ]]>
由此得wFCM＝(0.4157，0.0455，0.0020，0.0101，0.0027)，wFCM-GRNN＝(0.3229, 0.0103,0.0034,0.0349，0.0160)，它分别代表了使用入侵分类检测算法后各类网络连接新的可信度权重向量，可以看出，由于第二个方法对2-5类连接的有效区分，其对应可信度权重将有所提高。
图5示出了改进的关联属性判定算法计算入侵规则的实现流程，详述如下：
在步骤S501中，对数据库进行分段；
将数据库中的数据分成若干个小段。
在步骤S502中，对每个分段选取随机样本进行挖掘，读取频繁项集；
在步骤S503中，根据频繁项集生成候选项集；
具体为根据频繁项集K生成候选K+1项集。
在步骤S504中，扫描数据库，确定每一候选集的支持度，删除支持度小于阈值的候选项集；
在本发明实施例中，阈值设定为0.02。
在步骤S505中，合并分段样本的频繁项集，并扫描验证；
在步骤S506中，根据对应类别属性的可信度权重向量，再次调整规则的可信度。
针对获得了不同类别属性的可信度权重向量，对于规则库中X→Y的属性集合X，Y，按照其所属类别的可信度估值，取值范围为(0,1)，按如下方式重新调整规则的可信度：
Trust ′ ( X &RightArrow; Y ) = Trust ( X ) × Trust ( Y ) Trust ( X &RightArrow; Y ) ]]>
其中，Trust()为可信度值，Trust为规则的原始可信度，Trust’为调整值。
本领域普通技术人员可以理解：实现上述方法实施例的步骤或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤，而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明实施例中，通过GRNN对FCM聚类结果的迭代学习和训练，使得网络入侵连接的分类更加准确，而且GRNN由于只使用了单层隐函数的结构，比其他普通的多层神经网络运行时间更短。将网络连接的置信度与连接的分类信息直接关联起来，为评估系统威胁提供了基础。针对已有的入侵检测规则库，改进了经典的Apriori算法，降低了其时间复杂度，根据置信度的评估值对关联规则所包含的属性集进行动态更新，适应了网络环境的变化。
图7示出了本发明实施例提供的动态评估网络连接可信度的系统的结构，为了便于说明，仅示出了与本发明实施例相关的部分。
该装置可以用于各种模式识别系统，这些模式识别系统可以装载于电子设备，例如计算机、个人数码助理(Personal Digital Assistant，PDA)等，该动态评估网络连接可信度系统可以是运行于这些电子设备内的软件单元、硬件单元或者软硬件相结合的单元，也可以作为独立的挂件集成到这些电子设备中或者运行于这些电子设备的应用系统中，还可以为集成在一个芯片上的微电子系统 (SoC，System on Chip)，其中：
网络连接可信度系统1包括：特征提取模块11、网络数据分类模块12、可信度估值模块13和动态调整模块14。
其中，特征提取模块11对不同类型的网络连接数据，进行数据预处理和特征提取。在本发明实施例中，主要是对不同类型的网络连接数据，如TCP、UDP 协议、连接属性值等进行数值标准化和归一化操作。网络连接信息用网络连接记录表示，每条记录有4类(基本、内容、流量、主机)属性集，共有41种不同属性，取值也均不相同，最后还有一个标识属性表示此连接是正常连接 (normal)还是异常连接(abnormal)，由于连接记录值既有连续值(32个属性)也有离散值(9个属性)，因此，针对连续值先进行标准化操作，以避免不同度量单位给值域所造成的差异，而影响到聚类效果。
特征提取模块11包括：数据标准化单元111和属性值归一化单元112。
数据标准化单元111取网络连接记录作为训练集，将训练集内数据标准化。在本发明实施例中，取n条记录作为训练集，第i条记录的连续属性值作为一个向量Xi＝<xi1,xi2,…,xij>,i＝1..n,j＝1..32，标准化计算公式如下：
x ′ ij = x ij - AVG j STD j , ]]>且
其中， AVG j = 1 n Σ i = 1 n x ij , STD j = 1 n Σ i = 1 n | x ij - AVG j | ]]>
n为训练集的记录条数，j为属性列，AVGj和STDj分别为一个训练集中，第j列属性的平均值和标准差，x’ij为每一属性的值。
属性值归一化单元112通过属性计算公式将每一属性值归一化。
通过属性计算公式将x’ij归一化到[0,1]区间，x”ij作为最终样本属性的取值，具体公式为：
其中，minj为训练集中第j列属性的最小值，MAXj为训练集中第j列属性的最大值。
作为本发明的优选实施例，为提高计算效率，可选择方差分析，
S 2 j = 1 n Σ i = 1 n ( x ″ ij - AVG j ) 2 ]]>
若S2j＝0，则将对应属性列j的值删除，以达到属性约减的效果，这类方差为零的属性对分类的影响不大。
通过网络数据分类模块12根据所提取的特征，通过广义回归神经网络结合模糊聚类算法进行迭代和训练得出的聚类结果。
模糊聚类也称为模糊c均值聚类算法(FCM，Fuzzy C-Mean)，是通过定义隶属度函数来确定每个元素属于某个类别程度的一种聚类算法，特别适用于属性信息量较小，值差别不明显的样本数据(比如网络入侵数据)。模糊聚类分析适用于所涉及事物界限是模糊的、或非数值计算情况下比较有效，其大粒度的特征，对于入侵检测来说，由于入侵特征维数较多、不同入侵类别间的数据差别较小，不少入侵模式不能准确分类，因此还需要对模糊聚类的结果做进一步的优化。
采用广义回归神经网络(General Regression Neural Network，GRNN)的方法实现对模糊聚类结果的分类修正，以期获得更加准确的入侵模式类别信息。广义回归神经网络是一种径向基神经网络，具有很强的非线性映射能力和柔性网络结构，可以达到高度容错和鲁棒性，即使样本数据较少也可获得很好的预测结果。
网络数据分类模块12包括：聚类中心计算单元121、矩阵构成单元122、训练输入单元123、预测类别单元124和聚类输出单元125。
聚类中心计算单元121根据模糊聚类算法将入侵数据进行分类，并计算每类的聚类中心。FCM把n个向量xk分为c个模糊类，并求每类的聚类中心ci，从而使模糊目标函数最小。
模糊聚类的目标函数为： J ( U , c 1 , . . . , c c ) = Σ i = 1 c J i = Σ i = 1 c Σ j n u ij m d ij 2 . ]]>
其中，dij＝||ci-xj||，为样本向量距离中心点的欧式距离，ci是第i类的中心，， m为样本个数，j为属性列。每一聚类中心的计算公式为：
c i = Σ j = 1 n u ij m x j Σ j = 1 n u ij m ]]>
矩阵构成单元122通过隶属度函数计算隶属度值，构成模糊矩阵。隶属度函数为：
u ij = 1 Σ k = 1 c ( d ij d ik ) 2 / ( m - 1 ) if d ik &NotEqual; 0 1 if d ik = 0 , k = j 0 if d ik = 0 , k &NotEqual; j ]]>
训练输入单元123从模糊矩阵中选择训练样本，作为广义神经网络的训练输入。在本发明实施例中，在模糊矩阵中选择距离中心值最小的m个样本作为训练样本，然后，通过n*m组数据作为广义神经网络的训练输入。其中，n为根据模糊聚类算法将入侵数据分类的个数，m可以为1～5之间的数据。
预测类别单元124根据广义神经网络的训练输入，预测输出入侵数据类别。广义神经网络由输入层、模式层、求和层和输出层四级结构组成，具体计算如下：
对于非独立变量Y相对于独立变量X的回归分析实际上是计算具有最大概率值的y，通过公式①即为在输入X的条件下，Y的预测输出。其中：f(x,y)为随机变量x和随机变量y的联合概率密度函数。其估算值可由样本数据集{xi,yi},i＝1..n根据Parzen非参估计来近似： f ^ ( X , y ) = 1 n ( 2 π ) p + 1 2 σ p + 1 Σ i = 1 n exp [ - ( X - X i ) T ( X - X i ) 2 σ 2 ] exp [ - ( X - Y i ) 2 2 σ 2 ] ]]>②式中，Xi，Yi为随机变量x和y的样本观测值；n为样本容量；p为随机变量x的维数；σ为高斯函数的宽度系数，亦称光滑因子。将②式替换①中f，交换积分与加和顺序： Y ^ ( X ) = Σ i = 1 n exp [ - ( X - X i ) T ( X - X i ) 2 σ 2 ] &Integral; - ∞ ∞ yexp [ - ( X - Y i ) 2 2 σ 2 ] dy Σ i = 1 n exp [ - ( X - X i ) T ( X - X i ) 2 σ 2 ] &Integral; - ∞ ∞ exp [ - ( X - Y i ) 2 2 σ 2 ] dy ]]>③而 &Integral; - ∞ ∞ ze - z 2 dz = 0 , ]]>故最后的网络输出为： Y ^ ( X ) = Σ i = 1 n Y i exp [ - ( X - X i ) T ( X - X i ) 2 σ 2 ] Σ i = 1 n exp [ - ( X - X i ) T ( X - X i ) 2 σ 2 ] ]]>④。
聚类输出单元125在本发明实施例中，迭代法也称辗转法，是一种不断用变量的旧值递推新值的过程。具体为，将入侵数据重新分为n类，找出最靠近每类中心值的样本作为训练样本。然后通过上述公式得出最终的聚类结果。
在本发明实施例中，通过模糊聚类算法和广义神经网络方法的结合对网络入侵连接数据库进行了测试，效果符合预期。实验首先筛选了带有5类标签的 4500个数据进行训练，使用FCM方法作为对照。模糊聚类之前，对实验数据进行基本的均值、方差分析，约减掉其中的12列特征属性，然后用FCM聚类进行分析。FCM相关参数设置为：模糊系数a＝2，目标函数收敛误差为1e-5，迭代次数最多为100次。广义神经网络训练时，每一类取了距离中心最近的20 个进行训练，迭代10次以后重新获取各类中心，统计获得每类中的样本数量。表1、表2是不同算法的混淆表统计结果。
表1 FCM分类结果混淆表

从表1可以看出FCM聚类没有将类别2到类别5进行有效区分。
表2 FCM-GRNN分类结果混淆表

上表2为统计的广义神经网络分类样本在实际类别中的分布数量，从表中可以看出FCM-GRNN比FCM聚类结果有所改进，FCM-GRNN将类别1与类别2，类别4与类别5进行了有效区分。
经过对网络连接数据的有效分类，我们还需要对不同类型的网络连接进行可信度的评估，以便调整入侵检测规则库的置信区间。
可信度估值模块13根据所述聚类结果，通过设置可信度权重向量和网络连接可信度算法计算相应分类的可信度估值。
对于网络连接最终可信度的计算取决于对入侵类型的正确识别，因此得到聚类结果后，可对不同类别的入侵连接数据可行度进行评估，评判其对系统的影响。具体评估指标为：正检率、误检率、假阴率、假阳率和可信权重。
可信度估值模块13包括：混淆表计算单元131、简化性能评价单元132和可信度权重单元133。
混淆表计算单元131设置正检率和误检率计算混淆表。正检率是被系统正确判断所属类别的实例数目与总实例数目之比。误检率是未被系统正确判断所属类别的实例数目与总实例数目之比。正检率R可由式⑤进行计算，相应的误检率Re由⑥式可得出：
R = Σ k = 1 N C kk Σ i = 1 N Σ j = 1 N C ij ]]>    ⑤
Re＝1-R    ⑥
其中，Cij是混淆表(i行为真实分类，j列为算法分类)中各分量值，N为分类总数。
在这里FCM结果分类1中1496个，分类2中2097个被正确识别，其误检率为20.16％；FCM-GRNN结果分类1中1454个，分类2中2097个，分类 4中658个被正确识别，其误检率为6.47％。方法改进以后，误检率有所降低。与文献[2]中的算法也作了对比，结果如下表所示：
表3 算法检测率比较

简化性能评价单元132设置假阳率和假阴率，将入侵检测的性能评价简化。为综合判断系统的性能，分类正确率并非唯一的评价准则，定义入侵数据属于阳性数据，正常数据为阴性数据。
设评判矩阵为J(混淆表的二类(正常normal，异常abnormal)形式)，则：
假阳率(Positive False Rate，PFR)：正常数据被错误标记为入侵数据的个数与正常数据总数的比值：
PFR = J normal , abnormal J normal , normal + J normal , abnormal ]]>
假阴率(Negative False Rate，NFR)：入侵数据被错误标记为正常数据的个数与入侵数据总数的比值：
NFR = J abnormal , normal J abnormal , normal + J abnormal , abnormal ]]>
可计算出不同算法对应的假阳率和假阴率，结果如下表所示：
表4 算法性能比较

由以上比较可以看出，FCM-GRNN方法比其他方法在正检率上有所提高，假阳率虽然比FCM高些，但假阴率比FCM方法有所降低，所以，从保障网络安全性的角度看，采用FCM-GRNN进行分类识别和可信估算属于更加保守的方法。
通过可信度权重单元133设置可信度权重向量，根据可信度权重向量计算网络连接可信度估值。
在本发明实施例中，定义分类算法的可信权重如下：可信度权重向量 wt＝v×Cn×n，其中wt为n维向量，在[0，1]取值，v是预定义的各类连接可信度估值，如v＝(0.99,0.01,0.3,0.2,0.1)，可用来表示相应类别的网络连接数据对系统安全的置信值(值越大，连接可信度越高，对系统威胁越小)。Cn×n为n阶方阵，且cij＝mij/S，mij是混淆表M中的分量，S是测试集实例总数，可以得到分类结果下新的可信度权重向量wt。
定义分类算法的可信权重如下：
可信度权重向量wt＝v×Cn×n，其中wt为n维向量，在[0,1]取值，v是预定义的各类连接初始可信度估值。Cnxn为n阶方阵，且cij＝mij/S，mij是混淆表M中的分量，S是测试集实例总数。因此，本文中v＝(0.99,0.01,0.3,0.2,0.1)，根据混淆表M，分别计算出FCM和FCM-GRNN的
C FCM = 0.3324 0 0.0020 0.0102 0.0027 0 0.4660 0 0 0 0.2889 0 0 0 0 0 0.1462 0 0 0 0 0.1156 0 0 0 , ]]>
C FCM - GRNN = 0.3231 0 0.0033 0.0051 0.0158 0 0.4660 0 0 0 0.0064 0.0189 0.0004 0.0020 0.0011 0 0 0 0.1462 0 0.0113 0 0 0 0.0002 ]]>
由此得wFCM＝(0.4157，0.0455，0.0020，0.0101，0.0027)，wFCM-GRNN＝(0.3229, 0.0103,0.0034,0.0349，0.0160)，它分别代表了使用入侵分类检测算法后各类网络连接新的可信度权重向量，可以看出，由于第二个方法对2-5类连接的有效区分，其对应可信度权重将有所提高。
需要说明的是：上述实施例提供的动态评估网络连接可信度的系统在时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，以完成以上描述的全部或者部分功能。
动态调整模块14通过改进的关联属性判定算法计算网络入侵规则的可信度，作为入侵检测系统中规则库动态调整的依据。
改进的关联属性判定算法，利用可信度权重向量更新规则库的置信度，达到入侵检测规则数据库自动调整的目的。
关联属性判定算法是利用关联规则进行属性相关性判定的经典方法。一个关联规则是形如X→Y的蕴涵式，这里I是全体属性集，并且XY＝ Φ。规则X→Y在事务数据库D中的支持度(support)是事务集中包含X和Y 的事务数与所有事务数之比，记为support(XY)，即support(XY)＝P(XY),规则X →Y在事务集中的可信度(confidence)是指包含X和Y的事务数与包含X的交易数之比，记为confidence(XY)，即confidence(XY)＝P(X|Y),给定一个事务集 D，挖掘关联规则问题就是寻找支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。
改进的算法在利用原始算法对数据集进行挖掘之前首先对数据库进行分段操作，因为在整个数据库上的频繁项目集至少在数据库的一个分段上是频繁的，因此，可以利用每个分段上的频繁项集的并集就是整个数据库上的潜在的频繁项目集的集合，其时间复杂度为O(n2)/k，k是分段个数。虽然在渐进意义上时间复杂度没有变化，但在频度上有所降低，总的执行效率也有所提高。通过改进的关联属性判定算法获得的频繁项集结果如图6所示。
动态调整模块14包括：数据分段单元141、频繁项挖掘单元142、候选项集生成单元143、候选项集确定单元144、频繁项集合并单元145和可信度调整单元146。
数据分段单元141对数据库进行分段，将数据库中的数据分成若干个小段。频繁项挖掘单元142对每个分段选取随机样本进行挖掘，读取频繁项集。候选项集生成单元143根据频繁项集生成候选项集，具体为根据频繁项集K生成候选K+1项集。候选项集确定单元144扫描数据库，确定每一候选集的支持度，删除支持度小于阈值的候选项集。在本发明实施例中，阈值设定为0.02。频繁项集合并单元145合并分段样本的频繁项集，并扫描验证。最后通过可信度调整单元146根据对应类别属性的可信度权重向量，再次调整规则的可信度。
针对获得了不同类别属性的可信度权重向量，对于规则库中X→Y的属性集合X，Y，按照其所属类别的可信度估值，取值范围为(0,1)，按如下方式重新调整规则的可信度：
Trust ′ ( X &RightArrow; Y ) = Trust ( X ) × Trust ( Y ) Trust ( X &RightArrow; Y ) ]]>
其中，Trust()为可信度值，Trust为规则的原始可信度，Trust’为调整值。
在本发明实施例中，通过GRNN对FCM聚类结果的迭代学习和训练，使得网络入侵连接的分类更加准确，而且GRNN由于只使用了单层隐函数的结构，比其他普通的多层神经网络运行时间更短。将网络连接的置信度与连接的分类信息直接关联起来，为评估系统威胁提供了基础。针对已有的入侵检测规则库，改进了经典的Apriori算法，降低了其时间复杂度，根据置信度的评估值对关联规则所包含的属性集进行动态更新，适应了网络环境的变化。
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。