《基于特征关联的对等网络特征分析方法.pdf》由会员分享,可在线阅读,更多相关《基于特征关联的对等网络特征分析方法.pdf(10页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102299897 A (43)申请公布日 2011.12.28 CN 102299897 A *CN102299897A* (21)申请号 201010207201.0 (22)申请日 2010.06.23 H04L 29/06(2006.01) H04L 29/08(2006.01) G06F 17/30(2006.01) (71)申请人 电子科技大学 地址 611731 四川省成都市高新西区西源大 道 2006 号电子科技大学清水河校区 (72)发明人 秦志光 张凤荔 王勇 (54) 发明名称 基于特征关联的对等网络特征分析方法 (57) 摘要 本发明公开了一种。
2、对等网络 (Peer-to-Peer networking, P2P) 特征分析方法。该方法从结构 特征、 流量特征、 以及用户行为特征等多个层次对 对等网络进行监测, 通过在线实时数据流特征分 析和离线信息内容深入挖掘等技术, 实现对等网 络特性指标的获取与网络态势的感知, 从而为对 等网络安全预警, 事件应急响应等方面的研究提 供基本的支撑平台和技术保障。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 5 页 附图 2 页 CN 102299907 A1/2 页 2 1. 一种基于数据挖掘技术的拒绝服务攻击防御方法和系统, 。
3、该系统需部署在被保护网 络的网络入口, 并为该系统配置数据库服务器以存储系统抽样的实时流量 ; 其特征在于, 所 述系统包括有 : 异常检测模块, 负责检测当前网络流量的状态以判断当前系统是否异常, 并根据当前 系统的状态将当前网络流量随机抽样至数据库服务器的正常流量库和异常流量库 ; 数据挖掘引擎模块, 负责利用数据库服务器中的正常流量库和异常流量库提取可信源 IP 列表和属性分值表, 并将可信源 IP 列表和属性分值表分别传递给可信 IP 过滤器和流量 控制模块 ; 可信 IP 过滤器模块, 负责根据可信源 IP 列表对数据包的源 IP 进行匹配, 如果匹配则 放行流量, 否则将流量交给流。
4、量控制模块处理 ; 流量控制模块, 负责根据属性分值表对流经流量控制模块的网络数据包进行打分, 并 将分值映射成数据包危险等级, 该模块根据危险度等级的高低进行选择性的丢包。 2. 如权利要求 1 所述的异常检测模块, 其特征在于, 所述异常检测算法包括 : 定时提取 TCP 包头的标志字段和 IP 包头的分片标志 ; 构造协方差矩阵, 并计算协方差矩阵与协方差矩阵序列的均值的距离 ; 构造存储大量距离值的历史窗口, 在假设距离值独立同分布的情况下, 计算距离值的 置信区间 ; 对判断结果进行二次评估, 使检测算法的检测结果更准确。 3. 如权利要求 1 所述的网络流量随机抽样, 其特征在于,。
5、 所述方法包括 : 随机生成 16 比特匹配串, 与 IP 数据包 Identification 字段 16 比特进行匹配, 若匹配 成功则抽样该数据包。 4. 如权利要求 1 所述的提取可信源 IP 列表, 其特征在于, 所述方法包括 : 对正常流量库中的源 IP 进行访问频度排序, 得到集合 S1; 在正常流量库中, 根据 IP 数据包 TTL 属性和 IP 包长度属性提取频繁项集, 并得到频繁 属性集对应的 IP 列表, 得到集合 S2; 在异常流量库中, 根据 IP 数据包 TTL 属性和 IP 包长度属性提取频繁项集, 并得到频繁 属性集对应的 IP 列表, 得到集合 S3; 根据前。
6、三个集合得到可信 IP 列表。 5. 如权利要求 1 所述的提取属性分值表方法, 其特征在于, 所述提取方法包括 : 根据 IP 数据包的 TTL 属性和源 IP 前缀 (16 比特 ) 两属性, 对正常流量库和异常流量 库中的数据包进行频率统计 ; 按照贝叶斯定理生成属性分值表 ; 根据属性分值表计算正常流量库和异常流量库中的数据包分值的平均值和标准差。 6. 如权利要求 1 所述的将分值映射成数据包危险等级, 其特征在于, 所采用的映射方 法充分考虑了贝叶斯分类误差, 并减少映射关系对数据包危险度划分的影响。 7. 如权利要求 1 所述的根据危险度等级的高低进行选择性的丢包, 其特征在于 。
7、: 根据 危险等级与丢包概率的对应关系, 对高危险度的数据包进行高概率丢包, 对于低危险度的 数据包进行低概率丢包。 8. 如权利要求 7 所述的危险等级与丢包概率的对应关系, 其特征在于 : 当危险等级为 权 利 要 求 书 CN 102299897 A CN 102299907 A2/2 页 3 0 时, 丢包概率为 0, 当危险等级为 9 时, 丢包概率为 10, 其他危险等级可以按照线性或 指数函数关系来设定丢包率。 权 利 要 求 书 CN 102299897 A CN 102299907 A1/5 页 4 基于特征关联的对等网络特征分析方法 技术领域 0001 本 发 明 涉 及 。
8、网 络 信 息 安 全 领 域, 具 体 涉 及 一 种 对 等 网 络 (Peer-to-Peer networking, P2P) 特征分析方法。 背景技术 0002 目前, 对等网络应用在 Internet 网络上的广泛流行, 已成为互联网主流应用技 术。对对等网络特征的测量、 提取与分析, 能够有效指导新型 P2P 协议的设计与实现, 并能 够对于规模互联网络安全事件的检测与预警提供可靠的数据保障。 对等网络系统具有大规 模复杂性、 强动态性、 以及时空演进特性等特征。而从目前技术发展状况来看, 绝大部分研 究均局限于某个或某部分较为单一的网络特征的测量与分析, 且测量与分析方法还存在。
9、较 大的局限性。 然而, 大量研究表明, 单纯将一部分特征割裂开来, 进行单一角度、 单一层次的 检测分析, 而不是从宏观上把握整个网络的特征, 从中得到的结论往往不够全面准确, 致使 难以很好反映对等网络系统的真实状态, 甚至出现特征偏差。此外, 随着研究的不断深入, 一些新的网络特征也不断被提出来。这要求我们必须从网络的时空静态、 动态特征, 宏观、 微观行为特征, 以及用户偏好特征等多个方面进行分析, 通过关联各层次特征, 找到这些特 征的相互内在联系, 发现对等网络系统的潜在隐藏特征。 发明内容 0003 为了克服现有方式方法测量手段单一、 测量数据片面的问题, 在分析归类当前主 流对。
10、等网络的基础上, 研究具备人工智能与自主学习能力的对等网络特征挖掘技术, 建立 对等网络主被动测量相结合的监测体系, 从对等网络结构、 消息流量、 用户行为等多个层 次, 综合发现对等网络的新特征、 隐藏特征, 通过对对等网络监测结果时间、 空间特征的跟 踪分析, 建立对等网络在上述各个特征层面上的演进规律模型, 并探索对等网络应用综合 特征分析算法, 实现了多层次、 多特征的监测和分析。 0004 本发明主要解决了两个问题 : 0005 (1) 建立了对等网络环境下性能参数测量体系, 准确提取对等网络的多个重要特 性, 从结构特征、 流量特征、 以及用户行为特征等多个层次对对等网络性能指标进。
11、行监测 ; 0006 (2) 通过数据挖掘、 机器学习等技术, 建立了对等网络质量评价分析模型, 实现了 对等网络特征与特性的准确把握, 从而为对等网络大规模安全事件应急响应提供基本的数 据保障。 0007 本发明具有以下特点 : 0008 (1) 测量算法具有高效性和实时性, 能实时监测当前对等网络的性能指标 ; 0009 (2) 具有自主学习能力, 减少了人工干预 ; 0010 (3) 弥补了传统的基于单一特征的测量分析方法缺点, 使得测量分析结论更可 靠 ; 0011 (4) 具备数据挖掘能力, 能够发现对等网络隐藏特征。 说 明 书 CN 102299897 A CN 10229990。
12、7 A2/5 页 5 附图说明 0012 图 1 为整体框架流程图 ; 0013 图 2 为基本网络特征示意图 ; 0014 图 3 为网络重绘示意图 ; 0015 图 4 为复杂网络特征示意图。 具体实施方式 0016 本发明整体框架流程如下 : 0017 一、 对网络特征参数进行测量与统计。 0018 一般而言, 对等网络抽象协议可描述如下 : 0019 1. 加入对等网络。节点 v 连接 D 个缓存点, 缓存节点的选择可以采用随机选择策 略或其它更为复杂的选择策略。 0020 2. 邻居重连。当节点 v 的邻居离开网络后, 节点 v 将选择新的缓存节点作为其邻 居, 缓存节点的选择策略可。
13、以是随机选择或更为复杂的策略。 0021 3. 缓存节点替换。当缓存节点 v 的邻居数超过 C, 或者离开对等网络, 需要选择其 它节点 ( 非缓存节点 ) 作为新的补充。设 vk 是缓存节点集合中第 k 个节点, 则选择的基本 策略是 : 0022 k 0 ; 0023 while( 没有找到一个非缓存节点 ) 0024 在节点 vk的邻居中寻找一个非缓存节点 ; 0025 k+ ; 0026 4. 邻居信息报告。当节点 v 收到邻居信息请求消息时, v 将自己当时所有邻居的 地址信息, 以及自己的相关信息一同发送给请求者。 0027 而对等网络主动测量过程可以描述为 : 0028 1. 预。
14、先收集对等网络入口节点 ( 缓存节点 ) 的地址信息, 将其保存到队列 Q 中。 其中, 队列 Q 中的元素是唯一的。 0029 2. 从队列 Q 中每次取出 m 个未访问的节点, 获取这些节点的信息以及其 k 个邻居 地址信息。 0030 3. 将 k 个邻居节点地址信息保存到队列尾部, 保存 m 个节点的邻居关系。 0031 4. 重复第 2 步, 直到访问完队列 Q 中的所有节点或访问了网络中 比例的节点。 采用多点并行分布式测量策略, 以及, 提高了测量速度, 减少了测量误差。 0032 由于对等网络大规模、 强动态的特性, 本方法采用多点并行分布式测量策略来增 大测量系统的获取速度。。
15、 同时, 由于网络具有异构混合(disassortative mixing)特性 网络中大度节点偏好与低度节点建立邻居关系本方法优先选择大度节点访问能获得 更多的节点信息, 以减小产生访问回路的概率。 对于规则网络和正态简单随机网络, 本策略 不会影响测量速度 ; 而且, 对于幂律网络和具有混杂特征 (mixing pattern) 的随机网络, 这一策略显然更具优势。 0033 现有的研究结论表明, 节点随机加入、 离开网络。 节点随机加入对等网络的统计行 说 明 书 CN 102299897 A CN 102299907 A3/5 页 6 为服从参数为 的泊松分布 (Possion dis。
16、tribution) ; 而节点的在线时间服从参数为 的指数分布 (Exponential distribution)。 0034 令Gt(Vt, Et)是时刻t的网络拓扑, 节点加入网络的泊松分布参数, 节点在线 时间的指数分布参数为 ; 令 N /。得到 : 0035 1. 对于任意时刻 t (N), |Vt| (N) ; 当 t/N 时, 满足 : 0036 P(|Vt| No(N) 1-N-(1); 0037 2. 存在一个常数 c, 对于给定的任意时刻 t clogN, 对等网络图 Gt满足概率关 系 : 0038 Pr(Gt是连通的 ) 1-O(log2N/N)。 0039 上述两。
17、个结论说明根据抽象协议描述的对等网络, 经过一段时间后, 该网络的节 点数量是相对稳定的, 同时网络是连通的。 0040 定义完整性指数、 形变指数和稳定性指数作为衡量系统框架和策略中测量结果数 据的指标 : 0041 5. 设 Nmax, Emax分别表示网络中节点和边的总数, n, e 为测量系统当前获取节点、 边 的数量, 定义拓扑数据完整性指数(n/Nmax+e/Emax)/2, 作为测量系统在某一时刻获取的 拓扑数据占网络总体的比例。根据实验结果, 我们选择测量系统运行 30 分钟时获取的节点 和边的总数作为 Nmax和 Emax。 0042 6. 同时做两次反向爬行 (Back-t。
18、o-Back Crawling), 获取拓扑图 G0 V0, E0, G1 V1, E1。 定义G0, G1的点差异集合Vdv|v(V0 xor V1), 边差异集合Ede|e(E0 xor E1)。 0043 设 e为集合 Ed中元素个数, v为 Vd中元素个数, N, E 分别为 G0, G1节点数和边 数的均值。定义拓扑数据形变指数 (e/E+v/N)/2, 以反映拓扑图微观结构变化情 况。 越小, 说明测量系统越准确。 值与每次访问的节点数 m、 这 m 个节点的平均度数 d, 以及运行时间 T 等密切相关, 通过增加 m 和 d 可以在短时间内获得较小形变的网络拓扑 图。 0044 。
19、7. 设 x, y 分别为 G0, G1节点度排名前 K 的节点分布序列, 则拓扑数据稳定性指数 S 定义为 : 0045 0046 S 衡量连续两次快照拓扑图 G0, G1节点度分布序列的相似程度, 从而比较拓扑图在 宏观结构上的一致性。S 越大, 说明测量系统获取的拓扑图越稳定, 数据越可靠。 0047 二、 建立拓扑特征选择模型。 0048 它包含一个基本拓扑特征参数有限集、 一个复杂拓扑特征集合、 以及相应的分析 方法。 基本拓扑特征参数集合中的元素(d0, 1, .D)描述了网络的特定拓扑特征, 也代表了具有(d 0, 1, .D) 特征的网络图集合, (d 0, 1, .D) 满足。
20、如下一些约 束 : 0049 1.可生成性。 通过构造特定的网络拓扑生成算法, 能够生成具有相同(或相似) (d 0, 1, .D) 的 “人造” 网络图 ; 0050 2. 包容性。拓扑特征参数集合中, 元素包含元素(d 0, 1, .d-1) 所描述的 说 明 书 CN 102299897 A CN 102299907 A4/5 页 7 所有拓扑特征。 也就是说, 具有拓扑特征的网络图, 必然同时具有(d0, 1, .d-1)的 拓扑特征 ; 0051 3.收敛性。 模型中的拓扑特征参数集合是有限的, 即 : 在集合中, 存在正整数n, 元 素描述的所有拓扑图是同构的。 0052 集合 中。
21、, 定义是网络的平均度数 , 它描述了每个节点的平均连接数。 是 对网络图拓扑特征的描述相对粗糙, 不能反映网络中节点度分布特征, 于是定义为网络 图的度分布特征P(k)。类似的, 描述了度为k的节点在网络中的数量, 但是没有反映节点 间的相互连接特征, 也就是说, 没有提供度为 k 和 k 的节点之间连接关系这一信息, 于是 定文为联合度分布特征 P(k1, k2)。 0053 和满足可生成性约束条件。通过连边重画算法 (link rewriting algorithm) 可以容易地重现这些拓扑特征 (、 P(k) 和 P(k1, k2) ; 此外, 给定网络图的联 合度分布特征 P(k1,。
22、 k2), 可以很容易得到相应的度分布特征, 即 P(k) kP(k, k )/ k, 同样, 给定网络图的度分布特征 P(k), 也能够得到平均度数 , 即 : kP(k)。这 说明,和也满足包容性约束条件 : 可以通过给定的计算出相应的特征进而得到 特征它们是单向拓扑特征包含的关系。附图 1 显示了基本拓扑特征有限集 中元素的 相互关系以及和代表的拓扑特征。附图 2 是节点数为 4 的网络图实例, 其(d 0, 1, 2) 描述的拓扑特征值。 0054 进一步定义为网络图中三角形和锲形子图分布密度, 用网络的聚集系数 C, C(k) 等来表示 ; 同理, 可以做推广定义为 k 个节点组成的。
23、不同子图在网络图中的分布特征。容 易发现, 由 k+1 个节点组成的子图必然包含 k 个节点组成的子图, 也就是说, 这个推广定义 满足包容性约束条件 ; 另一方面, 当 k n 时, n 个节点的子图其实就是整个网络图的拓扑, 也就是满足收敛性的约束。 0055 我们将富人俱乐部连接性作为基本拓扑特征参数集合 中元素就网络拓扑的 静态特征而言,(d 0, 1, 2, 3) 既能够很好的描述多数现实网络的拓扑特征。此外, 为了描述对等网络的可生存性包含网络的整体性能、 动态演化等特征, 建立了复杂拓扑特 征集合 作为基本拓扑特征有限集 的补充。 中的元素从宏观角度描述网络的性 能、 弹性、 指。
24、纹等。通过集合 描述的特征再生成 “实际” 的网络拓扑, 同时利用 中元 素描述的特征, 进一步衡量、 比较分析这些拓扑特征的影响。至此, 建立的拓扑特征选择模 型整体框架可以由附图 3 表示。我们提出的拓扑特征选择模型是动态的、 可扩展的。也就 是说, 随着网络拓扑研究的深入和实际应用的需求, 通过扩展 可以更细致的描述网络的 拓扑特征 ; 通过改变 中的元素则可以实现不同角度的分析目的。 0056 三、 对等网络拓扑特征分析方法 0057 在拓扑特征选择模型基础上, 获取对等网络有效、 稳定的大规模拓扑测量数据。 并 针对对等网络动态性、 大规模的特点, 建立了层次化的对等网络拓扑特征分析。
25、方法如下 : 0058 1. 计算集合 , 使用(d 0, 1, 2, 3) 描述现实对等网络的拓扑特征。 0059 2. 测量获取的拓扑实例进行重采样与 “再生成” , 重建可以代表实际对等网络的、 规模相对较小的, 并且能够计算其复杂拓扑特征的 “再生” 拓扑图, 从而得到复杂网络拓扑 特征集合 中的元素, 以代替目前由于计算复杂, 而无法直接得到复杂拓扑特征参数。 0060 3. 根据集合 中的元素, 分析、 动态模拟 “再生” 拓扑图的复杂拓扑特征 ; 说 明 书 CN 102299897 A CN 102299907 A5/5 页 8 0061 4. 根据网络拓扑 “指纹” 特征、 对消息转发的影响, 以及在面临节点失效或恶意攻 击时的可生存性能等指标, 得出对等网络特征分析的最终结论。 说 明 书 CN 102299897 A CN 102299907 A1/2 页 9 图 1 图 2 图 3 说 明 书 附 图 CN 102299897 A CN 102299907 A2/2 页 10 图 4 说 明 书 附 图 CN 102299897 A 。