基于特征关联的对等网络特征分析方法.pdf

摘要
申请专利号：	CN201010207201.0	申请日：	2010.06.23
公开号：	CN102299897A	公开日：	2011.12.28
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):H04L 29/06申请公布日:20111228\|\|\|公开
IPC分类号：	H04L29/06; H04L29/08; G06F17/30	主分类号：	H04L29/06
申请人：	电子科技大学
发明人：	秦志光; 张凤荔; 王勇
地址：	611731 四川省成都市高新西区西源大道2006号电子科技大学清水河校区
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明公开了一种对等网络(Peer-to-Peer networking，P2P)特征分析方法。该方法从结构特征、流量特征、以及用户行为特征等多个层次对对等网络进行监测，通过在线实时数据流特征分析和离线信息内容深入挖掘等技术，实现对等网络特性指标的获取与网络态势的感知，从而为对等网络安全预警，事件应急响应等方面的研究提供基本的支撑平台和技术保障。

权利要求书

1.一种基于数据挖掘技术的拒绝服务攻击防御方法和系统，该系统需部署在被保护网
络的网络入口，并为该系统配置数据库服务器以存储系统抽样的实时流量；其特征在于，
所述系统包括有：
异常检测模块，负责检测当前网络流量的状态以判断当前系统是否异常，并根据当前
系统的状态将当前网络流量随机抽样至数据库服务器的正常流量库和异常流量库；
数据挖掘引擎模块，负责利用数据库服务器中的正常流量库和异常流量库提取可信源
IP列表和属性分值表，并将可信源IP列表和属性分值表分别传递给可信IP过滤器和流量
控制模块；
可信IP过滤器模块，负责根据可信源IP列表对数据包的源IP进行匹配，如果匹配则
放行流量，否则将流量交给流量控制模块处理；
流量控制模块，负责根据属性分值表对流经流量控制模块的网络数据包进行打分，并
将分值映射成数据包危险等级，该模块根据危险度等级的高低进行选择性的丢包。
2.如权利要求1所述的异常检测模块，其特征在于，所述异常检测算法包括：
定时提取TCP包头的标志字段和IP包头的分片标志；
构造协方差矩阵，并计算协方差矩阵与协方差矩阵序列的均值的距离；
构造存储大量距离值的历史窗口，在假设距离值独立同分布的情况下，计算距离值的
置信区间；
对判断结果进行二次评估，使检测算法的检测结果更准确。
3.如权利要求1所述的网络流量随机抽样，其特征在于，所述方法包括：
随机生成16比特匹配串，与IP数据包Identification字段16比特进行匹配，若匹
配成功则抽样该数据包。
4.如权利要求1所述的提取可信源IP列表，其特征在于，所述方法包括：
对正常流量库中的源IP进行访问频度排序，得到集合S1；
在正常流量库中，根据IP数据包TTL属性和IP包长度属性提取频繁项集，并得到频
繁属性集对应的IP列表，得到集合S2；
在异常流量库中，根据IP数据包TTL属性和IP包长度属性提取频繁项集，并得到频
繁属性集对应的IP列表，得到集合S3；
根据前三个集合得到可信IP列表。
5.如权利要求1所述的提取属性分值表方法，其特征在于，所述提取方法包括：
根据IP数据包的TTL属性和源IP前缀(16比特)两属性，对正常流量库和异常流量库
中的数据包进行频率统计；
按照贝叶斯定理生成属性分值表；
根据属性分值表计算正常流量库和异常流量库中的数据包分值的平均值和标准差。
6.如权利要求1所述的将分值映射成数据包危险等级，其特征在于，所采用的映射方
法充分考虑了贝叶斯分类误差，并减少映射关系对数据包危险度划分的影响。
7.如权利要求1所述的根据危险度等级的高低进行选择性的丢包，其特征在于：根据
危险等级与丢包概率的对应关系，对高危险度的数据包进行高概率丢包，对于低危险度的
数据包进行低概率丢包。
8.如权利要求7所述的危险等级与丢包概率的对应关系，其特征在于：当危险等级为
0时，丢包概率为0％，当危险等级为9时，丢包概率为10％，其他危险等级可以按照线性或
指数函数关系来设定丢包率。

说明书

基于特征关联的对等网络特征分析方法

技术领域

本发明涉及网络信息安全领域，具体涉及一种对等网络(Peer-to-Peer networking，P2P)
特征分析方法。

背景技术

目前，对等网络应用在Internet网络上的广泛流行，已成为互联网主流应用技术。对对
等网络特征的测量、提取与分析，能够有效指导新型P2P协议的设计与实现，并能够对于规
模互联网络安全事件的检测与预警提供可靠的数据保障。对等网络系统具有大规模复杂性、
强动态性、以及时空演进特性等特征。而从目前技术发展状况来看，绝大部分研究均局限于
某个或某部分较为单一的网络特征的测量与分析，且测量与分析方法还存在较大的局限性。
然而，大量研究表明，单纯将一部分特征割裂开来，进行单一角度、单一层次的检测分析，
而不是从宏观上把握整个网络的特征，从中得到的结论往往不够全面准确，致使难以很好反
映对等网络系统的真实状态，甚至出现特征偏差。此外，随着研究的不断深入，一些新的网
络特征也不断被提出来。这要求我们必须从网络的时空静态、动态特征，宏观、微观行为特
征，以及用户偏好特征等多个方面进行分析，通过关联各层次特征，找到这些特征的相互内
在联系，发现对等网络系统的潜在隐藏特征。

发明内容

为了克服现有方式方法测量手段单一、测量数据片面的问题，在分析归类当前主流对等
网络的基础上，研究具备人工智能与自主学习能力的对等网络特征挖掘技术，建立对等网络
主被动测量相结合的监测体系，从对等网络结构、消息流量、用户行为等多个层次，综合发
现对等网络的新特征、隐藏特征，通过对对等网络监测结果时间、空间特征的跟踪分析，建
立对等网络在上述各个特征层面上的演进规律模型，并探索对等网络应用综合特征分析算法，
实现了多层次、多特征的监测和分析。

本发明主要解决了两个问题：

(1)建立了对等网络环境下性能参数测量体系，准确提取对等网络的多个重要特性，从
结构特征、流量特征、以及用户行为特征等多个层次对对等网络性能指标进行监测；

(2)通过数据挖掘、机器学习等技术，建立了对等网络质量评价分析模型，实现了对等
网络特征与特性的准确把握，从而为对等网络大规模安全事件应急响应提供基本的数据保障。

本发明具有以下特点：

(1)测量算法具有高效性和实时性，能实时监测当前对等网络的性能指标；

(2)具有自主学习能力，减少了人工干预；

(3)弥补了传统的基于单一特征的测量分析方法缺点，使得测量分析结论更可靠；

(4)具备数据挖掘能力，能够发现对等网络隐藏特征。

附图说明

图1为整体框架流程图；

图2为基本网络特征示意图；

图3为网络重绘示意图；

图4为复杂网络特征示意图。

具体实施方式

本发明整体框架流程如下：

一、对网络特征参数进行测量与统计。

一般而言，对等网络抽象协议可描述如下：

1.加入对等网络。节点v连接D个缓存点，缓存节点的选择可以采用随机选择策略或其
它更为复杂的选择策略。

2.邻居重连。当节点v的邻居离开网络后，节点v将选择新的缓存节点作为其邻居，缓存
节点的选择策略可以是随机选择或更为复杂的策略。

3.缓存节点替换。当缓存节点v的邻居数超过C，或者离开对等网络，需要选择其它节
点(非缓存节点)作为新的补充。设vk是缓存节点集合中第k个节点，则选择的基本策略
是：

k＝0；

while(没有找到一个非缓存节点){

在节点vk的邻居中寻找一个非缓存节点；

k++；}

4.邻居信息报告。当节点v收到邻居信息请求消息时，v将自己当时所有邻居的地址信息，
以及自己的相关信息一同发送给请求者。

而对等网络主动测量过程可以描述为：

1.预先收集对等网络入口节点(缓存节点)的地址信息，将其保存到队列Q中。其中，
队列Q中的元素是唯一的。

2.从队列Q中每次取出m个未访问的节点，获取这些节点的信息以及其k个邻居地址信
息。

3.将k个邻居节点地址信息保存到队列尾部，保存m个节点的邻居关系。

4.重复第2步，直到访问完队列Q中的所有节点或访问了网络中ε比例的节点。采用多
点并行分布式测量策略，以及，提高了测量速度，减少了测量误差。

由于对等网络大规模、强动态的特性，本方法采用多点并行分布式测量策略来增大测量
系统的获取速度。同时，由于网络具有异构混合(disassortative mixing)特性——网络中大
度节点偏好与低度节点建立邻居关系——本方法优先选择大度节点访问能获得更多的节点信
息，以减小产生访问回路的概率。对于规则网络和正态简单随机网络，本策略不会影响测量
速度；而且，对于幂律网络和具有混杂特征(mixing pattern)的随机网络，这一策略显然更具
优势。

现有的研究结论表明，节点随机加入、离开网络。节点随机加入对等网络的统计行为服
从参数为λ的泊松分布(Possion distribution)；而节点的在线时间服从参数为μ的指数分布
(Exponential distribution)。

令Gt＝(Vt，Et)是时刻t的网络拓扑，节点加入网络的泊松分布参数λ，节点在线时间的指数
分布参数为μ；令N＝λ/μ。得到：

1.对于任意时刻t＝Ω(N)，|Vt|＝Θ(N)；当t/N→∞时，满足：

P(|Vt|＝N±o(N))＝1-N-Ω(1)；

2.存在一个常数c，对于给定的任意时刻t＞clogN，对等网络图Gt满足概率关系：

Pr(Gt是连通的)≥1-O(log2N/N)。

上述两个结论说明根据抽象协议描述的对等网络，经过一段时间后，该网络的节点数量
是相对稳定的，同时网络是连通的。

定义完整性指数、形变指数和稳定性指数作为衡量系统框架和策略中测量结果数据的指
标：

5.设Nmax，Emax分别表示网络中节点和边的总数，n，e为测量系统当前获取节点、边的
数量，定义拓扑数据完整性指数ε＝(n/Nmax+e/Emax)/2，作为测量系统在某一时刻获取的拓
扑数据占网络总体的比例。根据实验结果，我们选择测量系统运行30分钟时获取的节点和
边的总数作为Nmax和Emax。

6.同时做两次反向爬行(Back-to-Back Crawling)，获取拓扑图G0＝{V0，E0}，G1＝{V1，E1}。
定义G0，G1的点差异集合Vd＝{v|v∈(V0 xor V1)}，边差异集合Ed＝{e|e∈(E0 xor E1)}。

设δe为集合Ed中元素个数，δv为Vd中元素个数，N，E分别为G0，G1节点数和边数的
均值。定义拓扑数据形变指数δ＝(δe/E+δv/N)/2，以反映拓扑图微观结构变化情况。δ越小，说
明测量系统越准确。δ值与每次访问的节点数m、这m个节点的平均度数d，以及运行时间T
等密切相关，通过增加m和d可以在短时间内获得较小形变的网络拓扑图。

7.设x，y分别为G0，G1节点度排名前K的节点分布序列，则拓扑数据稳定性指数S定义
为：

S = | KΣxy - ΣxΣy [ KΣ x 2 - ( Σx ) 2 ] [ KΣ y 2 - ( Σy ) 2 ] | ]]>

S衡量连续两次快照拓扑图G0，G1节点度分布序列的相似程度，从而比较拓扑图在宏观结
构上的一致性。S越大，说明测量系统获取的拓扑图越稳定，数据越可靠。

二、建立拓扑特征选择模型。

它包含一个基本拓扑特征参数有限集、一个复杂拓扑特征集合、以及相应的分析方法。
基本拓扑特征参数集合Φ中的元素(d＝0，1，...D)描述了网络的特定拓扑特征，也代表了具
有(d＝0，1，...D)特征的网络图集合，(d＝0，1，...D)满足如下一些约束：

1.可生成性。通过构造特定的网络拓扑生成算法，能够生成具有相同(或相似)(d＝
0，1，...D)的“人造”网络图；

2.包容性。拓扑特征参数集合中，元素包含元素(d＝0，1，...d-1)所描述的所有拓扑
特征。也就是说，具有拓扑特征的网络图，必然同时具有(d＝0，1，...d-1)的拓扑
特征；

3.收敛性。模型中的拓扑特征参数集合是有限的，即：在集合中，存在正整数n，元素
描述的所有拓扑图是同构的。

集合Φ中，定义是网络的平均度数<k>，它描述了每个节点的平均连接数。是对网络
图拓扑特征的描述相对粗糙，不能反映网络中节点度分布特征，于是定义为网络图的度分
布特征P(k)。类似的，描述了度为k的节点在网络中的数量，但是没有反映节点间的相互连
接特征，也就是说，没有提供度为k和k’的节点之间连接关系这一信息，于是定文为联合
度分布特征P(k1，k2)。

和满足可生成性约束条件。通过连边重画算法(link rewriting algorithm)可以容易
地重现这些拓扑特征(<k>、P(k)和P(k1，k2))；此外，给定网络图的联合度分布特征P(k1，k2)，
可以很容易得到相应的度分布特征，即P(k)＝<k>∑k’P(k，k’)/k，同样，给定网络图的度
分布特征P(k)，也能够得到平均度数<k>，即：<k>＝∑kP(k)。这说明，和也满足包容
性约束条件：可以通过给定的计算出相应的特征进而得到特征它们是单向拓扑特
征包含的关系。附图1显示了基本拓扑特征有限集Φ中元素的相互关系以及和代表的
拓扑特征。附图2是节点数为4的网络图实例，其(d＝0，1，2)描述的拓扑特征值。

进一步定义为网络图中三角形和锲形子图分布密度，用网络的聚集系数C，C(k)等来表
示；同理，可以做推广定义为k个节点组成的不同子图在网络图中的分布特征。容易发现，
由k+1个节点组成的子图必然包含k个节点组成的子图，也就是说，这个推广定义满足包容性
约束条件；另一方面，当k＝n时，n个节点的子图其实就是整个网络图的拓扑，也就是满足收
敛性的约束。

我们将富人俱乐部连接性作为基本拓扑特征参数集合Φ中元素就网络拓扑的静态特征
而言，(d＝0，1，2，3)既能够很好的描述多数现实网络的拓扑特征。此外，为了描述对等网
络的可生存性包含网络的整体性能、动态演化等特征，建立了复杂拓扑特征集合Φ’作为基本
拓扑特征有限集Φ的补充。Φ’中的元素从宏观角度描述网络的性能、弹性、指纹等。通过集
合Φ描述的特征再生成“实际”的网络拓扑，同时利用Φ’中元素描述的特征，进一步衡量、比
较分析这些拓扑特征的影响。至此，建立的拓扑特征选择模型整体框架可以由附图3表示。我
们提出的拓扑特征选择模型是动态的、可扩展的。也就是说，随着网络拓扑研究的深入和实
际应用的需求，通过扩展Φ可以更细致的描述网络的拓扑特征；通过改变Φ’中的元素则可以
实现不同角度的分析目的。

三、对等网络拓扑特征分析方法

在拓扑特征选择模型基础上，获取对等网络有效、稳定的大规模拓扑测量数据。并针对
对等网络动态性、大规模的特点，建立了层次化的对等网络拓扑特征分析方法如下：

1.计算集合Φ，使用(d＝0，1，2，3)描述现实对等网络的拓扑特征。

2.测量获取的拓扑实例进行重采样与“再生成”，重建可以代表实际对等网络的、规模
相对较小的，并且能够计算其复杂拓扑特征的“再生”拓扑图，从而得到复杂网络拓扑
特征集合Φ’中的元素，以代替目前由于计算复杂，而无法直接得到复杂拓扑特征参
数。

3.根据集合Φ’中的元素，分析、动态模拟“再生”拓扑图的复杂拓扑特征；

4.根据网络拓扑“指纹”特征、对消息转发的影响，以及在面临节点失效或恶意攻击时的
可生存性能等指标，得出对等网络特征分析的最终结论。

资源描述

《基于特征关联的对等网络特征分析方法.pdf》由会员分享，可在线阅读，更多相关《基于特征关联的对等网络特征分析方法.pdf（10页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102299897 A (43)申请公布日 2011.12.28 CN 102299897 A *CN102299897A* (21)申请号 201010207201.0 (22)申请日 2010.06.23 H04L 29/06(2006.01) H04L 29/08(2006.01) G06F 17/30(2006.01) (71)申请人电子科技大学地址 611731 四川省成都市高新西区西源大道 2006 号电子科技大学清水河校区 (72)发明人秦志光张凤荔王勇 (54) 发明名称基于特征关联的对等网络特征分析方法 (57) 摘要本发明公开了一种。

2、对等网络 (Peer-to-Peer networking， P2P) 特征分析方法。该方法从结构特征、流量特征、以及用户行为特征等多个层次对对等网络进行监测，通过在线实时数据流特征分析和离线信息内容深入挖掘等技术，实现对等网络特性指标的获取与网络态势的感知，从而为对等网络安全预警，事件应急响应等方面的研究提供基本的支撑平台和技术保障。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书 2 页说明书 5 页附图 2 页 CN 102299907 A1/2 页 2 1. 一种基于数据挖掘技术的拒绝服务攻击防御方法和系统，。

3、该系统需部署在被保护网络的网络入口，并为该系统配置数据库服务器以存储系统抽样的实时流量；其特征在于，所述系统包括有：异常检测模块，负责检测当前网络流量的状态以判断当前系统是否异常，并根据当前系统的状态将当前网络流量随机抽样至数据库服务器的正常流量库和异常流量库；数据挖掘引擎模块，负责利用数据库服务器中的正常流量库和异常流量库提取可信源 IP 列表和属性分值表，并将可信源 IP 列表和属性分值表分别传递给可信 IP 过滤器和流量控制模块；可信 IP 过滤器模块，负责根据可信源 IP 列表对数据包的源 IP 进行匹配，如果匹配则放行流量，否则将流量交给流。

4、量控制模块处理；流量控制模块，负责根据属性分值表对流经流量控制模块的网络数据包进行打分，并将分值映射成数据包危险等级，该模块根据危险度等级的高低进行选择性的丢包。 2. 如权利要求 1 所述的异常检测模块，其特征在于，所述异常检测算法包括：定时提取 TCP 包头的标志字段和 IP 包头的分片标志；构造协方差矩阵，并计算协方差矩阵与协方差矩阵序列的均值的距离；构造存储大量距离值的历史窗口，在假设距离值独立同分布的情况下，计算距离值的置信区间；对判断结果进行二次评估，使检测算法的检测结果更准确。 3. 如权利要求 1 所述的网络流量随机抽样，其特征在于，。

5、所述方法包括：随机生成 16 比特匹配串，与 IP 数据包 Identification 字段 16 比特进行匹配，若匹配成功则抽样该数据包。 4. 如权利要求 1 所述的提取可信源 IP 列表，其特征在于，所述方法包括：对正常流量库中的源 IP 进行访问频度排序，得到集合 S1；在正常流量库中，根据 IP 数据包 TTL 属性和 IP 包长度属性提取频繁项集，并得到频繁属性集对应的 IP 列表，得到集合 S2；在异常流量库中，根据 IP 数据包 TTL 属性和 IP 包长度属性提取频繁项集，并得到频繁属性集对应的 IP 列表，得到集合 S3；根据前。

6、三个集合得到可信 IP 列表。 5. 如权利要求 1 所述的提取属性分值表方法，其特征在于，所述提取方法包括：根据 IP 数据包的 TTL 属性和源 IP 前缀 (16 比特 ) 两属性，对正常流量库和异常流量库中的数据包进行频率统计；按照贝叶斯定理生成属性分值表；根据属性分值表计算正常流量库和异常流量库中的数据包分值的平均值和标准差。 6. 如权利要求 1 所述的将分值映射成数据包危险等级，其特征在于，所采用的映射方法充分考虑了贝叶斯分类误差，并减少映射关系对数据包危险度划分的影响。 7. 如权利要求 1 所述的根据危险度等级的高低进行选择性的丢包，其特征在于。

7、：根据危险等级与丢包概率的对应关系，对高危险度的数据包进行高概率丢包，对于低危险度的数据包进行低概率丢包。 8. 如权利要求 7 所述的危险等级与丢包概率的对应关系，其特征在于：当危险等级为权利要求书 CN 102299897 A CN 102299907 A2/2 页 3 0 时，丢包概率为 0，当危险等级为 9 时，丢包概率为 10，其他危险等级可以按照线性或指数函数关系来设定丢包率。权利要求书 CN 102299897 A CN 102299907 A1/5 页 4 基于特征关联的对等网络特征分析方法技术领域 0001 本发明涉及。

8、网络信息安全领域，具体涉及一种对等网络 (Peer-to-Peer networking， P2P) 特征分析方法。背景技术 0002 目前，对等网络应用在 Internet 网络上的广泛流行，已成为互联网主流应用技术。对对等网络特征的测量、提取与分析，能够有效指导新型 P2P 协议的设计与实现，并能够对于规模互联网络安全事件的检测与预警提供可靠的数据保障。对等网络系统具有大规模复杂性、强动态性、以及时空演进特性等特征。而从目前技术发展状况来看，绝大部分研究均局限于某个或某部分较为单一的网络特征的测量与分析，且测量与分析方法还存在。

9、较大的局限性。然而，大量研究表明，单纯将一部分特征割裂开来，进行单一角度、单一层次的检测分析，而不是从宏观上把握整个网络的特征，从中得到的结论往往不够全面准确，致使难以很好反映对等网络系统的真实状态，甚至出现特征偏差。此外，随着研究的不断深入，一些新的网络特征也不断被提出来。这要求我们必须从网络的时空静态、动态特征，宏观、微观行为特征，以及用户偏好特征等多个方面进行分析，通过关联各层次特征，找到这些特征的相互内在联系，发现对等网络系统的潜在隐藏特征。发明内容 0003 为了克服现有方式方法测量手段单一、测量数据片面的问题，在分析归类当前主流对。

10、等网络的基础上，研究具备人工智能与自主学习能力的对等网络特征挖掘技术，建立对等网络主被动测量相结合的监测体系，从对等网络结构、消息流量、用户行为等多个层次，综合发现对等网络的新特征、隐藏特征，通过对对等网络监测结果时间、空间特征的跟踪分析，建立对等网络在上述各个特征层面上的演进规律模型，并探索对等网络应用综合特征分析算法，实现了多层次、多特征的监测和分析。 0004 本发明主要解决了两个问题： 0005 (1) 建立了对等网络环境下性能参数测量体系，准确提取对等网络的多个重要特性，从结构特征、流量特征、以及用户行为特征等多个层次对对等网络性能指标进。

11、行监测； 0006 (2) 通过数据挖掘、机器学习等技术，建立了对等网络质量评价分析模型，实现了对等网络特征与特性的准确把握，从而为对等网络大规模安全事件应急响应提供基本的数据保障。 0007 本发明具有以下特点： 0008 (1) 测量算法具有高效性和实时性，能实时监测当前对等网络的性能指标； 0009 (2) 具有自主学习能力，减少了人工干预； 0010 (3) 弥补了传统的基于单一特征的测量分析方法缺点，使得测量分析结论更可靠； 0011 (4) 具备数据挖掘能力，能够发现对等网络隐藏特征。说明书 CN 102299897 A CN 10229990。

12、7 A2/5 页 5 附图说明 0012 图 1 为整体框架流程图； 0013 图 2 为基本网络特征示意图； 0014 图 3 为网络重绘示意图； 0015 图 4 为复杂网络特征示意图。具体实施方式 0016 本发明整体框架流程如下： 0017 一、对网络特征参数进行测量与统计。 0018 一般而言，对等网络抽象协议可描述如下： 0019 1. 加入对等网络。节点 v 连接 D 个缓存点，缓存节点的选择可以采用随机选择策略或其它更为复杂的选择策略。 0020 2. 邻居重连。当节点 v 的邻居离开网络后，节点 v 将选择新的缓存节点作为其邻居，缓存节点的选择策略可。

13、以是随机选择或更为复杂的策略。 0021 3. 缓存节点替换。当缓存节点 v 的邻居数超过 C，或者离开对等网络，需要选择其它节点 ( 非缓存节点 ) 作为新的补充。设 vk 是缓存节点集合中第 k 个节点，则选择的基本策略是： 0022 k 0 ； 0023 while( 没有找到一个非缓存节点 ) 0024 在节点 vk的邻居中寻找一个非缓存节点； 0025 k+ ； 0026 4. 邻居信息报告。当节点 v 收到邻居信息请求消息时， v 将自己当时所有邻居的地址信息，以及自己的相关信息一同发送给请求者。 0027 而对等网络主动测量过程可以描述为： 0028 1. 预。

14、先收集对等网络入口节点 ( 缓存节点 ) 的地址信息，将其保存到队列 Q 中。其中，队列 Q 中的元素是唯一的。 0029 2. 从队列 Q 中每次取出 m 个未访问的节点，获取这些节点的信息以及其 k 个邻居地址信息。 0030 3. 将 k 个邻居节点地址信息保存到队列尾部，保存 m 个节点的邻居关系。 0031 4. 重复第 2 步，直到访问完队列 Q 中的所有节点或访问了网络中比例的节点。采用多点并行分布式测量策略，以及，提高了测量速度，减少了测量误差。 0032 由于对等网络大规模、强动态的特性，本方法采用多点并行分布式测量策略来增大测量系统的获取速度。。

15、同时，由于网络具有异构混合(disassortative mixing)特性网络中大度节点偏好与低度节点建立邻居关系本方法优先选择大度节点访问能获得更多的节点信息，以减小产生访问回路的概率。对于规则网络和正态简单随机网络，本策略不会影响测量速度；而且，对于幂律网络和具有混杂特征 (mixing pattern) 的随机网络，这一策略显然更具优势。 0033 现有的研究结论表明，节点随机加入、离开网络。节点随机加入对等网络的统计行说明书 CN 102299897 A CN 102299907 A3/5 页 6 为服从参数为的泊松分布 (Possion dis。

16、tribution) ；而节点的在线时间服从参数为的指数分布 (Exponential distribution)。 0034 令Gt(Vt， Et)是时刻t的网络拓扑，节点加入网络的泊松分布参数，节点在线时间的指数分布参数为；令 N /。得到： 0035 1. 对于任意时刻 t (N)， |Vt| (N) ；当 t/N 时，满足： 0036 P(|Vt| No(N) 1-N-(1)； 0037 2. 存在一个常数 c，对于给定的任意时刻 t clogN，对等网络图 Gt满足概率关系： 0038 Pr(Gt是连通的 ) 1-O(log2N/N)。 0039 上述两。

17、个结论说明根据抽象协议描述的对等网络，经过一段时间后，该网络的节点数量是相对稳定的，同时网络是连通的。 0040 定义完整性指数、形变指数和稳定性指数作为衡量系统框架和策略中测量结果数据的指标： 0041 5. 设 Nmax， Emax分别表示网络中节点和边的总数， n， e 为测量系统当前获取节点、边的数量，定义拓扑数据完整性指数(n/Nmax+e/Emax)/2，作为测量系统在某一时刻获取的拓扑数据占网络总体的比例。根据实验结果，我们选择测量系统运行 30 分钟时获取的节点和边的总数作为 Nmax和 Emax。 0042 6. 同时做两次反向爬行 (Back-t。

18、o-Back Crawling)，获取拓扑图 G0 V0， E0， G1 V1， E1。定义G0， G1的点差异集合Vdv|v(V0 xor V1)，边差异集合Ede|e(E0 xor E1)。 0043 设 e为集合 Ed中元素个数， v为 Vd中元素个数， N， E 分别为 G0， G1节点数和边数的均值。定义拓扑数据形变指数 (e/E+v/N)/2，以反映拓扑图微观结构变化情况。越小，说明测量系统越准确。值与每次访问的节点数 m、这 m 个节点的平均度数 d，以及运行时间 T 等密切相关，通过增加 m 和 d 可以在短时间内获得较小形变的网络拓扑图。 0044 。

19、7. 设 x， y 分别为 G0， G1节点度排名前 K 的节点分布序列，则拓扑数据稳定性指数 S 定义为： 0045 0046 S 衡量连续两次快照拓扑图 G0， G1节点度分布序列的相似程度，从而比较拓扑图在宏观结构上的一致性。S 越大，说明测量系统获取的拓扑图越稳定，数据越可靠。 0047 二、建立拓扑特征选择模型。 0048 它包含一个基本拓扑特征参数有限集、一个复杂拓扑特征集合、以及相应的分析方法。基本拓扑特征参数集合中的元素(d0， 1， .D)描述了网络的特定拓扑特征，也代表了具有(d 0， 1， .D) 特征的网络图集合， (d 0， 1， .D) 满足。

20、如下一些约束： 0049 1.可生成性。通过构造特定的网络拓扑生成算法，能够生成具有相同(或相似) (d 0， 1， .D) 的 “人造” 网络图； 0050 2. 包容性。拓扑特征参数集合中，元素包含元素(d 0， 1， .d-1) 所描述的说明书 CN 102299897 A CN 102299907 A4/5 页 7 所有拓扑特征。也就是说，具有拓扑特征的网络图，必然同时具有(d0， 1， .d-1)的拓扑特征； 0051 3.收敛性。模型中的拓扑特征参数集合是有限的，即：在集合中，存在正整数n，元素描述的所有拓扑图是同构的。 0052 集合中。

21、，定义是网络的平均度数，它描述了每个节点的平均连接数。是对网络图拓扑特征的描述相对粗糙，不能反映网络中节点度分布特征，于是定义为网络图的度分布特征P(k)。类似的，描述了度为k的节点在网络中的数量，但是没有反映节点间的相互连接特征，也就是说，没有提供度为 k 和 k 的节点之间连接关系这一信息，于是定文为联合度分布特征 P(k1， k2)。 0053 和满足可生成性约束条件。通过连边重画算法 (link rewriting algorithm) 可以容易地重现这些拓扑特征 (、 P(k) 和 P(k1， k2) ；此外，给定网络图的联合度分布特征 P(k1，。

22、 k2)，可以很容易得到相应的度分布特征，即 P(k) kP(k， k )/ k，同样，给定网络图的度分布特征 P(k)，也能够得到平均度数，即： kP(k)。这说明，和也满足包容性约束条件：可以通过给定的计算出相应的特征进而得到特征它们是单向拓扑特征包含的关系。附图 1 显示了基本拓扑特征有限集中元素的相互关系以及和代表的拓扑特征。附图 2 是节点数为 4 的网络图实例，其(d 0， 1， 2) 描述的拓扑特征值。 0054 进一步定义为网络图中三角形和锲形子图分布密度，用网络的聚集系数 C， C(k) 等来表示；同理，可以做推广定义为 k 个节点组成的。

23、不同子图在网络图中的分布特征。容易发现，由 k+1 个节点组成的子图必然包含 k 个节点组成的子图，也就是说，这个推广定义满足包容性约束条件；另一方面，当 k n 时， n 个节点的子图其实就是整个网络图的拓扑，也就是满足收敛性的约束。 0055 我们将富人俱乐部连接性作为基本拓扑特征参数集合中元素就网络拓扑的静态特征而言，(d 0， 1， 2， 3) 既能够很好的描述多数现实网络的拓扑特征。此外，为了描述对等网络的可生存性包含网络的整体性能、动态演化等特征，建立了复杂拓扑特征集合作为基本拓扑特征有限集的补充。中的元素从宏观角度描述网络的性能、弹性、指。

24、纹等。通过集合描述的特征再生成 “实际” 的网络拓扑，同时利用中元素描述的特征，进一步衡量、比较分析这些拓扑特征的影响。至此，建立的拓扑特征选择模型整体框架可以由附图 3 表示。我们提出的拓扑特征选择模型是动态的、可扩展的。也就是说，随着网络拓扑研究的深入和实际应用的需求，通过扩展可以更细致的描述网络的拓扑特征；通过改变中的元素则可以实现不同角度的分析目的。 0056 三、对等网络拓扑特征分析方法 0057 在拓扑特征选择模型基础上，获取对等网络有效、稳定的大规模拓扑测量数据。并针对对等网络动态性、大规模的特点，建立了层次化的对等网络拓扑特征分析。

25、方法如下： 0058 1. 计算集合，使用(d 0， 1， 2， 3) 描述现实对等网络的拓扑特征。 0059 2. 测量获取的拓扑实例进行重采样与 “再生成” ，重建可以代表实际对等网络的、规模相对较小的，并且能够计算其复杂拓扑特征的 “再生” 拓扑图，从而得到复杂网络拓扑特征集合中的元素，以代替目前由于计算复杂，而无法直接得到复杂拓扑特征参数。 0060 3. 根据集合中的元素，分析、动态模拟 “再生” 拓扑图的复杂拓扑特征；说明书 CN 102299897 A CN 102299907 A5/5 页 8 0061 4. 根据网络拓扑 “指纹” 特征、对消息转发的影响，以及在面临节点失效或恶意攻击时的可生存性能等指标，得出对等网络特征分析的最终结论。说明书 CN 102299897 A CN 102299907 A1/2 页 9 图 1 图 2 图 3 说明书附图 CN 102299897 A CN 102299907 A2/2 页 10 图 4 说明书附图 CN 102299897 A 。

展开阅读全文