一种对等网络版权内容相似度图的构建方法及系统.pdf

摘要
申请专利号：	CN201210240796.9	申请日：	2012.07.11
公开号：	CN103544407A	公开日：	2014.01.29
当前法律状态：	授权	有效性：	有权
法律详情：	登录超时
IPC分类号：	G06F21/10(2013.01)I	主分类号：	G06F21/10
申请人：	中国科学院声学研究所
发明人：	曲本科; 牛温佳; 童恩栋; 苗光胜; 谭红艳; 慈松; 唐晖
地址：	100190 北京市海淀区北四环西路21号
优先权：
专利代理机构：	北京法思腾知识产权代理有限公司 11318	代理人：	杨小蓉;杨青
PDF下载：	PDF下载

内容摘要

本发明提供了一种对等网络版权内容相似度图的构建方法及系统，该方法基于用户综合客观行为构建对等网络的版权内容相似度图，所述方法包含：步骤101）用于数据集预处理的步骤；步骤102）用于进行节点能力计算的步骤；步骤103）用于聚类分析，最终完成版权内容相似度图构建的步骤；其中，步骤102）进一步包含：步骤102-1）用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤；步骤102-2）用于基于版权内容扩散能力进行若干次的层次过滤的步骤；步骤102-3）用于对版权内容节点进行颜色标定的步骤。本发明首次在CCSG构建过程中建立包括事件行为、行为时间、行为数量和行为性质在内的用户综合客观行为模型，对用户威胁度和内容扩散能力提出了量化标准。

权利要求书

权利要求书
1.  一种对等网络版权内容相似度图的构建方法，该方法基于用户综合客观行为构建对等网络的版权内容相似度图，所述方法包含：
步骤101）用于数据集预处理的步骤；
步骤102）用于进行节点能力计算的步骤；
步骤103）用于聚类分析，最终完成版权内容相似度图构建的步骤；
其中，所述节点能力计算步骤进一步包含如下子步骤：
步骤102-1）用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤，且任意用户i的综合客观行为模型COB(i)由以下式(1)、(2)、(3)获取：
COB(i)={B(i,j),j∈P},（1）
B(i,j)=(Bup(i,j),Bdown(i,j)),    (2)
Bup(i,j)=Bdown(i,j)=(status(i,j),duration(i,j),frequency(i,j),type(i,j))(3)
其中，COB(i)表示用户i的综合客观行为模型，B(i,j)表示用户i作用于版权内容j的行为，Bup(i,j)表示用户i上传版权内容j，Bdown(i,j)表示用户i下载版权内容j，status(i,j)表示用户i作用于版权内容j的当前状态，duration(i,j)表示用户i作用于版权内容j的持续时间，frequency(i,j)表示用户i作用于版权内容j的次数，type(i,j)表示系统针对用户i作用于版权内容j的客观行为的性质判定；
步骤102-2）用于基于版权内容扩散能力进行若干次的层次过滤的步骤；
步骤102-3）用于对版权内容节点依据节点的扩散能力进行颜色标定的步骤。

2.  根据权利要求1所述的对等网络版权内容相似度图的构建方法，其特征在于，所述步骤101）对爬虫获得的数据集进行了两次过滤操作，留下能够构建版权内容相似度图的用户节点集和节点关系集。

3.  根据权利要求2所述的对等网络版权内容相似度图的构建方法，其特征在于，所述步骤102-1）进一步包含如下子步骤：
首先，对过滤留下的用户节点集及节点关系集进行用户威胁度计算，并基于大量量化的用户威胁度统计建立用户威胁等级；
然后，再对用户威胁度进行加权求和，计算得到版权内容节点的扩散能力，并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中，且所述加权操作的系数依据用户威胁等级进行赋值。

4.  根据权利要求3所述的对等网络版权内容相似度图的构建方法，其特征在于，所述用户威胁度采用下式获取：
T(i)＝ωup·Tup(i)+ωdown·Tdown(i)    (4)
Tup(i)=Σi&Element;U,j&Element;P,(i,j)&Element;Eωjup·tup(i,j)---(5)]]>
Tdown(i)=Σi&Element;U,j&Element;P,(i,j)&Element;Eωjdown·tdown(i,j)---(6)]]>
tup(i，j)＝type(i，j)·status(i，j)·duration(i，j)    (7)
tdown(i，j)＝type(i，j)·status(i，j)·duration(i，j)    (8)
其中，T(i)表示用户i行为的总体威胁度；Tup(i)和Tdown(i)分别指代用户i上传行为、下载行为的威胁度；ωup和ωdown分别指代用户上传行为、下载行为的威胁度权重；tup(i，j)和tdown(i，j)分别指代用户i上传、下载版权内容j的威胁度；和分别指代上传、下载版权内容j的威胁度权重；type(i，j)、status(i，j)和duration(i，j)表示用户客观行为参数；
其中，用户的威胁度与用户的客观行为存在正相关的关系，  即T(i)∝B(i)，并且tup(i，j)∝Bup(i，j)，tdown(i，j)∝ Bdown(i，j)，即用户的客观行为严重程度越高，则用户的威胁能力也就越大。

5.  根据权利要求3所述的对等网络版权内容相似度图的构建方法，其特征在于，所述步骤103)进一步包含：
首先，利用REGKM算法对CCSG图中的各节点进行聚类，该算法采用Dijkstra算法来计算任意两点之间的最小距离，通过多次迭代，把距上次迭代选定的k个中心点相近的节点划分成一簇，划分出k个聚类；
然后，接着进行二次簇内聚类即对划分出的每个聚类再次进行一次聚类操作该聚类操作是通过计算簇内节点问的扩散能力的相似度，把扩散能力大小相近的节点聚集到一起，形成簇内扩散能力相近，簇间扩散能力相差较大的两个分簇。

6.  一种对等网络版权内容相似度图的构建系统，该系统基于用户综合客观行为构建对等网络的版权内容相似度图，所述系统包含：
预处理模块，用于对数据集进行预处理；
节点能力计算模块，用于进行节点能力计算；
聚类处理模块，用于聚类分析，最终完成版权内容相似度图构建；
其中，所述节点能力计算模块进一步包含：
第一处理子模块，用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤，且任意用户i的综合客观行为模型COB(i)由以下式(1)、(2)、(3)获取：
COB(i)={B(i,j),j∈P},（1）
B(i,j)=(Bup(i,j),Bdown(i,j)),    (2)
Bup(i,j)=Bdown(i,j)=(status(i,j),duration(i,j),frequency(i,j),type(i,j))(3)
其中，COB(i)表示用户i的综合客观行为模型，B(i,j)表示用户i作用于版权内容j的行为，Bup(i,j)表示用户i上传版权内容j，Bdown(i,j)表示用户i下载版权内容j，status(i,j)表示用户i作用于版权内容j的当前状态，duration(i,j)表示用户i作用于版权内容j的持续时间，frequency(i,j)表示用户i作用于版权内容j的次数，type(i,j)表示系统针对用户i作用于版权内容j的客观行为的性质判定；
过滤子模块，用于基于版权内容扩散能力进行若干次的层次过滤；
颜色标定子模块，用于对版权内容节点进行颜色标定。

7.  根据权利要求6所述的对等网络版权内容相似度图的构建系统，其特征在于，所述预处理模块对爬虫获得的数据集进行了两次过滤操作，留下能够构建版权内容相似度图的用户节点集和节点关系集。

8.  根据权利要求6所述的对等网络版权内容相似度图的构建系统，其特征在于，所述第一处理子模块进一步包含：
威胁度计算单元，用于对过滤留下的用户节点集及节点关系集进行用户威胁度计算，并基于大量量化的用户威胁度统计建立用户威胁等级；
扩散能力获取单元，用于对用户威胁度进行加权求和，计算得到版权内容节点的扩散能力，并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中，且所述加权操作的系数依据用户威胁等级进行赋值。

9.  根据权利要求8所述的对等网络版权内容相似度图的构建系统，其特征在于，所述用户威胁度采用下式获取：
T(i)=ωup·Tup(i)+ωdown·Tdown(i)    (4)
Tup(i)=Σi&Element;U,j&Element;P,(i,j)&Element;Eωjup·tup(i,j)---(5)]]>
Tdown(i)=Σi&Element;U,j&Element;P,(i,j)&Element;Eωjdown·tdown(i,j)---(6)]]>
tup(i,j)=type(i,j)·status(i,j)·duration(i,j)      (7)
tdown(i,j)=type(i,j)·status(i,j)·duration(i,j)    (8)
其中，T(i)表示用户i行为的总体威胁度；Tup(i)和Tdown(i)分别指代用户i上传行为、下载行为的威胁度；ωup和ωdown分别指代用户上传行为、下载行为的威胁度权重；tup(i，j)和tdown(i，j)分别指代用户i上传、下载版权内容j的威胁度；和分别指代上传、下载版权内容j的威胁度权重；type(i，j)、status(i，j)和duration(i，j)表示用户客观行为参数；
其中，用户的威胁度与用户的客观行为存在正相关的关系，  即T(i)∝B(i)，并且tup(i，j)∝ Bup(i，j)，tdown(i，j)∝ Bdown(i，j)，即用户的客观行为严重程度越高，则用户的威胁能力也就越大。

10.  根据权利要求3所述的对等网络版权内容相似度图的构建方法，其特征在于，所述聚类处理模块进一步包含：
第一聚类子模块，用于利用REGKM算法对初步CCSG图中的各节点进行聚类，该算法首先采用Dijkstra算法来计算任意两点之间的最小距离，通过多次迭代，把距上次迭代选定的k个中心点相近的节点划分成一簇，划分出k个聚类；
第二聚类子模块，用于将第一聚类子模块处理的结果进行二次簇内聚类，即对划分出的每个聚类再次进行一次聚类操作，该聚类操作是通过计算簇内节点间的扩散能力的相似度，把扩散能力大小相近的节点聚集到一起，形成簇内扩散能力相近，簇间扩散能力相差较大的两个分簇。

说明书

说明书一种对等网络版权内容相似度图的构建方法及系统
技术领域
本发明涉及P2P网络版权内容传播过程中内容相似度图的构建方法，该方法基于发明的用户综合客观行为模型，在原CCSG图基础上建立用户威胁度及版权内容扩散能力模型，为系统建立预警机制及时发现版权侵害行为提供理论支持和指导，即本发明具体提供一种对等网络版权内容相似度图的构建方法及系统。
背景技术
对等网络技术（P2P技术）已被广泛应用于集群计算、协同工作、搜索引擎和文件共享与交换等方面。由于P2P技术的核心是点对点的传播模式，因而相较于传统的客户-服务器的集中处理模式，网络内容传播的管理与控制更为复杂和困难。从目前状况来看，这主要体现在两个方面：对不良内容的传播控制更为复杂和对版权管理更为困难。以P2P文件共享与交换软件BT为例，它克服了传统下载方式的局限性，具有参与下载的人越多，文件下载速度越快的特点。BT软件自动将一个文件分割成若干块，当某一PC节点在进行下载，它也作为一个对外提供服务的节点，向其他PC供应已经下载的文件块。最终，来自不同节点的文件块在一台PC上融合成了一个完整的文件。从上述P2P文件共享与交换的工作原理可以看出，一台PC在进行下载的同时，也自动进行着上传的行为，成为一台临时的服务器。因此，从版权角度来讲，鉴于P2P技术导致受侵害的用户和版权的数量、范围急剧增加的状况，对版权内容的传播分析与管控变得紧迫和必要。
目前版权内容的传播分析研究主要集中在内容检测和内容关系网络挖掘两个方面。内容检测主要是利用数字水印及DNA等技术来检测某个音/视频内容是否属于盗版内容；而内容关系网络挖掘旨在通过揭示内容之间的相似度关系来深入发掘P2P用户之间的文件共享关系，深刻反映对等网络内容交互与分布的内部结构，为传播分析与管控提供有效支持。在相关工作中，部分研究者提出了版权内容相似度图（Copyright Content Similarity Graph，CCSG）的概念，对P2P网络内容相似度图的构建和分析进行了相关研究。
CCSG由内容节点和带权无向边组成，如图1所示。其中，内容节点表示某个音/视频内容，可以综合运用内容名称及内容描述元数据来标识；若存在某个用户同时拥有两个内容，则对应的内容节点可通过无向边连接，特别地，如果同时拥有两个内容的用户数目越大，则意味着内容之间的相似，度越大，对应的无向边权重也越大。
通过分析我们发现，在CCSG构建过程中，仅仅定性地分析了用户客观行为的事件行为，主要指某个用户下载了某个内容或某个用户上传了某个内容，而对于用户客观行为中的行为时间、行为数量及行为性质，缺乏定量和定性的分析。这里，行为时间主要指用户下载和提供某个内容上传的持续时间，行为数量主要指用户下载/上传了多少个内容，行为性质主要指用户执行该上传/下载行为是偶然行为还是常见行为。我们认为，忽视对用户客观行为的综合定量和定性考虑，将会大大影响内容传播分析与管控的全面性和有效性。CCSG的构建过程是基于用户客观行为的事件行为，通过后台预处理、过滤、融合等手段分析出所有的内容节点及对应的带权无向边，然后构建CCSG的数据存储并最终显示和应用。直观上，我们从CCSG图中是无法查看事件行为的，只能通过鼠标点击或者命令操作，实现内容节点对应的用户事件行为监视。因此，从CCSG的应用角度看，仅仅基于事件行为的CCSG构建、显示和应用是无法完全满足监管需求的。除事件行为外，用户的行为时间、行为数量和行为性质，都可以有效帮助管控人员发掘更深层次的用户行为信息。例如，通过行为时间和行为数量的统计分析，可以判断用户是否属于常见侵权行为，进而判断侵权用户的威胁程度和预测侵权内容扩散趋势，达到预先区域预警和管控的目的。
本发明针对上述问题，将围绕对等网络内容相似度图CCSG，综合考虑用户客观行为的多个方面，对CCSG构建方法做出重要改进。与原有方法相比，本发明具有的创新之处是在CCSG构建过程中，首次建立包括事件行为、行为时间、行为数量和行为性质在内的用户综合客观行为模型；基于该综合客观行为模型，计算用户威胁程度和内容扩散趋势，并将计算结果导入REGKM聚类算法，从数据预处理和聚类两个步骤对整个构建过程分别实现一头一尾的改进，提高CCSG的全面性和准确性。
发明内容
本发明的目的在于，为克服现有技术在构建对等网络版权内容相似度图时存在的诸多缺陷，本发明提供了一种对等网络版权内容相似度图的构建方法及系统。
为了实现上述目的，本发明提供了一种对等网络版权内容相似度图的构建方法，该方法基于用户综合客观行为构建对等网络的版权内容相似度图，所述方法包含：
步骤101）用于数据集预处理的步骤；
步骤102）用于进行节点能力计算的步骤；
步骤103）用于聚类分析，最终完成版权内容相似度图构建的步骤；
其中，所述节点能力计算步骤进一步包含如下子步骤：
步骤102-1）用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤，且任意用户i的综合客观行为模型COB(i)由以下式(1)、(2)、(3)获取：
COB(i)={B(i,j),j∈P},（1）
B(i,j)=(Bup(i,j),Bdown(i,j)),    (2)
Bup(i,j)=Bdown(i,j)=(status(i,j),duration(i,j),frequency(i,j),type(i,j))(3)
其中，COB(i)表示用户i的综合客观行为模型，B(i,j)表示用户i作用于版权内容j的行为，Bup(i,j)表示用户i上传版权内容j，Bdown(i,j)表示用户i下载版权内容j，status(i,j)表示用户i作用于版权内容j的当前状态，duration(i,j)表示用户i作用于版权内容j的持续时间，frequency(i,j)表示用户i作用于版权内容j的次数，type(i,j)表示系统针对用户i作用于版权内容j的客观行为的性质判定；
步骤102-2）用于基于版权内容扩散能力进行若干次的层次过滤的步骤；
步骤102-3）用于对版权内容节点进行颜色标定的步骤。
上述技术方案中，所述步骤101）对爬虫获得的数据集进行了两次过滤操作，留下能够构建版权内容相似度图的用户节点集和节点关系集。
上述技术方案中，所述步骤102-1）进一步包含如下子步骤：
首先，对过滤留下的用户节点集及节点关系集进行用户威胁度计算，并基于大量量化的用户威胁度统计建立用户威胁等级；
然后，再对用户威胁度进行加权求和，计算得到版权内容节点的扩散能力，并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中，且所述加权操作的系数依据用户威胁等级进行赋值。
上述技术方案中，所述用户威胁度采用下式获取：
T(i)=ωup·Tup(i)+ωdown·Tdown(i)    (4)
Tup(i)=Σi&Element;U,j&Element;P,(i,j)&Element;Eωjup·tup(i,j)---(5)]]>
Tdown(i)=Σi&Element;U,j&Element;P,(i,j)&Element;Eωjdown·tdown(i,j)---(6)]]>
tup(i,j)=type(i,j)·status(i,j)·duration(i,j)    (7)
tdown(i,j)=type(i,j)·status(i,j)·duration(i,j)  (8)
其中，T(i)表示用户i行为的总体威胁度；Tup(i)和Tdown(i)分别指代用户i上传行为、下载行为的威胁度；ωup和ωdown分别指代用户上传行为、下载行为的威胁度权重；tup(i，j)和tdown(i，j)分别指代用户i上传、下载版权内容j的威胁度；和分别指代上传、下载版权内容j的威胁度权重；type(i，j)、status(i，j)和duration(i，j)表示用户客观行为参数；
其中，用户的威胁度与用户的客观行为存在正相关的关系，  即T(i)。∝B(i)，并且tup(i，j)∝ Bup(i，j)，tdown(i，j)∝ Bdown(i，j)，即用户的客观行为严重程度越高，则用户的威胁能力也就越大。
上述技术方案中，所述步骤103)进一步包含：
首先，利用REGKM算法对CCSG图中的各节点进行聚类，该算法采用Dijkstra算法来计算任意两点之间的最小距离，通过多次迭代，把距上次迭代选定的k个中心点相近的节点划分成一簇，划分出k个聚类；
然后，接着进行二次簇内聚类即对划分出的每个聚类再次进行一次聚类操作该聚类操作是通过计算簇内节点问的扩散能力的相似度，把扩散能力大小相近的节点聚集到一起，形成簇内扩散能力相近，簇间扩散能力相差较大的两个分簇。
基于上述方法本发明还提供了一种对等网络版权内容相似度图的构建系统，该系统基于用户综合客观行为构建对等网络的版权内容相似度图，所述系统包含：
预处理模块，用于对数据集进行预处理；
节点能力计算模块，用于进行节点能力计算；
聚类处理模块，用于聚类分析，最终完成版权内容相似度图构建；
其中，所述节点能力计算模块进一步包含：
第一处理子模块，用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤，且任意用户i的综合客观行为模型COB(i)由以下式(1)、(2)、(3)获取：
COB(i)＝{B(i，j)，j∈P}，  (1)
B(i，j)＝(Bup(i，j)，Bdown(i，j))，    (2)
Bup(i，j)＝Bdown(i，j)＝(status(i，j)，duration(i，j)，frequency(i，j)，type(i，j))  (3)
其中，COB(i)表示用户i的综合客观行为模型，B(i，j)表示用户i作用于版权内容j的行为，  Bup(i，j)表示用户i上传版权内容j，Bdown(i，j)表示用户i下载版权内容j，status(i，j)表示用户i作用于版权内容j的当前状态，duration(i，j)表示用户 i作用于版权内容j的持续时间，frequency(i,j)表示用户i作用于版权内容j的次数，type(i,j)表示系统针对用户i作用于版权内容j的客观行为的性质判定；
过滤子模块，用于基于版权内容扩散能力进行若干次的层次过滤；
颜色标定子模块，用于对版权内容节点进行颜色标定。
上述技术方案中，所述预处理模块对爬虫获得的数据集进行了两次过滤操作，留下能够构建版权内容相似度图的用户节点集和节点关系集。
上述技术方案中，所述第一处理子模块进一步包含：
威胁度计算单元，用于对过滤留下的用户节点集及节点关系集进行用户威胁度计算，并基于大量量化的用户威胁度统计建立用户威胁等级；
扩散能力获取单元，用于对用户威胁度进行加权求和，计算得到版权内容节点的扩散能力，并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中，且所述加权操作的系数依据用户威胁等级进行赋值。
上述技术方案中，所述聚类处理模块进一步包含：
第一聚类子模块，用于利用REGKM算法对初步CCSG图中的各节点进行聚类，该算法首先采用Dijkstra算法来计算任意两点之间的最小距离，通过多次迭代，把距上次迭代选定的k个中心点相近的节点划分成一簇，划分出k个聚类；
第二聚类子模块，用于将第一聚类子模块处理的结果进行二次簇内聚类，即对划分出的每个聚类再次进行一次聚类操作，该聚类操作是通过计算簇内节点间的扩散能力的相似度，把扩散能力大小相近的节点聚集到一起，形成簇内扩散能力相近，簇间扩散能力相差较大的两个分簇。
与现有技术相比，本发明的技术优势在于：
1、首次在CCSG构建过程中建立包括事件行为、行为时间、行为数量和行为性质在内的用户综合客观行为模型，对用户威胁度和内容扩散能力提出了量化标准；
2、首次基于该综合客观行为模型，计算用户威胁程度和内容扩散趋势，并综合GKM聚类算法，提出了改进的REGKM强化聚类算法。在一个聚类中划分出内容扩散能力大、小的两个分簇，从而得以利用CCSG对P2P网络中版权内容传播进行细粒度地监管和预警。
附图说明
图1为现有技术的CCSG结构示意图；
图2为本发明的基于用户客观行为的CCSG构建流程图；
图3为本发明的层次筛选筐；
图4为本发明的CCSG构建后期采用的REGKM算法；
图5为本发明的版权内容相似性测度转换函数的示意图。
具体实施方式
下面结合附图和实施例对本发明进行进一步说明。
●基于用户综合客观行为的CCSG构建
在P2P网络中爬虫获得的数据集，经过建模分析可以看做为一个二分图G(V,E)，连接用户和版权内容，即V分为两个互不相交的子集——用户点集U和版权内容点集P，而E中的每一条边(i,j)则表示用户i拥有版权内容j，其端点分属于两个不同的点集，即i∈U，j∈P。而带权无向图CCSG则是依托二分图G，对其进行变换而得以构建起来。在CCSG中，每一个节点代表一个版权内容，两个节点之间的一条边则表示存在用户同时分享了这两个版权内容，而边的权重则表征了两个版权内容的相似度大小，这取决于同时分享两个版权内容的用户多少，即CCSG中边的权重越大，则存在越多的用户分享同样的两个版权内容，那么这两个版权内容的相似度越高。
1）用户综合客观行为模型
可以看出，在G(V,E)中，(i,j)∈E,仅仅蕴含了用户的部分事件行为，即用户i拥有（下载完）版权内容j，而对于用户i的行为时间、行为数量和行为性质并没有涉及。因此建立用户i的综合客观行为模型COB(i)i由以下式(1)、(2)、(3)组成。
COB(i)={B(i,j),j∈P},          (1)
B(i,j)=(Bup(i,j),Bdown(i,j)),    (2)
Bup(i,j)=Bdown(i,j)=(status(i,j),duration(i,j),frequency(i,j),type(i,j))(3)
其中COB(i)表示用户i的综合客观行为模型，B(i,j)表示用户i作用于版权内容j的行为，Bup(i,j)表示用户i上传版权内容j，Bdown(i,j)表示用户i下载版权内容j，status(i,j)表示用户i作用于版权内容j的当前状态，duration(i,j)表示用户i作用于版权内容j的持续时间，frequency(i,j)表示用户i作用于版权内容j的次数，type(i,j)表示系统针对用户i作用于版权内容j的客观行为的性质判定。
由式(1)所示，用户综合客观行为模型描述的是在G(V,E)的节点集V=U∪P中，U中的任意用户对其所涉及的P中的版权内容的作用集合。为减少不必要的系统开销，同时更多地关注与用户对其相关的版权内容的作用情况，COB模型针对某一用户，仅仅记录其涉及的版权内容的集合。
不同于用户-内容二分图单纯包含用户对版权内容拥有状态的描述，用户综合客观行为模型则针对用户做了状态与行为全面的描述，而这种客观行为既包含用户的下载行为同时又包含用户的上传行为。通过对用户的状态和行为的全面描述，系统能更加准确全面地定位该用户的性质，判断用户的威胁程度和预测内容扩散趋势。这一点可以从式(2)的结构可以看出。
为准确描述用户的上传下载两类客观行为，如式(3)所示，系统采用四个参数变量status(i,j),duration(i,j),frequency(i,j),type(i,j)来对用户行为的当前状态、持续时间、累积次数以及行为性质做了全面准确的刻画。四个参数的描述如表1所示：
表1.用户客观行为参数描述

需要指出的是，对于行为持续时间duration(i,j)中的上传行为，只要行为持续进行就对其持续累计时长，而对于下载行为，在完成下载后则终止计算其下载时长。累计时长的最大取值为系统采用的double类型的最大值MAX_DOUBLE。用户行为的累积次数frequency(i,j)，其最小值为1，表示用户i只对版权内容j进行过一次完整的上传或下载行为。累计次数的最大值为系统对相应计数器采用的int类型的最大值MAX_INT。
有别于前三个参数的定量分析，系统会根据前三个参数来考量用户客观行为的严重程度，利用行为性质参数对其行为进行性质标定。通过分析对用户客观行为的既往历史记录，系统会给用户的客观行为标定为两个级别——偶尔和常见。
系统通过上述四个参数，从不同角度来刻画用户客观行为，能够准确描述用户行为，为判定用户的威胁程序提供了一个量化的度量标准。
2）用户威胁程度判断
由于上传行为和下载行为从影响范围上讲对于版权内容的传播起到了不同的作用，不能简单将两者的作用划等号。因此，用户客观行为是上传行为主导还是下载行为占优，都会左右用户威胁程度的最终判定。为此，系统采用如式(4)、(5)、(6)所示的加权方式来表示用户的威胁程度。
T(i)=ωup·Tup(i)+ωdown·Tdown(i)    (4)
Tup(i)=Σi&Element;U,j&Element;P,(i,j)&Element;Eωjup·tup(i,j)---(5)]]>
Tdown(i)=Σi&Element;U,j&Element;P,(i,j)&Element;Eωjdown·tdown(i,j)---(6)]]>
tup(i,j)=type(i,j)·status(i,j)·duration(i,j)    (7)
tdown(i,j)=type(i,j)·status(i,j)·duration(i,j)  (8)
式中的变量说明如表2所示：
表2.用户威胁度模型变量说明

用户上传下载行为的权重取值区间分别为ωup∈[0.5,1]、ωdown∈[0,0.5]，并且ωup+ωdown=1。版权内容的冷热有度，对于热门版权内容的传播威胁度明显要高于对冷门版权内容的传播，因而用户上传行为的威胁度根据用户上传的各个版权内容的冷热度对用户上传单个版权内容的威胁度进行加权求和得到，同理用户下载行为也是对单个下载行为的加权求和。用户的威胁度与用户的客观行为存在一种正相关的关系，即T(i)∝B(i),并且tup(i,j)∝Bup(i,j),tdown(i,j)∝Bdown(i,j)，意指用户的客观行为严重程度越高，则用户的威胁能力也就越大。不同行为性质（偶尔/常见）的用户行为导致用户具有不同的威胁程度，用户当前所处状态以及行为持续时间都会对用户的威胁度计算带来正向的影响，利用描述用户客观性的参数也就同样能够直观地表达出用户上传下载行为的威胁度，因而type(i,j)、status(i,j)、duration(i,j)作为正相关因子参与到了tup(i,j)、tdown(i,j)的计算，为此，系统采用的计算方法式(7)、(8)所示。至此，用户行为威胁度得到了量化的度量方法，然后系统根据数据集中大量用户的威胁度统计建立用户威胁等级——严重、高、中、低，为以后的内容扩散能力计算、CCSG构建和更新提供参考。需要特别说明的是，这里只有用户客观行为的三个参数直接参与到了用户威胁度计算，frequency(i，ij)虽然没有直接参与，但其对用户性质的标定起到了决定性的作用，如果用户对于某版权内容的客观行为累计次数未超过系统设定阈值θ，那么系统会忽略用户的该客观行为的威胁度，为此，系统采用公式(9)所示的换算公式。

由公式(9)可知，当frequency(i,j)<θ，type(i,j)=0，而当frequency(i,j)≥θ，type(i,j)=1。
需要补充的是为使字符串类型的type(i,j)、status(i,j)能直接参与客观行为威胁度计算，系统将其相应字符串子转化为整数值，以表征不同的值所反映的程度，具体见表1参数解释。
3）内容扩散能力预测
CCSG构建的落脚点在于版权内容以及内容间的关联，而用户主导版权内容，版权内容的传播扩散也就伴随着用户的客观行为而自然发生，用户行为威胁度的高低也就直接影响了其所上传下载的版权内容的扩散能力。为量化版权内容扩散能力大小，系统采用公式(10)所示的计算方法。
S(j)=Σi&Element;U,(i,j)&Element;Eωi·T(i)---(10)]]>
其中，S(j)表示版权内容j的扩散能力，T(i)表示用户i的威胁度。不同威胁度的用户对于其涉及的版权内容的扩散能力具有不同的影响，威胁度大的用户从直觉上讲其所涉及的版权内容的扩散能力就更为强大，威胁度小的用户，其相关版权内容扩散能力也就相对较小。为此，采用对用户威胁度加权求和的方法来计算版权内容的扩散能力。这里系统根据先前获得的用户威胁度等级赋予不同层次威胁度的用户以不同的权重，如表3所示：
表3.用户威胁度与威胁度权重对应表
  用户威胁度值区间  用户威胁度等级  威胁度权重  [0,10]  低  0.1  (10,20]  中  0.2  (20,30]  高  0.3  (30,40]  严重  0.4
加权计算能体现出不同威胁度用户对同一版权内容扩散能力计算的贡献比重，从而求得更为公正合理的版权内容扩散能力。
4）改进CCSG构建流程
为构建满足上述描述的CCSG，我们进行了三大步操作：数据集预处理、节点能力计算以及后期聚类分析。CCSG的整体构建过程如图2所示：
有效过滤并减少“噪声”数据的干扰，能够为以后的数据处理与分析提供可靠的基础。在数据集预处理阶段，系统对爬虫获得的数据集进行了两过滤操作，留下能够有效构建CCSG的有意义的节点集和节点关系集。
经过数据集预处理模块对数据的重重过滤，留下的版权内容节点已经可以组成CCSG的初始结构。接下来，有别于普通CCSG构建过程中的直接进入第三次剪枝的过滤操作，本发明将原始CCSG构建数据集预处理模块和CCSG后期构建模块之间添加了节点能力构建模块。该节点能力构建模块旨在利用前文所述的发明内容，为不同扩散能力的版权内容节点添加不同的颜色属性，以可视化表示其扩散能力大小。在监控网络版权内容传播时，系统可以观察CCSG中不同颜色的（不同扩散能力的）版权内容在整个P2P网络中的分布情况，例如红色节点聚集的地区就是版权内容违法传播行为严重的地区。点开某一个节点，即看到与该节点相关的用户的版权内容传播行为的当前状态，这样就为利用CCSG来细粒度地监控网络版权内容提供了极佳的辅助工具。
在节点能力计算模块中，我们首先对经过过滤留下来的用户节点对其进行用户威胁度计算，然后再利用该中间结果对其进行加权求和，计算得到版权内容节点的扩散能力。用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中。在层次化过滤环节，系统预设了三个“筛选筐”，筛选框的筛孔直径根据系统对版权内容扩散能力的长期记录和分布统计而预设为三个规格——30、20、10。节点“筛选过程”的形象化展示如图3所示。
其中红、黄、绿、蓝球分别代表不同扩散能力的版权内容节点，红球所代表的版权内容的扩散能力最强，其能力范围在30以上，系统会首先将这些版权内容筛选出来，为其添加字符串类型的颜色属性color，并通过颜色标定模块赋值为RED。依此类推，不同扩散能力的版权内容都添加颜色属性，并分别赋值，具体如表4所示：
表4.版权内容扩散能力属性所在区间与颜色属性的对应表
  扩散能力区间  颜色属性  [0,10)  BLUE  [10,20)  GREEN  [20,30)  YELLOW  [30,40]  RED
这样就完成了节点能力计算模块的各个流程，CCSG也已基本构建完成。接下来系统进入CCSG后期构建模块。该模块的改进之处在于提出了对GKM补充完善的新算法——REGKM。经过REGKM聚类算法的聚集，操作后扩散能力相近的节点得以进一步分类聚集到一起。
在CCSG的构建后期，通过进一步的聚类操作，能够把相似度较高的版权内容聚集成簇，利用簇中版权内容相似度高的特点可以解决某些版权内容元信息缺失或错误的情况，提高该版权内容在CCSG的贡献度。而适应CCSG的有效聚类算法是系统构建CCSG第三步的关键。在原始CCSG构建后期，系统采用的是GKM(Graphic k-medoids)算法。该算法在k-medoids算法的基础上进行一系列的改进，以使算法得以直接作用于CCSG图。在改进的CCSG构建过程里，我们在GKM的基础上，对其进行改进提出了新的聚类算法REGKM(REinforced GKM)。新算法利用节点扩散能力相似度的概念来进一步划分同一聚类中的节点，二分成两簇。新簇中的节点间扩散能力相近，而簇间节点间扩散能力相差较大，本发明采用的REGKM算法流程如图4所示，具体描述如下：
Step1.在初步形成的CCSG图上随机选择k个内容节点作为初始簇中心，其中该初步形成的CCSG图即为依据节点扩散能力构建的添加了不同的颜色属性的CCSG图；
Step2.判断选出的k个节点中任意两点之间的距离是否小于系统预设阈值m（系统提供自定义入口，用户可根据实际系统性能需求自行定制），如果小于m，则重新回到Step1选择k个节点；
Step3.对于CCSG图中任意一个节点i，利用求图中任意两点间最短距离的Dijkstra算法计算其到k个中心节点的距离值，并对其按升序排序；
Step4.取排名前两名的距离值，并找到对应的两个距离最近的簇；
Step5.判断节点i到两簇中心距离的差值是否小于系统预设的阈值δ，即判断节点i到两簇的距离是否大致相等，如果距离相近，则节点i加入两簇中节点数目较少的簇中，否则加入距离最近的簇中；
Step6.重复进行Step3~5，直到CCSG图中所有点都完成聚类操作，对前五步获得的k个聚类重新计算聚类中心即为最终的聚类中心。需要指出的是由于CCSG图的巨大规模以及热门版权内容的存在，节点会围绕热门内容节点快速膨胀，并最终形成稳定的k个聚类，因而只需一次迭代即完成聚类中心的选择；
Step7.对生成的k个簇中的每个簇，系统接着在其中随机选择两个初始分簇中心；
Step8.计算簇中的每个节点到分簇中心的距离，并将节点归类于较近的一个分簇中；
Step9.对于每个簇重复进行Step7、8直到形成两个稳定的分簇，并最终完成CCSG图的构建。
在Step8的二分成两簇过程中，REGKM采用的是节点间的距离测度，而CCSG边提供的是权重测度，二者在估量两个版权内容的扩散能力相似性方面采用的是两个相反的角度，即两个版权内容扩散能力相似度越大，则节点间距离越小，而权重越大。这里的权重是指两有公共边的版权内容的扩散能力相似性度数。在可容易获知边权重的情况下，为合理表示节点间的扩散能力距离，系统采用一个恰当的转换函数将两者联系起来，其转换函数采用的函数方法如公式1所示：
d(ω)=-lognω    (11)
其中d表示权重与距离的转换函数，ω表示节点间的权重。函数图像如图5所示：
由图所示，ω的取值范围在(0,1]之间，而随着ω的增大，距离d逐渐减小。该转换函数有效地把版权内容扩散能力相似性测度从权重测度转化为距离测度。
为使边权重ω的取值范围规范化到[0,1]，在使用CCSG边权重之前，系统借助两个版权内容i和j的扩散能力对相应ω进行规范化，其规范化公式如公式2所示：
ω=|sj-sk|max{sj,sk},j&Element;V′,k&Element;V′,(j,k)&Element;E′---(12)]]>
其中ω表示规范化权重，sj、sk则分别表示版权内容j、k的扩散能力，V＇、E＇分别是CCSG的点集和边集。
这样，利用版权内容扩散能力相似度，对原GKM算法获得的聚类进一步地聚类，划分出两个簇内扩散能力相似性高，簇间扩散能力相似性差异性大的两个分簇。系统通过区别对待两簇，有利于对P2P网络开展细粒度的监管工作。
最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

资源描述

《一种对等网络版权内容相似度图的构建方法及系统.pdf》由会员分享，可在线阅读，更多相关《一种对等网络版权内容相似度图的构建方法及系统.pdf（19页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103544407 A (43)申请公布日 2014.01.29 CN 103544407 A (21)申请号 201210240796.9 (22)申请日 2012.07.11 G06F 21/10(2013.01) (71)申请人中国科学院声学研究所地址 100190 北京市海淀区北四环西路 21 号 (72)发明人曲本科牛温佳童恩栋苗光胜谭红艳慈松唐晖 (74)专利代理机构北京法思腾知识产权代理有限公司 11318 代理人杨小蓉杨青 (54) 发明名称一种对等网络版权内容相似度图的构建方法及系统 (57) 摘要本发明提供了一种对等。

2、网络版权内容相似度图的构建方法及系统，该方法基于用户综合客观行为构建对等网络的版权内容相似度图，所述方法包含：步骤 101）用于数据集预处理的步骤；步骤 102）用于进行节点能力计算的步骤；步骤 103）用于聚类分析，最终完成版权内容相似度图构建的步骤；其中，步骤102）进一步包含：步骤102-1）用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤；步骤 102-2）用于基于版权内容扩散能力进行若干次的层次过滤的步骤；步骤 102-3）用于对版权内容节点进行颜色标定的步骤。本发明首次在CCSG构建过程中建立包括事。

3、件行为、行为时间、行为数量和行为性质在内的用户综合客观行为模型，对用户威胁度和内容扩散能力提出了量化标准。 (51)Int.Cl. 权利要求书 3 页说明书 11 页附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书3页说明书11页附图4页 (10)申请公布号 CN 103544407 A CN 103544407 A 1/3 页 2 1. 一种对等网络版权内容相似度图的构建方法，该方法基于用户综合客观行为构建对等网络的版权内容相似度图，所述方法包含：步骤 101）用于数据集预处理的步骤；步骤 102）用于进行节点能力计算的。

4、步骤；步骤 103）用于聚类分析，最终完成版权内容相似度图构建的步骤；其中，所述节点能力计算步骤进一步包含如下子步骤：步骤 102-1）用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤，且任意用户 i 的综合客观行为模型 COB(i) 由以下式 (1)、 (2)、 (3) 获取： COB(i)=B(i,j),j P,（1） B(i,j)=(Bup(i,j),Bdown(i,j), (2) Bup(i,j)=Bdown(i,j)=(status(i,j),duration(i,j),frequency(i,j),type(i,j)(3) 其中， COB(i)。

5、表示用户 i 的综合客观行为模型， B(i,j) 表示用户 i 作用于版权内容 j 的行为， Bup(i,j) 表示用户 i 上传版权内容 j， Bdown(i,j) 表示用户 i 下载版权内容 j， status(i,j) 表示用户 i 作用于版权内容 j 的当前状态， duration(i,j) 表示用户 i 作用于版权内容 j 的持续时间， frequency(i,j) 表示用户 i 作用于版权内容 j 的次数， type(i,j) 表示系统针对用户 i 作用于版权内容 j 的客观行为的性质判定；步骤 102-2）用于基于版权内容扩散能力进行若干次的层次过滤的步骤；步骤 1。

6、02-3）用于对版权内容节点依据节点的扩散能力进行颜色标定的步骤。 2. 根据权利要求 1 所述的对等网络版权内容相似度图的构建方法，其特征在于，所述步骤 101）对爬虫获得的数据集进行了两次过滤操作，留下能够构建版权内容相似度图的用户节点集和节点关系集。 3. 根据权利要求 2 所述的对等网络版权内容相似度图的构建方法，其特征在于，所述步骤 102-1）进一步包含如下子步骤：首先，对过滤留下的用户节点集及节点关系集进行用户威胁度计算，并基于大量量化的用户威胁度统计建立用户威胁等级；然后，再对用户威胁度进行加权求和，计算得到版权内容节点的扩散能力，并将。

7、用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中，且所述加权操作的系数依据用户威胁等级进行赋值。 4. 根据权利要求 3 所述的对等网络版权内容相似度图的构建方法，其特征在于，所述用户威胁度采用下式获取： T(i) upTup(i)+downTdown(i) (4) tup(i， j) type(i， j)status(i， j)duration(i， j) (7) tdown(i， j) type(i， j)status(i， j)duration(i， j) (8) 其中， T(i)表示用户i行为的总体威胁度； Tup(i)和Tdown(i)分别指代用户。

8、i上传行为、下载行为的威胁度； up和 down分别指代用户上传行为、下载行为的威胁度权重； tup(i， j) 权利要求书 CN 103544407 A 2 2/3 页 3 和 tdown(i， j) 分别指代用户 i 上传、下载版权内容 j 的威胁度；和分别指代上传、下载版权内容 j 的威胁度权重； type(i， j)、 status(i， j) 和 duration(i， j) 表示用户客观行为参数；其中，用户的威胁度与用户的客观行为存在正相关的关系，即 T(i) B(i)，并且 tup(i， j) Bup(i， j)， tdown(i， j) B。

9、down(i， j)，即用户的客观行为严重程度越高，则用户的威胁能力也就越大。 5. 根据权利要求 3 所述的对等网络版权内容相似度图的构建方法，其特征在于，所述步骤 103) 进一步包含：首先，利用 REGKM 算法对 CCSG 图中的各节点进行聚类，该算法采用 Dijkstra 算法来计算任意两点之间的最小距离，通过多次迭代，把距上次迭代选定的 k 个中心点相近的节点划分成一簇，划分出 k 个聚类；然后，接着进行二次簇内聚类即对划分出的每个聚类再次进行一次聚类操作该聚类操作是通过计算簇内节点问的扩散能力的相似度，把扩散能力大小相近的节点聚集到一起，。

10、形成簇内扩散能力相近，簇间扩散能力相差较大的两个分簇。 6. 一种对等网络版权内容相似度图的构建系统，该系统基于用户综合客观行为构建对等网络的版权内容相似度图，所述系统包含：预处理模块，用于对数据集进行预处理；节点能力计算模块，用于进行节点能力计算；聚类处理模块，用于聚类分析，最终完成版权内容相似度图构建；其中，所述节点能力计算模块进一步包含：第一处理子模块，用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤，且任意用户 i 的综合客观行为模型 COB(i) 由以下式 (1)、 (2)、 (3) 获取： COB(i)=B(i,j),j 。

11、P,（1） B(i,j)=(Bup(i,j),Bdown(i,j), (2) Bup(i,j)=Bdown(i,j)=(status(i,j),duration(i,j),frequency(i,j),type(i,j)(3) 其中， COB(i) 表示用户 i 的综合客观行为模型， B(i,j) 表示用户 i 作用于版权内容 j 的行为， Bup(i,j) 表示用户 i 上传版权内容 j， Bdown(i,j) 表示用户 i 下载版权内容 j， status(i,j) 表示用户 i 作用于版权内容 j 的当前状态， duration(i,j) 表示用户 i 作用于版权内容 j 的持续时间，。

12、 frequency(i,j) 表示用户 i 作用于版权内容 j 的次数， type(i,j) 表示系统针对用户 i 作用于版权内容 j 的客观行为的性质判定；过滤子模块，用于基于版权内容扩散能力进行若干次的层次过滤；颜色标定子模块，用于对版权内容节点进行颜色标定。 7. 根据权利要求 6 所述的对等网络版权内容相似度图的构建系统，其特征在于，所述预处理模块对爬虫获得的数据集进行了两次过滤操作，留下能够构建版权内容相似度图的用户节点集和节点关系集。 8. 根据权利要求 6 所述的对等网络版权内容相似度图的构建系统，其特征在于，所述第一处理子模块进一步包含：威胁度。

13、计算单元，用于对过滤留下的用户节点集及节点关系集进行用户威胁度计算，并基于大量量化的用户威胁度统计建立用户威胁等级；权利要求书 CN 103544407 A 3 3/3 页 4 扩散能力获取单元，用于对用户威胁度进行加权求和，计算得到版权内容节点的扩散能力，并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中，且所述加权操作的系数依据用户威胁等级进行赋值。 9. 根据权利要求 8 所述的对等网络版权内容相似度图的构建系统，其特征在于，所述用户威胁度采用下式获取： T(i)=upTup(i)+downTdown(i) (4) tup(i,j。

14、)=type(i,j)status(i,j)duration(i,j) (7) tdown(i,j)=type(i,j)status(i,j)duration(i,j) (8) 其中， T(i)表示用户i行为的总体威胁度； Tup(i)和Tdown(i)分别指代用户i上传行为、下载行为的威胁度； up和 down分别指代用户上传行为、下载行为的威胁度权重； tup(i， j) 和 tdown(i， j) 分别指代用户 i 上传、下载版权内容 j 的威胁度；和分别指代上传、下载版权内容 j 的威胁度权重； type(i， j)、 status(i， j) 和 duratio。

15、n(i， j) 表示用户客观行为参数；其中，用户的威胁度与用户的客观行为存在正相关的关系，即 T(i) B(i)，并且 tup(i， j) Bup(i， j)， tdown(i， j) Bdown(i， j)，即用户的客观行为严重程度越高，则用户的威胁能力也就越大。 10. 根据权利要求 3 所述的对等网络版权内容相似度图的构建方法，其特征在于，所述聚类处理模块进一步包含：第一聚类子模块，用于利用 REGKM 算法对初步 CCSG 图中的各节点进行聚类，该算法首先采用 Dijkstra 算法来计算任意两点之间的最小距离，通过多次迭代，把距上次迭代选定的。

16、k 个中心点相近的节点划分成一簇，划分出 k 个聚类；第二聚类子模块，用于将第一聚类子模块处理的结果进行二次簇内聚类，即对划分出的每个聚类再次进行一次聚类操作，该聚类操作是通过计算簇内节点间的扩散能力的相似度，把扩散能力大小相近的节点聚集到一起，形成簇内扩散能力相近，簇间扩散能力相差较大的两个分簇。权利要求书 CN 103544407 A 4 1/11 页 5 一种对等网络版权内容相似度图的构建方法及系统技术领域 0001 本发明涉及 P2P 网络版权内容传播过程中内容相似度图的构建方法，该方法基于发明的用户综合客观行为模型，在原 CCSG 图基础上建。

17、立用户威胁度及版权内容扩散能力模型，为系统建立预警机制及时发现版权侵害行为提供理论支持和指导，即本发明具体提供一种对等网络版权内容相似度图的构建方法及系统。背景技术 0002 对等网络技术（P2P技术）已被广泛应用于集群计算、协同工作、搜索引擎和文件共享与交换等方面。由于P2P技术的核心是点对点的传播模式，因而相较于传统的客户-服务器的集中处理模式，网络内容传播的管理与控制更为复杂和困难。从目前状况来看，这主要体现在两个方面：对不良内容的传播控制更为复杂和对版权管理更为困难。以 P2P 文件共享与交换软件 BT 为例，它克服了传统下载方式的局限性，具。

18、有参与下载的人越多，文件下载速度越快的特点。BT 软件自动将一个文件分割成若干块，当某一 PC 节点在进行下载，它也作为一个对外提供服务的节点，向其他 PC 供应已经下载的文件块。最终，来自不同节点的文件块在一台 PC 上融合成了一个完整的文件。从上述 P2P 文件共享与交换的工作原理可以看出，一台 PC 在进行下载的同时，也自动进行着上传的行为，成为一台临时的服务器。因此，从版权角度来讲，鉴于 P2P 技术导致受侵害的用户和版权的数量、范围急剧增加的状况，对版权内容的传播分析与管控变得紧迫和必要。 0003 目前版权内容的传播分析研究主要集中在内容检测和内。

19、容关系网络挖掘两个方面。内容检测主要是利用数字水印及 DNA 等技术来检测某个音 / 视频内容是否属于盗版内容；而内容关系网络挖掘旨在通过揭示内容之间的相似度关系来深入发掘 P2P 用户之间的文件共享关系，深刻反映对等网络内容交互与分布的内部结构，为传播分析与管控提供有效支持。在相关工作中，部分研究者提出了版权内容相似度图（Copyright Content Similarity Graph， CCSG）的概念，对P2P网络内容相似度图的构建和分析进行了相关研究。 0004 CCSG由内容节点和带权无向边组成，如图1所示。其中，内容节点表示某个音/视频内容，可。

20、以综合运用内容名称及内容描述元数据来标识；若存在某个用户同时拥有两个内容，则对应的内容节点可通过无向边连接，特别地，如果同时拥有两个内容的用户数目越大，则意味着内容之间的相似，度越大，对应的无向边权重也越大。 0005 通过分析我们发现，在 CCSG 构建过程中，仅仅定性地分析了用户客观行为的事件行为，主要指某个用户下载了某个内容或某个用户上传了某个内容，而对于用户客观行为中的行为时间、行为数量及行为性质，缺乏定量和定性的分析。这里，行为时间主要指用户下载和提供某个内容上传的持续时间，行为数量主要指用户下载 / 上传了多少个内容，行为性质主要指用户。

21、执行该上传 / 下载行为是偶然行为还是常见行为。我们认为，忽视对用户客观行为的综合定量和定性考虑，将会大大影响内容传播分析与管控的全面性和有效性。CCSG 的构建过程是基于用户客观行为的事件行为，通过后台预处理、过滤、融合等手段分析出所有的内容节点及对应的带权无向边，然后构建 CCSG 的数据存储并最终显示和应说明书 CN 103544407 A 5 2/11 页 6 用。直观上，我们从 CCSG 图中是无法查看事件行为的，只能通过鼠标点击或者命令操作，实现内容节点对应的用户事件行为监视。因此，从 CCSG 的应用角度看，仅仅基于事件行为的 CCSG 构建、。

22、显示和应用是无法完全满足监管需求的。除事件行为外，用户的行为时间、行为数量和行为性质，都可以有效帮助管控人员发掘更深层次的用户行为信息。例如，通过行为时间和行为数量的统计分析，可以判断用户是否属于常见侵权行为，进而判断侵权用户的威胁程度和预测侵权内容扩散趋势，达到预先区域预警和管控的目的。 0006 本发明针对上述问题，将围绕对等网络内容相似度图 CCSG，综合考虑用户客观行为的多个方面，对 CCSG 构建方法做出重要改进。与原有方法相比，本发明具有的创新之处是在 CCSG 构建过程中，首次建立包括事件行为、行为时间、行为数量和行为性质在内的用户综合。

23、客观行为模型；基于该综合客观行为模型，计算用户威胁程度和内容扩散趋势，并将计算结果导入 REGKM 聚类算法，从数据预处理和聚类两个步骤对整个构建过程分别实现一头一尾的改进，提高 CCSG 的全面性和准确性。发明内容 0007 本发明的目的在于，为克服现有技术在构建对等网络版权内容相似度图时存在的诸多缺陷，本发明提供了一种对等网络版权内容相似度图的构建方法及系统。 0008 为了实现上述目的，本发明提供了一种对等网络版权内容相似度图的构建方法，该方法基于用户综合客观行为构建对等网络的版权内容相似度图，所述方法包含： 0009 步骤 101）用于数据集预处理的步。

24、骤； 0010 步骤 102）用于进行节点能力计算的步骤； 0011 步骤 103）用于聚类分析，最终完成版权内容相似度图构建的步骤； 0012 其中，所述节点能力计算步骤进一步包含如下子步骤： 0013 步骤 102-1）用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤，且任意用户 i 的综合客观行为模型 COB(i) 由以下式 (1)、 (2)、 (3) 获取： 0014 COB(i)=B(i,j),j P,（1） 0015 B(i,j)=(Bup(i,j),Bdown(i,j), (2) 0016 Bup(i,j)=Bdown(i,j)=(statu。

25、s(i,j),duration(i,j),frequency(i,j),type(i, j)(3) 0017 其中， COB(i) 表示用户 i 的综合客观行为模型， B(i,j) 表示用户 i 作用于版权内容 j 的行为， Bup(i,j) 表示用户 i 上传版权内容 j， Bdown(i,j) 表示用户 i 下载版权内容 j， status(i,j) 表示用户 i 作用于版权内容 j 的当前状态， duration(i,j) 表示用户 i 作用于版权内容 j 的持续时间， frequency(i,j) 表示用户 i 作用于版权内容 j 的次数， type(i,j) 表示系统针对用户 i。

26、作用于版权内容 j 的客观行为的性质判定； 0018 步骤 102-2）用于基于版权内容扩散能力进行若干次的层次过滤的步骤； 0019 步骤 102-3）用于对版权内容节点进行颜色标定的步骤。 0020 上述技术方案中，所述步骤 101）对爬虫获得的数据集进行了两次过滤操作，留下能够构建版权内容相似度图的用户节点集和节点关系集。 0021 上述技术方案中，所述步骤 102-1）进一步包含如下子步骤： 0022 首先，对过滤留下的用户节点集及节点关系集进行用户威胁度计算，并基于大量说明书 CN 103544407 A 6 3/11 页 7 量化的用户威胁度统计建。

27、立用户威胁等级； 0023 然后，再对用户威胁度进行加权求和，计算得到版权内容节点的扩散能力，并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中，且所述加权操作的系数依据用户威胁等级进行赋值。 0024 上述技术方案中，所述用户威胁度采用下式获取： 0025 T(i)=upTup(i)+downTdown(i) (4) 0026 0027 0028 tup(i,j)=type(i,j)status(i,j)duration(i,j) (7) 0029 tdown(i,j)=type(i,j)status(i,j)duration(i,j) (8) 003。

28、0 其中， T(i) 表示用户 i 行为的总体威胁度； Tup(i) 和 Tdown(i) 分别指代用户 i 上传行为、下载行为的威胁度； up和 down分别指代用户上传行为、下载行为的威胁度权重； tup(i， j) 和 tdown(i， j) 分别指代用户 i 上传、下载版权内容 j 的威胁度；和分别指代上传、下载版权内容 j 的威胁度权重； type(i， j)、 status(i， j) 和 duration(i， j) 表示用户客观行为参数； 0031 其中，用户的威胁度与用户的客观行为存在正相关的关系，即 T(i)。 B(i)，并且 tup(i。

29、， j) Bup(i， j)， tdown(i， j) Bdown(i， j)，即用户的客观行为严重程度越高，则用户的威胁能力也就越大。 0032 上述技术方案中，所述步骤 103) 进一步包含： 0033 首先，利用 REGKM 算法对 CCSG 图中的各节点进行聚类，该算法采用 Dijkstra 算法来计算任意两点之间的最小距离，通过多次迭代，把距上次迭代选定的 k 个中心点相近的节点划分成一簇，划分出 k 个聚类； 0034 然后，接着进行二次簇内聚类即对划分出的每个聚类再次进行一次聚类操作该聚类操作是通过计算簇内节点问的扩散能力的相似度，把扩散能力大小相。

30、近的节点聚集到一起，形成簇内扩散能力相近，簇间扩散能力相差较大的两个分簇。 0035 基于上述方法本发明还提供了一种对等网络版权内容相似度图的构建系统，该系统基于用户综合客观行为构建对等网络的版权内容相似度图，所述系统包含： 0036 预处理模块，用于对数据集进行预处理； 0037 节点能力计算模块，用于进行节点能力计算； 0038 聚类处理模块，用于聚类分析，最终完成版权内容相似度图构建； 0039 其中，所述节点能力计算模块进一步包含： 0040 第一处理子模块，用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤，且任意用户 i 的综合客观。

31、行为模型 COB(i) 由以下式 (1)、 (2)、 (3) 获取： 0041 COB(i) B(i， j)， j P， (1) 0042 B(i， j) (Bup(i， j)， Bdown(i， j)， (2) 0043 Bup(i， j) Bdown(i， j) (status(i， j)， duration(i， j)， frequency(i， j)， type(i， j) (3) 0044 其中， COB(i) 表示用户 i 的综合客观行为模型， B(i， j) 表示用户 i 作用于版权内说明书 CN 103544407 A 7 4/11 页 8 容j的行为， Bup(i，。

32、j)表示用户i上传版权内容j， Bdown(i， j)表示用户i下载版权内容j， status(i， j) 表示用户 i 作用于版权内容 j 的当前状态， duration(i， j) 表示用户 i 作用于版权内容 j 的持续时间， frequency(i,j) 表示用户 i 作用于版权内容 j 的次数， type(i,j) 表示系统针对用户 i 作用于版权内容 j 的客观行为的性质判定； 0045 过滤子模块，用于基于版权内容扩散能力进行若干次的层次过滤； 0046 颜色标定子模块，用于对版权内容节点进行颜色标定。 0047 上述技术方案中，所述预处理模块对爬虫获得的数据集进行了。

33、两次过滤操作，留下能够构建版权内容相似度图的用户节点集和节点关系集。 0048 上述技术方案中，所述第一处理子模块进一步包含： 0049 威胁度计算单元，用于对过滤留下的用户节点集及节点关系集进行用户威胁度计算，并基于大量量化的用户威胁度统计建立用户威胁等级； 0050 扩散能力获取单元，用于对用户威胁度进行加权求和，计算得到版权内容节点的扩散能力，并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中，且所述加权操作的系数依据用户威胁等级进行赋值。 0051 上述技术方案中，所述聚类处理模块进一步包含： 0052 第一聚类子模块，用于利用。

34、REGKM 算法对初步 CCSG 图中的各节点进行聚类，该算法首先采用 Dijkstra 算法来计算任意两点之间的最小距离，通过多次迭代，把距上次迭代选定的 k 个中心点相近的节点划分成一簇，划分出 k 个聚类； 0053 第二聚类子模块，用于将第一聚类子模块处理的结果进行二次簇内聚类，即对划分出的每个聚类再次进行一次聚类操作，该聚类操作是通过计算簇内节点间的扩散能力的相似度，把扩散能力大小相近的节点聚集到一起，形成簇内扩散能力相近，簇间扩散能力相差较大的两个分簇。 0054 与现有技术相比，本发明的技术优势在于： 0055 1、首次在 CCSG 构建过程。

35、中建立包括事件行为、行为时间、行为数量和行为性质在内的用户综合客观行为模型，对用户威胁度和内容扩散能力提出了量化标准； 0056 2、首次基于该综合客观行为模型，计算用户威胁程度和内容扩散趋势，并综合 GKM 聚类算法，提出了改进的 REGKM 强化聚类算法。在一个聚类中划分出内容扩散能力大、小的两个分簇，从而得以利用 CCSG 对 P2P 网络中版权内容传播进行细粒度地监管和预警。附图说明 0057 图 1 为现有技术的 CCSG 结构示意图； 0058 图 2 为本发明的基于用户客观行为的 CCSG 构建流程图； 0059 图 3 为本发明的层次筛选筐； 0。

36、060 图 4 为本发明的 CCSG 构建后期采用的 REGKM 算法； 0061 图 5 为本发明的版权内容相似性测度转换函数的示意图。具体实施方式 0062 下面结合附图和实施例对本发明进行进一步说明。 0063 基于用户综合客观行为的 CCSG 构建说明书 CN 103544407 A 8 5/11 页 9 0064 在 P2P 网络中爬虫获得的数据集，经过建模分析可以看做为一个二分图 G(V,E)，连接用户和版权内容，即 V 分为两个互不相交的子集用户点集 U 和版权内容点集 P，而 E 中的每一条边 (i,j) 则表示用户 i 拥有版权内容 j，其端点分属于两个不。

37、同的点集，即 i U， j P。而带权无向图 CCSG 则是依托二分图 G，对其进行变换而得以构建起来。在 CCSG 中，每一个节点代表一个版权内容，两个节点之间的一条边则表示存在用户同时分享了这两个版权内容，而边的权重则表征了两个版权内容的相似度大小，这取决于同时分享两个版权内容的用户多少，即 CCSG 中边的权重越大，则存在越多的用户分享同样的两个版权内容，那么这两个版权内容的相似度越高。 0065 1）用户综合客观行为模型 0066 可以看出，在G(V,E)中， (i,j)E,仅仅蕴含了用户的部分事件行为，即用户i拥有（下载完）版权内容 j，而对于用。

38、户 i 的行为时间、行为数量和行为性质并没有涉及。因此建立用户 i 的综合客观行为模型 COB(i)i 由以下式 (1)、 (2)、 (3) 组成。 0067 COB(i)=B(i,j),j P, (1) 0068 B(i,j)=(Bup(i,j),Bdown(i,j), (2) 0069 Bup(i,j)=Bdown(i,j)=(status(i,j),duration(i,j),frequency(i,j),type(i, j)(3) 0070 其中 COB(i) 表示用户 i 的综合客观行为模型， B(i,j) 表示用户 i 作用于版权内容 j 的行为， Bup(i,j) 表示用户。

39、 i 上传版权内容 j， Bdown(i,j) 表示用户 i 下载版权内容 j， status(i,j) 表示用户 i 作用于版权内容 j 的当前状态， duration(i,j) 表示用户 i 作用于版权内容 j 的持续时间， frequency(i,j) 表示用户 i 作用于版权内容 j 的次数， type(i,j) 表示系统针对用户 i 作用于版权内容 j 的客观行为的性质判定。 0071 由式 (1) 所示，用户综合客观行为模型描述的是在 G(V,E) 的节点集 V=U P 中， U 中的任意用户对其所涉及的 P 中的版权内容的作用集合。为减少不必要的系统开销，同时更多地关注与。

40、用户对其相关的版权内容的作用情况， COB 模型针对某一用户，仅仅记录其涉及的版权内容的集合。 0072 不同于用户 - 内容二分图单纯包含用户对版权内容拥有状态的描述，用户综合客观行为模型则针对用户做了状态与行为全面的描述，而这种客观行为既包含用户的下载行为同时又包含用户的上传行为。通过对用户的状态和行为的全面描述，系统能更加准确全面地定位该用户的性质，判断用户的威胁程度和预测内容扩散趋势。这一点可以从式 (2) 的结构可以看出。 0073 为准确描述用户的上传下载两类客观行为，如式 (3) 所示，系统采用四个参数变量 status(i,j),duration(i,j。

41、),frequency(i,j),type(i,j) 来对用户行为的当前状态、持续时间、累积次数以及行为性质做了全面准确的刻画。四个参数的描述如表 1 所示： 0074 表 1. 用户客观行为参数描述 0075 说明书 CN 103544407 A 9 6/11 页 10 0076 需要指出的是，对于行为持续时间 duration(i,j) 中的上传行为，只要行为持续进行就对其持续累计时长，而对于下载行为，在完成下载后则终止计算其下载时长。累计时长的最大取值为系统采用的 double 类型的最大值 MAX_DOUBLE。用户行为的累积次数 frequency(i,j)，。

42、其最小值为 1，表示用户 i 只对版权内容 j 进行过一次完整的上传或下载行为。累计次数的最大值为系统对相应计数器采用的 int 类型的最大值 MAX_INT。 0077 有别于前三个参数的定量分析，系统会根据前三个参数来考量用户客观行为的严重程度，利用行为性质参数对其行为进行性质标定。通过分析对用户客观行为的既往历史记录，系统会给用户的客观行为标定为两个级别偶尔和常见。 0078 系统通过上述四个参数，从不同角度来刻画用户客观行为，能够准确描述用户行为，为判定用户的威胁程序提供了一个量化的度量标准。 0079 2）用户威胁程度判断 0080 由于上传行为和下载行为从影。

43、响范围上讲对于版权内容的传播起到了不同的作用，不能简单将两者的作用划等号。因此，用户客观行为是上传行为主导还是下载行为占优，都会左右用户威胁程度的最终判定。为此，系统采用如式 (4)、 (5)、 (6) 所示的加权方式来表示用户的威胁程度。 0081 T(i)=upTup(i)+downTdown(i) (4) 0082 说明书 CN 103544407 A 10 7/11 页 11 0083 0084 tup(i,j)=type(i,j)status(i,j)duration(i,j) (7) 0085 tdown(i,j)=type(i,j)status(i,j)dura。

44、tion(i,j) (8) 0086 式中的变量说明如表 2 所示： 0087 表 2. 用户威胁度模型变量说明 0088 0089 用户上传下载行为的权重取值区间分别为up0.5,1、 down0,0.5，并且 up+down=1。版权内容的冷热有度，对于热门版权内容的传播威胁度明显要高于对冷门版权内容的传播，因而用户上传行为的威胁度根据用户上传的各个版权内容的冷热度对用户上传单个版权内容的威胁度进行加权求和得到，同理用户下载行为也是对单个下载行为的加权求和。用户的威胁度与用户的客观行为存在一种正相关的关系，即T(i)B(i),并且t up(i,j)Bup(i,j),td。

45、own(i,j)Bdown(i,j)，意指用户的客观行为严重程度越高，则用户的威胁能力也就越大。不同行为性质（偶尔/常见）的用户行为导致用户具有不同的威胁程度，用户当前所处状态以及行为持续时间都会对用户的威胁度计算带来正向的影响，利用描述用户客观性的参数也就同样能够直观地表达出用户上传下载行为的威胁度，因而 type(i,j)、 status(i,j)、 duration(i,j) 作为正相关因子参与到了 tup(i,j)、 tdown(i,j) 的计算，为此，系统采用的计算方法式 (7)、 (8) 所示。至此，用户行为威胁度得到了量化的度量方法，然后系统根据数。

46、据集中大量用户的威胁度统计建立用户威胁等级严重、高、中、低，为以后的内容扩散能力计算、 CCSG构建和更新提供参考。需要特别说明的是，这里只有用户客观行为的三个参数直接参与到了用户威胁度计算， frequency(i， ij) 虽然没有直接参与，但其对用户性质的标定起到了决定性的作用，如果用户对于某版权内容的客观行为累计次数未超过系统设定阈值，那么系统会忽略用户的该客观行为的威胁度，为此，系统采用公式 (9) 所示的换算公式。 0090 说明书 CN 103544407 A 11 8/11 页 12 0091 由公式 (9) 可知，当 frequency(。

47、i,j)，type(i,j)=0，而当 frequency(i,j) ， type(i,j)=1。 0092 需要补充的是为使字符串类型的 type(i,j)、 status(i,j) 能直接参与客观行为威胁度计算，系统将其相应字符串子转化为整数值，以表征不同的值所反映的程度，具体见表 1 参数解释。 0093 3）内容扩散能力预测 0094 CCSG 构建的落脚点在于版权内容以及内容间的关联，而用户主导版权内容，版权内容的传播扩散也就伴随着用户的客观行为而自然发生，用户行为威胁度的高低也就直接影响了其所上传下载的版权内容的扩散能力。为量化版权内容扩散能力大小，系统采。

48、用公式 (10) 所示的计算方法。 0095 0096 其中， S(j) 表示版权内容 j 的扩散能力， T(i) 表示用户 i 的威胁度。不同威胁度的用户对于其涉及的版权内容的扩散能力具有不同的影响，威胁度大的用户从直觉上讲其所涉及的版权内容的扩散能力就更为强大，威胁度小的用户，其相关版权内容扩散能力也就相对较小。为此，采用对用户威胁度加权求和的方法来计算版权内容的扩散能力。这里系统根据先前获得的用户威胁度等级赋予不同层次威胁度的用户以不同的权重，如表 3 所示： 0097 表 3. 用户威胁度与威胁度权重对应表 0098 用户威胁度值区间用户威胁度等级威胁度权重 0,10 低 0.1 (10,20 中 0.2 (20,30 高 0.3 (30,40 严重 0.4 0099 加权计算能体现出不同威胁度用户对同一版权内容扩散能力计算的贡献比重，从而求得更为公正合理的版权内容扩散能力。 0100 4）改进 CCSG 构建流程 0101 为构建满足上述描述的 CCSG，我们进行了三大步操作：数据集预处理、节点能力计算以及后期聚类分析。CCSG 的整体构建过程如图 2 所示： 0102 有效过滤并减少 “噪声” 。

展开阅读全文