《一种对等网络版权内容相似度图的构建方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种对等网络版权内容相似度图的构建方法及系统.pdf(19页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103544407 A (43)申请公布日 2014.01.29 CN 103544407 A (21)申请号 201210240796.9 (22)申请日 2012.07.11 G06F 21/10(2013.01) (71)申请人 中国科学院声学研究所 地址 100190 北京市海淀区北四环西路 21 号 (72)发明人 曲本科 牛温佳 童恩栋 苗光胜 谭红艳 慈松 唐晖 (74)专利代理机构 北京法思腾知识产权代理有 限公司 11318 代理人 杨小蓉 杨青 (54) 发明名称 一种对等网络版权内容相似度图的构建方法 及系统 (57) 摘要 本发明提供了一种对等。
2、网络版权内容相似度 图的构建方法及系统, 该方法基于用户综合客观 行为构建对等网络的版权内容相似度图, 所述方 法包含 : 步骤 101) 用于数据集预处理的步骤 ; 步 骤 102) 用于进行节点能力计算的步骤 ; 步骤 103) 用于聚类分析, 最终完成版权内容相似度图构建 的步骤 ; 其中, 步骤102) 进一步包含 : 步骤102-1) 用于基于用户综合客观行为计算用户威胁度与版 权内容扩散能力的步骤 ; 步骤 102-2) 用于基于版 权内容扩散能力进行若干次的层次过滤的步骤 ; 步骤 102-3) 用于对版权内容节点进行颜色标定 的步骤。 本发明首次在CCSG构建过程中建立包括 事。
3、件行为、 行为时间、 行为数量和行为性质在内的 用户综合客观行为模型, 对用户威胁度和内容扩 散能力提出了量化标准。 (51)Int.Cl. 权利要求书 3 页 说明书 11 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书11页 附图4页 (10)申请公布号 CN 103544407 A CN 103544407 A 1/3 页 2 1. 一种对等网络版权内容相似度图的构建方法, 该方法基于用户综合客观行为构建对 等网络的版权内容相似度图, 所述方法包含 : 步骤 101) 用于数据集预处理的步骤 ; 步骤 102) 用于进行节点能力计算的。
4、步骤 ; 步骤 103) 用于聚类分析, 最终完成版权内容相似度图构建的步骤 ; 其中, 所述节点能力计算步骤进一步包含如下子步骤 : 步骤 102-1) 用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤, 且任意用户 i 的综合客观行为模型 COB(i) 由以下式 (1)、 (2)、 (3) 获取 : COB(i)=B(i,j),j P,(1) B(i,j)=(Bup(i,j),Bdown(i,j), (2) Bup(i,j)=Bdown(i,j)=(status(i,j),duration(i,j),frequency(i,j),type(i,j)(3) 其中, COB(i)。
5、 表示用户 i 的综合客观行为模型, B(i,j) 表示用户 i 作用于版权内容 j 的行为, Bup(i,j) 表示用户 i 上传版权内容 j, Bdown(i,j) 表示用户 i 下载版权内容 j, status(i,j) 表示用户 i 作用于版权内容 j 的当前状态, duration(i,j) 表示用户 i 作用于 版权内容 j 的持续时间, frequency(i,j) 表示用户 i 作用于版权内容 j 的次数, type(i,j) 表示系统针对用户 i 作用于版权内容 j 的客观行为的性质判定 ; 步骤 102-2) 用于基于版权内容扩散能力进行若干次的层次过滤的步骤 ; 步骤 1。
6、02-3) 用于对版权内容节点依据节点的扩散能力进行颜色标定的步骤。 2. 根据权利要求 1 所述的对等网络版权内容相似度图的构建方法, 其特征在于, 所述 步骤 101) 对爬虫获得的数据集进行了两次过滤操作, 留下能够构建版权内容相似度图的用 户节点集和节点关系集。 3. 根据权利要求 2 所述的对等网络版权内容相似度图的构建方法, 其特征在于, 所述 步骤 102-1) 进一步包含如下子步骤 : 首先, 对过滤留下的用户节点集及节点关系集进行用户威胁度计算, 并基于大量量化 的用户威胁度统计建立用户威胁等级 ; 然后, 再对用户威胁度进行加权求和, 计算得到版权内容节点的扩散能力, 并将。
7、用户威 胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中, 且所述加权操作 的系数依据用户威胁等级进行赋值。 4. 根据权利要求 3 所述的对等网络版权内容相似度图的构建方法, 其特征在于, 所述 用户威胁度采用下式获取 : T(i) upTup(i)+downTdown(i) (4) tup(i, j) type(i, j)status(i, j)duration(i, j) (7) tdown(i, j) type(i, j)status(i, j)duration(i, j) (8) 其中, T(i)表示用户i行为的总体威胁度 ; Tup(i)和Tdown(i)分别指代用户。
8、i上传行为、 下载行为的威胁度 ; up和 down分别指代用户上传行为、 下载行为的威胁度权重 ; tup(i, j) 权 利 要 求 书 CN 103544407 A 2 2/3 页 3 和 tdown(i, j) 分别指代用户 i 上传、 下载版权内容 j 的威胁度 ;和分别指代上传、 下 载版权内容 j 的威胁度权重 ; type(i, j)、 status(i, j) 和 duration(i, j) 表示用户客观行 为参数 ; 其中, 用户的威胁度与用户的客观行为存在正相关的关系, 即 T(i) B(i), 并且 tup(i, j) Bup(i, j), tdown(i, j) B。
9、down(i, j), 即用户的客观行为严重程度越高, 则用户的 威胁能力也就越大。 5. 根据权利要求 3 所述的对等网络版权内容相似度图的构建方法, 其特征在于, 所述 步骤 103) 进一步包含 : 首先, 利用 REGKM 算法对 CCSG 图中的各节点进行聚类, 该算法采用 Dijkstra 算法来计 算任意两点之间的最小距离, 通过多次迭代, 把距上次迭代选定的 k 个中心点相近的节点 划分成一簇, 划分出 k 个聚类 ; 然后, 接着进行二次簇内聚类即对划分出的每个聚类再次进行一次聚类操作该聚类操 作是通过计算簇内节点问的扩散能力的相似度, 把扩散能力大小相近的节点聚集到一起, 。
10、形成簇内扩散能力相近, 簇间扩散能力相差较大的两个分簇。 6. 一种对等网络版权内容相似度图的构建系统, 该系统基于用户综合客观行为构建对 等网络的版权内容相似度图, 所述系统包含 : 预处理模块, 用于对数据集进行预处理 ; 节点能力计算模块, 用于进行节点能力计算 ; 聚类处理模块, 用于聚类分析, 最终完成版权内容相似度图构建 ; 其中, 所述节点能力计算模块进一步包含 : 第一处理子模块, 用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的 步骤, 且任意用户 i 的综合客观行为模型 COB(i) 由以下式 (1)、 (2)、 (3) 获取 : COB(i)=B(i,j),j 。
11、P,(1) B(i,j)=(Bup(i,j),Bdown(i,j), (2) Bup(i,j)=Bdown(i,j)=(status(i,j),duration(i,j),frequency(i,j),type(i,j)(3) 其中, COB(i) 表示用户 i 的综合客观行为模型, B(i,j) 表示用户 i 作用于版权内容 j 的行为, Bup(i,j) 表示用户 i 上传版权内容 j, Bdown(i,j) 表示用户 i 下载版权内容 j, status(i,j) 表示用户 i 作用于版权内容 j 的当前状态, duration(i,j) 表示用户 i 作用于 版权内容 j 的持续时间,。
12、 frequency(i,j) 表示用户 i 作用于版权内容 j 的次数, type(i,j) 表示系统针对用户 i 作用于版权内容 j 的客观行为的性质判定 ; 过滤子模块, 用于基于版权内容扩散能力进行若干次的层次过滤 ; 颜色标定子模块, 用于对版权内容节点进行颜色标定。 7. 根据权利要求 6 所述的对等网络版权内容相似度图的构建系统, 其特征在于, 所述 预处理模块对爬虫获得的数据集进行了两次过滤操作, 留下能够构建版权内容相似度图的 用户节点集和节点关系集。 8. 根据权利要求 6 所述的对等网络版权内容相似度图的构建系统, 其特征在于, 所述 第一处理子模块进一步包含 : 威胁度。
13、计算单元, 用于对过滤留下的用户节点集及节点关系集进行用户威胁度计算, 并基于大量量化的用户威胁度统计建立用户威胁等级 ; 权 利 要 求 书 CN 103544407 A 3 3/3 页 4 扩散能力获取单元, 用于对用户威胁度进行加权求和, 计算得到版权内容节点的扩散 能力, 并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当 中, 且所述加权操作的系数依据用户威胁等级进行赋值。 9. 根据权利要求 8 所述的对等网络版权内容相似度图的构建系统, 其特征在于, 所述 用户威胁度采用下式获取 : T(i)=upTup(i)+downTdown(i) (4) tup(i,j。
14、)=type(i,j)status(i,j)duration(i,j) (7) tdown(i,j)=type(i,j)status(i,j)duration(i,j) (8) 其中, T(i)表示用户i行为的总体威胁度 ; Tup(i)和Tdown(i)分别指代用户i上传行为、 下载行为的威胁度 ; up和 down分别指代用户上传行为、 下载行为的威胁度权重 ; tup(i, j) 和 tdown(i, j) 分别指代用户 i 上传、 下载版权内容 j 的威胁度 ; 和分别指代上传、 下 载版权内容 j 的威胁度权重 ; type(i, j)、 status(i, j) 和 duratio。
15、n(i, j) 表示用户客观行 为参数 ; 其中, 用户的威胁度与用户的客观行为存在正相关的关系, 即 T(i) B(i), 并且 tup(i, j) Bup(i, j), tdown(i, j) Bdown(i, j), 即用户的客观行为严重程度越高, 则用户的 威胁能力也就越大。 10. 根据权利要求 3 所述的对等网络版权内容相似度图的构建方法, 其特征在于, 所述 聚类处理模块进一步包含 : 第一聚类子模块, 用于利用 REGKM 算法对初步 CCSG 图中的各节点进行聚类, 该算法首 先采用 Dijkstra 算法来计算任意两点之间的最小距离, 通过多次迭代, 把距上次迭代选定 的 。
16、k 个中心点相近的节点划分成一簇, 划分出 k 个聚类 ; 第二聚类子模块, 用于将第一聚类子模块处理的结果进行二次簇内聚类, 即对划分出 的每个聚类再次进行一次聚类操作, 该聚类操作是通过计算簇内节点间的扩散能力的相似 度, 把扩散能力大小相近的节点聚集到一起, 形成簇内扩散能力相近, 簇间扩散能力相差较 大的两个分簇。 权 利 要 求 书 CN 103544407 A 4 1/11 页 5 一种对等网络版权内容相似度图的构建方法及系统 技术领域 0001 本发明涉及 P2P 网络版权内容传播过程中内容相似度图的构建方法, 该方法基于 发明的用户综合客观行为模型, 在原 CCSG 图基础上建。
17、立用户威胁度及版权内容扩散能力 模型, 为系统建立预警机制及时发现版权侵害行为提供理论支持和指导, 即本发明具体提 供一种对等网络版权内容相似度图的构建方法及系统。 背景技术 0002 对等网络技术 (P2P技术) 已被广泛应用于集群计算、 协同工作、 搜索引擎和文件共 享与交换等方面。 由于P2P技术的核心是点对点的传播模式, 因而相较于传统的客户-服务 器的集中处理模式, 网络内容传播的管理与控制更为复杂和困难。 从目前状况来看, 这主要 体现在两个方面 : 对不良内容的传播控制更为复杂和对版权管理更为困难。以 P2P 文件共 享与交换软件 BT 为例, 它克服了传统下载方式的局限性, 具。
18、有参与下载的人越多, 文件下 载速度越快的特点。BT 软件自动将一个文件分割成若干块, 当某一 PC 节点在进行下载, 它 也作为一个对外提供服务的节点, 向其他 PC 供应已经下载的文件块。最终, 来自不同节点 的文件块在一台 PC 上融合成了一个完整的文件。从上述 P2P 文件共享与交换的工作原理 可以看出, 一台 PC 在进行下载的同时, 也自动进行着上传的行为, 成为一台临时的服务器。 因此, 从版权角度来讲, 鉴于 P2P 技术导致受侵害的用户和版权的数量、 范围急剧增加的状 况, 对版权内容的传播分析与管控变得紧迫和必要。 0003 目前版权内容的传播分析研究主要集中在内容检测和内。
19、容关系网络挖掘两个方 面。内容检测主要是利用数字水印及 DNA 等技术来检测某个音 / 视频内容是否属于盗版 内容 ; 而内容关系网络挖掘旨在通过揭示内容之间的相似度关系来深入发掘 P2P 用户之 间的文件共享关系, 深刻反映对等网络内容交互与分布的内部结构, 为传播分析与管控提 供有效支持。在相关工作中, 部分研究者提出了版权内容相似度图 (Copyright Content Similarity Graph, CCSG) 的概念, 对P2P网络内容相似度图的构建和分析进行了相关研究。 0004 CCSG由内容节点和带权无向边组成, 如图1所示。 其中, 内容节点表示某个音/视 频内容, 可。
20、以综合运用内容名称及内容描述元数据来标识 ; 若存在某个用户同时拥有两个 内容, 则对应的内容节点可通过无向边连接, 特别地, 如果同时拥有两个内容的用户数目越 大, 则意味着内容之间的相似, 度越大, 对应的无向边权重也越大。 0005 通过分析我们发现, 在 CCSG 构建过程中, 仅仅定性地分析了用户客观行为的事件 行为, 主要指某个用户下载了某个内容或某个用户上传了某个内容, 而对于用户客观行为 中的行为时间、 行为数量及行为性质, 缺乏定量和定性的分析。这里, 行为时间主要指用户 下载和提供某个内容上传的持续时间, 行为数量主要指用户下载 / 上传了多少个内容, 行 为性质主要指用户。
21、执行该上传 / 下载行为是偶然行为还是常见行为。我们认为, 忽视对用 户客观行为的综合定量和定性考虑, 将会大大影响内容传播分析与管控的全面性和有效 性。CCSG 的构建过程是基于用户客观行为的事件行为, 通过后台预处理、 过滤、 融合等手段 分析出所有的内容节点及对应的带权无向边, 然后构建 CCSG 的数据存储并最终显示和应 说 明 书 CN 103544407 A 5 2/11 页 6 用。直观上, 我们从 CCSG 图中是无法查看事件行为的, 只能通过鼠标点击或者命令操作, 实 现内容节点对应的用户事件行为监视。因此, 从 CCSG 的应用角度看, 仅仅基于事件行为的 CCSG 构建、。
22、 显示和应用是无法完全满足监管需求的。除事件行为外, 用户的行为时间、 行为 数量和行为性质, 都可以有效帮助管控人员发掘更深层次的用户行为信息。 例如, 通过行为 时间和行为数量的统计分析, 可以判断用户是否属于常见侵权行为, 进而判断侵权用户的 威胁程度和预测侵权内容扩散趋势, 达到预先区域预警和管控的目的。 0006 本发明针对上述问题, 将围绕对等网络内容相似度图 CCSG, 综合考虑用户客观行 为的多个方面, 对 CCSG 构建方法做出重要改进。与原有方法相比, 本发明具有的创新之处 是在 CCSG 构建过程中, 首次建立包括事件行为、 行为时间、 行为数量和行为性质在内的用 户综合。
23、客观行为模型 ; 基于该综合客观行为模型, 计算用户威胁程度和内容扩散趋势, 并将 计算结果导入 REGKM 聚类算法, 从数据预处理和聚类两个步骤对整个构建过程分别实现一 头一尾的改进, 提高 CCSG 的全面性和准确性。 发明内容 0007 本发明的目的在于, 为克服现有技术在构建对等网络版权内容相似度图时存在的 诸多缺陷, 本发明提供了一种对等网络版权内容相似度图的构建方法及系统。 0008 为了实现上述目的, 本发明提供了一种对等网络版权内容相似度图的构建方法, 该方法基于用户综合客观行为构建对等网络的版权内容相似度图, 所述方法包含 : 0009 步骤 101) 用于数据集预处理的步。
24、骤 ; 0010 步骤 102) 用于进行节点能力计算的步骤 ; 0011 步骤 103) 用于聚类分析, 最终完成版权内容相似度图构建的步骤 ; 0012 其中, 所述节点能力计算步骤进一步包含如下子步骤 : 0013 步骤 102-1) 用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的 步骤, 且任意用户 i 的综合客观行为模型 COB(i) 由以下式 (1)、 (2)、 (3) 获取 : 0014 COB(i)=B(i,j),j P,(1) 0015 B(i,j)=(Bup(i,j),Bdown(i,j), (2) 0016 Bup(i,j)=Bdown(i,j)=(statu。
25、s(i,j),duration(i,j),frequency(i,j),type(i, j)(3) 0017 其中, COB(i) 表示用户 i 的综合客观行为模型, B(i,j) 表示用户 i 作用于版权内 容 j 的行为, Bup(i,j) 表示用户 i 上传版权内容 j, Bdown(i,j) 表示用户 i 下载版权内容 j, status(i,j) 表示用户 i 作用于版权内容 j 的当前状态, duration(i,j) 表示用户 i 作用于 版权内容 j 的持续时间, frequency(i,j) 表示用户 i 作用于版权内容 j 的次数, type(i,j) 表示系统针对用户 i。
26、 作用于版权内容 j 的客观行为的性质判定 ; 0018 步骤 102-2) 用于基于版权内容扩散能力进行若干次的层次过滤的步骤 ; 0019 步骤 102-3) 用于对版权内容节点进行颜色标定的步骤。 0020 上述技术方案中, 所述步骤 101) 对爬虫获得的数据集进行了两次过滤操作, 留下 能够构建版权内容相似度图的用户节点集和节点关系集。 0021 上述技术方案中, 所述步骤 102-1) 进一步包含如下子步骤 : 0022 首先, 对过滤留下的用户节点集及节点关系集进行用户威胁度计算, 并基于大量 说 明 书 CN 103544407 A 6 3/11 页 7 量化的用户威胁度统计建。
27、立用户威胁等级 ; 0023 然后, 再对用户威胁度进行加权求和, 计算得到版权内容节点的扩散能力, 并将用 户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中, 且所述加权 操作的系数依据用户威胁等级进行赋值。 0024 上述技术方案中, 所述用户威胁度采用下式获取 : 0025 T(i)=upTup(i)+downTdown(i) (4) 0026 0027 0028 tup(i,j)=type(i,j)status(i,j)duration(i,j) (7) 0029 tdown(i,j)=type(i,j)status(i,j)duration(i,j) (8) 003。
28、0 其中, T(i) 表示用户 i 行为的总体威胁度 ; Tup(i) 和 Tdown(i) 分别指代用户 i 上 传行为、 下载行为的威胁度 ; up和 down分别指代用户上传行为、 下载行为的威胁度权重 ; tup(i, j) 和 tdown(i, j) 分别指代用户 i 上传、 下载版权内容 j 的威胁度 ; 和分别指代 上传、 下载版权内容 j 的威胁度权重 ; type(i, j)、 status(i, j) 和 duration(i, j) 表示用 户客观行为参数 ; 0031 其中, 用户的威胁度与用户的客观行为存在正相关的关系, 即 T(i)。 B(i), 并 且 tup(i。
29、, j) Bup(i, j), tdown(i, j) Bdown(i, j), 即用户的客观行为严重程度越高, 则用 户的威胁能力也就越大。 0032 上述技术方案中, 所述步骤 103) 进一步包含 : 0033 首先, 利用 REGKM 算法对 CCSG 图中的各节点进行聚类, 该算法采用 Dijkstra 算法 来计算任意两点之间的最小距离, 通过多次迭代, 把距上次迭代选定的 k 个中心点相近的 节点划分成一簇, 划分出 k 个聚类 ; 0034 然后, 接着进行二次簇内聚类即对划分出的每个聚类再次进行一次聚类操作该聚 类操作是通过计算簇内节点问的扩散能力的相似度, 把扩散能力大小相。
30、近的节点聚集到一 起, 形成簇内扩散能力相近, 簇间扩散能力相差较大的两个分簇。 0035 基于上述方法本发明还提供了一种对等网络版权内容相似度图的构建系统, 该系 统基于用户综合客观行为构建对等网络的版权内容相似度图, 所述系统包含 : 0036 预处理模块, 用于对数据集进行预处理 ; 0037 节点能力计算模块, 用于进行节点能力计算 ; 0038 聚类处理模块, 用于聚类分析, 最终完成版权内容相似度图构建 ; 0039 其中, 所述节点能力计算模块进一步包含 : 0040 第一处理子模块, 用于基于用户综合客观行为计算用户威胁度与版权内容扩散能 力的步骤, 且任意用户 i 的综合客观。
31、行为模型 COB(i) 由以下式 (1)、 (2)、 (3) 获取 : 0041 COB(i) B(i, j), j P, (1) 0042 B(i, j) (Bup(i, j), Bdown(i, j), (2) 0043 Bup(i, j) Bdown(i, j) (status(i, j), duration(i, j), frequency(i, j), type(i, j) (3) 0044 其中, COB(i) 表示用户 i 的综合客观行为模型, B(i, j) 表示用户 i 作用于版权内 说 明 书 CN 103544407 A 7 4/11 页 8 容j的行为, Bup(i, 。
32、j)表示用户i上传版权内容j, Bdown(i, j)表示用户i下载版权内容j, status(i, j) 表示用户 i 作用于版权内容 j 的当前状态, duration(i, j) 表示用户 i 作用于 版权内容 j 的持续时间, frequency(i,j) 表示用户 i 作用于版权内容 j 的次数, type(i,j) 表示系统针对用户 i 作用于版权内容 j 的客观行为的性质判定 ; 0045 过滤子模块, 用于基于版权内容扩散能力进行若干次的层次过滤 ; 0046 颜色标定子模块, 用于对版权内容节点进行颜色标定。 0047 上述技术方案中, 所述预处理模块对爬虫获得的数据集进行了。
33、两次过滤操作, 留 下能够构建版权内容相似度图的用户节点集和节点关系集。 0048 上述技术方案中, 所述第一处理子模块进一步包含 : 0049 威胁度计算单元, 用于对过滤留下的用户节点集及节点关系集进行用户威胁度计 算, 并基于大量量化的用户威胁度统计建立用户威胁等级 ; 0050 扩散能力获取单元, 用于对用户威胁度进行加权求和, 计算得到版权内容节点的 扩散能力, 并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量 当中, 且所述加权操作的系数依据用户威胁等级进行赋值。 0051 上述技术方案中, 所述聚类处理模块进一步包含 : 0052 第一聚类子模块, 用于利用 。
34、REGKM 算法对初步 CCSG 图中的各节点进行聚类, 该算 法首先采用 Dijkstra 算法来计算任意两点之间的最小距离, 通过多次迭代, 把距上次迭代 选定的 k 个中心点相近的节点划分成一簇, 划分出 k 个聚类 ; 0053 第二聚类子模块, 用于将第一聚类子模块处理的结果进行二次簇内聚类, 即对划 分出的每个聚类再次进行一次聚类操作, 该聚类操作是通过计算簇内节点间的扩散能力的 相似度, 把扩散能力大小相近的节点聚集到一起, 形成簇内扩散能力相近, 簇间扩散能力相 差较大的两个分簇。 0054 与现有技术相比, 本发明的技术优势在于 : 0055 1、 首次在 CCSG 构建过程。
35、中建立包括事件行为、 行为时间、 行为数量和行为性质在 内的用户综合客观行为模型, 对用户威胁度和内容扩散能力提出了量化标准 ; 0056 2、 首次基于该综合客观行为模型, 计算用户威胁程度和内容扩散趋势, 并综合 GKM 聚类算法, 提出了改进的 REGKM 强化聚类算法。在一个聚类中划分出内容扩散能力大、 小的 两个分簇, 从而得以利用 CCSG 对 P2P 网络中版权内容传播进行细粒度地监管和预警。 附图说明 0057 图 1 为现有技术的 CCSG 结构示意图 ; 0058 图 2 为本发明的基于用户客观行为的 CCSG 构建流程图 ; 0059 图 3 为本发明的层次筛选筐 ; 0。
36、060 图 4 为本发明的 CCSG 构建后期采用的 REGKM 算法 ; 0061 图 5 为本发明的版权内容相似性测度转换函数的示意图。 具体实施方式 0062 下面结合附图和实施例对本发明进行进一步说明。 0063 基于用户综合客观行为的 CCSG 构建 说 明 书 CN 103544407 A 8 5/11 页 9 0064 在 P2P 网络中爬虫获得的数据集, 经过建模分析可以看做为一个二分图 G(V,E), 连接用户和版权内容, 即 V 分为两个互不相交的子集用户点集 U 和版权内容点集 P, 而 E 中的每一条边 (i,j) 则表示用户 i 拥有版权内容 j, 其端点分属于两个不。
37、同的点集, 即 i U, j P。而带权无向图 CCSG 则是依托二分图 G, 对其进行变换而得以构建起来。在 CCSG 中, 每一个节点代表一个版权内容, 两个节点之间的一条边则表示存在用户同时分享 了这两个版权内容, 而边的权重则表征了两个版权内容的相似度大小, 这取决于同时分享 两个版权内容的用户多少, 即 CCSG 中边的权重越大, 则存在越多的用户分享同样的两个版 权内容, 那么这两个版权内容的相似度越高。 0065 1) 用户综合客观行为模型 0066 可以看出, 在G(V,E)中, (i,j)E,仅仅蕴含了用户的部分事件行为, 即用户i拥 有 (下载完) 版权内容 j, 而对于用。
38、户 i 的行为时间、 行为数量和行为性质并没有涉及。因此 建立用户 i 的综合客观行为模型 COB(i)i 由以下式 (1)、 (2)、 (3) 组成。 0067 COB(i)=B(i,j),j P, (1) 0068 B(i,j)=(Bup(i,j),Bdown(i,j), (2) 0069 Bup(i,j)=Bdown(i,j)=(status(i,j),duration(i,j),frequency(i,j),type(i, j)(3) 0070 其中 COB(i) 表示用户 i 的综合客观行为模型, B(i,j) 表示用户 i 作用于版权内 容 j 的行为, Bup(i,j) 表示用户。
39、 i 上传版权内容 j, Bdown(i,j) 表示用户 i 下载版权内容 j, status(i,j) 表示用户 i 作用于版权内容 j 的当前状态, duration(i,j) 表示用户 i 作用于 版权内容 j 的持续时间, frequency(i,j) 表示用户 i 作用于版权内容 j 的次数, type(i,j) 表示系统针对用户 i 作用于版权内容 j 的客观行为的性质判定。 0071 由式 (1) 所示, 用户综合客观行为模型描述的是在 G(V,E) 的节点集 V=U P 中, U 中的任意用户对其所涉及的 P 中的版权内容的作用集合。为减少不必要的系统开销, 同时 更多地关注与。
40、用户对其相关的版权内容的作用情况, COB 模型针对某一用户, 仅仅记录其涉 及的版权内容的集合。 0072 不同于用户 - 内容二分图单纯包含用户对版权内容拥有状态的描述, 用户综合客 观行为模型则针对用户做了状态与行为全面的描述, 而这种客观行为既包含用户的下载行 为同时又包含用户的上传行为。通过对用户的状态和行为的全面描述, 系统能更加准确全 面地定位该用户的性质, 判断用户的威胁程度和预测内容扩散趋势。这一点可以从式 (2) 的结构可以看出。 0073 为准确描述用户的上传下载两类客观行为, 如式 (3) 所示, 系统采用四个参数变 量 status(i,j),duration(i,j。
41、),frequency(i,j),type(i,j) 来对用户行为的当前状态、 持续时间、 累积次数以及行为性质做了全面准确的刻画。四个参数的描述如表 1 所示 : 0074 表 1. 用户客观行为参数描述 0075 说 明 书 CN 103544407 A 9 6/11 页 10 0076 需要指出的是, 对于行为持续时间 duration(i,j) 中的上传行为, 只要行为持续 进行就对其持续累计时长, 而对于下载行为, 在完成下载后则终止计算其下载时长。累计 时长的最大取值为系统采用的 double 类型的最大值 MAX_DOUBLE。用户行为的累积次数 frequency(i,j), 。
42、其最小值为 1, 表示用户 i 只对版权内容 j 进行过一次完整的上传或下载 行为。累计次数的最大值为系统对相应计数器采用的 int 类型的最大值 MAX_INT。 0077 有别于前三个参数的定量分析, 系统会根据前三个参数来考量用户客观行为的严 重程度, 利用行为性质参数对其行为进行性质标定。通过分析对用户客观行为的既往历史 记录, 系统会给用户的客观行为标定为两个级别偶尔和常见。 0078 系统通过上述四个参数, 从不同角度来刻画用户客观行为, 能够准确描述用户行 为, 为判定用户的威胁程序提供了一个量化的度量标准。 0079 2) 用户威胁程度判断 0080 由于上传行为和下载行为从影。
43、响范围上讲对于版权内容的传播起到了不同的作 用, 不能简单将两者的作用划等号。因此, 用户客观行为是上传行为主导还是下载行为占 优, 都会左右用户威胁程度的最终判定。为此, 系统采用如式 (4)、 (5)、 (6) 所示的加权方式 来表示用户的威胁程度。 0081 T(i)=upTup(i)+downTdown(i) (4) 0082 说 明 书 CN 103544407 A 10 7/11 页 11 0083 0084 tup(i,j)=type(i,j)status(i,j)duration(i,j) (7) 0085 tdown(i,j)=type(i,j)status(i,j)dura。
44、tion(i,j) (8) 0086 式中的变量说明如表 2 所示 : 0087 表 2. 用户威胁度模型变量说明 0088 0089 用户上传下载行为的权重取值区间分别为up0.5,1、 down0,0.5, 并且 up+down=1。版权内容的冷热有度, 对于热门版权内容的传播威胁度明显要高于对冷门版 权内容的传播, 因而用户上传行为的威胁度根据用户上传的各个版权内容的冷热度对用户 上传单个版权内容的威胁度进行加权求和得到, 同理用户下载行为也是对单个下载行为的 加权求和。 用户的威胁度与用户的客观行为存在一种正相关的关系, 即T(i)B(i),并且t up(i,j)Bup(i,j),td。
45、own(i,j)Bdown(i,j), 意指用户的客观行为严重程度越高, 则用户的威 胁能力也就越大。 不同行为性质 (偶尔/常见) 的用户行为导致用户具有不同的威胁程度, 用 户当前所处状态以及行为持续时间都会对用户的威胁度计算带来正向的影响, 利用描述用 户客观性的参数也就同样能够直观地表达出用户上传下载行为的威胁度, 因而 type(i,j)、 status(i,j)、 duration(i,j) 作为正相关因子参与到了 tup(i,j)、 tdown(i,j) 的计算, 为此, 系统采用的计算方法式 (7)、 (8) 所示。至此, 用户行为威胁度得到了量化的度量方法, 然后 系统根据数。
46、据集中大量用户的威胁度统计建立用户威胁等级严重、 高、 中、 低, 为以后 的内容扩散能力计算、 CCSG构建和更新提供参考。 需要特别说明的是, 这里只有用户客观行 为的三个参数直接参与到了用户威胁度计算, frequency(i, ij) 虽然没有直接参与, 但其对 用户性质的标定起到了决定性的作用, 如果用户对于某版权内容的客观行为累计次数未超 过系统设定阈值 , 那么系统会忽略用户的该客观行为的威胁度, 为此, 系统采用公式 (9) 所示的换算公式。 0090 说 明 书 CN 103544407 A 11 8/11 页 12 0091 由公式 (9) 可知, 当 frequency(。
47、i,j),type(i,j)=0, 而当 frequency(i,j) , type(i,j)=1。 0092 需要补充的是为使字符串类型的 type(i,j)、 status(i,j) 能直接参与客观行为 威胁度计算, 系统将其相应字符串子转化为整数值, 以表征不同的值所反映的程度, 具体见 表 1 参数解释。 0093 3) 内容扩散能力预测 0094 CCSG 构建的落脚点在于版权内容以及内容间的关联, 而用户主导版权内容, 版权 内容的传播扩散也就伴随着用户的客观行为而自然发生, 用户行为威胁度的高低也就直接 影响了其所上传下载的版权内容的扩散能力。为量化版权内容扩散能力大小, 系统采。
48、用公 式 (10) 所示的计算方法。 0095 0096 其中, S(j) 表示版权内容 j 的扩散能力, T(i) 表示用户 i 的威胁度。不同威胁度 的用户对于其涉及的版权内容的扩散能力具有不同的影响, 威胁度大的用户从直觉上讲其 所涉及的版权内容的扩散能力就更为强大, 威胁度小的用户, 其相关版权内容扩散能力也 就相对较小。为此, 采用对用户威胁度加权求和的方法来计算版权内容的扩散能力。这里 系统根据先前获得的用户威胁度等级赋予不同层次威胁度的用户以不同的权重, 如表 3 所 示 : 0097 表 3. 用户威胁度与威胁度权重对应表 0098 用户威胁度值区间 用户威胁度等级 威胁度权重 0,10 低 0.1 (10,20 中 0.2 (20,30 高 0.3 (30,40 严重 0.4 0099 加权计算能体现出不同威胁度用户对同一版权内容扩散能力计算的贡献比重, 从 而求得更为公正合理的版权内容扩散能力。 0100 4) 改进 CCSG 构建流程 0101 为构建满足上述描述的 CCSG, 我们进行了三大步操作 : 数据集预处理、 节点能力 计算以及后期聚类分析。CCSG 的整体构建过程如图 2 所示 : 0102 有效过滤并减少 “噪声” 。