基于极大团发现的网络热点话题检测方法及装置.pdf

上传人:1*** 文档编号:976039 上传时间:2018-03-22 格式:PDF 页数:18 大小:550.33KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110278619.5

申请日:

2011.09.20

公开号:

CN102346766A

公开日:

2012.02.08

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20120208|||实质审查的生效IPC(主分类):G06F 17/30申请日:20110920|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京邮电大学

发明人:

肖波; 蔺志青; 郭军

地址:

100876 北京市海淀区西土城路10号

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明实施例公开了一种基于极大团发现的网络热点话题检测方法及装置。其中,该方法包括如下步骤:实时采集网络新闻网站、论坛、博客、微博数据;对采集的数据进行分词、词频统计等处理,发现所有的热点词对,构建热点词对集合;将每个热点词用唯一的编号进行表示;将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;将每个极大团变换为一个词组合,代表一个热点话题。还公开了一种网络热点话题检测装置,利用本发明实施例,能够及时准确地发现网络中的热点话题,提高热点话题检测的速度和精度,具有很大的实用价值。

权利要求书

1: 一种网络热点话题检测方法, 其特征在于, 包括以下步骤 : 数据采集步骤 : 实时采集网络新闻网站、 论坛、 博客、 微博数据 ; 热点词对集合构建步骤 : 对采集的数据进行分词, 词频统计等处理, 发现所有的热点词 对, 构建热点词对集合 ; 热点词编号步骤 : 将每个热点词用唯一的编号进行表示 ; 极大团挖掘步骤 : 将热点词对集合看作无向图, 对其进行挖掘, 得到所有的极大团 ; 热点话题表示步骤 : 将每个极大团变换为一个词组合, 代表一个热点话题。
2: 如权利要求 1 所述的方法, 其特征在于, 数据采集步骤中, 实时采集网络数据包括 : 新闻网站中每条新闻的标题、 正文、 发布时间 ; 论坛中每条帖子的标题, 正文、 发布时间 ; 博 客中每篇博客文章的标题、 正文、 关键字和发布时间 ; 微博中用户的每条博文内容和发布时 间。数据采集步骤进一步包含以下子步骤 : 配置步骤 : 设置进行采集的种子 URL 和每个种子匹配采集数据用的正则表达式。对于 网络新闻网站的新闻列表页, 分别设置获取标题文本、 正文文本、 发布时间的正则表达式 ; 对于论坛列表页, 分别设置获取标题文本、 正文文本、 发布时间的正则表达式 ; 对于博客的 博文列表页, 分别设置获取标题文本、 正文文本、 关键字、 发布时间的正则表达式 ; 对于微博 用户的首页, 分别设置获取博文内容文本、 发布时间的正则表达式。 下载步骤 : 通过 http 协议应用多线程并行采集种子 URL 对应的 html 网页。 匹配步骤 : 通过配置的正则表达式, 对采集到的网页进行匹配, 获得标题文本、 正文文 本、 关键字、 发布时间等数据, 构成结构化的数据。 过滤步骤 : 删除先前已经采集过的数据, 保存本时间段新采集的数据, 以供后续步骤使 用。 上述步骤完成后, 等待设置的时间间隔后, 重复下载步骤、 匹配步骤和过滤步骤。
3: 如权利要求 2 所述的方法, 其特征在于, 热点词对集合构建步骤进一步包含以下子 步骤 : 构建动词与名词库步骤 : 将所有的中文动词和中文名词存储到该词库中。 构建命名实体名称词库步骤 : 将常见的地理名称、 组织机构名称、 常用人名存储到该词 库中。 构建动态词库步骤 : 从百度搜索风雨榜等网站实时采集热点搜索词, 存储到该词库中。 分词操作步骤 : 对采集的各类文本, 包括标题文本、 正文文本、 博文文本、 关键词等, 采 用逆向最大匹配法, 利用构建好的上述三类词库进行分词。 若某词在某文档中出现多次, 算 作一次。最终每个文本都变为由词构成的文档向量。 词频统计步骤 : 统计每个词在每个文档向量中出现的词频。 热点词集合构建步骤 : 删除词频小于给定阈值的词, 保留下来的词构成热点词集合。 词对共现频度统计步骤 : 统计任意两个热点词同时出现在一个文档向量中的次数, 即 词对的共现频度。 热点词对生成步骤 : 删除共现频度小于给定阈值的词对, 保留下来的词对构成热点词 对集合。
4: 如权利要求 3 所述的方法, 其特征在于, 极大团挖掘步骤中将热点词对集合中的每 个热点词编号作为顶点, 词对作为两顶点的边, 将热点词对集合构成无向图。 对该图进行极 2 大团挖掘, 挖掘步骤包含以下子步骤 : 连通分量生成步骤 : 遍历无向图, 产生图的所有连通分量。 初始化步骤 : 初始化最终极大团集合 T 为空集。 选取步骤 : 取该图中的第一个连通分量。 挖掘步骤 : 对该连通分量进行处理, 得到所有的极大团, 加入到最终极大团集合 T。 跳转步骤 : 判断该图中是否存在下一个连通分量, 若存在, 跳转到挖掘步骤 ; 否则, 继 续执行输出步骤。 输出步骤 : 输出最终极大团集合 T 中的所有极大团。 其中, 上述挖掘步骤完成从连通分量中挖掘所有极大团, 具体过程如下 : 1) 取连通分量的第一个顶点作为一个当前的极大团, 设置当前极大团集合 S1 仅包含该 极大团。 2) 判断连通分量中是否存在下一个顶点。若不存在, 则跳转到步骤 16) ; 若存在, 继续 执行步骤 3)。 3) 设该顶点为第 k 个顶点, 初始化加入顶点 k 后的新极大团集合 Sk 为空集。 4) 取当前极大团集合 Sk-1 中的第一个团。 5) 判断该团的所有顶点是否都是顶点 k 的邻接点。若是, 则继续执行步骤 6) ; 否则, 则 跳转到步骤 9)。 6) 将 k 加入到该团中形成新团 P。 7) 判断 P 的超集是否在集合 Sk 中。若在集合 Sk 中, 说明以前的操作已经产生了该团, 继续执行步 不需要再加入, 跳转到步骤 15) ; 否则, 说明 P 为新产生的团, 应该加入到 Sk 中, 骤 8)。 8) 将 P 加入到集合 Sk。此时, 仅考虑了前 k 个顶点的极大团全部存储到集合 Sk 中, 跳 转到步骤 15)。 9) 将该团加入到集合 Sk。 10) 将 k 加入到顶点 k 的邻接点集合 L(k) 与该团的交集中, 构成新团 Q。 11) 判断 Q 的子集是否在新极大团集合 Sk 中存在。若存在, 则需要将其删除, 继续执行 步骤 12) ; 否则, 跳转到步骤 13)。 12) 将 Q 的子集从新极大团集合中删除。 13) 判断 Q 的超集是否在新极大团集合中。若不存在, 应将 Q 加入到新极大团集合中, 继续执行步骤 14) ; 否则, 跳转到步骤 15)。 14) 将 Q 加入到新极大团集合中。 15) 判断集合 Sk-1 中是否存在下一个极大团。若存在, 则跳转到步骤 5) ; 否则, 跳转到 步骤 2)。 16) 将产生的集合 Sk 中的所有极大团输出到最终极大团集合 T 中。
5: 如权利要求 4 所述的方法, 其特征在于, 热点话题表示步骤中, 将每个极大团中的数 字变换为对应词, 极大团变换为词组合, 代表一个热点话题并输出。
6: 一种网络热点话题检测装置, 其特征在于, 包括以下模块 : 数据采集模块 : 完成实时采集网络新闻网站、 论坛、 博客、 微博数据 ; 热点词对集合构建模块 : 完成对采集的数据进行分词, 词频统计等操作, 发现所有的热 3 点词对, 构建热点词对集合 ; 热点词编号模块 : 将每个热点词用唯一的编号进行表示 ; 极大团挖掘模块 : 将热点词对集合看作无向图, 对其进行挖掘, 得到所有的极大团 ; 热点话题表示模块 : 将每个极大团变换为一个词组合, 代表一个热点话题。
7: 如权利要求 6 所述的方法, 其特征在于, 数据采集模块中, 实时采集网络数据包括 : 新闻网站中每条新闻的标题、 正文、 发布时间 ; 论坛中每条帖子的标题, 正文、 发布时间 ; 博 客中每篇博客文章的标题、 正文、 关键字和发布时间 ; 微博中用户的每条博文内容和发布时 间。数据采集模块进一步包含以下子模块 : 配置模块 : 设置进行采集的种子 URL 和每个种子匹配采集数据用的正则表达式。对于 网络新闻网站的新闻列表页, 分别设置获取标题文本、 正文文本、 发布时间的正则表达式 ; 对于论坛列表页, 分别设置获取标题文本、 正文文本、 发布时间的正则表达式 ; 对于博客的 博文列表页, 分别设置获取标题文本、 正文文本、 关键字、 发布时间的正则表达式 ; 对于微博 用户的首页, 分别设置获取博文内容文本、 发布时间的正则表达式。 下载模块 : 通过 http 协议应用多线程并行采集种子 URL 对应的 html 网页。 匹配模块 : 对采集到的网页通过配置的正则表达式获得标题文本、 正文文本、 关键字、 发布时间等数据, 构成结构化的数据。 过滤模块 : 删除先前已经采集过的数据, 保存本时间段采集的数据, 以供后续模块使 用。 上述模块完成后, 等待设置的时间间隔后, 重复执行下载模块、 匹配模块和过滤模块。
8: 如权利要求 7 所述的方法, 其特征在于, 热点词对集合构建模块进一步包含以下子 模块 : 构建动词与名词库模块 : 将所有的中文动词和中文名词存储到该词库中。 构建命名实体名称词库模块 : 将常见的地理名称、 组织机构名称、 常用人名存储到该词 库中。 构建动态词库模块 : 从百度搜索风雨榜等网站实时采集热点搜索词, 存储到该词库中。 分词操作模块 : 对采集的各类文本, 包括标题文本、 正文文本、 博文文本、 关键词等, 采 用逆向最大匹配法, 利用构建好的三类词库进行分词。 若某词在某文档中出现多次, 算作一 次。最终每个文本都变为由词构成的文档向量。 词频统计模块 : 统计每个词在每个文档向量中出现的词频。 热点词集合构建模块 : 删除词频小于给定阈值的词, 保留下来的词构成热点词集合。 词对共现频度统计模块 : 统计任意两个热点词同时出现在一个文档向量中的次数, 即 词对的共现频度。 热点词对生成模块 : 删除共现频度小于给定阈值的词对, 保留下来的词对构成热点词 对集合。
9: 如权利要求 8 所述的方法, 其特征在于, 极大团挖掘模块将热点词对集合中的每个 热点词编号作为顶点, 词对作为两顶点的边, 将热点词对集合构成无向图。 对该图进行极大 团挖掘, 挖掘模块包含以下子模块 : 连通分量生成模块 : 遍历无向图, 产生图的所有连通分量。 初始化模块 : 初始化最终极大团集合 T 为空集。 4 选取模块 : 取该图中的第一个连通分量。 挖掘模块 : 对该连通分量进行处理, 得到所有的极大团, 加入到最终极大团集合 T。 跳转模块 : 判断该图中是否存在下一个连通分量, 若存在, 跳转到挖掘模块 ; 否则, 继 续执行输出模块。 输出模块 : 输出最终极大团集合 T 中的所有极大团。 其中, 上述挖掘模块完成从连通分量中挖掘所有极大团, 具体过程如下 : 1) 取连通分量的第一个顶点作为一个当前的极大团, 设置当前极大团集合 S1 仅包含该 极大团。 2) 判断连通分量中是否存在下一个顶点。若不存在, 则跳转到步骤 16) ; 若存在, 继续 执行步骤 3)。 3) 设该顶点为第 k 个顶点, 初始化加入顶点 k 后的新极大团集合 Sk 为空集。 4) 取当前极大团集合 Sk-1 中的第一个团。 5) 判断该团的所有顶点是否都是顶点 k 的邻接点。若是, 则继续执行步骤 6) ; 否则, 则 跳转到步骤 9)。 6) 将 k 加入到该团中形成新团 P。 7) 判断 P 的超集是否在集合 Sk 中。若在集合 Sk 中, 说明以前的操作已经产生了该团, 不需要再加入, 跳转到步骤 15) ; 否则, 说明 P 为新产生的团, 应该加入到 Sk 中, 继续执行步 骤 8)。 8) 将 P 加入到集合 Sk。此时, 仅考虑了前 k 个顶点的极大团全部存储到集合 Sk 中, 跳 转到步骤 15)。 9) 将该团加入到集合 Sk。 10) 将 k 加入到顶点 k 的邻接点集合 L(k) 与该团的交集中, 构成新团 Q。 11) 判断 Q 的子集是否在新极大团集合 Sk 中存在。若存在, 则需要将其删除, 继续执行 步骤 12) ; 否则, 跳转到步骤 13)。 12) 将 Q 的子集从新极大团集合中删除。 13) 判断 Q 的超集是否在新极大团集合中。若不存在, 应将 Q 加入到新极大团集合中, 继续执行步骤 14) ; 否则, 跳转到步骤 15)。 14) 将 Q 加入到新极大团集合中。 15) 判断集合 Sk-1 中是否存在下一个极大团。若存在, 则跳转到步骤 5) ; 否则, 跳转到 步骤 2)。 16) 将产生的集合 Sk 中的所有极大团输出到最终极大团集合中。
10: 如权利要求 9 所述的方法, 其特征在于, 热点话题表示模块中, 将每个极大团中的 数字变换为对应词, 极大团变换为词组合, 代表一个热点话题并输出。

说明书


基于极大团发现的网络热点话题检测方法及装置

    技术领域 本发明涉及文本信息处理范畴中的网络信息分析与数据挖掘技术, 尤其涉及一种 基于极大团发现的热点话题检测方法及装置。
     背景技术 互联网日渐成为舆情产生和传播的主要场所, 很多人在网络上主动表达自己的观 点和看法。由于网络本身具有虚拟性、 隐藏性、 渗透性和随意性等特点, 使得网络舆情的社 会影响力越来越大, 甚至会影响国家重大决策。 因此, 各国政府与军队都高度关注网络舆情 的研究, 以便及时对热点、 焦点与敏感话题做出反应。
     网络热点话题发现是网络舆论管理需要解决的首要问题, 最早在该领域展开 研究的是由美国国防部先进研究项目局支持的话题检测与跟踪 (Topic detection and tracking, 简称 TDT) 项目, 该项目在话题检测方面致力于新事件检测以及事件跟踪方面的 研究。互联网中的 Web 信息资源, 如新闻网站、 论坛、 博客及微博, 汇集了各类事件和新闻的
     报道和舆论评价, 是热点话题检测的重要信息平台。
     随着 TDT 项目的研究进展, 国内外关于话题发现的相应研究成果逐渐丰富起来。 热点话题检测本质上属于热点话题聚类。目前话题聚类的方法主要有两大类, 一类是通过 向量空间模型, 计算各个新闻或帖子的距离, 或潜在的主题模型进行聚类, 另一类是直接通 过统计词频产生热点词集合, 再进行合理聚类, 产生的不同热点词集合来表示不同的热点 话题。
     第一类聚类方法在处理长文本时比较有效, 但不能保证话题发现的实时性。由于 互联网信息很多是短文本, 包含的词很少, 因此数据具有稀疏性。 针对这类数据采用聚类方 法效果不尽人意。
     第二类话题检测方法则是直接统计词或重复串的出现次数, 用频繁词集合来表达 热点话题, 因此该类方法对文本长度不敏感, 但查准率有待改善。
     此外, 也有研究者提出了不同于以上两类方法的检测技术。例如, 有人提出了采 用拓扑势的方法进行热点话题聚类, 通过评价结点的重要性来判别网络热点及演化趋势。 也有研究提出采用演化理论来研究热点话题聚类, 首先通过增量单边聚类方法获得候选话 题, 然后使用演化理论计算话题热度, 最后根据定义参数进行排序, 得到 BBS 热点话题。这 些方法对于长短不一的互联网信息, 效果较差。 发明内容 针对现有技术存在的问题, 本发明的目的是提供一种基于极大团发现的热点话题 检测方法及装置。
     为达到上述目的, 本发明提出的基于极大团发现的网络热点话题检测方法包括下 列步骤 :
     数据采集步骤 : 实时采集网络新闻网站、 论坛、 博客、 微博数据 ;
     热点词对集合构建步骤 : 对采集的数据进行分词、 词频统计等处理, 发现所有的热 点词对, 构建热点词对集合 ;
     热点词编号步骤 : 将每个热点词用唯一的编号进行表示 ;
     极大团挖掘步骤 : 将热点词对集合看作无向图, 对其进行挖掘, 得到所有的极大 团;
     热点话题表示步骤 : 将每个极大团变换为一个词组合, 代表一个热点话题。
     数据采集步骤中, 实时采集网络数据包括 : 新闻网站中每条新闻的标题、 正文、 发 布时间 ; 论坛中每条帖子的标题, 正文、 发布时间 ; 博客中每篇博客文章的标题、 正文、 关键 字和发布时间 ; 微博中用户的每条博文内容和发布时间。 采集步骤进一步包含以下子步骤 : 配置步骤, 即设置进行采集的种子 URL 和每个种子匹配采集数据用的正则表达式 ; 下载步 骤, 即通过 http 协议应用多线程并行采集种子 URL 对应的 html 网页 ; 匹配步骤, 对采集到 的网页通过配置到正则表达式获得标题文本、 正文文本、 关键字、 发布时间等数据, 构成结 构化的数据 ; 过滤步骤, 删除先前已经采集过的数据, 保存本时间段采集的数据, 以供后续 步骤使用 ; 上述步骤完成后, 等待设置的时间间隔后, 重复下载步骤、 匹配步骤和过滤步骤。
     热点词对集合构建步骤完成对采集的数据进行分词、 词频统计等处理, 进一步包 含以下子步骤 : 构建动词与名词库步骤 ; 构建命名实体名称词库步骤 ; 构建动态词库步骤 ; 分词操作步骤 ; 词频统计步骤 ; 热点词集合构建步骤 ; 词对共现频度统计步骤 ; 热点词对生 成步骤。 热点词编号步骤中将每个热点词用唯一编号表示, 编号可以是阿拉伯数字, 或其 他编号形式。
     极大团挖掘步骤中将热点词对集合中的每个热点词编号作为顶点, 词对作为两顶 点的边, 将热点词对集合构成无向图。对该图进行极大团挖掘, 挖掘步骤包含以下子步骤 :
     连通分量生成步骤 : 遍历无向图, 产生图的所有连通分量。
     初始化步骤 : 初始化最终极大团集合 T 为空集。
     选取步骤 : 取该图中的第一个连通分量。
     挖掘步骤 : 对该连通分量进行处理, 得到所有的极大团, 加入到最终极大团集合 T。
     跳转步骤 : 判断该图中是否存在下一个连通分量, 若存在, 跳转到挖掘步骤 ; 否 则, 继续执行输出步骤。
     输出步骤 : 输出最终极大团集合 T 中的所有极大团。
     其中, 上述挖掘步骤完成从连通分量中挖掘所有极大团, 具体过程如下 :
     1) 取连通分量的第一个顶点作为一个当前的极大团, 设置当前极大团集合 S1 仅包 含该极大团。
     2) 判断连通分量中是否存在下一个顶点。若不存在, 则跳转到步骤 16) ; 若存在, 继续执行步骤 3)。
     3) 设该顶点为第 k 个顶点, 初始化加入顶点 k 后的新极大团集合 Sk 为空集。
     4) 取当前极大团集合 Sk-1 中的第一个团。
     5) 判断该团的所有顶点是否都是顶点 k 的邻接点。若是, 则继续执行步骤 6) ; 否 则, 则跳转到步骤 9)。
     6) 将 k 加入到该团中形成新团 P。
     7) 判断 P 的超集是否在集合 Sk 中。若在集合 Sk 中, 说明以前的操作已经产生了 该团, 不需要再加入, 跳转到步骤 4415 ; 否则, 说明 P 为新产生的团, 应该加入到 Sk 中, 继续 执行步骤 8)。
     8) 将 P 加入到集合 Sk。 此时, 仅考虑了前 k 个顶点的极大团全部存储到集合 Sk 中, 跳转到步骤 15)。
     9) 将该团加入到集合 Sk。
     10) 将 k 加入到顶点 k 的邻接点集合 L(k) 与该团的交集中, 构成新团 Q。
     11) 判断 Q 的子集是否在新极大团集合 Sk 中存在。若存在, 则需要将其删除, 继续 执行步骤 12) ; 否则, 跳转到步骤 13)。
     12) 则将 Q 的子集从新极大团集合中删除。
     13) 判断 Q 的超集是否在新极大团集合中。 若不存在, 应将 Q 加入到新极大团集合 中, 继续执行步骤 14) ; 否则, 跳转到步骤 15)。
     14) 将 Q 加入到新极大团集合中。
     15) 判断集合 Sk-1 中是否存在下一个极大团。若存在, 则跳转到步骤 5) ; 否则, 跳 转到步骤 2)。 16) 将产生的集合 Sk 中的所有极大团输出到最终极大团集合中。
     热点话题表示步骤中, 将每个极大团中的数字变换为对应词, 极大团变换为词组 合, 代表一个热点话题并输出。
     本发明提出的基于极大团发现的网络热点话题检测装置, 包括以下模块 :
     数据采集模块 : 完成实时采集网络新闻网站、 论坛、 博客、 微博数据 ;
     热点词对集合构建模块 : 完成对采集的数据进行分词, 词频统计等处理, 发现所有 的热点词对, 构建热点词对集合 ;
     热点词编号模块 : 将每个热点词用唯一的编号进行表示 ;
     极大团挖掘模块 : 将热点词对集合看作无向图, 对其进行挖掘, 得到所有的极大 团;
     热点话题表示模块 : 将每个极大团变换为一个词组合, 代表一个热点话题。
     数据采集模块中, 实时采集网络数据包括 : 新闻网站中每条新闻的标题、 正文、 发 布时间 ; 论坛中每条帖子的标题, 正文、 发布时间 ; 博客中每篇博客文章的标题、 正文、 关键 字和发布时间 ; 微博中用户的每条博文内容和发布时间。 采集模块进一步包含以下子模块 : 配置模块 ; 下载模块 ; 匹配模块 ; 过滤模块 ; 上述模块完成后, 等待设置的时间间隔后, 重复 执行下载模块、 匹配模块和过滤模块。
     热点词对集合构建模块进一步包含以下子模块 : 构建动词与名词库模块 ; 构建命 名实体名称词库模块 ; 构建动态词库模块 ; 分词操作模块 ; 词频统计模块 ; 热点词集合构建 模块 ; 词对共现频度统计模块 ; 热点词对生成模块。
     热点词编号模块将每个热点词用唯一编号表示, 编号可以是阿拉伯数字, 或其他 编号形式。
     极大团挖掘模块将热点词对集合中的每个热点词编号作为顶点, 词对作为两顶点 的边, 将热点词对集合构成无向图。对该图进行极大团挖掘, 挖掘模块包含以下子模块 :
     连通分量生成模块 : 遍历无向图, 产生图的所有连通分量。 初始化模块 : 初始化最终极大团集合 T 为空集。 选取模块 : 取该图中的第一个连通分量。 挖掘模块 : 对该连通分量进行处理, 得到所有的极大团, 加入到最终极大团集合T。 跳转模块 : 判断该图中是否存在下一个连通分量, 若存在, 跳转到挖掘模块 ; 否 则, 继续执行输出模块。
     输出模块 : 输出最终极大团集合 T 中的所有极大团。
     其中, 上述挖掘模块完成从连通分量中挖掘所有极大团, 具体过程如下 :
     1) 取连通分量的第一个顶点作为一个当前的极大团, 设置当前极大团集合 S1 仅包 含该极大团。
     2) 判断连通分量中是否存在下一个顶点。若不存在, 则跳转到步骤 16) ; 若存在, 继续执行步骤 3)。
     3) 设该顶点为第 k 个顶点, 初始化加入顶点 k 后的新极大团集合 Sk 为空集。
     4) 取当前极大团集合 Sk-1 中的第一个团。
     5) 判断该团的所有顶点是否都是顶点 k 的邻接点。若是, 则继续执行步骤 6) ; 否 则, 则跳转到步骤 9)。
     6) 将 k 加入到该团中形成新团 P。
     7) 判断 P 的超集是否在集合 Sk 中。若在集合 Sk 中, 说明以前的操作已经产生了 该团, 不需要再加入, 跳转到步骤 15) ; 否则, 说明 P 为新产生的团, 应该加入到 Sk 中, 继续执 行步骤 8)。
     8) 将 P 加入到集合 Sk。 此时, 仅考虑了前 k 个顶点的极大团全部存储到集合 Sk 中, 跳转到步骤 15)。
     9) 将该团加入到集合 Sk。
     10) 将 k 加入到顶点 k 的邻接点集合 L(k) 与该团的交集中, 构成新团 Q。
     11) 判断 Q 的子集是否在新极大团集合 Sk 中存在。若存在, 则需要将其删除, 继续 执行步骤 12) ; 否则, 跳转到步骤 13)。
     12) 则将 Q 的子集从新极大团集合中删除。
     13) 判断 Q 的超集是否在新极大团集合中。 若不存在, 应将 Q 加入到新极大团集合 中, 继续执行步骤 14) ; 否则, 跳转到步骤 15)。
     14) 将 Q 加入到新极大团集合中。
     15) 判断集合 Sk-1 中是否存在下一个极大团。若存在, 则跳转到步骤 5) ; 否则, 跳 转到步骤 2)。
     16) 将产生的集合 Sk 中的所有极大团输出到最终极大团集合中。
     热点话题表示模块中, 将每个极大团中的数字变换为对应词, 极大团变换为词组 合, 代表一个热点话题并输出。
     本发明的有益效果在于, 相对于现有技术而言, 本发明为了满足用户实时发现互 联网中突发性热点话题的需求, 面向互联网新闻、 论坛、 博客、 微博中的信息, 综合利用话题 检测与跟踪算法和极大团发现技术, 对文本信息进行分析与数据挖掘, 对热点话题进行检
     测。实验结果验证了本发明的有效性和准确性, 具有很大实用性。 附图说明
     图 1 为本发明基于极大团发现的网络热点话题检测方法的步骤流程图 ; 图 2 为数据采集方法的步骤流程图 ; 图 3 为热点词对集合构建方法的步骤流程图 ; 图 4 为从无向图中生成极大团的工作原理图 ; 图 5 为从连通分量中生成极大团的详细流程图 ; 图 6 为本发明基于极大团发现的网络热点话题检测装置的结构框图。具体实施方式
     下面将结合附图对本发明具体实施方式进行详细说明。
     图 1 是本发明的一个实施方式的流程图, 包括以下步骤 :
     步骤 S1 : 数据采集, 完成网络新闻网站、 论坛、 博客、 微博数据实时采集。
     步骤 S2 : 热点词对集合构建, 对采集的数据进行处理, 构建热点词对集合。 步骤 S3 : 热点词编号, 将每个热点词用唯一编号表示。
     步骤 S4 : 极大团挖掘, 将热点词对集合看作无向图形式, 图中每个顶点为相应热 点词对应的编号。对该图进行挖掘, 得到所有的极大团。
     步骤 S5 : 热点话题表示, 将各极大团的顶点编号用对应的热点词表示, 将每个极 大团变换为一个词组合, 每个词组合代表一个热点话题。
     下面将对每个步骤进行具体的说明 :
     步骤 S1 完成网络新闻网站、 论坛、 博客、 微博数据实时采集。本发明设计了基于 http 协议下载及对网页内容进行正则表达式匹配的采集方法。 图 2 给出了该方法的具体实 施流程图, 具体步骤如下 :
     步骤 11, 设置种子 URL 和每个种子匹配用的正则表达式, 种子 URL 可以是多个。 种 子设置为 4 类, 分别为网络新闻网站的新闻列表页、 论坛列表页、 博客的博文列表页, 微博 用户的首页。对于网络新闻网站的新闻列表页, 分别设置获取标题文本、 正文文本、 发布时 间的正则表达式 ; 对于论坛列表页, 分别设置获取标题文本、 正文文本、 发布时间的正则表 达式 ; 对于博客的博文列表页, 分别设置获取标题文本、 正文文本、 关键字、 发布时间的正则 表达式 ; 对于微博用户的首页, 分别设置获取博文内容文本、 发布时间的正则表达式。
     步骤 12, 通过 http 协议应用多线程并行采集种子 URL 对应的 html 网页。
     步骤 13, 对采集到的网页通过配置到正则表达式获得标题文本、 正文文本、 关键 字、 发布时间等数据, 构成结构化的数据。
     步骤 14, 删除先前已经采集过的数据, 保存本时间段采集的数据, 以供步骤 S2 使 用。
     步骤 15, 等待设置的时间间隔后, 跳转到步骤 12, 重复步骤 12 ~步骤 15, 采集下一 个时间段的数据。
     步骤 S2 完成对采集数据的处理, 构建热点词对集合。图 3 给出了该方法的实施过 程流程图, 具体操作步骤如下 :
     步骤 21, 构建动词与名词静态词库。词库包含中文动词和中文名词。 步骤 22, 构建命名实体名称词库。词库包括地理名称、 组织机构名称、 常用人名。 步骤 23, 构建动态词库。 词库包含从百度搜索风雨榜、 等网站实时采集的热点搜索词。 步骤 24, 对采集的各类文本, 包括标题文本、 正文文本、 博文文本、 关键词等, 采用 逆向最大匹配法, 利用三类词库进行分词, 将各类文本都变为词的集合。 若某词在某文档向 量中出现多次, 算作一次。关键词有时也是 2 或多个词构成, 因此也需要进行分词操作。最 终每个文本都变为由词构成的文档向量。
     步骤 25, 统计每个词在每个文档向量中出现的词频。
     步骤 26, 删除词频小于给定阈值的词, 保留下来的词构成热点词集合。
     步骤 27, 统计任意两个热点词同时出现在一个文档向量中的次数, 即共现频度。
     步骤 28, 删除共现频度小于给定阈值的词对, 保留下来的词对构成热点词对集合。
     步骤 S3 完成对热点词的编号。将每个热点词用唯一编号表示, 编号可以是阿拉伯 数字, 或其他编号形式。例如一共保留 100 个热点词, 则对应的编号为 1, 2, ..., 100。将热 点词对集合看作无向图形式, 图中每个顶点的编号为相应热点词对应的数字, 图中的边表 示两顶点对应的词构成了热点词对。
     图 4 给出了图 1 中步骤 S4, 即从无向图中生成极大团的工作原理流程。具体步骤如下 : 步骤 41, 遍历无向图, 产生图的所有连通分量。
     步骤 42, 初始化最终极大团集合 T 为空集。
     步骤 43, 取该图中的第一个连通分量。
     步骤 44, 对该连通分量进行处理, 得到所有的极大团, 加入到最终极大团集合 T。
     步骤 45, 判断该图中是否存在下一个连通分量, 若存在, 跳转到步骤 44 ; 否则, 继 续执行步骤 46。
     步骤 46, 输出最终极大团集合 T 中的所有极大团。
     图 5 给出了图 4 中步骤 44, 即从连通分量中产生所有极大团的详细流程。具体步 骤如下 :
     步骤 4401, 取连通分量的第一个顶点 (k = 1) 作为一个当前的极大团, 即 {1}, 设 置当前极大团集合 S1 = {{1}}。显然, 此时连通分量中仅考虑第一个顶点, 构成的极大团只 有该顶点。
     步骤 4402, 判断连通分量中是否存在下一个顶点。 若不存在, 则跳转到步骤 16 ; 若 存在, 继续执行步骤 4403。
     步骤 4403, 设该顶点为第 k 个顶点, 称为顶点 k, 初始化加入顶点 k 后的新极大团 集合 Sk 为空集。则原来的当前极大团集合变为了 Sk-1。
     步骤 4404, 取当前极大团集合 Sk-1 中的第一个团。
     步骤 4405, 设该团为 C, 判断该团的所有顶点是否都是顶点 k 的邻接点。若是, 则 继续执行步骤 4406 ; 否则, 则跳转到步骤 4409。
     步骤 4406, 将 k 加入到该团中形成新团 P。
     步骤 4407, 判断 P 的超集是否在集合 Sk 中。若在集合 Sk 中, 说明以前的操作已经
     产生了该团, 不需要再加入了, 跳转到步骤 4415 ; 否则, 说明 P 为新产生的团, 应该加入到 Sk 中, 继续执行步骤 4408。
     步骤 4408, 将 P 加入到集合 Sk。此时, 仅考虑了前 k 个顶点的极大团全部存储到 集合 Sk 中, 跳转到步骤 4415。
     步骤 4409, 将该团加入到集合 Sk。
     步骤 4410, 将 k 加入到顶点 k 的邻接点集合 L(k) 与该团的交集中, 构成新团 Q, 即 Q = (L(k) ∩ C) ∪ {k}。
     步骤 4411, 判断 Q 的子集是否在新极大团集合 Sk 中存在。若存在, 则需要将其删 除, 继续执行步骤 4412 ; 否则, 跳转到步骤 4413。
     步骤 4412, 则将 Q 的子集从新极大团集合中删除。
     步骤 4413, 判断 Q 的超集是否在新极大团集合中。 若不存在, 应将 Q 加入到新极大 团集合中, 继续执行步骤 4414 ; 否则, 跳转到步骤 4415。
     步骤 4414, 将 Q 加入到新极大团集合中。
     步骤 4415, 判断集合 Sk-1 中是否存在下一个极大团。若存在, 则跳转到步骤 4405, 重复执行步骤 4405 ~步骤 4415 ; 否则, 说明由集合 Sk-1 产生集合 Sk 的过程已经完成, 需要 考虑再加入一个新顶点的处理, 即跳转到步骤 4402, 重复执行如上步骤, 直至连通分量中所 有的顶点都处理完。 步骤 4416, 将产生的集合 Sk 中的所有极大团输出到最终极大团集合中。
     通过步骤 4, 将可将无向图中的所有极大团找出。 下面给出了一个极大团发现的实 例。设图中共有 10 个顶点, 顶点编号分别为 1 至 10, 图中的边有 11 条, 分别为 {1, 3}, {1, 5}, {1, 9}, {2, 8}, {3, 5}, {3, 9}, {4, 6}, {4, 8}, {5, 9}, {6, 8}, {7, 10}, 则该无向图可分解为 四个极大团, 分别为 {1, 3, 5, 9}, {4, 6, 8}, {7, 10}, {2, 8}。
     步骤 S5 完成了热点话题的表示。将各极大团的顶点编号用对应的热点词表示, 将 每个极大团变换为一个词组合, 每个词组合代表一个热点话题。例如, 假设日本、 地震、 福 岛、 核事故对应的编号分别为 1, 3, 5, 9, 则极大团 {1, 3, 5, 9} 代表的热点话题为 { 日本, 地 震, 福岛, 核事故 }。
     以上结合附图对基于极大团发现的网络热点话题检测方法各模块的具体实施方 式进行了阐述。
     另一方面, 本发明还公开了一种基于极大团发现的网络热点话题检测装置。参照 图 6, 该装置包括如下模块 :
     数据采集模块, 完成网络新闻网站、 论坛、 博客、 微博数据实时采集。
     热点词对集合构建模块, 完成对采集数据的处理, 构建热点词对集合。
     热点词编号模块, 将每个热点词进行唯一编号。
     极大团挖掘模块, 将热点词对集合看作无向图形式, 图中每个顶点为相应热点词 对应的编号。完成对无向图的挖掘, 得到所有的极大团。
     热点话题表示模块。将各极大团的顶点编号用对应的热点词表示, 将每个极大团 变换为一个词组合, 每个词组合表示为一个热点话题。
     上述基于极大团发现的网络热点话题检测装置各模块的实施例具有与方法实施 例相同的技术效果, 在此不再重复阐述。
     通过以上实施方式的描述, 所属领域的一般技术人员可以清楚的了解到本发明可 借助软件加必需的通用硬件平台的方式来实现, 当然也可以通过硬件实现, 但前者是更佳 的实施方式。基于这样的理解, 本发明的技术方案本质上或者说对现有技术做出贡献的部 分可以以计算机软件产品的形式体现, 该软件产品存储在一个存储介质中, 包括若干指令 用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。
     依据本发明的思想, 在具体实施方式及应用范围上均会有改变之处。 综上所述, 本 说明书内容不应理解为对本发明的限制。
     以上所述的本发明实施方式, 并不构成对发明保护范围的限定。任何在本发明的 精神和原则之内所作的修改、 等同替换和改进等, 均应包含在本发明的保护范围之内。

基于极大团发现的网络热点话题检测方法及装置.pdf_第1页
第1页 / 共18页
基于极大团发现的网络热点话题检测方法及装置.pdf_第2页
第2页 / 共18页
基于极大团发现的网络热点话题检测方法及装置.pdf_第3页
第3页 / 共18页
点击查看更多>>
资源描述

《基于极大团发现的网络热点话题检测方法及装置.pdf》由会员分享,可在线阅读,更多相关《基于极大团发现的网络热点话题检测方法及装置.pdf(18页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN102346766A43申请公布日20120208CN102346766ACN102346766A21申请号201110278619522申请日20110920G06F17/3020060171申请人北京邮电大学地址100876北京市海淀区西土城路10号72发明人肖波蔺志青郭军54发明名称基于极大团发现的网络热点话题检测方法及装置57摘要本发明实施例公开了一种基于极大团发现的网络热点话题检测方法及装置。其中,该方法包括如下步骤实时采集网络新闻网站、论坛、博客、微博数据;对采集的数据进行分词、词频统计等处理,发现所有的热点词对,构建热点词对集合;将每个热点词用唯一的编号进行表示。

2、;将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;将每个极大团变换为一个词组合,代表一个热点话题。还公开了一种网络热点话题检测装置,利用本发明实施例,能够及时准确地发现网络中的热点话题,提高热点话题检测的速度和精度,具有很大的实用价值。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书4页说明书8页附图5页CN102346786A1/4页21一种网络热点话题检测方法,其特征在于,包括以下步骤数据采集步骤实时采集网络新闻网站、论坛、博客、微博数据;热点词对集合构建步骤对采集的数据进行分词,词频统计等处理,发现所有的热点词对,构建热点词对集合;热点词编号步骤将每个热。

3、点词用唯一的编号进行表示;极大团挖掘步骤将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;热点话题表示步骤将每个极大团变换为一个词组合,代表一个热点话题。2如权利要求1所述的方法,其特征在于,数据采集步骤中,实时采集网络数据包括新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。数据采集步骤进一步包含以下子步骤配置步骤设置进行采集的种子URL和每个种子匹配采集数据用的正则表达式。对于网络新闻网站的新闻列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于论坛列表。

4、页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于博客的博文列表页,分别设置获取标题文本、正文文本、关键字、发布时间的正则表达式;对于微博用户的首页,分别设置获取博文内容文本、发布时间的正则表达式。下载步骤通过HTTP协议应用多线程并行采集种子URL对应的HTML网页。匹配步骤通过配置的正则表达式,对采集到的网页进行匹配,获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据。过滤步骤删除先前已经采集过的数据,保存本时间段新采集的数据,以供后续步骤使用。上述步骤完成后,等待设置的时间间隔后,重复下载步骤、匹配步骤和过滤步骤。3如权利要求2所述的方法,其特征在于,热点词对集。

5、合构建步骤进一步包含以下子步骤构建动词与名词库步骤将所有的中文动词和中文名词存储到该词库中。构建命名实体名称词库步骤将常见的地理名称、组织机构名称、常用人名存储到该词库中。构建动态词库步骤从百度搜索风雨榜等网站实时采集热点搜索词,存储到该词库中。分词操作步骤对采集的各类文本,包括标题文本、正文文本、博文文本、关键词等,采用逆向最大匹配法,利用构建好的上述三类词库进行分词。若某词在某文档中出现多次,算作一次。最终每个文本都变为由词构成的文档向量。词频统计步骤统计每个词在每个文档向量中出现的词频。热点词集合构建步骤删除词频小于给定阈值的词,保留下来的词构成热点词集合。词对共现频度统计步骤统计任意两。

6、个热点词同时出现在一个文档向量中的次数,即词对的共现频度。热点词对生成步骤删除共现频度小于给定阈值的词对,保留下来的词对构成热点词对集合。4如权利要求3所述的方法,其特征在于,极大团挖掘步骤中将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极权利要求书CN102346766ACN102346786A2/4页3大团挖掘,挖掘步骤包含以下子步骤连通分量生成步骤遍历无向图,产生图的所有连通分量。初始化步骤初始化最终极大团集合T为空集。选取步骤取该图中的第一个连通分量。挖掘步骤对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。跳转步骤判断。

7、该图中是否存在下一个连通分量,若存在,跳转到挖掘步骤;否则,继续执行输出步骤。输出步骤输出最终极大团集合T中的所有极大团。其中,上述挖掘步骤完成从连通分量中挖掘所有极大团,具体过程如下1取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合S1仅包含该极大团。2判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16;若存在,继续执行步骤3。3设该顶点为第K个顶点,初始化加入顶点K后的新极大团集合SK为空集。4取当前极大团集合SK1中的第一个团。5判断该团的所有顶点是否都是顶点K的邻接点。若是,则继续执行步骤6;否则,则跳转到步骤9。6将K加入到该团中形成新团P。7判断P的超集是否。

8、在集合SK中。若在集合SK中,说明以前的操作已经产生了该团,不需要再加入,跳转到步骤15;否则,说明P为新产生的团,应该加入到SK中,继续执行步骤8。8将P加入到集合SK。此时,仅考虑了前K个顶点的极大团全部存储到集合SK中,跳转到步骤15。9将该团加入到集合SK。10将K加入到顶点K的邻接点集合LK与该团的交集中,构成新团Q。11判断Q的子集是否在新极大团集合SK中存在。若存在,则需要将其删除,继续执行步骤12;否则,跳转到步骤13。12将Q的子集从新极大团集合中删除。13判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤14;否则,跳转到步骤15。14将Q。

9、加入到新极大团集合中。15判断集合SK1中是否存在下一个极大团。若存在,则跳转到步骤5;否则,跳转到步骤2。16将产生的集合SK中的所有极大团输出到最终极大团集合T中。5如权利要求4所述的方法,其特征在于,热点话题表示步骤中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。6一种网络热点话题检测装置,其特征在于,包括以下模块数据采集模块完成实时采集网络新闻网站、论坛、博客、微博数据;热点词对集合构建模块完成对采集的数据进行分词,词频统计等操作,发现所有的热权利要求书CN102346766ACN102346786A3/4页4点词对,构建热点词对集合;热点词编号模块将。

10、每个热点词用唯一的编号进行表示;极大团挖掘模块将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;热点话题表示模块将每个极大团变换为一个词组合,代表一个热点话题。7如权利要求6所述的方法,其特征在于,数据采集模块中,实时采集网络数据包括新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。数据采集模块进一步包含以下子模块配置模块设置进行采集的种子URL和每个种子匹配采集数据用的正则表达式。对于网络新闻网站的新闻列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于论。

11、坛列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于博客的博文列表页,分别设置获取标题文本、正文文本、关键字、发布时间的正则表达式;对于微博用户的首页,分别设置获取博文内容文本、发布时间的正则表达式。下载模块通过HTTP协议应用多线程并行采集种子URL对应的HTML网页。匹配模块对采集到的网页通过配置的正则表达式获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据。过滤模块删除先前已经采集过的数据,保存本时间段采集的数据,以供后续模块使用。上述模块完成后,等待设置的时间间隔后,重复执行下载模块、匹配模块和过滤模块。8如权利要求7所述的方法,其特征在于,热点词对集合构。

12、建模块进一步包含以下子模块构建动词与名词库模块将所有的中文动词和中文名词存储到该词库中。构建命名实体名称词库模块将常见的地理名称、组织机构名称、常用人名存储到该词库中。构建动态词库模块从百度搜索风雨榜等网站实时采集热点搜索词,存储到该词库中。分词操作模块对采集的各类文本,包括标题文本、正文文本、博文文本、关键词等,采用逆向最大匹配法,利用构建好的三类词库进行分词。若某词在某文档中出现多次,算作一次。最终每个文本都变为由词构成的文档向量。词频统计模块统计每个词在每个文档向量中出现的词频。热点词集合构建模块删除词频小于给定阈值的词,保留下来的词构成热点词集合。词对共现频度统计模块统计任意两个热点词。

13、同时出现在一个文档向量中的次数,即词对的共现频度。热点词对生成模块删除共现频度小于给定阈值的词对,保留下来的词对构成热点词对集合。9如权利要求8所述的方法,其特征在于,极大团挖掘模块将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘模块包含以下子模块连通分量生成模块遍历无向图,产生图的所有连通分量。初始化模块初始化最终极大团集合T为空集。权利要求书CN102346766ACN102346786A4/4页5选取模块取该图中的第一个连通分量。挖掘模块对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。跳转模块判断该图中是否。

14、存在下一个连通分量,若存在,跳转到挖掘模块;否则,继续执行输出模块。输出模块输出最终极大团集合T中的所有极大团。其中,上述挖掘模块完成从连通分量中挖掘所有极大团,具体过程如下1取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合S1仅包含该极大团。2判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16;若存在,继续执行步骤3。3设该顶点为第K个顶点,初始化加入顶点K后的新极大团集合SK为空集。4取当前极大团集合SK1中的第一个团。5判断该团的所有顶点是否都是顶点K的邻接点。若是,则继续执行步骤6;否则,则跳转到步骤9。6将K加入到该团中形成新团P。7判断P的超集是否在集合SK。

15、中。若在集合SK中,说明以前的操作已经产生了该团,不需要再加入,跳转到步骤15;否则,说明P为新产生的团,应该加入到SK中,继续执行步骤8。8将P加入到集合SK。此时,仅考虑了前K个顶点的极大团全部存储到集合SK中,跳转到步骤15。9将该团加入到集合SK。10将K加入到顶点K的邻接点集合LK与该团的交集中,构成新团Q。11判断Q的子集是否在新极大团集合SK中存在。若存在,则需要将其删除,继续执行步骤12;否则,跳转到步骤13。12将Q的子集从新极大团集合中删除。13判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤14;否则,跳转到步骤15。14将Q加入到新极。

16、大团集合中。15判断集合SK1中是否存在下一个极大团。若存在,则跳转到步骤5;否则,跳转到步骤2。16将产生的集合SK中的所有极大团输出到最终极大团集合中。10如权利要求9所述的方法,其特征在于,热点话题表示模块中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。权利要求书CN102346766ACN102346786A1/8页6基于极大团发现的网络热点话题检测方法及装置技术领域0001本发明涉及文本信息处理范畴中的网络信息分析与数据挖掘技术,尤其涉及一种基于极大团发现的热点话题检测方法及装置。背景技术0002互联网日渐成为舆情产生和传播的主要场所,很多人在网络上。

17、主动表达自己的观点和看法。由于网络本身具有虚拟性、隐藏性、渗透性和随意性等特点,使得网络舆情的社会影响力越来越大,甚至会影响国家重大决策。因此,各国政府与军队都高度关注网络舆情的研究,以便及时对热点、焦点与敏感话题做出反应。0003网络热点话题发现是网络舆论管理需要解决的首要问题,最早在该领域展开研究的是由美国国防部先进研究项目局支持的话题检测与跟踪TOPICDETECTIONANDTRACKING,简称TDT项目,该项目在话题检测方面致力于新事件检测以及事件跟踪方面的研究。互联网中的WEB信息资源,如新闻网站、论坛、博客及微博,汇集了各类事件和新闻的报道和舆论评价,是热点话题检测的重要信息平。

18、台。0004随着TDT项目的研究进展,国内外关于话题发现的相应研究成果逐渐丰富起来。热点话题检测本质上属于热点话题聚类。目前话题聚类的方法主要有两大类,一类是通过向量空间模型,计算各个新闻或帖子的距离,或潜在的主题模型进行聚类,另一类是直接通过统计词频产生热点词集合,再进行合理聚类,产生的不同热点词集合来表示不同的热点话题。0005第一类聚类方法在处理长文本时比较有效,但不能保证话题发现的实时性。由于互联网信息很多是短文本,包含的词很少,因此数据具有稀疏性。针对这类数据采用聚类方法效果不尽人意。0006第二类话题检测方法则是直接统计词或重复串的出现次数,用频繁词集合来表达热点话题,因此该类方法。

19、对文本长度不敏感,但查准率有待改善。0007此外,也有研究者提出了不同于以上两类方法的检测技术。例如,有人提出了采用拓扑势的方法进行热点话题聚类,通过评价结点的重要性来判别网络热点及演化趋势。也有研究提出采用演化理论来研究热点话题聚类,首先通过增量单边聚类方法获得候选话题,然后使用演化理论计算话题热度,最后根据定义参数进行排序,得到BBS热点话题。这些方法对于长短不一的互联网信息,效果较差。发明内容0008针对现有技术存在的问题,本发明的目的是提供一种基于极大团发现的热点话题检测方法及装置。0009为达到上述目的,本发明提出的基于极大团发现的网络热点话题检测方法包括下列步骤0010数据采集步骤。

20、实时采集网络新闻网站、论坛、博客、微博数据;说明书CN102346766ACN102346786A2/8页70011热点词对集合构建步骤对采集的数据进行分词、词频统计等处理,发现所有的热点词对,构建热点词对集合;0012热点词编号步骤将每个热点词用唯一的编号进行表示;0013极大团挖掘步骤将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;0014热点话题表示步骤将每个极大团变换为一个词组合,代表一个热点话题。0015数据采集步骤中,实时采集网络数据包括新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中。

21、用户的每条博文内容和发布时间。采集步骤进一步包含以下子步骤配置步骤,即设置进行采集的种子URL和每个种子匹配采集数据用的正则表达式;下载步骤,即通过HTTP协议应用多线程并行采集种子URL对应的HTML网页;匹配步骤,对采集到的网页通过配置到正则表达式获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据;过滤步骤,删除先前已经采集过的数据,保存本时间段采集的数据,以供后续步骤使用;上述步骤完成后,等待设置的时间间隔后,重复下载步骤、匹配步骤和过滤步骤。0016热点词对集合构建步骤完成对采集的数据进行分词、词频统计等处理,进一步包含以下子步骤构建动词与名词库步骤;构建命名实体名称词库。

22、步骤;构建动态词库步骤;分词操作步骤;词频统计步骤;热点词集合构建步骤;词对共现频度统计步骤;热点词对生成步骤。0017热点词编号步骤中将每个热点词用唯一编号表示,编号可以是阿拉伯数字,或其他编号形式。0018极大团挖掘步骤中将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘步骤包含以下子步骤0019连通分量生成步骤遍历无向图,产生图的所有连通分量。0020初始化步骤初始化最终极大团集合T为空集。0021选取步骤取该图中的第一个连通分量。0022挖掘步骤对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。0023跳转步。

23、骤判断该图中是否存在下一个连通分量,若存在,跳转到挖掘步骤;否则,继续执行输出步骤。0024输出步骤输出最终极大团集合T中的所有极大团。0025其中,上述挖掘步骤完成从连通分量中挖掘所有极大团,具体过程如下00261取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合S1仅包含该极大团。00272判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16;若存在,继续执行步骤3。00283设该顶点为第K个顶点,初始化加入顶点K后的新极大团集合SK为空集。00294取当前极大团集合SK1中的第一个团。00305判断该团的所有顶点是否都是顶点K的邻接点。若是,则继续执行步骤6;否则,则。

24、跳转到步骤9。说明书CN102346766ACN102346786A3/8页800316将K加入到该团中形成新团P。00327判断P的超集是否在集合SK中。若在集合SK中,说明以前的操作已经产生了该团,不需要再加入,跳转到步骤4415;否则,说明P为新产生的团,应该加入到SK中,继续执行步骤8。00338将P加入到集合SK。此时,仅考虑了前K个顶点的极大团全部存储到集合SK中,跳转到步骤15。00349将该团加入到集合SK。003510将K加入到顶点K的邻接点集合LK与该团的交集中,构成新团Q。003611判断Q的子集是否在新极大团集合SK中存在。若存在,则需要将其删除,继续执行步骤12;否则。

25、,跳转到步骤13。003712则将Q的子集从新极大团集合中删除。003813判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤14;否则,跳转到步骤15。003914将Q加入到新极大团集合中。004015判断集合SK1中是否存在下一个极大团。若存在,则跳转到步骤5;否则,跳转到步骤2。004116将产生的集合SK中的所有极大团输出到最终极大团集合中。0042热点话题表示步骤中,将每个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。0043本发明提出的基于极大团发现的网络热点话题检测装置,包括以下模块0044数据采集模块完成实时采集网络新。

26、闻网站、论坛、博客、微博数据;0045热点词对集合构建模块完成对采集的数据进行分词,词频统计等处理,发现所有的热点词对,构建热点词对集合;0046热点词编号模块将每个热点词用唯一的编号进行表示;0047极大团挖掘模块将热点词对集合看作无向图,对其进行挖掘,得到所有的极大团;0048热点话题表示模块将每个极大团变换为一个词组合,代表一个热点话题。0049数据采集模块中,实时采集网络数据包括新闻网站中每条新闻的标题、正文、发布时间;论坛中每条帖子的标题,正文、发布时间;博客中每篇博客文章的标题、正文、关键字和发布时间;微博中用户的每条博文内容和发布时间。采集模块进一步包含以下子模块配置模块;下载模。

27、块;匹配模块;过滤模块;上述模块完成后,等待设置的时间间隔后,重复执行下载模块、匹配模块和过滤模块。0050热点词对集合构建模块进一步包含以下子模块构建动词与名词库模块;构建命名实体名称词库模块;构建动态词库模块;分词操作模块;词频统计模块;热点词集合构建模块;词对共现频度统计模块;热点词对生成模块。0051热点词编号模块将每个热点词用唯一编号表示,编号可以是阿拉伯数字,或其他编号形式。0052极大团挖掘模块将热点词对集合中的每个热点词编号作为顶点,词对作为两顶点的边,将热点词对集合构成无向图。对该图进行极大团挖掘,挖掘模块包含以下子模块说明书CN102346766ACN102346786A4。

28、/8页90053连通分量生成模块遍历无向图,产生图的所有连通分量。0054初始化模块初始化最终极大团集合T为空集。0055选取模块取该图中的第一个连通分量。0056挖掘模块对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。0057跳转模块判断该图中是否存在下一个连通分量,若存在,跳转到挖掘模块;否则,继续执行输出模块。0058输出模块输出最终极大团集合T中的所有极大团。0059其中,上述挖掘模块完成从连通分量中挖掘所有极大团,具体过程如下00601取连通分量的第一个顶点作为一个当前的极大团,设置当前极大团集合S1仅包含该极大团。00612判断连通分量中是否存在下一个顶点。若不存在。

29、,则跳转到步骤16;若存在,继续执行步骤3。00623设该顶点为第K个顶点,初始化加入顶点K后的新极大团集合SK为空集。00634取当前极大团集合SK1中的第一个团。00645判断该团的所有顶点是否都是顶点K的邻接点。若是,则继续执行步骤6;否则,则跳转到步骤9。00656将K加入到该团中形成新团P。00667判断P的超集是否在集合SK中。若在集合SK中,说明以前的操作已经产生了该团,不需要再加入,跳转到步骤15;否则,说明P为新产生的团,应该加入到SK中,继续执行步骤8。00678将P加入到集合SK。此时,仅考虑了前K个顶点的极大团全部存储到集合SK中,跳转到步骤15。00689将该团加入到。

30、集合SK。006910将K加入到顶点K的邻接点集合LK与该团的交集中,构成新团Q。007011判断Q的子集是否在新极大团集合SK中存在。若存在,则需要将其删除,继续执行步骤12;否则,跳转到步骤13。007112则将Q的子集从新极大团集合中删除。007213判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤14;否则,跳转到步骤15。007314将Q加入到新极大团集合中。007415判断集合SK1中是否存在下一个极大团。若存在,则跳转到步骤5;否则,跳转到步骤2。007516将产生的集合SK中的所有极大团输出到最终极大团集合中。0076热点话题表示模块中,将每。

31、个极大团中的数字变换为对应词,极大团变换为词组合,代表一个热点话题并输出。0077本发明的有益效果在于,相对于现有技术而言,本发明为了满足用户实时发现互联网中突发性热点话题的需求,面向互联网新闻、论坛、博客、微博中的信息,综合利用话题检测与跟踪算法和极大团发现技术,对文本信息进行分析与数据挖掘,对热点话题进行检说明书CN102346766ACN102346786A5/8页10测。实验结果验证了本发明的有效性和准确性,具有很大实用性。附图说明0078图1为本发明基于极大团发现的网络热点话题检测方法的步骤流程图;0079图2为数据采集方法的步骤流程图;0080图3为热点词对集合构建方法的步骤流程图。

32、;0081图4为从无向图中生成极大团的工作原理图;0082图5为从连通分量中生成极大团的详细流程图;0083图6为本发明基于极大团发现的网络热点话题检测装置的结构框图。具体实施方式0084下面将结合附图对本发明具体实施方式进行详细说明。0085图1是本发明的一个实施方式的流程图,包括以下步骤0086步骤S1数据采集,完成网络新闻网站、论坛、博客、微博数据实时采集。0087步骤S2热点词对集合构建,对采集的数据进行处理,构建热点词对集合。0088步骤S3热点词编号,将每个热点词用唯一编号表示。0089步骤S4极大团挖掘,将热点词对集合看作无向图形式,图中每个顶点为相应热点词对应的编号。对该图进行。

33、挖掘,得到所有的极大团。0090步骤S5热点话题表示,将各极大团的顶点编号用对应的热点词表示,将每个极大团变换为一个词组合,每个词组合代表一个热点话题。0091下面将对每个步骤进行具体的说明0092步骤S1完成网络新闻网站、论坛、博客、微博数据实时采集。本发明设计了基于HTTP协议下载及对网页内容进行正则表达式匹配的采集方法。图2给出了该方法的具体实施流程图,具体步骤如下0093步骤11,设置种子URL和每个种子匹配用的正则表达式,种子URL可以是多个。种子设置为4类,分别为网络新闻网站的新闻列表页、论坛列表页、博客的博文列表页,微博用户的首页。对于网络新闻网站的新闻列表页,分别设置获取标题文。

34、本、正文文本、发布时间的正则表达式;对于论坛列表页,分别设置获取标题文本、正文文本、发布时间的正则表达式;对于博客的博文列表页,分别设置获取标题文本、正文文本、关键字、发布时间的正则表达式;对于微博用户的首页,分别设置获取博文内容文本、发布时间的正则表达式。0094步骤12,通过HTTP协议应用多线程并行采集种子URL对应的HTML网页。0095步骤13,对采集到的网页通过配置到正则表达式获得标题文本、正文文本、关键字、发布时间等数据,构成结构化的数据。0096步骤14,删除先前已经采集过的数据,保存本时间段采集的数据,以供步骤S2使用。0097步骤15,等待设置的时间间隔后,跳转到步骤12,。

35、重复步骤12步骤15,采集下一个时间段的数据。0098步骤S2完成对采集数据的处理,构建热点词对集合。图3给出了该方法的实施过程流程图,具体操作步骤如下说明书CN102346766ACN102346786A6/8页110099步骤21,构建动词与名词静态词库。词库包含中文动词和中文名词。0100步骤22,构建命名实体名称词库。词库包括地理名称、组织机构名称、常用人名。0101步骤23,构建动态词库。词库包含从百度搜索风雨榜、等网站实时采集的热点搜索词。0102步骤24,对采集的各类文本,包括标题文本、正文文本、博文文本、关键词等,采用逆向最大匹配法,利用三类词库进行分词,将各类文本都变为词的集。

36、合。若某词在某文档向量中出现多次,算作一次。关键词有时也是2或多个词构成,因此也需要进行分词操作。最终每个文本都变为由词构成的文档向量。0103步骤25,统计每个词在每个文档向量中出现的词频。0104步骤26,删除词频小于给定阈值的词,保留下来的词构成热点词集合。0105步骤27,统计任意两个热点词同时出现在一个文档向量中的次数,即共现频度。0106步骤28,删除共现频度小于给定阈值的词对,保留下来的词对构成热点词对集合。0107步骤S3完成对热点词的编号。将每个热点词用唯一编号表示,编号可以是阿拉伯数字,或其他编号形式。例如一共保留100个热点词,则对应的编号为1,2,100。将热点词对集合。

37、看作无向图形式,图中每个顶点的编号为相应热点词对应的数字,图中的边表示两顶点对应的词构成了热点词对。0108图4给出了图1中步骤S4,即从无向图中生成极大团的工作原理流程。具体步骤如下0109步骤41,遍历无向图,产生图的所有连通分量。0110步骤42,初始化最终极大团集合T为空集。0111步骤43,取该图中的第一个连通分量。0112步骤44,对该连通分量进行处理,得到所有的极大团,加入到最终极大团集合T。0113步骤45,判断该图中是否存在下一个连通分量,若存在,跳转到步骤44;否则,继续执行步骤46。0114步骤46,输出最终极大团集合T中的所有极大团。0115图5给出了图4中步骤44,即。

38、从连通分量中产生所有极大团的详细流程。具体步骤如下0116步骤4401,取连通分量的第一个顶点K1作为一个当前的极大团,即1,设置当前极大团集合S11。显然,此时连通分量中仅考虑第一个顶点,构成的极大团只有该顶点。0117步骤4402,判断连通分量中是否存在下一个顶点。若不存在,则跳转到步骤16;若存在,继续执行步骤4403。0118步骤4403,设该顶点为第K个顶点,称为顶点K,初始化加入顶点K后的新极大团集合SK为空集。则原来的当前极大团集合变为了SK1。0119步骤4404,取当前极大团集合SK1中的第一个团。0120步骤4405,设该团为C,判断该团的所有顶点是否都是顶点K的邻接点。若。

39、是,则继续执行步骤4406;否则,则跳转到步骤4409。0121步骤4406,将K加入到该团中形成新团P。0122步骤4407,判断P的超集是否在集合SK中。若在集合SK中,说明以前的操作已经说明书CN102346766ACN102346786A7/8页12产生了该团,不需要再加入了,跳转到步骤4415;否则,说明P为新产生的团,应该加入到SK中,继续执行步骤4408。0123步骤4408,将P加入到集合SK。此时,仅考虑了前K个顶点的极大团全部存储到集合SK中,跳转到步骤4415。0124步骤4409,将该团加入到集合SK。0125步骤4410,将K加入到顶点K的邻接点集合LK与该团的交集中。

40、,构成新团Q,即QLKCK。0126步骤4411,判断Q的子集是否在新极大团集合SK中存在。若存在,则需要将其删除,继续执行步骤4412;否则,跳转到步骤4413。0127步骤4412,则将Q的子集从新极大团集合中删除。0128步骤4413,判断Q的超集是否在新极大团集合中。若不存在,应将Q加入到新极大团集合中,继续执行步骤4414;否则,跳转到步骤4415。0129步骤4414,将Q加入到新极大团集合中。0130步骤4415,判断集合SK1中是否存在下一个极大团。若存在,则跳转到步骤4405,重复执行步骤4405步骤4415;否则,说明由集合SK1产生集合SK的过程已经完成,需要考虑再加入一。

41、个新顶点的处理,即跳转到步骤4402,重复执行如上步骤,直至连通分量中所有的顶点都处理完。0131步骤4416,将产生的集合SK中的所有极大团输出到最终极大团集合中。0132通过步骤4,将可将无向图中的所有极大团找出。下面给出了一个极大团发现的实例。设图中共有10个顶点,顶点编号分别为1至10,图中的边有11条,分别为1,3,1,5,1,9,2,8,3,5,3,9,4,6,4,8,5,9,6,8,7,10,则该无向图可分解为四个极大团,分别为1,3,5,9,4,6,8,7,10,2,8。0133步骤S5完成了热点话题的表示。将各极大团的顶点编号用对应的热点词表示,将每个极大团变换为一个词组合,。

42、每个词组合代表一个热点话题。例如,假设日本、地震、福岛、核事故对应的编号分别为1,3,5,9,则极大团1,3,5,9代表的热点话题为日本,地震,福岛,核事故。0134以上结合附图对基于极大团发现的网络热点话题检测方法各模块的具体实施方式进行了阐述。0135另一方面,本发明还公开了一种基于极大团发现的网络热点话题检测装置。参照图6,该装置包括如下模块0136数据采集模块,完成网络新闻网站、论坛、博客、微博数据实时采集。0137热点词对集合构建模块,完成对采集数据的处理,构建热点词对集合。0138热点词编号模块,将每个热点词进行唯一编号。0139极大团挖掘模块,将热点词对集合看作无向图形式,图中每。

43、个顶点为相应热点词对应的编号。完成对无向图的挖掘,得到所有的极大团。0140热点话题表示模块。将各极大团的顶点编号用对应的热点词表示,将每个极大团变换为一个词组合,每个词组合表示为一个热点话题。0141上述基于极大团发现的网络热点话题检测装置各模块的实施例具有与方法实施例相同的技术效果,在此不再重复阐述。说明书CN102346766ACN102346786A8/8页130142通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡。

44、献的部分可以以计算机软件产品的形式体现,该软件产品存储在一个存储介质中,包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。0143依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。0144以上所述的本发明实施方式,并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。说明书CN102346766ACN102346786A1/5页14图1图2说明书附图CN102346766ACN102346786A2/5页15图3说明书附图CN102346766ACN102346786A3/5页16图4说明书附图CN102346766ACN102346786A4/5页17图5说明书附图CN102346766ACN102346786A5/5页18图6说明书附图CN102346766A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1