一种基于地域的话题挖掘及话题走势分析方法及系统.pdf

上传人:1****2 文档编号:4042830 上传时间:2018-08-12 格式:PDF 页数:11 大小:1.13MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410800232.5

申请日:

2014.12.18

公开号:

CN104516961A

公开日:

2015.04.15

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20141218|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

北京牡丹电子集团有限责任公司数字电视技术中心

发明人:

姬东鸿; 程飞; 白旭

地址:

100191北京市海淀区花园路2号

优先权:

专利代理机构:

北京轻创知识产权代理有限公司11212

代理人:

杨立

PDF下载: PDF下载
内容摘要

本发明涉及一种基于地域的话题挖掘及话题走势分析方法及系统,话题挖掘包括:按照地域对预定时间段内的网络文章进行分类;抽取每个类的类关键词;针对每个类过滤掉不符合阈值要求的类关键词;对每个类剩余的类关键词进行聚类;判断每个类相关文章数量是否达到预设阈值,如果是则由剩余的类关键词构成一个话题;话题走势分析包括:对待分析话题的帖子按时间排序;分析话题从开始产生到当前时刻的帖子走势,生成话题走势图;通过话题走势图用训练后的话题消亡模块判断该话题是否消亡。本发明采用基于话题挖掘及走势分析机制,自动挖掘出热门话题,过滤掉大量无关的信息,分析话题的走势,让用户从多个维度了解一个事件的产生发展及消亡情况。

权利要求书

权利要求书
1.  一种基于地域的话题挖掘及话题走势分析方法,其特征在于,话题 挖掘包括如下步骤:
步骤A1,获取网络文章并存入数据库;
步骤A2,按照地域对预定时间段内的网络文章进行分类;
步骤A3,抽取每个类的类关键词;
步骤A4,针对每个类过滤掉不符合阈值要求的类关键词;
步骤A5,对每个类过滤后剩余的类关键词进行聚类;
步骤A6,判断每个类相关网络文章数量是否达到预设阈值,如果是则由 聚类的类关键词构成一个话题,否则不形成话题。

2.  根据权利要求1所述一种基于地域的话题挖掘及话题走势分析方 法,其特征在于,步骤A1中利用自适应网络爬虫获取网络文章,存入数据 库便于后续数据分析。

3.  根据权利要求1所述一种基于地域的话题挖掘及话题走势分析方 法,其特征在于,所述话题的构成包括地域、话题关键词、开始时间、相关 帖子数、相关趋势和消亡与否。

4.  根据权利要求1所述一种基于地域的话题挖掘及话题走势分析方 法,其特征在于,话题走势分析包括如下步骤:
步骤B1,对待分析话题的帖子按时间排序;
步骤B2,分析话题从开始产生到当前时刻的帖子走势,生成话题走势图;
步骤B3,通过话题走势图用训练后的话题消亡模块判断该话题是否消 亡;未消亡的话题不断更新帖子并继续判断是否消亡,已消亡的话题则不再 更新。

5.  一种基于地域的话题挖掘及话题走势分析系统,其特征在于,包括 文章获取模块、文章分类模块、类关键词抽取模块、类关键词过滤模块、类 关键词聚类模块和话题形成模块;
所述文章获取模块,其用于获取网络文章并存入数据库;
所述文章分类模块,其用于按照地域对预定时间段内的文章进行分类;
所述类关键词抽取模块,其用于抽取每个类的类关键词;
所述类关键词过滤模块,其用于针对每个类过滤掉不符合阈值要求的类 关键词;
所述关键词聚类模块,其用于对每个类过滤后剩余的类关键词进行聚 类;
所述话题形成模块,其用于判断每个类相关网络文章数量是否达到预设 阈值,如果是则由聚类的类关键词构成一个话题,否则不形成话题。

6.  根据权利要求5所述一种基于地域的话题挖掘及话题走势分析系 统,其特征在于,所述文章获取模块利用自适应网络爬虫获取网络文章,存 入数据库便于后续数据分析。

7.  根据权利要求5所述一种基于地域的话题挖掘及话题走势分析系 统,其特征在于,所述话题的构成包括地域、话题关键词、开始时间、相关 帖子数、相关趋势和消亡与否。

8.  根据权利要求5所述一种基于地域的话题挖掘及话题走势分析系 统,其特征在于,还包括帖子归类模块、话题走势分析模块和话题走势总结 模块;
所述帖子归类模块,其用于对话题的帖子按时间归类;
所述话题走势分析模块,其用于分析话题从开始产生到当前时刻的帖子 走势,生成话题走势图;
所述话题走势总结模块,其用于通过话题走势图用训练后的话题消亡模 块判断该话题是否消亡;未消亡的话题不断更新帖子并继续判断是否消亡, 已消亡的话题则不再更新。

说明书

说明书一种基于地域的话题挖掘及话题走势分析方法及系统
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于地域的话题挖掘及话 题走势分析方法及系统。
背景技术
随着大数据时代的来临,如何从互联网快速获取热门的信息是衡量网络 时代进步的一个重要标志。掌握热门信息意味着占据主动,及时挖掘和分析 热门信息不仅节约大量阅读总结的时间,在为正确及时的决策奠定了基础。 这无论对于普通网民,还是国家安全、政府运作及商业活动都有着十分重要 的意义。
首先,网民上网的时间并不是无限的,有时并没有时间浏览大量的网页 来获取热门信息,特别是基于某个地区的热门信息,这时候一个好的能够快 速让网民知道了解最近热门信息及其走势的工具可以节省网民大量的时间。
其次,国家安全是国家的头等大事,而信息安全也是国家安全的一部分。 及时掌控和处理热门信息特别涉及到热门敏感信息是维持国家安全、维护社 会稳定的一个前提条件。
再次,政府部门作为服务人民的职能部门,必须要及时了解民意,准确 体察民情;同时又要时刻掌握有关大量网民特别是某个地域范围内的热门话 题的产生背景和发展趋势,力求避免负面话题的发生或尽量减少负面话题的 影响。另外,对于商业部门来说,及时掌握产品的市场反馈、了解竞争对手 的有关动态是企业保持竞争活力、不断改善产品性能的重要手段,一定程度 上决定了企业的成败。
目前,互联网上话题的获取大多是通过相关网站获得的。例如如果要掌 握有关云南的话题,就必须去云南相关的主页浏览。但这种方式存在以下几 个问题:
第一,很多时候这些主页的话题并没更新,浏览者根本不知道那些话题 最新。
第二,浏览者也不知道话题热门情况及其走势。
第三,浏览者不知道话题开始时间及最近发展情况。
传统的浏览话题的方法一般是去门户网站浏览,然而,这些门户网站的 信息太过冗余,用户根本无法了解相关事情的热门程度以及其走势,有多少 用户关心这个话题。例如:用户需要了解当前热门的某官员腐败话题的讨论 情况及其走势,但这些网站根本不能提供给用户这些信息。
为此,我们提出话题挖掘与走势分析的策略。直观上,话题是一种概念 结构,话题有许多部分组成,它不仅仅只是几段文字就能形容的,它还包括 文字之外的许多部分,例如话题开始时间、话题热门情况,话题走势等。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种基于地域 的话题挖掘及话题走势分析方法及系统。
本发明解决上述技术问题的技术方案如下:一种基于地域的话题挖掘及 话题走势分析方法,话题挖掘包括如下步骤:
步骤A1,获取网络文章并存入数据库;
步骤A2,按照地域对预定时间段内的网络文章进行分类;
步骤A3,抽取每个类的类关键词;
步骤A4,针对每个类过滤掉不符合阈值要求的类关键词;
步骤A5,对每个类过滤后剩余的类关键词进行聚类;
步骤A6,判断每个类相关网络文章数量是否达到预设阈值,如果是则由 聚类的类关键词构成一个话题,否则不形成话题。
本发明的有益效果是:本发明采用基于话题挖掘及走势分析机制,能够 自动挖掘出用户关注的热门话题,过滤掉大量无关的信息,并能够分析这些 话题的走势,让用户从多个维度了解一个事件的产生发展及消亡情况。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤A1中利用自适应网络爬虫获取网络文章,存入数据库便 于后续数据分析。
进一步,所述话题的构成包括地域、话题关键词、开始时间、相关帖子 数、相关趋势和消亡与否。
采用上述进一步方案的有益效果:使得话题比单篇文章更有灵性,也更 能生动形象地描述某个地域某个时间段所发生的事情,对某个地域某个时间 段的事件分析和掌控有许多帮助。
进一步,话题走势分析包括如下步骤:
步骤B1,对待分析话题的帖子按时间排序;
步骤B2,分析话题从开始产生到当前时刻的帖子走势,生成话题走势图;
步骤B3,通过话题走势图用训练后的话题消亡模块判断该话题是否消 亡;未消亡的话题不断更新帖子并继续判断是否消亡,已消亡的话题则不再 更新。
本发明解决上述技术问题的技术方案如下:一种基于地域的话题挖掘及 话题走势分析系统,包括文章获取模块、文章分类模块、类关键词抽取模块、 类关键词过滤模块、类关键词聚类模块和话题形成模块;
所述文章获取模块,其用于获取网络文章并存入数据库;
所述文章分类模块,其用于按照地域对预定时间段内的文章进行分类;
所述类关键词抽取模块,其用于抽取每个类的类关键词;
所述类关键词过滤模块,其用于针对每个类过滤掉不符合阈值要求的类 关键词;
所述关键词聚类模块,其用于对每个类过滤后剩余的类关键词进行聚 类;
所述话题形成模块,其用于判断每个类相关网络文章数量是否达到预设 阈值,如果是则由聚类的类关键词构成一个话题,否则不形成话题。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述文章获取模块利用自适应网络爬虫获取网络文章,存入数 据库便于后续数据分析。
进一步,所述话题的构成包括地域、话题关键词、开始时间、相关帖子 数、相关趋势和消亡与否。
进一步,上述系统还包括帖子归类模块、话题走势分析模块和话题走势 总结模块;
所述帖子归类模块,其用于对话题的帖子按时间归类;
所述话题走势分析模块,其用于分析话题从开始产生到当前时刻的帖子 走势,生成话题走势图;
所述话题走势总结模块,其用于通过话题走势图用训练后的话题消亡模 块判断该话题是否消亡;未消亡的话题不断更新帖子并继续判断是否消亡, 已消亡的话题则不再更新。
附图说明
图1为本发明所述基于地域的话题挖掘步骤流程图;
图2为本发明所述基于地域的话题走势分析步骤流程图;
图3为本发明一种基于地域的话题挖掘及话题走势分析系统框图;
图4是抽取的关于丽江市的话题;
图5是抽取的关于昆明市公租房的话题;
图6是昆明市公租房话题文章列表。
附图中,各标号所代表的部件列表如下:
1、文章获取模块,2、文章分类模块,3、类关键词抽取模块,4、类关 键词过滤模块,5、类关键词聚类模块,6、话题形成模块,7、帖子归类模 块,8、话题走势分析模块,9、话题走势总结模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本 发明,并非用于限定本发明的范围。
如图1所示,一种基于地域的话题挖掘及话题走势分析方法,话题挖掘 包括如下步骤:
步骤A1,获取网络文章并存入数据库;
步骤A2,按照地域对预定时间段内的网络文章进行分类;
步骤A3,抽取每个类的类关键词;
步骤A4,针对每个类过滤掉不符合阈值要求的类关键词;
步骤A5,对每个类过滤后剩余的类关键词进行聚类;
步骤A6,判断每个类相关网络文章数量是否达到预设阈值,如果是则由 聚类的类关键词构成一个话题,否则不形成话题。
步骤A1中利用自适应网络爬虫获取网络文章,存入数据库便于后续数 据分析。
所述话题的构成包括地域、话题关键词、开始时间、相关帖子数、相关 趋势和消亡与否。
如图2所示,话题走势分析包括如下步骤:
步骤B1,对待分析话题的帖子按时间排序;
步骤B2,分析话题从开始产生到当前时刻的帖子走势,生成话题走势图;
步骤B3,通过话题走势图用训练后的话题消亡模块判断该话题是否消 亡;未消亡的话题不断更新帖子并继续判断是否消亡,已消亡的话题则不再 更新。
如图3所示,一种基于地域的话题挖掘及话题走势分析系统,包括文章 获取模块1、文章分类模块2、类关键词抽取模块3、类关键词过滤模块4、 类关键词聚类模块5和话题形成模块6;所述文章获取模块1,其用于获取 网络文章并存入数据库;所述文章分类模块2,其用于按照地域对预定时间 段内的文章进行分类;所述类关键词抽取模块3,其用于抽取每个类的类关 键词;所述类关键词过滤模块4,其用于针对每个类过滤掉不符合阈值要求 的类关键词;所述关键词聚类模块5,其用于对每个类过滤后剩余的类关键 词进行聚类;所述话题形成模块6,其用于判断每个类相关网络文章数量是 否达到预设阈值,如果是则由聚类的类关键词构成一个话题,否则不形成话 题。
上述系统还包括帖子归类模块7、话题走势分析模块8和话题走势总结 模块9;所述帖子归类模块7,其用于对话题的帖子按时间归类;所述话题 走势分析模块8,其用于分析话题从开始产生到当前时刻的帖子走势,生成 话题走势图;所述话题走势总结模块9,其用于通过话题走势图用训练后的 话题消亡模块判断该话题是否消亡;未消亡的话题不断更新帖子并继续判断 是否消亡,已消亡的话题则不再更新。
本发明包括:一、话题挖掘平台:主要功能是从大量实时帖子中挖掘出 活跃话题;二、话题相关概念抽取:话题相关概念主要包括人名、地名、时 间、相关文章等;三、话题走势:分析相关话题的走势,掌握话题发展趋势。
使用独特的话题走势分析方法,判断话题是否消亡(即不活跃,不能作 为热门话题)。对话题的帖子按日统计,统计话题的日走势情况,如果话题 最近三天(前天、昨天、今天)的帖子总数少于话题帖子数最多的一天的三 分之一,且今天离帖子数最多的一天相隔三天以上,则该话题消亡。话题消 亡模型的判断是进过多次训练得到的。
话题的构成主要为地域、话题关键词、开始时间、相关帖子数、相关趋 势、消亡与否等。这使得话题比单篇文章更有灵性,也更能生动形象地描述 某个地域某个时间段所发生的事情,对某个地域某个时间段的事件分析和掌 控也有许多帮助。
实现本发明目的的研究路线是:
1.瞄准关键技术的开发和原型系统(话题挖掘和走势分析系统)的研制, 包括自适应网络爬虫,话题挖掘平台,话题走势分析平台;
2.原型系统与特定领域应用系统的定制机制:针对不同领域,在原型 系统的基础上利用定制加以开发,缩短系统开发时间;
3.特定领域系统试用、反馈、升级和关键技术开发相结合。
实现本发明目的的关键技术有:
1.话题相关概念:主要包括构成话题的基本概念,包括人名、地名、 时间、相关文章等;
2.话题挖掘平台:主要功能是描述话题及其特征、话题的构成要素、 要素之间的关系、以及如何从各要素推导话题的特征。
3.话题走势分析平台:主要功能是分析话题从产生那一时刻起到目前 分析的时刻的发展走势,是继续活跃还是已经消亡。
本发明的创新之处在于:
1.话题挖掘:相比单篇文章,话题是一种概念结构。首先它能较准确 描述某个事件;其次,它基于结构,因而能满足用户的搜索精度要求;再次, 它基于概念,因此也能保证用户的查全率要求;
2.搜索结果:从搜索结果来看,目前大部分门户网站的结果仍是以单 篇文章提供给用户查看;而话题的结果是结构化的,可以让用户从多个角度 对话题进行充分了解及把握。
3.走势分析:独创的话题走势分析,进过多次训练得到的优化模型, 能够反映目前话题在互联网上的热度、走势以及其消亡情况。
本发明的优点在于:
传统的浏览话题的方法一般是去门户网站浏览,然而,这些门户网站的 信息太过冗余,用户根本无法了解相关事情的热门程度以及其走势,有多少 用户关心这个话题。例如:用户需要了解当前热门的某官员腐败话题的讨论 情况及其走势,但这些网站根本不能提供给用户这些信息,但本系统采用基 于话题挖掘及走势分析机制,能够自动挖掘出用户关注的热门话题,过滤掉 大量无关的信息,并能够分析这些话题的走势,让用户从多个维度了解一个 事件的产生发展及消亡情况。
如图4所示,所述话题为抽取的关于丽江市的话题。所述地区为:丽江 市,关键词为空中游,开始时间为2013-01-2407:01,产生时间为2013-01-24 07:01,相关新闻数为5,相关微博数为1,相关帖子数为0,图中显示了相 关文章中有4篇新闻,1篇微博。
如图5所示,所述话题为抽取的关于昆明市公租房的话题。所述地区为 昆明市,关键词为公租房,开始时间为2013-01-1409:36,产生时间为 2013-01-1409:36,相关新闻数为41篇,相关微博数为5篇,相关帖子数 为76,图中显示的相关文章中有4篇新闻,1篇微博。
如图6所示,显示了关于昆明市公租房话题的文章列表,以及相应文章 的点击或转发以及评论数。文章来自于新闻、论坛、微博,图中显示了该话 题文章列表总共有3页,每页最多20条,当前显示的为第一页。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明 的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发 明的保护范围之内。

一种基于地域的话题挖掘及话题走势分析方法及系统.pdf_第1页
第1页 / 共11页
一种基于地域的话题挖掘及话题走势分析方法及系统.pdf_第2页
第2页 / 共11页
一种基于地域的话题挖掘及话题走势分析方法及系统.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《一种基于地域的话题挖掘及话题走势分析方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种基于地域的话题挖掘及话题走势分析方法及系统.pdf(11页珍藏版)》请在专利查询网上搜索。

本发明涉及一种基于地域的话题挖掘及话题走势分析方法及系统,话题挖掘包括:按照地域对预定时间段内的网络文章进行分类;抽取每个类的类关键词;针对每个类过滤掉不符合阈值要求的类关键词;对每个类剩余的类关键词进行聚类;判断每个类相关文章数量是否达到预设阈值,如果是则由剩余的类关键词构成一个话题;话题走势分析包括:对待分析话题的帖子按时间排序;分析话题从开始产生到当前时刻的帖子走势,生成话题走势图;通过话题。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1