一种舆情热度的快速计算方法.pdf

上传人:zhu****69 文档编号:4038550 上传时间:2018-08-12 格式:PDF 页数:7 大小:294.59KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510042230.9

申请日:

2015.01.27

公开号:

CN104731857A

公开日:

2015.06.24

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150127|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

南京烽火星空通信发展有限公司

发明人:

魏世凯; 熊俭; 李广兵; 史波良; 李友佳

地址:

210019江苏省南京市建邺区云龙山路88号烽火科技大厦A栋26F

优先权:

专利代理机构:

南京经纬专利商标代理有限公司32200

代理人:

杨海军

PDF下载: PDF下载
内容摘要

本发明公开了一种舆情热度的快速计算方法,包括以下步骤:构建舆情热度样本库;构建热度计算模型;获取模型计算输入;计算舆情热度。构建舆情热度样本库采样类包括新闻、论坛、微博、以及搜索引擎中的一种或几种。本发明方法在针对舆情事件影响的量化方面有突出的作用,而目前的情况是无法做到。根据此计算方法,可以针对未知的整体集合做出有效的、趋势性的计算,从而有效跟踪特定的舆情事件的影响度。该思路把业内相关的系统建设方、使用方从单调而未知的方向中解放了出来,同时针对使用方进行舆情信息的管控方面也提供了思路,使其管控措施能够做到事半功倍。

权利要求书

权利要求书
1.  一种舆情热度的快速计算方法,其特征在于,包括以下步骤:
构建舆情热度样本库;
构建热度计算模型;
获取模型计算输入;
计算舆情热度。

2.  根据权利要求1所述的一种舆情热度的快速计算方法,其特征在于,构建舆情热度样本库 采样类包括新闻、论坛、微博、以及搜索引擎中的一种或几种。

3.  根据权利要求2所述的一种舆情热度的快速计算方法,其特征在于,新闻和论坛的热度 G1计算公式为:
G 1 = Σ i 1 = 1 N 1 hi 1 , ]]>
其中,N1表示新闻和论坛信息总数,hi1表示第i1条信息的计算得分,i1取值1~N1,hi1的计算 公式为:
hi1=p1*c1*r1*f1;
其中,p1为新闻和论坛的网站的权重,c1为信息点击参数,r1为信息回复参数,f1表示信息的 头条参数;
其中 p 1 = e e * 1 g N a + 1 , ]]>Na表示网站排名;
c1=lgC1,C1为信息的点击数量;
r1=0.5*lgR1,R1为信息的回复数量;
f1取值为1.5或者1,如果信息为头条则为1.5,否则为1。

4.  根据权利要求3所述的一种舆情热度的快速计算方法,其特征在于,搜索引擎热度G2计 算公式为G2=p2*s;
其中,s为整体搜索数量得分,p2为搜索引擎权重;
s = ( 1 1 + e - S N 2 - 1 ) * S , ]]>
S表示搜索引擎搜索到的信息的数量,N2是一个常量。

5.  根据权利要求3所述的一种舆情热度的快速计算方法,其特征在于,微博热度G3的计算 方法为 G 3 = Σ i 3 = 1 N 3 hi 3 , ]]>
其中,N3为微博信息总数,hi3表示第i3条微博热度函数,i3取值1~N3;
hi3=p3*c3*r3*f3;
其中,p3为权重,取值为1;c3是回复参数,r3是转发参数,f3取值1.5或者1,如果该条微 博是热门话题则f3取值1.5,否则f3取值1;
回复参数c3=lgC3,C3为回复量;
转发参数r3=0.5*lgR3,R3为转发量。

6.  根据权利要求4所述的一种舆情热度的快速计算方法,其特征在于,所述计算舆情热度公 式为H=G1+G2+G3。

说明书

说明书一种舆情热度的快速计算方法
技术领域
本发明涉及互联网计算机数据处理领域,特别是互谅我舆情系统中信息的分析和挖掘领 域的舆情热度的快速计算方法。
背景技术
自从微博、社交网络借助移动互联网快速发展以来,互联网上的信息呈现爆炸式增长, 因为互联网是一个开放的世界,从现实出发任何一家舆情厂商要想把所有相关舆情信息获取 全面是不可能的事情,因此针对特定舆情信息的扩散和评估存在巨大困难。
目前获得舆情热度的解决方案有两种,一种是基于网络爬虫,把和互联网上和某个舆情 事件相关的全部信息采集下来,然后计算其数量;另外一种是基于搜索引擎,利用搜索引擎 把关于某个舆情事件的信息采集到,计算其数量,并且把搜索引擎的结果数量作为参考。
虽然舆情信息的获取不可能全面,但是借鉴于沪深300等股票指数的编制方法,在计算 舆情热度的过程中不一定针对信息的全集做运算,互联网上的舆情的传播平台的数量是有限 的,而且体现出强烈的马太效应,即几大平台即可影响互联网上舆情的受众,基于此情况, 使用量化的方法计算舆情的热度是可行的。尤其是目前微博、社交网络处于蓬勃发展的阶段, 热点事件会呈现出病毒式爆发的状态,往往微博、社交网络等平台上已经爆发完成之后,主 流的新闻、论坛等信息载体才会出现,当然也有另外一种情况,即显示在新闻、论坛等传统 载体上出现然后才会借助于微博大量传播。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种舆情热度的快 速计算方法。
为了解决上述技术问题,本发明公开了一种舆情热度的快速计算方法,包括以下步骤:
构建舆情热度样本库;
构建热度计算模型;
获取模型计算输入;
计算舆情热度。
本发明中,构建舆情热度样本库采样类包括新闻、论坛、微博、以及搜索引擎中的一种 或几种。
本发明中,新闻和论坛的热度G1计算公式为:
G 1 = Σ i 1 = 1 N 1 hi 1 , ]]>
其中,N1表示新闻和论坛信息总数,hi1表示第i1条信息的计算得分,i1取值1~N1,hi1的 计算公式为:
hi1=p1*c1*r1*f1;
其中,p1为新闻和论坛的网站的权重,c1为信息点击参数,r1为信息回复参数,f1表示信 息的头条参数;
其中Na表示网站排名;
c1=lgC1,C1为信息的点击数量;
r1=0.5*lgR1,R1为信息的回复数量;
f1取值为1.5或者1,如果信息为头条则为1.5,否则为1。
本发明中,搜索引擎热度G2计算公式为G2=p2*s;
其中,s为整体搜索数量得分,p2为搜索引擎权重;
s = ( 2 1 + e - S N 2 - 1 ) * S , ]]>
S表示搜索引擎搜索到的信息的数量,N2是一个常量。
本发明中,微博热度G3的计算方法为
其中,N3为微博信息总数,hi3表示第i3条微博热度函数,i3取值1~N3;
hi3=p3*c3*r3*f3;
其中,p3为权重,取值为1;c3是回复参数,r3是转发参数,f3取值1.5或者1,如果该 条微博是热门话题则f3取值1.5,否则f3取值1;
回复参数c3=lgC3,C3为回复量;
转发参数r3=0.5*lgR3,R3为转发量。
本发明中,所述计算舆情热度公式为H=G1+G2+G3。
有益效果:本发明方法在针对舆情事件影响的量化方面有突出的作用,因为之前评估的 思路的前提是“全”,而目前的情况是无法做到。根据此计算方法,可以针对未知的整体集合 做出有效的、趋势性的计算,从而有效跟踪特定的舆情事件的影响度。该思路把业内相关的 系统建设方、使用方从单调而未知的方向中解放了出来,同时针对使用方进行舆情信息的管 控方面也提供了思路,使其管控措施能够做到事半功倍。
具体实施方式
本发明申请为一种舆情热度的快速计算方法,能够在信息获取不对称,信息量不完整的 情况下计算出舆情热度,从而对互联网舆情信息能够做到快速预警、快速跟踪、快速验证。 具体步骤包括:
1.构建舆情热度样本库
舆情热度的计算基础为构建采样基础库,参考股票中的沪深300的构造体系,我们需要 预先建立舆情热度的样本库,类似于构建沪深300的成分股票库,假设舆情热度样本库为A, A为一个有限集合。
A的采样主要来自于调研,包括几大分类:新闻、论坛、微博、搜索引擎。
2.构建热度计算模型
根据样本库的进行加权,构建计算模型,中间需要考虑到:网站权重、数据量条数、点 击条数、回复条数、搜索引擎权重和数量、微博权重、数量、评论数、转发数。
A、新闻和论坛的计算方法(G1)
针对一条新闻或者论坛的舆情信息,在计算其热度指数依赖于几项条件:
网站的权重(p1)
根据此采样网站的访问量,给出其权重得分,具体参考凤凰网门户TOPN排行榜,例如 某个网站的排名为Na,则其权重排名越靠前,权重越大。
点击量(c1)
假设点击量为C1,则点击量参数c1=lgC1,点击量越大,点击量参数越大。
回复量(r1)
假设回复量为R1,则回复参数r1=0.5*lgR1,回复量越大,回复量参数越大。
是否头条(f1)
一条新闻或者论坛帖子很可能会被编排到新闻网站或者论坛首页即为头条,如果出现在 首页,则为1.5,如果未出现在首页,则为1。
新闻和论坛单条信息计算函数:hi1=p1*c1*r1*f1,hi1表示第i1条信息的计算得分,新闻论 坛类总体得分为:
G 1 = Σ i 1 = 1 N 1 hi 1 . ]]>
B、搜索引擎热度计算方法(G2)
针对一个舆情事件,其搜索引擎的热度计算方法需要考虑到:
搜索引擎权重(p2)
目前中国国内使用的前几大搜索引擎分别是百度、搜狗、360、谷歌、搜搜、有道、 新浪、必应、雅虎(该排名可能变化),当前假设每个搜索引擎权重p2=1,即都相等。
整体搜索数量得分(s)
此数量体现为搜索引擎收录了此事件的信息数量,数量越多,此参数越高,该参数计算 函数为:S表示搜索引擎搜索到的信息的数量,其中N2为10,N2是一 个常量,用以调整搜索数量对于搜索数量得分的影响。
整体索引擎的热度为:G2=p2*s。
C、微博的计算方法(G3)
针对微博,计算其热度指数依赖于几项条件:
微博网站的权重(p3)
根据此采样网站的访问量,给出其权重得分,目前的采样网站有:腾讯微博、新浪微博 两个,目前两者权重p3相等,均为1。
回复参数(c3)
假设回复量为C3,则回复参数c3=lgC3,回复量越大,回复参数越大。
转发参数(r3)
假设转发量为R3,则转发参数r3=0.5*lgR3,转发量越大,转发量参数越大。
单条微博计算函数:hi3=p3*c3*r3*f3,f3取值1.5或者1,如果该条微博是热门话题则f3取值1.5,否则f3取值1;
微博类总体得分为:
G 3 = Σ i 3 = 1 N 3 hi 3 . ]]>
3.获取模型计算输入
基于以上计算模型的要求,需要获取对应信息在指定网站的分布、以及对应信息的转发 和评论、出现搜索引擎中的数量等等信息,以此作为运算的输入。
该步骤通常由爬虫程序完成,并且支持样本库中指定的新闻、论坛、搜索引擎和两大微 博的信息提取。
4.计算舆情热度
上述已经把几类信息的热度分别计算完成,总体运算公式:
H=G1+G2+G3。
本发明提供了一种舆情热度的快速计算方法,具体实现该技术方案的方法和途径很多, 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在 不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明 的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

一种舆情热度的快速计算方法.pdf_第1页
第1页 / 共7页
一种舆情热度的快速计算方法.pdf_第2页
第2页 / 共7页
一种舆情热度的快速计算方法.pdf_第3页
第3页 / 共7页
点击查看更多>>
资源描述

《一种舆情热度的快速计算方法.pdf》由会员分享,可在线阅读,更多相关《一种舆情热度的快速计算方法.pdf(7页珍藏版)》请在专利查询网上搜索。

本发明公开了一种舆情热度的快速计算方法,包括以下步骤:构建舆情热度样本库;构建热度计算模型;获取模型计算输入;计算舆情热度。构建舆情热度样本库采样类包括新闻、论坛、微博、以及搜索引擎中的一种或几种。本发明方法在针对舆情事件影响的量化方面有突出的作用,而目前的情况是无法做到。根据此计算方法,可以针对未知的整体集合做出有效的、趋势性的计算,从而有效跟踪特定的舆情事件的影响度。该思路把业内相关的系统建设。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1