《一种提取热点信息的方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种提取热点信息的方法及装置.pdf(9页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103150310 A(43)申请公布日 2013.06.12CN103150310A*CN103150310A*(21)申请号 201110403592.8(22)申请日 2011.12.07G06F 17/30(2006.01)(71)申请人腾讯科技(深圳)有限公司地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室(72)发明人李梦凡 胡文翠 潘树燊(74)专利代理机构北京派特恩知识产权代理事务所(普通合伙) 11270代理人蒋雅洁 迟姗(54) 发明名称一种提取热点信息的方法及装置(57) 摘要本发明公开了一种提取热点信息的装置,所述装置包括:。
2、对外抓取模块、提取模块和热门信息处理模块;其中,对外抓取模块,用于从指定的社区网站抓取已运营的热点信息并输出给所述热门信息处理模块;提取模块,用于从当前社区中的用户产生内容(UGC)中提取包含有预设关键字的信息并输出给所述热门信息处理模块;热门信息处理模块,用于对输入的信息进行分析处理,获得热点信息。本发明还公开了一种提取热点信息的方法,实现了社区中热点内容的实时快速挖掘,节省了人力成本,提高了热点提取效率。此外,本发明还能够提取潜在热点信息,对社区中有可能成为热点的信息进行提前预警。(51)Int.Cl.权利要求书2页 说明书4页 附图2页(19)中华人民共和国国家知识产权局(12)发明专利。
3、申请权利要求书2页 说明书4页 附图2页(10)申请公布号 CN 103150310 ACN 103150310 A1/2页21.一种提取热点信息的装置,其特征在于,所述装置包括:对外抓取模块、提取模块和热门信息处理模块;其中,对外抓取模块,用于从指定的社区网站抓取已运营的热点信息,并输出给所述热门信息处理模块;提取模块,用于从当前社区中的用户产生内容(UGC)中提取包含有预设关键字的信息,并输出给所述热门信息处理模块;热门信息处理模块,用于对输入的信息进行分析处理,获得热点信息。2.根据权利要求1所述提取热点信息的装置,其特征在于,所述热门信息处理模块,还用于对输入的信息进行分析处理,获得潜。
4、在热点信息。3.根据权利要求2所述提取热点信息的装置,其特征在于,所述热门信息处理模块,用于对输入的信息的增量变化率进行分析统计,提取增量变化率高于预设的变化率阈值的信息作为所述潜在热点信息。4.根据权利要求1或2所述提取热点信息的装置,其特征在于,所述热门信息处理模块,用于对输入的信息的出现频率进行分析统计,提取出现频率高于预设的频率阈值的信息作为所述热点信息。5.根据权利要求2所述提取热点信息的装置,其特征在于,所述装置还包括:热门词库模块,用于保存所述预设关键字;所述提取模块,还用于从当前社区的UGC中提取包含有所述热门词库模块中所述预设关键字的信息。6.根据权利要求5所述提取热点信息的。
5、装置,其特征在于,所述热门信息处理模块,还用于将获得的热点信息、和/或潜在热点信息输出到所述热门词库模块;所述热门词库模块,还用于将所述热门信息处理模块输出的热点信息、和/或潜在热点信息作为关键字进行保存。7.一种提取热点信息的方法,其特征在于,所述方法包括:从指定的社区网站抓取已运营的热点信息;从当前社区中的UGC中提取包含有预设关键字的信息;对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得热点信息。8.根据权利要求7所述提取热点信息的方法,其特征在于,所述方法还包括:对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得潜在热点信息。9.根据权利要求8所述。
6、提取热点信息的方法,其特征在于,所述对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得热点信息,包括:对所述已运营的热点信息和所述包含有预设关键字的信息的增量变化率进行分析统计,提取增量变化率高于预设的变化率阈值的信息作为所述潜在热点信息。10.根据权利要求7或8所述提取热点信息的方法,其特征在于,所述对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得热点信息,包括:对所述已运营的热点信息和所述包含有预设关键字的信息的出现频率进行分析统计,提取出现频率高于预设的频率阈值的信息作为所述热点信息。权 利 要 求 书CN 103150310 A2/2页311.根据。
7、权利要求8所述提取热点信息的方法,其特征在于,在对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得热点信息之后,所述方法还包括:将获得的热点信息、和/或潜在热点信息输出到热门词库模块,热门词库模块将所述热点信息、和/或潜在热点信息作为预设关键字进行保存。权 利 要 求 书CN 103150310 A1/4页4一种提取热点信息的方法及装置技术领域0001 本发明涉及互联网领域的数据处理技术,尤其涉及一种提取热点信息的方法及装置。背景技术0002 随着互联网的蓬勃发展和WEB2.0应用的兴起,用户已经成为互联网不可或缺的重要组成部分,而用户在社区中产生的内容已经成为互联网上最活跃。
8、、最受关注和最优价值的资源,尤其是在微博社区中,信息的传播数据非常快,已经有越来越多的事件第一时间出现在微博上,比传统互联网新闻及传统电视广播媒体都要快速。同时用户产生的内容源于真实的世界,很大程度上反映了用户此刻的真实想法和感悟,具有较高的可信度,因此如何在虚拟社区尤其是信息快速传播的微博社区中发掘有意义和有价值的热点信息、以及有可能成为热点的信息变得尤为重要。0003 对于虚拟社区的热点信息挖掘,目前主要通过以下两种方式实现:第一,词频统计的方法,即通过大量运算,统计社区内容中各种热门词语出现的频次、以及概率等,人工分析热门词语的频次和概率,找出社区的热点信息;第二,关键字(keyword。
9、)提取和词频统计相结合的方法,即根据预制词库,提取社区内容中的keywords,通过统计keywords的出现频次,人工找出社区中的热点信息,成型的产品如标签云等。0004 现有的热点信息提取方法,主要有如下的缺点:挖掘内容中垃圾信息较多,可能包含大量无意义的高频词,且每日热点信息的变化不大,一般仅能发现社区中已成为热点的内容,很难真正反映社区当前正在产生的热点,也无法预知有可能成为热点的信息;需要大量人力负责后期的整理工作,不仅人力成本耗费大,而且热点信息的提取效率低。发明内容0005 有鉴于此,本发明的主要目的在于提供一种提取热点信息的方法及装置,能够实现热点信息的自动化提取,提高效率。0。
10、006 为达到上述目的,本发明的技术方案是这样实现的:0007 本发明提供了一种提取热点信息的装置,所述装置包括:对外抓取模块、提取模块和热门信息处理模块;其中,对外抓取模块,用于从指定的社区网站抓取已运营的热点信息,并输出给所述热门信息处理模块;提取模块,用于从当前社区中的用户产生内容(UGC)中提取包含有预设关键字的信息,并输出给所述热门信息处理模块;热门信息处理模块,用于对输入的信息进行分析处理,获得热点信息。0008 在上述方案中,所述热门信息处理模块,还用于对输入的信息进行分析处理,获得潜在热点信息。0009 在上述方案中,所述热门信息处理模块,用于对输入的信息的增量变化率进行分析统。
11、计,提取增量变化率高于预设的变化率阈值的信息作为所述潜在热点信息。0010 在上述方案中,所述热门信息处理模块,用于对输入的信息的出现频率进行分析说 明 书CN 103150310 A2/4页5统计,提取出现频率高于预设的频率阈值的信息作为所述热点信息。0011 在上述方案中,所述装置还包括:热门词库模块,用于保存所述预设关键字;所述提取模块,还用于从当前社区的UGC中提取包含有所述热门词库模块中所述预设关键字的信息。0012 在上述方案中,所述热门信息处理模块,还用于将获得的热点信息、和/或潜在热点信息输出到所述热门词库模块;所述热门词库模块,还用于将所述热门信息处理模块输出的热点信息、和/。
12、或潜在热点信息作为关键字进行保存。0013 本发明还提供了一种提取热点信息的方法,所述方法包括:从指定的社区网站抓取已运营的热点信息;从当前社区中的UGC中提取包含有预设关键字的信息;对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得热点信息。0014 在上述方案中,所述方法还包括:对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得潜在热点信息。0015 在上述方案中,所述对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得热点信息,包括:0016 对所述已运营的热点信息和所述包含有预设关键字的信息的增量变化率进行分析统计,提取增量变化率高于。
13、预设的变化率阈值的信息作为所述潜在热点信息。0017 在上述方案中,所述对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得热点信息,包括:对所述已运营的热点信息和所述包含有预设关键字的信息的出现频率进行分析统计,提取出现频率高于预设的频率阈值的信息作为所述热点信息。0018 在上述方案中,在对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得热点信息之后,所述方法还包括:将获得的热点信息、和/或潜在热点信息输出到热门词库模块,热门词库模块将所述热点信息、和/或潜在热点信息作为预设关键字进行保存。0019 本发明的热点信息提取装置及方法,对外抓取、本社区内的提取。
14、以及对信息的分析处理,均自动化完成,实现了社区中热点内容的实时快速挖掘,解决了传统热点提取中需要大量后期人工整理的问题,节省了人力成本,提高了热点提取的效率。0020 此外,本发明还能够提取潜在热点信息,对于社区中有可能成为热点的信息进行提前预警,帮助社区的运营团队快速定位到需要的信息,有效提升社区的活跃度。附图说明0021 图1为本发明提取热点信息的装置的组成结构示意图;0022 图2为本发明提取热点信息的方法的实现流程图;0023 图3为本发明实施例一提取热点信息的实现过程示意图。具体实施方式0024 本发明提出一种提取热点信息的装置,通过抓取其他社区的热点信息,并从本社区的用户生成内容(。
15、UGC,User Generated Content)提取包含有预存关键字的信息,最后将从外部抓取的信息以及本社区提取的信息进行分析处理,得到热点消息,实现热点信息的说 明 书CN 103150310 A3/4页6自动化提取,减少人力成本。0025 本发明的一种提取热点信息的装置,如图1所示,主要包括:对外抓取模块、提取模块和热门信息处理模块;其中,对外抓取模块,用于从指定的社区网站抓取已运营的热点信息并输出给所述热门信息处理模块;提取模块,用于从当前社区中的UGC中提取包含有预设关键字的信息并输出给所述热门信息处理模块;热门信息处理模块,用于对输入的信息进行分析处理,获得热点信息。0026 。
16、其中,所述装置还包括:热门词库模块,用于保存所述预设关键字;所述提取模块,还用于从当前社区的UGC中提取包含有所述热门词库模块中所述预设关键字的信息。0027 其中,所述热门信息处理模块,还用于对输入的信息进行分析处理,获得潜在热点信息。0028 具体地,所述热门信息处理模块可以用于对输入的信息的增量变化率进行分析统计,提取增量变化率高于预设的变化率阈值的信息作为所述潜在热点信息。和/或,所述热门信息处理模块,还可以用于对输入的信息的出现频率进行分析统计,提取出现频率高于预设的频率阈值的信息作为所述热点信息。0029 这里,所述热门信息处理模块,还用于将获得热点信息、和/或潜在热点信息输出到所。
17、述热门词库模块;所述热门词库模块,还用于将所述热门信息处理模块输出的热点信息、和/或潜在热点信息作为关键字进行保存。0030 相应的,本发明还提供了一种提取热点信息的方法,参照图2所示,所述方法包括:0031 步骤201:从指定的社区网站抓取已运营的热点信息;0032 步骤202:从当前社区中的UGC中提取包含有预设关键字的信息;0033 步骤203:对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得热点信息。0034 这里,步骤203中还可以包括:对所述已运营的热点信息和所述包含有预设关键字的信息进行分析处理,获得潜在热点信息。0035 具体地,热门信息处理模块对所述已运营。
18、的热点信息和所述包含有预设关键字的信息的增量变化率进行分析统计,提取增量变化率高于预设的变化率阈值的信息作为所述潜在热点信息;和/或,对所述已运营的热点信息和所述包含有预设关键字的信息的出现频率进行分析统计,提取出现频率高于预设的频率阈值的信息作为所述热点信息。0036 具体地,提取模块从当前社区的UGC中提取包含有预设在热门词库模块中关键字的信息。0037 这里,在步骤203之后,所述方法还包括:热门信息处理模块将获得热点信息、和/或潜在热点信息输出到热门词库模块;热门词库模块将所述热门信息处理模块输出的热点信息、和/或潜在热点信息作为预设关键字进行保存。0038 实际应用中,在首次进行热点。
19、信息提取时,可以在热门词库模块预先存放关键字,该关键字可以为已有的热点信息,或者根据经验收集的关键字。0039 实施例一0040 本实施例中,如图3所示,提取热点信息的装置包括对外抓取模块、提取模块、热点信息处理模块和热门词库,其中,热门词库用于保存所述提取模块提取热点信息时的关说 明 书CN 103150310 A4/4页7键字,提取模块用于从当前社区的UGC中提取包含所述热门词库中关键字的信息,对外抓取模块用于从指定的社区网站中抓取正在运营的热点信息,热点信息处理模块用于对提取模块提取的信息、以及对外抓取模块抓取的信息进行分析处理,得到热点信息以及潜在热点信息,并输出热门榜单、以及更新热门。
20、词库。0041 首先,在热门词库中预置关键字,该关键字可以是已有的热点信息。0042 具体地,如图3所示,提取热点信息的流程,具体可以包括如下步骤:0043 步骤301:对外抓取模块以小时为周期定时从各大主流社区中抓取热点信息;0044 具体地,可以在对外抓取模块中预先设置抓取范围,对外抓取模块根据预置的抓取范围,从指定的社区网站中直接抓取所述社区网站上运营的热点信息。这里,所述抓取范围可以是指定社区网站的统一资源定位符(URL,UniformResource Locator)等信息。特别的,对外抓取模块还可以对各指定社区网站上的热点信息按照预定的分类进行分类抓取。0045 步骤302:对外抓。
21、取模块对所抓取到的热点信息进行排除处理后输出给热点信息处理模块;0046 步骤303:当前社区产生新的UGC时,提取模块从所述UGC中提取包含有热门词库中关键字的信息,并将所提取的信息输出到热点信息处理模块;0047 如果需要的话,提取模块也可以对所提取的信息进行排重处理后再输出给热点信息处理模块。0048 步骤304:热点信息处理模块定期对输入的信息进行分析处理,提取热点信息以及潜在热点信息,生成并输出热点榜单;0049 具体地,热点信息处理模块对输入的信息进行数据量比对,即将各信息的出现频率进行统计分析,将出现频率超过预设的频率阈值的信息作为热点信息提取;并且,热点信息处理模块还对输入的信。
22、息进行增量变化率比对,即将各信息的增量变化率进行统计分析,将增量变化率超过预设的变化率阈值的信息作为潜在热点信息提取。0050 这里,所述增量变化率表示一个信息在后一指定周期的数据增量与前一指定周期内数据增量的比值。例如,增量变化率可以是一个信息后一小时数据增量与前一小时数据增量的比值;如果在两个连续时间段内,数据增量差值较小,则增量变化率较小。一般变化率阈值的经验值为120左右,可以根据实际情况的需要做相应调整。0051 步骤305:热点信息处理模块更新所述热门词库。0052 具体地,热点信息处理模块生成包含有所提取热点信息的热点榜单并输出,并将所提取的潜在热点信息、以及该热点信息输出给热门词库,更新所述热门词库中热点信息的关键字。0053 同时,热点信息处理模块在提取热点信息以及潜在热点信息后,还将非热点信息、以及非潜在热点信息丢弃。0054 这里,热点信息处理模块对输入的信息进行分析处理的周期可以根据实际需要确定,可以与对外抓取模块进行信息抓取的周期相同。0055 以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。说 明 书CN 103150310 A1/2页8图1图2说 明 书 附 图CN 103150310 A2/2页9图3说 明 书 附 图CN 103150310 A。