《一种多租户网络舆情监控方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种多租户网络舆情监控方法及系统.pdf(11页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103139256 A (43)申请公布日 2013.06.05 CN 103139256 A *CN103139256A* (21)申请号 201110390588.2 (22)申请日 2011.11.30 H04L 29/08(2006.01) G06F 17/30(2006.01) (71)申请人 北大方正集团有限公司 地址 100871 北京市海淀区成府路 298 号方 正大厦 申请人 北京大学 北京北大方正电子有限公司 (72)发明人 张丹 杨建武 梁汝峰 孙红娥 王松 (74)专利代理机构 北京天悦专利代理事务所 ( 普通合伙 ) 11311 代理人 田明。
2、 任晓航 (54) 发明名称 一种多租户网络舆情监控方法及系统 (57) 摘要 本发明公开了一种多租户网络舆情监控方法 及系统, 属于网络舆情信息监控技术领域。本发 明首先采集网页数据, 提取并存储所述网页数据 中的元数据和正文, 并将存储后的所述元数据和 所述正文相关联 ; 然后检索所述元数据和正文 ; 最后分析所述正文是否符合预先设置的租户舆情 监控规则和特征词库, 如果符合, 则将该正文分配 给该租户。本发明统一实现了对数据的采集和存 储, 建立分布式全文检索系统支持海量数据的检 索, 灵活建立不同的租户, 租户建立各自的业务规 则, 各租户之间业务规则不可见, 根据配置的规则 分析各租。
3、户所关心的舆情信息并进行有规则的存 储, 每个租户都可以高效快速的进行网络舆情监 控。 (51)Int.Cl. 权利要求书 2 页 说明书 4 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书4页 附图4页 (10)申请公布号 CN 103139256 A CN 103139256 A *CN103139256A* 1/2 页 2 1. 一种多租户网络舆情监控方法, 其特征在于, 包括以下步骤 : (1) 采集网页数据, 提取并存储所述网页数据中的元数据和正文, 并将存储后的所述元 数据和所述正文相关联 ; (2) 检索所述元数据和正文 ; 。
4、(3) 分析所述正文是否符合预先设置的租户舆情监控规则和特征词库, 如果符合, 则将 该正文分配给该租户。 2.如权利要求1所述的多租户网络舆情监控方法, 其特征在于, 步骤(1)中所述采集网 页数据的方法如下 : 确定需要采集的网站列表, 生成采集任务 ; 检测各采集服务器的使用情况, 分析各采集服务器的压力, 将采集任务分发给压力 最小的采集服务器 ; 采集服务器采集网页数据。 3. 如权利要求 2 所述的多租户网络舆情监控方法, 其特征在于 : 所述采集任务包括采 集网站的名称、 链接地址、 任务的采集深度和扫描频率信息。 4. 如权利要求 1 所述的多租户网络舆情监控方法, 其特征在于。
5、 : 步骤 (1) 中所述元数 据存储在数据库中, 所述正文以文件形式存储在分布式文件系统中。 5. 如权利要求 1 所述的多租户网络舆情监控方法, 其特征在于 : 步骤 (1) 中通过建立 全文检索索引库将所述元数据和与其对应的正文相关联。 6. 如权利要求 5 所述的多租户网络舆情监控方法, 其特征在于 : 步骤 (2) 中利用分布 式全文检索技术通过所述全文检索索引库对所述元数据及其对应的正文的全文进行检索。 7.如权利要求16中任一项所述的多租户网络舆情监控方法, 其特征在于, 所述方法 还包括以下步骤 : 为不同租户建立不同账号, 根据不同租户的租户 ID 为租户建立不同的用 于存储。
6、租户舆情监控业务规则和租户所关心的舆情信息数据表, 各租户之间的舆情监控业 务规则不可见。 8. 如权利要求 7 所述的一种多租户网络舆情监控方法, 其特征在于 : 步骤 (3) 中, 将符 合租户舆情监控规则和特征词库的正文存储在该租户的舆情信息数据表中。 9.如权利要求16中任一项所述的多租户网络舆情监控方法, 其特征在于 : 步骤(3) 中, 定时分析所述正文是否符合预先设置的租户舆情监控规则和特征词库。 10. 一种多租户网络舆情监控系统, 包括用于采集网页数据, 提取并存储所述网页数据 中的元数据和正文, 并将存储后的所述元数据和所述正文相关联的采集装置 (11) ; 用于检索所述元。
7、数据和正文的检索装置 (12) ; 用于分析所述正文是否符合预先设置的租户舆情监控规则和特征词库, 如果符合, 则 将该正文分配给该租户的分析装置 (13)。 11. 如权利要求 10 所述的多租户网络舆情监控系统, 其特征在于 : 所述采集装置 (11) 包括用于采集网页数据的采集单元 (111) ; 用于提取网页数据中的元数据和正文的提取单 元 (112) ; 用于存储网页数据中的元数据和正文的存储单元 (113) ; 用于将存储后的元数据 和正文相关联的关联单元 (114)。 12.如权利要求11所述的多租户网络舆情监控系统, 其特征在于 : 所述采集单元(111) 包括用于确定需要采集。
8、的网站列表并生成采集任务的任务生成器 (1111) ; 权 利 要 求 书 CN 103139256 A 2 2/2 页 3 用于检测各采集服务器的使用情况, 分析各采集服务器的压力, 将采集任务进行分发 给压力最小的采集服务器的任务分发器 (1112) ; 用于采集网页数据的采集服务器 (1113)。 13. 如权利要求 10 12 中任一项所述的多租户网络舆情监控系统, 其特征在于 : 所述 系统还包括用于为不同租户建立不同账号, 根据不同租户的租户 ID 为租户建立不同的用 于存储租户舆情监控业务规则和租户所关心的舆情信息数据表的建立装置 (14)。 14. 如权利要求 10 12 中任。
9、一项所述的多租户网络舆情监控系统, 其特征在于 : 所述 系统还包括用于配置租户信息、 租户的舆情监控业务规则及特征词库的配置装置 (15)。 权 利 要 求 书 CN 103139256 A 3 1/4 页 4 一种多租户网络舆情监控方法及系统 技术领域 0001 本发明属于网络舆情信息监控技术领域, 具体涉及一种多租户网络舆情监控方法 及系统。 背景技术 0002 随着国际互联网在全球的迅猛发展, 人们能够方便的通过互联网传播和获取各种 信息, 然而互联网信息的内容庞杂多样, 既有大量进步、 有益的信息, 也有不少谣言、 反动的 内容。网页内容里包含大量的舆情信息, 如果仅以人工方式去甄别。
10、这些网页所含的信息并 加以分析统计, 需要消耗大量的人力和物力。 0003 随着计算机信息智能处理技术的不断提升, 目前关于网络舆情监控已可以通过搭 建独立的应用系统对互联网信息进行采集、 分析和应用, 来实现对网络舆情的监测、 分析和 预警。但是以上做法存在如下缺点 : 0004 (1) 搭建独立的系统需要耗费大量硬件服务器, 大大提高建设成本, 且无法快速搭 建系统来满足灵活的扩展。 0005 (2) 数据监测范围有限, 服务器都已满负荷运转, 无法对更多网站进行监测。而所 采集的网站大部分是相同的重点网站, 对于相同的数据需要做多次的数据采集、 存储和分 析, 严重浪费服务器资源。 发明。
11、内容 0006 针对现有技术中存在的缺陷, 本发明所要解决的技术问题是提供一种效率高的多 租户网络舆情监控方法及系统。 0007 为解决上述技术问题, 本发明采用的技术方案如下 : 0008 一种多租户网络舆情监控方法, 包括以下步骤 : 0009 (1) 采集网页数据, 提取并存储所述网页数据中的元数据和正文, 并将存储后的所 述元数据和所述正文相关联 ; 0010 (2) 检索所述元数据和正文 ; 0011 (3) 分析所述正文是否符合预先设置的租户舆情监控规则和特征词库, 如果符合, 则将该正文分配给该租户。 0012 一种多租户网络舆情监控系统, 包括用于采集网页数据, 提取并存储所述。
12、网页数 据中的元数据和正文, 并将存储后的所述元数据和所述正文相关联的采集装置 ; 0013 用于检索所述元数据和正文的检索装置 ; 0014 用于分析所述正文是否符合预先设置的租户舆情监控规则和特征词库, 如果符 合, 则将该正文分配给该租户的分析装置。 0015 本发明的效果在于 : 统一实现了对数据的采集和存储, 建立分布式全文检索系统 支持海量数据的检索, 灵活建立不同的租户, 租户建立各自的业务规则, 各租户之间业务规 则不可见, 根据配置的规则分析各租户所关心的舆情信息并进行有规则的存储, 每个租户 说 明 书 CN 103139256 A 4 2/4 页 5 都可以高效快速的进行。
13、网络舆情监控。 附图说明 0016 图 1 是具体实施方式中多租户网络舆情监控系统的结构框图 ; 0017 图 2 是具体实施方式中多租户网络舆情监控系统的总体架构示意图 ; 0018 图 3 是具体实施方式中多租户网络舆情监控方法的流程图 ; 0019 图 4 是具体实施方式中采集网页数据的方法流程图。 具体实施方式 0020 下面结合附图对本发明的具体实施方式作进一步的说明。 0021 本实施方式中, 通过搭建统一的云平台来实现互联网数据的采集、 存储、 检索和应 用, 建立不同的租户, 各租户再根据自己的业务需要建立舆情监控规则, 系统及时对各租户 配置的规则进行处理, 根据用户的舆情监。
14、控规则将有价值的舆情信息存储到各租户自己所 对应的业务库中, 租户登录系统后访问舆情信息, 实现对网络舆情的监控。 0022 如图1所示, 本实施方式中多租户网络舆情监控系统包括采集装置1、 检索装置2、 分析装置 3、 建立装置 4 和配置装置 5。采集装置 1 包括采集单元 11、 提取单元 12、 存储单 元 13 和关联单元 14。采集单元 11 包括任务生成器 111、 任务分发器 112 和若干采集服务 器 113。 0023 采集单元 11 用于采集网页数据。其中, 任务生成器 111 用于确定需要采集的网站 列表并生成采集任务 ; 任务分发器 112 用于检测各采集服务器的使用。
15、情况, 分析各采集服 务器的压力, 将采集任务进行分发给压力最小的采集服务器 ; 采集服务器 113 用于采集网 页数据。提取单元 12 用于提取网页数据中的元数据和正文, 存储单元 13 用于提取网页数 据中的元数据和正文, 关联单元 14 用于将存储后的元数据和正文相关联。 0024 检索装置 2 用于检索元数据和正文。 0025 分析装置 3 用于分析所述正文是否符合预先设置的租户舆情监控规则和特征词 库, 如果符合, 则将该正文分配给该租户。 0026 建立装置4用于为不同租户建立不同账号, 根据不同租户的租户ID为租户建立不 同的用于存储租户舆情监控业务规则和租户所关心的舆情信息数据。
16、表。 0027 配置装置 15 用于配置租户信息、 租户的舆情监控业务规则及特征词库。 0028 如图 2 和图 3 所示, 采用图 1 所示系统实现多租户网络舆情监控的方法, 包括以下 步骤 : 0029 (1) 采集单元 11 采集网页数据, 提取单元 12 和存储单元 13 提取并存储所述网页 数据中的元数据和正文, 关联单元 14 将存储后的所述元数据和所述正文相关联。 0030 网页数据是指事先选择的用于舆情监控的网站所发布的数据。如图 4 所示, 采集 单元 11 采集网页数据的方法如下 : 0031 任务生成器 111 确定需要采集的网站列表, 并生成采集任务。 0032 将需要。
17、采集的网站列表放入任务生成器111, 任务生成器111生成采集任务。 采集 任务包括采集网站的名称、 链接地址、 任务的采集深度和扫描频率等信息。 0033 任务分发器 112 检测各采集服务器的使用情况, 分析各采集服务器的压力, 将 说 明 书 CN 103139256 A 5 3/4 页 6 采集任务进行分发给压力最小的采集服务器。 0034 任务分发器 112 定期收集各采集服务器的性能指标, 包括一段时间内的 CPU、 内 存、 磁盘的使用情况, 判断各采集服务器的压力, 将采集任务均衡地分配到压力较小的采集 服务器上。 0035 采集服务器 113 采集网页数据。 0036 采集服。
18、务器 113 处理接收到的采集任务, 通过网络爬虫对网页中的网络信息进行 采集。 0037 提取单元 12 提取并存储网页数据中的各项元数据和正文。元数据包括了信息的 标题、 作者、 发布时间、 来源网站和转载来源等。存储单元 13 将元数据存储在数据库中, 将 正文以文件形式存储在分布式文件系统中, 形成文本文件。关联单元 14 通过建立全文检索 索引库对元数据及其所对应的正文建立索引, 进行关联。 通过该索引检索全文检索索引库, 能够得到网页数据的元数据及其对应的正文全文。 0038 (2) 检索装置 2 检索所述元数据和正文。 0039 检索装置 2 利用分布式全文检索技术通过全文检索索。
19、引库对存储的元数据及其 所对应的正文的全文进行检索。 0040 (3) 分析装置 3 分析所述正文是否符合预先设置的租户舆情监控规则和特征词 库, 如果符合, 则将该正文分配给该租户。 0041 建立装置4为不同租户建立不同账号, 根据不同租户的租户ID为租户建立不同的 用于存储租户舆情监控业务规则和租户所关心的舆情信息数据表。 舆情信息数据表包括关 注规则表、 话题追踪规则表、 重点网站监看表等业务规则表, 以及关注信息表、 话题追踪表 等分析数据存储表, 每个租户拥有各自完整的一套数据表, 互不干扰。 舆情监控业务规则包 括关注规则、 话题追踪样例文本、 重点监看网站逻辑表达式和用于做舆情。
20、数据分析的规则 和训练集等。 特征词库由词组成, 可以配置任意的特征词, 主要用于分析信息内容中是否包 含用户所关心的特征词。在对网页数据进行存储时, 通过租户的特征词库进行分析来自动 过滤和用户相关的舆情信息。租户可以通过配置装置 15 配置租户信息、 租户的舆情监控业 务规则及特征词库。 0042 分析装置 3 根据租户配置的舆情监控业务规则和租户的特征词库周期性分析网 页数据中的舆情信息, 得到租户所关心的舆情信息, 并存储到每个租户相应的舆情信息数 据表中。 租户登录系统后可以访问已分析形成的舆情信息, 并进行相关的分析、 统计、 研判。 周期性分析网页数据时可以采用定时器服务来定时启。
21、动租户所需要运行的服务, 可以根据 需要设定运行的周期。 0043 本实施方式所述系统及方法, 可以通过搭建统一的云平台来实现网络数据的采 集、 存储、 检索和应用, 系统整体架构能充分利用云计算的特性, 将软件系统和数据进行统 一管理, 节约资源, 并且可充分调配空闲的资源来进行计算, 提高系统的运算和负载能力。 各租户之间的业务数据分库存储可实现租户的灵活扩充, 不会导致因租户增加影响其他租 户的性能和使用。当需要增加新的采集网站时, 只需要将增加的新网站加入到采集网站列 表, 再放入到采集装置中。当需要增加租户时, 只需要为新租户建立账号、 租户舆情监控业 务规则和特征词库等操作。 如果。
22、采集数据量较大时只需要通过添加新的采集服务器并关联 到任务分发器即可。 如果租户较多时, 可以增加应用服务器集群的节点数量, 实现访问和后 说 明 书 CN 103139256 A 6 4/4 页 7 台分析负载均衡, 提高数据监控的效率。 0044 通过上述实施方式可见 : 本发明为各租户提供的网络舆情监控系统及方法, 可以 方便地建立舆情监控的租户账号, 租户可以利用系统根据各自的业务需求进行网络舆情监 控, 降低了网络舆情监控系统建设的成本, 且可以快速建立不同的租户账号。 并且可以充分 利用云平台的服务器资源扩充采集的网站, 扩大网络舆情监控的范围。本发明同样适用于 多机构的网络舆情监。
23、控系统, 即每个机构下有多个舆情监测人员。 0045 显然, 本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样, 倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围 之内, 则本发明也意图包含这些改动和变型在内。 说 明 书 CN 103139256 A 7 1/4 页 8 图 1 说 明 书 附 图 CN 103139256 A 8 2/4 页 9 图 2 说 明 书 附 图 CN 103139256 A 9 3/4 页 10 图 3 说 明 书 附 图 CN 103139256 A 10 4/4 页 11 图 4 说 明 书 附 图 CN 103139256 A 11 。