网络信息监控分析系统.pdf

摘要
申请专利号：	CN201110170625.9	申请日：	2011.06.23
公开号：	CN102841898A	公开日：	2012.12.26
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20121226\|\|\|文件的公告送达IPC(主分类):G06F 17/30收件人:张家港凯纳信息技术有限公司文件名称:视为撤回通知书\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	张家港凯纳信息技术有限公司
发明人：	庞兵
地址：	215600 江苏省张家港市杨舍镇美食街一号石油大厦1103-2室
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明涉及一种网络信息监控分析系统，属于网络信息化领域。本发明根据现今应用最广泛的HTML网页信息的特点，在对现有信息搜集、预处理和自动分类等网络信息处理技术进行深入的分析与研究的基础上，针对目前信息搜集技术的不足，设计开发了一个基于信息领域的网络信息监控分析系统，实现了通过互联网实时定向地自动捕捉多个门户网站以及专门网站关于专业领域的“有用”信息的功能。工作流程为：(1)由“网络信息收集子系统”采集URL、锚文本、网页，并对采集回的网页进行清洗；(2)“智能分析预归类子系统”将系统中的网页进行分类，并根据阀值过滤无用信息；(3)“自动汇总检索子系统”完成站内检索、自动生成报表功能。

权利要求书

1.一种网络信息监控分析系统，属于网络信息化领域，其特征
在于，网络信息监控分析系统：
1)该系统成功的解决了针对特定领域信息收集的难题，实现了
智能化的信息搜集，成功地为企业竞争情报的收集提供服务。
2)提高了网络信息资源的集中度，有利于监控人员同时监控数
个网站，解决了传统网站监控方法存在的人力资源消耗的问题。
3)在抓取算法实现中采用了非递归多线程方式的抓取算法，较
大地提高了抓取的效率，改进了网页收集子系统性能；并在此基础上
增加了利用锚文本等方法过滤URL，有效地提高了网页采集的准确率
和信息的有效性。
4)在网络信息收集子系统中，提出了并行结构新概念，并在并
行结构的基础上建立了交换模式，有效地提高了信息采集速度，减缓
了网站服务器的压力，同时有效地解决了并行采集结构中跨区链接导
致的重复采集或不采集造成的信息遗漏等问题。
5)研究了文本分类技术，在提取文本特征项时，增加提取了相
应网页的锚文本，实现了网页分类技术的改进。

说明书

网络信息监控分析系统

技术领域

本发明涉及一种网络信息监控分析系统，属于网络信息化领域。

背景技术

自互联网诞生以来，Internet已经发展成为拥有近亿用户和数亿
页面的巨大的全球化信息仓库，而且其信息容量仍在以指数形式飞速
地增长。从互联网中获取信息已成为个人获取知识的主要方法和重要
手段，也成为当前企业获取情报的重要途径，但是，面对浩如烟海的
网络信息，传统的人工搜集和处理等方法都已难以胜任。

为此，国内外在信息搜索领域做了大量研究，并开发了多种搜索
引擎，如Baidu、Google、Yahoo、Lycos等。从某种程度上这些搜索
引擎提高了搜索的效率和速度，但仍然存在着很大的局限性，最突出
表现在以下几个方面：首先，由于采用的是全文检索或关键词检索的
方式，基于字面的检索机制造成实际检索结果与用户需求之间的偏
差，即检索返回“有用”信息太少，“垃圾”信息太多，称之为Rich Data
Poor Information的问题；其次，网络搜索引擎需面对广泛的知识领
域，而针对某一特殊领域因没有足够的背景知识，导致搜索到大量无
关的网页，具有较大相关性的网页却很少；最后，检索的速度和效率
太低，并且不能保证信息的时效性和权威性，以上这些的不足，是信
息搜集的非常严重、甚至是致命的弱点。

针对以上问题，各类基于特定领域的互联网信息搜集工具应运而
生。基于特定领域的高度目标化、专业化、针对性以及对对特定范围
的网络信息的覆盖率高等优点，有效地弥补了以往通用型搜索工具的
缺点，因此专注于某个特殊领域的信息的获取技术就犹如专业网站一
样，愈加受到各界的重视，在整个信息搜索领域所占的地位也越来越
重要。

发明内容

本发明根据现今应用最广泛的HTML网页信息的特点，在对现
有信息搜集、预处理和自动分类等网络信息处理技术进行深入的分析
与研究的基础上，针对目前信息搜集技术的不足，设计开发了一个基
于信息领域的网络信息监控分析系统，实现了通过互联网实时定向地
自动捕捉多个门户网站以及专门网站关于专业领域的“有用”信息的
功能。

本发明涉及一种网络信息监控分析系统，其设计工作流程可以如
下所述：

1、系统框架设计：系统从互联网快速、有效地自动搜集“有用”
信息，并对搜集回的网页信息进行预处理、分类并存储入指定的数据
库。本系统由三个子系统组成，分别：“网络信息收集子系统”、“智
能分析预归类子系统”、“自动汇总检索子系统”。每个子系统分别处
理不同的功能，根据系统的性能需求而分开。

网络信息收集子系统主要功能是搜索并存储监控范围内网络媒
体每日不断更新的最新信息，保证信息收集的实时性、全面性。

智能分析预归类子系统是大规模信息处理重要的应用技术之一，
主要功能是根据文本分类、中文分词等技术对收集到的网页信息自动
进行分类。

自动汇总检索子系统主要包括站内检索和系统智能分析报表，实
现站内检索和及时生成报表的功能。

系统工作流程

(1)由“网络信息收集子系统”采集URL、锚文本、网页，并
对采集回的网页进行清洗

(2)“智能分析预归类子系统”将系统中的网页进行分类，并根
据阀值过滤无用信息

(3)“自动汇总检索子系统”完成站内检索、自动生成报表功能。

2、子系统的设计与实现

网络信息收集子系统

网络信息收集子系统主要功能是搜索并存储监控范围内网络媒
体每日不断更新的最新信息，保证信息收集的实时性、全面性。该子
系统采用了交换模式的并行结构，应用了信息采集、网页清洗等技术，
满足了系统抓取网站信息从网站发布到系统抓取时间不超过1分
钟，抓取论坛信息从帖子发布到系统抓取的时候不超过1分钟的实
时性需求。

智能分析预归类子系统

智能分析预归类子系统是大规模信息处理重要的应用技术之一，
应用中文文本分类、中文分词等技术，采用了类中心向量分类算法，
实现了实时地将系统信息自动归类、过滤无用信息等功能。

自动汇总检索子系统

自动检索子系统，应用检索与自动报表生成等技术，实现了站内
检索与及时生成报表的目的，主要功能包括站内检索功能和系统智能
分析报表功能。

3、数据库设计

根据上述对信息结构的分析，可以得到数据库中表的模式，其中
用户信息表、权限表、信息源表设计如下所述：

(1)信息源表，对采集到的信息保存到本地数据库主表，而预处
理、分类的信息源也是在对应这个表进行修改。

(2)用户信息表，注册合法用户的相关信息。

(3)用户权限表，对用户信息表的用户赋权信息，这个表直接和
用户信息表相关联。

(4)权限表，提供本系统的存在的权限级别信息，提供给用户权
限信息的权限选择。

具体实施方式

实施例1关于汽车行业的网络信息收集分析

(1)由“网络信息收集子系统”采集汽车行业网站或者门户网站
的汽车频道URL、锚文本、网页。

(2)对采集回的网页进行清洗，剔除掉网页中噪音内容的干扰，
把网页的主题内容作为处理对象，提高处理结果的准确性；其次，简
化网页内标签结构的复杂性并减少网页的大小，从而节省后续处理过
程的时间和空间开销。

(3)“智能分析预归类子系统”将系统中采集的网页进行分类，
并根据阀值过滤无用信息

(4)“自动汇总检索子系统”完成站内检索、自动生成报表功能。

实施例2网络信息收集子系统实施过程

为了实现网络信息的自动收集功能，我们将网络信息收集子系统
的整个处理过程分成四步：初始URL选择，网页采集、网页预处理、
数据存储。该子系统的主要工作流程为：首先由Spider根据初始
URL选择和主题定义，从Web上采集网页，其次将采集到的页面
进行预处理后，将结果送入指定的数据库中存储。

(1)初始URL的选择

一般网页收集系统是从一个种子URL集出发，通过Web协议向
Web上所需的页面扩展的。信息收集系统需要选择质量较高的主题
URL作为初始种子URL。本实施例选择由人工定义种子URL集，
主要工作步骤如下：

第一步工作是要确定网络信息监控分析系统的“监控范围”，也
就是确定收集哪些网站中的网页信息。

第二步工作就是收集被“监控”网站入口，即种子URL集。

(2)网页采集

网页采集器，主要由两个部分组成，即控制模块和抓取模块。控
制模块主要按照抓取策略对需要抓取的URL进行排序，为抓取模块
提供需要抓取的URL序列，并对抓取模块下载的网页进行分析和存
储。抓取模块从控制模块获得需要下载的URL，从互联网下载相应
的页面，进而提供给抓取控制模块处理。

(3)网页预处理

首先，将整个网页划分成多个不同的块；

其次，将网页划分为多个块之后，分析每个块的重要程度，不重
要的内容块便是噪音。

网页清洗设计流程：先利用HTML Parser解析器把半结构化的
HTML样本页面转化为结构化的DOM树结构，然后对它进行深度
优先遍历并进行清洗，从而得到保留原Web页面格式的结果。

(4)数据存储

将清洗后的网页，存储在指定的数据库当中。

资源描述

《网络信息监控分析系统.pdf》由会员分享，可在线阅读，更多相关《网络信息监控分析系统.pdf（5页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102841898 A (43)申请公布日 2012.12.26 C N 1 0 2 8 4 1 8 9 8 A *CN102841898A* (21)申请号 201110170625.9 (22)申请日 2011.06.23 G06F 17/30(2006.01) (71)申请人张家港凯纳信息技术有限公司地址 215600 江苏省张家港市杨舍镇美食街一号石油大厦1103-2室 (72)发明人庞兵 (54) 发明名称网络信息监控分析系统 (57) 摘要本发明涉及一种网络信息监控分析系统，属于网络信息化领域。本发明根据现今应用最广泛的HTML网页信息的特点，。

2、在对现有信息搜集、预处理和自动分类等网络信息处理技术进行深入的分析与研究的基础上，针对目前信息搜集技术的不足，设计开发了一个基于信息领域的网络信息监控分析系统，实现了通过互联网实时定向地自动捕捉多个门户网站以及专门网站关于专业领域的“有用”信息的功能。工作流程为：(1)由“网络信息收集子系统”采集URL、锚文本、网页，并对采集回的网页进行清洗；(2)“智能分析预归类子系统”将系统中的网页进行分类，并根据阀值过滤无用信息；(3)“自动汇总检索子系统”完成站内检索、自动生成报表功能。 (51)Int.Cl. 权利要求书1页说明书3页 (19)中华人民共和国国家知识产权局 (。

3、12)发明专利申请权利要求书 1 页说明书 3 页 1/1页 2 1.一种网络信息监控分析系统，属于网络信息化领域，其特征在于，网络信息监控分析系统： 1)该系统成功的解决了针对特定领域信息收集的难题，实现了智能化的信息搜集，成功地为企业竞争情报的收集提供服务。 2)提高了网络信息资源的集中度，有利于监控人员同时监控数个网站，解决了传统网站监控方法存在的人力资源消耗的问题。 3)在抓取算法实现中采用了非递归多线程方式的抓取算法，较大地提高了抓取的效率，改进了网页收集子系统性能；并在此基础上增加了利用锚文本等方法过滤URL，有效地提高了网页采集的准确率和信息的有效性。 4)在网络信。

4、息收集子系统中，提出了并行结构新概念，并在并行结构的基础上建立了交换模式，有效地提高了信息采集速度，减缓了网站服务器的压力，同时有效地解决了并行采集结构中跨区链接导致的重复采集或不采集造成的信息遗漏等问题。 5)研究了文本分类技术，在提取文本特征项时，增加提取了相应网页的锚文本，实现了网页分类技术的改进。权利要求书CN 102841898 A 1/3页 3 网络信息监控分析系统技术领域 0001 本发明涉及一种网络信息监控分析系统，属于网络信息化领域。背景技术 0002 自互联网诞生以来，Internet已经发展成为拥有近亿用户和数亿页面的巨大的全球化信息仓库，而且其信息。

5、容量仍在以指数形式飞速地增长。从互联网中获取信息已成为个人获取知识的主要方法和重要手段，也成为当前企业获取情报的重要途径，但是，面对浩如烟海的网络信息，传统的人工搜集和处理等方法都已难以胜任。 0003 为此，国内外在信息搜索领域做了大量研究，并开发了多种搜索引擎，如Baidu、 Google、Yahoo、Lycos等。从某种程度上这些搜索引擎提高了搜索的效率和速度，但仍然存在着很大的局限性，最突出表现在以下几个方面：首先，由于采用的是全文检索或关键词检索的方式，基于字面的检索机制造成实际检索结果与用户需求之间的偏差，即检索返回“有用”信息太少，“垃圾”信息太多，称之为Rich Da。

6、ta Poor Information的问题；其次，网络搜索引擎需面对广泛的知识领域，而针对某一特殊领域因没有足够的背景知识，导致搜索到大量无关的网页，具有较大相关性的网页却很少；最后，检索的速度和效率太低，并且不能保证信息的时效性和权威性，以上这些的不足，是信息搜集的非常严重、甚至是致命的弱点。 0004 针对以上问题，各类基于特定领域的互联网信息搜集工具应运而生。基于特定领域的高度目标化、专业化、针对性以及对对特定范围的网络信息的覆盖率高等优点，有效地弥补了以往通用型搜索工具的缺点，因此专注于某个特殊领域的信息的获取技术就犹如专业网站一样，愈加受到各界的重视，在整个信息搜索领。

7、域所占的地位也越来越重要。发明内容 0005 本发明根据现今应用最广泛的HTML网页信息的特点，在对现有信息搜集、预处理和自动分类等网络信息处理技术进行深入的分析与研究的基础上，针对目前信息搜集技术的不足，设计开发了一个基于信息领域的网络信息监控分析系统，实现了通过互联网实时定向地自动捕捉多个门户网站以及专门网站关于专业领域的“有用”信息的功能。 0006 本发明涉及一种网络信息监控分析系统，其设计工作流程可以如下所述： 0007 1、系统框架设计：系统从互联网快速、有效地自动搜集“有用”信息，并对搜集回的网页信息进行预处理、分类并存储入指定的数据库。本系统由三个子系统组成，分别：“。

8、网络信息收集子系统”、“智能分析预归类子系统”、“自动汇总检索子系统”。每个子系统分别处理不同的功能，根据系统的性能需求而分开。 0008 网络信息收集子系统主要功能是搜索并存储监控范围内网络媒体每日不断更新的最新信息，保证信息收集的实时性、全面性。 0009 智能分析预归类子系统是大规模信息处理重要的应用技术之一，主要功能是根据文本分类、中文分词等技术对收集到的网页信息自动进行分类。说明书CN 102841898 A 2/3页 4 0010 自动汇总检索子系统主要包括站内检索和系统智能分析报表，实现站内检索和及时生成报表的功能。 0011 系统工作流程 0012 (1)由“网。

9、络信息收集子系统”采集URL、锚文本、网页，并对采集回的网页进行清洗 0013 (2)“智能分析预归类子系统”将系统中的网页进行分类，并根据阀值过滤无用信息 0014 (3)“自动汇总检索子系统”完成站内检索、自动生成报表功能。 0015 2、子系统的设计与实现 0016 网络信息收集子系统 0017 网络信息收集子系统主要功能是搜索并存储监控范围内网络媒体每日不断更新的最新信息，保证信息收集的实时性、全面性。该子系统采用了交换模式的并行结构，应用了信息采集、网页清洗等技术，满足了系统抓取网站信息从网站发布到系统抓取时间不超过1分钟，抓取论坛信息从帖子发布到系统抓取的时候不超过1分钟。

10、的实时性需求。 0018 智能分析预归类子系统 0019 智能分析预归类子系统是大规模信息处理重要的应用技术之一，应用中文文本分类、中文分词等技术，采用了类中心向量分类算法，实现了实时地将系统信息自动归类、过滤无用信息等功能。 0020 自动汇总检索子系统 0021 自动检索子系统，应用检索与自动报表生成等技术，实现了站内检索与及时生成报表的目的，主要功能包括站内检索功能和系统智能分析报表功能。 0022 3、数据库设计 0023 根据上述对信息结构的分析，可以得到数据库中表的模式，其中用户信息表、权限表、信息源表设计如下所述： 0024 (1)信息源表，对采集到的信息保存到本地数据库。

11、主表，而预处理、分类的信息源也是在对应这个表进行修改。 0025 (2)用户信息表，注册合法用户的相关信息。 0026 (3)用户权限表，对用户信息表的用户赋权信息，这个表直接和用户信息表相关联。 0027 (4)权限表，提供本系统的存在的权限级别信息，提供给用户权限信息的权限选择。具体实施方式 0028 实施例1关于汽车行业的网络信息收集分析 0029 (1)由“网络信息收集子系统”采集汽车行业网站或者门户网站的汽车频道URL、锚文本、网页。 0030 (2)对采集回的网页进行清洗，剔除掉网页中噪音内容的干扰，把网页的主题内容作为处理对象，提高处理结果的准确性；其次，简化网页内标。

12、签结构的复杂性并减少网页的大小，从而节省后续处理过程的时间和空间开销。说明书CN 102841898 A 3/3页 5 0031 (3)“智能分析预归类子系统”将系统中采集的网页进行分类，并根据阀值过滤无用信息 0032 (4)“自动汇总检索子系统”完成站内检索、自动生成报表功能。 0033 实施例2网络信息收集子系统实施过程 0034 为了实现网络信息的自动收集功能，我们将网络信息收集子系统的整个处理过程分成四步：初始URL选择，网页采集、网页预处理、数据存储。该子系统的主要工作流程为：首先由Spider根据初始URL选择和主题定义，从Web上采集网页，其次将采集到的页面进行。

13、预处理后，将结果送入指定的数据库中存储。 0035 (1)初始URL的选择 0036 一般网页收集系统是从一个种子URL集出发，通过Web协议向Web上所需的页面扩展的。信息收集系统需要选择质量较高的主题URL作为初始种子URL。本实施例选择由人工定义种子URL集，主要工作步骤如下： 0037 第一步工作是要确定网络信息监控分析系统的“监控范围”，也就是确定收集哪些网站中的网页信息。 0038 第二步工作就是收集被“监控”网站入口，即种子URL集。 0039 (2)网页采集 0040 网页采集器，主要由两个部分组成，即控制模块和抓取模块。控制模块主要按照抓取策略对需要抓取的URL进行排。

14、序，为抓取模块提供需要抓取的URL序列，并对抓取模块下载的网页进行分析和存储。抓取模块从控制模块获得需要下载的URL，从互联网下载相应的页面，进而提供给抓取控制模块处理。 0041 (3)网页预处理 0042 首先，将整个网页划分成多个不同的块； 0043 其次，将网页划分为多个块之后，分析每个块的重要程度，不重要的内容块便是噪音。 0044 网页清洗设计流程：先利用HTML Parser解析器把半结构化的HTML样本页面转化为结构化的DOM树结构，然后对它进行深度优先遍历并进行清洗，从而得到保留原Web页面格式的结果。 0045 (4)数据存储 0046 将清洗后的网页，存储在指定的数据库当中。说明书CN 102841898 A 。

展开阅读全文