《网络信息监控分析系统.pdf》由会员分享,可在线阅读,更多相关《网络信息监控分析系统.pdf(5页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102841898 A (43)申请公布日 2012.12.26 C N 1 0 2 8 4 1 8 9 8 A *CN102841898A* (21)申请号 201110170625.9 (22)申请日 2011.06.23 G06F 17/30(2006.01) (71)申请人张家港凯纳信息技术有限公司 地址 215600 江苏省张家港市杨舍镇美食街 一号石油大厦1103-2室 (72)发明人庞兵 (54) 发明名称 网络信息监控分析系统 (57) 摘要 本发明涉及一种网络信息监控分析系统,属 于网络信息化领域。本发明根据现今应用最广泛 的HTML网页信息的特点,。
2、在对现有信息搜集、预 处理和自动分类等网络信息处理技术进行深入的 分析与研究的基础上,针对目前信息搜集技术的 不足,设计开发了一个基于信息领域的网络信息 监控分析系统,实现了通过互联网实时定向地自 动捕捉多个门户网站以及专门网站关于专业领域 的“有用”信息的功能。工作流程为:(1)由“网络 信息收集子系统”采集URL、锚文本、网页,并对采 集回的网页进行清洗;(2)“智能分析预归类子系 统”将系统中的网页进行分类,并根据阀值过滤无 用信息;(3)“自动汇总检索子系统”完成站内检 索、自动生成报表功能。 (51)Int.Cl. 权利要求书1页 说明书3页 (19)中华人民共和国国家知识产权局 (。
3、12)发明专利申请 权利要求书 1 页 说明书 3 页 1/1页 2 1.一种网络信息监控分析系统,属于网络信息化领域,其特征在于,网络信息监控分析 系统: 1)该系统成功的解决了针对特定领域信息收集的难题,实现了智能化的信息搜集,成 功地为企业竞争情报的收集提供服务。 2)提高了网络信息资源的集中度,有利于监控人员同时监控数个网站,解决了传统网 站监控方法存在的人力资源消耗的问题。 3)在抓取算法实现中采用了非递归多线程方式的抓取算法,较大地提高了抓取的效 率,改进了网页收集子系统性能;并在此基础上增加了利用锚文本等方法过滤URL,有效地 提高了网页采集的准确率和信息的有效性。 4)在网络信。
4、息收集子系统中,提出了并行结构新概念,并在并行结构的基础上建立了 交换模式,有效地提高了信息采集速度,减缓了网站服务器的压力,同时有效地解决了并行 采集结构中跨区链接导致的重复采集或不采集造成的信息遗漏等问题。 5)研究了文本分类技术,在提取文本特征项时,增加提取了相应网页的锚文本,实现了 网页分类技术的改进。 权 利 要 求 书CN 102841898 A 1/3页 3 网络信息监控分析系统 技术领域 0001 本发明涉及一种网络信息监控分析系统,属于网络信息化领域。 背景技术 0002 自互联网诞生以来,Internet已经发展成为拥有近亿用户和数亿页面的巨大的全 球化信息仓库,而且其信息。
5、容量仍在以指数形式飞速地增长。从互联网中获取信息已成为 个人获取知识的主要方法和重要手段,也成为当前企业获取情报的重要途径,但是,面对浩 如烟海的网络信息,传统的人工搜集和处理等方法都已难以胜任。 0003 为此,国内外在信息搜索领域做了大量研究,并开发了多种搜索引擎,如Baidu、 Google、Yahoo、Lycos等。从某种程度上这些搜索引擎提高了搜索的效率和速度,但仍然存 在着很大的局限性,最突出表现在以下几个方面:首先,由于采用的是全文检索或关键词检 索的方式,基于字面的检索机制造成实际检索结果与用户需求之间的偏差,即检索返回“有 用”信息太少,“垃圾”信息太多,称之为Rich Da。
6、ta Poor Information的问题;其次,网络 搜索引擎需面对广泛的知识领域,而针对某一特殊领域因没有足够的背景知识,导致搜索 到大量无关的网页,具有较大相关性的网页却很少;最后,检索的速度和效率太低,并且不 能保证信息的时效性和权威性,以上这些的不足,是信息搜集的非常严重、甚至是致命的弱 点。 0004 针对以上问题,各类基于特定领域的互联网信息搜集工具应运而生。基于特定领 域的高度目标化、专业化、针对性以及对对特定范围的网络信息的覆盖率高等优点,有效地 弥补了以往通用型搜索工具的缺点,因此专注于某个特殊领域的信息的获取技术就犹如专 业网站一样,愈加受到各界的重视,在整个信息搜索领。
7、域所占的地位也越来越重要。 发明内容 0005 本发明根据现今应用最广泛的HTML网页信息的特点,在对现有信息搜集、预处理 和自动分类等网络信息处理技术进行深入的分析与研究的基础上,针对目前信息搜集技术 的不足,设计开发了一个基于信息领域的网络信息监控分析系统,实现了通过互联网实时 定向地自动捕捉多个门户网站以及专门网站关于专业领域的“有用”信息的功能。 0006 本发明涉及一种网络信息监控分析系统,其设计工作流程可以如下所述: 0007 1、系统框架设计:系统从互联网快速、有效地自动搜集“有用”信息,并对搜集回的 网页信息进行预处理、分类并存储入指定的数据库。本系统由三个子系统组成,分别:“。
8、网络 信息收集子系统”、“智能分析预归类子系统”、“自动汇总检索子系统”。每个子系统分别处 理不同的功能,根据系统的性能需求而分开。 0008 网络信息收集子系统主要功能是搜索并存储监控范围内网络媒体每日不断更新 的最新信息,保证信息收集的实时性、全面性。 0009 智能分析预归类子系统是大规模信息处理重要的应用技术之一,主要功能是根据 文本分类、中文分词等技术对收集到的网页信息自动进行分类。 说 明 书CN 102841898 A 2/3页 4 0010 自动汇总检索子系统主要包括站内检索和系统智能分析报表,实现站内检索和及 时生成报表的功能。 0011 系统工作流程 0012 (1)由“网。
9、络信息收集子系统”采集URL、锚文本、网页,并对采集回的网页进行清 洗 0013 (2)“智能分析预归类子系统”将系统中的网页进行分类,并根据阀值过滤无用信 息 0014 (3)“自动汇总检索子系统”完成站内检索、自动生成报表功能。 0015 2、子系统的设计与实现 0016 网络信息收集子系统 0017 网络信息收集子系统主要功能是搜索并存储监控范围内网络媒体每日不断更新 的最新信息,保证信息收集的实时性、全面性。该子系统采用了交换模式的并行结构,应用 了信息采集、网页清洗等技术,满足了系统抓取网站信息从网站发布到系统抓取时间不超 过1分钟,抓取论坛信息从帖子发布到系统抓取的时候不超过1分钟。
10、的实时性需求。 0018 智能分析预归类子系统 0019 智能分析预归类子系统是大规模信息处理重要的应用技术之一,应用中文文本分 类、中文分词等技术,采用了类中心向量分类算法,实现了实时地将系统信息自动归类、过 滤无用信息等功能。 0020 自动汇总检索子系统 0021 自动检索子系统,应用检索与自动报表生成等技术,实现了站内检索与及时生成 报表的目的,主要功能包括站内检索功能和系统智能分析报表功能。 0022 3、数据库设计 0023 根据上述对信息结构的分析,可以得到数据库中表的模式,其中用户信息表、权限 表、信息源表设计如下所述: 0024 (1)信息源表,对采集到的信息保存到本地数据库。
11、主表,而预处理、分类的信息源 也是在对应这个表进行修改。 0025 (2)用户信息表,注册合法用户的相关信息。 0026 (3)用户权限表,对用户信息表的用户赋权信息,这个表直接和用户信息表相关 联。 0027 (4)权限表,提供本系统的存在的权限级别信息,提供给用户权限信息的权限选 择。 具体实施方式 0028 实施例1关于汽车行业的网络信息收集分析 0029 (1)由“网络信息收集子系统”采集汽车行业网站或者门户网站的汽车频道URL、 锚文本、网页。 0030 (2)对采集回的网页进行清洗,剔除掉网页中噪音内容的干扰,把网页的主题内容 作为处理对象,提高处理结果的准确性;其次,简化网页内标。
12、签结构的复杂性并减少网页的 大小,从而节省后续处理过程的时间和空间开销。 说 明 书CN 102841898 A 3/3页 5 0031 (3)“智能分析预归类子系统”将系统中采集的网页进行分类,并根据阀值过滤无 用信息 0032 (4)“自动汇总检索子系统”完成站内检索、自动生成报表功能。 0033 实施例2网络信息收集子系统实施过程 0034 为了实现网络信息的自动收集功能,我们将网络信息收集子系统的整个处理过程 分成四步:初始URL选择,网页采集、网页预处理、数据存储。该子系统的主要工作流程为: 首先由Spider根据初始URL选择和主题定义,从Web上采集网页,其次将采集到的页面进 行。
13、预处理后,将结果送入指定的数据库中存储。 0035 (1)初始URL的选择 0036 一般网页收集系统是从一个种子URL集出发,通过Web协议向Web上所需的页面 扩展的。信息收集系统需要选择质量较高的主题URL作为初始种子URL。本实施例选择由 人工定义种子URL集,主要工作步骤如下: 0037 第一步工作是要确定网络信息监控分析系统的“监控范围”,也就是确定收集哪些 网站中的网页信息。 0038 第二步工作就是收集被“监控”网站入口,即种子URL集。 0039 (2)网页采集 0040 网页采集器,主要由两个部分组成,即控制模块和抓取模块。控制模块主要按照抓 取策略对需要抓取的URL进行排。
14、序,为抓取模块提供需要抓取的URL序列,并对抓取模块下 载的网页进行分析和存储。抓取模块从控制模块获得需要下载的URL,从互联网下载相应的 页面,进而提供给抓取控制模块处理。 0041 (3)网页预处理 0042 首先,将整个网页划分成多个不同的块; 0043 其次,将网页划分为多个块之后,分析每个块的重要程度,不重要的内容块便是噪 音。 0044 网页清洗设计流程:先利用HTML Parser解析器把半结构化的HTML样本页面转化 为结构化的DOM树结构,然后对它进行深度优先遍历并进行清洗,从而得到保留原Web页面 格式的结果。 0045 (4)数据存储 0046 将清洗后的网页,存储在指定的数据库当中。 说 明 书CN 102841898 A 。