基于DOCKER的WEB数据采集方法、WEB服务器及WEB数据采集系统.pdf

上传人:a*** 文档编号:1500538 上传时间:2018-06-18 格式:PDF 页数:11 大小:738.28KB
返回 下载 相关 举报
摘要
申请专利号:

CN201610872814.3

申请日:

2016.09.30

公开号:

CN106534259A

公开日:

2017.03.22

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):H04L 29/08申请日:20160930|||公开

IPC分类号:

H04L29/08; H04L12/24

主分类号:

H04L29/08

申请人:

山东大学

发明人:

边俊峰; 钱进; 闵新平; 郭伟; 崔立真

地址:

250061 山东省济南市舜华路1500号山东大学软件园校区

优先权:

专利代理机构:

济南圣达知识产权代理有限公司 37221

代理人:

赵妍

PDF下载: PDF下载
内容摘要

本发明公开了一种基于Docker的Web数据采集方法、Web服务器及Web数据采集系统,其中Web数据采集方法在Web服务器内完成,包括基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信;数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL;数据采集工作节点启动后,数据采集主节点将数据源IP地址和URL分配给各数据采集工作节点,由数据采集工作节点采集相应的Web数据;数据采集主节点接收各数据采集工作节点传送来的数据,并回收所有数据采集工作节点,完成Web数据的采集。

权利要求书

1.一种基于Docker的Web数据采集方法,其特征在于,该方法在Web服务器内完成,具体包括以下步骤:基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信;数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL;数据采集工作节点启动后,数据采集主节点将数据源IP地址和URL分配给各数据采集工作节点,由数据采集工作节点采集相应的Web数据;数据采集主节点接收各数据采集工作节点传送来的数据,并回收所有数据采集工作节点,完成Web数据的采集。2.如权利要求1所述的一种基于Docker的Web数据采集方法,其特征在于,数据采集主节点还接收URL预先制定的规则,并将接收的URL预先制定的规则分配给各数据采集工作节点。3.如权利要求2所述的一种基于Docker的Web数据采集方法,其特征在于,数据采集主节点通过分布式消息中间件将URL预先制定的规则分配给各数据采集工作节点。4.如权利要求1所述的一种基于Docker的Web数据采集方法,其特征在于,数据采集主节点通过分布式消息中间件将数据源IP地址和URL分配给各数据采集工作节点。5.如权利要求1所述的一种基于Docker的Web数据采集方法,其特征在于,该方法还包括:数据采集工作节点完成Web数据采集后,通过分布式消息中间件告知数据采集主节点已处于空闲状态并向数据采集主节点请求新的URL。 -->6.如权利要求1所述的一种基于Docker的Web数据采集方法,其特征在于,该方法还包括:数据采集主节点实时检测数据源IP地址访问异常数据;当数据采集主节点检测到数据源IP地址访问异常数据时,数据采集主节点向数据源IP地址所对应的数据采集工作节点发送结束采集命令。7.一种基于Docker的Web数据采集的Web服务器,其特征在于,包括数据采集节点构建模块,其用于基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信;其中,数据采集主节点,其用于接收Web数据采集任务,并根据Web数据采集任务中URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL;数据采集工作节点启动后,数据采集主节点用于将数据源IP地址和URL分配给各数据采集工作节点,由数据采集工作节点采集相应的Web数据;数据采集主节点还用于接收各数据采集工作节点传送来的数据,并回收所有数据采集工作节点,完成Web数据的采集。8.如权利要求7所述的一种基于Docker的Web数据采集的Web服务器,其特征在于,所述Web服务器还包括异常监控模块,其用于监控数据采集主节点及工作状态下的数据采集工作节点的运行状态,当数据采集主节点或工作状态下的数据采集工作节点出现异常状态时,输出异常报警信号至客户端。9.一种基于Docker的Web数据采集系统,其特征在于,包括如权利要求7-8任一所述的Web服务器;Web数据采集任务发送端,其用于将Web数据采集任务发送至数据采集主节点。10.如权利要求9所述的一种基于Docker的Web数据采集系统,其特征在于,所述基于Docker的Web数据采集系统还包括客户端,其用于接收Web服务器输出的异常报警信号。 -->

说明书

基于Docker的Web数据采集方法、Web服务器及Web数据采集系统

技术领域

本发明属于互联网Web数据处理领域,尤其涉及一种基于Docker的Web数据采集方
法、Web服务器及Web数据采集系统。

背景技术

网络技术的迅猛发展,使得互联网已经成为主要信息的载体,充分、有效地提取这
些信息是当今互联网信息收集工作的重点、难点。数据采集技术应运而生,该技术能够集中
解决从数据源中提取关键信息的问题。目前,国内外的大型互联网公司、相关研究机构已经
给出了一些较为成熟的解决方案,有些也己投入使用,但是这些方案大都是通过建立一台
主节点、部署数量固定的工作节点来实现,在资源利用方面及其不稳定。

如我们所知,在传统实践中大规模服务器架构的方式中,当需要采集数量较少的
数据源时,已经部署的工作节点只能有一部分任务,另外一部分保持空闲,导致资源浪费;
而当需要采集数量较多时,已经部署的工作节点不足以满足采集任务的需求,那么采取增
加部署工作节点或者待其他工作节点任务完成后再分配其他任务的方式解决,这样严重影
响Web数据采集系统的健壮性和稳定性。

超轻量虚拟机Docker(以下简称Docker)可以把应用实例及其依赖环境打包到一
个可移植容器中,根据需求自由创建镜像并发布到任何流行的Linux机器上,并且Docker可
以创建大量的镜像容器,完全可以替代数据采集过程中的工作节点。

因此,借助Docker平台,将Web数据采集系统架构在Docker之上,转变传统实践中
大规模服务器架构的方式,提高数据采集的规范化程度,提高Web数据采集系统的健壮性和
普适性,实现Web数据采集系统的可扩展性,对于系统可扩展性、为设备减耗提供便利成为
本领域一个急需解决的问题。

发明内容

为了解决现有技术的缺点,本发明提供一种基于Docker的Web数据采集方法、Web
服务器及Web数据采集系统。本发明可有效解决现有技术中存在的Web数据采集系统可扩展
性不理想的问题。

为实现上述目的,本发明采用以下技术方案:

一种基于Docker的Web数据采集方法,该方法在Web服务器内完成,具体包括以下
步骤:

基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据
采集工作节点;所述数据采集主节点与数据采集工作节点相互通信;

数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的数量来
启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL;

数据采集工作节点启动后,数据采集主节点将数据源IP地址和URL分配给各数据
采集工作节点,由数据采集工作节点采集相应的Web数据;

数据采集主节点接收各数据采集工作节点传送来的数据,并回收所有数据采集工
作节点,完成Web数据的采集。

本发明通过借助超轻量虚拟机Docker平台,将传统Web数据采集系统架构在
Docker平台之上,根据任务量大小,创建启动多种搭配方式数量的数据采集工作节点,转变
传统大规模服务器架构方式,实现Web数据采集系统可扩展性,提高数据采集工作节点的健
壮性和普适性。

数据采集主节点还接收URL预先制定的规则,并将接收的URL预先制定的规则分配
给各数据采集工作节点。

当数据采集工作节点被分配于URL后,将针对该URL所提前制定的规则传递给该数
据采集工作节点,以用于更好、更方便的进行数据采集。

数据采集主节点通过分布式消息中间件将URL预先制定的规则分配给各数据采集
工作节点。

数据采集主节点通过分布式消息中间件将数据源IP地址和URL分配给各数据采集
工作节点。

分布式消息中间件的优势是:发送方、接收方系统之间不需要了解双方,只需认识
消息;而且数据采集主节点可以同时发送各数据采集工作节点相对应的数据源IP地址和
URL,节省了任务分配时间,从而达到了加快Web数据采集的速度的目的。

该方法还包括:数据采集工作节点完成Web数据采集后,通过分布式消息中间件告
知数据采集主节点已处于空闲状态并向数据采集主节点请求新的URL。

该方法还包括:数据采集主节点实时检测数据源IP地址访问异常数据;当数据采
集主节点检测到数据源IP地址访问异常数据时,数据采集主节点向数据源IP地址所对应的
数据采集工作节点发送结束采集命令。本发明能够更高效实现web数据采集的Web服务器的
可扩展性,并通过加强对整个数据采集过程中的监控管理,实现整个数据采集过程稳定进
行。

一种基于Docker的Web数据采集的Web服务器,包括数据采集节点构建模块,其用
于基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工
作节点;所述数据采集主节点与数据采集工作节点相互通信;

其中,数据采集主节点,其用于接收Web数据采集任务,并根据Web数据采集任务中
URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和
URL;

数据采集工作节点启动后,数据采集主节点用于将数据源IP地址和URL分配给各
数据采集工作节点,由数据采集工作节点采集相应的Web数据;

数据采集主节点还用于接收各数据采集工作节点传送来的数据,并回收所有数据
采集工作节点,完成Web数据的采集。

所述Web服务器还包括异常监控模块,其用于监控数据采集主节点及工作状态下
的数据采集工作节点的运行状态,当数据采集主节点或工作状态下的数据采集工作节点出
现异常状态时,输出异常报警信号至客户端。

一种基于Docker的Web数据采集系统,包括所述的Web服务器;

Web数据采集任务发送端,其用于将Web数据采集任务发送至数据采集主节点。

所述基于Docker的Web数据采集系统还包括客户端,其用于接收Web服务器输出的
异常报警信号。

本发明的有益效果为:

(1)本发明通过借助超轻量虚拟机Docker平台,基于Docker创建镜像容器,由镜像
容器构建出一个数据采集主节点和若干个数据采集工作节点,将传统Web数据采集系统架
构在Docker平台之上;根据任务量大小,创建启动多种搭配方式数量的数据采集工作节点,
转变传统大规模服务器架构方式,实现Web数据采集系统可扩展性,提高数据采集工作节点
的健壮性和普适性;

(2)本发明在借助超轻量虚拟机Docker平台过程中,本发明还针对运行过程中数
据采集主节点及数据采集工作节点运行异常、数据采集工作节点受到反采集限制问题进行
监控管理,确保整个数据采集过程稳定进行。

附图说明

图1是本发明的基于Docker的Web数据采集方法的实施例一流程图;

图2是本发明的基于Docker的Web数据采集方法的实施例二流程图;

图3是本发明的基于Docker的Web数据采集的Web服务器的结构示意图;

图4是本发明的基于Docker的Web数据采集系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发
明的Docker是一种轻量级虚拟机。

图1是本发明的基于Docker的Web数据采集方法的实施例一流程图,该方法在Web
服务器内完成,如图1所示,具体包括以下步骤:

步骤1:基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干
个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信。

步骤2:数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的
数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL。

在该步骤中,数据采集主节点还接收URL预先制定的规则,并将接收的URL预先制
定的规则分配给各数据采集工作节点。

其中,数据采集主节点通过分布式消息中间件将URL预先制定的规则分配给各数
据采集工作节点。

当数据采集工作节点被分配于URL后,将针对该URL所提前制定的规则传递给该数
据采集工作节点,以用于更好、更方便的进行数据采集。

数据采集主节点通过分布式消息中间件将数据源IP地址和URL分配给各数据采集
工作节点。

分布式消息中间件的优势是:发送方、接收方系统之间不需要了解双方,只需认识
消息;而且数据采集主节点可以同时发送各数据采集工作节点相对应的数据源IP地址和
URL,节省了任务分配时间,从而达到了加快Web数据采集的速度的目的。

步骤3:数据采集工作节点启动后,数据采集主节点将数据源IP地址和URL分配给
各数据采集工作节点,由数据采集工作节点采集相应的Web数据。

数据采集工作节点完成Web数据采集后,通过分布式消息中间件告知数据采集主
节点已处于空闲状态并向数据采集主节点请求新的URL。

步骤4:数据采集主节点接收各数据采集工作节点传送来的数据,并回收所有数据
采集工作节点,完成Web数据的采集。

本发明借助Docker平台,当需要采集数量较少的数据源时,数据采集主节点自动
部署固定数量(但数量较少)的工作节点用于保证任务完成;当需要采集数量较多的数据源
时,数据采集主节点自动部署固定数量(但数量较多)的工作节点用于保证任务完成。

具体的,回收空闲状态的数据采集工作节点,是指借助Docker平台,当URL为空时,
数据采集主节点无法为数据采集工作节点再分配URL,这该数据采集工作节点任务结束,数
据采集主节点回收该数据采集工作节点,当所有数据采集工作节点任务结束,则整个web数
据采集系统工作任务结束,数据采集主节点回收所有数据采集工作节点。

具体的,对一个URL由数据采集主节点分配给数据采集工作节点,数据采集工作节
点通过从数据源进行数据采集并存储的过程称作一个任务。

本实施例通过借助超轻量虚拟机Docker平台,基于Docker创建镜像容器,由镜像
容器构建出一个数据采集主节点和若干个数据采集工作节点,将传统Web数据采集系统架
构在Docker平台之上;根据任务量大小,创建启动多种搭配方式数量的数据采集工作节点,
转变传统大规模服务器架构方式,实现Web数据采集系统可扩展性,提高数据采集工作节点
的健壮性和普适性。

图2是本发明的基于Docker的Web数据采集方法的实施例二流程图,该方法在Web
服务器内完成,如图2所示,具体包括以下步骤:

步骤1:基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干
个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信。

步骤2:数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的
数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL。

在该步骤中,数据采集主节点还接收URL预先制定的规则,并将接收的URL预先制
定的规则分配给各数据采集工作节点。

其中,数据采集主节点通过分布式消息中间件将URL预先制定的规则分配给各数
据采集工作节点。

数据采集主节点通过分布式消息中间件将数据源IP地址和URL分配给各数据采集
工作节点。

当数据采集工作节点被分配于URL后,将针对该URL所提前制定的规则传递给该数
据采集工作节点,以用于更好、更方便的进行数据采集。

分布式消息中间件的优势是:发送方、接收方系统之间不需要了解双方,只需认识
消息;而且数据采集主节点可以同时发送各数据采集工作节点相对应的数据源IP地址和
URL,节省了任务分配时间,从而达到了加快Web数据采集的速度的目的。

步骤3:数据采集工作节点启动后,数据采集主节点将数据源IP地址和URL分配给
各数据采集工作节点,由数据采集工作节点采集相应的Web数据。

数据采集工作节点完成Web数据采集后,通过分布式消息中间件告知数据采集主
节点已处于空闲状态并向数据采集主节点请求新的URL。

步骤4:数据采集主节点实时检测数据源IP地址访问异常数据;当数据采集主节点
检测到数据源IP地址访问异常数据时,数据采集主节点向数据源IP地址所对应的数据采集
工作节点发送结束采集命令。

这样能够更高效实现web数据采集的Web服务器的可扩展性,并通过加强对整个数
据采集过程中的监控管理,实现整个数据采集过程稳定进行。

步骤5:数据采集主节点接收各数据采集工作节点传送来的数据,并回收所有数据
采集工作节点,完成Web数据的采集。

本实施例通过借助超轻量虚拟机Docker平台,基于Docker创建镜像容器,由镜像
容器构建出一个数据采集主节点和若干个数据采集工作节点,将传统Web数据采集系统架
构在Docker平台之上;根据任务量大小,创建启动多种搭配方式数量的数据采集工作节点,
转变传统大规模服务器架构方式,实现Web数据采集系统可扩展性,提高数据采集工作节点
的健壮性和普适性;本实施例还针对运行过程中数据采集主节点及数据采集工作节点运行
异常、数据采集工作节点受到反采集限制问题进行监控管理,确保整个数据采集过程稳定
进行。

图3是本发明的基于Docker的Web数据采集的Web服务器的结构示意图。如图3所示
的基于Docker的Web数据采集的Web服务器,Web服务器包括数据采集节点构建模块和异常
监控模块。

数据采集节点构建模块,其用于基于Docker创建镜像容器,由镜像容器构建出一
个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点
相互通信;

其中,数据采集主节点,其用于接收Web数据采集任务,并根据Web数据采集任务中
URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和
URL;

数据采集工作节点启动后,数据采集主节点用于将数据源IP地址和URL分配给各
数据采集工作节点,由数据采集工作节点采集相应的Web数据;

数据采集主节点还用于接收各数据采集工作节点传送来的数据,并回收所有数据
采集工作节点,完成Web数据的采集。

异常监控模块,其用于监控数据采集主节点及工作状态下的数据采集工作节点的
运行状态,当数据采集主节点或工作状态下的数据采集工作节点出现异常状态时,输出异
常报警信号至客户端。

本实施例通过借助超轻量虚拟机Docker平台,基于Docker创建镜像容器,由镜像
容器构建出一个数据采集主节点和若干个数据采集工作节点,将传统Web数据采集系统架
构在Docker平台之上;根据任务量大小,创建启动多种搭配方式数量的数据采集工作节点,
转变传统大规模服务器架构方式,实现Web数据采集系统可扩展性,提高数据采集工作节点
的健壮性和普适性;本实施例还针对运行过程中数据采集主节点及数据采集工作节点运行
异常、数据采集工作节点受到反采集限制问题进行监控管理,确保整个数据采集过程稳定
进行。

图4是本发明的基于Docker的Web数据采集系统结构示意图。如图4所示的基于
Docker的Web数据采集系统包括Web服务器;

Web数据采集任务发送端,其用于将Web数据采集任务发送至数据采集主节点。

进一步地,基于Docker的Web数据采集系统还包括客户端,其用于接收Web服务器
输出的异常报警信号。

其中,Web服务器包括数据采集节点构建模块,所述数据采集节点构建模块用于基
于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节
点;所述数据采集主节点与数据采集工作节点相互通信;

其中,数据采集主节点,其用于接收Web数据采集任务,并根据Web数据采集任务中
URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和
URL;

数据采集工作节点启动后,数据采集主节点用于将数据源IP地址和URL分配给各
数据采集工作节点,由数据采集工作节点采集相应的Web数据;

数据采集主节点还用于接收各数据采集工作节点传送来的数据,并回收所有数据
采集工作节点,完成Web数据的采集。

更进一步地,Web服务器还包括异常监控模块,异常监控模块用于监控数据采集主
节点及工作状态下的数据采集工作节点的运行状态,当数据采集主节点或工作状态下的数
据采集工作节点出现异常状态时,输出异常报警信号至客户端。

本实施例通过借助超轻量虚拟机Docker平台,基于Docker创建镜像容器,由镜像
容器构建出一个数据采集主节点和若干个数据采集工作节点,将传统Web数据采集系统架
构在Docker平台之上;根据任务量大小,创建启动多种搭配方式数量的数据采集工作节点,
转变传统大规模服务器架构方式,实现Web数据采集系统可扩展性,提高数据采集工作节点
的健壮性和普适性;本实施例还针对运行过程中数据采集主节点及数据采集工作节点运行
异常、数据采集工作节点受到反采集限制问题进行监控管理,确保整个数据采集过程稳定
进行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以
通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质
中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁
碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random
AccessMemory,RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范
围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不
需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

基于DOCKER的WEB数据采集方法、WEB服务器及WEB数据采集系统.pdf_第1页
第1页 / 共11页
基于DOCKER的WEB数据采集方法、WEB服务器及WEB数据采集系统.pdf_第2页
第2页 / 共11页
基于DOCKER的WEB数据采集方法、WEB服务器及WEB数据采集系统.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《基于DOCKER的WEB数据采集方法、WEB服务器及WEB数据采集系统.pdf》由会员分享,可在线阅读,更多相关《基于DOCKER的WEB数据采集方法、WEB服务器及WEB数据采集系统.pdf(11页珍藏版)》请在专利查询网上搜索。

本发明公开了一种基于Docker的Web数据采集方法、Web服务器及Web数据采集系统,其中Web数据采集方法在Web服务器内完成,包括基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信;数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1