一种网站数据采集的方法及装置.pdf

摘要
申请专利号：	CN201510164201.X	申请日：	2015.04.08
公开号：	CN104765823A	公开日：	2015.07.08
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20150408\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	天脉聚源(北京)传媒科技有限公司
发明人：	王兰莎
地址：	100007北京市东城区安定门东大街28号雍和大厦E座808室
优先权：
专利代理机构：	北京尚伦律师事务所11477	代理人：	张亮
PDF下载：	PDF下载

内容摘要

本发明提供一种网站数据采集的方法及装置，用以解决无法分类获取网站数据的问题，实现快速分类获取所需数据的目的。其中，该方法包括：预先配置网站的根网址；根据根网址获取网站的导航栏信息，导航栏信息中包括频道信息；从频道信息中匹配所需的频道；根据匹配出的频道逐级获取网站数据。该方法针对每个匹配出的频道，逐级获取网站数据，从而可以分类获取数据。同时，获取的数据与网站结构簇相对应，进而可以节省之后的网站数据分类的过程，提高数据采集的效率。

权利要求书

1.  一种网站数据采集的方法，其特征在于，包括：
预先配置网站的根网址；
根据所述根网址获取所述网站的导航栏信息，所述导航栏信息中包括频道信息；
从所述频道信息中匹配所需的频道；
根据所述匹配出的频道逐级获取网站数据。

2.  根据权利要求1所述的方法，其特征在于，所述根据所述匹配出的频道逐级获取网站数据，包括：
根据所述匹配出的频道获取每一频道中的内容列表；
根据所述内容列表分类获取内容数据，所述内容数据即为所需的网站数据。

3.  根据权利要求2所述的方法，其特征在于，所述根据所述内容列表分类获取内容数据，具体包括：
根据所述内容列表确定相应内容页的地址；
根据所述内容页的地址确定内容页的源代码，并从所述源代码中获取所述内容数据。

4.  根据权利要求1-3任一所述的方法，其特征在于，在获取网站数据步骤之后，还包括：
分级存储所述网站数据，并对所述网站数据进行统一编码处理。

5.  根据权利要求4所述的方法，其特征在于，所述分级存储所述网站数据，包括：
根据与所述根网址相关联的结构簇分级设置目录节点；
将获取的网站数据依次分级存储于相应的目录节点下。

6.  一种网站数据采集的装置，其特征在于，包括：
配置模块，用于预先配置网站的根网址；
获取模块，用于根据所述根网址获取所述网站的导航栏信息，所述导航栏信息中包括频道信息；
匹配模块，用于从所述频道信息中匹配所需的频道；
处理模块，用于根据所述匹配出的频道逐级获取网站数据。

7.  根据权利要求6所述的装置，其特征在于，所述处理模块包括：
获取单元，用于根据所述匹配出的频道获取每一频道中的内容列表；
处理单元，用于根据所述内容列表分类获取内容数据，所述内容数据即为所需的网站数据。

8.  根据权利要求6所述的装置，其特征在于，所述处理单元包括：
确定子单元，用于根据所述内容列表确定相应内容页的地址；
获取子单元，用于根据所述内容页的地址确定内容页的源代码，并从所述源代码中获取所述内容数据。

9.  根据权利要求6-8任一所述的装置，其特征在于，还包括：
存储模块，用于分级存储所述网站数据，并对所述网站数据进行统一编码处理。

10.  根据权利要求9所述的装置，其特征在于，所述存储模块包括：
节点设置单元，用于根据与所述根网址相关联的结构簇分级设置目录节点；
分级存储单元，用于将获取的网站数据依次分级存储于相应的目录节点下。

说明书

一种网站数据采集的方法及装置
技术领域
本发明涉及数据采集技术领域，特别涉及一种网站数据采集的方法及装置。
背景技术
随着网络资源的不断丰富和网络信息量的不断膨胀，人们对网络的依赖性越来越强，却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便；信息自古就有无限的价值，随着时代的不断发展，人类不知不觉已经来到了信息时代，各行各业都充斥了无数的信息，而信息的价值就在于数据的流通，如果数据能够及时的流通和传递起来，才能发挥信息真正的不可比拟的价值；在市场经济条件下，采集数据已经成为重要的工具和手段。
如何从海量信息中收集有价值的数据并进行分析研究，形成企业各种决策的依据，是数据采集人员及市场研究人员所面临的一个问题；要从大量的数据中迅速的找到并获得自己所需要的信息和服务，变得越来越困难，服务对象在查询信息时往往会迷失他们的目标或者是得到一些比较偏颇的结果；数据必须经过汇总、整合、分析才能产生价值，零散的信息只能是新闻性的，无法体现真正的商业价值；对于企业以及信息分析人员来说，一方面要在大量的信息中过滤出有效的价值点，同时又要降低获取相应信息的成本，使信息的实际使用价值大于收集、分析信息等过程所产生的成本，使信息为企业的决策带来增值价值。而进行数据分析研究必须获取所需的数据。
现有采集网站数据的方式主要有两种，一种传统方式：主要采用人工的方式，从目的网站通过复制、粘贴方式实现网站数据的采集。另一种是采用软件的方式，如采用网络爬虫程序，按照一定的规则，自动的抓取万维网信息的程序或者脚本。具体的，网络爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。现有的传统方式费时费力，工作量大；而采用软件的方式虽然可以采集网站数据，但是不能区分所采集的大量网站数据之间的关联性，且网络爬虫一般基于关键字获取网站数据，很容易采集到无用的垃圾信息，信息提取质量不高。
发明内容
本发明提供一种网站数据采集的方法及装置，用以解决无法分类获取网站数据的问题，实现快速分类获取所需数据的目的。
本发明提供一种网站数据采集的方法，包括：
预先配置网站的根网址；
根据根网址获取网站的导航栏信息，导航栏信息中包括频道信息；
从频道信息中匹配所需的频道；
根据匹配出的频道逐级获取网站数据。
本发明实施例提供的一种网站数据采集的方法，按照网站树结构逐级获取网站结构簇信息，针对每个匹配出的频道，逐级获取网站数据，从而可以分类获取数据。同时，获取的数据与网站结构簇相对应，进而可以节省之后的网站数据分类的过程，提高数据采集的效率。
在一个实施例中，根据匹配出的频道逐级获取网站数据，具体包括：
根据匹配出的频道获取每一频道中的内容列表；
根据内容列表分类获取内容数据，内容数据即为所需的网站数据。
在一个实施例中，根据内容列表分类获取内容数据，具体包括：
根据内容列表确定相应内容页的地址；
根据内容页的地址确定内容页的源代码，并从源代码中获取内容数据。
本发明实施例中，通过从源代码中获取内容数据，可以有效屏蔽广告和无关内容，同时还可以防止爬到该频道以外的地址链接。
在一个实施例中，在获取网站数据步骤之后，还包括：
分级存储网站数据，并对网站数据进行统一编码处理。
在一个实施例中，分级存储网站数据，包括：
根据与根网址相关联的结构簇分级设置目录节点；
将获取的网站数据依次分级存储于相应的目录节点下。
一种网站数据采集的装置，包括：
配置模块，用于预先配置网站的根网址；
获取模块，用于根据根网址获取网站的导航栏信息，导航栏信息中包括频道信息；
匹配模块，用于从频道信息中匹配所需的频道；
处理模块，用于根据匹配出的频道逐级获取网站数据。
在一个实施例中，处理模块包括：
获取单元，用于根据匹配出的频道获取每一频道中的内容列表；
处理单元，用于根据内容列表分类获取内容数据，内容数据即为所需的网站数据。
在一个实施例中，处理单元包括：
确定子单元，用于根据内容列表确定相应内容页的地址；
获取子单元，用于根据内容页的地址确定内容页的源代码，并从源代码中获取内容数据。
在一个实施例中，该装置还包括：
存储模块，用于分级存储网站数据，并对网站数据进行统一编码处理。
在一个实施例中，存储模块包括：
节点设置单元，用于根据与根网址相关联的结构簇分级设置目录节点；
分级存储单元，用于将获取的网站数据依次分级存储于相应的目录节点下。
本发明实施例提供的一种网站数据采集的方法及装置，按照网站树结构逐级获取网站结构簇信息，针对每个匹配出的频道，逐级获取网站数据，从而可以分类获取数据。同时，获取的数据与网站结构簇相对应，进而可以节省之后的网站数据分类的过程，提高数据采集的效率。通过从源代码中获取内容数据，可以有效屏蔽广告和无关内容，同时还可以防止爬到该频道以外的地址链接。通过对网站数据进行统一编码处理，便于数据的格式化存储。同时，可以滤除原网站数据中冗余的格式样式，从而可以节约存储空间。
本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：
图1为本发明实施例中一种网站数据采集的方法的流程图；
图2为本发明实施例中匹配出的频道逐级获取网站数据的流程图；
图3为本发明实施例中根据内容列表分类获取内容数据的流程图；
图4为本发明实施例一中一种网站数据采集的方法的流程图；
图5为本发明实施例二中一种网站数据采集的方法的流程图；
图6为本发明实施例中第一种网站数据采集的装置的结构图；
图7为本发明实施例中处理模块的结构图；
图8为本发明实施例中处理单元的结构图；
图9为本发明实施例中第二种网站数据采集的装置的结构图；
图10为本发明实施例中存储模块的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。
图1为本发明实施例中一种网站数据采集的方法的流程图。如图1所示，包括以下步骤S101-S104：
步骤S101，预先配置网站的根网址。
其中，网站的根网址为根目录下的首页，是服务器站点的根目录。一般网站默认的根目录的设置首页就是主页地址，例如百度的主页地址为www.baidu.com。
需要说明的是，并不是所有的网站主页都为服务器站点的根目录。例如，服务器建立一个网站A(网址为www.a.com)，然后再建立一个文件夹做个论坛(例如，网址为www.a.com/bbs)。则对于该论坛来说，站点根网址为www.a.com，主页连接是www.a.com/bbs。
步骤S102，根据根网址获取网站的导航栏信息，导航栏信息中包括频道信息。
导航栏一般位于页眉区域，在页眉横幅图片上边或下边的一排水平导航按钮，它起着链接下一级的各个页面的作用。同时，使用导航栏是为了让访问者更清晰明朗的找到所需要的资源区域，寻找资源。例如，百度眉页上面的一些选项"新闻，网页，MP3，知道…"等就是导航栏的一种范例。本发明实施例中的导航栏信息即为与网站导航栏相关的信息。
频道为每一导航栏中下一级的目录，例如，导航栏“新闻”的下一级可以分为“财经新闻频道”、“军事新闻频道”、“娱乐新闻频道”“体育新闻频道”等。本发明实施例中的频道信息即为导航栏中包含的频道的信息。
步骤S103，从频道信息中匹配所需的频道。
具体的，根据需要获取的网站数据确定所需的频道信息。仍然以上述“新闻”为例，当只需要获取财经新闻时，从包含众多新闻频道的频道信息中匹配出“财经新闻频道”。当然，当需要获取所有频道的信息时，上述所需的频道即为所有的频道。
步骤S104，根据匹配出的频道逐级获取网站数据。
本发明实施例提供的一种网站数据采集的方法，按照网站树结构逐级获取网站结构簇信息，针对每个匹配出的频道，逐级获取网站数据，从而可以分类获取数据。同时，获取的数据与网站结构簇相对应，进而可以节省之后的网站数据分类的过程，提高数据采集的效率。
在一个实施例中，如图2所示，步骤S104中根据匹配出的频道逐级获取网站数据，具体包括步骤S201和S202：
步骤S201，根据匹配出的频道获取每一频道中的内容列表。
每一频道的下一级包括该频道下包含的内容该列表。仍然以上述的“新闻”为例，所需的频道为“财经新闻频道”，其下一级的内容列表可以包括“股票”、“理财”、“财经人物”等，根据该内容列表即可获取所需的网站数据。
步骤S202，根据内容列表分类获取内容数据，该内容数据即为所需的网站数据。
在一个实施例中，如图3所示，上述步骤S202中根据内容列表分类获取内容数据，具体包括以下步骤S301-S302：
步骤S301，根据内容列表确定相应内容页的地址。
内容列表中的每一个内容具有相对应的地址，确定相应内容页的地址后，即可提取该地址中的网站数据。
步骤S302，根据内容页的地址确定内容页的源代码，并从源代码中获取内容数据。
由于每个网站的结构略有不同，而且某些网站还设有广告等信息。本发明实施例中，通过从源代码中获取内容数据，可以有效屏蔽广告和无关内容，同时还可以防止爬到该频道以外的地址链接。
下面通过具体实施例来说明本发明实施例提供的网站数据采集的方法，实现逐级获取网站数据。
实施例一
图4为本发明实施例一中提供的一种网站数据采集的方法。在实施例一中，将获取的网站数据进行分级分类存储，从而节省了数据分类的过程。如图4所示，该方法包括以下步骤S401-S406：
步骤S401，预先配置网站的根网址。
步骤S402，根据根网址获取网站的导航栏信息，导航栏信息中包括各个频道的频道信息。
步骤S403，从频道信息中匹配所需的频道。
步骤S404，根据匹配出的频道获取每一频道中的内容列表。
步骤S405，根据内容列表分类获取内容数据，该内容数据即为所需的网站数据。
步骤S406，分级存储网站数据，并对网站数据进行统一编码处理。
在本发明实施例一中，通过对网站数据进行统一编码处理，便于数据的格式化存储。同时，可以滤除原网站数据中冗余的格式样式，从而可以节约存储空间。
实施例二
图5为本发明实施例二中提供的一种网站数据采集的方法。在实施例二中，从源代码中获取内容数据，并根据网站结构簇将获取的网站数据进行分级分类存储，从而节省了数据分类的过程。如图5所示，该方法包括以下步骤S501-S504：
步骤S501，预先配置网站的根网址。
步骤S502，根据根网址获取网站的导航栏信息，导航栏信息中包括各个频道的频道信息。
步骤S503，从频道信息中匹配所需的频道。
步骤S504，根据匹配出的频道获取每一频道中的内容列表。
步骤S505，根据内容列表确定相应内容页的地址。
步骤S506，根据内容页的地址确定内容页的源代码，并从源代码中获取内容数据，该内容数据即为所需的网站数据。
步骤S507，根据与根网址相关联的结构簇分级设置目录节点。
步骤S508，将获取的网站数据依次分级存储于相应的目录节点下。
步骤S509，对网站数据进行统一编码处理。
基于同样的发明构思，对应于上述实施例提供的一种用于网站数据采集的方法，本发明实施例还提供一种网站数据采集的装置，如图6所示，该装置具体包括：
配置模块61，用于预先配置网站的根网址；
获取模块62，用于根据根网址获取网站的导航栏信息，导航栏信息中包括频道信息；
匹配模块63，用于从频道信息中匹配所需的频道；
处理模块64，用于根据匹配出的频道逐级获取网站数据。
在一个实施例中，参见图7所示，处理模块64包括：
获取单元641，用于根据匹配出的频道获取每一频道中的内容列表；
处理单元642，用于根据内容列表分类获取内容数据，内容数据即为所需的网站数据。
在一个实施例中，参见图8所示，处理单元642包括：
确定子单元6421，用于根据内容列表确定相应内容页的地址；
获取子单元6422，用于根据内容页的地址确定内容页的源代码，并从源代码中获取内容数据。
在一个实施例中，如图9所示，该装置还包括：
存储模块65，用于分级存储网站数据，并对网站数据进行统一编码处理。
在一个实施例中，参见图10所示，存储模块65包括：
节点设置单元651，用于根据与根网址相关联的结构簇分级设置目录节点；
分级存储单元652，用于将获取的网站数据依次分级存储于相应的目录节点下。
本发明实施例提供的一种网站数据采集的方法及装置，按照网站树结构逐级获取网站结构簇信息，针对每个匹配出的频道，逐级获取网站数据，从而可以分类获取数据。同时，获取的数据与网站结构簇相对应，进而可以节省之后的网站数据分类的过程，提高数据采集的效率。通过从源代码中获取内容数据，可以有效屏蔽广告和无关内容，同时还可以防止爬到该频道以外的地址链接。通过对网站数据进行统一编码处理，便于数据的格式化存储。同时，可以滤除原网站数据中冗余的格式样式，从而可以节约存储空间。
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。