受限WEB数据库的数据抽取方法及装置.pdf

摘要
申请专利号：	CN201510154092.3	申请日：	2015.04.02
公开号：	CN104699848A	公开日：	2015.06.10
当前法律状态：	授权	有效性：	有权
法律详情：	著录事项变更IPC(主分类):G06F 17/30变更事项:发明人变更前:杜鹃张卓变更后:杜鹃张卓曹建春\|\|\|授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20150402\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	黄河水利职业技术学院; 郑州大学
发明人：	杜鹃; 张卓
地址：	450000河南省开封市龙亭区西门大街115号
优先权：
专利代理机构：	北京超凡志成知识产权代理事务所(普通合伙)11371	代理人：	饶钱
PDF下载：	PDF下载

内容摘要

本发明涉及计算机技术领域，提供了一种受限Web数据库的数据抽取方法及装置。方法包括：抽取装置获得Web数据库查询接口中的一个属性值；生成查询请求，发送给受限Web数据库；解析查询反馈的网页页面，抽取出查询数据；根据查询数据更新本地数据库中的数据；通过基于EdaliwdbFCA算法对本地数据库进行分析，产生下一组查询属性值；当查询数据的条数等于预设阈值时，结束数据的抽取。抽取装置包括查询属性值获得单元、查询单元、解析单元、数据更新单元、查询属性值生成单元和查询结束单元。通过结合形式概念分析方法对基于属性值查询接口的受限Web数据库的数据抽取，实现在受限Web数据库中抽取出质量较高的数据，并且具有稳定性好、效率快的特点。

权利要求书

权利要求书
1.  一种受限Web数据库的数据抽取方法，其特征在于，应用于受限Web数据库的数据抽取装置，所述抽取装置包括本地数据库，所述方法包括：
所述抽取装置获得Web数据库查询接口中的一个属性值；
所述抽取装置根据所述属性值生成查询请求，将所述查询请求发送给所述受限Web数据库；
所述抽取装置解析查询反馈的网页页面，抽取出所述网页页面所包括的查询数据；
所述抽取装置根据所述查询数据更新本地数据库中的数据；
所述抽取装置通过基于最大子概念受限Web数据库抽取 EdaliwdbFCA算法对所述本地数据库进行分析，产生下一组查询属性值，以便再次对所述受限Web数据库进行查询；
当所述查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设阈值时，所述抽取装置结束数据的抽取。

2.  根据权利要求1所述的受限Web数据库的数据抽取方法，其特征在于，所述抽取装置解析查询反馈的网页页面之前，所述方法还包括：
判断预设时间内是否接收到反馈查询的网页页面；
若在预设时间内未反馈查询的网页页面，所述抽取装置再次将所述查询请求发送给所述受限Web数据库。

3.  根据权利要求1所述的受限Web数据库的数据抽取方法，其特征在于，所述抽取装置根据所述查询数据更新本地数据库中的数据，包括：
所述抽取装置比较抽取出的查询数据和所述本地数据库中的数据；
所述抽取装置将不同于所述本地数据库中的数据的查询数据添加到所述本地数据库中。

4.  根据权利要求1所述的受限Web数据库的数据抽取方法，其特征在于，所述抽取装置根据所述属性值生成查询请求，包括：
所述抽取装置将单值属性转化为所述Web数据库查询接口能识别的多值属性。

5.  一种受限Web数据库的数据抽取装置，其特征在于，所述抽取装置包括本地数据库，所述抽取装置还包括：
查询属性值获得单元，用于获得Web数据库查询接口中的一个属性值；
查询单元，用于根据所述属性值生成查询请求，将所述查询请求发送给所述受限Web数据库；
解析单元，用于解析查询反馈的网页页面，抽取出所述网页页面所包括的查询数据；
数据更新单元，用于根据所述查询数据更新本地数据库中的数据；
查询属性值生成单元，用于通过基于最大子概念受限Web数据库抽取EdaliwdbFCA算法对所述本地数据库进行分析，产生下一组查询属性值，以便再次对所述受限Web数据库进行查询；
查询结束单元，用于当所述查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设阈值时，结束数据的抽取。

6.  根据权利要求5所述的受限Web数据库的数据抽取装置，其特征在于，所述解析单元包括：
网页接收判断子单元，用于判断预设时间内是否接收到反馈查询的网页页面；
若在预设时间内未反馈查询的网页页面，所述查询单元再次将所述查询请求发送给所述受限Web数据库。

7.  根据权利要求5所述的受限Web数据库的数据抽取装置，其特征在于，所述数据更新单元包括：
比较子单元，用于比较所述解析单元抽取出的查询数据和所述本地数据库中的数据；
数据添加子单元，用于将不同于所述本地数据库中的数据的抽取出的查询数据添加到所述本地数据库中。

8.  根据权利要求5所述的受限Web数据库的数据抽取装置，其特征在于，所述查询单元包括：
属性转化子单元，用于将单值属性转化为所述Web数据库查询接口能识别的多值属性。

说明书

说明书受限Web数据库的数据抽取方法及装置
技术领域
本发明涉及计算机技术领域，具体而言，涉及一种受限Web数据库的数据抽取方法及装置。
背景技术
无论是出于技术原因还是应用需求，若Web数据库的查询返回结果被限制在一定范围内，即使用属性组对Web数据库进行查询，仅仅k个对象能够被程序自动获得，那么具有这样特点的Web数据库为受限Web数据库。Web网页分为浅网和深网，浅网是由超链接连接起来的静态网页，据统计，深网资源的规模是静态页面资源的 500倍左右，同时拥有更好的数据质量，而深网中最重要的资源就是Web数据库。如何抽取受限Web数据库中的数据，且抽取出质量较高的数据一直是被广泛研究的课题。
发明内容
有鉴于此，本发明的目的在于提供一种受限Web数据库的数据抽取方法及装置，能够实现从受限Web数据库中提取出质量较高的数据。
本发明是这样实现的：
第一方面，本发明实施例提供了一种受限Web数据库的数据抽取方法，应用于受限Web数据库的数据抽取装置，所述抽取装置包括本地数据库，所述方法包括：
所述抽取装置获得Web数据库查询接口中的一个属性值；
所述抽取装置根据所述属性值生成查询请求，将所述查询请求发送给所述受限Web数据库；
所述抽取装置解析查询反馈的网页页面，抽取出所述网页页面所包括的查询数据；
所述抽取装置根据所述查询数据更新本地数据库中的数据；
所述抽取装置通过基于最大子概念受限Web数据库抽取 (Extract data from Limited Web Database based on Formal Concept Analysis，EdaliwdbFCA)算法对所述本地数据库进行分析，产生下一组查询属性值，以便再次对所述受限Web数据库进行查询；
当所述查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设阈值时，所述抽取装置结束数据的抽取。
结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中所述抽取装置解析查询反馈的网页页面之前，所述方法还包括：
判断预设时间内是否接收到反馈查询的网页页面；
若在预设时间内未反馈查询的网页页面，所述抽取装置再次将所述查询请求发送给所述受限Web数据库。
该抽取方法面对的是一个复杂多变的互联网，任何突发事件均可能引起抽取过程中查询失败的现象。因此，每一次查询都需要被管理和维护，失败的查询能够被发现，并且可以重新进行查询，这样能使得该抽取方法具有更好的鲁棒性，能够保证抽取工作的顺利进行。
结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中所述抽取装置根据所述查询数据更新本地数据库中的数据，包括：
所述抽取装置比较抽取出的查询数据和所述本地数据库中的数据；
所述抽取装置将不同于所述本地数据库中的数据的查询数据添加到所述本地数据库中。
抽取数据是将受限web数据库中的数据按照一定的规则抽取到本地数据库中，让受限web数据库中的数据能够被利用。若本地数据库中已经存在抽取出的数据，则不需要再添加进本地数据库中。
结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中所述抽取装置根据所述属性值生成查询请求，包括：
所述抽取装置将单值属性转化为所述Web数据库查询接口能识别的多值属性。
第二方面，本发明实施例还提供了一种受限Web数据库的数据抽取装置，所述抽取装置包括本地数据库，所述抽取装置还包括：
查询属性值获得单元，用于获得Web数据库查询接口中的一个属性值；
查询单元，用于根据所述属性值生成查询请求，将所述查询请求发送给所述受限Web数据库；
解析单元，用于解析查询反馈的网页页面，抽取出所述网页页面所包括的查询数据；
数据更新单元，用于根据所述查询数据更新本地数据库中的数据；
查询属性值生成单元，用于通过基于最大子概念受限Web数据库抽取EdaliwdbFCA算法对所述本地数据库进行分析，产生下一组查询属性值，以便再次对所述受限Web数据库进行查询；
查询结束单元，用于当所述查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设阈值时，结束数据的抽取。
结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中所述解析单元包括：
网页接收判断子单元，用于判断预设时间内是否接收到反馈查询的网页页面；
若在预设时间内未反馈查询的网页页面，所述查询单元再次将所述查询请求发送给所述受限Web数据库。
该抽取装置应用在复杂多变的互联网中，任何突发事件均能引起抽取过程中查询失败的现象。因此，每一次查询都需要被管理和维护，失败的查询能够被发现，并且可以重新进行查询，这样能使得该抽取装置具有更好的鲁棒性，能够保证抽取工作的顺利进行。
结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中所述数据更新单元包括：
比较子单元，用于比较所述解析单元抽取出的查询数据和所述本地数据库中的数据；
数据添加子单元，用于将不同于所述本地数据库中的数据的抽取出的查询数据添加到所述本地数据库中。
抽取数据是将受限web数据库中的数据按照一定的规则抽取到本地数据库中，让受限web数据库中的数据能够被利用。若本地数据库中已经存在抽取出的数据，则不需要再添加进本地数据库中。
结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中所述查询单元包括：
属性转化子单元，用于将单值属性转化为所述Web数据库查询接口能识别的多值属性。
本发明实施例提供一种受限Web数据库的数据抽取方法及装置，通过结合形式概念分析方法对基于属性值查询接口的受限Web 数据库的数据抽取，实现在受限Web数据库中抽取出质量较高的数据，并且具有稳定性好、效率快的特点。
为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种受限Web数据库的数据抽取方法；
图2示出了本发明实施例提供的另一种受限Web数据库的数据抽取方法；
图3示出了本发明实施例提供的一种受限Web数据库的数据抽取装置；
图4示出了本发明实施例提供的另一种受限Web数据库的数据抽取装置。
图中标记：本地数据库301，查询属性值获得单元302，查询单元303，受限Web数据库304，解析单元305，数据更新单元306，查询属性值生成单元307，查询结束单元308，网页接收判断子单元 309，比较子单元310，数据添加子单元311，属性转化子单元312。
具体实施方式
下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
Web数据的获取主要通过对网页信息抽取获得。Web网页分为浅网和深网。浅网是由超链接连接起来的静态网页，其内容可以被当前的通用搜索引擎(谷歌、百度等)直接索引和检索。深网是指那些根据用户请求由Web服务器动态产生的Web页面。其中可访问的在线数据库(这里简称为Web数据库或WDB)，例如中国知网、万方数据、卓越亚马逊等等，它们是重要的深网组成部分。Web数据库的内容存储在真正的后台数据库中，且大部分不能被当前的通用搜索引擎所索引。深网Web页面内容只有在被查询时，才会根据用户的查询请求，由Web服务器动态生成，并且把结果返回给访问者。
本发明实施例提供的受限Web数据库的数据抽取方法及装置通过建立全局形式背景和本地形式背景所对应的概念格之间的映射关系，进而进行细致的形式化分析。然后提出并采用只构造当前查询概念下覆盖为查询概念搜索空间的方法，避免了下半概念格的构造。并给出相应的构造理论和剪枝规则，进一步减少基于形式概念分析(formal concept analysis，FCA)的受限Web数据库的数据抽取过程中查询选择的复杂度。
其中，形式背景为一个三元组K＝(O，A，I)，其中O是对象(实体)集合，A是描述符(属性)集合，I是O与A之间的一个二元关系，即 I &SubsetEqual; O × A . ]]>
形式概念为二元组c＝(X，Y)，其中满足X'＝Y 和X＝Y'，则c被称为是形式背景K的一个形式概念，其中X和Y 分别被称为概念c的外延和内涵。形式背景K所产生的所有形式概念的集合表示为CK。
概念格(Formal Concept Lattice)，又称之为伽罗瓦格(Galois Lattice)，对于形式背景K所产生的所有概念集合CK，以及CK上的偏序关系所导出的有序集LK＝(CK，≤)，称之为形式背景K的概念格。概念格中的每个节点都是一个形式概念。
由概念c的所有直接父概念/直接子概念组成的集合称为概念c 的上/下覆盖。
Web数据库的数据抽取过程可以模型化为SQL语言中的Select 查询。使用形式概念分析该过程可以被形式化为函数Q。这样使用属性集合进行查询，属性Y的查询结果可以表示为Q(Y)。在线Web数据可以被看成全局形式背景，表示为KG＝(OG，AG，RG)；而抽取到本地的数据组成本地形式背景，表示为KL＝(OL，AL，RL)，其中AL＝AG，RL＝RG。这样全局形式背景产生的所有概念及它们形成的概念格分别表示为CG和LG。相应地，本地形式背景 KL所形成的所有概念及它们形成的概念格表示为CL和LL。
函数CL→CG：
其中(X，Y)∈LL，内涵Y在全局形式背景上的伽罗瓦格操作表示为YG'和YG”。
Full概念，如果c∈LL，并且则概念c被称为Full概念。
对于一个形式背景K＝(O，A，I)，如果存在某个对象a，其拥有的属性集为Y，而整个形式背景中拥有属性集Y的对象个数>Δ，即并且满足||a″||>△，则对象a称之为形式背景K在受限阈值 Δ下的不可区分对象。
参阅图1，一种受限Web数据库的数据抽取方法，应用于受限 Web数据库的数据抽取装置，抽取装置包括本地数据库，方法包括：
S101：抽取装置获得Web数据库查询接口中的一个属性值。
S102：抽取装置根据属性值生成查询请求，将查询请求发送给受限Web数据库。
S103：抽取装置解析查询反馈的网页页面，抽取出网页页面所包括的查询数据。
S104：抽取装置根据查询数据更新本地数据库中的数据。
S105：抽取装置通过基于EdaliwdbFCA算法对本地数据库进行分析，产生下一组查询属性值，以便再次对受限Web数据库进行查询。
S106：当查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设阈值时，抽取装置结束数据的抽取。
抽取装置面对的是复杂多变的互联网，而任何突发事件均能引起抽取过程的中断。参阅图2，本发明实施例提供了另一种受限Web 数据库的数据抽取方法，该方法具有鲁棒性。方法包括：
S201：抽取装置获得Web数据库查询接口中的一个属性值。
S202：抽取装置根据属性值生成查询请求，将查询请求发送给受限Web数据库。其中，当需要发出查询请求时，抽取装置将单值属性转化为所述Web数据库查询接口能识别的多值属性，以实现查询。
本实施例通过Xml文件描述这种转化关系，通过修改接口文件即可满足接口更新的需求，而不需要对源代码重新编译。以下列出了部分新浪手机查询接口的标尺映射XML文件。
File：SinaMobileProScale.xml
<？xml version＝"1.0"encoding＝"UTF-8"standalone＝"no"？>
<！--sina mobile select web deep database，scale definition-->
<！--DOCTYPE scale-set SYSTEM"scale.dtd"-->
<！DOCTYPE scale-set[
<！ELEMENT scale-set(scale+)>
<！ELEMENT scale(attribute-list，object+)>
<！ATTLIST scale name CDATA#REQUIRED>
<！ATTLIST scale type CDATA"rating">
<！ATTLIST scale id CDATA#IMPLIED>
<！ELEMENT attribute-list(#PCDATA)>
<！ELEMENT object(#PCDATA)>
<！ATTLIST object name CDATA#REQUIRED>
<！ATTLIST object id CDATA#IMPLIED>
]>
<scale-set>
<scale name＝"mobile_jiage1"id＝"0">
<attribute-list></attribute-list>
<object name＝"0-499"id＝"0"></object>
<object name＝"500-999"id＝"1"></object>
<object name＝"1000-1499"id＝"2"></object>
<object name＝"1500-1999"id＝"3"></object>
<object name＝"2000-2999"id＝"4"></object>
<object name＝"3000-1000000"id＝"5"></object>
</scale>
<scale name＝"mobile_face"id＝"2">
<attribute-list></attribute-list>
<object name＝"直板"id＝"12"></object>
<object name＝"上翻盖，下翻盖"id＝"13"></object>
<object name＝"滑盖"id＝"14"></object>
<object name＝"旋转，旋影"id＝"15"></object>
<object name＝"其它"id＝"16"></object>
</scale>
…
</scale-set>
S203：判断预设时间内是否接收到反馈查询的网页页面；若在预设时间内未反馈查询的网页页面，所述抽取装置再次将所述查询请求发送给所述受限Web数据库。
在预设时间内反馈查询的网页页面后，执行
S204：抽取装置解析查询反馈的网页页面，抽取出网页页面所包括的查询数据。
S205：抽取装置比较抽取出的查询数据和本地数据库中的数据。
若不同，则执行S206：抽取装置将不同于本地数据库中的数据的查询数据添加到本地数据库中。
S207：抽取装置通过基于EdaliwdbFCA算法对本地数据库进行分析，产生下一组查询属性值，以便再次对受限Web数据库进行查询。
S208：当查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设阈值时，抽取装置结束数据的抽取。
本发明实施例公开的受限web数据库的数据抽取方法，通过选择单属性概念作为初始查询概念，如果当前候选查询概念不是一个 Full概念，则意味着返回结果数量过多，并且大于受限阈值Δ，因此不能被显示在同一个Web页面内，进而不能被抽取得到。根据当前已抽取得到的本地形式背景，构造该概念c的下覆盖Covl(c)，直到选择到外延势小于或者等于受限阈值的概念作为实际查询概念。在整个Web数据库的抽取过程中，发送查询概念内涵Y作为查询属性集，通过对受限情况下其返回结果的抽取更新本地形式背景。整个查询过程中，使用剪枝规则来减少查询概念数量，提高算法抽取效率。
参阅图3，本发实施例提供了一种受限Web数据库的数据抽取装置，抽取装置包括本地数据库301，抽取装置还包括：
查询属性值获得单元302，用于获得Web数据库查询接口中的一个属性值。
查询单元303，用于根据属性值生成查询请求，将查询请求发送给受限Web数据库304。
其中，查询单元303包括属性转化子单元312，用于将单值属性转化为Web数据库查询接口能识别的多值属性。
解析单元305，用于解析查询反馈的网页页面，抽取出网页页面所包括的查询数据。
数据更新单元306，用于根据查询数据更新本地数据库301中的数据。
查询属性值生成单元307，用于通过基于EdaliwdbFCA算法对本地数据库301进行分析，产生下一组查询属性值，以便再次对受限Web数据库304进行查询。
查询结束单元308，用于当查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设阈值时，结束数据的抽取。
根据上述装置，可以将受限Web数据库304中的目标数据抽取到本地数据库301中，实现对深网资源的搜索。为了使受限Web数据库304的数据抽取装置具有更好的鲁棒性，更好地抽取受限Web 数据库304中的数据，参阅图4，本发明实施例提供另一种受限Web 数据库304的数据抽取装置，包括本地数据库301，抽取装置还包括：
查询属性值获得单元302，用于获得Web数据库查询接口中的一个属性值。
查询单元303，用于根据属性值生成查询请求，将查询请求发送给受限Web数据库304。
解析单元305，用于解析查询反馈的网页页面，抽取出网页页面所包括的查询数据。
其中，解析单元305包括网页接收判断子单元309，用于判断预设时间内是否接收到反馈查询的网页页面。若在预设时间内未反馈查询的网页页面，查询单元303再次将查询请求发送给受限Web 数据库304。
数据更新单元306，用于根据查询数据更新本地数据库301中的数据。
其中，数据更新单元306包括：比较子单元310和数据添加子单元311。
比较子单元310，用于比较解析单元305抽取出的查询数据和本地数据库301中的数据；
数据添加子单元311，用于将不同于本地数据库301中的数据的抽取出的查询数据添加到本地数据库301中。
查询属性值生成单元307，用于通过基于EdaliwdbFCA算法对本地数据库301进行分析，产生下一组查询属性值，以便再次对受限Web数据库304进行查询。
查询结束单元308，用于当查询数据的条数等于查询后反馈的网页页面每页显示的数据条数的预设阈值时，结束数据的抽取。
为了使本发明实施例提供的抽取装置具有良好的扩展性，即可以用于不同的数据源(不同的Web数据库或者模拟Web数据库) 的抽取工作，将EdaliwdbFCA被封装在ExtractStrategy类中。该抽取装置将待抽取数据源抽象为形式背景，故使用DBContext类描述形式背景，并且聚合封装抽取器抽象类DataExtractor。同时，算法 EdaliwdbFCA所需要的伽罗瓦联系运算也被封装在DBContext类中。抽取装置需要发出的查询操作则由抽象类DataExtractor中的 SendQuery抽象函数的具体实体完成。SendQuery函数需要根据具体的数据源的查询接口，将查询概念转化为符合接口规范的多值属性，并发出查询请求。抽取得到的数据需要放入本地数据库301，故抽象类DataExtractor包含数据库模块DBModule对象。类 SinaMobileExtractor和DBDataExtractor是抽象类DataExtractor的具体实现，应对不同的抽取任务。而这些抽取任务由于数据源的不同，具体的抽取过程，以及Web查询接口也不同。XExtractor表示任意抽象类DataExtractor的具体实现，从而说明属性选择算法独立于具体的抽取过程。故若需添加新的抽取任务，则添加相应的抽象类 DataExtractor的实现即可。DBDataExtractor类是从模拟Web数据库中抽取数据，故包含DBModule对象。
以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。