《一种深度网络数据自动抽取方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种深度网络数据自动抽取方法及系统.pdf(6页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104317845 A(43)申请公布日 2015.01.28CN104317845A(21)申请号 201410537825.7(22)申请日 2014.10.13G06F 17/30(2006.01)(71)申请人安徽华贞信息科技有限公司地址 230000 安徽省合肥市高新区黄山路602号国家大学科技园A502(72)发明人贾岩(74)专利代理机构合肥市长远专利代理事务所(普通合伙) 34119代理人程笃庆 黄乐瑜(54) 发明名称一种深度网络数据自动抽取方法及系统(57) 摘要本发明公开了一种深度网络数据自动抽取方法及系统,该方法包括以下步骤:进行行业相关数据探。
2、测和抓取;进行WEB页面解析和语义摘要提取;进行Deep Web数据自动抽取。本发明中,在没有损失行业数据收录量的情况下,极大地节约带宽和数据检索量,并提高了数据入库周期,提高实时度。(51)Int.Cl.权利要求书1页 说明书3页 附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书3页 附图1页(10)申请公布号 CN 104317845 ACN 104317845 A1/1页21.一种深度网络数据自动抽取方法,其特征在于,包括以下步骤:进行行业相关数据探测和抓取;进行WEB页面解析和语义摘要提取;进行Deep Web数据自动抽取。2.根据权利要求1所述的。
3、深度网络数据自动抽取方法,其特征在于,所述进行行业相关数据探测和抓取,具体为定点采集,通过用户配置采集已知的数据源。3.根据权利要求1所述的深度网络数据自动抽取方法,其特征在于,所述进行行业相关数据探测和抓取,具体为采用web行业信息探针,通过URL统一资源定位符链路、搜索引擎跳板,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL结构,form表格对深度网络进行挖掘,以找潜在数据源。4.根据权利要求1所述的深度网络数据自动抽取方法,其特征在于,所述进行WEB页面解析和语义摘要提取,具体为利用HTML规范和基于视觉页面分块技术,提取页面的元信息和。
4、正文文本。5.根据权利要求1所述的深度网络数据自动抽取方法,其特征在于,所述进行行业相关数据探测和抓取,具体包括:采用网络探针技术,不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式;找到表单格式之后,自动提交表单,比较获取网页;分析前后获取页面DOM树,抽取出DOM树中节点内容不同的节点,获取需要采集的数据。6.根据权利要求5所述的深度网络数据自动抽取方法,其特征在于,提取到正确的数据后,通知管理员配置数据格式,完成Deep Web站点发现和采集。7.一种深度网络数据自动抽取系统,其特征在于,包括:获取模块,用于进行行业相关数据探测和抓取;解析及提取模块,与。
5、所述获取模块连接,用于进行WEB页面解析和语义摘要提取;自动抽取模块,与所述解析及提取模块连接,用于进行Deep Web数据自动抽取。8.根据权利要求7所述的深度网络数据自动抽取系统,其特征在于,所述获取模块,具体用于采用web行业信息探针,通过URL统一资源定位符链路、搜索引擎跳板,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL结构,form表格对深度网络进行挖掘,以找潜在数据源。9.根据权利要求7所述的深度网络数据自动抽取系统,其特征在于,所述解析及提取模块,具体用于采用web行业信息探针,通过URL统一资源定位符链路、搜索引擎跳板,找备。
6、选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL结构,form表格对深度网络进行挖掘,以找潜在数据源。10.根据权利要求7所述的深度网络数据自动抽取系统,其特征在于,所述自动抽取模块,具体用于采用网络探针技术,不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式。找到表单格式之后,自动提交表单,比较获取网页;分析前后获取页面DOM树,抽取出DOM树中节点内容不同的节点,这就是需要采集的数据。权 利 要 求 书CN 104317845 A1/3页3一种深度网络数据自动抽取方法及系统技术领域0001 本发明涉及数据网络技。
7、术领域,尤其涉及一种深度网络数据自动抽取方法及系统。背景技术0002 随着信息化程度不断加深,企业对情报信息化集成的渴求也日益强烈;互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息,成为重要的情报信息源头。目前提供信息定制搜索与情报分析相关产品的公司为数不多,且产品对用户本身的基础信息设施要求高,实施周期长,系统建设和维护成本高,主要客户是超大型企业和政府,普通企业无力承受。发明内容0003 为了解决背景技术中存在的技术问题,本发明提出了一种深度网络数据自动抽取方法及系统,极大降低了系统对企业信息设施的要求,使其能在千差万别的企业基础信息设施上部署。0004 本发明提出的一种深度网络数据。
8、自动抽取方法,包括以下步骤:0005 进行行业相关数据探测和抓取;0006 进行WEB页面解析和语义摘要提取;0007 进行Deep Web数据自动抽取。0008 优选地,所述进行行业相关数据探测和抓取,具体为定点采集,通过用户配置采集已知的数据源。0009 优选地,所述进行行业相关数据探测和抓取,具体为采用web行业信息探针,通过URL统一资源定位符链路、搜索引擎跳板,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL结构,form表格对深度网络进行挖掘,以找潜在数据源。0010 优选地,所述进行WEB页面解析和语义摘要提取,具体为利用HTML。
9、规范和基于视觉页面分块技术,提取页面的元信息和正文文本。0011 优选地,所述进行行业相关数据探测和抓取,具体包括:0012 采用网络探针技术,不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式。找到表单格式之后,自动提交表单,比较获取网页;0013 分析前后获取页面DOM树,抽取出DOM树中节点内容不同的节点,这就是需要采集的数据。0014 优选地,提取到正确的数据后,通知管理员配置数据格式,完成Deep Web站点发现和采集。0015 本发提出的一种深度网络数据自动抽取系统,包括:0016 获取模块,用于进行行业相关数据探测和抓取;说 明 书CN 1043。
10、17845 A2/3页40017 解析及提取模块,与所述获取模块连接,用于进行WEB页面解析和语义摘要提取;0018 自动抽取模块,与所述解析及提取模块连接,用于进行Deep Web数据自动抽取。0019 优选地,所述获取模块,具体用于采用web行业信息探针,通过URL统一资源定位符链路、搜索引擎跳板,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL结构,form表格对深度网络进行挖掘,以找潜在数据源。0020 优选地,所述解析及提取模块,具体用于采用web行业信息探针,通过URL统一资源定位符链路、搜索引擎跳板,找备选网站,然后验证网站或者子。
11、站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL结构,form表格对深度网络进行挖掘,以找潜在数据源。0021 优选地,所述自动抽取模块,具体用于采用网络探针技术,不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式。找到表单格式之后,自动提交表单,比较获取网页;分析前后获取页面DOM树,抽取出DOM树中节点内容不同的节点,这就是需要采集的数据。0022 本发明中,在没有损失行业数据收录量的情况下,极大地节约带宽和数据检索量,并提高了数据入库周期,提高实时度。附图说明0023 图1为本发明实施例提出的一种深度网络数据自动抽取方法流程图;002。
12、4 图2为本发明实施例提出的一种深度网络数据自动抽取系统结构图。具体实施方式0025 如图1所示,本发明实施例提出了一种深度网络数据自动抽取方法及系统,包括以下步骤:0026 步骤101,进行行业相关数据探测和抓取。由于本发明是企业用定制搜索,一方面企业信息化方面基础千差万别,而且资源都相对有限,另一方面,也只需要行业相关信息,无需对整个互联网编录。所以本发明通过两种途径进行行业相关数据探测和抓取:一是定点采集,通过用户配置采集已知的数据源;另一方面采用web行业信息探针,利用行业本体,通过URL(Uniform Resource Locator,统一资源定位符)链路、搜索引擎跳板等手段,找备。
13、选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL结构,form表格等对深度网络(deep web)进行挖掘,以找潜在数据源。URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,其包含的信息指出文件的位置以及浏览器应该怎么处理。其中,由于deep web很多是结构化良好的数据,便于分析,且往往在通用搜索引擎下无法搜索得到,对客户有巨大价值。0027 步骤102,进行WEB页面解析和语义摘要提取。Web页面解析即通过分析标签,解析HTML(HyperText Mark-u。
14、p Language,即超文本标记语言)页面,并提取出正文内容。本发明利用HTML规范和基于视觉页面分块技术,提取页面的元信息(如标题、关键字等)和正文文本,有效避免无关信息的干扰。除此之外本发明可以很好地支持其他常见数据格式,说 明 书CN 104317845 A3/3页5包括XML、PDF以及MS Ofce系列的数据格式。0028 其中,语义摘要问题在本发明中存在两种情况,一种情况是为了便于客户浏览信息而做的全文摘要;另一种是搜索结果的信息摘要。第一类是以尽量涵盖文档主要信息为出发点,第二类在第一点的前提下还要考虑用户搜索词的密度等问题。本发明中,利用语义分析技术,对篇章每句话作语义分析,。
15、标注动词性语义点、名词性语义点和语义倾向性,然后汇总成段落和整个篇章的语义侧重点,最后利用语义侧重点,结合篇章特点,以字数(如400字)为约束条件,来挑选尽可能涵盖全文语义的若干个“句组”组成全文摘要。搜索结果的文档摘要实现上不同之处在于增加搜索词(包括概念接近词)的密度这个约束条件。0029 步骤103,进行Deep Web数据自动抽取。Deep Web指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。而在实际中应用中,Deep Web中的内容价值更大,这部分内容对结构化数据的集成更有意义。本发明采用网络探针技术,不断探测一个站点网页,通过自动填充表单的方式,。
16、测试返回数据,从而找到最合适的表单格式。找到表单格式之后,自动提交表单,比较获取网页。在发明的实验中发现,同一站点的Deep web资源返回页面结构差别很小。利用此特点,分析前后获取页面DOM树,抽取出DOM树中节点内容不同的节点,这就是需要采集的数据。提取到正确的数据后,通知管理员配置数据格式,完成Deep Web站点发现和采集。0030 如图2所示,本发明实施例提出了一种深度网络数据自动抽取系统,包括:获取模块10,用于进行行业相关数据探测和抓取;解析及提取模块20,与所述获取模块10连接,用于进行WEB页面解析和语义摘要提取;自动抽取模块30,与所述解析及提取模块20连接,用于进行Dee。
17、p Web数据自动抽取。0031 所述获取模块,具体用于采用web行业信息探针,通过URL统一资源定位符链路、搜索引擎跳板,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL结构,form表格对深度网络进行挖掘,以找潜在数据源。0032 所述解析及提取模块,具体用于采用web行业信息探针,通过URL统一资源定位符链路、搜索引擎跳板,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL结构,form表格对深度网络进行挖掘,以找潜在数据源。0033 所述自动抽取模块,具体用于采用网络探针技术,不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式。找到表单格式之后,自动提交表单,比较获取网页;分析前后获取页面DOM树,抽取出DOM树中节点内容不同的节点,这就是需要采集的数据。0034 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。说 明 书CN 104317845 A1/1页6图1图2说 明 书 附 图CN 104317845 A。