ImageVerifierCode 换一换
格式:PDF , 页数:5 ,大小:239.20KB ,
资源ID:11133070      下载积分:30 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zhuanlichaxun.net/d-11133070.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于知识库的深网数据高效更新方法.pdf)为本站会员(zhu****69)主动上传,专利查询网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知专利查询网(发送邮件至2870692013@qq.com或直接QQ联系客服),我们立即给予删除!

基于知识库的深网数据高效更新方法.pdf

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910656532.3 (22)申请日 2019.07.19 (71)申请人 北京海致星图科技有限公司 地址 100089 北京市海淀区学院路甲5号2 幢平房B-1031室 (72)发明人 张军 (74)专利代理机构 深圳大域知识产权代理有限 公司 44479 代理人 孟庆茹 (51)Int.Cl. G06F 16/958(2019.01) (54)发明名称 一种基于知识库的深网数据高效更新方法 (57)摘要 本发明公开了一种基于知识库的深网数据 高效更新方法, 包括以下步

2、骤: 利用互联网已经 公示的信息, 建立线索数据源信息知识库、 利用 人工或技术手段构建线索排序规则库、 对线索数 据源信息知识库内的线索网站进行周期性采集, 得出实体可能变更的线索、 基于线索排序规则库 给定的排序规则, 对 实体变更线索 进行排序, 将优先级高的 实体变更线索 进行优先采集; 本 发明方法通过基于优先级高的变更线索, 对采集 对象进行优先更新, 通过本发明的深网数据高效 更新优化策略, 可以保证深网增量变动数据能够 快速被获取, 基于线索进行更新的策略, 能够以 尽量小的代价获取增量更新数据, 能够提供用户 较新的深网数据, 从而可以保证已采集数据的整 体可用性高。 权利要

3、求书1页 说明书3页 CN 110390066 A 2019.10.29 CN 110390066 A 1.一种基于知识库的深网数据高效更新方法, 其特征在于, 包括以下步骤: 步骤一: 利用互联网已经公示的信息, 建立线索数据源信息知识库; 步骤二: 利用人工或技术手段构建线索排序规则库, 其中, 人工手段包括给定数据源权 重和给定不同级别事件权重, 技术手段包括实体抽取、 权重计算、 时间信息抽取和时效性判 断; 步骤三: 基于线索数据源信息知识库, 对线索数据源信息知识库内的线索网站进行周 期性采集, 然后对采集到的网页内容进行技术分析, 得出实体可能变更的线索; 步骤四: 基于线索排序

4、规则库给定的排序规则, 对 实体变更线索 进行排序, 然后根据 排序结果, 将优先级高的 实体变更线索 进行优先采集。 2.根据权利要求1所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤一中互联网已经公示的信息的来源渠道具有权威性和非权威性, 利用互联网已经公示 的信息建立线索数据源信息知识库时, 优先选择来源渠道具有权威性的互联网已公示信 息。 3.根据权利要求2所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤一中来源渠道具有权威性的互联网已公示信息的判定标准为: 互联网信息发布方具有 来源可靠性和严肃程度高的特点。 4.根据权利要求1所述的一种基

5、于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤三中过程为: 基于线索数据源信息知识库, 对线索数据源信息知识库内的线索网站进 行周期性采集, 获取大量的互联网信息, 然后对采集到的内容采用XPath或NLP技术进行解 析和抽取, 将网页内容中的实体可能变更的线索分析出来。 5.根据权利要求4所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤三中对采集到的基础数据内的网页内容采用XPath或NLP技术进行处理时, 需要考虑线 索数据源信息知识库内网页内容的采集周期和发布周期, 选择采集周期和发布周期属于近 期的网页内容进行分析。 6.根据权利要求1所述的一种基于知

6、识库的深网数据高效更新方法, 其特征在于: 所述 步骤三中的实体可能变更的线索为包括发生时间、 发生事件和实体名称的信息。 7.根据权利要求1所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤四中对 实体变更线索 进行排序时, 采用NLP技术进行抽取网页内容的关键词, 识别关 键词的属性信息, 通过评分算法对属性信息进行计算, 得到关键词的重要程度评分值, 将评 分值高的线索优先使用。 8.根据权利要求7所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤四中评分算法的具体方式为查表法, 事先设定好不同关键词的得分值, 形成一张映射 表, 使用时通过直接查

7、询表映射表, 获得重要程度评分值。 9.根据权利要求7所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤四中采用评分算法时, 可根据不同业务场景进行算法调整。 权利要求书 1/1 页 2 CN 110390066 A 2 一种基于知识库的深网数据高效更新方法 技术领域 0001 本发明涉及互联网数据采集技术领域, 尤其涉及一种基于知识库的深网数据高效 更新方法。 背景技术 0002 在当前的大数据时代, 网络上的海量资源让使用者应接不暇, 大量分散的价值不 一的信息遍布网络, 为了获取大量高价值的数据, 普遍会采用网络爬虫技术进行规模性采 集。 深网的概念是相对于表层网定义

8、的, 指那些不能被普通搜索引擎直接获取内容的网站, 而深网网站通常主要通过内部搜索的方式提供服务, 常见的如工商总局企业信用信息网、 最高法院裁判文书网等。 0003 由于深网网站的数据量通常较大, 且用户众多, 所以通常服务器访问压力较大或 者说有较大的访问瓶颈, 常规采用遍历的信息搜索方式会浪费大量的系统资源, 使得信息 获取的时间过长, 效率低下, 且通常深网网站只能进行(或者主要基于)搜索的特性, 在数据 源访问瓶颈的强约束下, 无法实现传统网络爬虫的暴力全量更新, 无法实现数据的最大化 采集效果, 因此, 本发明提出一种基于知识库的深网数据高效更新方法, 以解决现有技术中 的不足之处

9、。 发明内容 0004 针对上述问题, 本发明提出一种基于知识库的深网数据高效更新方法, 本发明方 法通过基于优先级高的变更线索, 对采集对象进行优先更新, 通过本发明的深网数据高效 更新优化策略, 可以保证深网增量变动数据能够快速被获取, 基于线索进行更新的策略, 能 够以尽量小的代价获取增量更新数据, 能够提供用户较新的深网数据, 从而可以保证已采 集数据的整体可用性高。 0005 本发明提出一种基于知识库的深网数据高效更新方法, 包括以下步骤: 0006 步骤一: 利用互联网已经公示的信息, 建立线索数据源信息知识库; 0007 步骤二: 利用人工或技术手段构建线索排序规则库, 其中,

10、人工手段包括给定数据 源权重和给定不同级别事件权重, 技术手段包括实体抽取、 权重计算、 时间信息抽取和时效 性判断; 0008 步骤三: 基于线索数据源信息知识库, 对线索数据源信息知识库内的线索网站进 行周期性采集, 然后对采集到的网页内容进行技术分析, 得出实体可能变更的线索; 0009 步骤四: 基于线索排序规则库给定的排序规则, 对 实体变更线索 进行排序, 然后 根据排序结果, 将优先级高的 实体变更线索 进行优先采集。 0010 进一步改进在于: 所述步骤一中互联网已经公示的信息的来源渠道具有权威性和 非权威性, 利用互联网已经公示的信息建立线索数据源信息知识库时, 优先选择来源

11、渠道 具有权威性的互联网已公示信息。 0011 进一步改进在于: 所述步骤一中来源渠道具有权威性的互联网已公示信息的判定 说明书 1/3 页 3 CN 110390066 A 3 标准为: 互联网信息发布方具有来源可靠性和严肃程度高的特点。 0012 进一步改进在于: 所述步骤三中过程为: 基于线索数据源信息知识库, 对线索数据 源信息知识库内的线索网站进行周期性采集, 获取大量的基础数据, 然后对采集到的基础 数据内的网页内容采用XPath或NLP技术进行分析, 将网页内容中的实体可能变更的线索分 析出来。 0013 进一步改进在于: 所述步骤三中对采集到的基础数据内的网页内容采用XPath

12、或 NLP技术进行分析时, 需要考虑线索数据源信息知识库内网页内容的采集周期和发布周期, 选择采集周期和发布周期属于近期的网页内容进行分析。 0014 进一步改进在于: 所述步骤三中的实体可能变更的线索为包括发生时间、 发生事 件和实体名称的信息。 0015 进一步改进在于: 所述步骤四中对 实体变更线索 进行排序时, 采用NLP技术进行 抽取网页内容的关键词, 识别关键词的属性信息, 通过评分算法对属性信息进行计算, 得到 关键词的重要程度评分值, 将评分值高的线索优先使用。 0016 进一步改进在于: 所述步骤四中评分算法的具体方式为查表法, 事先设定好不同 关键词的得分值, 形成一张映射

13、表, 使用时通过直接查询表映射表, 获得重要程度评分值。 0017 进一步改进在于: 所述步骤四中采用评分算法时, 可根据不同业务场景进行算法 调整。 0018 本发明的有益效果为: 本发明方法基于优先级高的变更线索, 对采集对象进行优 先更新, 通过本发明的深网数据高效更新优化策略, 可以保证深网增量变动数据能够快速 被获取, 基于线索进行更新的策略, 能够以尽量小的代价获取增量更新数据, 能够提供用户 较新的深网数据, 从而可以保证已采集数据的整体可用性高。 具体实施方式 0019 为了加深对本发明的理解, 下面将结合实施例对本发明做进一步详述, 本实施例 仅用于解释本发明, 并不构成对本

14、发明保护范围的限定。 0020 以工商局网站为例, 其公示的信息包括营业执照信息、 分支机构信息、 清算信息、 变更信息、 股权出质登记信息、 知识产权出质登记信息、 司法协助信息、 股权变更信息、 行政 许可信息、 行政处罚、 和失信信息; 0021 实施例: 0022 一种基于知识库的深网数据高效更新方法, 包括以下步骤: 0023 步骤一: 利用互联网已经公示的信息, 建立线索数据源信息知识库, 互联网已经公 示的信息的来源渠道具有权威性和非权威性, 利用互联网已经公示的信息建立线索数据源 信息知识库时, 优先选择来源渠道具有权威性的互联网已公示信息, 来源渠道具有权威性 的互联网已公示

15、信息的判定标准为: 互联网信息发布方具有来源可靠性和严肃程度高的特 点; 0024 步骤二: 利用人工或技术手段构建线索排序规则库, 其中, 人工手段包括给定数据 源权重和给定不同级别事件权重, 技术手段包括实体抽取、 权重计算、 时间信息抽取和时效 性判断; 0025 步骤三: 基于线索数据源信息知识库, 对线索数据源信息知识库内的线索网站进 说明书 2/3 页 4 CN 110390066 A 4 行周期性采集, 获取大量的基础数据, 然后对采集到的基础数据内的网页内容采用XPath或 NLP等技术进行解析和抽取分析, 将网页内容中的实体可能变更的线索分析出来, 得到实体 可能变更的线索,

16、 实体可能变更的线索为包括发生时间、 发生事件和实体名称的信息, 对采 集到的基础数据内的网页内容采用XPath或NLP等技术进行解析和抽取时, 需要考虑线索数 据源信息知识库内网页内容的采集周期和发布周期, 选择采集周期和发布周期属于近期的 网页内容进行分析; 0026 步骤四: 基于线索排序规则库给定的排序规则, 对 实体变更线索 进行排序, 采用 NLP技术进行抽取网页内容的关键词, 识别关键词的属性信息, 通过评分算法对属性信息进 行计算, 得到关键词的重要程度评分值, 评分算法具体方式为查表法, 事先设定好不同关键 词的得分值, 形成一张映射表, 使用时通过直接查询表映射表, 获得重

17、要程度评分值, 将评 分值高的线索优先使用, 然后根据排序结果, 将优先级高的 实体变更线索 进行优先采集, 采用评分算法时, 可根据不同业务场景进行算法调整。 0027 本发明方法基于优先级高的变更线索, 对采集对象进行优先更新, 通过本发明的 深网数据高效更新优化策略, 可以保证深网增量变动数据能够快速被获取, 基于线索进行 更新的策略, 能够以尽量小的代价获取增量更新数据, 能够提供用户较新的深网数据, 从而 可以保证已采集数据的整体可用性高。 0028 以上显示和描述了本发明的基本原理、 主要特征和优点。 本行业的技术人员应该 了解, 本发明不受上述实施例的限制, 上述实施例和说明书中描述的只是说明本发明的原 理, 在不脱离本发明精神和范围的前提下, 本发明还会有各种变化和改进, 这些变化和改进 都落入要求保护的本发明范围内。 本发明要求保护范围由所附的权利要求书及其等效物界 定。 说明书 3/3 页 5 CN 110390066 A 5

copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1