《基于知识库的深网数据高效更新方法.pdf》由会员分享,可在线阅读,更多相关《基于知识库的深网数据高效更新方法.pdf(5页珍藏版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910656532.3 (22)申请日 2019.07.19 (71)申请人 北京海致星图科技有限公司 地址 100089 北京市海淀区学院路甲5号2 幢平房B-1031室 (72)发明人 张军 (74)专利代理机构 深圳大域知识产权代理有限 公司 44479 代理人 孟庆茹 (51)Int.Cl. G06F 16/958(2019.01) (54)发明名称 一种基于知识库的深网数据高效更新方法 (57)摘要 本发明公开了一种基于知识库的深网数据 高效更新方法, 包括以下步。
2、骤: 利用互联网已经 公示的信息, 建立线索数据源信息知识库、 利用 人工或技术手段构建线索排序规则库、 对线索数 据源信息知识库内的线索网站进行周期性采集, 得出实体可能变更的线索、 基于线索排序规则库 给定的排序规则, 对 实体变更线索 进行排序, 将优先级高的 实体变更线索 进行优先采集; 本 发明方法通过基于优先级高的变更线索, 对采集 对象进行优先更新, 通过本发明的深网数据高效 更新优化策略, 可以保证深网增量变动数据能够 快速被获取, 基于线索进行更新的策略, 能够以 尽量小的代价获取增量更新数据, 能够提供用户 较新的深网数据, 从而可以保证已采集数据的整 体可用性高。 权利要。
3、求书1页 说明书3页 CN 110390066 A 2019.10.29 CN 110390066 A 1.一种基于知识库的深网数据高效更新方法, 其特征在于, 包括以下步骤: 步骤一: 利用互联网已经公示的信息, 建立线索数据源信息知识库; 步骤二: 利用人工或技术手段构建线索排序规则库, 其中, 人工手段包括给定数据源权 重和给定不同级别事件权重, 技术手段包括实体抽取、 权重计算、 时间信息抽取和时效性判 断; 步骤三: 基于线索数据源信息知识库, 对线索数据源信息知识库内的线索网站进行周 期性采集, 然后对采集到的网页内容进行技术分析, 得出实体可能变更的线索; 步骤四: 基于线索排序。
4、规则库给定的排序规则, 对 实体变更线索 进行排序, 然后根据 排序结果, 将优先级高的 实体变更线索 进行优先采集。 2.根据权利要求1所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤一中互联网已经公示的信息的来源渠道具有权威性和非权威性, 利用互联网已经公示 的信息建立线索数据源信息知识库时, 优先选择来源渠道具有权威性的互联网已公示信 息。 3.根据权利要求2所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤一中来源渠道具有权威性的互联网已公示信息的判定标准为: 互联网信息发布方具有 来源可靠性和严肃程度高的特点。 4.根据权利要求1所述的一种基。
5、于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤三中过程为: 基于线索数据源信息知识库, 对线索数据源信息知识库内的线索网站进 行周期性采集, 获取大量的互联网信息, 然后对采集到的内容采用XPath或NLP技术进行解 析和抽取, 将网页内容中的实体可能变更的线索分析出来。 5.根据权利要求4所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤三中对采集到的基础数据内的网页内容采用XPath或NLP技术进行处理时, 需要考虑线 索数据源信息知识库内网页内容的采集周期和发布周期, 选择采集周期和发布周期属于近 期的网页内容进行分析。 6.根据权利要求1所述的一种基于知。
6、识库的深网数据高效更新方法, 其特征在于: 所述 步骤三中的实体可能变更的线索为包括发生时间、 发生事件和实体名称的信息。 7.根据权利要求1所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤四中对 实体变更线索 进行排序时, 采用NLP技术进行抽取网页内容的关键词, 识别关 键词的属性信息, 通过评分算法对属性信息进行计算, 得到关键词的重要程度评分值, 将评 分值高的线索优先使用。 8.根据权利要求7所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤四中评分算法的具体方式为查表法, 事先设定好不同关键词的得分值, 形成一张映射 表, 使用时通过直接查。
7、询表映射表, 获得重要程度评分值。 9.根据权利要求7所述的一种基于知识库的深网数据高效更新方法, 其特征在于: 所述 步骤四中采用评分算法时, 可根据不同业务场景进行算法调整。 权利要求书 1/1 页 2 CN 110390066 A 2 一种基于知识库的深网数据高效更新方法 技术领域 0001 本发明涉及互联网数据采集技术领域, 尤其涉及一种基于知识库的深网数据高效 更新方法。 背景技术 0002 在当前的大数据时代, 网络上的海量资源让使用者应接不暇, 大量分散的价值不 一的信息遍布网络, 为了获取大量高价值的数据, 普遍会采用网络爬虫技术进行规模性采 集。 深网的概念是相对于表层网定义。
8、的, 指那些不能被普通搜索引擎直接获取内容的网站, 而深网网站通常主要通过内部搜索的方式提供服务, 常见的如工商总局企业信用信息网、 最高法院裁判文书网等。 0003 由于深网网站的数据量通常较大, 且用户众多, 所以通常服务器访问压力较大或 者说有较大的访问瓶颈, 常规采用遍历的信息搜索方式会浪费大量的系统资源, 使得信息 获取的时间过长, 效率低下, 且通常深网网站只能进行(或者主要基于)搜索的特性, 在数据 源访问瓶颈的强约束下, 无法实现传统网络爬虫的暴力全量更新, 无法实现数据的最大化 采集效果, 因此, 本发明提出一种基于知识库的深网数据高效更新方法, 以解决现有技术中 的不足之处。
9、。 发明内容 0004 针对上述问题, 本发明提出一种基于知识库的深网数据高效更新方法, 本发明方 法通过基于优先级高的变更线索, 对采集对象进行优先更新, 通过本发明的深网数据高效 更新优化策略, 可以保证深网增量变动数据能够快速被获取, 基于线索进行更新的策略, 能 够以尽量小的代价获取增量更新数据, 能够提供用户较新的深网数据, 从而可以保证已采 集数据的整体可用性高。 0005 本发明提出一种基于知识库的深网数据高效更新方法, 包括以下步骤: 0006 步骤一: 利用互联网已经公示的信息, 建立线索数据源信息知识库; 0007 步骤二: 利用人工或技术手段构建线索排序规则库, 其中, 。
10、人工手段包括给定数据 源权重和给定不同级别事件权重, 技术手段包括实体抽取、 权重计算、 时间信息抽取和时效 性判断; 0008 步骤三: 基于线索数据源信息知识库, 对线索数据源信息知识库内的线索网站进 行周期性采集, 然后对采集到的网页内容进行技术分析, 得出实体可能变更的线索; 0009 步骤四: 基于线索排序规则库给定的排序规则, 对 实体变更线索 进行排序, 然后 根据排序结果, 将优先级高的 实体变更线索 进行优先采集。 0010 进一步改进在于: 所述步骤一中互联网已经公示的信息的来源渠道具有权威性和 非权威性, 利用互联网已经公示的信息建立线索数据源信息知识库时, 优先选择来源。
11、渠道 具有权威性的互联网已公示信息。 0011 进一步改进在于: 所述步骤一中来源渠道具有权威性的互联网已公示信息的判定 说明书 1/3 页 3 CN 110390066 A 3 标准为: 互联网信息发布方具有来源可靠性和严肃程度高的特点。 0012 进一步改进在于: 所述步骤三中过程为: 基于线索数据源信息知识库, 对线索数据 源信息知识库内的线索网站进行周期性采集, 获取大量的基础数据, 然后对采集到的基础 数据内的网页内容采用XPath或NLP技术进行分析, 将网页内容中的实体可能变更的线索分 析出来。 0013 进一步改进在于: 所述步骤三中对采集到的基础数据内的网页内容采用XPath。
12、或 NLP技术进行分析时, 需要考虑线索数据源信息知识库内网页内容的采集周期和发布周期, 选择采集周期和发布周期属于近期的网页内容进行分析。 0014 进一步改进在于: 所述步骤三中的实体可能变更的线索为包括发生时间、 发生事 件和实体名称的信息。 0015 进一步改进在于: 所述步骤四中对 实体变更线索 进行排序时, 采用NLP技术进行 抽取网页内容的关键词, 识别关键词的属性信息, 通过评分算法对属性信息进行计算, 得到 关键词的重要程度评分值, 将评分值高的线索优先使用。 0016 进一步改进在于: 所述步骤四中评分算法的具体方式为查表法, 事先设定好不同 关键词的得分值, 形成一张映射。
13、表, 使用时通过直接查询表映射表, 获得重要程度评分值。 0017 进一步改进在于: 所述步骤四中采用评分算法时, 可根据不同业务场景进行算法 调整。 0018 本发明的有益效果为: 本发明方法基于优先级高的变更线索, 对采集对象进行优 先更新, 通过本发明的深网数据高效更新优化策略, 可以保证深网增量变动数据能够快速 被获取, 基于线索进行更新的策略, 能够以尽量小的代价获取增量更新数据, 能够提供用户 较新的深网数据, 从而可以保证已采集数据的整体可用性高。 具体实施方式 0019 为了加深对本发明的理解, 下面将结合实施例对本发明做进一步详述, 本实施例 仅用于解释本发明, 并不构成对本。
14、发明保护范围的限定。 0020 以工商局网站为例, 其公示的信息包括营业执照信息、 分支机构信息、 清算信息、 变更信息、 股权出质登记信息、 知识产权出质登记信息、 司法协助信息、 股权变更信息、 行政 许可信息、 行政处罚、 和失信信息; 0021 实施例: 0022 一种基于知识库的深网数据高效更新方法, 包括以下步骤: 0023 步骤一: 利用互联网已经公示的信息, 建立线索数据源信息知识库, 互联网已经公 示的信息的来源渠道具有权威性和非权威性, 利用互联网已经公示的信息建立线索数据源 信息知识库时, 优先选择来源渠道具有权威性的互联网已公示信息, 来源渠道具有权威性 的互联网已公示。
15、信息的判定标准为: 互联网信息发布方具有来源可靠性和严肃程度高的特 点; 0024 步骤二: 利用人工或技术手段构建线索排序规则库, 其中, 人工手段包括给定数据 源权重和给定不同级别事件权重, 技术手段包括实体抽取、 权重计算、 时间信息抽取和时效 性判断; 0025 步骤三: 基于线索数据源信息知识库, 对线索数据源信息知识库内的线索网站进 说明书 2/3 页 4 CN 110390066 A 4 行周期性采集, 获取大量的基础数据, 然后对采集到的基础数据内的网页内容采用XPath或 NLP等技术进行解析和抽取分析, 将网页内容中的实体可能变更的线索分析出来, 得到实体 可能变更的线索,。
16、 实体可能变更的线索为包括发生时间、 发生事件和实体名称的信息, 对采 集到的基础数据内的网页内容采用XPath或NLP等技术进行解析和抽取时, 需要考虑线索数 据源信息知识库内网页内容的采集周期和发布周期, 选择采集周期和发布周期属于近期的 网页内容进行分析; 0026 步骤四: 基于线索排序规则库给定的排序规则, 对 实体变更线索 进行排序, 采用 NLP技术进行抽取网页内容的关键词, 识别关键词的属性信息, 通过评分算法对属性信息进 行计算, 得到关键词的重要程度评分值, 评分算法具体方式为查表法, 事先设定好不同关键 词的得分值, 形成一张映射表, 使用时通过直接查询表映射表, 获得重。
17、要程度评分值, 将评 分值高的线索优先使用, 然后根据排序结果, 将优先级高的 实体变更线索 进行优先采集, 采用评分算法时, 可根据不同业务场景进行算法调整。 0027 本发明方法基于优先级高的变更线索, 对采集对象进行优先更新, 通过本发明的 深网数据高效更新优化策略, 可以保证深网增量变动数据能够快速被获取, 基于线索进行 更新的策略, 能够以尽量小的代价获取增量更新数据, 能够提供用户较新的深网数据, 从而 可以保证已采集数据的整体可用性高。 0028 以上显示和描述了本发明的基本原理、 主要特征和优点。 本行业的技术人员应该 了解, 本发明不受上述实施例的限制, 上述实施例和说明书中描述的只是说明本发明的原 理, 在不脱离本发明精神和范围的前提下, 本发明还会有各种变化和改进, 这些变化和改进 都落入要求保护的本发明范围内。 本发明要求保护范围由所附的权利要求书及其等效物界 定。 说明书 3/3 页 5 CN 110390066 A 5 。