分组式数据查找抓取算法.pdf

上传人:b*** 文档编号:4442912 上传时间:2018-10-02 格式:PDF 页数:6 大小:735.05KB
返回 下载 相关 举报
分组式数据查找抓取算法.pdf_第1页
第1页 / 共6页
分组式数据查找抓取算法.pdf_第2页
第2页 / 共6页
分组式数据查找抓取算法.pdf_第3页
第3页 / 共6页
点击查看更多>>
资源描述

《分组式数据查找抓取算法.pdf》由会员分享,可在线阅读,更多相关《分组式数据查找抓取算法.pdf(6页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 104021225 A (43)申请公布日 2014.09.03 C N 1 0 4 0 2 1 2 2 5 A (21)申请号 201410290983.7 (22)申请日 2014.06.25 G06F 17/30(2006.01) (71)申请人郑州向心力通信技术股份有限公司 地址 450000 河南省郑州市高新区翠竹街1 号32号楼1单元01号501室 (72)发明人李伟 张雨 (74)专利代理机构北京汇信合知识产权代理有 限公司 11335 代理人王咏雯 (54) 发明名称 分组式数据查找抓取算法 (57) 摘要 本发明涉及一种分组式数据查找抓取算法, 属于。

2、数据查找领域。所述方法包括制作数据查找 模板,准备需要进行查找的数据源,从数据源的第 一行开始提取与模板相同行数的数据,依次提取, 循环从数据源中查找模板中需要查找的内容直至 最后一行。利用本发明所述算法,可以将很多需要 人为参与分析查找的数据实现自动化处理查找, 只需要定义好相关的模板。最终可以减少相应的 人力成本,同时提高数据查找工作效率。 (51)Int.Cl. 权利要求书1页 说明书3页 附图1页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书3页 附图1页 (10)申请公布号 CN 104021225 A CN 104021225 A 1/1页 2。

3、 1.一种分组式数据查找抓取算法,其特征在于,包括以下步骤: 步骤一:根据查找条件,制作数据查找模板; 所述模板保留所述查找条件中定量数据的位置,所述查找条件的变量数据位置空出; 步骤二:准备需要进行查找的数据源; 步骤三:判断所述数据源中数据的行数是否大于等于所述模板中数据的行数,若否,则 执行步骤十一;若是,执行步骤四; 步骤四:从所述数据源的第一行开始提取与所述模板相同行数的数据; 步骤五:在与所述模板中对应的各行数据中查找符合所述查找条件的数据; 步骤六:判断从提取到的数据中是否可以查找到所有与所述模板对应的数据;若否, 执行步骤七;若是,执行步骤九; 步骤七:从所述数据源的上次提取数。

4、据的开始位置的下一行开始,重新提取与模板相 同行数的数据; 步骤八:循环从所述数据源中查找所述模板中需要查找的数据直至最后一行; 步骤九:从上次提取数据的后行再取出一组和所述模板相同行数的数据; 步骤十:循环从所述数据源中查找所述模板中需要查找的数据直至最后一行; 步骤十一:查找结束。 权 利 要 求 书CN 104021225 A 1/3页 3 分组式数据查找抓取算法 技术领域 0001 本发明涉及一种分组式数据查找抓取算法,属于数据查找领域。 背景技术 0002 目前我们在进行各种数据查找时,通常是通过一个或多个关键字来逐个进行查 找,不能同时根据多个条件进行查找,且同时一次也只能查找到一。

5、个关键字。如果同时需要 一次按两个或多个条件查找多个数据时,则只能由专门人员参与经人工分析后才可以查找 到对应的数据信息。 发明内容 0003 本发明的目的在于提供一种分组式数据查找抓取算法,所述算法的运用,可以解 决数据信息查找中,同时根据多个条件,查找出多个指定的值。 0004 本发明是通过以下技术方案实现的: 0005 一种分组式数据查找抓取算法,包括以下步骤: 0006 步骤一:根据查找条件,制作数据查找模板; 0007 所述模板保留所述查找条件中定量数据的位置,所述查找条件的变量数据位置空 出; 0008 步骤二:准备需要进行查找的数据源; 0009 步骤三:判断所述数据源中数据的行。

6、数是否大于等于所述模板中数据的行数,若 否,则执行步骤十一;若是,执行步骤四; 0010 步骤四:从所述数据源的第一行开始提取与所述模板相同行数的数据; 0011 步骤五:在与所述模板中对应的各行数据中查找符合所述查找条件的数据; 0012 步骤六:判断从提取到的数据中是否可以查找到所有与所述模板对应的数据;若 否,执行步骤七;若是,执行步骤九; 0013 步骤七:从所述数据源的上次提取数据的开始位置的下一行开始,重新提取与模 板相同行数的数据; 0014 步骤八:循环从所述数据源中查找所述模板中需要查找的数据直至最后一行; 0015 步骤九:从上次提取数据的后行再取出一组和所述模板相同行数的。

7、数据; 0016 步骤十:循环从所述数据源中查找所述模板中需要查找的数据直至最后一行; 0017 步骤十一:查找结束。 0018 本发明的有益效果为: 0019 所述算法是将数据按行分组,以每组的总行数据,及数据所处的行数为依据,精确 定位到所有查找的数据。以此方法在数据信息中循环查找,直至到数据结尾,重点解决一些 复杂的数据查找抓取情况。 0020 利用本发明所述算法,可以将很多需要人为参与分析查找的数据实现自动化处理 查找,只需要定义好相关的模板。最终可以减少相应的人力成本,同时提高数据查找工作效 说 明 书CN 104021225 A 2/3页 4 率。 附图说明 0021 图1为本发明。

8、所述算法的流程示意图。 具体实施方式 0022 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。 0023 一种分组式数据查找抓取算法,包括以下步骤: 0024 步骤一:根据查找条件,制作数据查找模板; 0025 所述模板保留所述查找条件中定量数据的位置,所述查找条件的变量数据位置空 出; 0026 所述数据查找模板示例如下: 0027 第一行:台式机资产情况一: 0028 第二。

9、行:资产编号:(获取此处多个非空字符)使用人:(获取此处多个非空字符) 0029 第三行:借出人:(获取此处多个非空字符)价值:(获取此处多个数值字符)元 0030 步骤二:准备需要进行查找的数据源; 0031 数据源样例如下: 0032 台式机资产情况一: 0033 资产编号:台式机一 使用人:张文 0034 借出人:王风价值:1000元 0035 台式机资产情况二: 0036 资产编号:台式机二 使用人:张风 0037 借出人:王古 价值:10000元 0038 台式机资产情况三: 0039 资产编号:台式机三 使用人:张心 0040 借出人:王叶 价值:880元 0041 步骤三:判断所。

10、述数据源中数据的行数是否大于等于所述模板中数据的行数,若 否,则查找结束;若是,执行步骤四; 0042 步骤四:从所述数据源的第一行开始提取与所述模板相同行数的数据; 0043 说明:模板中有三行数据,从数据源中取前三行如下: 0044 台式机资产情况一: 0045 资产编号:台式机一 使用人:张文 0046 借出人:王风 价值:1000元 0047 步骤五:在与所述模板中对应的各行数据中查找符合所述查找条件的数据; 0048 说明:依据模板,在提取的前三行数据在进行查找,结果如下: 0049 第一个结果为:台式机一 第二个结果为:张文 说 明 书CN 104021225 A 3/3页 5 0。

11、050 第三个结果为:王风 第四个结果为:1000 0051 步骤六:判断从提取到的数据中是否可以查找到所有与所述模板对应的数据;若 否,执行步骤七;若是,执行步骤九; 0052 说明:模板中标记有四处数据需要查找,均查到结果,则跳过步骤七、步骤八,执行 步骤九;其中, 0053 步骤七为从所述数据源的上次提取数据的开始位置的下一行开始,重新提取与模 板相同行数的数据; 0054 步骤八为循环从所述数据源中查找所述模板中需要查找的数据直至最后一行; 0055 步骤九:从上次提取数据的后行再取出一组和所述模板相同行数的数据; 0056 说明:从数据源中提取接着上次结束位置,继续向下取三行如下: 。

12、0057 台式机资产情况二: 0058 资产编号:台式机二 使用人:张风 0059 借出人:王古 价值:10000元 0060 步骤十:循环从所述数据源中查找所述模板中需要查找的数据直至最后一行; 0061 步骤十一:查到所有结果如下: 0062 台式机一张文王风1000 台式机二张风王古10000 台式机三张心王叶880 0063 查找结束。 0064 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保 护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本 发明的保护范围之内。 说 明 书CN 104021225 A 1/1页 6 图1 说 明 书 附 图CN 104021225 A 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1