页面检测方法及装置.pdf

上传人:n****g 文档编号:4029794 上传时间:2018-08-12 格式:PDF 页数:17 大小:1,002.57KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310528389.2

申请日:

2013.10.30

公开号:

CN104598458A

公开日:

2015.05.06

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20131030|||公开

IPC分类号:

G06F17/30; G06F11/00

主分类号:

G06F17/30

申请人:

腾讯科技(深圳)有限公司

发明人:

陆中振; 黄达文; 卓居超

地址:

518044广东省深圳市福田区振兴路赛格科技园2栋东403室

优先权:

专利代理机构:

深圳市世纪恒程知识产权代理事务所44287

代理人:

胡海国

PDF下载: PDF下载
内容摘要

本发明公开一种页面检测方法及装置,本发明实施例收集已在用户操作界面上显示的预设数量的网页所对应的网址,并对已收集的网址进行排重处理;对排重处理后的网址进行死链失效页检测,获取初步检测为死链失效页的网址;将初步检测为死链失效页的网址与预先建立的黑名单进行比对;若初步检测为死链失效页的网址命中所述黑名单中的站点,则判定命中所述黑名单中站点的网址为死链失效页;具有提高死链失效页检测准确性的有益效果,降低了对死链失效页检测的误判率。

权利要求书

权利要求书
1.  一种页面检测方法,其特征在于,包括以下步骤:
收集已在用户操作界面上显示的预设数量的网页所对应的网址,并对已 收集的网址进行排重处理;
对排重处理后的网址进行死链失效页检测,获取初步检测为死链失效页 的网址;
将初步检测为死链失效页的网址与预先建立的黑名单进行比对;
若初步检测为死链失效页的网址命中所述黑名单中的站点,则判定命中 所述黑名单中站点的网址为死链失效页。

2.  如权利要求1所述的方法,其特征在于,所述将初步检测为死链失效 页的网址与预先建立的黑名单进行比对,之后还包括:
若初步检测为死链失效页的网址没有命中所述黑名单中的站点,则将没 有命中所述黑名单中站点的网址与预先建立的被封名单进行比对;
若该网址命中所述被封名单中的站点,则对该网址进行打压。

3.  如权利要求1或2所述的方法,其特征在于,所述收集已在用户操作界 面上显示的预设数量的网页所对应的网址,包括:
查询各网页的下载时间;
根据不同站点各自对应的压力上限值,按照各网页下载时间的先后顺序 选取预设数量的网页所对应的网址。

4.  如权利要求2所述的方法,其特征在于,所述将初步检测为死链失效 页的网址与预先建立的黑名单进行比对,之前还包括:
建立所述黑名单与被封名单。

5.  如权利要求4所述的方法,其特征在于,所述建立所述黑名单与被封 名单,包括:
获取需判定是否为死链失效页的网址;
调用浏览器插件;
基于调用的所述浏览器插件,获取需判定是否为死链失效页的网址分别 对应的网页状态;
分析获取的各网址分别对应的网页状态,根据分析结果,由对应的网址 组建所述黑名单和被封名单。

6.  如权利要求5所述的方法,其特征在于,所述获取需判定是否为死链 失效页的网址,包括:
获取初步检测出的各网络站点分别对应的预设个数的死链失效页所对应 的网址。

7.  如权利要求4所述的方法,其特征在于,所述建立所述黑名单与被封 名单,之后还包括:
按照预设周期更新已建立的所述黑名单和被封名单。

8.  一种页面检测装置,其特征在于,包括:
数据收集模块,用于收集已在用户操作界面上显示的预设数量的网页所 对应的网址,并对已收集的网址进行排重处理;
页面初检模块,用于对排重处理后的网址进行死链失效页检测,获取初 步检测为死链失效页的网址;
页面判定模块,用于将初步检测为死链失效页的网址与预先建立的黑名 单进行比对;若初步检测为死链失效页的网址命中所述黑名单中的站点,则 判定命中所述黑名单中站点的网址为死链失效页。

9.  如权利要求8所述的装置,其特征在于,所述页面判定模块还用于:
若初步检测为死链失效页的网址没有命中所述黑名单中的站点,则将没 有命中所述黑名单中站点的网址与预先建立的被封名单进行比对;
若该网址命中所述被封名单中的站点,则对该网址进行打压。

10.  如权利要求8或9所述的装置,其特征在于,所述数据收集模块还用 于:
查询各网页的下载时间;
根据不同站点各自对应的压力上限值,按照各网页下载时间的先后顺序 选取预设数量的网页所对应的网址。

11.  如权利要求9所述的装置,其特征在于,还包括:
名单创建模块,用于建立所述黑名单与被封名单。

12.  如权利要求11所述的装置,其特征在于,所述名单创建模块还用于:
获取需判定是否为死链失效页的网址;
调用浏览器插件;
基于调用的所述浏览器插件,获取需判定是否为死链失效页的网址分别 对应的网页状态;
分析获取的各网址分别对应的网页状态,根据分析结果,由对应的网址 组建所述黑名单和被封名单。

13.  如权利要求12所述的装置,其特征在于,所述名单创建模块还用于:
获取初步检测出的各网络站点分别对应的预设个数的死链失效页所对应 的网址。

14.  如权利要求11所述的装置,其特征在于,还包括:
名单更新模块,用于按照预设周期更新已建立的所述黑名单和被封名单。

说明书

说明书页面检测方法及装置
技术领域
本发明涉及互联网技术,尤其涉及一种对死链失效页的页面检测方法及 装置。
背景技术
由于网络页面具有较强的时效性,因此在搜索引擎收录的大量网页中难 免会存在一定数量的死链失效页。目前,对死链失效页的检测方法主要是利 用一些检测工具对抓取的相应站点的网页链接进行检测;检测系统根据网页 链接的返回信息,并结合对网页内容的分析结果,识别检测的网页链接是否 为死链失效页。
这种方式针对单个或者极少量的网页链接的检测,准确性较高;但对于 大批量的网页,上述检测系统将面临较高的站点压力和站点封禁等问题,采 用上述检测方式得出的死链失效页的误判率很高。
发明内容
鉴于此,有必要提供一种针对死链失效页的页面检测方法及装置,以降 低对死链失效页检测的误判率。
本发明实施例公开了一种页面检测方法,包括以下步骤:
收集已在用户操作界面上显示的预设数量的网页所对应的网址,并对已 收集的网址进行排重处理;
对排重处理后的网址进行死链失效页检测,获取初步检测为死链失效页 的网址;
将初步检测为死链失效页的网址与预先建立的黑名单进行比对;
若初步检测为死链失效页的网址命中所述黑名单中的站点,则判定命中 所述黑名单中站点的网址为死链失效页。
本发明实施例还公开一种页面检测装置,包括:
数据收集模块,用于收集已在用户操作界面上显示的预设数量的网页所 对应的网址,并对已收集的网址进行排重处理;
页面初检模块,用于对排重处理后的网址进行死链失效页检测,获取初 步检测为死链失效页的网址;
页面判定模块,用于将初步检测为死链失效页的网址与预先建立的黑名 单进行比对;若初步检测为死链失效页的网址命中所述黑名单中的站点,则 判定命中所述黑名单中站点的网址为死链失效页。
本发明实施例收集已在用户操作界面上显示的预设数量的网页所对应的 网址,并对已收集的网址进行排重处理;对排重处理后的网址进行死链失效 页检测,获取初步检测为死链失效页的网址;将初步检测为死链失效页的网 址与预先建立的黑名单进行比对;若初步检测为死链失效页的网址命中所述 黑名单中的站点,则判定命中所述黑名单中站点的网址为死链失效页;与现 有技术中直接将系统检测出的死链失效页判定为真正的死链失效页的方法, 本发明实施例具有提高死链失效页检测准确性的有益效果,降低了对死链失 效页检测的误判率。
附图说明
图1是本发明页面检测方法第一实施例流程示意图;
图2是本发明页面检测方法中,收集进行页面检测的网址一实施例流程 示意图;
图3是本发明页面检测方法第二实施例流程示意图;
图4是本发明页面检测方法中,建立黑名单与被封名单一实施例流程示 意图;
图5是本发明页面检测装置第一实施例功能模块示意图;
图6是本发明页面检测装置第二实施例功能模块示意图;
图7是本发明页面检测装置第三实施例功能模块示意图。
本发明实施例目的的实现、功能特点及优点将结合实施例,参照附图做 进一步说明。
具体实施方式
以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当 理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明页面检测方法及装置的下述实施例中,所述死链失效页包括死链 页和失效页;死链页可以理解为,下载失败或者内容抽取失败的页面;比如, 服务器的地址已经改变了,网页请求时浏览器无法找到当前地址位置。失效 页可以理解为,色情、赌博等特殊页面,或者空白页等没有意义的页面。
图1是本发明页面检测方法第一实施例流程示意图;如图1所示,本发 明页面检测方法包括以下步骤:
步骤S01、收集已在用户操作界面上显示的预设数量的网页所对应的网 址,并对已收集的网址进行排重处理;
本实施例中,检测系统收集已经在用户操作界面上显示的网页所对应的 网址;由于不同的用户可能会发送对同一网页的请求,因此为了避免重复进 行无意义的检测分析工作,检测系统对收集的各网址进行排重处理,对于收 集到的多个相同网址,检测系统仅保留一个。
进一步地,本实施例中,考虑到用户的习惯及点击率高低的问题,通常 情况下,检测系统收集前端落地的前10条结果;比如,浏览器根据用户发送 的网络请求,显示该网络请求对应的搜索结果;检测系统收集浏览器显示的 前10条结果进行检测。
步骤S02、对排重处理后的网址进行死链失效页检测,获取初步检测为死 链失效页的网址;
检测系统按照预先设置的检测程序,对收集的排重处理后的网址进行死 链失效页的检测;比如,对上述排重处理后的网址进行页面下载、抽取、内 容分析等检测步骤,检测系统获取对上述各网址的检测结果。根据获取的检 测结果,检测系统获取初步检测到的死链失效页对应的网址。
步骤S03、将初步检测为死链失效页的网址与预先建立的黑名单进行比 对;
步骤S04、判定命中所述黑名单中站点的网址为死链失效页。
检测系统按照预先设置的检测程序,从收集的网页中初步检测出死链失 效页后,检测系统再将初步检测出的死链失效页与预先存储的黑名单进行比 对;若检测系统初步检测出的死链失效页中,存在命中已存储的黑名单中站 点的网址,则检测系统判定命中所述黑名单中站点的该网址为死链失效页; 此时,检测系统可以进一步地对判定为死链失效页的网址进行后续的处理, 比如,对判定为死链失效页的网址可立即推送屏蔽,甚至对其直接进行删除。 比如,www.qq.com在黑名单中,那么对于被初步检测为死链失效页的网址: http://www.qq.com/abc.html,则命中了黑名单中的站点www.qq.com,则该网 址将会被检测系统屏蔽和删除。
进一步地,本发明实施例中,若存在没有命中与所述黑名单中站点的网 址,则检测系统将没有命中所述黑名单中站点的网址再次与预先建立的被封 名单进行比对;若存在没有命中所述被封名单中站点的网址,则对于没有命 中被封名单中站点的网址,检测系统既不推送屏蔽、删除,也不对其进行打 压,即检测系统不其进行处理。对于没有命中黑名单中站点的网址且该网址 也没有命中所述被封名单中的站点,则对该网址进行打压。本实施例中,所 述的网页打压可以理解为,对该网页在前端即用户操作界面上的展示结果的 排列位置向后移。这样做的好处是,由于在检测系统的检测过程中,不可避 免地会出现对某些站点误判的情况,而误判的存在直接导致了“网页屏蔽” 和“索引删除”不能有效地实施。因为这“网页屏蔽”和“索引删除”两项 策略的使用条件都十分严厉,一旦出现大量误删,后果很严重,所以本发明 实施例提出了“网页打压”这一较为缓和的策略;由于在实际应用中,“网页 打压”只具有3天有效期,一旦过了打压周期,被打压的网址会重现,不会造 成严重后果。
本发明实施例收集已在用户操作界面上显示的预设数量的网页所对应的 网址,并对已收集的网址进行排重处理;对排重处理后的网址进行死链失效 页检测,获取初步检测为死链失效页的网址;将初步检测为死链失效页的网 址与预先建立的黑名单进行比对;若初步检测为死链失效页的网址命中所述 黑名单中的站点,则判定命中所述黑名单中站点的网址为死链失效页;与现 有技术中直接将系统检测出的死链失效页判定为真正的死链失效页的方法, 本发明实施例具有提高死链失效页检测准确率的有益效果,降低了对死链失 效页检测的误判率;进一步地,对于均未出现在黑名单和被封名单中的网址, 本发明实施例采取网页打压的方式进行处理,避免了因误判而导致对该网址 进行网页屏蔽和索引删除所引起的严重后果。
图2是本发明页面检测方法中,收集进行页面检测的网址一实施例流程示 意图;基于图1所述实施例的描述,如图2所示,本实施例中,检测系统收集 已在用户操作界面上显示的预设数量的网页所对应的网址,包括:
步骤S11、查询各网页的下载时间;
步骤S12、根据不同站点各自对应的压力上限值,按照各网页下载时间的 先后顺序选取预设数量的网页所对应的网址。
检测系统离线查询各网页的下载时间,并根据每个网页下载时间的先后 顺序,对各网页进行排序;根据不同站点各自对应的压力上限值,检测系统 按照各网页下载时间的先后顺序选取预设数量的网页所对应的网址。这是因 为,检测系统通过离线分析得出如下结果:一个网页若最近刚下载过,则它 为死链失效页的概率相对较低;而对于很久之前下载过的网页,则死链失效 的概率很高。比如,在一具体场景中,对于一组blog.sina.com.cn站点的实验数 据中,检测系统共检测了133923个网页,并检出8758个死链失效页,且这些 死链失效页全部集中在下载时间(crawl time)最小的8789个网页中;可以理 解为,检测系统检测下载时间最小的8789个网页和检测全部网页的效果是基 本一致的,即均能检测出所有的死链无效页。
这种处理方式对于设置压力上限值的站点的有益效果将尤为显著;站点 抓取压力即搜索引擎在单位时间内对一个网站服务器访问的频率和总次数, 站点压力上限值指的是网站一天内允许抓取的最大页面的数据量;而在实际 的应用中,每个站点都会设置该站点对应的压力上限值,超过该站点压力上 限值的抓取将会被丢弃。因此,采用本实施例查询各网页的下载时间,根据 不同站点各自对应的压力上限值,按照各网页下载时间的先后顺序选取预设 数量的网页所对应的网址;避免了因网页检测量超过对应的站点压力、使部 分网页直接被丢弃不予进行检测而导致的漏判,进一步提高了死链失效页的 检测准确率。
图3是本发明页面检测方法第二实施例流程示意图;本发明实施例与图1 所述实施例的区别是,增加了步骤S10、建立所述黑名单与被封名单;本实施 例仅对步骤S10进行描述,有关本发明页面检测方法所涉及的其他步骤,请 参照相关是实施例的具体描述,在此不再赘述。
本发明实施例中,所述步骤S10可以作为检测系统检测死链失效页的条 件之一,本实施例检测系统建立黑名单与被封名单可以单独进行,因此,只 要在使用该黑名单与被封名单之前,建立好对应的黑名单和被封名单即可。 因此,本实施例中,步骤S10可以在步骤S03之前的任何一个步骤执行均可。 图3所述实施例仅以步骤S10在步骤S01之前为例进行描述。
如图3所示,本发明页面检测方法还包括:
步骤S10、建立所述黑名单与被封名单。
本实施例中,检测系统可以根据经验值及历史检测记录来建立对应的黑 名单与被封名单;或者,采用其他策略来发现可屏蔽和删除的数据,进而构 建对应的黑名单和被封名单,比如连续3天该网址对应的网页均失效、针对 http(Hyper Text Transport Protocol,超文本传输协议)请求返回404页面等。
本实施例中,检测系统建立的黑名单与被封名单是站点级别的,比如, 检测系统将www.qq.com存储在黑名单中,作为黑名单中的其中一个站点,那 么对于网址http://www.qq.com/abc.html,若被检测系统检测为死链,则检测系 统将该网址与黑名单进行比对时,该网址将命中黑名单中的站点 www.qq.com,则该网址会被检测系统进行进一步处理,如检测系统对该网址 进行屏蔽和删除等;检测系统并不需要将网址http://www.qq.com/abc.html存 在黑名单中。同样的道理,检测系统建立被封名单也可以采取这种方式。
在另一优选的实施例中,检测系统建立黑名单与被封名单可以基于浏览 器来实现;因为通过浏览器可以便捷地判断出一个网址是否为死链失效页。 本实施例中,基于浏览器判断一个网址是否死链失效页请参照图4,图4是本 发明页面检测方法中,建立黑名单与被封名单一实施例流程示意图。
如图4所示,检测系统基于浏览器建立黑名单与被封名单包括:
步骤S21、获取需判定是否为死链失效页的网址;
检测系统获取需判定是否为死链失效页的网址,本实施例中,为了节约 检测程序,检测系统可以直接获取已初步检测为死链失效页的各网络站点分 别对应的的网址;进一步地,为了防止超出某站点的压力上限值,检测系统 仅选取预设个数的初步检测为死链失效页所对应的网址进行进一步检测,并 确定该网址对应的网页是否为死链失效页。
步骤S22、调用浏览器插件;
步骤S23、基于调用的所述浏览器插件,获取需判定是否为死链失效页的 网址分别对应的网页状态;
检测系统调用已编写的浏览器插件,此时该浏览器插件开始运行,向服 务器发送HTTP请求,抓取需判定是否为死链失效页的网址对应的网页;进一 步地,为了更明显地获取到该网址所对应的网页的状态,可以预设制作一个 前台界面,以显示检测的网址所对应的网页状态。浏览器插件从服务器获取 需检测的网址所对应的数据及该网址所对应的网页的状态,并将该状态传输 至服务器上。
步骤S24、分析获取的各网址分别对应的网页状态,根据分析结果,由对 应的网址组建所述黑名单和被封名单。
检测系统获取服务器上的存储的进行检测的网址和各网址对应的网页状 态,并分析已获取的网址和各网址对应的网页状态;若该网址对应的网页状 态已经失效,则将该网址添加至黑名单;若该网址对应的网页状态为有效的 网页状态,则将该网址添加至被封名单。
在一具体的应用场景中,检测系统调用已编写的chrome插件,检测系统 使用chrome插件的一个优势是,可以轻松地解决跨域访问的问题。
进一步地,本实施例中,由于检测系统获取检测网址所对应的网页状态 时,也存在因超出相应站点的压力上限值而被封的危险,为避免出现这一问 题,检测系统对于同一个站点的检测频率不能过于频繁。比如,在下述的具 体应用场景中,假设有20w个站点,则检测系统从每个站点随机抽选出100个 被检测系统初步检测为死链失效页;然后,检测系统对其进行100轮检测,每 轮检测20w个不同站点的网页。假设以20个/秒的网页检测速率,则检测系统 检测一轮需要3小时,即1个站点3小时内仅检测1次,基本不存在被封的可能。 检测系统收集到所需要的状态数据后,即可按照上述方式构建出对应的黑名 单和被封名单。
另外,由于网址及对应网页的时效性,检测系统按照预设周期更新已构 建的黑名单和被封名单;检测系统以根据具体情况进行不断地调整对应的更 新周期,比如根据死链失效页的检测准确率进行调整等;本实施例对系统设 置的更新周期的具体时间长度不做限定。
本发明实施例系统建立黑名单和被封名单,为提高检测系统对死链失效 页的检测准确率提供了必要的前提条件。
图5是本发明页面检测装置第一实施例功能模块示意图;如图5所示, 本发明页面检测装置包括:数据收集模块01、页面初检模块02和页面判定模 块03。
数据收集模块01,用于收集已在用户操作界面上显示的预设数量的网页 所对应的网址,并对已收集的网址进行排重处理;
本实施例中,数据收集模块01收集已经在用户操作界面上显示的网页所 对应的网址;由于不同的用户可能会发送对同一网页的请求,因此为了避免 重复进行无意义的检测分析工作,数据收集模块01对收集的各网址进行排重 处理,对于收集到的多个相同网址,检测系统仅保留一个。
进一步地,本实施例中,考虑到用户的习惯及点击率高低的问题,通常 情况下,数据收集模块01收集前端落地的前10条结果;比如,浏览器根据用 户发送的网络请求,显示该网络请求对应的搜索结果;数据收集模块01收集 浏览器显示的前10条结果进行检测。
页面初检模块02,用于对排重处理后的网址进行死链失效页检测,获取 初步检测为死链失效页的网址;
页面初检模块02按照预先设置的检测程序,对收集的排重处理后的网址 进行死链失效页的检测;比如,页面初检模块02对上述排重处理后的网址进 行页面下载、抽取、内容分析等检测步骤,获取上述各网址对应的检测结果。 根据检测结果,页面初检模块02获取初步检测到的死链失效页对应的网址。
页面判定模块03,用于将初步检测为死链失效页的网址与预先建立的黑 名单进行比对;若初步检测为死链失效页的网址命中所述黑名单中的站点, 则判定命中所述黑名单中站点的网址为死链失效页。
页面初检模块02按照预先设置的检测程序,从收集的网页中初步检测出 死链失效页后,页面判定模块03再将初步检测出的死链失效页与预先存储的 黑名单进行比对;若页面判定模块03初步检测出的死链失效页中,存在命中 已存储的黑名单中站点的网址,则页面判定模块03判定命中所述黑名单中站 点的该网址为死链失效页;此时,页面判定模块03可以进一步地对判定为死 链失效页的网址进行后续的处理,比如,对判定为死链失效页的网址可立即 推送屏蔽,甚至对其直接进行删除。比如,www.qq.com在黑名单中,那么对 于被初步检测为死链失效页的网址:http://www.qq.com/abc.html,则命中了黑 名单中的站点www.qq.com,则该网址将会被检测系统屏蔽和删除。
进一步地,本发明实施例中,若存在没有命中所述黑名单中站点的网址, 则页面判定模块03将没有命中所述黑名单中站点的网址再次与预先建立的被 封名单进行比对;若存在命中所述被封名单中站点的网址,则对于命中被封 名单中站点的网址,页面判定模块03既不推送屏蔽、删除,也不对其进行打 压,即检测系统不其进行处理。对于没有命中黑名单中站点的网址且该网址 也没有命中所述被封名单中的站点,页面判定模块03则对该网址进行打压。 本实施例中,所述的网页打压可以理解为,对该网页在前端即用户操作界面 上的展示结果的排列位置向后移。这样做的好处是,由于在页面检测装置的 检测过程中,不可避免地会出现对某些站点误判的情况,而误判的存在直接 导致了“网页屏蔽”和“索引删除”不能有效地实施。因为这“网页屏蔽” 和“索引删除”两项策略的使用条件都十分严厉,一旦出现大量误删,后果 很严重,所以本发明实施例提出了“网页打压”这一较为缓和的策略;由于 在实际应用中,“网页打压”只具有3天有效期,一旦过了打压周期,被打压 的网址会重现,不会造成严重后果。
本发明实施例收集已在用户操作界面上显示的预设数量的网页所对应的 网址,并对已收集的网址进行排重处理;对排重处理后的网址进行死链失效 页检测,获取初步检测为死链失效页的网址;将初步检测为死链失效页的网 址与预先建立的黑名单进行比对;若初步检测为死链失效页的网址命中所述 黑名单中的站点,则判定命中所述黑名单中站点的网址为死链失效页;与现 有技术中直接将系统检测出的死链失效页判定为真正的死链失效页的方法, 本发明实施例具有提高死链失效页检测准确率的有益效果,降低了对死链失 效页检测的误判率;进一步地,对于均未出现在黑名单和被封名单中的网址, 本发明实施例采取网页打压的方式进行处理,避免了因误判而导致对该网址 进行网页屏蔽和索引删除所引起的严重后果。
请继续参照图5,图5中数据集收集模块01收集已在用户操作界面上显示 的预设数量的网页所对应的网址,包括:
查询各网页的下载时间;根据不同站点各自对应的压力上限值,按照各 网页下载时间的先后顺序选取预设数量的网页所对应的网址。
数据集收集模块01离线查询各网页的下载时间,并根据每个网页下载时 间的先后顺序,对各网页进行排序;根据不同站点各自对应的压力上限值, 数据集收集模块01按照各网页下载时间的先后顺序选取预设数量的网页所对 应的网址。这是因为,数据集收集模块01通过离线分析得出如下结果:一个 网页若最近刚下载过,则它为死链失效页的概率相对较低;而对于很久之前 下载过的网页,则死链失效的概率很高。比如,在一具体场景中,对于一组 blog.sina.com.cn站点的实验数据中,页面初检模块02共检测了133923个网页, 并检出8758个死链失效页,且这些死链失效页全部集中在下载时间(crawl  time)最小的8789个网页中;可以理解为,页面初检模块02检测下载时间最小 的8789个网页和检测全部网页的效果是基本一致的,即均能检测出所有的死 链无效页。
这种处理方式对于设置压力上限值的站点的有益效果将尤为显著;站点 抓取压力即搜索引擎在单位时间内对一个网站服务器访问的频率和总次数, 站点压力上限值指的是网站一天内允许抓取的最大页面的数据量;而在实际 的应用中,每个站点都会设置该站点对应的压力上限值,超过该站点压力上 限值的抓取将会被丢弃。因此,采用本实施例查询各网页的下载时间,根据 不同站点各自对应的压力上限值,按照各网页下载时间的先后顺序选取预设 数量的网页所对应的网址;避免了因网页检测量超过对应的站点压力、使部 分网页直接被丢弃不予进行检测而导致的漏判,进一步提高了死链失效页的 检测准确率。
图6是本发明页面检测装置第二实施例功能模块示意图;本实施例与图5 所述实施例的区别是,增加了名单创建模块04;本实施例仅对名单创建模块 04进行描述,有关本发明页面检测装置所涉及的其他模块,请参照相关实施 例的具体描述,在此不再赘述。
如图6所示,本发明页面检测装置还包括:
名单创建模块04,用于建立所述黑名单与被封名单。
本实施例中,名单创建模块04可以根据经验值及历史检测记录来建立对 应的黑名单与被封名单;或者,名单创建模块04采用其他策略来发现可屏蔽 和删除的数据,进而构建对应的黑名单和被封名单,比如连续3天该网址对 应的网页均失效、针对http请求返回404页面等。
本实施例中,名单创建模块04建立的黑名单与被封名单是站点级别的, 比如,名单创建模块04将www.qq.com存储在黑名单中,作为黑名单中的其 中一个站点,那么对于网址http://www.qq.com/abc.html,若被页面初检模块 02检测为死链,则页面判定模块03将该网址与黑名单进行比对时,该网址将 命中黑名单中的站点www.qq.com,则该网址会被页面判定模块03进行进一 步处理,如页面判定模块03对该网址进行屏蔽和删除等;页面判定模块03 并不需要将网址http://www.qq.com/abc.html存在黑名单中。同样的道理,页 面判定模块03建立被封名单也可以采取这种方式。
在另一优选的实施例中,名单创建模块04建立黑名单与被封名单可以基 于浏览器来实现;因为通过浏览器可以便捷地判断出一个网址是否为死链失 效页。名单创建模块04基于浏览器建立黑名单与被封名单包括:
名单创建模块04获取需判定是否为死链失效页的网址,本实施例中,为 了节约检测程序,名单创建模块04可以直接获取已初步检测为死链失效页的 各网络站点分别对应的的网址;进一步地,为了防止超出某站点的压力上限 值,名单创建模块04仅选取预设个数的初步检测为死链失效页所对应的网址 进行进一步检测,并确定该网址对应的网页是否为死链失效页。
名单创建模块04调用已编写的浏览器插件,此时该浏览器插件开始运行, 向服务器发送HTTP请求,抓取需判定是否为死链失效页的网址对应的网页; 进一步地,为了更明显地获取到该网址所对应的网页的状态,名单创建模块 04可以预设制作一个前台界面,以显示检测的网址所对应的网页状态。浏览 器插件从服务器获取需检测的网址所对应的数据及该网址所对应的网页的状 态,并将该状态传输至服务器上。
名单创建模块04获取服务器上的存储的进行检测的网址和各网址对应的 网页状态,并分析已获取的网址和各网址对应的网页状态;若该网址对应的 网页状态已经失效,名单创建模块04则将该网址添加至黑名单;若该网址对 应的网页状态为有效的网页状态,名单创建模块04则将该网址添加至被封名 单。
在一具体的应用场景中,名单创建模块04调用已编写的chrome插件, 名单创建模块04使用chrome插件的一个优势是,可以轻松地解决跨域访问 的问题。
进一步地,本实施例中,由于名单创建模块04获取检测网址所对应的网 页状态时,也存在因超出相应站点的压力上限值而被封的危险,为避免出现 这一问题,名单创建模块04对于同一个站点的检测频率不能过于频繁。比如, 在下述的具体应用场景中,假设有20w个站点,则名单创建模块04从每个站点 随机抽选出100个被页面初检模块02初步检测为死链失效页;然后,页面初检 模块02对其进行100轮检测,每轮检测20w个不同站点的网页。假设以20个/秒 的网页检测速率,则页面初检模块02检测一轮需要3小时,即1个站点3小时内 仅检测1次,基本不存在被封的可能。名单创建模块04收集到所需要的状态数 据后,即可按照上述方式构建出对应的黑名单和被封名单。
图7是本发明页面检测装置第三实施例功能模块示意图,图7所示的页 面检测装置还包括名单更新模块05;所述名单更新模块05用于,按照预设周 期更新已建立的所述黑名单和被封名单。
由于网址及对应网页的时效性,名单更新模块05按照预设周期更新名单 创建模块04已构建的黑名单和被封名单;名单更新模块05可以根据具体情况 不断地调整对应的更新周期,比如根据死链失效页的检测准确率进行调整等; 本实施例对名单更新模块05更新周期的具体时间长度不做限定。
本发明实施例系统建立黑名单和被封名单,为提高检测系统对死链失效 页的检测准确率提供了必要的前提条件。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体 意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或 者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情 况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、 方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的 形式体现出来,该计算机软件产品存储在一个图5至图7所述的页面检测装 置的存储介质(如ROM/RAM、磁碟、光盘)中,该存储介质包括若干指令 用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备,或 者图5至图7所述的页面检测装置等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制其专利范围,凡是利 用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接运 用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

页面检测方法及装置.pdf_第1页
第1页 / 共17页
页面检测方法及装置.pdf_第2页
第2页 / 共17页
页面检测方法及装置.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《页面检测方法及装置.pdf》由会员分享,可在线阅读,更多相关《页面检测方法及装置.pdf(17页珍藏版)》请在专利查询网上搜索。

本发明公开一种页面检测方法及装置,本发明实施例收集已在用户操作界面上显示的预设数量的网页所对应的网址,并对已收集的网址进行排重处理;对排重处理后的网址进行死链失效页检测,获取初步检测为死链失效页的网址;将初步检测为死链失效页的网址与预先建立的黑名单进行比对;若初步检测为死链失效页的网址命中所述黑名单中的站点,则判定命中所述黑名单中站点的网址为死链失效页;具有提高死链失效页检测准确性的有益效果,降低。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1