《链接URL的失效检测方法和装置.pdf》由会员分享,可在线阅读,更多相关《链接URL的失效检测方法和装置.pdf(25页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104268289 A (43)申请公布日 2015.01.07 CN 104268289 A (21)申请号 201410564162.8 (22)申请日 2014.10.21 G06F 17/30(2006.01) G06Q 30/02(2012.01) (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街 25 号 (72)发明人 胡建波 何明杰 张兴强 王海潮 章梦 邱群业 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 王宝筠 (54) 发明名称 链接 URL 的失效检测方法和装置 (57) 摘要 本发。
2、明提供了一种链接 URL 的失效检测方法 及装置, 所述失效检测方法包括 : 步骤 A、 抓取显 示在所述显示平台上的符合特定要求的所有链接 URL ; 步骤 B、 提取每个链接 URL 中的核心要素 ; 步 骤 C、 从所述预设表中查找与提取到的每个链接 URL 中的核心要素相对应的实体 ; 步骤 D、 根据所 述预设表中记录的与提取到的核心要素相对应的 实体的生命周期状态判断提取的每个核心要素的 当前状态是否异常, 以检测该核心要素对应的链 接 URL 是否失效。该失效检测方法可以通过计算 机自动实现, 相较于现有技术中通过人工进行检 测的方法, 提高了检测效率, 同时也使检测效果的 误差。
3、大大减小。 (51)Int.Cl. 权利要求书 3 页 说明书 15 页 附图 6 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书15页 附图6页 (10)申请公布号 CN 104268289 A CN 104268289 A 1/3 页 2 1. 一种链接 URL 的失效检测方法, 所述链接 URL 显示在显示平台上, 每个所述链接 URL 至少包括一个核心要素, 所述核心要素包括参数名及参数值 ; 其特征在于, 所述显示平台上 设置有预设表, 所述预设表中记录有与每个核心要素相对应的实体的生命周期状态, 所述 失效检测方法包括 : 步骤 A、 抓取显。
4、示在所述显示平台上的符合特定要求的所有链接 URL ; 步骤 B、 提取每个链接 URL 中的核心要素 ; 步骤 C、 从所述预设表中查找与提取到的每个链接 URL 中的核心要素相对应的实体 ; 步骤 D、 根据所述预设表中记录的与提取到的核心要素相对应的实体的生命周期状态 判断提取的每个核心要素的当前状态是否异常, 以检测该核心要素对应的链接 URL 是否失 效。 2.根据权利要求1所的失效检测方法, 其特征在于, 所有各个所述链接URL具有统一的 数据结构格式, 所述预设表包括多个第一表格, 一个所述第一表格中记录有一个类别的各 个参数值对应的实体的生命周期状态 ; 每个所述类别中的所有各。
5、个链接 URL 具有相同的参 数名 ; 所述步骤 A 之后, 还包括 : 步骤 E、 根据每个链接 URL 中的参数名对所有各个链接 URL 进行分类, 将所有各个链接 URL 归属到相应的类别 ; 在每个类别中包含有各个核心要素的记录 ; 所述步骤 B 具体为 : 步骤 B 、 从每个所述类别中的每个记录提取参数值 ; 所述步骤 C 具体包括 : 步骤 C1、 从显示平台上查找与每个类别分别对应的第一表格 ; 步骤 C2、 从所述第一表格中查找与类别中的每个参数值相对应的主键值, 根据所述主 键值查找与所述主键值相对应的实体 ; 所述步骤 D 具体包括 : 步骤 D 、 根据类别对应的异常判。
6、断规则和所述第一表格中记录的每个实体的生命周期 状态判断类别中的每个参数值对应的每个记录的当前状态是否异常, 以检测该记录对应的 链接 URL 是否失效。 3. 根据权利要求 2 所述的失效检测方法, 其特征在于, 所述步骤 E 之后还包括 : 步骤 F、 当归属于同一个类别中的链接 URL 中有 N 个具有相同的参数值时, 从该类别中 移除 (N-1) 个具有该相同参数值的记录, 使得在类别中只保留一个该相同参数值对应的记 录, 其中, N 2, N 为整数。 执行所述步骤 F 的同时或之后还包括 : 步骤 G、 建立被移除的记录与其包含的参数值的映射关系, 以根据参数值能够找到包含 该参数。
7、值的所有链接 URL ; 所述步骤 D 之后, 还包括 : H、 当提取的某一类别下的某一个参数值对应的记录的当前状态异常时, 根据所述映射 关系查找包含该参数值的所有被移除的链接 URL。 4.根据权利要求1-3任一项所的失效检测方法, 其特征在于, 检测完链接URL是否失效 之后还包括 : 权 利 要 求 书 CN 104268289 A 2 2/3 页 3 步骤 I、 当提取到的某一参数名的某一个参数值的当前状态异常时, 对异常产生的原 因、 失效链接所处的模块位置以及提取时间进行分析和整理, 以得到异常分析结果 ; 步骤 J、 显示所述异常分析结果。 5. 根据权利要求 2 所述的失效。
8、检测方法, 其特征在于, 所述步骤 B 具体包括 : 确定链接 URL 的类别 ; 检验链接 URL 中是否存在与该类别相对应的参数名 : 如果是, 检验所述参数名是否位 于所述链接 URL 的参数域, 如果是, 提取参数值, 所述参数值以链接 URL 中的 “” 开始, 且 “” 之前为所述参数名 ; 校验所述参数值是否满足预设条件, 如果是, 记录该提取的参数值。 6. 根据权利要求 3 所述的失效检测方法, 其特征在于, 所述映射关系包括链接类别、 参 数名、 参数值以及链接 URL 的对应关系。 7.根据权利要求2所述的失效检测方法, 其特征在于, 当一个链接URL中包括多个参数 名时。
9、, 所述步骤 E 具体包括 : 根据该链接URL中的多个参数名将该链接URL分别归属到与其参数名相对应的多个类 别中。 8. 一种链接 URL 的失效检测装置, 所述链接 URL 显示在显示平台上, 每个所述链接 URL 至少包括一个核心要素, 所述核心要素包括参数名及参数值 ; 其特征在于, 所述显示平台上 设置有预设表, 所述预设表中记录有与每个核心要素相对应的实体的生命周期状态, 所述 失效检测装置包括 : 抓取单元, 用于抓取显示在所述显示平台上的符合特定要求的所有链接 URL ; 提取单元, 用于提取每个链接 URL 中的核心要素 ; 第一查找单元, 用于从所述预设表中查找与提取到的。
10、每个链接 URL 中的核心要素相对 应的实体 ; 判断单元, 用于根据所述预设表中记录的与提取到的核心要素相对应的实体的生命周 期状态判断提取的每个核心要素的当前状态是否异常, 以检测该核心要素对应的链接 URL 是否失效。 9.根据权利要求8所述的失效检测装置, 其特征在于, 所有各个所述链接URL具有统一 的数据结构格式, 所述预设表包括多个第一表格, 一个所述第一表格中记录有一个类别的 各个参数值对应的实体的生命周期状态 ; 每个所述类别中的所有各个链接 URL 具有相同的 参数名 ; 所述失效检测装置还包括 : 分类单元, 用于在接收到所述抓取单元抓取的链接URL后, 根据每个链接UR。
11、L中的参数 名对所有各个链接URL进行分类, 将所有各个链接URL归属到相应的类别 ; 在每个类别中包 含有各个核心要素的记录 ; 所述提取单元包括从每个所述类别中的每个记录中提取参数值的子单元 ; 所述第一查找单元具体包括 : 第一查找子单元, 用于从显示平台上查找与每个类别分别对应的第一表格 ; 第二查找子单元, 用于从所述第一表格中查找与类别中的每个参数值相对应的主键 值, 根据所述主键值查找与所述主键值相对应的实体 ; 权 利 要 求 书 CN 104268289 A 3 3/3 页 4 所述判断单元具体包括 : 判断子单元, 所述判断子单元用于根据类别对应的异常判断规则和所述第一表格。
12、中记 录的每个实体的生命周期状态判断类别中的每个参数值对应的每个记录的当前状态是否 异常, 以检测该记录对应的链接 URL 是否失效。 10. 根据权利要求 9 所述的失效检测装置, 其特征在于, 所述失效检测装置还包括 : 移 除单元, 用于当归属于同一个类别中的链接URL中有N个具有相同的参数值时, 从该类别中 移除 (N-1) 个具有该相同参数值的记录, 使得在类别中只保留一个该相同参数值对应的记 录, 其中, N 2, N 为整数。 11. 根据权利要求 9 所述的失效检测装置, 其特征在于, 还包括 : 建立映射关系单元, 用于在接收到所述移除单元移除记录的信号的同时或之后, 建立 。
13、被移除的记录与其包含的参数值的映射关系, 以根据参数值能够找到包含该参数值的所有 链接 URL ; 第二查找单元, 用于当所述判断子单元判断的提取的某一类别下的某一个参数值对应 的记录的当前状态异常时, 根据所述映射关系查找包含该参数值的所有被移除的链接 URL。 12. 根据权利要求 8 所述的失效检测装置, 其特征在于, 还包括 : 异常结果分析单元, 用于当提取到的某一参数名的某一个参数值对应的记录的当前状 态异常时, 对导致异常产生的原因、 失效链接所处的模块位置以及提取时间进行分析和整 理, 以得到异常分析结果。 13. 根据权利要求 12 所述的失效检测装置, 其特征在于, 还包括。
14、 : 显示单元, 用于显示所述异常分析结果。 权 利 要 求 书 CN 104268289 A 4 1/15 页 5 链接 URL 的失效检测方法和装置 技术领域 0001 本发明涉及互联网技术领域, 尤其涉及一种链接 URL 的失效检测方法和装置。 背景技术 0002 在互联网领域, 信息的发布者通常通过链接的方式将信息发布给浏览者。 例如, 在 电子商务领域, 商家通常通过向浏览者发布带有商品信息的链接来实现商品的展销。 0003 所谓链接也称超级链接, 超级链接是指从一个网页指向一个目标的连接关系, 而 在一个网页中用来超链接的对象, 可以是一段文本或者是一个图片。当浏览者单击已经链 接。
15、的文字或图片后, 链接目标将显示在浏览器上, 并且根据目标的类型来打开或运行。 0004 然而, 当链接中包含的信息发生异常后如信息过期或信息删除有可能导致浏览者 无法浏览该链接, 从而使得链接失效, 成为失效链接。 0005 目前, 在发布的链接中, 有相当一部分链接尤其是人工维护的链接, 其只通过人工 检测链接的状态。这种通过人工检测链接状态的方法, 效率较低且检测结果的误差较大。 发明内容 0006 有鉴于此, 本发明提供了一种链接 URL 的失效检测方法和装置, 以提高检测的效 率并减少检测误差。 0007 为了解决上述技术问题, 本发明采用了如下技术方案 : 0008 一种链接 UR。
16、L 的失效检测方法, 所述链接 URL 显示在显示平台上, 每个所述链接 URL 至少包括一个核心要素, 所述核心要素包括参数名及参数值 ; 所述显示平台上设置有 预设表, 所述预设表中记录有与每个核心要素相对应的实体的生命周期状态, 所述失效检 测方法包括 : 0009 步骤 A、 抓取显示在所述显示平台上的符合特定要求的所有链接 URL ; 0010 步骤 B、 提取每个链接 URL 中的核心要素 ; 0011 步骤 C、 从所述预设表中查找与提取到的每个链接 URL 中的核心要素相对应的实 体 ; 0012 步骤 D、 根据所述预设表中记录的与提取到的核心要素相对应的实体的生命周期 状态。
17、判断提取的每个核心要素的当前状态是否异常, 以检测该核心要素对应的链接 URL 是 否失效。 0013 可选地, 所有各个所述链接 URL 具有统一的数据结构格式, 所述预设表包括多个 第一表格, 一个所述第一表格中记录有一个类别的各个参数值对应的实体的生命周期状 态 ; 每个所述类别中的所有各个链接 URL 具有相同的参数名 ; 0014 所述步骤 A 之后, 还包括 : 0015 步骤 E、 根据每个链接 URL 中的参数名对所有各个链接 URL 进行分类, 将所有各个 链接 URL 归属到相应的类别 ; 在每个类别中包含有各个核心要素的记录 ; 0016 所述步骤 B 具体为 : 说 明。
18、 书 CN 104268289 A 5 2/15 页 6 0017 步骤 B 、 从每个所述类别中的每个记录提取参数值 ; 0018 所述步骤 C 具体包括 : 0019 步骤 C1、 从显示平台上查找与每个类别分别对应的第一表格 ; 0020 步骤 C2、 从所述第一表格中查找与类别中的每个参数值相对应的主键值, 根据所 述主键值查找与所述主键值相对应的实体 ; 0021 所述步骤 D 具体包括 : 0022 步骤 D 、 根据类别对应的异常判断规则和所述第一表格中记录的每个实体的生命 周期状态判断类别中的每个参数值对应的每个记录的当前状态是否异常, 以检测该记录对 应的链接 URL 是否失。
19、效。 0023 可选地, 所述步骤 E 之后还包括 : 0024 步骤 F、 当归属于同一个类别中的链接 URL 中有 N 个具有相同的参数值时, 从该类 别中移除 (N-1) 个具有该相同参数值的记录, 使得在类别中只保留一个该相同参数值对应 的记录, 其中, N 2, N 为整数。 0025 执行所述步骤 F 的同时或之后还包括 : 0026 步骤 G、 建立被移除的记录与其包含的参数值的映射关系, 以根据参数值能够找到 包含该参数值的所有链接 URL ; 0027 所述步骤 D 之后, 还包括 : 0028 H、 当提取的某一类别下的某一个参数值对应的记录的当前状态异常时, 根据所述 映。
20、射关系查找包含该参数值的所有被移除的链接 URL。 0029 可选地, 检测完链接 URL 是否失效之后还包括 : 0030 步骤 I、 当提取到的某一参数名的某一个参数值的当前状态异常时, 对异常产生的 原因、 失效链接所处的模块位置以及提取时间进行分析和整理, 以得到异常分析结果 ; 0031 步骤 J、 显示所述异常分析结果。 0032 可选地, 所述步骤 B 具体包括 : 0033 确定链接 URL 的类别 ; 0034 检验链接 URL 中是否存在与该类别相对应的参数名 : 如果是, 检验所述参数名是 否位于所述链接URL的参数域, 如果是, 提取参数值, 所述参数值以链接URL中的。
21、 “” 开始, 且 “” 之前为所述参数名 ; 0035 校验所述参数值是否满足预设条件, 如果是, 记录该提取的参数值。 0036 可选地, 所述映射关系包括链接类别、 参数名、 参数值以及链接 URL 的对应关系。 0037 可选地, 当一个链接 URL 中包括多个参数名时, 所述步骤 E 具体包括 : 0038 根据该链接URL中的多个参数名将该链接URL分别归属到与其参数名相对应的多 个类别中。 0039 一种链接 URL 的失效检测装置, 所述链接 URL 显示在显示平台上, 每个所述链接 URL 至少包括一个核心要素, 所述核心要素包括参数名及参数值 ; 所述显示平台上设置有 预设。
22、表, 所述预设表中记录有与每个核心要素相对应的实体的生命周期状态, 所述失效检 测装置包括 : 0040 抓取单元, 用于抓取显示在所述显示平台上的符合特定要求的所有链接 URL ; 0041 提取单元, 用于提取每个链接 URL 中的核心要素 ; 说 明 书 CN 104268289 A 6 3/15 页 7 0042 第一查找单元, 用于从所述预设表中查找与提取到的每个链接 URL 中的核心要素 相对应的实体 ; 0043 判断单元, 用于根据所述预设表中记录的与提取到的核心要素相对应的实体的生 命周期状态判断提取的每个核心要素的当前状态是否异常, 以检测该核心要素对应的链接 URL 是否。
23、失效。 0044 可选地, 所有各个所述链接 URL 具有统一的数据结构格式, 所述预设表包括多个 第一表格, 一个所述第一表格中记录有一个类别的各个参数值对应的实体的生命周期状 态 ; 每个所述类别中的所有各个链接 URL 具有相同的参数名 ; 0045 所述失效检测装置还包括 : 0046 分类单元, 用于在接收到所述抓取单元抓取的链接URL后, 根据每个链接URL中的 参数名对所有各个链接URL进行分类, 将所有各个链接URL归属到相应的类别 ; 在每个类别 中包含有各个核心要素的记录 ; 0047 所述提取单元包括从每个所述类别中的每个记录中提取参数值的子单元 ; 0048 所述第一查。
24、找单元具体包括 : 0049 第一查找子单元, 用于从显示平台上查找与每个类别分别对应的第一表格 ; 0050 第二查找子单元, 用于从所述第一表格中查找与类别中的每个参数值相对应的主 键值, 根据所述主键值查找与所述主键值相对应的实体 ; 0051 所述判断单元具体包括 : 0052 判断子单元, 所述判断子单元用于根据类别对应的异常判断规则和所述第一表格 中记录的每个实体的生命周期状态判断类别中的每个参数值对应的每个记录的当前状态 是否异常, 以检测该记录对应的链接 URL 是否失效。 0053 可选地, 所述失效检测装置还包括 : 移除单元, 用于当归属于同一个类别中的链接 URL 中有。
25、 N 个具有相同的参数值时, 从该类别中移除 (N-1) 个具有该相同参数值的记录, 使 得在类别中只保留一个该相同参数值对应的记录, 其中, N 2, N 为整数。 0054 可选地, 还包括 : 0055 建立映射关系单元, 用于在接收到所述移除单元移除记录的信号的同时或之后, 建立被移除的记录与其包含的参数值的映射关系, 以根据参数值能够找到包含该参数值的 所有链接 URL ; 0056 第二查找单元, 用于当所述判断子单元判断的提取的某一类别下的某一个参数值 对应的记录的当前状态异常时, 根据所述映射关系查找包含该参数值的所有被移除的链接 URL。 0057 可选地, 还包括 : 00。
26、58 异常结果分析单元, 用于当提取到的某一参数名的某一个参数值对应的记录的当 前状态异常时, 对导致异常产生的原因、 失效链接所处的模块位置以及提取时间进行分析 和整理, 以得到异常分析结果。 0059 可选地, 还包括 : 0060 显示单元, 用于显示所述异常分析结果。 0061 相较于现有技术, 本发明具有以下有益效果 : 0062 本发明提供的链接 URL 的失效检测方法, 通过根据预设表中记录的与提取到的核 说 明 书 CN 104268289 A 7 4/15 页 8 心要素相对应的实体的生命周期状态判断提取的每个核心要素的当前状态是否异常, 来判 断链接 URL 是否失效。这是。
27、因为一个链接 URL 是否失效与其包含的核心要素的生命周期状 态是否异常相对应。当核心要素的生命周期状态正常时, 链接 URL 有效, 当生命周期状态异 常时, 链接 URL 失效。 0063 该失效检测方法可以通过计算机自动实现, 相较于现有技术中通过人工进行检测 的方法, 提高了检测效率, 同时也使检测效果的误差大大减小。 附图说明 0064 为了清楚地理解本发明的技术方案, 下面将在描述本发明的具体实施方式时用到 的附图作一简要说明。 显而易见地, 这些附图仅是本发明实施例的部分附图, 本领域技术人 员在不付出创造性劳动的前提下还可以获得其它的附图。 0065 图 1 是本发明实施例一提。
28、供的链接 URL 的失效检测方法流程示意图 ; 0066 图 2 是本发明实施例二提供的链接 URL 的失效检测方法流程示意图 ; 0067 图 3 是本发明实施例提供的每个类别下的每个链接的参数值的提取方法流程示 意图 ; 0068 图 4 是本发明实施例三提供的链接 URL 的失效检测方法流程示意图 ; 0069 图 5 是本发明实施例四提供的链接 URL 的失效检测方法流程示意图 ; 0070 图 6 是本发明实施例五提供的链接 URL 的失效检测装置的结构示意图 ; 0071 图 7 是本发明实施例六提供的链接 URL 的失效检测装置的结构示意图。 具体实施方式 0072 为使本发明的。
29、技术方案更加清楚、 完整, 效果更加突出, 下面结合附图对本发明的 具体实施方式进行详细描述。 0073 正如背景技术部分所述, 在显示平台上有一部分链接只能通过人工来检测其状 态。这种通过人工来检测链接状态的方法对于电商运营信息的发布平台来说更为普遍。这 是因为 : 0074 1、 电商平台商品种类的多样性, 营销手段的复杂性和时效性, 导致展示给用户的 链接中蕴含的信息 ( 即核心要素 ) 具有复杂的生命周期。而相当一部分链接, 尤其是人工 维护的营销和广告链接, 不由程序或应用服务器控制, 无法形成有效的通信机制。 因此并不 能即时感应其核心要素生命周期的变化, 从而导致链接失效。 00。
30、75 例如一个链接中可能包含一个核心要素商品id, 该商品id唯一标示一个商品。 该 商品在某时刻可能过期, 或者在某时刻被修改甚至下架, 而包含该信息的链接, 除非是运营 人员主动测试, 可能无法自动感应到包含的商品信息生命周期的变化, 从而导致该链接失 效了仍能被用户看到。 0076 2、 电子商务独特的交易模式导致了链接的发布者和链接所蕴含核心要素的发布 者不一定来自同一机构和人员。当链接中蕴含的信息出现异常时, 发布链接的一方往往不 能够及时收到反馈信息。 0077 3、 无论是手工链接, 还是自动生成的链接, 当电商平台信息达到一定数量级时, 通 过人工来逐一检测失效链接效率极低且不。
31、精确。 说 明 书 CN 104268289 A 8 5/15 页 9 0078 基于上述原因, 在电商营销信息的发布平台中, 当发布的链接中蕴含的核心要素 ( 如商品 id、 咨询 id 或者公告 id 等 ) 出现异常而导致链接失效时, 一般无法及时地检测 到, 因此, 就会出现一些失效链接会显示在电商平台中, 而当用户试图打开该链接时却不能 打开。 0079 基于此, 有必要提供一种方法来自动检测显示在显示平台上的链接 URL 是否能够 正常显示。 0080 有鉴于此, 本发明提供了一种链接 URL 的失效检测方法。需要说明的是, 该失效检 测方法不仅适用于电商平台, 还适用于其它显示平。
32、台。 0081 本发明提供的链接 URL 的失效检测方法的具体实现方式请参见以下实施例。 0082 实施例一 0083 需要说明的是, 在本发明实施例中, 用于显示链接 URL 的显示平台上设置有一个 预设表, 所述预设表中记录有与每个核心要素相对应的实体的生命周期状态。所述实体是 数据库中对现实世界中的对象或概念的描述。 0084 每个链接 URL 至少包括一个核心要素, 所述核心要素是指链接 URL 中所包含的参 数名以及参数值。在预设表中包括主键名和主键值。其中, 主键名与链接 URL 中的参数名 相对应, 主键值与链接 URL 中的参数值相对应。在一个链接 URL 中至少包括一个核心要。
33、素。 也就是说, 在一个链接URL中可以包括多个核心要素。 该核心要素的参数名一般位于URL中 的参数域的位置。所述参数名为链接 URL 中符号 “? ” 或 “&” 后面的关键词。参数值是以 符号 “” 开始, 且 “” 之前为参数名, 并且以空符号或者 “&” 结束。在本发明实施例中, 参数名可以认为是核心要素的 key 值。参数值可以认为是核心要素的 value 值。 0085 例如, 在链接 “ ? advId 123” 中, 参数名为 “advId” , 参数值 为 “123” 。 0086 对于不同的核心要素来说, 生命周期状态也不尽相同。不同核心要素的生命周期 状态可以包括 : 。
34、审核是否通过的状态、 是否开放的状态、 有效期等等。 0087 图 1 是本发明实施例一提供的链接 URL 的失效检测方法的流程示意图。如图 1 所 示, 实施例一提供的链接 URL 的失效检测方法包括以下步骤 : 0088 S101、 抓取显示在所述显示平台上的符合特定要求的所有链接 URL : 0089 显示平台对某些抓包软件进行授权, 然后利用这些授权的抓包软件抓取显示在所 述显示平台上的符合特定要求的所有链接 URL。 0090 抓取到的所有各个链接 URL 统一存储在数据库或者特定格式的文档中, 以便进行 后续工作。 0091 需要说明的是, 一个显示平台上的链接 URL 一般会多种。
35、多样, 其格式也会千差万 别。 而当用户需要检测显示平台上的链接是否失效时, 一般只对某些种类的链接进行检测。 所以, 一般情况下, 不需要抓取显示平台上的所有链接 URL, 只需要根据用户需求抓取显示 平台上的符合特定要求的所有链接 URL。 0092 S102、 提取每个链接 URL 中的核心要素 : 0093 在 HTTP 协议中 , 要获取一个响应结果集, 一般需要在请求的链接 URL 中加入参数 域, 参数域上的字段即为该链接的核心要素。 如上所述, 核心要素包括该链接的参数名和参 数值。 说 明 书 CN 104268289 A 9 6/15 页 10 0094 为了保证提取到的核。
36、心要素的准确性, 优选按照预设的提取规则提取每个链接 URL中的核心要素。 需要说明的是, 在本发明实施例中, 可以将链接URL理解为一个字符串, 按照这种理解方式, 从链接 URL 中提取核心要素的过程可以理解为从一个字符串中提取关 键词的过程。 0095 例如, 如果想从以下广告链接中提取每个链接的核心要素即参数名和参数值。 0096 1、 http:/ ? advId 123&goodId 1234 ; 0097 2、 http:/a.b.advI ? advId 123 ; 0098 即提取 key “advId” , value “123” 。那么首先应查找关键词 “advId” ,。
37、 但由于 一条链接中可能存在多个相同关键词, 也可能同时包含多个核心要素, 因此预设提取规则 可以具体为 : 0099 1、 核心要素的参数名存在于链接的参数域, 即符号 “? ” 或 “&” 后面的关键词才是 我们所需要的。 0100 2、 核心要素的参数值以符号 “” 开始, 且 “” 之前为参数名, 同时以空符号或 者” &” 符号结束。 0101 3、 核心要素的参数值满足预设条件, 该预设条件包括数值大小和位数要求。由于 不同核心要素的起始点、 参数值的位数一般有所区别, 因此在链接中同时存在多个核心要 素时, 可以以此作为进一步判断和提取核心要素参数值的依据。 0102 S103、。
38、 从所述预设表中查找与提取到的每个链接 URL 中的核心要素相对应的实 体 : 0103 由于预设表中记录有每个实体的生命周期状态, 所以, 根据预设表的实体与核心 要素的对应关系, 从预设表中可以查找到与提取到的每个链接 URL 中的核心要素相对应的 实体。其中, 需要说明的是, 预设表中的实体与链接 URL 的核心要素的对应关系是预先设置 好的。 具体地说, 核心要素中的参数名对应预设表中的实体的主键名, 参数值对应预设表中 的主键值。因此, 本步骤可以根据该预先设置好的对应关系从所述预设表中查找与提取到 的每个链接 URL 中的核心要素相对应的实体。 0104 S104、 根据预设表中记。
39、录的与提取到的核心要素相对应的实体的生命周期状态判 断提取到的每个核心要素的当前状态是否异常, 以检测该核心要素对应的链接 URL 是否失 效 : 0105 由于预设表中记录有每个实体的生命周期状态, 所以可以根据预设表中记录的与 提取到的核心要素相对应的实体的生命周期状态判断提取到的每个核心要素的当前状态 是否异常, 从而检测该核心要素对应的每个链接 URL 是否失效。当核心要素的当前状态异 常时, 该核心要素对应的每个链接 URL 失效, 当核心要素的当前状态正常时, 该核心要素对 应的每个链接 URL 有效。 0106 需要说明的是, 判断核心要素的当前状态是否异常的判断方法随着不同类型。
40、的链 接 URL 的不同而变化。 0107 步骤 S104 所述的过程也可以认为是异常匹配的过程。即对提取到的核心要素的 生命周期的当前状态与预设表中记录的与其相对应的实体的正常生命周期状态进行匹配, 如果提取到的核心要素的当前状态与正常的生命周期状态相匹配, 则认为提取到的核心要 素的当前状态正常, 该核心要素所在的链接 URL 为有效链接, 反之, 如果提取到的核心要素 说 明 书 CN 104268289 A 10 7/15 页 11 的当前状态与正常的生命周期状态不相匹配, 则认为提取到的核心要素的当前状态异常, 该核心要素所在的链接 URL 为失效链接。需要说明的是, 在异常匹配的过。
41、程中, 需要根据链 接 URL 的不同类型选择不同的异常匹配规则。 0108 以广告链接类型为例, 其匹配规则可以如下 : 0109 1)、 该广告的审核状态为 : 通过 ; 0110 2)、 该广告的开放状态为 : 开放 ; 0111 3)、 该广告的生命周期状态为 : 投放中 ; 0112 4)、 检索时间点处于开放时间和过期时间之间。 0113 没有同时满足以上条件的核心要素的状态为异常状态。 0114 通过以上步骤 S101 至步骤 S104 就实现了对链接 URL 的失效的自动检测。相较于 现有技术中通过人工来对链接是否失效进行检测的方法, 提高了检测效率, 而且提高了检 测的准确性。
42、, 减少了检测误差。 0115 需要说明的是, 这种失效检测方法尤其适用于电商平台。 0116 为了能够了解失效链接产生的原因、 失效链接所处的模块位置以及提取时间等信 息, 方便运行维护人员的处理, 本发明实施例一提供的链接 URL 的失效检测方法还可以包 括以下步骤 : 0117 S105、 当检测到的某一个链接 URL 失效时, 对失效产生的原因、 失效链接所处的模 块位置以及提取时间进行分析和整理, 以得到异常分析结果 : 0118 具体地, 在选择相应的异常匹配规则对生命周期状态进行异常匹配时, 通常需要 对该链接 URL 类型的所有各个项目的状态进行匹配。当有一个项目的状态发生异常。
43、后, 就 认为包含有该异常状态核心要素的链接 URL 为失效链接。 0119 所以, 在匹配过程中, 记录状态发生异常的项目, 该发生异常的项目即为链接失效 产生的原因。 0120 异常结果分析中, 链接 URL 在网站平台中投放的位置尤其重要。因此在抓取链接 和对链接进行分类的过程中, 需要记录每个链接所处的位置。 0121 另外, 一个链接 URL 的时间有效性很重要, 所以, 在提取每个链接的核心要素时, 还可以记录每个核心要素的提取时间, 从而在可以分析出核心要素的提取时间。 0122 为了清楚地了解链接失效的产生原因、 失效链接所处的模块位置以及提取时间, 本步骤对失效链接的失效产生。
44、的原因、 失效链接所处的模块位置以及提取时间进行分析和 整理, 从而得到异常分析结果。 0123 S106、 显示所述异常分析结果 : 0124 显示上述得到的异常分析结果, 以供显示平台的运行维护人员对失效链接进行处 理。 0125 通过步骤 S105 和步骤 S106 将异常分析结果展示给运行维护人员, 方便运行维护 人员对失效链接的处理, 例如, 将那些失效链接从显示平台上删除, 这样使得显示在显示平 台上的链接 URL 均为可打开的链接, 消除了显示在显示平台上的某些链接 URL 无法打开的 现象, 有利于提高用户体验。 0126 以上为本发明实施例一提供的链接 URL 的失效检测方法。
45、。通过以上方法能够代替 人工实现对链接 URL 是否失效的自动检测, 因此, 上述实施例一提供的失效检测方法能够 说 明 书 CN 104268289 A 11 8/15 页 12 提高检测效率, 减小检测误差。 0127 需要说明的是, 上述实施例一提供的失效检测方法可以适用于显示在各种平台的 链接 URL。例如 : 显示在电商平台上的商品链接、 广告链接等等。 0128 一般情况下, 显示在同一显示平台上的链接 URL 包括多种类型的链接, 如用户链 接、 商品链接、 资讯链接、 广告链接等等。然而相同类型的链接在进行判断核心要素的生命 周期状态是否异常的判断规则相同。所以, 为了方便对预。
46、设表中记录的实体的生命周期状 态与提取的核心要素的生命周期状态进行匹配和判断, 优选对所有各个链接 URL 根据其核 心要素的参数名进行分类, 然后根据类型对各个参数值进行异常匹配, 具体参见实施例二。 0129 实施例二 0130 需要说明的是, 能够对显示在同一显示平台上的链接 URL 根据其核心要素的参数 名进行分类得以进行的条件是显示在同一显示平台上的链接 URL 具有统一的数据结构格 式。只有具有统一的数据结构格式, 才能按照预设的分类规则对链接 URL 进行分类, 否则容 易出现分类错误。而大部分使用 HTTP 协议的网站平台一般都有相对规范的命名格式, 尤其 是对于电商网站, 因。
47、此一般能满足该条件。所以实施例二提供的链接 URL 的失效检测方法 特别适用于电商平台上的链接 URL。 0131 另外, 由于是根据链接URL中的参数名对链接URL进行分类, 所以位于同一类别下 的各个链接 URL 具有相同的参数名。 0132 另外, 在实施例二中, 为了便于判断每个类别中的每个参数值对应的核心要素的 当前状态是否异常, 在显示平台上设置有多个第一表格。每个第一表格与每个类别的对应 关系是预设的。因此, 可以根据类别查找到与其对应的第一表格。 0133 一个第一表格记录有一个类别的各个参数值对应的实体的生命周期状态。 0134 结合附图 2 对实施例二提供的链接 URL 的。
48、失效检测方法进行描述。如图 2 所示, 实施例二提供的链接 URL 的失效检测方法包括以下步骤 : 0135 S201、 抓取显示在所述显示平台上的符合特定要求的所有链接 URL : 0136 该步骤与实施例一中的步骤 S101 相同, 为了简要起见, 请参见实施例一的描述。 0137 S202、 根据每个链接URL的参数名对所有各个链接URL进行分类, 以将所有各个链 接 URL 归属到相应的类别中 : 0138 每个链接 URL 的参数名表示该链接所属的类别, 所以根据每个链接 URL 的参数名 对所有各个链接 URL 进行分类, 以将所有各个链接 URL 归属到相应的类别中。 0139 在每个类别中包括多条具有预设数据结构的记录, 在将各个链接 URL 归属到相应 的类别的过程就是将链接 URL 中的信息填充在记录的预设数据结构中。 0140 换句话说, 该预设数据结构的记录用于记录链接 URL 的完整信息。所以一条记录 包含有一个链接 URL 的完整信息。并且, 在每个类别中, 一条记录对应一个链接 URL。 0141 所述预设数据结构的记录是指记录有链接 URL 对应的链接类别、 对应的参数名、 以及该参数值的提取时间等信息。其中。