网页编码的分析方法及装置.pdf

上传人:le****a 文档编号:6277907 上传时间:2019-05-28 格式:PDF 页数:11 大小:715.45KB
返回 下载 相关 举报
摘要
申请专利号:

CN201410588752.4

申请日:

2014.10.28

公开号:

CN105630790A

公开日:

2016.06.01

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20141028|||公开

IPC分类号:

G06F17/30; G06F11/36

主分类号:

G06F17/30

申请人:

阿里巴巴集团控股有限公司

发明人:

王兆平

地址:

英属开曼群岛大开曼资本大厦一座四层847号邮箱

优先权:

专利代理机构:

北京润泽恒知识产权代理有限公司 11319

代理人:

苏培华

PDF下载: PDF下载
内容摘要

本申请公开了网页编码的分析方法及装置,其中,所述方法包括:读取待检测的目标网页,确定所述目标网页中待检测的目标元素对象;在所述目标网页中,获取与所述目标元素对象存在特定结构关系的相关元素对象;将所述相关元素对象与预置的期望元素进行对比;根据对比的结果,确定所述目标网页在所述目标元素对象或所述相关元素对象处是否存在编码错误。通过该方法,可以提高网页编码中识别错误编码的效率,帮助网页设计人员降低网页编码错误的出现概率。

权利要求书

1.一种网页编码的分析方法,其特征在于,包括:
读取待检测的目标网页,确定所述目标网页中待检测的目标元素对象;
在所述目标网页中,获取与所述目标元素对象存在特定结构关系的相关元
素对象;
将所述相关元素对象与预置的期望元素进行对比;
根据对比的结果,确定所述目标网页在所述目标元素对象或所述相关元素
对象处是否存在编码错误。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标网页中
待检测的目标元素对象,包括:
在所述目标网页中,根据预置字符串查询各元素对象对应的唯一标识信息,
根据查询到的相匹配的元素对象,确定所述目标网页中待检测的目标元素对象。
3.根据权利要求1所述的方法,其特征在于,所述获取与所述目标元素
对象存在特定结构关系的相关元素对象,包括:
获取与所述目标元素对象存在特定结构关系的以下相关元素对象:
目标元素对象的父元素;
目标元素对象的下一个兄弟元素;
目标元素对象的上一个兄弟元素;
目标元素对象的子元素。
4.根据权利要求1所述的方法,其特征在于,所述获取与所述目标元素
对象存在特定结构关系的相关元素对象,包括:
获取与所述目标元素对象存在特定结构关系的两个或两个以上的相关元
素对象,并将所述两个或两个以上的相关元素对象的信息表示为第一数组;
所述将所述相关元素对象与预置的期望元素进行对比,包括:
将所述第一数组与预置的第二数组进行对比;所述第二数组包括所述预置
的期望元素的信息,并与所述第一数组具有相同的数据结构。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
在确定所述目标网页在所述目标元素对象或所述相关元素对象处存在编
码错误后,返回编码错误的元素对象的信息。
6.一种网页编码的分析装置,其特征在于,包括:
目标元素确定单元,用于读取待检测的目标网页,确定所述目标网页中待
检测的目标元素对象;
相关元素获取单元,用于在所述目标网页中,获取与所述目标元素对象存
在特定结构关系的相关元素对象;
元素对比单元,用于将所述相关元素对象与预置的期望元素进行对比;
错误确定单元,用于根据对比的结果,确定所述目标网页在所述目标元素
对象或所述相关元素对象处是否存在编码错误。
7.根据权利要求6所述的装置,其特征在于,所述目标元素确定单元,
包括:
目标元素确定子单元,用于在所述目标网页中,根据预置字符串查询各元
素对象对应的唯一标识信息,根据查询到的相匹配的元素对象,确定所述目标
网页中待检测的目标元素对象。
8.根据权利要求6所述的装置,其特征在于,所述相关元素获取单元,
包括:
第一相关元素获取子单元,用于获取与所述目标元素对象存在特定结构关
系的以下相关元素对象:
目标元素对象的父元素;
目标元素对象的下一个兄弟元素;
目标元素对象的上一个兄弟元素;
目标元素对象的子元素。
9.根据权利要求6所述的装置,其特征在于,所述相关元素获取单元,
包括:
第二相关元素获取子单元,用于获取与所述目标元素对象存在特定结构关
系的两个或两个以上的相关元素对象,并将所述两个或两个以上的相关元素对
象的信息表示为第一数组;
所述元素对比单元,包括:
元素对比子单元,用于将所述第一数组与预置的第二数组进行对比;所述
第二数组包括所述预置的期望元素的信息,并与所述第一数组具有相同的数据
结构。
10.根据权利要求6-9任一项所述的装置,其特征在于,还包括:
错误信息返回单元,用于在确定所述目标网页在所述目标元素对象或所述
相关元素对象处存在编码错误后,返回编码错误的元素对象的信息。

说明书

网页编码的分析方法及装置

技术领域

本申请涉及网页分析技术领域,特别是涉及网页编码的分析方法及装置。

背景技术

随着计算机技术的高速发展以及互联网的广泛普及,越来越多的用户通过
互联网获取各种信息,使用各种互联网服务。在互联网信息的载体中,网页是
不可或缺的一种,通过网页,服务商可以向用户提供各式各样的数据服务。从
新闻浏览,生活信息获取,广告发布,到数据下载,收发邮件,游戏娱乐等等,
都可以通过网页来实现。在用户的网络生活中,网页具有不可取代的地位。

网页通常由页面设计人员完成设计编码,在进行网页设计编码的工作中,
HTML(HyperTextMarkupLanguage,超文本标记语言)语言是使用最广泛的
语言之一。HTML语言是一种标记语言,这种语言通过特定符号或符号对来标
记要显示在网页中的各个部分内容,规定所要显示的内容的显示样式,以及各
部分内容在网页中的显示位置。例如“<p>内容</p>”表示一个段落,“<img
src=”…”/>表示一张图片等。浏览器在解析和显示网页时,按HTML文件从
上到下的顺序依次读取和解析文件中的标记符号及其标记的内容,并根据标记
符号来确定各种网页内容的显示样式和显示位置。

同其它计算机编码工作一样,网页编码也应本着正确和规范的原则进行,
但也难免会出现错误,例如,一些电子商务平台为店主提供了“店铺装修”功
能,店主可以藉由这类功能进行自主的店铺页面的设计,由于店主通常并非专
业的设计人员,因而页面出现编码错误的情况时有发生。对于存在编码错误的
网页,浏览器在解析网页文件时通常并不会指出其中的错误,而是继续解释执
行过程。这样浏览器会将错误的内容显示出来,设计人员通常也只能通过网页
的最终显示效果来分析出错原因和出错位置。造成的现状是,对网页错误编码
进行检查需要耗费很多时间,检查效率非常低。综上,需要本领域技术人员解
决的问题就在于,提供一种网页编码的分析方法,能够更加高效的识别网页编
码中的错误,帮助网页设计人员降低网页编码错误的出现概率。

发明内容

本申请提供了网页编码的分析方法及装置,可以提高网页编码中识别错误
编码的效率,帮助网页设计人员降低网页编码错误的出现概率。

本申请提供了如下方案:

一种网页编码的分析方法,包括:

读取待检测的目标网页,确定所述目标网页中待检测的目标元素对象;

在所述目标网页中,获取与所述目标元素对象存在特定结构关系的相关元
素对象;

将所述相关元素对象与预置的期望元素进行对比;

根据对比的结果,确定所述目标网页在所述目标元素对象或所述相关元素
对象处是否存在编码错误。

一种网页编码的分析装置,包括:

目标元素确定单元,用于读取待检测的目标网页,确定所述目标网页中待
检测的目标元素对象;

相关元素获取单元,用于在所述目标网页中,获取与所述目标元素对象存
在特定结构关系的相关元素对象;

元素对比单元,用于将所述相关元素对象与预置的期望元素进行对比;

错误确定单元,用于根据对比的结果,确定所述目标网页在所述目标元素
对象或所述相关元素对象处是否存在编码错误。

根据本申请提供的具体实施例,本申请公开了以下技术效果:

通过本申请,可以目标网页中确定目标网页中待检测的目标元素对象,获
取与目标元素对象存在特定结构关系的相关元素对象,进而将相关元素对象与
预置的期望元素进行对比,根据对比的结果,确定目标网页在所述目标元素对
象或相关元素对象处是否存在编码错误。本方法从与网页中元素对象的结构关
系角度,对网页中的目标元素进行分析,根据发生编码错误的元素对象和与其
它元素对象之间的这种结构关系会发生改变,来判断目标元素对象或相关元素
对象处是否发生了编码错误,提高了网页编码中识别错误编码的效率,可以帮
助网页设计人员降低网页编码错误的出现概率。

当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施
例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是
本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的
前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的方法的流程图;

图2是本申请实施例提供的装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清
楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是
全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其
他实施例,都属于本申请保护的范围。

请参看图1,为本申请实施例提供的网页编码的分析方法的流程图,如图
1所示,该方法可以包括以下步骤:

S101:读取待检测的目标网页,确定所述目标网页中待检测的目标元素对
象;

在进行网页编码的过程中,往往会由于各种原因导致编码错误,对于编码
错误的网页,一般的浏览器在解析的过程中并不会指出其中的错误,因而一旦
网页出现编码错误,则会造成一些页面元素显示不正确,如某些元素显示在了
不正确的位置。另外,由于页面元素嵌套等原因,如果一个元素出现了编码错
误,常常导致与其有嵌套关系的其他元素也无法正常显示,从而严重影响页面
的显示效果以及美观。同一个网页中的元素对象,通常会与其它一个或多个元
素对象存在特定的结构关系,而对于出现编码错误的网页,发生编码错误的元
素对象和与其它元素对象之间的这种结构关系会发生改变。本申请实施例旨在
提供一种网页编码的分析方法,从网页HTML编码中元素对象的结构关系角度
出发,对网页中存在错误编码的元素对象进行检测,从而识别网页编码中的错
误,帮助网页设计人员降低网页编码错误的出现概率。

首先,可以读取待检测的目标网页,确定目标网页中待检测的目标元素。
具体实现该步骤时,可以根据实际应用环境的不同采取不同的方式。例如,当
以测试工具对网页编码进行分析时,可以使用测试工具加载目标网页,并确定
目标网页中待测的目标元素。也可以调用浏览器加载目标网页,通过向目标网
页中注入脚本,并通过所注入的脚本来对目标网页的编码进行分析。具体在确
定待检测的目标元素时,也可以有不同的实现方式,例如,可以将目标页面中
所有的可分析元素对象中,随机或按预置方式选取的元素列为目标元素对象,
并逐一进行分析。当需要进行严格的分析测试时,可以将目标页面中所有的可
分析元素对象都列为目标元素对象,并逐一进行分析等。

具体在确定目标网页中待检测的目标元素对象时,可以在目标网页中,根
据预置字符串查询各元素对象对应的唯一标识信息,根据查询到的相匹配的元
素对象,确定目标网页中待检测的目标元素对象。在目标网页加载的过程中,
目标网页中的各个元素通常会表示为树状的数据结构,网页中的各个元素唯一
与树状结构中的一个节点相对应,而树状结构中的节点可以具有一些属性信息,
例如,Name属性、ID属性、TagName属性等。在这些属性信息中可以包括一
个唯一的标识信息,如ID属性;在书写规范的网页文件中,元素对象如果对
应唯一的Name属性,该Name属性也可以作为标识信息。也即上述标识信息能
够唯一标识对应点节点,同时也唯一标识了对应的元素对象。在有目的性的选
择分析那些目标网页中的元素对象作为目标元素对象的应用中,可以通过执行
预置的字符串,根据该字符串来查询各元素对象对应的唯一标识信息,根据查
询到的相匹配的元素对象,确定目标网页中待检测的目标元素对象。例如,可
以利用getElementById(sid),getElementsByName(sname)等方法来实现查询,
将相匹配的元素对象确定为目标元素对象,其中sid、sname等为预置的字符
串。

S102:在所述目标网页中,获取与所述目标元素对象存在特定结构关系的
相关元素对象;

如前所述,在网页中,一个元素通常其它一个或多个元素对象存在特定的
结构关系,这种结构关系的正常与否,可以反映出在该元素处是否存在着编码
错误。因此,在确定目标网页中待检测的目标元素对象,可以在目标网页中,
获取与目标元素对象存在特定结构关系的相关元素对象。在一个网页中,元素
对象间存在的关系可以分为多种,同时,元素对象间的关系也可以用树形的数
据结构来描述。

在本申请实施例提供的方法中,主要利用了元素对象间存在的父子关系,
以及兄弟关系。在获取与目标元素对象存在特定结构关系的相关元素对象时,
可以获取与目标元素对象存在特定结构关系的以下相关元素对象:目标元素对
象的父元素;目标元素对象的下一个兄弟元素;目标元素对象的上一个兄弟元
素;目标元素对象的子元素(包括目标元素对象的第一个子元素,或最后一个
子元素)等。

以下来举例介绍网页中元素对象的结构关系,例如,有如下编码正确的
HTML代码:


其中,各元素都具有唯一的标识信息“id”与之对应,其中,id为“box”
的元素对象可以作为id为“a”的元素对象的父元素,id为“a”的元素对象
可以作为id为“box”的元素对象的子元素,而id为“b”的元素对象可以作
为id为“a”的元素对象的下一个兄弟元素,以此类推。可见,当以id为“a”
的元素对象作为目标元素对象时,与该元素对象存在特定关系的元素对象有多
个,并且不同的元素对象与该元素可能存在不同的结构关系。

在实际应用中,可以获取与目标元素对象具有父子关系的父/子元素,和/
或具有兄弟关系的上一个或下一个兄弟元素,会获得更加准确的分析结果。优
选的,可以同时获取与目标元素对象具有父子关系的父/子元素,以及具有兄
弟关系的上一个或下一个兄弟元素,会获得更好的分析结果。例如,在上述编
码正确的HTML代码中,获取与id为“a”的目标元素对象存在特定结构关系
的相关元素对象时,可以获取该目标元素对象的父元素,即id为“box”的元
素对象,以及该目标元素对象的下一个兄弟元素,即id为“b”的元素对象。

S103:将所述相关元素对象与预置的期望元素进行对比;

在步骤S102中,在目标网页中获取到了与目标元素对象存在特定关系的
相关元素对象,接下来,可以将获取到的相关元素对象与预期的元素对象进行
对比,即将相关元素对象与预置的期望元素进行对比。对比的结果,可以作为
判断目标元素对象或者相关元素对象处是否存在编码错误的依据。

预置的期望元素,可以认为是当网页代码编写正确时,与目标元素对象存
在特定结构关系的正确的元素对象,或多个元素对象的组合。下面以步骤S102
中编码正确的HTML代码的为示例来说明。当所要分析检测的目标元素对象为
id为“a”的目标元素对象时,可以将该目标元素对象的父元素以及该目标元
素对象的下一个兄弟元素作为参照,以该元素对象的父元素以及下一个兄弟元
素作为预期的期望元素,即当网页代码编写正确与该目标元素对象具有对象关
系的元素对象,分别为id为“box”的元素对象,以及id为“b”的元素对象。

在该示例中,假设代码被错误的编写,对应于上述编码正确的HTML代码,
在目标网页中有如下错误的HTML代码:


此时,当所要分析检测的目标元素对象为id为“a”的目标元素对象时,
在错误编码的目标网页中,获取与该目标元素对象存在特定结构关系的相关元
素对象时,可以获取该目标元素对象的父元素,及其下一个兄弟元素。在该错
误编码的目标网页中获取上述元素对象时,获取到的该目标元素的父元素为
id为“box”的目标元素,而获取到的该目标元素的下一个兄弟元素则不存在,
在一些平台中表现为返回值为NULL。

在获取到id为“a”的目标元素对象的各相关元素对象后,可以将该目标
元素对象的相关元素对象与预置的期望元素进行对比,对比相关元素对象与对
应点期望元素是否一致。如上述以id为“a”的目标元素对象进行分析时,得
到的对比结果如表1所示:

表1


由此可以得到当以id为“a”的目标元素对象进行分析时,将其相关元素
对象与预置的期望元素进行对比,得到的对比结果不一致。

此外,当获取与目标元素对象存在特定结构关系的两个或两个以上的相关
元素对象时,可以将两个或两个以上的相关元素对象的信息表示为第一数组,
如上述以id为“a”的目标元素对象进行分析时,获取的相关元素对象为其父
元素以及下一个兄弟元素。首先,确定目标网页中待检测的目标元素对象,例
如可以通过JS脚本获取指定id的元素对象作为目标元素对象:

elemA=document.getElementById(‘a’)

此时id为“a”的目标元素对的相关元素对象可以表示为:

currentRelation={

parent:elemA.parentNode,

next:elemA.nextSilbing};

而预置的期望元素的信息,也可以用同样数据结构的第二数组来描述:

varcorrectRelation={

parent:document.getElementById(‘box’),

next:document.getElementById(‘c’)};

这样,在将相关元素对象与预置的期望元素进行对比时,只需要将第一数
组与预置的第二数组进行对比即可。

S104:根据对比的结果,确定所述目标网页在所述目标元素对象或所述相
关元素对象处是否存在编码错误。

在将相关元素对象与预置的期望元素进行对比,获取对比结果后,可以根
据对比结果来确定目标网页在目标元素对象或相关元素对象处是否存在编码
错误。一般情况下,在对比结果为相关元素对象与预置的期望元素部分或全部
不一致的情况下,即可确定目标网页在目标元素对象或相关元素对象处是否存
在编码错误。另外在确定目标网页在目标元素对象或相关元素对象处存在编码
错误后,返回编码错误的元素对象的信息,例如可以将目标元素对象的位置信
息,和/或相关元素对象的位置信息返回;也可以直接打开目标网页,并将目
标元素对象,和/或相关元素对象以特定的方式进行显示。

以上介绍了本申请实施例的网页编码的分析方法,通过该方法,可以目标
网页中确定目标网页中待检测的目标元素对象,获取与目标元素对象存在特定
结构关系的相关元素对象,进而将相关元素对象与预置的期望元素进行对比,
根据对比的结果,确定目标网页在所述目标元素对象或相关元素对象处是否存
在编码错误。本方法从与网页中元素对象的结构关系角度,对网页中的目标元
素进行分析,根据发生编码错误的元素对象和与其它元素对象之间的这种结构
关系会发生改变,来判断目标元素对象或相关元素对象处是否发生了编码错误,
提高了网页编码中识别错误编码的效率,可以帮助网页设计人员降低网页编码
错误的出现概率。

与本申请实施例提供的网页编码的分析方法相对应,还提供了一种网页编
码的分析装置,请参看图2,为本申请实施例提供的网页编码的分析装置的示
意图,如图2所示,该装置可以包括:

目标元素确定单元201,用于读取待检测的目标网页,确定所述目标网页
中待检测的目标元素对象;

相关元素获取单元202,用于在所述目标网页中,获取与所述目标元素对
象存在特定结构关系的相关元素对象;

元素对比单元203,用于将所述相关元素对象与预置的期望元素进行对比;

错误确定单元204,用于根据对比的结果,确定所述目标网页在所述目标
元素对象或所述相关元素对象处是否存在编码错误。

在另一种实现方式下,目标元素确定单元201可以包括:

目标元素确定子单元,用于在所述目标网页中,根据预置字符串查询各元
素对象对应的唯一标识信息,根据查询到的相匹配的元素对象,确定所述目标
网页中待检测的目标元素对象。

再一种实现方式下,相关元素获取单元202可以包括:

第一相关元素获取子单元,用于获取与所述目标元素对象存在特定结构关
系的以下相关元素对象:

目标元素对象的父元素;

目标元素对象的下一个兄弟元素;

目标元素对象的上一个兄弟元素;

目标元素对象的子元素。

另外,相关元素获取单元202可以包括:

第二相关元素获取子单元,用于获取与所述目标元素对象存在特定结构关
系的两个或两个以上的相关元素对象,并将所述两个或两个以上的相关元素对
象的信息表示为第一数组;

在这种实现方式下,元素对比单元203可以包括:

元素对比子单元,用于将所述第一数组与预置的第二数组进行对比;所述
第二数组包括所述预置的期望元素的信息,并与所述第一数组具有相同的数据
结构。

此外,该网页编码的分析装置还可以包括:

错误信息返回单元,用于在确定所述目标网页在所述目标元素对象或所述
相关元素对象处存在编码错误后,返回编码错误的元素对象的信息。

以上介绍了本申请实施例的网页编码的分析装置,通过该装置,可以目标
网页中确定目标网页中待检测的目标元素对象,获取与目标元素对象存在特定
结构关系的相关元素对象,进而将相关元素对象与预置的期望元素进行对比,
根据对比的结果,确定目标网页在所述目标元素对象或相关元素对象处是否存
在编码错误。本装置从与网页中元素对象的结构关系角度,对网页中的目标元
素进行分析,根据发生编码错误的元素对象和与其它元素对象之间的这种结构
关系会发生改变,来判断目标元素对象或相关元素对象处是否发生了编码错误,
提高了网页编码中识别错误编码的效率。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本
申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申
请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形
式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、
光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,
或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相
似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述
得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及
系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也
可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,
即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需
要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术
人员在不付出创造性劳动的情况下,即可以理解并实施。

以上对本申请所提供的网页编码的分析方法及装置,进行了详细介绍,本
文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说
明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技
术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。
综上所述,本说明书内容不应理解为对本申请的限制。

网页编码的分析方法及装置.pdf_第1页
第1页 / 共11页
网页编码的分析方法及装置.pdf_第2页
第2页 / 共11页
网页编码的分析方法及装置.pdf_第3页
第3页 / 共11页
点击查看更多>>
资源描述

《网页编码的分析方法及装置.pdf》由会员分享,可在线阅读,更多相关《网页编码的分析方法及装置.pdf(11页珍藏版)》请在专利查询网上搜索。

本申请公开了网页编码的分析方法及装置,其中,所述方法包括:读取待检测的目标网页,确定所述目标网页中待检测的目标元素对象;在所述目标网页中,获取与所述目标元素对象存在特定结构关系的相关元素对象;将所述相关元素对象与预置的期望元素进行对比;根据对比的结果,确定所述目标网页在所述目标元素对象或所述相关元素对象处是否存在编码错误。通过该方法,可以提高网页编码中识别错误编码的效率,帮助网页设计人员降低网页编。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1