《网页攀爬方法及其装置.pdf》由会员分享,可在线阅读,更多相关《网页攀爬方法及其装置.pdf(10页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102479231 A (43)申请公布日 2012.05.30 C N 1 0 2 4 7 9 2 3 1 A *CN102479231A* (21)申请号 201010571475.8 (22)申请日 2010.11.24 G06F 17/30(2006.01) (71)申请人财团法人资讯工业策进会 地址中国台湾台北市和平东路二段一0六 号十一楼 (72)发明人蔡奕安 刘建宗 吴建兴 (74)专利代理机构上海专利商标事务所有限公 司 31100 代理人任永武 (54) 发明名称 网页攀爬方法及其装置 (57) 摘要 本发明提供一种网页攀爬方法及其装置。该 网页攀爬。
2、方法根据一文件对象模型(Document Object Model:DOM)分析一网页,以建立一包含 一动态触发对象的对象表,并根据该对象表建立 一触发任务表,该触发任务表包含至少一与该动 态触发对象相对应的触发事件。然后根据该至少 一触发事件,触发该网页,以产生一已触发网页。 最后根据该已触发网页的一新连结对象,建立该 动态触发对象的一网页连结表。此外,该装置用以 实现该网页攀爬方法。 (51)Int.Cl. 权利要求书2页 说明书4页 附图3页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 4 页 附图 3 页 1/2页 2 1.一种网页攀爬装置,。
3、包含: 一储存器;以及 一处理器,电性连接至该储存器,且用以: 根据一文件对象模型分析一网页,以于该储存器中建立一对象表,该对象表包含一动 态触发对象; 根据该对象表,于该储存器中建立一触发任务表,该触发任务表包含至少一与该动态 触发对象相对应的触发事件; 根据该至少一触发事件触发该网页,以产生一已触发网页;以及 根据该已触发网页的一新连结对象,于该储存器中建立该动态触发对象的一网页连结 表; 其中,该新连结对象未载于该对象表中。 2.根据权利要求1所述的网页攀爬装置,其特征在于,该动态触发对象为一不发出请 求的动态连结触发对象,以使该新连结对象具有一相对应的网页连结,该处理器用以: 根据该文。
4、件对象模型分析该已触发网页; 比较已分析的该已触发网页与该网页,以获得该新连结对象;以及 于该储存器中,将对应至该新连结对象的该网页连结建立至该网页连结表。 3.根据权利要求1所述的网页攀爬装置,其特征在于,该动态触发对象为一动态窗体 触发对象,以使该新连结对象根据填入不同窗体内容,而对应至不同的一网页连结,该处理 器用以: 根据该文件对象模型,进行分析该已触发网页; 比较已分析的该已触发网页与该网页,以获得该新连结对象; 通过监听该已触发网页的一超文件传输协议流量,以收集对应至该新连结对象的该网 页连结;以及 于该储存器中,将该网页连结建立至该网页连结表。 4.一种用于一网页攀爬装置的网页攀。
5、爬方法,该网页攀爬装置包含一储存器及一与该 储存器呈电性连接的处理器,该网页攀爬方法包含下列步骤: (a)令该处理器根据一文件对象模型分析一网页,以于该储存器中建立一对象表,该对 象表包含一动态触发对象; (b)于步骤(a)后,令该处理器根据该对象表,于该储存器中建立一触发任务表,该触 发任务表包含至少一与该动态触发对象相对应的触发事件; (c)于步骤(b)后,令该处理器根据该至少一触发事件触发该网页,以产生一已触发网 页;以及 (d)于步骤(c)后,令该处理器根据该已触发网页的一新连结对象,于该储存器中建立 该动态触发对象的一网页连结表; 其中,该新连结对象未载于该对象表中。 5.根据权利要。
6、求4所述的网页攀爬方法,其特征在于,该动态触发对象为一不发出请 求的动态连结触发对象,以使该新连结对象具有一相对应的网页连结,该步骤(d)包含下 列步骤: (d1)令该处理器根据该文件对象模型,分析该已触发网页; 权 利 要 求 书CN 102479231 A 2/2页 3 (d2)于步骤(d1)后令该处理器比较已分析的该已触发网页与该网页,以获得该新连 结对象;以及 (d3)于步骤(d2)后,令该处理器于该储存器中,将对应至该新连结对象的该网页连结 建立至该网页连结表。 6.根据权利要求4所述的网页攀爬方法,其特征在于,该动态触发对象为一动态窗体 触发对象,以使该新连结对象根据填入不同窗体内。
7、容,而对应至不同的一网页连结,该步骤 (d)包含下列步骤: (d1)令该处理器根据该文件对象模型,分析该已触发网页; (d2)于步骤(d1)后,令该处理器比较已分析的该已触发网页与该网页,以获得该新连 结对象; (d4)于步骤(d2)后,令该处理器通过监听该已触发网页的一超文件传输协议流量,以 收集对应至该新连结对象的该网页连结;以及 (d5)于步骤(d4)后,令该处理器于该储存器中将该网页连结建立至该网页连结表。 权 利 要 求 书CN 102479231 A 1/4页 4 网页攀爬方法及其装置 技术领域 0001 本发明是一种网页攀爬方法及其装置。具体而言,本发明的网页攀爬方法及其装 置是。
8、通过建立一触发任务表以模拟触发一动态触发事件,以使收集一网页的动态触发连 结。 背景技术 0002 网页攀爬是一种可应用于网页弱点扫描、搜寻引擎及离线浏览等的技术。通过网 页攀爬技术,用户得以收集网页中所含的超级链接(Hyperlinks)以及各种镶嵌于网页上 的文件连结位置,以使网页弱点扫描得以扫描出更多的网页弱点、搜寻引擎得以搜寻出更 多的目标位置以及离线浏览得以浏览更多的离线讯息。 0003 现有的网页攀爬技术可大致上分为静态攀爬以及动态攀爬,静态攀爬网页用以撷 取一网页的静态连结,现有的静态攀爬技术是通过分析该网页的原始文件,并以关键词撷 取各网页连结以及窗体数据。至于动态网页攀爬技术。
9、用以撷取一网页的动态连结,现有的 动态攀爬技术是利用AJAX事件触发方式,收集所产生的动态网页连结。 0004 Web 2.0、AJAX及JavaScript等动态网页建构技术的蓬勃发展,其所建构的动态 网页具有动态事件触发(Event Trigger)的能力,而动态事件所触发的网页、表格及连结等 等将无法被现有的网页攀爬技术所收集,造成收集过程的遗漏,进而影响后续网页弱点扫 描的完整性、搜寻引擎的精确性以及离线浏览的广泛性。具体而言,现有的网页攀爬技术 对于动态网页的连结收集,普遍具有以下两个缺点:第一,无法收集动态产生但不发出请求 (Request)的连结。第二,无法收集因动态窗体填入不同。
10、内容而送到不同网页的连结。随着 动态网页的兴起,信息安全防护将更将困难。 0005 有鉴于此,如何针对动态网页所触发的网页、表格及连结等进行完整的收集,以有 效解决现有的网页攀爬技术的缺点,以使信息安全防护以及动态网页攀爬的涵盖率得以提 升,为该领域的业者亟需解决的问题。 发明内容 0006 本发明的目的在于提供一种网页攀爬方法、网页攀爬装置及其计算机程序产品, 藉以有效地解决现有技术中因无法收集动态产生但不发出请求的连结,以及动态窗体填入 不同内容而送到不同网页的连结所造成的问题。 0007 为达上述目的,本发明提供一种用于一网页攀爬装置的网页攀爬方法,该网页攀 爬装置包含一储存器及一与该储。
11、存器呈电性连接的处理器,该网页攀爬方法包含下列步 骤:(a)令该处理器根据一文件对象模型,分析一网页,以于该储存器中建立一对象表,该 对象表包含一动态触发对象;(b)于步骤(a)后,令该处理器根据该对象表,于该储存器中 建立一触发任务表,该触发任务表包含至少一与该动态触发对象相对应的触发事件;(c) 于步骤(b)后,令该处理器根据该至少一触发事件触发该网页,以产生一已触发网页;以及 (d)于步骤(c)后,令该处理器根据该已触发网页的一新连结对象,于该储存器中建立该动 说 明 书CN 102479231 A 2/4页 5 态触发对象的一网页连结表,其中,该新连结对象未载于该对象表中。 0008 。
12、为达上述目的,本发明另提供一种网页攀爬装置,该装置包含一储存器以及一 电性连接至该储存器的处理器,该处理器用以:根据一文件对象模型(DocumentObject Model:DOM)分析一网页,以于该储存器中建立一对象表,该对象表包含一动态触发对象; 根据该对象表,于该储存器中建立一触发任务表,该触发任务表包含至少一与该动态触发 对象相对应的触发事件;根据该至少一触发事件触发该网页,以产生一已触发网页;以及 根据该已触发网页的一新连结对象,于该储存器中建立该动态触发对象的一网页连结表, 其中,该新连结对象未载于该对象表中。 0009 为达上述目的,本发明再提供一种计算机程序产品,内储一种执行一。
13、用于一网页 攀爬装置的网页攀爬方法的程序,该网页攀爬装置包含一储存器及一与该储存器呈电性连 接的处理器,该程序加载该网页攀爬装置后执行:一程序指令a,令该处理器根据一文件对 象模型,分析一网页,以于该储存器中建立一对象表,该对象表包含一动态触发对象;一程 序指令b,令该处理器根据该对象表,于该储存器中建立一触发任务表,该触发任务表包含 至少一与该动态触发对象相对应的触发事件;一程序指令c,令该处理器根据该至少一触 发事件触发该网页,以产生一已触发网页;以及一程序指令d,令该处理器根据该已触发网 页的一新连结对象,于该储存器中建立该动态触发对象的一网页连结表,其中,该新连结对 象未载于该对象表中。
14、。 0010 本发明的有益技术效果是:本发明可通过分析一网页而建立一包含动态触发事件 的触发任务表,并根据动态触发事件触发该网页,以收集该网页的动态触发连结,藉此,本 发明可有效改善现有技术中因无法收集动态产生但不发出请求的连结及动态窗体填入不 同内容而送到不同网页的连结所造成的问题,进而使信息安全防护以及动态网页攀爬的涵 盖率得以提升。 0011 在参阅附图及随后描述的实施方式后,该技术领域具有通常知识者便可了解本发 明的其它目的,以及本发明的技术手段及实施态样。 附图说明 0012 图1是本发明第一实施例的网页攀爬装置的示意图; 0013 图2是本发明第二实施例的流程图; 0014 图3A。
15、是步骤S34的流程图;及 0015 图3B是步骤S34的另一流程图。 具体实施方式 0016 以下将通过实施例来解释本发明的内容,本发明的实施例并非用以限制本发明须 在如实施例所述的任何特定的环境、应用或特殊方式方能实施。因此,关于实施例的说明仅 为阐释本发明的目的,而非用以限制本发明。须说明的是,以下实施例及附图中,与本发明 非直接相关的元件已省略而未绘示,且附图中各元件间的尺寸关系仅为求容易了解,非用 以限制实际比例。 0017 本发明的第一实施例如图1所示,其是一网页攀爬装置1的示意图。如图1所示, 网页攀爬装置1包含一储存器11及一电性连结至储存器11的处理器13,以下将说明网页 说 。
16、明 书CN 102479231 A 3/4页 6 攀爬装置1所包含各元件的功用及如何对一网页9进行解析。 0018 须说明的是,网页9是一已通过静态网页攀爬技术分析过的一网页,而本发明的 网页攀爬装置将针对网页9做进一步的分析,以取得该网页的动态连结,以使网页攀爬技 术得以更完整,连带增加网页弱点扫描的完整性、搜寻引擎的精确性以及离线浏览的广泛 性。由于静态网页攀爬技术可为此项技术领域具有通常知识者所轻易理解,在此不加赘述。 0019 于本实施例中,处理器13根据一文件对象模型(Document Object Model:DOM)对 网页9进行分析,并根据分析结果于储存器11中建立一对象表13。
17、0,该对象表130包含一 动态触发对象,处理器13还根据该对象表130,于储存器11中建立一触发任务表132,该触 发任务表132包含至少一与该动态触发对象相对应的触发事件。之后,处理器13根据该至 少一触发事件触发网页9,以产生一已触发网页,并根据该已触发网页的一新连结对象,于 储存器11中建立该动态触发对象的一网页连结表134,其中该新连结对象未载于该对象表 130中。 0020 具体而言,于收到网页9时,处理器13将根据一文件对象模型对网页9进行分析, 以获得网页9具有动态触发能力的对象,并将获得的对象(即前述的分析结果),以表列方 式(即前述的对象表130)于储存器11中。本实施例所述。
18、的动态触发对象可分为两种类型, 一为不发出请求的动态连结触发对象,另一为动态窗体触发对象。当动态连结触发对象被 触发时,其将进一步产生新的连结路径以供网页9的用户点击,另一方面,当动态窗体触发 对象被触发时,根据用户先前选择或填入该窗体的数据,其将进一步产生一对应至该数据 的网页连结。 0021 接下来,为可完整模拟可能的触发状况,处理器13将根据储存器11的对象表130 所载的动态触发对象,判断动态触发对象所有触发事件的可能,并于储存器11中建立该触 发任务表132,该触发任务表132用以记录所有触发事件。需注意的是,由于对象表130所 载的动态触发对象可能产生多种触发事件,因此对象表130。
19、所载的动态触发对象是与至少 一触发事件相对应。 0022 接下来,处理器13将根据触发任务表132所载的触发事件触发网页9以进行触发 模拟,并产生已触发网页,该已触发网页包含因应触发所产生的新连结对象。具体而言,当 该动态触发对象为一不发出请求的动态连结触发对象,该新连结对象具有一相对应的网页 连结,处理器13于产生该已触发网页后,根据该文件对象模型分析该已触发网页,并进一 步比较分析后的已触发网页与网页9,此时,处理器13将可得知已触发网页与网页9间的差 异,并发现该新连结对象未载于该对象表130中,由于处理器13发现此一新连结对象,需将 其记录于该网页连结表132中,以使动态网页攀爬的涵盖。
20、率得以提升。 0023 类似地,当该动态触发对象为一动态窗体触发对象,该新连结对象根据填入不同 窗体内容,而对应至不同的一网页连结,处理器13于产生该已触发网页后,根据该文件对 象模型分析该已触发网页,并进一步比较分析后的已触发网页与网页9,此时,处理器13将 可得知已触发网页与网页9间的差异,并发现该新连结对象未载于该对象表130中,接下 来,处理器13通过监听该已触发网页的一超文件传输协议流量(Hyper Text Transport Protocol Traffic:HTTP Traffic),以收集对应至该新连结对象的该网页连结。最后,处理 器13于储存器11中,将该网页连结建立至该网。
21、页连结表132。 0024 本发明的第二实施例如图2所示,其是一用于一如第一实施例所述的网页攀爬装 说 明 书CN 102479231 A 4/4页 7 置的网页攀爬方法的流程图,该网页攀爬装置包含一储存器以及一与该储存器呈电性连接 的处理器,并对于一网页分析,以进行网页攀爬。 0025 此外,第二实施例中所述的网页攀爬方法可由一计算机程序产品执行。当该计算 机程序产品加载该网页攀爬装置中时,会执行包含于该计算机程序产品中的多个指令,进 而可完成第二实施例中所述的网页攀爬方法。该计算机程序产品可储存于一有形的机器可 读取记录媒体中,例如只读存储器(read only memory;ROM)、闪。
22、存、软盘、硬盘、光盘、随身 碟、磁带、可由网络存取的数据库或熟悉此项技术者所熟悉的且具有相同功能的任何其它 储存媒体中。 0026 请参阅图2,于步骤S31,令处理器根据一文件对象模型,分析该网页,以于储存器 中建立一对象表,该对象表包含一动态触发对象。接着于步骤S32,令处理器13根据该对象 表于储存器中建立一触发任务表,该触发任务表包含至少一与该动态触发对象相对应的触 发事件。之后,步骤S33令处理器根据该至少一触发事件触发网页,以产生一已触发网页。 最后,于步骤S34,令处理器根据该已触发网页的一新连结对象,于储存器11中建立该动态 触发对象的一网页连结表,其中该新连结对象未载于该对象表。
23、中。 0027 具体而言,当该动态触发对象为一不发出请求的动态连结触发对象,步骤S34包 含下列步骤,请参阅图3A。于步骤S341,令处理器于产生该已触发网页后,根据该文件对象 模型分析该已触发网页,接着于步骤S342,令处理器比较已分析的该已触发网页与网页,以 获得该新连结对象。由于该动态触发对象为一不发出请求的动态连结触发对象,该新连结 对象具有一相对应的网页连结,最后于步骤S343,令处理器于储存器中,将对应至该新连结 对象的该网页连结建立至该网页连结表,藉以获得该动态连结触发对象的一网页连结表。 0028 而当该动态触发对象为一动态窗体触发对象,步骤S34包含下列步骤,请参阅图 3B。。
24、于步骤S341,令处理器于产生该已触发网页后,根据该文件对象模型分析该已触发网 页,接着于步骤S342,令处理器比较已分析的该已触发网页与网页,以获得该新连结对象。 由于该动态触发对象为一动态窗体触发对象,该新连结对象根据填入不同窗体内容,而对 应至不同的一网页连结。于是步骤S344令处理器通过监听该已触发网页的一超文件传输 协议流量,以收集对应至该新连结对象的该网页连结。最后于步骤S345,令处理器于储存器 中,将该网页连结建立至该网页连结表,藉以获得该动态窗体触发对象的一网页连结表。 0029 需说明的是,除了上述步骤,第二实施例亦能执行第一实施例所描述的所有操作 及功能。且所属技术领域具。
25、有通常知识者可直接了解第二实施例如何基于上述第一实施例 以执行此等操作及功能,故不赘述。 0030 综上所述,本发明是通过建立一触发任务表以模拟触发一动态触发事件的一连串 步骤,以使收集一网页的动态触发连结,藉以完成本发明的网页攀爬方法。此外,当该动态 触发对象为一不发出请求的动态连结触发对象或一动态窗体触发对象时,本发明亦可针对 上述两情况有效地分别处理。如此一来,便能有效克服现有技术中因无法收集动态产生但 不发出请求的连结及动态窗体填入不同内容而送到不同网页的连结所造成的问题。 0031 上述的实施例仅用来例举本发明的实施态样,以及阐释本发明的技术特征,并非 用来限制本发明的保护范畴。任何熟悉此技术者可轻易完成的改变或均等性的安排均属于 本发明所主张的范围,本发明的权利保护范围应以申请专利范围为准。 说 明 书CN 102479231 A 1/3页 8 图1 图2 说 明 书 附 图CN 102479231 A 2/3页 9 图3A 说 明 书 附 图CN 102479231 A 3/3页 10 图3B 说 明 书 附 图CN 102479231 A 10 。