《一种盗链检测方法、系统及装置.pdf》由会员分享,可在线阅读,更多相关《一种盗链检测方法、系统及装置.pdf(17页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104079531A43申请公布日20141001CN104079531A21申请号201310098805X22申请日20130326H04L29/06200601H04L29/0820060171申请人中国移动通信集团公司地址100032北京市西城区金融大街29号B座十二层72发明人粟栗付俊张峰74专利代理机构北京德琦知识产权代理有限公司11018代理人牛峥王丽琴54发明名称一种盗链检测方法、系统及装置57摘要本发明公开了一种盗链检测方法、系统及装置,根据提供网页内容的网站所属服务器WEB日志信息,确定该网站内容的访问网站;然后,分析所确定的访问网站访问网页内容的行为信息。
2、是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取;最后,确定所爬取的页面是否嵌套了网页内容,如果是,所爬取的页面所属网站为盗链网站,对该盗链网站的访问阻止;如果否,允许访问。这样,本发明提供的方法、系统及装置就可以对盗链准确检测并阻止盗链的发生。51INTCL权利要求书3页说明书10页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书10页附图3页10申请公布号CN104079531ACN104079531A1/3页21一种盗链检测方法,其特征在于,该方法包括提取提供网页内容的网站所属服务器WEB日志信息,确定访问该网页内容的访问网站。
3、;分析确定的访问网站访问网页内容的行为信息是否符合设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取;确定所爬取的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,对该盗链网站的访问阻止;如果否,允许访问。2如权利要求1所述的方法,其特征在于,所述WEB日志信息中包括请求资源字段,在确定访问该网页内容的访问网站之前,该方法还包括根据该字段确定提供网页内容的网站是否需要授权访问,如果是,则确定访问该网页内容的访问网站;如果否,结束;所述WEB日志信息中包括来源页面字段,根据来源页面字段确定访问该网页内容的访问网站。3如权利要求1或2所述的方法,其特征在于,所述所。
4、述服务器为多个,所述WEB日志信息为提取多个所述服务器WEB日志信息后,转换为统一格式。4如权利要求1所述的方法,其特征在于,所述行为规则为包括域名或/和IP地址的白名单,该白名单为内容授权白名单、入口白名单或/和用户身份认定白名单,其中,所述WEB日志信息中包括页面来源字段,根据该字段确定访问网站的域名或/和IP地址后,确定是否在内容授权白名单中或在入口白名单中;所述WEB日志信息中包括授权用户字段及用户代理字段,根据授权用户字段对访问网站鉴权通过后,且用户代理字段为非空时,确定是否在用户身份认定白名单中。5如权利要求4所述的方法,其特征在于,所述白名单实时更新。6如权利要求4所述的方法,其。
5、特征在于,所述行为规则还包括流量或/和访问数量的阈值;所述访问网站对网页内容的流量或/和访问数量超过设置的阈值时且判定为不为搜索引擎类型时,确定不符合访问规则,如果访问网站对网页内容的流量或/和访问数量超过设置的阈值时且为搜索引擎类型时,确定符合访问规则,将该访问网站添加到入口白名单中。7如权利要求1所述的方法,其特征在于,所述确定所爬取的页面是否嵌套网页内容是根据所爬取的页面编写代码中是否包括嵌套网页内容的关键字判定的。8如权利要求1所述的方法,其特征在于,所述对该盗链网站的访问阻止为根据所设定的阻止规则,将盗链网站信息提交到阻止设备中,由阻止设备阻止该盗链网站访问网页内容。9一种盗链检测系。
6、统,其特征在于,该系统包括提供网页内容的网站所属服务器、盗链检测及阻止装置及访问网站,其中,提供网页内容的网站所属服务器,用于当访问网站访问网页内容时,提供网页内容,记录WEB日志信息;盗链检测及阻止装置,用于从提供网页内容的网站所属服务器提取WEB日志信息,确定访问网站;分析所确定的访问网站访问网页内容的行为信息是否符合所设置的行为规权利要求书CN104079531A2/3页3则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取;确定所爬取的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,对该盗链网站的访问阻止;如果否,允许访问访问网站,用于访问网页内容,或被盗链检测及。
7、阻止装置确定为盗链网站后被阻止访问网页内容。10如权利要求9所述的系统,其特征在于,盗链检测及阻止装置进一步包括日志抓取模块、日志处理模块、盗链分析模块、判定模块及盗链网站阻止模块,其中,日志抓取模块,用于从提供网页内容的网站所属服务器提取WEB日志信息;日志处理模块,用于根据提取的WEB日志信息,确定访问网站;盗链分析模块,用于分析所确定的访问网站访问网页内容的行为信息是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取,将所爬取的页面发送给判定模块;判定模块,用于确定所爬取的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,通知盗链网站阻止模块,如。
8、果否,则允许访问;盗链网站阻止模块,用于根据判定模块的通知,阻止盗链网站访问网页内容。11如权利要求10所述的系统,其特征在于,所述日志处理模块,进一步用于对所提取的WEB日志信息转换为统一格式。12如权利要求10所述的系统,其特征在于,所述盗链分析模块,进一步用于行为规则为包括域名或/和IP地址的白名单,该白名单为内容授权白名单、入口白名单或/和用户身份认定白名单,其中,所述WEB日志信息中包括页面来源字段,根据该字段确定访问网站的域名或/和IP地址后,确定是否在内容授权白名单中或在入口白名单中;所述WEB日志信息中包括授权用户字段及用户代理字段,根据授权用户字段对访问网站鉴权通过后,且用户。
9、代理字段为非空时,确定是否在用户身份认定白名单中。13如权利要求12所述的系统,其特征在于,所述盗链分析模块,还用于行为规则还包括流量或/和访问数量的阈值;所述访问网站对网页内容的流量或/和访问数量超过设置的阈值时且判定为不为搜索引擎类型时,确定不符合访问规则,如果访问网站对网页内容的流量或/和访问数量超过设置的阈值时且为搜索引擎类型时,确定符合访问规则,将该访问网站添加到入口白名单中。14一种盗链检测装置,其特征在于,该装置包括日志抓取模块、日志处理模块、盗链分析模块、判定模块及盗链网站阻止模块,其中,日志抓取模块,用于从提供网页内容的网站所属服务器提取WEB日志信息;日志处理模块,用于根据。
10、提取的WEB日志信息,确定访问网站;盗链分析模块,用于分析所确定的访问网站访问网页内容的行为信息是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取,将所爬取的页面发送给判定模块;判定模块,用于确定所爬取的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,通知盗链网站阻止模块,如果否,则允许访问;盗链网站阻止模块,用于根据判定模块的通知,阻止盗链网站访问网页内容。权利要求书CN104079531A3/3页415如权利要求14所述的装置,其特征在于,所述盗链分析模块,进一步用于行为规则为包括域名或/和IP地址的白名单,该白名单为内容授权白名单、入口白名单。
11、或/和用户身份认定白名单,其中,所述WEB日志信息中包括页面来源字段,根据该字段确定访问网站的域名或/和IP地址后,确定是否在内容授权白名单中或在入口白名单中;所述WEB日志信息中包括授权用户字段及用户代理字段,根据授权用户字段对访问网站鉴权通过后,且用户代理字段为非空时,确定是否在用户身份认定白名单中。16如权利要求15所述的系统,其特征在于,所述盗链分析模块,还用于行为规则还包括流量或/和访问数量的阈值;所述访问网站对网页内容的流量或/和访问数量超过设置的阈值时且判定为不为搜索引擎类型时,确定不符合访问规则,如果访问网站对网页内容的流量或/和访问数量超过设置的阈值时且为搜索引擎类型时,确定。
12、符合访问规则,将该访问网站添加到入口白名单中。权利要求书CN104079531A1/10页5一种盗链检测方法、系统及装置技术领域0001本发明涉及互联网的网络安全领域,特别涉及一种盗链检测方法、系统及装置。背景技术0002随着互联网技术的发展,互联网的安全性也越来越重要。在互联网中,存在一种盗链技术,有时也称为外链技术,该技术是一种非法的网页内容获取行为,指的非法网站利用各种手段,将其他网站的页面内容设置在自己非法网站提供的网页中,从而在未授权的情况下使用其他网站提供的网页内容,获取利益。0003目前,盗链技术主要采用两种方式0004第一种方式,非授权引用其他网站提供的网页内容,并将所引用的网。
13、页内容设置在非法网站提供的网页中,例如有一张图片的统一资源定位符(URL)为HTTP/IMAGEBAIDUCOM/123JPG,非法网站获取该图片内容,直接将该图片内容展示在自身页面中,采用的技术是在自身页面脚本增加一句引用该图片内容的引用脚本,这样,就可以在非法网站中的页面中将该图片内容展示;0005第二种方式,采用WEB页面嵌套的方式引用其他网站提供的网页,非法网站在自身页面中直接嵌套要引用的页面,采用这种方式不仅开发简单,且通过任意的页面遮蔽技术展示就可以展示要引用的页面中全部或部分内容。图1为现有技术采用页面嵌套方式盗链网页的示意图,如图所示,假定被盗链网页为网页A,盗链网页为网页B,。
14、则网页B采用WEB页面嵌套方式嵌套了网页A。在用户不了解的情况下,用户可能以为网页A提供了网页B中的内容或/和服务。0006采用盗链技术非法将其他网页内容承载在自身网页上,如果其他网页内容为视频或诸如搜索功能的服务提供网页内容,采用的盗链技术直接影响其他提供网页内容的网站经营,这成为了影响互联网安全的重要问题。非法网站,通过盗链技术,不仅可以利用其他网页的内容及服务,而且在一定程度上还可以对其他网页提供网页挂马和网页钓鱼等黑客攻击手段。0007为了防止网页内容被盗链,目前可以采用以下几种方式盗链检测及阻止0008方式一,对调用网页内容的用户设置管理机制。通过设置网页内容的访问黑名单,该黑名单中。
15、记录了多个禁止访问网页的网际协议(IP)地址,当提供网页内容的网站接收对该网页内容访问的请求后,检测发送该请求的IP地址是否在黑名单中,如果在,则禁止对网页内容的访问,以防止对网页内容的被盗链。0009方式二,对网页内容的获取设置准入机制。通过指定的代理服务器才能获取到网页内容,这样能保证获取网页内容的请求者都是经过许可的。0010方式三,基于流量或/和访问数量的筛选方式。基于访问网页内容行为的方式,对于盗链的非法网站来说,流量或/和访问数量一般比较多,该方式就是将流量或/和访问数量较多的非法网站确定,发现盗链的非法网站。0011这三种方式进行盗链检测时,都存在缺陷方式一建立在对访问IP地址的。
16、认证说明书CN104079531A2/10页6上,一般来说,通过任意IP地址进行访问都是合理的,建立黑名单的作用对盗链的检测方式十分有限;方式二采用第三方认证的方式阻止盗链行为的发生,比较繁琐,且仅能防止盗链的非法网站无法直接获取到网页内容,比如网页提供的音频或视频,但是无法避免盗链的非法网站对整个网页页面的嵌套;第三种方式依靠流量或/和访问数量防止盗链的非法网站获取网页内容,这种认证方式存在较高的时延且在认证后需要后续对IP地址的辨识,还容易对通过统一IP地址出口的集团网站及搜索引擎等正确渠道访问网页内容的网站进行误报。0012综上,目前对盗链检测的方式无法对盗链准确检测并及时阻止盗链的发生。
17、。发明内容0013有鉴于此,本发明提供一种盗链检测方法,该方法能够对盗链准确检测并及时阻止盗链的发生。0014本发明还提供一种盗链检测系统,该系统能够对盗链准确检测并及时阻止盗链的发生。0015本发明还提供一种盗链检测装置,该装置能够对盗链准确检测并及时阻止盗链的发生。0016为达到上述目的,本发明实施的技术方案具体是这样实现的0017一种盗链检测方法,该方法包括0018提取提供网页内容的网站所属服务器WEB日志信息,确定访问该网页内容的访问网站;0019分析确定的访问网站访问网页内容的行为信息是否符合设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取;0020确定所爬取。
18、的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,对该盗链网站的访问阻止;如果否,允许访问。0021所述WEB日志信息中包括请求资源字段,在确定访问该网页内容的访问网站之前,该方法还包括0022根据该字段确定提供网页内容的网站是否需要授权访问,如果是,则确定访问该网页内容的访问网站;如果否,结束;0023所述WEB日志信息中包括来源页面字段,根据来源页面字段确定访问该网页内容的访问网站。0024所述所述服务器为多个,所述WEB日志信息为提取多个所述服务器WEB日志信息后,转换为统一格式。0025所述行为规则为包括域名或/和IP地址的白名单,该白名单为内容授权白名单、入口白名单或/。
19、和用户身份认定白名单,其中,0026所述WEB日志信息中包括页面来源字段,根据该字段确定访问网站的域名或/和IP地址后,确定是否在内容授权白名单中或在入口白名单中;0027所述WEB日志信息中包括授权用户字段及用户代理字段,根据授权用户字段对访问网站鉴权通过后,且用户代理字段为非空时,确定是否在用户身份认定白名单中。0028所述白名单实时更新。说明书CN104079531A3/10页70029所述行为规则还包括流量或/和访问数量的阈值;0030所述访问网站对网页内容的流量或/和访问数量超过设置的阈值时且判定为不为搜索引擎类型时,确定不符合访问规则,如果访问网站对网页内容的流量或/和访问数量超过。
20、设置的阈值时且为搜索引擎类型时,确定符合访问规则,将该访问网站添加到入口白名单中。0031所述确定所爬取的页面是否嵌套网页内容是根据所爬取的页面编写代码中是否包括嵌套网页内容的关键字判定的。0032所述对该盗链网站的访问阻止为根据所设定的阻止规则,将盗链网站信息提交到阻止设备中,由阻止设备阻止该盗链网站访问网页内容。0033一种盗链检测系统,该系统包括提供网页内容的网站所属服务器、盗链检测及阻止装置及访问网站,其中,0034提供网页内容的网站所属服务器,用于当访问网站访问网页内容时,提供网页内容,记录WEB日志信息;0035盗链检测及阻止装置,用于从提供网页内容的网站所属服务器提取WEB日志信。
21、息,确定访问网站;分析所确定的访问网站访问网页内容的行为信息是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取;确定所爬取的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,对该盗链网站的访问阻止;如果否,允许访问0036访问网站,用于访问网页内容;或被盗链检测及阻止装置确定为盗链网站后被阻止访问网页内容。0037盗链检测及阻止装置进一步包括日志抓取模块、日志处理模块、盗链分析模块、判定模块及盗链网站阻止模块,其中,0038日志抓取模块,用于从提供网页内容的网站所属服务器提取WEB日志信息;0039日志处理模块,用于根据提取的WEB日志信息,确定访问。
22、网站;0040盗链分析模块,用于分析所确定的访问网站访问网页内容的行为信息是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取,将所爬取的页面发送给判定模块;0041判定模块,用于确定所爬取的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,通知盗链网站阻止模块,如果否,则允许访问;0042盗链网站阻止模块,用于根据判定模块的通知,阻止盗链网站访问网页内容。0043所述日志处理模块,进一步用于对所提取的WEB日志信息转换为统一格式。0044所述盗链分析模块,进一步用于行为规则为包括域名或/和IP地址的白名单,该白名单为内容授权白名单、入口白名单或/和用。
23、户身份认定白名单,其中,0045所述WEB日志信息中包括页面来源字段,根据该字段确定访问网站的域名或/和IP地址后,确定是否在内容授权白名单中或在入口白名单中;0046所述WEB日志信息中包括授权用户字段及用户代理字段,根据授权用户字段对访问网站鉴权通过后,且用户代理字段为非空时,确定是否在用户身份认定白名单中。0047所述盗链分析模块,还用于行为规则还包括流量或/和访问数量的阈值;所述访问网站对网页内容的流量或/和访问数量超过设置的阈值时且判定为不为搜索引擎类型说明书CN104079531A4/10页8时,确定不符合访问规则,如果访问网站对网页内容的流量或/和访问数量超过设置的阈值时且为搜索。
24、引擎类型时,确定符合访问规则,将该访问网站添加到入口白名单中。0048一种盗链检测装置,该装置包括日志抓取模块、日志处理模块、盗链分析模块、判定模块及盗链网站阻止模块,其中,0049日志抓取模块,用于从提供网页内容的网站所属服务器提取WEB日志信息;0050日志处理模块,用于根据提取的WEB日志信息,确定访问网站;0051盗链分析模块,用于分析所确定的访问网站访问网页内容的行为信息是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取,将所爬取的页面发送给判定模块;0052判定模块,用于确定所爬取的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,通知盗。
25、链网站阻止模块,如果否,则允许访问;0053盗链网站阻止模块,用于根据判定模块的通知,阻止盗链网站访问网页内容。0054所述盗链分析模块,进一步用于行为规则为包括域名或/和IP地址的白名单,该白名单为内容授权白名单、入口白名单或/和用户身份认定白名单,其中,0055所述WEB日志信息中包括页面来源字段,根据该字段确定访问网站的域名或/和IP地址后,确定是否在内容授权白名单中或在入口白名单中;0056所述WEB日志信息中包括授权用户字段及用户代理字段,根据授权用户字段对访问网站鉴权通过后,且用户代理字段为非空时,确定是否在用户身份认定白名单中。0057所述盗链分析模块,还用于行为规则还包括流量或。
26、/和访问数量的阈值;所述访问网站对网页内容的流量或/和访问数量超过设置的阈值时且判定为不为搜索引擎类型时,确定不符合访问规则,如果访问网站对网页内容的流量或/和访问数量超过设置的阈值时且为搜索引擎类型时,确定符合访问规则,将该访问网站添加到入口白名单中。0058由上述方案可以看出,本发明提供的盗链检测方法、系统及装置,根据提供网页内容的网站所属服务器WEB日志信息,确定该网站内容的访问网站;然后,分析所确定的访问网站访问网页内容的行为信息是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取;最后,确定所爬取的页面是否嵌套了网页内容,如果是,所爬取的页面所属网站为盗。
27、链网站,对该盗链网站的访问阻止;如果否,允许访问。这样,本发明提供的方法、系统及装置就可以对盗链准确检测并阻止盗链的发生。附图说明0059图1为现有技术采用页面嵌套方式盗链网页的示意图;0060图2为本发明提供的盗链检测方法流程图;0061图3为本发明实施例提供的盗链检测方法具体例子流程图;0062图4为本发明提供的盗链检测系统结构示意图;0063图5为本发明提供的盗链检测装置的结构示意图。具体实施方式0064为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明作进一步详细说明。说明书CN104079531A5/10页90065从背景技术提供的三种盗链检测及阻止的方式。
28、可以看出,这三种方式都有技术缺陷方式一只是建立在对访问IP地址的认证上,由于黑名单的更新问题,使得认证盗链网站不准确;方式二采用第三方认证的方式,不仅比较繁琐且只能对网页内容的盗链进行检测,无法对网页的WEB嵌套方式的盗链检测,也不准确且检测范围覆盖不完全;方式三依靠流量或/和访问数量防止盗链网站获取网页内容,存在盗链的检测延迟问题,并对一些访问流量或/和数量比较大的合法网站造成盗链的误判,检测也不准确。0066因此,为了对盗链准确检测并及时阻止盗链的发生,本发明提供的方法、系统及装置,根据提供网页内容的网站所属服务器WEB日志信息,确定该网站内容的访问网站;然后,分析所确定的访问网站访问网页。
29、内容的行为信息是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取;最后,确定所爬取的页面是否嵌套了网页内容,如果是,所爬取的页面所属网站为盗链网站,对该盗链网站的访问阻止;如果否,允许访问。0067图2为本发明提供的盗链检测方法流程图,其具体步骤为0068步骤201、提取提供网页内容的网站所属服务器WEB日志信息,确定访问该网页内容的访问网站;0069在本步骤之前,根据WEB日志信息中的请求资源字段,确定提供网页内容的网站是否需要授权访问,如果是,则确定访问该网页内容的访问网站;如果否,则结束本流程;0070在本步骤中,提供网页内容的网站所属服务器可以为一个或多。
30、个,当为多个时,将多个服务器WEB日志信息都提取后,转换为统一格式存储;0071在本步骤中,当网页内容被访问时,提供网页内容的网站所属服务器,如APACHE、TOMCAT和IIS等类型的服务器,就会记录下访问者的访问行为,称为WEB日志信息,在WEB日志信息包括的字段及含义如表一所示0072表一0073说明书CN104079531A6/10页100074根据WEB日志信息中的来源页面字段,就可以确定访问网站,如果来源页面字段为空,则为直接访问,如果来源页面字段不为空,比如为WWWACOM/AA/1HTML,则提取到访问网站的网站信息,比如WWWACOM;0075步骤202、分析所确定的访问网站。
31、访问网页内容的行为信息,是否符合所设置的行为规则,如果否,执行步骤204;如果是,执行步骤203;说明书CN104079531A107/10页110076在本步骤中,预先设置行为规则,该行为规则为包括域名或/和IP地址的白名单,该白名单可以为内容授权白名单、入口白名单及用户身份认定白名单,其中,0077内容授权白名单记录已授权访问网页内容的访问网站的域名或/和IP地址,根据WEB日志信息中的页面来源字段就可以确定访问网站的域名或/和IP地址,确定该访问网站是否在内容授权白名单中,确定是否符合访问规则;0078用户身份认证白名单记录了需要登录后才能访问网页内容的访问规则,根据WEB日志信息中的A。
32、UTHUSER字段鉴权通过后且用户代理为非空时,符合访问规则;0079入口白名单记录了诸如搜索引擎类型访问网站的入口IP地址或/和域名,根据WEB日志信息中的页面来源字段就可以确定访问网站的域名或/和IP地址,确定该访问网站是否在入口白名单中,确定是否符合访问规则;0080在本步骤中,行为规则还可以设定为流量或/和访问数量的阈值,当访问网站对网页内容的流量或/和访问数量超过设置的阈值时且判定为不为搜索引擎时,认为不符合访问规则,如果访问网站对网页内容的流量或/和访问数量超过设置的阈值时且为搜索引擎时,就可以将该访问网站添加到入口白名单中;0081在本步骤中,所设置的白名单是实时更新的;0082。
33、步骤203、允许访问;0083步骤204、对所确定的访问网站中的页面爬取;0084步骤205、判断所爬取的页面是否嵌套网页内容,如果是,执行步骤206;如果否,执行步骤207;0085在本步骤中,所嵌套的网页内容为要授权的网页内容,如果嵌套的网页内容为非授权的网页内容,则允许访问;0086在本步骤中,对所爬取的页面进行分析,确定是否存在WEB页面嵌套行为信息,嵌套了网页内容,比如,在所爬取的页面进行超链接时会提供网页的链接地址,诸如,在进行WEB页面嵌套时,所爬取的页面根据自身采用页面的编写类型就会使用对应的嵌套关键词,如使用包括(INCLUDE)或响应(RESPONSE)等关键字,根据关键词。
34、及后续包括的域名或/和IP地址就可以确定是否嵌套了网页内容,如表二所示0087表二0088说明书CN104079531A118/10页120089步骤206、所爬取的页面所属的网站为盗链网站,对该盗链网站的访问阻止;0090在本步骤中,记载盗链网站的IP地址后,根据所设定的阻止规则,比如防火墙、应用防火墙或IDS等阻止设备的阻止规则,将盗链网站的诸如IP地址或/和域名的相关信息提交到阻止设备中,由阻止设备阻止该盗链网站访问网页内容;0091步骤207、允许访问。0092图3为本发明实施例提供的盗链检测方法具体例子流程图,假设盗链的网站A在自己的网页中形成了对网页B的引用,用户在访问网站A时,如。
35、果需要使用网页B的内容或/和服务,则在网站A的盗链页面,比如WWWACOM/AA/A1HTML去访问网页B,如WWWBCOM/BB/B1JPG中所需资源,其具体步骤为0093步骤301、提取提供网页B的网站所属服务器WEB日志信息;0094步骤302、对所提取的WEB日志信息转换为统一格式;0095步骤303、对所提取的WEB日志信息中的请求资源字段分析,确定该网页B是否包含授权访问的网页内容,如果是,执行步骤304;如果否,则结束;0096步骤304、对所提取的WEB日志信息中的来源页面字段分析,选择来源页面字段为非空的访问网站A;0097步骤305、根据来源页面字段中的域名,将访问网站A归。
36、类;0098步骤306、根据设置的行为规则,确定访问网站A是否为已经授权网站,如果是,则允许访问并结束;否则,执行步骤307;0099步骤307、确定访问网站A是否输入了登陆信息,如果是并验证通过,则允许访问并结束;如果否,则执行步骤308;0100步骤308、确定访问网站A是否为搜索引擎类型的网站,如果是,则允许访问并结束;如果否,则执行步骤309;0101步骤309、对访问网站A的行为信息进行分析;0102步骤310、确定是否符合设置的行为规则,如果是,则允许访问并结束;如果否,执行步骤311;0103步骤311、对访问网站A的网页爬取;0104步骤312、判断网站A中的网页嵌套的网页B中。
37、的网页内容是否要进行授权,如果是,则执行步骤313;如果否,则认为网站A已经授权,转入步骤306执行;0105步骤313、网站A为盗链网站,形成阻止规则;说明书CN104079531A129/10页130106步骤314、根据阻止规则,通知防火墙防护设备对网站A对网页B的访问进行阻止。0107图4为本发明提供的盗链检测系统结构示意图,包括提供网页内容的网站所属服务器、盗链检测及阻止装置及访问网站,其中,0108提供网页内容的网站所属服务器,用于当访问网站访问网页内容时,提供网页内容,并记录WEB日志信息;0109盗链检测及阻止装置,用于从提供网页内容的网站所属服务器提取WEB日志信息,确定访问。
38、网站;分析所确定的访问网站访问网页内容的行为信息是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取;确定所爬取的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,对该盗链网站的访问阻止;如果否,允许访问0110访问网站,用于访问网页内容;或被盗链检测及阻止装置确定为盗链网站后被阻止访问网页内容。0111在该系统中,盗链检测及阻止装置进一步包括日志抓取模块、日志处理模块、盗链分析模块、判定模块及盗链网站阻止模块,其中,0112日志抓取模块,用于从提供网页内容的网站所属服务器提取WEB日志信息;0113日志处理模块,用于根据提取的WEB日志信息,确定访问。
39、网站;0114盗链分析模块,用于分析所确定的访问网站访问网页内容的行为信息是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站中的页面爬取,将所爬取的页面发送给判定模块;0115判定模块,用于确定所爬取的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,通知盗链网站阻止模块,如果否,则允许访问;0116盗链网站阻止模块,用于根据判定模块的通知,阻止盗链网站访问网页内容。0117在该系统中,所述日志处理模块,进一步用于对所提取的WEB日志信息转换为统一格式。0118在该系统中,盗链分析模块,进一步用于行为规则为包括域名或/和IP地址的白名单,该白名单为内容授权白名单。
40、、入口白名单或用户身份认定白名单,其中,内容授权白名单记录已授权访问网页内容的访问网站的域名或/和IP地址,根据WEB日志信息中的页面来源字段确定访问网站的域名或/和IP地址,确定该访问网站是否在内容授权白名单中,确定是否符合访问规则;用户身份认证白名单记录了需要登录后才能访问网页内容的访问规则,根据WEB日志信息中的AUTHUSER字段鉴权通过后且用户代理字段为非空时,符合访问规则;入口白名单记录了访问网站的入口IP地址或/和域名,根据WEB日志信息中的页面来源字段确定访问网站的域名或/和IP地址,确定该访问网站是否在入口白名单中,确定是否符合访问规则。0119在该系统中,盗链分析模块,还用。
41、于行为规则为流量或/和访问数量的阈值,当访问网站对网页内容的流量或/和访问数量超过设置的阈值时且判定为不为搜索引擎时,确定不符合访问规则。0120图5为本发明提供的盗链检测装置的结构示意图,包括日志抓取模块、日志处理模块、盗链分析模块、判定模块及盗链网站阻止模块,其中,0121日志抓取模块,用于从提供网页内容的网站所属服务器提取WEB日志信息;说明书CN104079531A1310/10页140122日志处理模块,用于根据提取的WEB日志信息,确定访问网站;0123盗链分析模块,用于分析所确定的访问网站访问网页内容的行为信息是否符合所设置的行为规则,如果是,允许访问;如果否,对所确定的访问网站。
42、中的页面爬取,将所爬取的页面发送给判定模块;0124判定模块,用于确定所爬取的页面是否嵌套网页内容,如果是,所爬取的页面所属网站为盗链网站,通知盗链网站阻止模块,如果否,则允许访问;0125盗链网站阻止模块,用于根据判定模块的通知,阻止盗链网站访问网页内容。0126在该装置中,所述日志处理模块,进一步用于对所提取的WEB日志信息转换为统一格式。0127在该装置中,盗链分析模块,进一步用于行为规则为包括域名或/和IP地址的白名单,该白名单为内容授权白名单、入口白名单或用户身份认定白名单,其中,内容授权白名单记录已授权访问网页内容的访问网站的域名或/和IP地址,根据WEB日志信息中的页面来源字段确。
43、定访问网站的域名或/和IP地址,确定该访问网站是否在内容授权白名单中,确定是否符合访问规则;用户身份认证白名单记录了需要登录后才能访问网页内容的访问规则,根据WEB日志信息中的AUTHUSER字段鉴权通过后且用户代理字段为非空时,符合访问规则;入口白名单记录了访问网站的入口IP地址或/和域名,根据WEB日志信息中的页面来源字段确定访问网站的域名或/和IP地址,确定该访问网站是否在入口白名单中,确定是否符合访问规则。0128在该装置中,盗链分析模块,还用于行为规则为流量或/和访问数量的阈值,当访问网站对网页内容的流量或/和访问数量超过设置的阈值时且判定为不为搜索引擎时,确定不符合访问规则。012。
44、9可以看出,本发明提供的方法、系统及装置不仅对采用非授权引用其他网站提供的网页内容的盗链网站的盗链行为检测,而且可以对采用WEB嵌套方式引用其他网站提供的网页的盗链网站的盗链行为检测,检测覆盖范围完整;对盗链网站的检测基于的检测对象为WEB日志信息,检测易于操作;对盗链网站的检测部依赖于第三方实体,通过WEB日志信息就可以完成对盗链网站的检测及盗链行为的阻止,检测准确且为主动发现和防御。0130以上举较佳实施例,对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。说明书CN104079531A141/3页15图1图2说明书附图CN104079531A152/3页16图3图4说明书附图CN104079531A163/3页17图5说明书附图CN104079531A17。