一种基于实时更新的用户浏览行为采集方式.pdf

上传人:zhu****_FC 文档编号:1630295 上传时间:2018-06-30 格式:PDF 页数:6 大小:314.38KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510101492.8

申请日:

2015.03.09

公开号:

CN104636245A

公开日:

2015.05.20

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 11/34申请公布日:20150520|||实质审查的生效IPC(主分类):G06F 11/34申请日:20150309|||公开

IPC分类号:

G06F11/34; G06F9/44

主分类号:

G06F11/34

申请人:

浪潮集团有限公司

发明人:

焦毓葳; 徐宏伟; 左少标

地址:

250101山东省济南市高新区舜雅路1036号

优先权:

专利代理机构:

济南信达专利事务所有限公司37100

代理人:

姜明

PDF下载: PDF下载
内容摘要

本发明公开了一种基于实时更新的用户浏览行为采集方式,该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集;将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。本发明的一种基于实时更新的用户浏览行为采集方式和现有技术相比,可以有效的在海量垃圾数据中选取需要的用户浏览数据,避免了无用繁杂的存储过程和后期大批量数据处理;能够完整记录页面的内容,保持页面记录的完整性,并且可以准确地获取用户的浏览时间,在应用服务器的内部分别进行识别和采集。

权利要求书

权利要求书
1.  一种基于实时更新的用户浏览行为采集方式,其特征在于,该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集;
将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。

2.  根据权利要求1所述的一种基于实时更新的用户浏览行为采集方式,其特征在于,所述的主动式服务器端数据采集:将WEB服务器和代理服务器软件自动记录的日志文件和用户的使用数据收集作为数据源;
被动式服务器端数据采集:在海量的日志文件基础上进行数据预处理,进行数据清洗、用户识别、会话识别、事物识别和路径补充,以获得准确和完整的用户使用数据。

3.  根据权利要求1所述的一种基于实时更新的用户浏览行为采集方式,其特征在于,所述的客户端数据采集是通过java applet技术、javaScript 技术、Plug-in技术和页面跟踪帧技术来实现的。

4.  根据权利要求3所述的一种基于实时更新的用户浏览行为采集方式,其特征在于,所述的java applet技术的使用方法如下:
应用java applet技术在客户端对用户使用信息进行采集,客户端浏览器要下载并安装SUN SVM插件,在每个需要追踪的网页分别添加applet程序代码。

5.  根据权利要求3所述的一种基于实时更新的用户浏览行为采集方式,其特征在于,所述的javaScript 技术的使用方法如下:
客户端可以通过应用javaScript 技术中XMLHttpRequest对象向服务器发送请求,当用户浏览缓存里面的页面或者离开网站时,触发页面ONUNLOAD事件,保证用户浏览记录的完整性。

6.  根据权利要求3所述的一种基于实时更新的用户浏览行为采集方式,其特征在于,所述的页面跟踪帧技术的使用方法如下:
通过一个嵌入在网页内的隐含帧追踪用户的使用,记录用户的IP、访问页面的使用信息,随时将客户端浏览信息以WinSockTCP的方式传到服务器。

说明书

说明书一种基于实时更新的用户浏览行为采集方式
技术领域
本发明涉及计算机数据采集技术领域,具体地说是一种基于实时更新的用户浏览行为采集方式。
背景技术
目前,简单地直接从web服务器的日志文件采集web使用数据进行web使用挖掘研究并不可取,它存在很大的弊端:
1)海量的日志对web用户使用数据而言是海量的垃圾数据。基于web日志的使用挖掘就必须用数据净化操作对这些海量数据进行数据预处理,剩下的可用数据约为5%。可见,庞大的web日志文件是没有多少利用价值的,可以说是垃圾数据。
2)用户在浏览页面的时候,页面记录不完整。web日志文件是对每一个到达web服务器的HTTP请求的记录,Internet上存在着各种各样的缓存机制,导致了web日志文件中对用户浏览页面记录的不完整性。
3)无法获取用户准确的浏览时间。
发明内容
本发明的技术任务是提供一种基于实时更新的用户浏览行为采集方式。
本发明的技术任务是按以下方式实现的,该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集;
将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。
所述的主动式服务器端数据采集:将WEB服务器和代理服务器软件自动记录的日志文件和用户的使用数据收集作为数据源;
被动式服务器端数据采集:在海量的日志文件基础上进行数据预处理,进行数据清洗、用户识别、会话识别、事物识别和路径补充,以获得准确和完整的用户使用数据。
所述的客户端数据采集是通过java applet技术、javaScript 技术、Plug-in技术和页面跟踪帧技术来实现的。
所述的java applet技术的使用方法如下:
应用java applet技术在客户端对用户使用信息进行采集,客户端浏览器要下载并安装SUN SVM插件,在每个需要追踪的网页分别添加applet程序代码。
所述的javaScript 技术的使用方法如下:
客户端可以通过应用javaScript 技术中XMLHttpRequest对象向服务器发送请求,当用户浏览缓存里面的页面或者离开网站时,触发页面ONUNLOAD事件,保证用户浏览记录的完整性。
所述的页面跟踪帧技术的使用方法如下:
通过一个嵌入在网页内的隐含帧追踪用户的使用,记录用户的IP、访问页面的使用信息,随时将客户端浏览信息以WinSockTCP的方式传到服务器。
本发明的一种基于实时更新的用户浏览行为采集方式和现有技术相比,可以有效的在海量垃圾数据中选取需要的用户浏览数据,避免了无用繁杂的存储过程和后期大批量数据处理;能够完整记录页面的内容,保持页面记录的完整性,并且可以准确地获取用户的浏览时间,在应用服务器的内部分别进行识别和采集。
附图说明
  附图1为一种基于实时更新的用户浏览行为采集方式的流程框图。
具体实施方式
  实施例1:
该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集;
将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。
所述的主动式服务器端数据采集:将WEB服务器和代理服务器软件自动记录的日志文件和用户的使用数据收集作为数据源;
被动式服务器端数据采集:在海量的日志文件基础上进行数据预处理,进行数据清洗、用户识别、会话识别、事物识别和路径补充,以获得准确和完整的用户使用数据。
所述的客户端数据采集是通过java applet技术、javaScript 技术、Plug-in技术和页面跟踪帧技术来实现的。
所述的java applet技术的使用方法如下:
应用java applet技术在客户端对用户使用信息进行采集,客户端浏览器要下载并安装SUN SVM插件,在每个需要追踪的网页分别添加applet程序代码。
所述的javaScript 技术的使用方法如下:
IE 5.0 以后及以后版本增加了对javaScript中XMLHttpRequest对象的支持,在非IE的浏览器中,需要用new XMLHttpRequest()来创建对象。客户端可以通过应用javaScript 技术中XMLHttpRequest对象向服务器发送请求,当用户浏览缓存里面的页面或者离开网站时,尽管不发出HTTP请求,但会触发页面ONUNLOAD事件,保证用户浏览记录的完整性。
所述的页面跟踪帧技术的使用方法如下:
通过一个嵌入在网页内的隐含帧追踪用户的使用,记录用户的IP、访问页面等使用信息,随时将客户端浏览信息以WinSockTCP的方式传到服务器。为了不延迟请求效率,将针对服务器的操作代码分离出来,放入一个独立的PHP文件,如Server php.在主页面中加入一个隐藏的内嵌页面。将Server php放入内嵌页面打开,其他内容扔放在主页面,由于内嵌页面的下载并不影响主页面的下载,这提高了速度。
名词解释:
JavaApplet:就是用Java语言编写的小应用程序,可以直接嵌入到网页中,并能够产生特殊的效果。
JavaScript:一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。
Plug-in:一种为一个较大的软件增加特殊功能的小段程序。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

一种基于实时更新的用户浏览行为采集方式.pdf_第1页
第1页 / 共6页
一种基于实时更新的用户浏览行为采集方式.pdf_第2页
第2页 / 共6页
一种基于实时更新的用户浏览行为采集方式.pdf_第3页
第3页 / 共6页
点击查看更多>>
资源描述

《一种基于实时更新的用户浏览行为采集方式.pdf》由会员分享,可在线阅读,更多相关《一种基于实时更新的用户浏览行为采集方式.pdf(6页珍藏版)》请在专利查询网上搜索。

本发明公开了一种基于实时更新的用户浏览行为采集方式,该采集方式包括服务器端数据采集和客户端数据采集两种方式,其中服务器端数据采集包括主动式服务器端数据采集和被动式服务器端数据采集;将采集的数据进行数据处理,形成数据仓库;根据不同的产业,形成不同的数据处理模式和分析模式,按照模式进行分析,最终形成有价值的模式或规律。本发明的一种基于实时更新的用户浏览行为采集方式和现有技术相比,可以有效的在海量垃圾数。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1