《网络用户行为信息分析系统及其分析方法.pdf》由会员分享,可在线阅读,更多相关《网络用户行为信息分析系统及其分析方法.pdf(17页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102946319 A (43)申请公布日 2013.02.27 C N 1 0 2 9 4 6 3 1 9 A *CN102946319A* (21)申请号 201210374292.6 (22)申请日 2012.09.29 H04L 12/24(2006.01) H04L 12/26(2006.01) (71)申请人焦点科技股份有限公司 地址 210061 江苏省南京市高新区星火路软 件大厦A座12楼 申请人南京理工大学 (72)发明人李莉 郑一曼 熊巍 刘欣 (74)专利代理机构南京理工大学专利中心 32203 代理人朱显国 (54) 发明名称 网络用户行为信息。
2、分析系统及其分析方法 (57) 摘要 本发明公开了一种网络用户行为信息分析系 统及其分析方法,系统包括依次连接的网络用户 行为数据获取模块,网络用户行为数据预处理模 块,网络用户行为数据存储模块,网络用户行为数 据分析模块,分析结果显示模块;方法包括数据 的采集,数据的预处理,数据的转换,数据的分析 和数据的显示等步骤,本发明能方便快速的获取 网络用户行为信息,保证了用户行为信息的完整 性、连续性和有效性。 (51)Int.Cl. 权利要求书2页 说明书10页 附图4页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 10 页 附图 4 页 1/2页 2。
3、 1.一种网络用户行为信息分析系统,其特征在于,包括依次连接的网络用户行为数据 获取模块,网络用户行为数据预处理模块,网络用户行为数据存储模块,网络用户行为数据 分析模块,分析结果显示模块。 2.一种网络用户行为信息分析方法,其特征在于,包括以下步骤: 步骤一:网络用户行为数据获取模块利用集成在其中的埋点程序获取网站用户行为数 据,并将其记录在网站日志数据中,然后对单位时间内搜集到的数据是否异常进行判断,最 后将数据同步至本地数据库;其中埋点程序是由嵌入到浏览器端的收集用户行为数据的程 序代码和后端用于监测用户行为数据收集结果是否异常的程序代码组成; 步骤二:网络用户行为数据预处理模块对网站日。
4、志数据进行识别,筛选出用于用户行 为信息分析的用户行为数据; 步骤三:通过行为序列分析将提取的用户行为数据转换成面向行为特征空间的行为数 据,将其存储于网络用户行为数据存储模块; 步骤四:网络用户行为数据分析模块调用网络用户行为数据存储模块中的用户行为数 据,运用系统设定的用户行为模式挖掘方法对用户行为数据进行分析; 步骤五:分析结果显示模块将用户行为信息分析的结果展示于用户终端显示器界面。 3.根据权利要求2所述的一种网络用户行为信息分析方法,其特征在于,步骤一中获 取网站用户行为数据时,利用了埋点程序,当用户登陆客户端浏览器时,触发收集用户行 为数据的程序代码,在用户访问网站页面时,为用户。
5、创建一个会话和页面编号;用户按照要 求填写相关信息时,收集用户行为数据的程序代码会自动记录用户行为数据;同时,系统设 置了用户最小输入数据量,当收集到的用户行为数据达到用户最小输入数据量时,将记录 到的页面整体数据打包发送到Web服务器;然后将单位时间内收集到的用户行为数据同步 至本地数据库。 4.根据权利要求2所述的一种网络用户行为信息分析方法,其特征在于,步骤二中对 网站日志数据进行识别、筛选,即选出有用的用户行为数据,排除无用的用户行为数据;直 接收集到的网络用户行为数据会出现以下几种情况:第一,前端用户界面显示的页面元素 名和后端记录于日志数据中的页面元素名不一致;第二,涉及用户安全隐。
6、私的内容无法收 集记录,而会产生一些无关的杂乱信息;第三,一个用户对同一页面元素的每次填写都会被 记录下来,从而造成同一页面元素信息的多次重复记录;因此,在识别、筛选有用的用户行 为数据时排除了涉及用户安全隐私的页面元素,并构建了页面元素和日志数据中记录的页 面元素的对照表单,针对重复记录的现象,采取以最后一次记录的信息为准的原则。 5.根据权利要求2所述的一种网络用户行为信息分析方法,其特征在于,步骤三在构 建用户行为序列时采用了正向构建行为序列的方法,即时间窗口的方法;设置一个滚动的 时间窗口,根据每个目标的发生顺序,将用户行为在行为坐标里从左边移动到右边。 6.根据权利要求2所述的一种网。
7、络用户行为信息分析方法,其特征在于,步骤四在对 网络用户行为数据进行用户行为模式挖掘时,主要采用了支持度计算和相关性分析这两种 方法; 支持度计算是通过计算页面元素对目标行为的支持度,来挖掘出那些很可能导致用户 目标频繁发生的行为模式,计算公式为: 权 利 要 求 书CN 102946319 A 2/2页 3 其中代表用户行为, 代表用户行为数据集,其中包括目标数据集和非目标数 据集; 同时,为了捕捉到那些虽然出现频率低,但会对目标行为产生重大影响的行为,我们还 对同一行为在不同数据集中的支持度做了对比分析; 其中是指目标数据集,是指非目标数据集,是目标,是非目标,这里 ,设置一个阈值,如果,。
8、说明对目标的影响要大于对非目 标的影响;如果,则相反; 为了找出用户行为间的相关密切程度,进行了相关性分析,以便于调整页面布局,优化 界面。 7.根据权利要求3所述的一种网络用户行为信息分析方法,其特征在于,将单位时间 内收集到的用户行为数据同步至本地数据库时,由后端用于监测用户行为数据收集结果是 否异常的程序进行入库判断,判断采集到的数据与平均值是否存在异常,如果存在异常,则 将收集到的数据舍去,以平均值代替,否则直接将采集到的数据同步至本地数据库中。 8.根据权利要求6所述的一种网络用户行为信息分析方法,其特征在于,进行相关 性分析是利用SPSS软件,采用Pearson相关系数P来判断页面。
9、元素之间的相关性程度; 若P0.8则认为是极强 正相关。 9.根据权利要求7所述的一种网络用户行为信息分析方法,其特征在于,所述异常是 通过与平均值的差别率判定的,其中差别率可以进行设定。 权 利 要 求 书CN 102946319 A 1/10页 4 网络用户行为信息分析系统及其分析方法 技术领域 0001 本发明属于网络信息分析领域,特别是一种网络用户行为信息分析系统及其分析 方法。 背景技术 0002 随着互联网的发展和计算机的普及,网络用户的数量增长迅速,网络行为逐渐成 为了人类行为中最重要的社会现象之一。深入了解和分析网络用户的行为,才能发现用户 网站使用行为的影响因素,有助于改进和。
10、优化基于网络的信息服务,提高信息管理和服务 的效率。 0003 在行为信息的范围内,行为指的是作为行动、操作或事件的活动以及在虚拟或实 际组织中实体在特定的情境和环境下产生的活动序列。本发明主要研究的是在网络环境下 用户行为所具有的特点。 0004 网络行为可以用某些特征量的统计特征或特征量的关联关系定量或定性的表示。 用户通过电子商务网站进行交易,在这些网站的运转过程中,积累了大量有关客户行为的 数据信息,对这些行为数据进行进一步的研究,可以发现用户网站使用行为中的一般模式 和规律,进而发现网页和网站功能设计中可能存在的问题,从而找到网站改进和完善的方 向。 0005 文献1:中国专利CN 。
11、101188521 A,宁辉,张涛.一种挖掘用户行为数据的方法 和网站服务器.2008.5公开了一种挖掘用户行为数据的方法和网站服务器,通过网站服务 器保存网站日志数据,读取所述网站日志数据,并对所述网站日志数据进行分析,这种方 法不用单独设置统计服务器,节省硬件资源和成本。但是这种方法无法实现对网络用户动 态行为的分析。由于网站日志数据记录的数据有一定的规范,主要记录了用户的访问时间, 访问页面,用户ID,访问IP等,无法获取更多所需要的信息。例如,仅通过网站日志数据不 能获取在网站注册失败的用户的行为信息。 0006 文献2:中国专利CN102238045 A,谢永开.一种无线互联网用户行。
12、为预测系 统.2011.11公开了一种无线互联网用户行为的预测系统,该系统通过位于客户端的手机 用户行为数据采集模块,收集手机用户运行时间的用户行为数据,并发送到服务器,位于服 务器端的手机用户行为分析预测模块,对用户行为建模,根据客户端的用户行为数据采集 模块收集的用户行为数据进行用户行为分析及预测。该发明与本发明在思想和方法上有一 定的一致性,但是也存在缺陷:该发明对收集到的用户行为数据进行聚类分析得到用户分 组,通过关联规则建立用户分组与对应行为间的关系,那么不同的聚类方法可能会使分组 的结果不一致,造成分析结论的不准确,同时该发明主要针对手机无线上网用户,并且所 支持的智能手机操作系统。
13、有限。 发明内容 0007 本发明的目的在于提供一种能方便快速的获取网络用户行为信息,且能保证了用 说 明 书CN 102946319 A 2/10页 5 户行为信息的完整性、连续性和有效性的网络用户行为信息分析系统及分析方法。 0008 实现本发明目的的技术解决方案为: 一种网络用户行为信息分析系统,包括依次连接的网络用户行为数据获取模块,网络 用户行为数据预处理模块,网络用户行为数据存储模块,网络用户行为数据分析模块,分析 结果显示模块。 0009 一种网络用户行为信息分析方法,包括以下步骤: 步骤一:网络用户行为数据获取模块利用集成在其中的埋点程序获取网站用户行为数 据,并将其记录在网站。
14、日志数据中,然后对单位时间内搜集到的数据是否异常进行判断,最 后将数据同步至本地数据库;其中埋点程序是由嵌入到浏览器端的收集用户行为数据的程 序代码和后端用于监测用户行为数据收集结果是否异常的程序代码组成; 步骤二:网络用户行为数据预处理模块对网站日志数据进行识别,筛选出用于用户行 为信息分析的用户行为数据; 步骤三:通过行为序列分析将提取的用户行为数据转换成面向行为特征空间的行为数 据,将其存储于网络用户行为数据存储模块; 步骤四:网络用户行为数据分析模块调用网络用户行为数据存储模块中的用户行为数 据,运用系统设定的用户行为模式挖掘方法对用户行为数据进行分析; 步骤五:分析结果显示模块将用户。
15、行为信息分析的结果展示于用户终端显示器界面。 0010 本发明与现有技术相比,其显著优点: 1、方便快速的获取网络用户行为信息,包括静态和动态的行为信息,保证了用户行为 信息的完整性、连续性和有效性; 2、分析每一个网络用户的正向和负向行为信息,充分挖掘出网络用户行为特征和模 式; 3、数据挖掘算法离线计算,计算结果清晰、客观,以方便企业进一步总结出业务规则, 进行网站结构的优化和调整。 0011 下面结合附图对本发明作进一步详细描述。 附图说明 0012 图1是根据本发明的网络用户行为信息分析系统的结构示意图。 0013 图2是根据本发明实施例的网站用户注册行为信息分析系统的JS页面前端埋点。
16、 程序图。 0014 图3是根据本发明实施例的网站用户注册行为信息分析系统的Java后端埋点程 序图。 0015 图4是根据本发明实施例的网站用户注册行为信息收集与存储结构示意图。 0016 图5是根据本发明实施例的网站用户注册行为序列示意图。 0017 图6是根据本发明实施例的网站用户注册行为信息分析系统的流程图。 具体实施方式 0018 为使本发明的实施例的目的、技术方案和优点更加清楚,下面对本发明中涉及的 一些术语做简单解释。 说 明 书CN 102946319 A 3/10页 6 0019 埋点程序:是由嵌入到浏览器端的收集用户行为数据的程序代码和后端用于监测 用户行为数据收集结果是否。
17、异常的程序代码组成。 0020 基础数据:是埋点程序捕获的用于用户行为信息分析的数据。基础数据属于初级 数据,需要经过本系统根据规则抽取为中间层数据。 0021 中间层数据:是从基础数据中根据预先设定的规则抽取的为本系统所用的业务信 息组合,中间层数据属于半成品数据,还需要经过本系统根据预先设定的算法模块求解出 分析结果。 0022 用户:访问网站的用户。 0023 目标行为:指与企业的绩效相关的行为。 0024 本发明一种网络用户行为信息分析系统,该系统包括依次连接的网络用户行为数 据获取模块,网络用户行为数据预处理模块,网络用户行为数据存储模块,网络用户行为数 据分析模块,分析结果显示模块。
18、。 0025 参见图1,显示了根据本发明一种网络用户行为信息分析系统的结构示意图,具体 包括以下模块。 0026 用户行为数据获取模块101:在网页内嵌套JavaScript脚本,当用户访问网页时, 触发统计脚本获取访问数据,后端Java程序判断数据结构是否异常,并将两者数据合并。 0027 网站用户行为数据预处理模块102:根据预先设定的日志数据存储规则对数据库 记录的日志数据进行识别、筛选、分类和汇总。 0028 网站用户行为数据存储模块103:将经过数据预处理的网络用户行为数据以标准 的格式存储到UEAM系统数据库单元中。 0029 网站用户行为数据分析模块104:根据系统设定的数据挖掘。
19、算法对日志数据进行 分析,并将得出的用户行为分析结果存储于分析结果存储单元中。 0030 分析结果显示模块105:将数据分析的结果显示于系统管理员终端显示器界面。 0031 一种网络用户行为信息分析方法,包括以下步骤: 步骤一:网络用户行为数据获取模块利用集成在其中的埋点程序获取网站用户行为数 据,并将其记录在网站日志数据中,然后对单位时间内收集到的数据是否异常进行判断,最 后将数据同步至本地数据库;其中埋点程序是由嵌入到浏览器端的收集用户行为数据的程 序代码和后端用于监测用户行为数据收集结果是否异常的程序代码组成; 获取网站用户行为数据时,利用了埋点程序,当用户登陆客户端浏览器时,触发收集 。
20、用户行为数据的程序代码,在用户访问网站页面时,为用户创建一个会话和页面编号;用户 按照要求填写相关信息时,收集用户行为数据的程序代码会自动记录用户行为数据;同时, 系统设置了用户最小输入数据量,当收集到的用户行为数据达到用户最小输入数据量时, 将记录到的页面整体数据打包发送到Web服务器;然后将单位时间内收集到的用户行为数 据同步至本地数据库。 0032 将单位时间内收集到的用户行为数据同步至本地数据库时,由后端用于监测用户 行为数据收集结果是否异常的程序进行入库判断,判断采集到的数据与平均值是否存在异 常,如果存在异常,则将收集到的数据舍去,以平均值代替,否则直接将采集到的数据同步 至本地数。
21、据库中;所述异常是通过与平均值的差别率判定的,其中差别率可以进行设定; 步骤二:网络用户行为数据预处理模块对网站日志数据进行识别,筛选出用于用户行 说 明 书CN 102946319 A 4/10页 7 为信息分析的用户行为数据; 对网站日志数据进行识别、筛选,即选出有用的用户行为数据,排除无用的用户行为数 据;直接收集到的网络用户行为数据会出现以下几种情况:(1)前端用户界面显示的页面 元素名和后端记录于日志数据中的页面元素名不一致;如页面元素名为Full Name,而日 志数据记录的字段为userName;(2)涉及用户安全隐私的内容无法收集记录,而会产生一 些无关的杂乱信息;(3)一个用。
22、户对同一页面元素的每次填写都会被记录下来,从而造成 同一页面元素信息的多次重复记录;如用户填写了邮箱地址后,又更换了邮箱地址,那么用 户的两次填写行为都会被记录下来,从而造成邮箱这一信息出现2次记录。因此,在识别、 筛选有用的用户行为数据时排除了涉及用户安全隐私的页面元素,并构建了页面元素和日 志数据中记录的页面元素的对照表单,针对重复记录的现象,采取以最后一次记录的信息 为准的原则。 0033 步骤三:通过行为序列分析将提取的用户行为数据转换成面向行为特征空间的行 为数据,将其存储于网络用户行为数据存储模块; 在构建用户行为序列时采用了正向构建行为序列的方法,即时间窗口的方法;设置一 个滚动。
23、的时间窗口,根据每个目标的发生顺序,将用户行为在行为坐标里从左边移动到右 边。 0034 步骤四:网络用户行为数据分析模块调用网络用户行为数据存储模块中的用户行 为数据,运用系统设定的用户行为模式挖掘方法对用户行为数据进行分析; 在对网络用户行为数据进行用户行为模式挖掘时,主要采用了支持度计算和相关性分 析这两种方法; 支持度计算是通过计算页面元素对目标行为的支持度,来挖掘出那些很可能导致用户 目标频繁发生的行为模式,计算公式为: 其中代表用户行为, 代表用户行为数据集,其中包括目标数据集和非目标数 据集; 同时,为了捕捉到那些虽然出现频率低,但会对目标行为产生重大影响的行为,我们还 对同一行。
24、为在不同数据集中的支持度做了对比分析; 其中是指目标数据集,是指非目标数据集,是目标,是非目标,这里 ,设置一个阈值,如果,说明对目标的影响要大于对非目 标的影响;如果,则相反; 为了衡量用户行为之间的相关密切程度,进行了相关性分析。 0035 进行相关性分析是利用SPSS软件,采用Pearson相关系数P来判断页面元素之间 的相关性程度;若P0.8 说 明 书CN 102946319 A 5/10页 8 则认为是极强正相关。 0036 步骤五:分析结果显示模块将用户行为信息分析的结果展示于用户终端显示器界 面。 0037 实施例1一种网络用户检索行为信息分析方法 步骤一:网络用户行为数据获取。
25、模块利用集成在其中的埋点程序获取网站用户检索 行为数据,其中埋点程序是由嵌入到浏览器端的收集用户行为数据的程序代码和后端用于 监测用户行为数据收集结果是否异常的程序代码组成;当用户按照需求检索信息时,通过 Java程序编写的收集用户行为数据的程序代码自动记录用户名和用户检索的信息,如果用 户检索到了所需信息,则将记录的用户检索行为数据打包发送到网站web服务器;如果用 户没有检索到所需信息,当用户离开页面时,将记录的用户检索行为数据发送到网站web 服务器;前端Java程序收集了一周的用户检索行为数据,向服务器发出请求,此时启动后 端由JavaScript程序编写的用于监测用户行为数据收集结果。
26、是否异常的程序代码进行数 据的入库判断,将这一周采集的数据与之前每周的平均数据进行对比,判断采集的数据与 平均数据相比的差别率是否超出预先设定的浮动范围,如果超出,则用平均值代替,然后将 数据同步至本地数据库,否则直接将采集到的数据同步至本地数据库。 0038 步骤二:网络用户行为数据预处理模块对网站日志数据进行识别,筛选出用于用 户行为信息分析的用户检索行为数据; 对网站日志数据进行识别、筛选,即选出有用的用户检索行为数据,排除无用的用户检 索行为数据;直接收集到的网络用户检索行为数据会出现以下几种情况:(1)前端用户界 面显示的页面元素名和后端记录于日志数据中的页面元素名不一致;(2)涉及。
27、用户安全隐 私的内容无法收集记录,而会产生一些无关的杂乱信息;(3)一个用户对同一页面元素的 每次填写都会被记录下来,从而造成同一页面元素信息的多次重复记录;如用户输入了一 个检索词之后,又对检索词进行了更改,那么用户的两次填写行为都会被记录下来,从而造 成一次检索行为的检索信息重复记录的情况。因此,在识别、筛选有用的用户行为数据时排 除了涉及用户安全隐私的页面元素,并构建了页面元素和日志数据中记录的页面元素的对 照表单,针对重复记录的现象,采取以最后一次记录的信息为准的原则。 0039 步骤三:通过行为序列分析将提取的用户检索行为数据转换成面向行为特征空间 的行为数据,将其存储于网络用户行为。
28、数据存储模块; 在构建用户检索行为序列时采用了正向构建行为序列的方法,即时间窗口的方法;设 置一个滚动的时间窗口,根据每个目标的发生顺序,将用户检索行为在行为坐标里从左边 移动到右边。 0040 步骤四:网络用户行为数据分析模块调用网络用户行为数据存储模块中的用户检 索行为数据,运用系统设定的用户行为模式挖掘方法对用户检索行为数据进行分析; 在对网络用户检索行为数据进行用户行为模式挖掘时,主要采用了支持度计算和相关 性分析这两种方法; 支持度计算是通过计算检索行为对检索目标的支持度,来挖掘出那些很可能导致用户 目标频繁发生的行为模式,计算公式为: 说 明 书CN 102946319 A 6/1。
29、0页 9 其中代表用户检索行为, 代表用户检索行为数据集,其中包括目标数据集和 非目标数据集; 同理可以得出数据集和中导致用户检索成功和失败的行为模式的支持度 和分别为: 在数据集中支持度越高,说明该行为或行为序列对目标的影响越大;在数据集 中支持度越低,说明该行为或行为序列对目标的影响越大。 0041 同时,为了捕捉到那些虽然出现频率低,但会对目标行为产生重大影响的行为,我 们还对同一行为在不同数据集中的支持度做了对比分析; 其中是指目标数据集,是指非目标数据集,是目标,是非目标,这里 ,设置一个阈值,如果,说明对目标的影响要大于对非目 标的影响;如果,则相反; 为了衡量用户检索行为之间的相。
30、关密切程度,进行了相关性分析,以便于找到检索成 功的最佳路径。 0042 进行相关性分析是利用SPSS软件,采用Pearson相关系数P来判断页面元素之间 的相关性程度;若P0.8 则认为是极强正相关。 0043 步骤五:分析结果显示模块将用户检索行为信息分析的结果展示于用户终端显示 器界面。 0044 为了更清晰的阐述本发明的目的、技术方案和优点,下面结合具体实施例和附图 对本发明进行详细阐述。 0045 结合附图2-6: 实施例2一种网络用户注册行为信息分析方法 步骤一:网络用户行为数据获取模块利用集成在其中的埋点程序获取网站用户注册行 为数据,其中埋点程序是由嵌入到浏览器端的收集用户行为。
31、数据的程序代码和后端用于监 测用户行为数据收集结果是否异常的程序代码组成;当用户访问MIC英文注册页面201, 则会创建一个Session和产生PageId204,如果用户刷新页面,则重新创建PageId205,当 用户按照要求填写相关注册信息时(包括用户名,密码,地区,邮箱,公司名称等),通过 JavaScript程序编写的收集用户行为数据的程序代码自动记录用户注册行为数据206,如 果用户完成了预设量的数据输入,则将记录的页面整体数据PageInfo208,打包发送到web 说 明 书CN 102946319 A 7/10页 10 服务器209,如果用户关闭了MIC 注册页面,记录关闭前页。
32、面整体数据208,并将数据打包 发送到web服务器209并将其记录在网站日志数据中,前端JavaScript程序收集了一天的 用户注册行为数据,向服务器发出请求301,此时启动后端由Java程序编写的用于监测用 户行为数据收集结果是否异常的程序代码进行数据的入库判断302,将这一天采集的数据 与之前每天的平均数据进行对比,判断采集的数据与平均数据相比的差别率是否超出预先 设定的浮动范围,如果超出,则用平均值代替305,然后将数据同步至本地数据库304,否则 直接将采集到的数据同步至本地数据库304。 0046 步骤二:网络用户行为数据预处理模块对网站日志数据进行识别,筛选出用于用 户行为信息分。
33、析的用户注册行为数据; 对网站日志数据进行识别、筛选,即选出有用的用户行为数据,排除无用的用户行为数 据;直接收集到的网络用户行为数据会出现以下几种情况:(1)前端用户界面显示的页面 元素名和后端记录于日志数据中的页面元素名不一致;如页面元素名为Full Name,而日 志数据记录的字段为userName;(2)涉及用户安全隐私的内容无法收集记录,而会产生一 些无关的杂乱信息;(3)一个用户对同一页面元素的每次填写都会被记录下来,从而造成 同一页面元素信息的多次重复记录;如用户填写了邮箱地址后,又更换了邮箱地址,那么用 户的两次填写行为都会被记录下来,从而造成邮箱这一信息出现2次记录。因此,在。
34、识别、 筛选有用的用户行为数据时排除了涉及用户安全隐私的页面元素,并构建了页面元素和日 志数据中记录的页面元素的对照表单,针对重复记录的现象,采取以最后一次记录的信息 为准的原则。 0047 步骤三:通过行为序列分析将提取的用户注册行为数据转换成面向行为特征空间 的行为数据,将其存储于网络用户行为数据存储模块; 在构建用户注册行为序列时采用了正向构建行为序列的方法,即时间窗口的方法;设 置一个滚动的时间窗口,根据每个目标的发生顺序,将用户注册行为在行为坐标里从左边 移动到右边。 0048 步骤四:网络用户行为数据分析模块调用网络用户行为数据存储模块中的用户注 册行为数据,运用系统设定的用户行为。
35、模式挖掘方法对用户注册行为数据进行分析; 在对网络用户注册行为数据进行用户行为模式挖掘时,主要采用了支持度计算和相关 性分析这两种方法; 支持度计算是通过计算页面元素对提交行为的支持度,来挖掘出那些很可能导致用户 目标频繁发生的行为模式,计算公式为: 其中代表用户注册行为, 代表用户注册行为数据集,其中包括目标数据集和 非目标数据集; 同理可以得出数据集和中导致用户注册成功和失败的行为模式的支持度 和分别为: 说 明 书CN 102946319 A 10 8/10页 11 在数据集中支持度越高,说明该行为或行为序列对目标的影响越大;在数据集 中支持度越低,说明该行为或行为序列对目标的影响越大。。
36、 0049 同时,为了捕捉到那些虽然出现频率低,但会对目标行为产生重大影响的行为,我 们还对同一行为在不同数据集中的支持度做了对比分析; 其中是指目标数据集,是指非目标数据集,是目标,是非目标,这里 ,设置一个阈值,如果,说明对目标的影响要大于对非目 标的影响;如果,则相反; 为了衡量页面两两元素的相关密切程度,进行了相关性分析,以便于调整页面布局,优 化界面。 0050 进行相关性分析是利用SPSS软件,采用Pearson相关系数P来判断页面元素之间 的相关性程度;若P0.8 则认为是极强正相关。 0051 步骤五:分析结果显示模块将用户注册行为信息分析的结果展示于用户终端显示 器界面。 0。
37、052 图2是根据本发明实施例的网站用户注册行为信息分析系统的JavaScript页面 前端埋点程序图。 0053 用户访问MIC英文注册页面201,则会创建一个Session和产生PageId204,如果 用户刷新页面,则重新创建PageId205,当用户按照要求填写相关注册信息时,JavaScript 程序自动记录用户注册行为数据206,如果用户完成了预设量的数据输入,则将记录的页面 整体数据PageInfo208,打包发送到web服务器209,如果用户关闭了MIC 注册页面,记录 关闭前页面整体数据208,并将数据打包发送到web服务器209。 0054 图3是根据本发明实施例的网站用户。
38、注册行为监测系统的Java后端埋点程序图。 0055 前端JavaScript埋点程序收集了一定量的用户注册行为数据,向服务器发出请 求301,此时启动后端Java埋点程序进行数据的入库判断302,判断采集的数据与平均值是 否存在异常,如果存在异常,则用平均值代替305,然后将数据同步至本地数据库304,否则 直接将采集到的数据同步至本地数据库304。 0056 参见图4,显示了根据本发明实施例的网站用户注册行为信息收集与存储结构示 意图。 0057 用户打开浏览器访问MIC网站401,系统判定用户是否为初次访问MIC网站402, 若用户不是初次访问MIC,则不对用户的注册行为信息进行采集;若。
39、用户是初次访问MIC, 说 明 书CN 102946319 A 11 9/10页 12 则触发“埋点程序”403,接着向用户浏览器植入并启动JS页面前端“埋点程序”404,405对 于埋点程序记录的用户行为数据量进行判别,若达到预先设定的数据量,则JS程序就会将 用户的注册行为数据打包发送到网站Web服务器并存储在本地日志数据库中406,若记录 的数据量未达到预先设定的数据量,则识别和判定用户是否离开注册页面407,若用户离开 了注册页面,进一步判定用户是否关闭了浏览器408,若用户浏览器关闭,则当用户再次打 开浏览器时410,将用户的注册行为数据打包发送网站Web服务器并存储在本地日志数据 。
40、库中406,若用户没有离开注册页面,或者用户虽然离开了注册页面但未将浏览器关闭,则 等待系统预设时间409,预设时间过后,将用户的注册行为数据打包发送网站Web服务器并 存储在本地日志数据库中406; 应用服务器提取网站日志文件411,Java后端埋点程序采集本地数据库中的数据纳入 企业数据仓库中412,经过分析、处理后,合并Java端数据和JavaScript日志数据413,并 将初步整理的数据存入UEAM系统数据库414,则系统完成了一次用户注册行为数据的采集 415。 0058 本发明实施例在识别、筛选、提取数据时采用了正向构建行为序列的方法,即时间 窗口的方法。本发明实施例关注的目标行。
41、为是用户注册成功与否,因此从用户进入注册页 面到用户离开注册页面就构成了一个完整的时间窗口,设目标为用户“注册成功”和“注 册失败”其中,由于注册流程存在两个注册页面,因此,设两个子目标分别为页面一注册 成功和页面二注册成功和页面一不成功和页面二不成功。设置一个滚动的时间 窗口来选择行为,时间窗口根据每个目标的发生在行为坐标里从左边移动到右边。不论用 户注册成功与否,只要他离开注册页面,那么之前用户的一系列行为都讲被放入一个组 中。图5即为MIC用户注册行为序列示意图。其中,代表目标行为,注册行为序列被分解 为两个子行为序列,子目标行为分别为和;代表第个控件填写行为。 0059 参见图6,显示。
42、了根据本发明实施例的网站用户注册行为监测系统的流程图。 0060 系统管理员通过浏览器终端登录601,监测系统返回一个HTTP响应,管理员浏览 器上显示用户注册行为监测系统查询界面,等待操作请求603,弹出提示操作对话框604, 是否需要调用用户注册行为数据存储模块中的数据?管理员若选择“否”,则退出监测系 统,并在用户浏览器终端显示欢迎再次使用的页面。用户若选择“是”,首先将数据存储模 块中的数据调入到用户注册行为数据分析模块605,然后弹出数据分析算法类型的选择框 606,管理员点击后,将管理员输入的选择指令输入监测系统607,根据管理员选择的算法进 行数据分析和计算608,将数据分析的结。
43、果显示到终端浏览器界面609,弹出提示操作对话 框610,是否继续查询?管理员选择“是”,返回606;管理员选择“否”,则退出监测系统,并 在管理员浏览器终端显示欢迎再次使用的页面。 0061 对于606,在本发明的实施例中采用的用户行为模式挖掘方法主要有两个,即支持 度计算和相关性分析。这两种方法主要实现了页面元素对提交行为的支持度的计算,以及 页面各元素之间的相关性的分析。 0062 在本发明的实施例中,支持度计算就是要挖掘出那些很可能导致用户注册成功或 者注册失败的频繁发生的行为模式。用户在MIC英文注册页面的所有行为构成了一个数据 集,它有两个子集,即导致用户注册成功的用户行为数据集和。
44、导致用户注册失败的用 说 明 书CN 102946319 A 12 10/10页 13 户行为数据集。在整个数据集中导致目标行为发生的行为模式的支持度 计算公式为: 同理可以得出数据集和中导致用户注册成功和失败的行为模式的支持度 和分别为: 在数据集中支持度越高,说明该行为或行为序列对目标的影响越大;在数据集 中支持度越低,说明该行为或行为序列对目标的影响越大。 0063 同时,本发明实施例还对同一行为在不同数据集中的支持度做了对比分析,以便 捕捉到那些虽然出现频率低,但会对目标行为产生重大影响的行为。数据集和中的行 为的支持度对比比值Contrast为: 设置一个阈值,如果,则说明行为对目标。
45、行为的影响要大于对目标 行为的影响;如果,则说明行为对目标行为的影响要大于对目标行为 的影响;本发明实施例设置阈值,来寻找对不同目标行为产生重要影响的行为。 0064 为了进一步分析注册页面各个控件之间的关联关系,本发明实施例对MIC注册页 面各元素做了相关性分析。相关性分析是指对两个或多个具备相关性的变量元素进行分 析,从而衡量两个变量因素的相关密切程度。 0065 通过以上事实方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软 件结合硬件平台的方式来实现。基于此,本发明的技术方案对背景技术做出贡献的全部或 部分可以以软件产品的形式体现出来,该计算机软件产品可以存储于存储介质中,如R。
46、OM/ RAM、磁碟、光盘等,包括若干指令用以使用一台计算机设备(可以是个人计算机、服务器,或 者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。 0066 本发明可以对各种用户行为信息进行分析。 0067 综上所述,本发明的一种网络用户行为信息分析系统及分析方法对网络用户行为 信息进行了采集和存储,通过系统事先设置的挖掘算法和规则得出数据分析结果,最后通 过分析结果显示给企业做进一步的分析,从而总结出一定的业务规则。不仅帮助网站及时 的发现用户行为特征,而且使得网站进一步的完善了组织结构,提高了网站结构的合理性。 说 明 书CN 102946319 A 13 1/4页 14 图1 图2 说 明 书 附 图CN 102946319 A 14 2/4页 15 图3 说 明 书 附 图CN 102946319 A 15 3/4页 16 图4 图5 说 明 书 附 图CN 102946319 A 16 4/4页 17 图6 说 明 书 附 图CN 102946319 A 17 。