基于跨网通信网络报文的用户行为关联分析方法.pdf

上传人:a3 文档编号:4266720 上传时间:2018-09-12 格式:PDF 页数:7 大小:369.13KB
返回 下载 相关 举报
摘要
申请专利号:

CN201110162107.2

申请日:

2011.06.16

公开号:

CN102831124A

公开日:

2012.12.19

当前法律状态:

终止

有效性:

无权

法律详情:

未缴年费专利权终止 IPC(主分类):G06F 17/30申请日:20110616授权公告日:20150805终止日期:20160616|||专利权人的姓名或者名称、地址的变更IPC(主分类):G06F 17/30变更事项:专利权人变更前:北京亿赞普网络技术有限公司变更后:亿赞普(中国)网络技术有限公司变更事项:地址变更前:100081 北京市海淀区中关村南大街甲18号北京国际大厦B座18层变更后:100081 北京市海淀区中关村南大街甲18号北京国际大厦B座18层|||授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20110616|||公开

IPC分类号:

G06F17/30; H04L12/56

主分类号:

G06F17/30

申请人:

北京亿赞普网络技术有限公司

发明人:

刘书良; 罗峰; 黄苏支; 李娜; 王琪; 张玉波; 阎飞飞; 刘生; 肖燕京

地址:

100081 北京市海淀区中关村南大街甲18号北京国际大厦B座18层

优先权:

专利代理机构:

北京市盛峰律师事务所 11337

代理人:

李贺香

PDF下载: PDF下载
内容摘要

本发明涉及一种基于跨网通信网络报文的用户行为关联分析方法,其特征在于:通过如下方法步骤来实现:(1)在现有网络上部署多个网关,从网络报文中提取用户行为信息;(2)通过用户行为信息综合分析得到访问某个网站的人群更倾向于搜索哪些关键词;(3)通过用户行为信息综合分析得到访问某个网站的人群更倾向于搜索哪些广告或者网站,该方法能使当用户访问一个网站的时候,推荐其感兴趣的其他同类网站;当用户搜索一个关键字时,给他推荐更为准确的相关网站;当用户访问某个网站时,推荐系统给他推荐可能感兴趣的广告,从而可以提高广告投放的精准性。

权利要求书

1.一种基于跨网通信网络报文的用户行为关联分析方法,其特征在于:通过如下方法步
骤来实现:
(1)在现有网络上部署多个网关,从网络报文中提取用户行为信息;
(2)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键词;
(3)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些广告或者网
站。
2.根据权利要求1所述的一种基于跨网通信网络报文的用户行为关联分析方法,其特征
在于:所述用户行为信息可分为如下三种:访问网站、搜索引擎查询关键字和点击广告行为,
所述访问网站信息为用户在某个时刻访问某个网站所产生的信息;所述搜索引擎查询关键字
信息为用户在某个时刻搜索某个关键字所产生的信息;所述点击广告行为信息为用户在某个
时刻点击某个广告所产生的信息。
3.根据权利要求1所述的一种基于跨网通信网络报文的用户行为关联分析方法,其特
征在于:所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键
词中,所述用户行为信息的数据来源为访问网站信息和搜索引擎查询关键字信息。
4.根据权利要求1或3所述的一种基于跨网通信网络报文的用户行为关联分析方法,
其特征在于:所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些
关键词通过如下步骤实现:
(1)Job1:从访问网站的日志信息用户得到这个用户访问了哪些网站、何时访问网站的
列表信息;从搜索关键词信息得到这个用户搜索了哪些关键词以及何时搜索该关键词的列表
信息;
(2)Job2:由于从Job1我们得到每个用户的一系列上网行为信息,这些信息包括用户访
问的所有网站和搜索的所有关键词以及这些行为发生的时间,因此根据每一个用户的用户号
进行关联得到网站和关键词的对应信息:访问的网站、搜索的关键词;其中这些对应关系加
上了时间窗口的限制。
(3)Job3:统计访问网站和关键词的频次,得到的数据如下:访问的网站、搜索的关键
词,两者出现的频次;
(4)Job4:得到了网站和相应的关键词信息后,就可以统计两者之间的相关性了,Job4
可以得到如下的数据信息:访问的网站、搜索的关键词,关键词出现的频次n,网站和关键
词都出现的频次m,两者的比例r(m/n);r反映了这个关键词在多大程度上与目标网站的相关
联,即访问某个网站的人更倾向搜索某些关键词的程度;
(5)Job5:根据上述步骤得到的信息中一个网站可能会在多行出现,为了得出的结果更
于方便查看,在Job5里面合并这些网站,并且统计出该网站出现的频次:访问的网站,该网站
出现的频次,搜索的关键词1,关键词出现的频次n1,网站和关键词都出现的频次m1,两者
的比例r1(m1/n1),搜索的关键词2,关键词出现的频次n2,网站和关键词都出现的频次m2,
两者的比例r2(m2/n2)以此类推。

说明书

基于跨网通信网络报文的用户行为关联分析方法

技术领域

本发明涉及网络用户特征分析领域,特别涉及一种基于跨网通信网络报文的用户行为关
联分析方法。

背景技术

随着因特网的日益壮大,网络用户也越来越多。通常情况下用户在点击网页或在搜索引
擎下搜索某个关键字的时候,会产生相关的网络报文。用户行为关联分析发现关联规则,在
用户行为分析中,可以把用户的一种使用习惯和另外的使用习惯进行关联分析,也可以把用
户的消费习惯和使用网络习惯进行关联分析。

一般而言,一些大型网站会根据访问自己网站的用户行为进行关联分析。比如说新浪、
腾讯等大型门户网站,用户访问了这些网站之后可能会看到网页上某个比较感兴趣的话题然
后打开此链接,这样的用户访问行为都会被该网站的服务器捕捉到,从而可以对用户的上网
行为进行关联分析。但是现实情况下,上网用户不会只访问一个门户网站,他还可能会访问
很多非门户网站或者在搜索引擎下搜索某些关键字,这些信息是无法只通过一两个网站得到
的信息。

当网络用户访问某个大型门户网站时,该网站的服务器会记录该用户的信息,用户点击
某个感兴趣的网页链接后,这些访问的信息同样被该服务器获得。通过对该网站的访问信息
的关联分析可以获得用户在这个网站上的上网习惯,知道不同用户的上网习惯后可以针对不
同的用户投放其感兴趣的广告或网页信息。

同样当用户访问某个大型搜索引擎比如百度、谷歌时,此网站的服务器会记录用户的搜
索信息和点击信息,通过对这些信息的关联分析也可以获得用户在该网站上的上网习惯。

现有技术存在的缺点:由于网络用户访问网站信息只能通过单个或某几个网站获得,所
得的用户上网习惯只局限于几个点的网站,不能得到该用户全方位的上网用户习惯,从而对
用户的上网习惯的认知会存在偏差。

在对用户行为的分析过程中,发明人发现以下问题:

1)传统的用户行为关联分析主要基于单个网站服务器的网络报文信息,而不同用户会访问
不同的网站,传统的用户行为关联分析法不能对全部的用户进行分析,是造成用户行为关联
分析不准的原因之一。

2)其次因为单个用户的很多行为是通过访问多个不同网站的服务器实现的,传统的用户行
为关联分析法不能对单个用户访问多个服务器的信息进行分析,这是造成分析不准的原因之
二。

发明内容

为克服现有技术不足,本发明的目的是提供一种基于跨网通信网络报文的用户行为关联
分析方法,该方法能使当用户访问一个网站的时候,推荐其感兴趣的其他同类网站;当用户
搜索一个关键字时,给他推荐更为准确的相关网站;当用户访问某个网站时,推荐系统给他
推荐可能感兴趣的广告,从而可以提高广告投放的精准性。

本发明技术方案:

一种基于跨网通信网络报文的用户行为关联分析方法,通过如下方法步骤来实现:

(1)在现有网络上部署多个网关,从网络报文中提取用户行为信息;

(2)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键;

(3)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些广告或者
网站。

所述用户行为信息可分为如下三种:访问网站、搜索引擎查询关键字和点击广告行为,
所述访问网站信息为用户在某个时刻访问某个网站所产生的信息,对应产生一条日志信息:
用户、访问的网站、访问时间,所述搜索引擎查询关键字信息为用户在某个时刻搜索某个关
键字所产生的信息,对应产生一条日志信息:用户、搜索的关键词、搜索时间;所述点击广
告行为信息为:用户在某个时刻点击某个广告所产生的信息,对应产生一条日志信息:用户、
点击的广告、点击时间。

所述通过用户行为信息综合分析得到访问某个网站的人群更倾向于搜索哪些关键词中所
述用户行为信息的数据来源为访问网站信息和搜索引擎查询关键字信息。

所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键词通
过五个MapReduce程序实现:

(1)Job1:从访问网站的日志信息(用户、访问的网站、访问时间)得到这个用户访问了哪
些网站、何时访问网站的列表信息:用户、访问的网站列表、访问时间列表;从搜索关键词
信息:用户、搜索的关键词、搜索时间;得到这个用户搜索了哪些关键词以及何时搜索该关
键词的列表信息:用户、搜索的关键词列表、搜索时间列表;

(2)Job2:由于从Job1得到每个用户的一系列上网行为信息,这些信息包括用户访问的
所有网站和搜索的所有关键词以及这些行为发生的时间,因此根据每一个用户的用户号进行
关联得到网站和关键词的对应信息:访问的网站、搜索的关键词;其中这些对应关系加上了
时间窗口(如1Hour)的限制,因为一个用户在浏览网页时有时会刷新网页,在这里我们只计算
一次,即一个时间段内用户访问了多次某个网站和搜索了某个关键词时只算一次。

(3)Job3:统计访问网站和关键词的频次,得到的数据如下:访问的网站,搜索的关键词,
两者出现的频次;

(4)Job4:得到了网站和相应的关键词信息后,就可以统计两者之间的相关性了,Job4
可以得到如下的数据信息:访问的网站,搜索的关键词,关键词出现的频次n,网站和关键词
都出现的频次m,两者的比例r(m/n);r反映了这个关键词在多大程度上与目标网站的相关联,
即访问某个网站的人更倾向搜索某些关键词的程度;

(5)Job5:根据上述步骤得到的信息中一个网站可能会在多行出现,为了得出的结果更
于方便查看,在Job5里面合并这些网站,并且统计出该网站出现的频次:访问的网站,该网站
出现的频次,搜索的关键词1,关键词出现的频次n1,网站和关键词都出现的频次m1,两者
的比例r1(m1/n1),搜索的关键词2,关键词出现的频次n2,网站和关键词都出现的频次m2,
两者的比例r2(m2/n2)以此类推。

本发明显著优点在于:

传统方法从单个网站出发,只能获取本网站的用户访问网站、搜索关键字和点击广告的
信息。本方案与装置引入网关设备,可以获取跨网所有用户的通信网络报文,从而可以得到
用户在全网的的上网行为,进而可以对用户的上网行为进行准确关联,提高了关联分析方法
的准确性。

附图说明

图1为本发明所述基于跨网通信网络报文的用户行为关联分析方法中关键字分析方法
示意图。

具体实施方式

现结合说明书附图1介绍本发明所述的基于跨网通信网络报文的用户行为关联分析
方法具体实施方式:一种基于跨网通信网络报文的用户行为关联分析方法,通过如下方法步
骤来实现:

(1)在现有网络上部署多个网关,从网络报文中提取用户行为信息;

(2)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键;

(3)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些广告或者
网站。

所述用户行为信息可分为如下三种:访问网站、搜索引擎查询关键字和点击广告行为,
所述访问网站信息为用户在某个时刻访问某个网站所产生的信息,对应产生一条日志信息:
用户、访问的网站、访问时间,所述搜索引擎查询关键字信息为用户在某个时刻搜索某个关
键字所产生的信息,对应产生一条日志信息:用户、搜索的关键词、搜索时间;所述点击广
告行为信息为:用户在某个时刻点击某个广告所产生的信息,对应产生一条日志信息:用户、
点击的广告、点击时间。

所述通过用户行为信息综合分析得到访问某个网站的人群更倾向于搜索哪些关键词中所
述用户行为信息的数据来源为访问网站信息和搜索引擎查询关键字信息。

所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键词通
过五个MapReduce程序实现:

(1)Job1:从访问网站的日志信息(用户、访问的网站、访问时间)得到这个用户访问了哪
些网站、何时访问网站的列表信息:用户、访问的网站列表、访问时间列表;从搜索关键词
信息:用户、搜索的关键词、搜索时间;得到这个用户搜索了哪些关键词以及何时搜索该关
键词的列表信息:用户、搜索的关键词列表、搜索时间列表;

(2)Job2:由于从Job1得到每个用户的一系列上网行为信息,这些信息包括用户访问的
所有网站和搜索的所有关键词以及这些行为发生的时间,因此根据每一个用户的用户号进行
关联得到网站和关键词的对应信息:访问的网站、搜索的关键词;其中这些对应关系加上了
时间窗口(如1Hour)的限制,因为一个用户在浏览网页时有时会刷新网页,在这里我们只计算
一次,即一个时间段内用户访问了多次某个网站和搜索了某个关键词时只算一次。

(3)Job3:统计访问网站和关键词的频次,得到的数据如下:访问的网站,搜索的关键词,
两者出现的频次;

(4)Job4:得到了网站和相应的关键词信息后,就可以统计两者之间的相关性了,Job4
可以得到如下的数据信息:访问的网站,搜索的关键词,关键词出现的频次n,网站和关键词
都出现的频次m,两者的比例r(m/n);r反映了这个关键词在多大程度上与目标网站的相关联,
即访问某个网站的人更倾向搜索某些关键词的程度;

(5)Job5:根据上述步骤得到的信息中一个网站可能会在多行出现,为了得出的结果更
于方便查看,在Job5里面合并这些网站,并且统计出该网站出现的频次:访问的网站,该网站
出现的频次,搜索的关键词1,关键词出现的频次n1,网站和关键词都出现的频次m1,两者
的比例r1(m1/n1),搜索的关键词2,关键词出现的频次n2,网站和关键词都出现的频次m2,
两者的比例r2(m2/n2)以此类推。

本发明不限于上述实施方式,对于本领域普通技术人员而言,对上述实施方式所做出的
任何显而易见的改进或变更,都不会超出本发明的构思和所附权利要求的保护范围。

基于跨网通信网络报文的用户行为关联分析方法.pdf_第1页
第1页 / 共7页
基于跨网通信网络报文的用户行为关联分析方法.pdf_第2页
第2页 / 共7页
基于跨网通信网络报文的用户行为关联分析方法.pdf_第3页
第3页 / 共7页
点击查看更多>>
资源描述

《基于跨网通信网络报文的用户行为关联分析方法.pdf》由会员分享,可在线阅读,更多相关《基于跨网通信网络报文的用户行为关联分析方法.pdf(7页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102831124 A (43)申请公布日 2012.12.19 C N 1 0 2 8 3 1 1 2 4 A *CN102831124A* (21)申请号 201110162107.2 (22)申请日 2011.06.16 G06F 17/30(2006.01) H04L 12/56(2006.01) (71)申请人北京亿赞普网络技术有限公司 地址 100081 北京市海淀区中关村南大街甲 18号北京国际大厦B座18层 (72)发明人刘书良 罗峰 黄苏支 李娜 王琪 张玉波 阎飞飞 刘生 肖燕京 (74)专利代理机构北京市盛峰律师事务所 11337 代理人李贺香 。

2、(54) 发明名称 基于跨网通信网络报文的用户行为关联分析 方法 (57) 摘要 本发明涉及一种基于跨网通信网络报文的用 户行为关联分析方法,其特征在于:通过如下方 法步骤来实现:(1)在现有网络上部署多个网关, 从网络报文中提取用户行为信息;(2)通过用户 行为信息综合分析得到访问某个网站的人群更倾 向于搜索哪些关键词;(3)通过用户行为信息综 合分析得到访问某个网站的人群更倾向于搜索哪 些广告或者网站,该方法能使当用户访问一个网 站的时候,推荐其感兴趣的其他同类网站;当用 户搜索一个关键字时,给他推荐更为准确的相关 网站;当用户访问某个网站时,推荐系统给他推 荐可能感兴趣的广告,从而可以提。

3、高广告投放的 精准性。 (51)Int.Cl. 权利要求书1页 说明书4页 附图1页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 4 页 附图 1 页 1/1页 2 1.一种基于跨网通信网络报文的用户行为关联分析方法,其特征在于:通过如下方法 步骤来实现: (1)在现有网络上部署多个网关,从网络报文中提取用户行为信息; (2)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关键 词; (3)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些广告或 者网站。 2.根据权利要求1所述的一种基于跨网通信网络报文的用户行为关联分。

4、析方法,其特 征在于:所述用户行为信息可分为如下三种:访问网站、搜索引擎查询关键字和点击广告 行为,所述访问网站信息为用户在某个时刻访问某个网站所产生的信息;所述搜索引擎查 询关键字信息为用户在某个时刻搜索某个关键字所产生的信息;所述点击广告行为信息为 用户在某个时刻点击某个广告所产生的信息。 3.根据权利要求1所述的一种基于跨网通信网络报文的用户行为关联分析方法,其特 征在于:所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关 键词中,所述用户行为信息的数据来源为访问网站信息和搜索引擎查询关键字信息。 4.根据权利要求1或3所述的一种基于跨网通信网络报文的用户行为关联分析。

5、方法, 其特征在于:所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪 些关键词通过如下步骤实现: (1)Job1:从访问网站的日志信息用户得到这个用户访问了哪些网站、何时访问网站的 列表信息;从搜索关键词信息得到这个用户搜索了哪些关键词以及何时搜索该关键词的列 表信息; (2)Job2:由于从Job1我们得到每个用户的一系列上网行为信息,这些信息包括用户 访问的所有网站和搜索的所有关键词以及这些行为发生的时间,因此根据每一个用户的用 户号进行关联得到网站和关键词的对应信息:访问的网站、搜索的关键词;其中这些对应 关系加上了时间窗口的限制。 (3)Job3:统计访问网站和关键词。

6、的频次,得到的数据如下:访问的网站、搜索的关键 词,两者出现的频次; (4)Job4:得到了网站和相应的关键词信息后,就可以统计两者之间的相关性了,Job4 可以得到如下的数据信息:访问的网站、搜索的关键词,关键词出现的频次n,网站和关键 词都出现的频次m,两者的比例r(m/n);r反映了这个关键词在多大程度上与目标网站的相 关联,即访问某个网站的人更倾向搜索某些关键词的程度; (5)Job5:根据上述步骤得到的信息中一个网站可能会在多行出现,为了得出的结果更 于方便查看,在Job5里面合并这些网站,并且统计出该网站出现的频次:访问的网站,该网 站出现的频次,搜索的关键词1,关键词出现的频次n。

7、1,网站和关键词都出现的频次m1,两 者的比例r1(m1/n1),搜索的关键词2,关键词出现的频次n2,网站和关键词都出现的频次 m2,两者的比例r2(m2/n2)以此类推。 权 利 要 求 书CN 102831124 A 1/4页 3 基于跨网通信网络报文的用户行为关联分析方法 技术领域 0001 本发明涉及网络用户特征分析领域,特别涉及一种基于跨网通信网络报文的用户 行为关联分析方法。 背景技术 0002 随着因特网的日益壮大,网络用户也越来越多。通常情况下用户在点击网页或在 搜索引擎下搜索某个关键字的时候,会产生相关的网络报文。用户行为关联分析发现关联 规则,在用户行为分析中,可以把用户。

8、的一种使用习惯和另外的使用习惯进行关联分析,也 可以把用户的消费习惯和使用网络习惯进行关联分析。 0003 一般而言,一些大型网站会根据访问自己网站的用户行为进行关联分析。比如说 新浪、腾讯等大型门户网站,用户访问了这些网站之后可能会看到网页上某个比较感兴趣 的话题然后打开此链接,这样的用户访问行为都会被该网站的服务器捕捉到,从而可以对 用户的上网行为进行关联分析。但是现实情况下,上网用户不会只访问一个门户网站,他还 可能会访问很多非门户网站或者在搜索引擎下搜索某些关键字,这些信息是无法只通过一 两个网站得到的信息。 0004 当网络用户访问某个大型门户网站时,该网站的服务器会记录该用户的信息。

9、,用 户点击某个感兴趣的网页链接后,这些访问的信息同样被该服务器获得。通过对该网站的 访问信息的关联分析可以获得用户在这个网站上的上网习惯,知道不同用户的上网习惯后 可以针对不同的用户投放其感兴趣的广告或网页信息。 0005 同样当用户访问某个大型搜索引擎比如百度、谷歌时,此网站的服务器会记录用 户的搜索信息和点击信息,通过对这些信息的关联分析也可以获得用户在该网站上的上网 习惯。 0006 现有技术存在的缺点:由于网络用户访问网站信息只能通过单个或某几个网站获 得,所得的用户上网习惯只局限于几个点的网站,不能得到该用户全方位的上网用户习惯, 从而对用户的上网习惯的认知会存在偏差。 0007 。

10、在对用户行为的分析过程中,发明人发现以下问题: 0008 1)传统的用户行为关联分析主要基于单个网站服务器的网络报文信息,而不同用 户会访问不同的网站,传统的用户行为关联分析法不能对全部的用户进行分析,是造成用 户行为关联分析不准的原因之一。 0009 2)其次因为单个用户的很多行为是通过访问多个不同网站的服务器实现的,传统 的用户行为关联分析法不能对单个用户访问多个服务器的信息进行分析,这是造成分析不 准的原因之二。 发明内容 0010 为克服现有技术不足,本发明的目的是提供一种基于跨网通信网络报文的用户行 为关联分析方法,该方法能使当用户访问一个网站的时候,推荐其感兴趣的其他同类网站; 说。

11、 明 书CN 102831124 A 2/4页 4 当用户搜索一个关键字时,给他推荐更为准确的相关网站;当用户访问某个网站时,推荐系 统给他推荐可能感兴趣的广告,从而可以提高广告投放的精准性。 0011 本发明技术方案: 0012 一种基于跨网通信网络报文的用户行为关联分析方法,通过如下方法步骤来实 现: 0013 (1)在现有网络上部署多个网关,从网络报文中提取用户行为信息; 0014 (2)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关 键; 0015 (3)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些广 告或者网站。 0016 所述用户行为信息可分。

12、为如下三种:访问网站、搜索引擎查询关键字和点击广告 行为,所述访问网站信息为用户在某个时刻访问某个网站所产生的信息,对应产生一条日 志信息:用户、访问的网站、访问时间,所述搜索引擎查询关键字信息为用户在某个时刻搜 索某个关键字所产生的信息,对应产生一条日志信息:用户、搜索的关键词、搜索时间;所 述点击广告行为信息为:用户在某个时刻点击某个广告所产生的信息,对应产生一条日志 信息:用户、点击的广告、点击时间。 0017 所述通过用户行为信息综合分析得到访问某个网站的人群更倾向于搜索哪些关 键词中所述用户行为信息的数据来源为访问网站信息和搜索引擎查询关键字信息。 0018 所述通过用户行为信息综合。

13、分析得到访问某个网站的的人群更倾向于搜索哪些 关键词通过五个MapReduce程序实现: 0019 (1)Job1:从访问网站的日志信息(用户、访问的网站、访问时间)得到这个用户访 问了哪些网站、何时访问网站的列表信息:用户、访问的网站列表、访问时间列表;从搜索 关键词信息:用户、搜索的关键词、搜索时间;得到这个用户搜索了哪些关键词以及何时搜 索该关键词的列表信息:用户、搜索的关键词列表、搜索时间列表; 0020 (2)Job2:由于从Job1得到每个用户的一系列上网行为信息,这些信息包括用户 访问的所有网站和搜索的所有关键词以及这些行为发生的时间,因此根据每一个用户的用 户号进行关联得到网站。

14、和关键词的对应信息:访问的网站、搜索的关键词;其中这些对应 关系加上了时间窗口(如1Hour)的限制,因为一个用户在浏览网页时有时会刷新网页,在 这里我们只计算一次,即一个时间段内用户访问了多次某个网站和搜索了某个关键词时只 算一次。 0021 (3)Job3:统计访问网站和关键词的频次,得到的数据如下:访问的网站,搜索的 关键词,两者出现的频次; 0022 (4)Job4:得到了网站和相应的关键词信息后,就可以统计两者之间的相关性了, Job4可以得到如下的数据信息:访问的网站,搜索的关键词,关键词出现的频次n,网站和 关键词都出现的频次m,两者的比例r(m/n);r反映了这个关键词在多大程。

15、度上与目标网站 的相关联,即访问某个网站的人更倾向搜索某些关键词的程度; 0023 (5)Job5:根据上述步骤得到的信息中一个网站可能会在多行出现,为了得出的结 果更于方便查看,在Job5里面合并这些网站,并且统计出该网站出现的频次:访问的网站, 该网站出现的频次,搜索的关键词1,关键词出现的频次n1,网站和关键词都出现的频次 说 明 书CN 102831124 A 3/4页 5 m1,两者的比例r1(m1/n1),搜索的关键词2,关键词出现的频次n2,网站和关键词都出现的 频次m2,两者的比例r2(m2/n2)以此类推。 0024 本发明显著优点在于: 0025 传统方法从单个网站出发,只。

16、能获取本网站的用户访问网站、搜索关键字和点击 广告的信息。本方案与装置引入网关设备,可以获取跨网所有用户的通信网络报文,从而可 以得到用户在全网的的上网行为,进而可以对用户的上网行为进行准确关联,提高了关联 分析方法的准确性。 附图说明 0026 图1为本发明所述基于跨网通信网络报文的用户行为关联分析方法中关键字分 析方法示意图。 具体实施方式 0027 现结合说明书附图1介绍本发明所述的基于跨网通信网络报文的用户行为关联 分析方法具体实施方式:一种基于跨网通信网络报文的用户行为关联分析方法,通过如下 方法步骤来实现: 0028 (1)在现有网络上部署多个网关,从网络报文中提取用户行为信息; 。

17、0029 (2)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些关 键; 0030 (3)通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些广 告或者网站。 0031 所述用户行为信息可分为如下三种:访问网站、搜索引擎查询关键字和点击广告 行为,所述访问网站信息为用户在某个时刻访问某个网站所产生的信息,对应产生一条日 志信息:用户、访问的网站、访问时间,所述搜索引擎查询关键字信息为用户在某个时刻搜 索某个关键字所产生的信息,对应产生一条日志信息:用户、搜索的关键词、搜索时间;所 述点击广告行为信息为:用户在某个时刻点击某个广告所产生的信息,对应产生一条日志 信息:。

18、用户、点击的广告、点击时间。 0032 所述通过用户行为信息综合分析得到访问某个网站的人群更倾向于搜索哪些关 键词中所述用户行为信息的数据来源为访问网站信息和搜索引擎查询关键字信息。 0033 所述通过用户行为信息综合分析得到访问某个网站的的人群更倾向于搜索哪些 关键词通过五个MapReduce程序实现: 0034 (1)Job1:从访问网站的日志信息(用户、访问的网站、访问时间)得到这个用户访 问了哪些网站、何时访问网站的列表信息:用户、访问的网站列表、访问时间列表;从搜索 关键词信息:用户、搜索的关键词、搜索时间;得到这个用户搜索了哪些关键词以及何时搜 索该关键词的列表信息:用户、搜索的关。

19、键词列表、搜索时间列表; 0035 (2)Job2:由于从Job1得到每个用户的一系列上网行为信息,这些信息包括用户 访问的所有网站和搜索的所有关键词以及这些行为发生的时间,因此根据每一个用户的用 户号进行关联得到网站和关键词的对应信息:访问的网站、搜索的关键词;其中这些对应 关系加上了时间窗口(如1Hour)的限制,因为一个用户在浏览网页时有时会刷新网页,在 说 明 书CN 102831124 A 4/4页 6 这里我们只计算一次,即一个时间段内用户访问了多次某个网站和搜索了某个关键词时只 算一次。 0036 (3)Job3:统计访问网站和关键词的频次,得到的数据如下:访问的网站,搜索的 关。

20、键词,两者出现的频次; 0037 (4)Job4:得到了网站和相应的关键词信息后,就可以统计两者之间的相关性了, Job4可以得到如下的数据信息:访问的网站,搜索的关键词,关键词出现的频次n,网站和 关键词都出现的频次m,两者的比例r(m/n);r反映了这个关键词在多大程度上与目标网站 的相关联,即访问某个网站的人更倾向搜索某些关键词的程度; 0038 (5)Job5:根据上述步骤得到的信息中一个网站可能会在多行出现,为了得出的结 果更于方便查看,在Job5里面合并这些网站,并且统计出该网站出现的频次:访问的网站, 该网站出现的频次,搜索的关键词1,关键词出现的频次n1,网站和关键词都出现的频次 m1,两者的比例r1(m1/n1),搜索的关键词2,关键词出现的频次n2,网站和关键词都出现的 频次m2,两者的比例r2(m2/n2)以此类推。 0039 本发明不限于上述实施方式,对于本领域普通技术人员而言,对上述实施方式所 做出的任何显而易见的改进或变更,都不会超出本发明的构思和所附权利要求的保护范 围。 说 明 书CN 102831124 A 1/1页 7 图1 说 明 书 附 图CN 102831124 A 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1