在线分析点击流数据的方法和相关装置及系统.pdf

上传人:111****112 文档编号:520044 上传时间:2018-02-20 格式:PDF 页数:27 大小:3.18MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310672117.X

申请日:

2013.12.10

公开号:

CN104091276A

公开日:

2014.10.08

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06Q 30/02申请日:20131210|||公开

IPC分类号:

G06Q30/02(2012.01)I; G06F17/30; H04L29/06

主分类号:

G06Q30/02

申请人:

深圳市腾讯计算机系统有限公司

发明人:

王洋; 张书彬; 薛伟; 李勇; 肖磊; 刘大鹏; 言艳花; 姜磊; 郭伟昭; 胡少锋; 柳金晶; 黄丕培; 徐妙; 蔡斌

地址:

518000 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼

优先权:

专利代理机构:

深圳市深佳知识产权代理事务所(普通合伙) 44285

代理人:

胡丽萍

PDF下载: PDF下载
内容摘要

本发明实施例公开了在线分析点击流数据的方法和相关装置及系统。其中一种在线分析点击流数据的方法,可包括:从广告业务服务器获取点击流数据;提取点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用关键信息生成广告投放预测模型的训练数据。本发明实施例提供的技术方案有利于降低处理资源对得到训练数据的限制、提高广告投放预测模型的实时性、提高广告投放预测模型与线上实时数据的吻合度。

权利要求书

1.  一种在线分析点击流数据的方法,其特征在于,应用于分布式系统,所述方法包括:
从广告业务服务器获取点击流数据;
提取所述点击流数据中包含的关键信息;
确定所述关键信息所对应的点击流类型;
确定第一时间窗口;
根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;
若确定所述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。

2.
  根据权利要求1所述的方法,其特征在于,
所述方法还包括:
确定所述关键信息对应的广告位分类;
将所述关键信息添加到与所述广告位分类对应的队列之中;
所述利用所述关键信息生成广告投放预测模型的训练数据包括:从与所述广告位分类对应的所述队列中读取到所述关键信息之后,利用所述关键信息生成广告投放预测模型的训练数据。

3.
  根据权利要求1或2所述的方法,其特征在于,
所述利用所述关键信息生成广告投放预测模型的训练数据,包括:
调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息;利用所述关键信息、所述属性信息和所述特征信息,生成广告投放预测模型的训练数据。

4.
  根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,包括:
若确定出所述关键信息所对应的点击流类型为点击,则确定所述关键信息无需被过滤;
若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对 应的日志时间处于第一时间窗口之外,则确定所述关键信息需被过滤;
或者,
若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内还获取到了包含所述关键信息且点击流类型为点击的另一点击流数据,则确定所述关键信息需要被过滤;
或者,
若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内未获取到了包含所述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定所述关键信息无需被过滤。

5.
  根据权利要求4所述的方法,其特征在于,
所述第一时间窗口的时长范围为3~10分钟。

6.
  根据权利要求1或2所述的方法,其特征在于,
所述关键信息包括广告标识、广告位标识和用户标识。

7.
  根据权利要求1或2所述的方法,其特征在于,
所述属性信息和所述特征信息包括如下信息的至少一种:用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。

8.
  一种在线分析点击流数据的装置,其特征在于,应用于分布式系统,所述装置包括:
获取单元,用于从广告业务服务器获取点击流数据;
提取单元,用于提取所述点击流数据中包含的关键信息;
类型确定单元,用于确定所述关键信息所对应的点击流类型;
时间窗口确定单元,用于确定第一时间窗口;
过滤控制单元,用于根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;
生成单元,用于若所述过滤控制单元确定所述关键信息无需被过滤,则利 用所述提取单元提取的所述关键信息生成广告投放预测模型的训练数据。

9.
  根据权利要求8所述的装置,其特征在于,
所述装置还包括:
分类单元,用于确定所述关键信息对应的广告位分类,将所述关键信息添加到与所述广告位分类对应的队列之中;
所述生成单元具体用于,从与所述广告位分类对应的所述队列中读取到所述关键信息之后,利用所述关键信息生成广告投放预测模型的训练数据。

10.
  根据权利要求8或9所述的装置,其特征在于,
所述生成单元具体用于,若所述过滤控制单元确定所述关键信息无需被过滤,则调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息;利用所述关键信息、所述属性信息和所述特征信息,生成广告投放预测模型的训练数据。

11.
  根据权利要求8至10任一项所述的装置,其特征在于,
所述过滤控制单元具体用于,若确定出所述关键信息所对应的点击流类型为点击,则确定所述关键信息无需被过滤;
若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之外,则确定所述关键信息需被过滤;
或者,
若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内还获取到了包含所述关键信息且点击流类型为点击的另一点击流数据,则确定所述关键信息需要被过滤;
或者,
若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内未获取到了包含所述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定所述关键信息无需被过滤。

12.
  根据权利要求11所述的装置,其特征在于,
所述第一时间窗口的时长范围为3~10分钟。

13.
  根据权利要求8或9所述的装置,其特征在于,
所述关键信息包括广告标识、广告位标识和用户标识。

14.
  根据权利要求8或9所述的装置,其特征在于,
所述属性信息和所述特征信息包括如下信息的至少一种:用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。

15.
  一种分布式通信系统,其特征在于,包括:
广告业务服务器和分析预测平台;
其中,所述分析预测平台用于,从所述广告业务服务器获取点击流数据;提取所述点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。

16.
  根据权利要求15所述的通信系统,其特征在于,在利用所述关键信息生成广告投放预测模型的训练数据的方面,所述分析预测平台具体用于,调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息,利用所述关键信息、所述属性信息和所述特征信息生成广告投放预测模型的训练数据。

说明书

在线分析点击流数据的方法和相关装置及系统
技术领域
本发明涉及互联网技术领域,具体主要涉及一种在线分析点击流数据的方法和相关装置及系统。 
背景技术
广告推送是一项重要的互联网业务。 
广点通是运营商常用的一款广告推送工具。广点通等广告推送工具进行广告预测时需要使用用户每天的点击流数据来训练广告投放预测模型。现有的广点通等广告推送工具通常都是使用离线分析得到的训练数据来训练广告投放预测模型。 
本发明的发明人在研究和实践过程当中发现,现有技术至少存在以下的技术问题:通过离线分析得到训练数据将受处理资源的限制,且难以满足广告投放预测模型训练对较高实时性的要求,且基于离线分析得到的训练数据所训练的广告投放预测模型有时难以与线上实时数据较好的吻合。 
发明内容
本发明实施例提供在线分析点击流数据的方法和相关装置及系统,以期降低处理资源对得到训练数据的限制、提高广告投放预测模型的实时性、提高广告投放预测模型与线上实时数据的吻合度。 
本发明实施例一方面提供一种在线分析点击流数据的方法,应用于分布式系统,所述方法包括: 
从广告业务服务器获取点击流数据; 
提取所述点击流数据中包含的关键信息; 
确定所述关键信息所对应的点击流类型; 
确定第一时间窗口; 
根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤; 
若确定所述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。 
本发明实施例另一方面提供一种在线分析点击流数据的装置,应用于分布式系统,所述装置可包括: 
获取单元,用于从广告业务服务器获取点击流数据; 
提取单元,用于提取所述点击流数据中包含的关键信息; 
类型确定单元,用于确定所述关键信息所对应的点击流类型; 
时间窗口确定单元,用于确定第一时间窗口; 
过滤控制单元,用于根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤; 
生成单元,用于若所述过滤控制单元确定所述关键信息无需被过滤,则利用所述提取单元提取的所述关键信息生成广告投放预测模型的训练数据。 
本发明实施例又一方面提供一种通信系统,可包括: 
广告业务服务器和分析预测平台; 
其中,所述分析预测平台用于从所述广告业务服务器获取点击流数据;提取所述点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。 
可以看出,本发明的一些实施方式中,从广告业务服务器获取点击流数据之后;提取上述点击流数据中包含的关键信息;确定第一时间窗口和所述关键信息所对应的点击流类型;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤之后,利用上述关键信息生成广告投放预测模型的训练数据。上述方案由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点击流数据的分析以得到广告投放预测模型的训 练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、有利于提高广告投放预测模型与线上实时数据的吻合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。 
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 
图1是本发明实施例提供的一种在线分析点击流数据的方法的流程示意图; 
图2-a是本发明实施例提供的一种通信系统的架构示意图; 
图2-b是本发明实施例提供的一种分析预测平台的逻辑架构示意图; 
图2-c是本发明实施例提供的一种在线分析点击流数据的方法的流程示意图; 
图3-a是本发明实施例提供的根据关键信息对应的点击流类型及关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的过程的示意图; 
图3-b是本发明实施例提供的一种一种对写入到负样本缓冲区的关键信息的处理方式的流程示意图; 
图4-a是本发明实施例提供的一种网在线分析点击流数据的装置的示意图; 
图4-b是本发明实施例提供的另一种网在线分析点击流数据的装置的示意图; 
图5是本发明实施例提供的一种分析预测平台的示意图; 
图6-a是本发明实施例提供的一种分布式通信系统的示意图; 
图6-b是本发明实施例提供的一种基于分布式架构构建的分析预测平台的示意图; 
图7是本发明实施例提供的一种服务器的示意图。 
具体实施方式
本发明实施例提供在线分析点击流数据的方法和相关装置及系统,以期降低处理资源对得到训练数据的限制、提高广告投放预测模型的实时性、提高广告投放预测模型与线上实时数据的吻合度。 
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。 
以下分别进行详细说明。 
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。 
本发明一种在线分析点击流数据的方法的一个实施例,其中,一种在线分析点击流数据的方法,可应用于分布式系统,该方法可包括:从广告业务服务器获取点击流数据;提取上述点击流数据中包含的关键信息;确定上述关键信息所对应的点击流类型;确定第一时间窗口;根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确 定上述关键信息是否需要被过滤;若确定上述关键信息无需被过滤,则利用上述关键信息生成广告投放预测模型的训练数据。 
首先请参见图1,图1是本发明的一个实施例提供的一种在线分析点击流数据的方法的流程示意图。如图1所示,本发明的一个实施例提供的一种在线分析点击流数据的方法,可应用于分布式系统,该方法可包括以下内容: 
101、从广告业务服务器获取点击流数据。 
其中,点击流数据是指,由对展示广告发生的点击和/或曝光行为的感知而形成的数据流。 
102、提取上述点击流数据中包含的关键信息。 
在本发明一些实施例中,上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱、QQ号、手机号等)等,当然关键信息还可包括其它一些关键信息。 
103、确定上述关键信息所对应的点击流类型。 
其中,上述关键信息所对应的点击流类型可能为曝光或点击。 
104、确定第一时间窗口。 
其中,第一时间窗口的时长范围例如可为3~10分钟或其它时长。而第一时间窗口的截止时间例如可为最新获取到的包含上述关键信息的点击流数据所对应的日志时间。其中,第一时间窗口的时长可以是预设参数确定的或可以是根据用户指令确定的或可以是通过其他方式确定的。 
可以理解,步骤103和步骤104之间没有必然的执行先后顺序。 
105、根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤。 
106、若确定上述关键信息无需被过滤,则利用上述关键信息生成广告投放预测模型的训练数据。 
其中,一条训练数据可认为是聚合了包括关键信息在内的多种信息的一个信息聚合体。 
在本发明的一些实施例中,可将提取到的上述点击流数据中包含的关键信息写入缓冲区之中,在从缓冲区之中读取到上述关键信息之后,利用上述关键 信息生成广告投放预测模型的训练数据。 
举例来说,在提取上述点击流数据中包含的关键信息之后,可先确定上述关键信息对应的广告位分类(即,按照广告位分类提取到的关键信息,以确定出上述关键信息对应的广告位分类);将上述关键信息添加到与上述广告位分类对应的队列之中(例如,不同的广告位分类,可对应不同的队列,例如广告位分类和队列可以是一一对应的)。其中,上述利用上述关键信息生成广告投放预测模型的训练数据具体可包括:在从与上述广告位分类对应的上述队列中读取到上述关键信息之后,利用上述关键信息生成广告投放预测模型的训练数据。其中,对关键信息分类的目的之一是为了在生成训练数据时可以按广告位为粒度进行处理。 
在本发明的一些实施例中,上述利用上述关键信息生成广告投放预测模型的训练数据,可包括:调用流式计算拓扑(或调用其它计算单元),以上述关键信息为索引,在在线存储服务器中查找出与上述关键信息匹配的属性信息和特征信息;利用上述关键信息和上述属性信息和上述特征信息,生成广告投放预测模型的训练数据(例如可按照预设的聚合规则将上述关键信息、上述属性信息和上述特征信息进行聚合以得到广告投放预测模型的训练数据。在本发明的一些实施例中,可将得到的广告投放预测模型的训练数据些写入到分布式文件系统之中,以备训练广告投放预测模型。进一步的,可将在设定时间窗口之内得到的相同训练数据进行去重处理。 
其中,根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的具体方式可能是多种多样的。 
举例来说,根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤可以包括:若确定出上述关键信息所对应的点击流类型为点击,则确定上述关键信息无需被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之外,则确定上述关键信息需被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光, 且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内还获取到了包含上述关键信息且点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,并且上述关键信息所对应的日志时间处于第一时间窗口之内,并且在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。 
其中,另一点击流数据可指另一些点击流数据或另一个点击流数据。 
在本发明的一些实施例中,上述属性信息和上述特征信息例如可包括如下信息的至少一种:用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。 
其中,本发明实施例提及的广告投放预测模型可以是,Logistic Regression模型、Factorization Machines模型或自定义广告投放预测模型或其它类型广告投放预测模型。 
测试发现,广告投放预测模型的更新速度越快,即广告投放预测模型的实时性越好,广告投放预测模型与线上实时数据的吻合度通常越高,而广告投放预测模型的更新则主要依赖于模型的训练数据,因此,训练数据是否能够在尽快的准备就绪、训练数据是否是最新的、是否能够尽可能真实/尽可能实时的反应线上当前的点击情况,是保证广告投放预测模型稳定性和提高广告投放预测模型质量的关键因素。 
可以看出,本实施例从广告业务服务器获取点击流数据之后;提取上述点击流数据中包含的关键信息;利用上述关键信息生成广告投放预测模型的训练数据。由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、有利于提高广告投放预测模型与线上实时数据的吻合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处理,因 此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。 
为便于更好理解和实施本发明实施例的上述方案,下面通过几个具体的应用场景进行举例介绍。 
参见图2-a,图2-a示出了一种通信系统架构图。图2-a所示通信系统包括分析预测平台、在线存储服务器和若干个广告业务服务器。2-b示出了一种分析预测平台的逻辑架构图。 
请参见图2-c,图2-c是本发明的另一实施例提供的一种在线分析点击流数据的方法的流程示意图。如图2-c所示,本发明的另一实施例提供的一种在线分析点击流数据的方法可包括以下内容: 
201、分析预测平台从广告业务服务器获取点击流数据。 
其中,点击流数据是指由对展示广告发生的点击和/或曝光行为的感知而形成的数据流。 
202、分析预测平台调用流式计算拓扑,提取上述点击流数据中包含的关键信息。 
在本发明的一些实施例中,上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱、QQ号、手机号等)等,当然关键信息还可包括其它一些关键信息。 
其中,分析预测平台例如可以将从广告业务服务器获取到的点击流数据写入到队列之中。分析预测平台在调用流式计算拓扑,从队列之中取出点击流数据之后,提取上述点击流数据中包含的关键信息。其中。利用队列可以控制点击流数据的处理速度。 
203、分析预测平台按照广告位分类提取到的关键信息,以确定出上述关键信息对应的广告位分类。 
204、分析预测平台将上述关键信息添加到与上述广告位分类对应的队列之中。例如不同的广告位分类可对应不同的队列,例如广告位分类和队列可以是一一对应的。 
205、分析预测平台在从与上述广告位分类对应的上述队列中读取到上述关键信息之后,调用流式计算拓扑,确定上述关键信息所对应的点击流类型和第一时间窗口,基于预设的过滤策略确定上述关键信息是否需要被过滤,若确定出上述关键信息无需被过滤,则可以以上述关键信息为索引,在在线存储服务器中查找出与上述关键信息匹配的属性信息和特征信息,利用上述关键信息、上述属性信息和上述特征信息,生成广告投放预测模型的训练数据。 
在一些场景下,可能存在如下情况,在一个用户点击的前后一段时间内可能会存在对同一个用户标识同一个广告位同一个广告的曝光的情况,若把点击和曝光当作用户喜好来看,用户点击表示喜欢,只看不点击表示不喜欢。如果某用户看了之后过一会儿点击了,可认为该用户是喜欢的,用户不喜欢的记录最好能够被消除掉。因此,可通过预设过滤策略来清洗掉某些点击流类型为曝光的关键信息。其中,预设的过滤策略可能是多种多样的,可以根据具体需要来设定相应的过滤策略。 
流式计算拓扑(如图2-b中的各流式计算拓扑,每个流式计算拓扑包括若干个处理单元)可看作是用于实现一个计算流程的单位。其中,不同流式计算拓扑可为不同的广告投放预测模型提供训练数据。 
在本发明的一些实施例中,队列中存储的有些关键信息可能被用于得到训练数据的多个流式计算拓扑所复用。关键信息按广告位分类,产生不同广告投放预测模型的训练数据的流式计算拓扑,可能使用同一个广告位对应的关键信息,某个流式计算拓扑也可能使用多个广告位对应的关键信息,即一个特定的广告位上的关键信息可以为多个模型的训练数据的产生所用。 
在本发明一些实施例中,产生每个广告投放预测模型模型对应的训练数据所需要的属性信息和特征信息的数量和类型,可根据不同需要来调整,只要所需要的属性信息和特征信息被预先存储于在线存储服务器之中。 
其中,基于预设的过滤策略确定上述关键信息是否需要被过滤具体可以是根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤。 
举例来说,根据上述关键信息对应的点击流类型,以及上述关键信息对应 的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤可包括:若确定出上述关键信息所对应的点击流类型为点击,则确定上述关键信息无需被过滤;或者若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之外,则确定上述关键信息需被过滤;或者若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内还获取到了包含上述关键信息且点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。 
其中,第一时间窗口的时长范围例如可为3~10分钟或其它时长。而第一时间窗口的截止时间例如可为最新获取到的包含上述关键信息的点击流数据所对应的日志时间。通过分布式可靠协调服务将时间窗口更新到流式系统,还支持在不停拓扑计算的情况下动态调整时间窗口的大小。 
在本发明的一些实施例中,若关键信息对应的点击流类型为点击,则进一步将该关键信息写入正样本缓冲区;若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且正样本缓冲区在第一时间窗口之内不存在上述关键信息,则可该上述关键信息写入负样本缓冲区,若在第一时间窗口之内还获取到了包含上述关键信息且点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;若在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。 
在本发明的一些实施例中,上述属性信息和上述特征信息例如可包括如下信息的至少一种:用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。 
其中,本发明实施例提及的广告投放预测模型可以是,Logistic Regression模型、Factorization Machines模型或自定义广告投放预测模型或其它类型广告 投放预测模型。 
测试发现,广告投放预测模型的更新速度越快,即广告投放预测模型的实时性越好,广告投放预测模型与线上实时数据的吻合度通常越高,而广告投放预测模型的更新则主要依赖于模型的训练数据,因此,训练数据是否能够在尽快的准备就绪、训练数据是否是最新的、是否能够尽可能真实/尽可能实时的反应线上当前的点击情况,是保证广告投放预测模型稳定性和提高广告投放预测模型质量的关键因素。 
206、分析预测平台将得到的广告投放预测模型的训练数据些写入到分布式文件系统之中,以备训练广告投放预测模型。 
可以看出,本实施例分析预测平台从广告业务服务器获取点击流数据之后;提取上述点击流数据中包含的关键信息;利用上述关键信息生成广告投放预测模型的训练数据。由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、有利于提高广告投放预测模型与线上实时数据的吻合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。 
下面结合附图3-a和图3-b,通过一些场景来举例介绍根据关键信息对应的点击流类型,及关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的方式。 
如图3-a所示,获得点击流数据中的关键信息之后,可先确定关键信息所对应的点击流类型,若确定出该关键信息所对应的点击流类型为点击,则可将该关键信息写入正样本缓冲区(pSample),并可利用上述关键信息生成广告投放预测模型的训练数据,在上述关键信息对应的日志时间(Log_time)落入第 一时间窗口之后,将上述关键信息从pSample删除。若该关键信息所对应的点击流类型为曝光,则可判断上述关键信息对应的日志时间是否未落入到第一时间窗口之中,若上述关键信息对应的日志时间未落入到第一时间窗口,则可过滤掉该关键信息;若上述关键信息对应的日志时间落入到第一时间窗口,则可判断正样本缓冲区中当前是否存在与上述关键信息同样的关键信息,若判断出正样本缓冲区中当前存在与上述关键信息同样的关键信息,则可过滤掉该关键信息,若正样本缓冲区中当前不存在与上述关键信息同样的关键信息,则可将该关键信息写入负样本缓冲区(nSample)。 
参见图3-b,图3-b举例示出了一种对写入到负样本缓冲区的关键信息的处理方式。如图3-b所示,在休眠设定时长之后,可判断最新写入到负样本缓冲区中的点击流类型为曝光的关键信息对应的日志时间(Update Time)是否未落入第一时间窗口(此处第一时间窗口的截止时间为系统当前时间)。若最新写入到负样本缓冲区中的点击流类型为曝光的关键信息对应的日志时间未落入第一时间窗口,则判断负样本缓冲区是否有至少一条关键信息,若判断出负样本缓冲区没有任何关键信息,则返回休眠设定时长的步骤。若判断出负样本缓冲区有至少一条关键信息,则进一步判断是否有同样的关键信息存在于正样本缓冲区,若判断出正样本缓冲区存在同样的关键信息,则删除负样本缓冲区中的对应相同的关键信息(即过滤掉该关键信息),若判断出正样本缓冲区不存在同样的关键信息,则可进一步利用上述关键信息生成广告投放预测模型的训练数据,并将上述关键信息从负样本缓冲区删除。 
如图3-b所示,若判断出最新写入到负样本缓冲区中的点击流类型为曝光的关键信息对应的日志时间已落入第一时间窗口,则可进一步判断负样本缓冲区是否有至少一条关键信息。若判断出负样本缓冲区没有关键信息,则可返回休眠设定时长的步骤。若判断出负样本缓冲区有至少一条关键信息,则可进一步判断负样本缓冲区中当前最先写入的关键信息对应的日志时间是否未落入第一时间窗口,若负样本缓冲区中当前最先写入的关键信息对应的日志时间未落入第一时间窗口,则返回休眠设定时长的步骤。若判断出负样本缓冲区中当前最先写入的关键信息对应的日志时间落入第一时间窗口,则可进一步判断是 否有同样的关键信息存在于正样本缓冲区,若判断出正样本缓冲区存在同样的关键信息,则删除负样本缓冲区中的对应相同的关键信息(即,过滤掉该关键信息),若判断出正样本缓冲区不存在同样的关键信息,则可利用上述关键信息生成广告投放预测模型的训练数据,并将上述关键信息从负样本缓冲区删除。 
可以理解,图3-a和图3-b示出了一种可能的根据关键信息对应的点击流类型及关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的方式,当然。在实际应用中还可能根据具体情况进行适应性调整,并不限于上述举例。 
下面还提供用于实施上述方案的相关装置。 
参见图4-a,本发明实施例还提供一种在线分析点击流数据的装置400,可以包括:获取单元410、提取单元420、类型确定单元430、时间窗口确定单元440、过滤控制单元450和生成单元460。 
其中,获取单元410,用于从广告业务服务器获取点击流数据。 
提取单元420,用于提取所述点击流数据中包含的关键信息。 
类型确定单元430,用于确定所述关键信息所对应的点击流类型。 
时间窗口确定单元440,用于确定第一时间窗口。 
过滤控制单元450,用于根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤。 
生成单元460,用于若所述过滤控制单元450确定所述关键信息无需被过滤,则利用所述提取单元提取的所述关键信息生成广告投放预测模型的训练数据。 
参见图4-b,在本发明的一些实施例中,在线分析点击流数据的装置400还包括: 
分类单元470,用于确定所述关键信息对应的广告位分类,将所述关键信息添加到与所述广告位分类对应的队列之中; 
其中,生成单元460具体用于,从与所述广告位分类对应的所述队列中读 取到所述关键信息之后,利用所述关键信息生成广告投放预测模型的训练数据。 
在本发明一些实施例中,生成单元460具体用于,调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息;利用所述关键信息、所述属性信息和所述特征信息,生成广告投放预测模型的训练数据。 
在本发明的一些实施例中,过滤控制单元450具体用于, 
若确定出所述关键信息所对应的点击流类型为点击,则确定所述关键信息无需被过滤; 
或者, 
若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之外,则确定所述关键信息需被过滤; 
或者, 
若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内还获取到了包含所述关键信息且点击流类型为点击的另一点击流数据,则确定所述关键信息需要被过滤; 
或者, 
若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内未获取到了包含所述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定所述关键信息无需被过滤。 
在本发明一些实施例中,所述第一时间窗口的时长范围为3~10分钟。 
在本发明一些实施例中,所述关键信息包括广告标识、广告位标识和用户标识。 
在本发明一些实施例中,所述属性信息和所述特征信息包括如下信息的至少一种:用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。 
其中,本发明实施例提及的广告投放预测模型可以是,Logistic Regression模型、Factorization Machines模型或自定义广告投放预测模型或其它类型广告投放预测模型。 
测试发现,广告投放预测模型的更新速度越快,即广告投放预测模型的实时性越好,广告投放预测模型与线上实时数据的吻合度通常越高,而广告投放预测模型的更新则主要依赖于模型的训练数据,因此,训练数据是否能够在尽快的准备就绪、训练数据是否是最新的、是否能够尽可能真实/尽可能实时的反应线上当前的点击情况,是保证广告投放预测模型稳定性和提高广告投放预测模型质量的关键因素。 
可以理解的是,本实施例的在线分析点击流数据的装置400的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。 
可以看出,本实施例在线分析点击流数据的装置400从广告业务服务器获取点击流数据之后;提取上述点击流数据中包含的关键信息;利用上述关键信息生成广告投放预测模型的训练数据。由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、有利于提高广告投放预测模型与线上实时数据的吻合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。 
参见图5,本发明实施例提供一种分析预测平台500,可包括: 
处理器510、存储器520、输入装置530和输出装置540。终端设备500中的处理器510的数量可以一个或多个,图5中以一个处理器为例。在本发明的一些实施例中,处理器510、存储器520、输入装置530和输出装置540可通过总线或 其它方式连接,其中,图5中以通过总线连接为例。 
存储器520可用于存储软件程序以及模块,处理器510通过运行存储在存储器520的软件程序以及模块,从而执行分析预测平台500的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外存储器520可包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置530可用于接收输入的数字或字符信息,以及产生与分析预测平台500的用户设置以及功能控制有关的键信号输入。输入装置540可包括显示屏等显示设备。 
其中,处理器510执行如下步骤:从广告业务服务器获取点击流数据;提取上述点击流数据中包含的关键信息;确定上述关键信息所对应的点击流类型;确定第一时间窗口;根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤;若确定上述关键信息无需被过滤,则利用上述关键信息生成广告投放预测模型的训练数据。 
其中,点击流数据是指,由对展示广告发生的点击和/或曝光行为的感知而形成的数据流。 
在本发明一些实施例中,上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱、QQ号、手机号等)等,当然关键信息还可包括其它一些关键信息。 
其中,一条训练数据可认为是聚合了包括关键信息在内的多种信息的一个信息聚合体。 
在本发明的一些实施例中,处理器510可将提取到的上述点击流数据中包含的关键信息写入缓冲区之中,在从缓冲区之中读取到上述关键信息之后,利用上述关键信息生成广告投放预测模型的训练数据。 
举例来说,在提取上述点击流数据中包含的关键信息之后,可先确定上述 关键信息对应的广告位分类(即,按照广告位分类提取到的关键信息,以确定出上述关键信息对应的广告位分类);将上述关键信息添加到与上述广告位分类对应的队列之中(例如,不同的广告位分类,可对应不同的队列,例如广告位分类和队列可以是一一对应的)。其中,上述利用上述关键信息生成广告投放预测模型的训练数据可包括:在从与上述广告位分类对应的上述队列中读取到上述关键信息之后,利用上述关键信息生成广告投放预测模型的训练数据。其中,对关键信息分类的目的之一是为了在生成训练数据时可以按广告位为粒度进行处理。 
在本发明的一些实施例中,处理器510利用上述关键信息生成广告投放预测模型的训练数据可包括:调用流式计算拓扑(或调用其它计算单元),以上述关键信息为索引,在在线存储服务器中查找出与上述关键信息匹配的属性信息和特征信息;利用上述关键信息和上述属性信息和上述特征信息,生成广告投放预测模型的训练数据(例如可按照预设的聚合规则将上述关键信息、上述属性信息和上述特征信息进行聚合以得到广告投放预测模型的训练数据。在本发明的一些实施例中,可将得到的广告投放预测模型的训练数据些写入到分布式文件系统之中,以备训练广告投放预测模型。进一步的,可将在设定时间窗口之内得到的相同训练数据进行去重处理。 
举例来说,处理器510根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤可以包括:若确定出上述关键信息所对应的点击流类型为点击,则确定上述关键信息无需被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之外,则确定上述关键信息需被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内还获取到了包含上述关键信息且点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为 点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。 
其中,第一时间窗口的时长范围例如可为3~10分钟或其它时长。而第一时间窗口的截止时间例如可为最新获取到的包含上述关键信息的点击流数据所对应的日志时间。 
在本发明的一些实施例中,上述属性信息和上述特征信息例如可包括如下信息的至少一种:用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。 
其中,本发明实施例提及的广告投放预测模型可以是,Logistic Regression模型、Factorization Machines模型或自定义广告投放预测模型或其它类型广告投放预测模型。 
测试发现,广告投放预测模型的更新速度越快,即广告投放预测模型的实时性越好,广告投放预测模型与线上实时数据的吻合度通常越高,而广告投放预测模型的更新则主要依赖于模型的训练数据,因此,训练数据是否能够在尽快的准备就绪、训练数据是否是最新的、是否能够尽可能真实/尽可能实时的反应线上当前的点击情况,是保证广告投放预测模型稳定性和提高广告投放预测模型质量的关键因素。 
可以看出,本实施例分析预测平台500从广告业务服务器获取点击流数据之后;提取上述点击流数据中包含的关键信息;利用上述关键信息生成广告投放预测模型的训练数据。由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、有利于提高广告投放预测模型与线上实时数据的吻合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。 
参见图6-a,本发明实施例提供一种分布式通信系统,可包括: 
广告业务服务器610和分析预测平台620。其中,图6中以存在多个广告业务服务器610为例。 
参见图6-a,分析预测平台620可包括一个或多个分析预测服务器621。多个分析预测服务器621可基于分布式架构构建。 
其中,分析预测平台620用于,从广告业务服务器610获取点击流数据;提取所述点击流数据中包含的关键信息;确定上述关键信息所对应的点击流类型;确定第一时间窗口;根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤;若确定上述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。 
其中,点击流数据是指,由对展示广告发生的点击和/或曝光行为的感知而形成的数据流。 
在本发明一些实施例中,上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱、QQ号、手机号等)等,当然关键信息还可包括其它一些关键信息。 
其中,一条训练数据可认为是聚合了包括关键信息在内的多种信息的一个信息聚合体。 
在本发明的一些实施例中,可将提取到的上述点击流数据中包含的关键信息写入缓冲区之中,在从缓冲区之中读取到上述关键信息之后,利用上述关键信息生成广告投放预测模型的训练数据。 
举例来说,在提取上述点击流数据中包含的关键信息之后,可先确定上述关键信息对应的广告位分类(即,按照广告位分类提取到的关键信息,以确定出上述关键信息对应的广告位分类);将上述关键信息添加到与上述广告位分类对应的队列之中(例如,不同的广告位分类,可对应不同的队列,例如广告位分类和队列可以是一一对应的)。其中,上述利用上述关键信息生成广告投放预测模型的训练数据可包括:在从与上述广告位分类对应的上述队列中读取到上述关键信息之后,利用上述关键信息生成广告投放预测模型的训练数据。 其中,对关键信息分类的目的之一是为了在生成训练数据时可以按广告位为粒度进行处理。 
在本发明的一些实施例中,在利用上述关键信息生成广告投放预测模型的训练数据的方面,分析预测平台620可具体用于,调用流式计算拓扑(或调用其它计算单元),以上述关键信息为索引,在在线存储服务器中查找出与上述关键信息匹配的属性信息和特征信息;利用上述关键信息和上述属性信息和上述特征信息,生成广告投放预测模型的训练数据(例如可按照预设的聚合规则将上述关键信息、上述属性信息和上述特征信息进行聚合以得到广告投放预测模型的训练数据。在本发明的一些实施例中,可将得到的广告投放预测模型的训练数据些写入到分布式文件系统之中,以备训练广告投放预测模型。进一步的,可将在设定时间窗口之内得到的相同训练数据进行去重处理。 
举例来说,在上述根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤方面,分析预测平台可具体用于,若确定出上述关键信息所对应的点击流类型为点击,则确定上述关键信息无需被过滤;或,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之外,则确定上述关键信息需被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内还获取到了包含上述关键信息且点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。 
其中,第一时间窗口的时长范围例如可为3~10分钟或其它时长。而第一时间窗口的截止时间例如可为最新获取到的包含上述关键信息的点击流数据所对应的日志时间。 
在本发明的一些实施例中,上述属性信息和上述特征信息例如可包括如下 信息的至少一种:用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。 
其中,本发明实施例提及的广告投放预测模型可以是,Logistic Regression模型、Factorization Machines模型或自定义广告投放预测模型或其它类型广告投放预测模型。 
测试发现,广告投放预测模型的更新速度越快,即广告投放预测模型的实时性越好,广告投放预测模型与线上实时数据的吻合度通常越高,而广告投放预测模型的更新则主要依赖于模型的训练数据,因此,训练数据是否能够在尽快的准备就绪、训练数据是否是最新的、是否能够尽可能真实/尽可能实时的反应线上当前的点击情况,是保证广告投放预测模型稳定性和提高广告投放预测模型质量的关键因素。 
可以看出,本实施例中,分析预测平台620从广告业务服务器610获取点击流数据之后;提取上述点击流数据中包含的关键信息;利用上述关键信息生成广告投放预测模型的训练数据。由于是从广告业务服务器610获取实时的点击流数据,实时在线的进行点击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、有利于提高广告投放预测模型与线上实时数据的吻合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。 
参见图7,图7是本发明实施例提供的一种服务器结构示意图。该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存 储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。 
更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。上述图1、图2、图3-a~图3-b所示实施例中所述的由分析预测平台、分析预测服务器、在线存储服务器或广告服务器所执行的步骤可以基于该图7所示的服务器结构。 
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的在线分析点击流数据的方法的部分或全部步骤。 
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。 
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。 
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。 
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。 
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。 
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。 
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。 

在线分析点击流数据的方法和相关装置及系统.pdf_第1页
第1页 / 共27页
在线分析点击流数据的方法和相关装置及系统.pdf_第2页
第2页 / 共27页
在线分析点击流数据的方法和相关装置及系统.pdf_第3页
第3页 / 共27页
点击查看更多>>
资源描述

《在线分析点击流数据的方法和相关装置及系统.pdf》由会员分享,可在线阅读,更多相关《在线分析点击流数据的方法和相关装置及系统.pdf(27页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104091276A43申请公布日20141008CN104091276A21申请号201310672117X22申请日20131210G06Q30/02201201G06F17/30200601H04L29/0620060171申请人深圳市腾讯计算机系统有限公司地址518000广东省深圳市南山区高新区高新南一路飞亚达大厦510楼72发明人王洋张书彬薛伟李勇肖磊刘大鹏言艳花姜磊郭伟昭胡少锋柳金晶黄丕培徐妙蔡斌74专利代理机构深圳市深佳知识产权代理事务所普通合伙44285代理人胡丽萍54发明名称在线分析点击流数据的方法和相关装置及系统57摘要本发明实施例公开了在线分析点击流数据。

2、的方法和相关装置及系统。其中一种在线分析点击流数据的方法,可包括从广告业务服务器获取点击流数据;提取点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用关键信息生成广告投放预测模型的训练数据。本发明实施例提供的技术方案有利于降低处理资源对得到训练数据的限制、提高广告投放预测模型的实时性、提高广告投放预测模型与线上实时数据的吻合度。51INTCL权利要求书3页说明书15页附图8页19中华人民共和国国家知识产权局。

3、12发明专利申请权利要求书3页说明书15页附图8页10申请公布号CN104091276ACN104091276A1/3页21一种在线分析点击流数据的方法,其特征在于,应用于分布式系统,所述方法包括从广告业务服务器获取点击流数据;提取所述点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。2根据权利要求1所述的方法,其特征在于,所述方法还包括确定所述关键信息对应的。

4、广告位分类;将所述关键信息添加到与所述广告位分类对应的队列之中;所述利用所述关键信息生成广告投放预测模型的训练数据包括从与所述广告位分类对应的所述队列中读取到所述关键信息之后,利用所述关键信息生成广告投放预测模型的训练数据。3根据权利要求1或2所述的方法,其特征在于,所述利用所述关键信息生成广告投放预测模型的训练数据,包括调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息;利用所述关键信息、所述属性信息和所述特征信息,生成广告投放预测模型的训练数据。4根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述关键信息对应的点击流类型,以及所。

5、述关键信息对应的日志时间与所述第一时间窗口的对应关系,包括若确定出所述关键信息所对应的点击流类型为点击,则确定所述关键信息无需被过滤;若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之外,则确定所述关键信息需被过滤;或者,若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内还获取到了包含所述关键信息且点击流类型为点击的另一点击流数据,则确定所述关键信息需要被过滤;或者,若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间。

6、窗口之内未获取到了包含所述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定所述关键信息无需被过滤。5根据权利要求4所述的方法,其特征在于,所述第一时间窗口的时长范围为310分钟。6根据权利要求1或2所述的方法,其特征在于,所述关键信息包括广告标识、广告位标识和用户标识。权利要求书CN104091276A2/3页37根据权利要求1或2所述的方法,其特征在于,所述属性信息和所述特征信息包括如下信息的至少一种用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。8一种在线分析点击流数据的装置,其特征在于,应用于分布式系统,所述装置包括获取单元,用于从广告业务服务器获取点。

7、击流数据;提取单元,用于提取所述点击流数据中包含的关键信息;类型确定单元,用于确定所述关键信息所对应的点击流类型;时间窗口确定单元,用于确定第一时间窗口;过滤控制单元,用于根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;生成单元,用于若所述过滤控制单元确定所述关键信息无需被过滤,则利用所述提取单元提取的所述关键信息生成广告投放预测模型的训练数据。9根据权利要求8所述的装置,其特征在于,所述装置还包括分类单元,用于确定所述关键信息对应的广告位分类,将所述关键信息添加到与所述广告位分类对应的队列之中;所述生成单元具体用于。

8、,从与所述广告位分类对应的所述队列中读取到所述关键信息之后,利用所述关键信息生成广告投放预测模型的训练数据。10根据权利要求8或9所述的装置,其特征在于,所述生成单元具体用于,若所述过滤控制单元确定所述关键信息无需被过滤,则调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息;利用所述关键信息、所述属性信息和所述特征信息,生成广告投放预测模型的训练数据。11根据权利要求8至10任一项所述的装置,其特征在于,所述过滤控制单元具体用于,若确定出所述关键信息所对应的点击流类型为点击,则确定所述关键信息无需被过滤;若确定出所述关键信息所对应的点击流类型。

9、为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之外,则确定所述关键信息需被过滤;或者,若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内还获取到了包含所述关键信息且点击流类型为点击的另一点击流数据,则确定所述关键信息需要被过滤;或者,若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内未获取到了包含所述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定所述关键信息无需被过滤。12根据权利要求11所述的装置,其特征在于,所述第一时间窗口的。

10、时长范围为310分钟。13根据权利要求8或9所述的装置,其特征在于,权利要求书CN104091276A3/3页4所述关键信息包括广告标识、广告位标识和用户标识。14根据权利要求8或9所述的装置,其特征在于,所述属性信息和所述特征信息包括如下信息的至少一种用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。15一种分布式通信系统,其特征在于,包括广告业务服务器和分析预测平台;其中,所述分析预测平台用于,从所述广告业务服务器获取点击流数据;提取所述点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息。

11、对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。16根据权利要求15所述的通信系统,其特征在于,在利用所述关键信息生成广告投放预测模型的训练数据的方面,所述分析预测平台具体用于,调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息,利用所述关键信息、所述属性信息和所述特征信息生成广告投放预测模型的训练数据。权利要求书CN104091276A1/15页5在线分析点击流数据的方法和相关装置及系统技术领域0001本发明涉及互联网技术领域,具体主。

12、要涉及一种在线分析点击流数据的方法和相关装置及系统。背景技术0002广告推送是一项重要的互联网业务。0003广点通是运营商常用的一款广告推送工具。广点通等广告推送工具进行广告预测时需要使用用户每天的点击流数据来训练广告投放预测模型。现有的广点通等广告推送工具通常都是使用离线分析得到的训练数据来训练广告投放预测模型。0004本发明的发明人在研究和实践过程当中发现,现有技术至少存在以下的技术问题通过离线分析得到训练数据将受处理资源的限制,且难以满足广告投放预测模型训练对较高实时性的要求,且基于离线分析得到的训练数据所训练的广告投放预测模型有时难以与线上实时数据较好的吻合。发明内容0005本发明实施。

13、例提供在线分析点击流数据的方法和相关装置及系统,以期降低处理资源对得到训练数据的限制、提高广告投放预测模型的实时性、提高广告投放预测模型与线上实时数据的吻合度。0006本发明实施例一方面提供一种在线分析点击流数据的方法,应用于分布式系统,所述方法包括0007从广告业务服务器获取点击流数据;0008提取所述点击流数据中包含的关键信息;0009确定所述关键信息所对应的点击流类型;0010确定第一时间窗口;0011根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;0012若确定所述关键信息无需被过滤,则利用所述关键信息生成广。

14、告投放预测模型的训练数据。0013本发明实施例另一方面提供一种在线分析点击流数据的装置,应用于分布式系统,所述装置可包括0014获取单元,用于从广告业务服务器获取点击流数据;0015提取单元,用于提取所述点击流数据中包含的关键信息;0016类型确定单元,用于确定所述关键信息所对应的点击流类型;0017时间窗口确定单元,用于确定第一时间窗口;0018过滤控制单元,用于根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;说明书CN104091276A2/15页60019生成单元,用于若所述过滤控制单元确定所述关键信息无需被过。

15、滤,则利用所述提取单元提取的所述关键信息生成广告投放预测模型的训练数据。0020本发明实施例又一方面提供一种通信系统,可包括0021广告业务服务器和分析预测平台;0022其中,所述分析预测平台用于从所述广告业务服务器获取点击流数据;提取所述点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。0023可以看出,本发明的一些实施方式中,从广告业务服务器获取点击流数据。

16、之后;提取上述点击流数据中包含的关键信息;确定第一时间窗口和所述关键信息所对应的点击流类型;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤之后,利用上述关键信息生成广告投放预测模型的训练数据。上述方案由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、。

17、有利于提高广告投放预测模型与线上实时数据的吻合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。附图说明0024为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0。

18、025图1是本发明实施例提供的一种在线分析点击流数据的方法的流程示意图;0026图2A是本发明实施例提供的一种通信系统的架构示意图;0027图2B是本发明实施例提供的一种分析预测平台的逻辑架构示意图;0028图2C是本发明实施例提供的一种在线分析点击流数据的方法的流程示意图;0029图3A是本发明实施例提供的根据关键信息对应的点击流类型及关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的过程的示意图;0030图3B是本发明实施例提供的一种一种对写入到负样本缓冲区的关键信息的处理方式的流程示意图;0031图4A是本发明实施例提供的一种网在线分析点击流数据的装置的示意。

19、图;0032图4B是本发明实施例提供的另一种网在线分析点击流数据的装置的示意图;说明书CN104091276A3/15页70033图5是本发明实施例提供的一种分析预测平台的示意图;0034图6A是本发明实施例提供的一种分布式通信系统的示意图0035图6B是本发明实施例提供的一种基于分布式架构构建的分析预测平台的示意图;0036图7是本发明实施例提供的一种服务器的示意图。具体实施方式0037本发明实施例提供在线分析点击流数据的方法和相关装置及系统,以期降低处理资源对得到训练数据的限制、提高广告投放预测模型的实时性、提高广告投放预测模型与线上实时数据的吻合度。0038为了使本技术领域的人员更好地理。

20、解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。0039以下分别进行详细说明。0040本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,。

21、术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。0041本发明一种在线分析点击流数据的方法的一个实施例,其中,一种在线分析点击流数据的方法,可应用于分布式系统,该方法可包括从广告业务服务器获取点击流数据;提取上述点击流数据中包含的关键信息;确定上述关键信息所对应的点击流类型;确定第一时间窗口;根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是。

22、否需要被过滤;若确定上述关键信息无需被过滤,则利用上述关键信息生成广告投放预测模型的训练数据。0042首先请参见图1,图1是本发明的一个实施例提供的一种在线分析点击流数据的方法的流程示意图。如图1所示,本发明的一个实施例提供的一种在线分析点击流数据的方法,可应用于分布式系统,该方法可包括以下内容0043101、从广告业务服务器获取点击流数据。0044其中,点击流数据是指,由对展示广告发生的点击和/或曝光行为的感知而形成的数据流。0045102、提取上述点击流数据中包含的关键信息。0046在本发明一些实施例中,上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱、QQ号、手机号等)。

23、等,当然关键信息还可包括其它一些关键信息。0047103、确定上述关键信息所对应的点击流类型。说明书CN104091276A4/15页80048其中,上述关键信息所对应的点击流类型可能为曝光或点击。0049104、确定第一时间窗口。0050其中,第一时间窗口的时长范围例如可为310分钟或其它时长。而第一时间窗口的截止时间例如可为最新获取到的包含上述关键信息的点击流数据所对应的日志时间。其中,第一时间窗口的时长可以是预设参数确定的或可以是根据用户指令确定的或可以是通过其他方式确定的。0051可以理解,步骤103和步骤104之间没有必然的执行先后顺序。0052105、根据上述关键信息对应的点击流类。

24、型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤。0053106、若确定上述关键信息无需被过滤,则利用上述关键信息生成广告投放预测模型的训练数据。0054其中,一条训练数据可认为是聚合了包括关键信息在内的多种信息的一个信息聚合体。0055在本发明的一些实施例中,可将提取到的上述点击流数据中包含的关键信息写入缓冲区之中,在从缓冲区之中读取到上述关键信息之后,利用上述关键信息生成广告投放预测模型的训练数据。0056举例来说,在提取上述点击流数据中包含的关键信息之后,可先确定上述关键信息对应的广告位分类(即,按照广告位分类提取到的关键信息,以确定出上述关。

25、键信息对应的广告位分类);将上述关键信息添加到与上述广告位分类对应的队列之中(例如,不同的广告位分类,可对应不同的队列,例如广告位分类和队列可以是一一对应的)。其中,上述利用上述关键信息生成广告投放预测模型的训练数据具体可包括在从与上述广告位分类对应的上述队列中读取到上述关键信息之后,利用上述关键信息生成广告投放预测模型的训练数据。其中,对关键信息分类的目的之一是为了在生成训练数据时可以按广告位为粒度进行处理。0057在本发明的一些实施例中,上述利用上述关键信息生成广告投放预测模型的训练数据,可包括调用流式计算拓扑(或调用其它计算单元),以上述关键信息为索引,在在线存储服务器中查找出与上述关键。

26、信息匹配的属性信息和特征信息;利用上述关键信息和上述属性信息和上述特征信息,生成广告投放预测模型的训练数据(例如可按照预设的聚合规则将上述关键信息、上述属性信息和上述特征信息进行聚合以得到广告投放预测模型的训练数据。在本发明的一些实施例中,可将得到的广告投放预测模型的训练数据些写入到分布式文件系统之中,以备训练广告投放预测模型。进一步的,可将在设定时间窗口之内得到的相同训练数据进行去重处理。0058其中,根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的具体方式可能是多种多样的。0059举例来说,根据上述关键信息对应的。

27、点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤可以包括若确定出上述关键信息所对应的点击流类型为点击,则确定上述关键信息无需被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于说明书CN104091276A5/15页9第一时间窗口之外,则确定上述关键信息需被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内还获取到了包含上述关键信息且点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;或者,若确定出上述关键信。

28、息所对应的点击流类型为曝光,并且上述关键信息所对应的日志时间处于第一时间窗口之内,并且在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。0060其中,另一点击流数据可指另一些点击流数据或另一个点击流数据。0061在本发明的一些实施例中,上述属性信息和上述特征信息例如可包括如下信息的至少一种用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。0062其中,本发明实施例提及的广告投放预测模型可以是,LOGISTICREGRESSION模型、FACTORIZATIONMACHINES模型或自定义广告投放预测模型。

29、或其它类型广告投放预测模型。0063测试发现,广告投放预测模型的更新速度越快,即广告投放预测模型的实时性越好,广告投放预测模型与线上实时数据的吻合度通常越高,而广告投放预测模型的更新则主要依赖于模型的训练数据,因此,训练数据是否能够在尽快的准备就绪、训练数据是否是最新的、是否能够尽可能真实/尽可能实时的反应线上当前的点击情况,是保证广告投放预测模型稳定性和提高广告投放预测模型质量的关键因素。0064可以看出,本实施例从广告业务服务器获取点击流数据之后;提取上述点击流数据中包含的关键信息;利用上述关键信息生成广告投放预测模型的训练数据。由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点。

30、击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、有利于提高广告投放预测模型与线上实时数据的吻合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。0065为便于更好理解和实施本发明实施例的。

31、上述方案,下面通过几个具体的应用场景进行举例介绍。0066参见图2A,图2A示出了一种通信系统架构图。图2A所示通信系统包括分析预测平台、在线存储服务器和若干个广告业务服务器。2B示出了一种分析预测平台的逻辑架构图。0067请参见图2C,图2C是本发明的另一实施例提供的一种在线分析点击流数据的方法的流程示意图。如图2C所示,本发明的另一实施例提供的一种在线分析点击流数据的方法可包括以下内容0068201、分析预测平台从广告业务服务器获取点击流数据。0069其中,点击流数据是指由对展示广告发生的点击和/或曝光行为的感知而形成的数据流。说明书CN104091276A6/15页100070202、分。

32、析预测平台调用流式计算拓扑,提取上述点击流数据中包含的关键信息。0071在本发明的一些实施例中,上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱、QQ号、手机号等)等,当然关键信息还可包括其它一些关键信息。0072其中,分析预测平台例如可以将从广告业务服务器获取到的点击流数据写入到队列之中。分析预测平台在调用流式计算拓扑,从队列之中取出点击流数据之后,提取上述点击流数据中包含的关键信息。其中。利用队列可以控制点击流数据的处理速度。0073203、分析预测平台按照广告位分类提取到的关键信息,以确定出上述关键信息对应的广告位分类。0074204、分析预测平台将上述关键信息添加到与。

33、上述广告位分类对应的队列之中。例如不同的广告位分类可对应不同的队列,例如广告位分类和队列可以是一一对应的。0075205、分析预测平台在从与上述广告位分类对应的上述队列中读取到上述关键信息之后,调用流式计算拓扑,确定上述关键信息所对应的点击流类型和第一时间窗口,基于预设的过滤策略确定上述关键信息是否需要被过滤,若确定出上述关键信息无需被过滤,则可以以上述关键信息为索引,在在线存储服务器中查找出与上述关键信息匹配的属性信息和特征信息,利用上述关键信息、上述属性信息和上述特征信息,生成广告投放预测模型的训练数据。0076在一些场景下,可能存在如下情况,在一个用户点击的前后一段时间内可能会存在对同一。

34、个用户标识同一个广告位同一个广告的曝光的情况,若把点击和曝光当作用户喜好来看,用户点击表示喜欢,只看不点击表示不喜欢。如果某用户看了之后过一会儿点击了,可认为该用户是喜欢的,用户不喜欢的记录最好能够被消除掉。因此,可通过预设过滤策略来清洗掉某些点击流类型为曝光的关键信息。其中,预设的过滤策略可能是多种多样的,可以根据具体需要来设定相应的过滤策略。0077流式计算拓扑(如图2B中的各流式计算拓扑,每个流式计算拓扑包括若干个处理单元)可看作是用于实现一个计算流程的单位。其中,不同流式计算拓扑可为不同的广告投放预测模型提供训练数据。0078在本发明的一些实施例中,队列中存储的有些关键信息可能被用于得。

35、到训练数据的多个流式计算拓扑所复用。关键信息按广告位分类,产生不同广告投放预测模型的训练数据的流式计算拓扑,可能使用同一个广告位对应的关键信息,某个流式计算拓扑也可能使用多个广告位对应的关键信息,即一个特定的广告位上的关键信息可以为多个模型的训练数据的产生所用。0079在本发明一些实施例中,产生每个广告投放预测模型模型对应的训练数据所需要的属性信息和特征信息的数量和类型,可根据不同需要来调整,只要所需要的属性信息和特征信息被预先存储于在线存储服务器之中。0080其中,基于预设的过滤策略确定上述关键信息是否需要被过滤具体可以是根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与第一。

36、时间窗口的对应关系,确定上述关键信息是否需要被过滤。0081举例来说,根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤可包括若确定出上述关键信息所对应的点击流类型为点击,则确定上述关键信息无需被过滤;或者若确定出说明书CN104091276A107/15页11上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之外,则确定上述关键信息需被过滤;或者若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内还获取到了包含上述关键信息且。

37、点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。0082其中,第一时间窗口的时长范围例如可为310分钟或其它时长。而第一时间窗口的截止时间例如可为最新获取到的包含上述关键信息的点击流数据所对应的日志时间。通过分布式可靠协调服务将时间窗口更新到流式系统,还支持在不停拓扑计算的情况下动态调整时间窗口的大小。0083在本发明的一些实施例中,若关键信息对应的点击流。

38、类型为点击,则进一步将该关键信息写入正样本缓冲区;若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且正样本缓冲区在第一时间窗口之内不存在上述关键信息,则可该上述关键信息写入负样本缓冲区,若在第一时间窗口之内还获取到了包含上述关键信息且点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;若在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。0084在本发明的一些实施例中,上述属性信息和上述特征信息例如可包括如下信息的至少一种用户年龄、用户活跃度,用户性别、广告主标识、。

39、广告类目信息、广告图像信息。0085其中,本发明实施例提及的广告投放预测模型可以是,LOGISTICREGRESSION模型、FACTORIZATIONMACHINES模型或自定义广告投放预测模型或其它类型广告投放预测模型。0086测试发现,广告投放预测模型的更新速度越快,即广告投放预测模型的实时性越好,广告投放预测模型与线上实时数据的吻合度通常越高,而广告投放预测模型的更新则主要依赖于模型的训练数据,因此,训练数据是否能够在尽快的准备就绪、训练数据是否是最新的、是否能够尽可能真实/尽可能实时的反应线上当前的点击情况,是保证广告投放预测模型稳定性和提高广告投放预测模型质量的关键因素。00872。

40、06、分析预测平台将得到的广告投放预测模型的训练数据些写入到分布式文件系统之中,以备训练广告投放预测模型。0088可以看出,本实施例分析预测平台从广告业务服务器获取点击流数据之后;提取上述点击流数据中包含的关键信息;利用上述关键信息生成广告投放预测模型的训练数据。由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、有利于提高广告投放预测模型与线上实时数据的吻。

41、合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处说明书CN104091276A118/15页12理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。0089下面结合附图3A和图3B,通过一些场景来举例介绍根据关键信息对应的点击流类型,及关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的方式。0090如图3A所示,获得点击流数据中的关键信息之后,可先确定关键信息所对应的点击流类型,若确定。

42、出该关键信息所对应的点击流类型为点击,则可将该关键信息写入正样本缓冲区(PSAMPLE),并可利用上述关键信息生成广告投放预测模型的训练数据,在上述关键信息对应的日志时间(LOG_TIME)落入第一时间窗口之后,将上述关键信息从PSAMPLE删除。若该关键信息所对应的点击流类型为曝光,则可判断上述关键信息对应的日志时间是否未落入到第一时间窗口之中,若上述关键信息对应的日志时间未落入到第一时间窗口,则可过滤掉该关键信息;若上述关键信息对应的日志时间落入到第一时间窗口,则可判断正样本缓冲区中当前是否存在与上述关键信息同样的关键信息,若判断出正样本缓冲区中当前存在与上述关键信息同样的关键信息,则可过。

43、滤掉该关键信息,若正样本缓冲区中当前不存在与上述关键信息同样的关键信息,则可将该关键信息写入负样本缓冲区(NSAMPLE)。0091参见图3B,图3B举例示出了一种对写入到负样本缓冲区的关键信息的处理方式。如图3B所示,在休眠设定时长之后,可判断最新写入到负样本缓冲区中的点击流类型为曝光的关键信息对应的日志时间(UPDATETIME)是否未落入第一时间窗口(此处第一时间窗口的截止时间为系统当前时间)。若最新写入到负样本缓冲区中的点击流类型为曝光的关键信息对应的日志时间未落入第一时间窗口,则判断负样本缓冲区是否有至少一条关键信息,若判断出负样本缓冲区没有任何关键信息,则返回休眠设定时长的步骤。若。

44、判断出负样本缓冲区有至少一条关键信息,则进一步判断是否有同样的关键信息存在于正样本缓冲区,若判断出正样本缓冲区存在同样的关键信息,则删除负样本缓冲区中的对应相同的关键信息(即过滤掉该关键信息),若判断出正样本缓冲区不存在同样的关键信息,则可进一步利用上述关键信息生成广告投放预测模型的训练数据,并将上述关键信息从负样本缓冲区删除。0092如图3B所示,若判断出最新写入到负样本缓冲区中的点击流类型为曝光的关键信息对应的日志时间已落入第一时间窗口,则可进一步判断负样本缓冲区是否有至少一条关键信息。若判断出负样本缓冲区没有关键信息,则可返回休眠设定时长的步骤。若判断出负样本缓冲区有至少一条关键信息,则。

45、可进一步判断负样本缓冲区中当前最先写入的关键信息对应的日志时间是否未落入第一时间窗口,若负样本缓冲区中当前最先写入的关键信息对应的日志时间未落入第一时间窗口,则返回休眠设定时长的步骤。若判断出负样本缓冲区中当前最先写入的关键信息对应的日志时间落入第一时间窗口,则可进一步判断是否有同样的关键信息存在于正样本缓冲区,若判断出正样本缓冲区存在同样的关键信息,则删除负样本缓冲区中的对应相同的关键信息(即,过滤掉该关键信息),若判断出正样本缓冲区不存在同样的关键信息,则可利用上述关键信息生成广告投放预测模型的训练数据,并将上述关键信息从负样本缓冲区删除。0093可以理解,图3A和图3B示出了一种可能的根。

46、据关键信息对应的点击流类型及说明书CN104091276A129/15页13关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的方式,当然。在实际应用中还可能根据具体情况进行适应性调整,并不限于上述举例。0094下面还提供用于实施上述方案的相关装置。0095参见图4A,本发明实施例还提供一种在线分析点击流数据的装置400,可以包括获取单元410、提取单元420、类型确定单元430、时间窗口确定单元440、过滤控制单元450和生成单元460。0096其中,获取单元410,用于从广告业务服务器获取点击流数据。0097提取单元420,用于提取所述点击流数据中包含的关键信息。

47、。0098类型确定单元430,用于确定所述关键信息所对应的点击流类型。0099时间窗口确定单元440,用于确定第一时间窗口。0100过滤控制单元450,用于根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤。0101生成单元460,用于若所述过滤控制单元450确定所述关键信息无需被过滤,则利用所述提取单元提取的所述关键信息生成广告投放预测模型的训练数据。0102参见图4B,在本发明的一些实施例中,在线分析点击流数据的装置400还包括0103分类单元470,用于确定所述关键信息对应的广告位分类,将所述关键信息添加到与所述广。

48、告位分类对应的队列之中;0104其中,生成单元460具体用于,从与所述广告位分类对应的所述队列中读取到所述关键信息之后,利用所述关键信息生成广告投放预测模型的训练数据。0105在本发明一些实施例中,生成单元460具体用于,调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息;利用所述关键信息、所述属性信息和所述特征信息,生成广告投放预测模型的训练数据。0106在本发明的一些实施例中,过滤控制单元450具体用于,0107若确定出所述关键信息所对应的点击流类型为点击,则确定所述关键信息无需被过滤;0108或者,0109若确定出所述关键信息所对应的点。

49、击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之外,则确定所述关键信息需被过滤;0110或者,0111若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内还获取到了包含所述关键信息且点击流类型为点击的另一点击流数据,则确定所述关键信息需要被过滤;0112或者,0113若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内未获取到了包含所述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定所述关键信息无需被过滤。0114在本发明一些实施例中,所述第一时间窗口的时长范围为310分钟。0115在本发明一些实施例中,所述关键信息包括广告标识、广告位标识和用户标识。0116在本发明一些实施例中,所述属性信息和所述特征信息包括如下信息的至少一说明书CN104091276A1310/15页14种用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。0117其中,本发明实施例提及的广告投放预测模型可以是,LOGISTICREGRESSION模型、FACTORIZATIONMACHINES模型或自定义广告投放预测模型或其它类型广告投放预测模型。0118测试发现,广告投放预测模型的更新速度越快,即广告投放预测模。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1