《在线分析点击流数据的方法和相关装置及系统.pdf》由会员分享,可在线阅读,更多相关《在线分析点击流数据的方法和相关装置及系统.pdf(27页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104091276A43申请公布日20141008CN104091276A21申请号201310672117X22申请日20131210G06Q30/02201201G06F17/30200601H04L29/0620060171申请人深圳市腾讯计算机系统有限公司地址518000广东省深圳市南山区高新区高新南一路飞亚达大厦510楼72发明人王洋张书彬薛伟李勇肖磊刘大鹏言艳花姜磊郭伟昭胡少锋柳金晶黄丕培徐妙蔡斌74专利代理机构深圳市深佳知识产权代理事务所普通合伙44285代理人胡丽萍54发明名称在线分析点击流数据的方法和相关装置及系统57摘要本发明实施例公开了在线分析点击流数据。
2、的方法和相关装置及系统。其中一种在线分析点击流数据的方法,可包括从广告业务服务器获取点击流数据;提取点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用关键信息生成广告投放预测模型的训练数据。本发明实施例提供的技术方案有利于降低处理资源对得到训练数据的限制、提高广告投放预测模型的实时性、提高广告投放预测模型与线上实时数据的吻合度。51INTCL权利要求书3页说明书15页附图8页19中华人民共和国国家知识产权局。
3、12发明专利申请权利要求书3页说明书15页附图8页10申请公布号CN104091276ACN104091276A1/3页21一种在线分析点击流数据的方法,其特征在于,应用于分布式系统,所述方法包括从广告业务服务器获取点击流数据;提取所述点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。2根据权利要求1所述的方法,其特征在于,所述方法还包括确定所述关键信息对应的。
4、广告位分类;将所述关键信息添加到与所述广告位分类对应的队列之中;所述利用所述关键信息生成广告投放预测模型的训练数据包括从与所述广告位分类对应的所述队列中读取到所述关键信息之后,利用所述关键信息生成广告投放预测模型的训练数据。3根据权利要求1或2所述的方法,其特征在于,所述利用所述关键信息生成广告投放预测模型的训练数据,包括调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息;利用所述关键信息、所述属性信息和所述特征信息,生成广告投放预测模型的训练数据。4根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述关键信息对应的点击流类型,以及所。
5、述关键信息对应的日志时间与所述第一时间窗口的对应关系,包括若确定出所述关键信息所对应的点击流类型为点击,则确定所述关键信息无需被过滤;若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之外,则确定所述关键信息需被过滤;或者,若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内还获取到了包含所述关键信息且点击流类型为点击的另一点击流数据,则确定所述关键信息需要被过滤;或者,若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间。
6、窗口之内未获取到了包含所述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定所述关键信息无需被过滤。5根据权利要求4所述的方法,其特征在于,所述第一时间窗口的时长范围为310分钟。6根据权利要求1或2所述的方法,其特征在于,所述关键信息包括广告标识、广告位标识和用户标识。权利要求书CN104091276A2/3页37根据权利要求1或2所述的方法,其特征在于,所述属性信息和所述特征信息包括如下信息的至少一种用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。8一种在线分析点击流数据的装置,其特征在于,应用于分布式系统,所述装置包括获取单元,用于从广告业务服务器获取点。
7、击流数据;提取单元,用于提取所述点击流数据中包含的关键信息;类型确定单元,用于确定所述关键信息所对应的点击流类型;时间窗口确定单元,用于确定第一时间窗口;过滤控制单元,用于根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;生成单元,用于若所述过滤控制单元确定所述关键信息无需被过滤,则利用所述提取单元提取的所述关键信息生成广告投放预测模型的训练数据。9根据权利要求8所述的装置,其特征在于,所述装置还包括分类单元,用于确定所述关键信息对应的广告位分类,将所述关键信息添加到与所述广告位分类对应的队列之中;所述生成单元具体用于。
8、,从与所述广告位分类对应的所述队列中读取到所述关键信息之后,利用所述关键信息生成广告投放预测模型的训练数据。10根据权利要求8或9所述的装置,其特征在于,所述生成单元具体用于,若所述过滤控制单元确定所述关键信息无需被过滤,则调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息;利用所述关键信息、所述属性信息和所述特征信息,生成广告投放预测模型的训练数据。11根据权利要求8至10任一项所述的装置,其特征在于,所述过滤控制单元具体用于,若确定出所述关键信息所对应的点击流类型为点击,则确定所述关键信息无需被过滤;若确定出所述关键信息所对应的点击流类型。
9、为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之外,则确定所述关键信息需被过滤;或者,若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内还获取到了包含所述关键信息且点击流类型为点击的另一点击流数据,则确定所述关键信息需要被过滤;或者,若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内未获取到了包含所述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定所述关键信息无需被过滤。12根据权利要求11所述的装置,其特征在于,所述第一时间窗口的。
10、时长范围为310分钟。13根据权利要求8或9所述的装置,其特征在于,权利要求书CN104091276A3/3页4所述关键信息包括广告标识、广告位标识和用户标识。14根据权利要求8或9所述的装置,其特征在于,所述属性信息和所述特征信息包括如下信息的至少一种用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。15一种分布式通信系统,其特征在于,包括广告业务服务器和分析预测平台;其中,所述分析预测平台用于,从所述广告业务服务器获取点击流数据;提取所述点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息。
11、对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。16根据权利要求15所述的通信系统,其特征在于,在利用所述关键信息生成广告投放预测模型的训练数据的方面,所述分析预测平台具体用于,调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息,利用所述关键信息、所述属性信息和所述特征信息生成广告投放预测模型的训练数据。权利要求书CN104091276A1/15页5在线分析点击流数据的方法和相关装置及系统技术领域0001本发明涉及互联网技术领域,具体主。
12、要涉及一种在线分析点击流数据的方法和相关装置及系统。背景技术0002广告推送是一项重要的互联网业务。0003广点通是运营商常用的一款广告推送工具。广点通等广告推送工具进行广告预测时需要使用用户每天的点击流数据来训练广告投放预测模型。现有的广点通等广告推送工具通常都是使用离线分析得到的训练数据来训练广告投放预测模型。0004本发明的发明人在研究和实践过程当中发现,现有技术至少存在以下的技术问题通过离线分析得到训练数据将受处理资源的限制,且难以满足广告投放预测模型训练对较高实时性的要求,且基于离线分析得到的训练数据所训练的广告投放预测模型有时难以与线上实时数据较好的吻合。发明内容0005本发明实施。
13、例提供在线分析点击流数据的方法和相关装置及系统,以期降低处理资源对得到训练数据的限制、提高广告投放预测模型的实时性、提高广告投放预测模型与线上实时数据的吻合度。0006本发明实施例一方面提供一种在线分析点击流数据的方法,应用于分布式系统,所述方法包括0007从广告业务服务器获取点击流数据;0008提取所述点击流数据中包含的关键信息;0009确定所述关键信息所对应的点击流类型;0010确定第一时间窗口;0011根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;0012若确定所述关键信息无需被过滤,则利用所述关键信息生成广。
14、告投放预测模型的训练数据。0013本发明实施例另一方面提供一种在线分析点击流数据的装置,应用于分布式系统,所述装置可包括0014获取单元,用于从广告业务服务器获取点击流数据;0015提取单元,用于提取所述点击流数据中包含的关键信息;0016类型确定单元,用于确定所述关键信息所对应的点击流类型;0017时间窗口确定单元,用于确定第一时间窗口;0018过滤控制单元,用于根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;说明书CN104091276A2/15页60019生成单元,用于若所述过滤控制单元确定所述关键信息无需被过。
15、滤,则利用所述提取单元提取的所述关键信息生成广告投放预测模型的训练数据。0020本发明实施例又一方面提供一种通信系统,可包括0021广告业务服务器和分析预测平台;0022其中,所述分析预测平台用于从所述广告业务服务器获取点击流数据;提取所述点击流数据中包含的关键信息;确定所述关键信息所对应的点击流类型;确定第一时间窗口;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤,则利用所述关键信息生成广告投放预测模型的训练数据。0023可以看出,本发明的一些实施方式中,从广告业务服务器获取点击流数据。
16、之后;提取上述点击流数据中包含的关键信息;确定第一时间窗口和所述关键信息所对应的点击流类型;根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤;若确定所述关键信息无需被过滤之后,利用上述关键信息生成广告投放预测模型的训练数据。上述方案由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、。
17、有利于提高广告投放预测模型与线上实时数据的吻合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。附图说明0024为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0。
18、025图1是本发明实施例提供的一种在线分析点击流数据的方法的流程示意图;0026图2A是本发明实施例提供的一种通信系统的架构示意图;0027图2B是本发明实施例提供的一种分析预测平台的逻辑架构示意图;0028图2C是本发明实施例提供的一种在线分析点击流数据的方法的流程示意图;0029图3A是本发明实施例提供的根据关键信息对应的点击流类型及关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的过程的示意图;0030图3B是本发明实施例提供的一种一种对写入到负样本缓冲区的关键信息的处理方式的流程示意图;0031图4A是本发明实施例提供的一种网在线分析点击流数据的装置的示意。
19、图;0032图4B是本发明实施例提供的另一种网在线分析点击流数据的装置的示意图;说明书CN104091276A3/15页70033图5是本发明实施例提供的一种分析预测平台的示意图;0034图6A是本发明实施例提供的一种分布式通信系统的示意图0035图6B是本发明实施例提供的一种基于分布式架构构建的分析预测平台的示意图;0036图7是本发明实施例提供的一种服务器的示意图。具体实施方式0037本发明实施例提供在线分析点击流数据的方法和相关装置及系统,以期降低处理资源对得到训练数据的限制、提高广告投放预测模型的实时性、提高广告投放预测模型与线上实时数据的吻合度。0038为了使本技术领域的人员更好地理。
20、解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。0039以下分别进行详细说明。0040本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,。
21、术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。0041本发明一种在线分析点击流数据的方法的一个实施例,其中,一种在线分析点击流数据的方法,可应用于分布式系统,该方法可包括从广告业务服务器获取点击流数据;提取上述点击流数据中包含的关键信息;确定上述关键信息所对应的点击流类型;确定第一时间窗口;根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是。
22、否需要被过滤;若确定上述关键信息无需被过滤,则利用上述关键信息生成广告投放预测模型的训练数据。0042首先请参见图1,图1是本发明的一个实施例提供的一种在线分析点击流数据的方法的流程示意图。如图1所示,本发明的一个实施例提供的一种在线分析点击流数据的方法,可应用于分布式系统,该方法可包括以下内容0043101、从广告业务服务器获取点击流数据。0044其中,点击流数据是指,由对展示广告发生的点击和/或曝光行为的感知而形成的数据流。0045102、提取上述点击流数据中包含的关键信息。0046在本发明一些实施例中,上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱、QQ号、手机号等)。
23、等,当然关键信息还可包括其它一些关键信息。0047103、确定上述关键信息所对应的点击流类型。说明书CN104091276A4/15页80048其中,上述关键信息所对应的点击流类型可能为曝光或点击。0049104、确定第一时间窗口。0050其中,第一时间窗口的时长范围例如可为310分钟或其它时长。而第一时间窗口的截止时间例如可为最新获取到的包含上述关键信息的点击流数据所对应的日志时间。其中,第一时间窗口的时长可以是预设参数确定的或可以是根据用户指令确定的或可以是通过其他方式确定的。0051可以理解,步骤103和步骤104之间没有必然的执行先后顺序。0052105、根据上述关键信息对应的点击流类。
24、型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤。0053106、若确定上述关键信息无需被过滤,则利用上述关键信息生成广告投放预测模型的训练数据。0054其中,一条训练数据可认为是聚合了包括关键信息在内的多种信息的一个信息聚合体。0055在本发明的一些实施例中,可将提取到的上述点击流数据中包含的关键信息写入缓冲区之中,在从缓冲区之中读取到上述关键信息之后,利用上述关键信息生成广告投放预测模型的训练数据。0056举例来说,在提取上述点击流数据中包含的关键信息之后,可先确定上述关键信息对应的广告位分类(即,按照广告位分类提取到的关键信息,以确定出上述关。
25、键信息对应的广告位分类);将上述关键信息添加到与上述广告位分类对应的队列之中(例如,不同的广告位分类,可对应不同的队列,例如广告位分类和队列可以是一一对应的)。其中,上述利用上述关键信息生成广告投放预测模型的训练数据具体可包括在从与上述广告位分类对应的上述队列中读取到上述关键信息之后,利用上述关键信息生成广告投放预测模型的训练数据。其中,对关键信息分类的目的之一是为了在生成训练数据时可以按广告位为粒度进行处理。0057在本发明的一些实施例中,上述利用上述关键信息生成广告投放预测模型的训练数据,可包括调用流式计算拓扑(或调用其它计算单元),以上述关键信息为索引,在在线存储服务器中查找出与上述关键。
26、信息匹配的属性信息和特征信息;利用上述关键信息和上述属性信息和上述特征信息,生成广告投放预测模型的训练数据(例如可按照预设的聚合规则将上述关键信息、上述属性信息和上述特征信息进行聚合以得到广告投放预测模型的训练数据。在本发明的一些实施例中,可将得到的广告投放预测模型的训练数据些写入到分布式文件系统之中,以备训练广告投放预测模型。进一步的,可将在设定时间窗口之内得到的相同训练数据进行去重处理。0058其中,根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的具体方式可能是多种多样的。0059举例来说,根据上述关键信息对应的。
27、点击流类型,以及上述关键信息对应的日志时间与上述第一时间窗口的对应关系,确定上述关键信息是否需要被过滤可以包括若确定出上述关键信息所对应的点击流类型为点击,则确定上述关键信息无需被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于说明书CN104091276A5/15页9第一时间窗口之外,则确定上述关键信息需被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内还获取到了包含上述关键信息且点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;或者,若确定出上述关键信。
28、息所对应的点击流类型为曝光,并且上述关键信息所对应的日志时间处于第一时间窗口之内,并且在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。0060其中,另一点击流数据可指另一些点击流数据或另一个点击流数据。0061在本发明的一些实施例中,上述属性信息和上述特征信息例如可包括如下信息的至少一种用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。0062其中,本发明实施例提及的广告投放预测模型可以是,LOGISTICREGRESSION模型、FACTORIZATIONMACHINES模型或自定义广告投放预测模型。
29、或其它类型广告投放预测模型。0063测试发现,广告投放预测模型的更新速度越快,即广告投放预测模型的实时性越好,广告投放预测模型与线上实时数据的吻合度通常越高,而广告投放预测模型的更新则主要依赖于模型的训练数据,因此,训练数据是否能够在尽快的准备就绪、训练数据是否是最新的、是否能够尽可能真实/尽可能实时的反应线上当前的点击情况,是保证广告投放预测模型稳定性和提高广告投放预测模型质量的关键因素。0064可以看出,本实施例从广告业务服务器获取点击流数据之后;提取上述点击流数据中包含的关键信息;利用上述关键信息生成广告投放预测模型的训练数据。由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点。
30、击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、有利于提高广告投放预测模型与线上实时数据的吻合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。0065为便于更好理解和实施本发明实施例的。
31、上述方案,下面通过几个具体的应用场景进行举例介绍。0066参见图2A,图2A示出了一种通信系统架构图。图2A所示通信系统包括分析预测平台、在线存储服务器和若干个广告业务服务器。2B示出了一种分析预测平台的逻辑架构图。0067请参见图2C,图2C是本发明的另一实施例提供的一种在线分析点击流数据的方法的流程示意图。如图2C所示,本发明的另一实施例提供的一种在线分析点击流数据的方法可包括以下内容0068201、分析预测平台从广告业务服务器获取点击流数据。0069其中,点击流数据是指由对展示广告发生的点击和/或曝光行为的感知而形成的数据流。说明书CN104091276A6/15页100070202、分。
32、析预测平台调用流式计算拓扑,提取上述点击流数据中包含的关键信息。0071在本发明的一些实施例中,上述关键信息可包括广告标识、广告位标识和用户标识(用户标识例如邮箱、QQ号、手机号等)等,当然关键信息还可包括其它一些关键信息。0072其中,分析预测平台例如可以将从广告业务服务器获取到的点击流数据写入到队列之中。分析预测平台在调用流式计算拓扑,从队列之中取出点击流数据之后,提取上述点击流数据中包含的关键信息。其中。利用队列可以控制点击流数据的处理速度。0073203、分析预测平台按照广告位分类提取到的关键信息,以确定出上述关键信息对应的广告位分类。0074204、分析预测平台将上述关键信息添加到与。
33、上述广告位分类对应的队列之中。例如不同的广告位分类可对应不同的队列,例如广告位分类和队列可以是一一对应的。0075205、分析预测平台在从与上述广告位分类对应的上述队列中读取到上述关键信息之后,调用流式计算拓扑,确定上述关键信息所对应的点击流类型和第一时间窗口,基于预设的过滤策略确定上述关键信息是否需要被过滤,若确定出上述关键信息无需被过滤,则可以以上述关键信息为索引,在在线存储服务器中查找出与上述关键信息匹配的属性信息和特征信息,利用上述关键信息、上述属性信息和上述特征信息,生成广告投放预测模型的训练数据。0076在一些场景下,可能存在如下情况,在一个用户点击的前后一段时间内可能会存在对同一。
34、个用户标识同一个广告位同一个广告的曝光的情况,若把点击和曝光当作用户喜好来看,用户点击表示喜欢,只看不点击表示不喜欢。如果某用户看了之后过一会儿点击了,可认为该用户是喜欢的,用户不喜欢的记录最好能够被消除掉。因此,可通过预设过滤策略来清洗掉某些点击流类型为曝光的关键信息。其中,预设的过滤策略可能是多种多样的,可以根据具体需要来设定相应的过滤策略。0077流式计算拓扑(如图2B中的各流式计算拓扑,每个流式计算拓扑包括若干个处理单元)可看作是用于实现一个计算流程的单位。其中,不同流式计算拓扑可为不同的广告投放预测模型提供训练数据。0078在本发明的一些实施例中,队列中存储的有些关键信息可能被用于得。
35、到训练数据的多个流式计算拓扑所复用。关键信息按广告位分类,产生不同广告投放预测模型的训练数据的流式计算拓扑,可能使用同一个广告位对应的关键信息,某个流式计算拓扑也可能使用多个广告位对应的关键信息,即一个特定的广告位上的关键信息可以为多个模型的训练数据的产生所用。0079在本发明一些实施例中,产生每个广告投放预测模型模型对应的训练数据所需要的属性信息和特征信息的数量和类型,可根据不同需要来调整,只要所需要的属性信息和特征信息被预先存储于在线存储服务器之中。0080其中,基于预设的过滤策略确定上述关键信息是否需要被过滤具体可以是根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与第一。
36、时间窗口的对应关系,确定上述关键信息是否需要被过滤。0081举例来说,根据上述关键信息对应的点击流类型,以及上述关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤可包括若确定出上述关键信息所对应的点击流类型为点击,则确定上述关键信息无需被过滤;或者若确定出说明书CN104091276A107/15页11上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之外,则确定上述关键信息需被过滤;或者若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内还获取到了包含上述关键信息且。
37、点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;或者,若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。0082其中,第一时间窗口的时长范围例如可为310分钟或其它时长。而第一时间窗口的截止时间例如可为最新获取到的包含上述关键信息的点击流数据所对应的日志时间。通过分布式可靠协调服务将时间窗口更新到流式系统,还支持在不停拓扑计算的情况下动态调整时间窗口的大小。0083在本发明的一些实施例中,若关键信息对应的点击流。
38、类型为点击,则进一步将该关键信息写入正样本缓冲区;若确定出上述关键信息所对应的点击流类型为曝光,且上述关键信息所对应的日志时间处于第一时间窗口之内,且正样本缓冲区在第一时间窗口之内不存在上述关键信息,则可该上述关键信息写入负样本缓冲区,若在第一时间窗口之内还获取到了包含上述关键信息且点击流类型为点击的另一点击流数据,则确定上述关键信息需要被过滤;若在第一时间窗口之内未获取到了包含上述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定上述关键信息无需被过滤。0084在本发明的一些实施例中,上述属性信息和上述特征信息例如可包括如下信息的至少一种用户年龄、用户活跃度,用户性别、广告主标识、。
39、广告类目信息、广告图像信息。0085其中,本发明实施例提及的广告投放预测模型可以是,LOGISTICREGRESSION模型、FACTORIZATIONMACHINES模型或自定义广告投放预测模型或其它类型广告投放预测模型。0086测试发现,广告投放预测模型的更新速度越快,即广告投放预测模型的实时性越好,广告投放预测模型与线上实时数据的吻合度通常越高,而广告投放预测模型的更新则主要依赖于模型的训练数据,因此,训练数据是否能够在尽快的准备就绪、训练数据是否是最新的、是否能够尽可能真实/尽可能实时的反应线上当前的点击情况,是保证广告投放预测模型稳定性和提高广告投放预测模型质量的关键因素。00872。
40、06、分析预测平台将得到的广告投放预测模型的训练数据些写入到分布式文件系统之中,以备训练广告投放预测模型。0088可以看出,本实施例分析预测平台从广告业务服务器获取点击流数据之后;提取上述点击流数据中包含的关键信息;利用上述关键信息生成广告投放预测模型的训练数据。由于是从广告业务服务器获取实时的点击流数据,实时在线的进行点击流数据的分析以得到广告投放预测模型的训练数据,相对于现有的离线分析机制而言,本发明的技术方案有利于降低处理资源对得到训练数据的限制(无需将点击流数据累积到一定数量之后在进行分析以得到训练数据)、有利于提高广告投放预测模型的实时性、有利于提高广告投放预测模型与线上实时数据的吻。
41、合度。并且,上述方案进一步根据关键信息对应的点击流类型,以及关键信息对应的日志时间与确定的第一时间窗口的对应关系对关键信息过滤处说明书CN104091276A118/15页12理,因此有利于提高所使用关键信息的有效性,进而有利于提高生成的广告投放预测模型的训练数据的有效性,进而有利于训练出更加贴合实际发生场景的广告投放预测模型。0089下面结合附图3A和图3B,通过一些场景来举例介绍根据关键信息对应的点击流类型,及关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的方式。0090如图3A所示,获得点击流数据中的关键信息之后,可先确定关键信息所对应的点击流类型,若确定。
42、出该关键信息所对应的点击流类型为点击,则可将该关键信息写入正样本缓冲区(PSAMPLE),并可利用上述关键信息生成广告投放预测模型的训练数据,在上述关键信息对应的日志时间(LOG_TIME)落入第一时间窗口之后,将上述关键信息从PSAMPLE删除。若该关键信息所对应的点击流类型为曝光,则可判断上述关键信息对应的日志时间是否未落入到第一时间窗口之中,若上述关键信息对应的日志时间未落入到第一时间窗口,则可过滤掉该关键信息;若上述关键信息对应的日志时间落入到第一时间窗口,则可判断正样本缓冲区中当前是否存在与上述关键信息同样的关键信息,若判断出正样本缓冲区中当前存在与上述关键信息同样的关键信息,则可过。
43、滤掉该关键信息,若正样本缓冲区中当前不存在与上述关键信息同样的关键信息,则可将该关键信息写入负样本缓冲区(NSAMPLE)。0091参见图3B,图3B举例示出了一种对写入到负样本缓冲区的关键信息的处理方式。如图3B所示,在休眠设定时长之后,可判断最新写入到负样本缓冲区中的点击流类型为曝光的关键信息对应的日志时间(UPDATETIME)是否未落入第一时间窗口(此处第一时间窗口的截止时间为系统当前时间)。若最新写入到负样本缓冲区中的点击流类型为曝光的关键信息对应的日志时间未落入第一时间窗口,则判断负样本缓冲区是否有至少一条关键信息,若判断出负样本缓冲区没有任何关键信息,则返回休眠设定时长的步骤。若。
44、判断出负样本缓冲区有至少一条关键信息,则进一步判断是否有同样的关键信息存在于正样本缓冲区,若判断出正样本缓冲区存在同样的关键信息,则删除负样本缓冲区中的对应相同的关键信息(即过滤掉该关键信息),若判断出正样本缓冲区不存在同样的关键信息,则可进一步利用上述关键信息生成广告投放预测模型的训练数据,并将上述关键信息从负样本缓冲区删除。0092如图3B所示,若判断出最新写入到负样本缓冲区中的点击流类型为曝光的关键信息对应的日志时间已落入第一时间窗口,则可进一步判断负样本缓冲区是否有至少一条关键信息。若判断出负样本缓冲区没有关键信息,则可返回休眠设定时长的步骤。若判断出负样本缓冲区有至少一条关键信息,则。
45、可进一步判断负样本缓冲区中当前最先写入的关键信息对应的日志时间是否未落入第一时间窗口,若负样本缓冲区中当前最先写入的关键信息对应的日志时间未落入第一时间窗口,则返回休眠设定时长的步骤。若判断出负样本缓冲区中当前最先写入的关键信息对应的日志时间落入第一时间窗口,则可进一步判断是否有同样的关键信息存在于正样本缓冲区,若判断出正样本缓冲区存在同样的关键信息,则删除负样本缓冲区中的对应相同的关键信息(即,过滤掉该关键信息),若判断出正样本缓冲区不存在同样的关键信息,则可利用上述关键信息生成广告投放预测模型的训练数据,并将上述关键信息从负样本缓冲区删除。0093可以理解,图3A和图3B示出了一种可能的根。
46、据关键信息对应的点击流类型及说明书CN104091276A129/15页13关键信息对应的日志时间与第一时间窗口的对应关系,确定上述关键信息是否需要被过滤的方式,当然。在实际应用中还可能根据具体情况进行适应性调整,并不限于上述举例。0094下面还提供用于实施上述方案的相关装置。0095参见图4A,本发明实施例还提供一种在线分析点击流数据的装置400,可以包括获取单元410、提取单元420、类型确定单元430、时间窗口确定单元440、过滤控制单元450和生成单元460。0096其中,获取单元410,用于从广告业务服务器获取点击流数据。0097提取单元420,用于提取所述点击流数据中包含的关键信息。
47、。0098类型确定单元430,用于确定所述关键信息所对应的点击流类型。0099时间窗口确定单元440,用于确定第一时间窗口。0100过滤控制单元450,用于根据所述关键信息对应的点击流类型,以及所述关键信息对应的日志时间与所述第一时间窗口的对应关系,确定所述关键信息是否需要被过滤。0101生成单元460,用于若所述过滤控制单元450确定所述关键信息无需被过滤,则利用所述提取单元提取的所述关键信息生成广告投放预测模型的训练数据。0102参见图4B,在本发明的一些实施例中,在线分析点击流数据的装置400还包括0103分类单元470,用于确定所述关键信息对应的广告位分类,将所述关键信息添加到与所述广。
48、告位分类对应的队列之中;0104其中,生成单元460具体用于,从与所述广告位分类对应的所述队列中读取到所述关键信息之后,利用所述关键信息生成广告投放预测模型的训练数据。0105在本发明一些实施例中,生成单元460具体用于,调用流式计算拓扑,以所述关键信息为索引,在在线存储服务器中查找出与所述关键信息匹配的属性信息和特征信息;利用所述关键信息、所述属性信息和所述特征信息,生成广告投放预测模型的训练数据。0106在本发明的一些实施例中,过滤控制单元450具体用于,0107若确定出所述关键信息所对应的点击流类型为点击,则确定所述关键信息无需被过滤;0108或者,0109若确定出所述关键信息所对应的点。
49、击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之外,则确定所述关键信息需被过滤;0110或者,0111若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内还获取到了包含所述关键信息且点击流类型为点击的另一点击流数据,则确定所述关键信息需要被过滤;0112或者,0113若确定出所述关键信息所对应的点击流类型为曝光,且所述关键信息所对应的日志时间处于第一时间窗口之内,且在所述第一时间窗口之内未获取到了包含所述关键信息且点击流类型为点击和/或曝光的另一点击流数据,则确定所述关键信息无需被过滤。0114在本发明一些实施例中,所述第一时间窗口的时长范围为310分钟。0115在本发明一些实施例中,所述关键信息包括广告标识、广告位标识和用户标识。0116在本发明一些实施例中,所述属性信息和所述特征信息包括如下信息的至少一说明书CN104091276A1310/15页14种用户年龄、用户活跃度,用户性别、广告主标识、广告类目信息、广告图像信息。0117其中,本发明实施例提及的广告投放预测模型可以是,LOGISTICREGRESSION模型、FACTORIZATIONMACHINES模型或自定义广告投放预测模型或其它类型广告投放预测模型。0118测试发现,广告投放预测模型的更新速度越快,即广告投放预测模。