用户画像构建方法技术领域
本发明涉及通信技术领域,具体涉及一种用户画像构建方法。
背景技术
用户画像,是一种用于勾画目标用户、联系用户诉求与设计方向的有效工具,其在各领域均得到了广泛的应用。例如,具体实现时,可以将用户画像作为用于刻画用户特征的标签(tag)集合,比如,包括年龄、性别等静态属性,也包括用户的兴趣特征,如旅游、服饰等。用户画像的构建和更新对于后续的信息的定向传播,比如广告的定向投放有着重要的意义。
目前的互联网行业中,构建用户画像的方法一般是根据用户在站内的行为,如将访问的媒体类目、商品类目等行为日志保存下来,然后,在一定时间窗口内,遍历所有的用户行为日志,按照某种权重衰减函数对其进行计算,得到当前最新的用户画像。该方式存在的问题是获取的数据非常片面,仅有该站内的用户数据,对于用户在其他网站上的访问行为则一无所知;同时,对于互联网行业来说,难以做到用户实名注册,所以对于年龄、性别等用户静态属性只能通过相关统计算法进行猜测,可靠性不高。
并且,目前各方数据持有者的用户数据基本都是封闭的,未能在全网层面打通共享各数据孤岛。这就对数据使用者造成无法在全网范围内准确了解用户的行为偏好、并结合其行业需求对数据进行个性化的数据挖掘,对生成符合行业应用的用户画像造成一定困难。
发明内容
本发明的目的是针对上述构建用户画像时,数据片段化、数据封闭等原因造成用户画像不够精准等技术问题提出的一种用户画像构建方法。通过建立精确的全网统一用户画像,方便客户进行用户分析、产品推荐、精准营销等应用服务。
为了达到上述目的,本发明提出一种用户画像构建方法,包括如下步骤:
步骤S1:建立知识库:获取互联网各类数据,并将获取的互联网数据进行融合打通形成知识库;
步骤S2:获取用户的上网日志;
步骤S3:构建用户基础标签:将上述上网日志与所述知识库进行匹配形成用户基础标签;
步骤S4:构建用户属性标签:结合电信运营商的CRM数据及地理位置数据构建用户属性标签;
步骤S5:计算标签数据:对上述基础标签和属性标签进行标签的权重及衰减因子处理;
步骤S6:根据上述标签数据生成用户画像。
进一步的,所述步骤S6中,还可以针对行业用户要求,结合行业用户及行业客户数据进行个性化数据挖掘,构建符合行业应用的用户画像。
进一步的,所述步骤S1中,获取互联网各类数据时采用分布式爬虫爬取方式,所述分布式爬虫采用主从模式部署。主控节点将用户设置的URL抓取任务分发到各爬虫节点,爬虫节点负责具体的网页下载解析任务。
进一步的,所述步骤S1中,将互联网数据融合打通时,首先对互联网数据细化类别,然后进行标签自动归并,将类别进行统一。
进一步的,所述步骤S5中,对标签进行权重处理时,总的标签权重采用如下公式计算:W=触媒权重*行为权重*访问频度,所述触媒权重指不同网站其区分用户特征的重要性,行为权重指的是用户不同行为对于区分用户意向的重要性。
进一步的,所述步骤S5中,对标签进行衰减因子处理时,采用如下衰减函数公式计算:Wts=W*exp(-k(d-ds)),其中,W为总的标签权重,k代表遗忘速率,d-ds指用户行为发生时间到当前时间的时间跨度。
进一步的,所述基础标签包括媒体标签、购买标签、搜索标签、行业标签。
进一步的,所述属性标签包括用户性别、年龄段、机型、活跃地理位置、套餐资费。
进一步的,所述互联网数据包括门户网站、视频网站、电商网站、旅游网站、论坛、微博、微信。
与现有技术相比,本发明的优点和积极效果在于:
首先建立了海量知识库,结合知识库里的同义词库,针对不同的网站能够进行自动化类目标签的融合打通,并且可以在全网范围内跨域、跨固网移动建立用户标签,从多个维度对用户特征进行刻画;
同时结合运营商数据,包括用户静态数据(性别、年龄段、终端、套餐等级等),以及位置信息数据对用户标签进行精确刻画,使用户标签更加丰富全面,为客户提供精确的全网用户画像。
附图说明
图1为实施例中用户画像构建方法流程图;
图2为实施例中分布式爬虫结构部署图;
图3为实施例中全网用户数据管理平台结构示意图;
图4为实施例中实时竞价广告流程图。
具体实施方式
本发明提供一种用户画像构建方法,采用一种新的设计思路构建数据标签,克服了现有的用户数据片段化弊端。考虑到运营商作为基础数据运营商,其智能管道中囊括了用户在互联网上发生的一切行为,通过分析用户在移动端、固网端的上网行为可以分析出用户的上网偏好;同时,运营商本身的通话日志、地理位置信令、实名注册等信息脱敏后将作为用户标签的精确补充。鉴于此,本发明提出如下设计思路:
首先通过分布式爬虫爬取互联网各类数据并融合打通形成海量知识库,然后通过将获取的上网日志与知识库进行匹配生成用户基础标签,并结合电信运营商特有的客户关系管理(CRM)数据及地理位置数据构建用户属性标签;并且可以结合行业用户的特征及行业客户数据做个性化的数据挖掘,生成符合行业应用的用户画像并对外提供服务。下面结合具体实施例对本发明做进一步地说明:
一种用户画像构建方法,参考图1,包括如下步骤:
步骤S1:建立知识库:获取互联网各类数据,并将获取的互联网数据进行融合打通形成知识库;
步骤S2:获取用户的上网日志;
步骤S3:构建用户基础标签:将上述上网日志与所述知识库进行匹配形成用户基础标签;
步骤S4:构建用户属性标签:结合电信运营商的CRM数据及地理位置数据构建用户属性标签;
步骤S5:计算标签数据:对上述基础标签和属性标签进行标签的权重及衰减因子处理;
步骤S6:生成用户画像。
在步骤S1中,获取互联网各类数据时采用分布式爬虫爬取方式,所述分布式爬虫采用主从模式部署,参考图2,主控节点将用户设置的统一资源定位符(UniformResourceLocator,URL)抓取任务分发到各爬虫节点,爬虫节点负责具体的网页下载解析任务,主控节点根据各工作节点的负载情况进行负载均衡。同时,此种方式具有良好的可伸缩性,当系统过载时,通过增加爬虫节点来分担爬取任务。爬虫通过执行定时任务来实现所爬内容的不断自动更新。
获取的各种互联网数据包括以下几大类:门户网站,视频网站,电商网站,旅游网站,论坛,微博、微信等。此时由于数据量巨大,为便于构建用户标签,将互联网数据融合打通时,首先对互联网数据细化类别,然后进行标签自动归并,将类别进行统一。例如,门户网站知识库将细化到最细一级类别,以新浪为例,将实现诸如“科技”-“互联网”两级标签;视频网站将细化到具体某个节目详情,如“电视剧”-“大陆剧”-“琅琊榜”-“主演导演”;电商网站将细化到具体商品详情,如“大家电”-“洗衣机”-“海尔”-“XQG70-B12866”-“7kg/公斤全自动变频静音滚筒洗衣机,价格2199”。由于各网站的类目不统一(例如服装与衣服均表示一类事物,但归并时会造成数据繁冗,处理困难),因此在知识库中建立了同义词库,将各类互联网数据做融合打通时,首先根据同义词库进行标签自动归并,将类别进行统一;可能会剩下的小部分不可归并类别,则由人工参与检查后可以进行自动新标签追加,大大减轻工作量。针对移动应用端的抓取数据,例如APP应用等,由于无法细化,需要人工抓包归类,以上爬虫爬取的类目标签在与上网日志做匹配后将组成用户媒体标签和购买标签。
本发明中,同一个用户在固网与移动上的行为也可以通过第三方账号如QQ、淘宝ID进行打通。用户上网会留下各种账号信息,如QQ号、邮箱号、电商账号等信息,尤其是QQ号和电商账号,基于此类账号进行用户数据打通是可行的。通过第三方账号识别用户在该第三方媒体域上的上网行为,对于跨域的上网行为,移动端上网日志通过移动设备号等信息进行跨域跟踪,对于固网上网日志,通过上网账号及上网设备特征进行粗粒度的跨域跟踪,由于同一账号同一设备特征可能存在多个用户的可能性,通过挖掘算法从一定程度上识别出单个人的行为,然后通过QQ这样的第三方账号作为桥梁,将移动与固网的上网数据进行打通,进而计算用户在全网的标签数据。
由于运营商作为基础数据运营商,其囊括了用户在互联网上发生的一切行为,例如当提供移动设备号时,会反馈用户性别、年龄端等静态属性信息;故结合电信运营商的CRM数据及地理位置数据构建用户属性标签,通过对用户上网行为、静态注册信息、地理位置等数据的综合性分析,多个维度对用户进行基础标签刻画,使标签更加丰富完善。
本实施例中,静态属性信息,如年龄段、性别、终端等用户信息脱敏后将自成标签;地理位置标签将根据基站位置信令统计用户在各时间段出现的位置范围;搜索标签将根据用户在各大搜索引擎的搜索内容进行分词构成搜索标签。
以上各基础标签和属性标签构造完毕之后,需要进行标签的权重及衰减因子处理。权重分为触媒权重和行为权重,触媒权重指不同网站其区分用户特征的重要性,行为权重指用户不同行为对于区分用户意向的重要性。以用户购买化妆品为例,某知名高端化妆品网站与某普通电商网站化妆品专区,则前者的触媒权重更高。触媒权重采用归一化处理,即最高权重的触媒其权重为1,其他触媒权重按区分用户特征的重要性程度依次设置为较小数值。用户在电商网站对于商品的浏览和加入购物车行为相比,后者的行为权重更高,行为权重同样采用归一化处理,最高权重的行为其权重为1,其他行为权重按照区分用户意向的重要性依次设置为较小数值。同时,用户对于某个事物的访问越频繁,其标签权重也越高,对标签进行权重处理时,总的标签权重采用如下公式计算:W=触媒权重*行为权重*访问频度。
随着时间的推移,之前的标签对当前用户的特征区分所起的作用越来越小,因此需要进行衰减处理。对标签进行衰减因子处理时,采用如下衰减函数公式计算:Wts=W*exp(-k(d-ds)),其中,W为总的标签权重,k代表遗忘速率,d-ds指用户行为发生时间到当前时间的时间跨度。
上述标签权重及其衰减因子计算均运行于Hadoop集群,每天执行定时任务,输出结果将存储于实时KV数据库供外界调用。用户数据标签最终存储在统一的用户数据平台并以开放接口的形式对外提供数据服务,能够实现全天候,全网络,分布式地爬取互联网各类数据,基于此数据进行语义分析、文本挖掘,从而生成用户各个维度的基础标签。
针对行业客户,为满足客户的定制化需求,可以为其进行定制化挖掘用户标签及画像,所述步骤S6中还可以结合行业用户及行业客户数据进行个性化数据挖掘,进行基础标签的补充以及基础标签与客户标签的关联映射,最终给用户提供的数据服务是符合客户业务需要的数据标签,构建符合行业应用的用户画像。例如,以房地产客户为例,房地产客户端存有大量的用户信息,例如购房意向、购房时间等;与房地产客户沟通,结合用户的年龄段、媒体兴趣、搜索兴趣、购物兴趣、居住区域、工作区域等基础标签进行机器学习算法挖掘,输出初买房意向、改善住房意向、高端住宅意向等用户标签画像。由于房地产客户端的用户信息不断更新,及时更新算法,输出客户满意的的用户画像,为产品推荐、广告投放提供方便,营销更有针对性。
另外,针对本发明所提出的用户画像构建方法,参考图3,建立全网用户数据管理平台,包括:知识库模块:通过分布式爬虫获取互联网的各类数据,并将数据融合打通形成知识库;日志获取模块:用以获取用户的上网日志信息;用户标签构建模块:通过知识库模块和日志获取模块数据匹配,构建用户标签;标签数据处理模块:用以对用户标签构建模块构建的用户标签进行权重及衰减因子的处理;最终通过用户画像生成模块生成全网统一用户画像,生成用户画像时,可以针对对应行业用户端数据进行挖掘,具有行业特色。其中,所述用户标签构建模块包括用户基础标签构建模块以及用户属性标签构建模块,用以分别构建用户基础标签和用户属性标签;建立属性标签时,结合了电信运营商的CRM数据及地理位置数据构建,所述基础标签包括媒体标签、购买标签、搜索标签、行业标签等,所述属性标签包括用户性别、年龄段、机型、活跃地理位置、套餐资费等。
全网用户数据管理平台采用高并发前端服务器接口,供第三方调用数据时同时访问服务器,处理效率高。上述用户标签的权重及其衰减因子处理均运行于Hadoop集群,每天执行定时任务,输出结果将存储于实时KV数据库供外界调用,实现全天候,全网络,分布式地爬取互联网各类数据,构建全网用户统一画像,更加丰富和全面。
以精准广告营销为例:如图4所示,为实时竞价广告流程图,其中,RTB:实时竞价;DSP:需求方平台,代表广告主对每一次的广告曝光进行实时竞价;SSP:供应方平台,集合了各类媒体网站的广告位,将当前广告位信息传递给广告交易平台;AdExchange:广告交易平台,广告竞价交易最终发生的平台;DMP:数据管理平台
当用户浏览媒体时,媒体会将用户标识符及广告位信息通过SSP发送给AdExchange,后者会将广告信息发送给众多的DSP,DSP根据当前广告位上下文以及当前用户的信息,通过运行机器学习算法来决定是否以及如何对当前广告曝光进行竞价,如果竞价成功,广告将投放在用户当前浏览的网站媒体广告位上。在没有全网用户数据管理平台的情况下,仅靠DSP自己积累的用户数据只是用户支离破碎的数据片段,无法给用户刻画完整的画像标签,竞价算法也就缺失了最重要的数据支撑,这会导致广告无法精准投放到目标人群,以及无法进行精准出价。结合全网用户数据管理平台,DSP与DMP之间可以通过唯一用户标识(如MEID)识别,明确洞察用户行为偏好,从而可以精确的找到目标人群进行广告竞价投放,提升广告效果。
综上,本发明所提出的用户标签构建方法,首先建立海量知识库,针对不同的网站能够进行自动化类目标签的融合打通,可以在全网范围内跨域、跨固网移动建立用户标签画像,从多个维度对用户特征进行刻画;并且能够结合运营商数据,对用户静态数据进行精确刻画。同时,根据客户的行业要求,进行定制化的算法挖掘,输出满足客户需求的用户标签画像。为客户提供精确的全网用户画像,以此为基础,方便客户进行用户分析、产品推荐、精准营销等应用服务。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。