一种对移动通信数据业务客户画像的精确构建方法.pdf

摘要
申请专利号：	CN200810039889.9	申请日：	2008.06.30
公开号：	CN101621823A	公开日：	2010.01.06
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):H04W 24/06公开日:20100106\|\|\|实质审查的生效\|\|\|公开
IPC分类号：	H04W24/06(2009.01)I; G06F17/30	主分类号：	H04W24/06
申请人：	上海全成通信技术有限公司
发明人：	冯谧
地址：	200050上海市延安西路726号(华敏翰尊国际)7楼J、K座
优先权：
专利代理机构：	上海科盛知识产权代理有限公司	代理人：	赵志远
PDF下载：	PDF下载

内容摘要

本发明涉及一种对移动通信数据业务客户画像的精确构建方法，包括以下步骤：根据移动数据业务的需求，从数据集市中选择一个分业务视图；从该分业务视图中选择关键字段，进行基于统计学的客户分群；建立数据集市中所有客户的统一视图；基于客户统一视图，采用多种分类算法构建多个分类模型；评估该多个分类模型，从中选择最优分类模型，并发布该最优分类模型。与现有技术相比，通过本发明的方法可以实现客户在特定的数据业务下的精确画像，实现了对客户全面准确的描述。

权利要求书

1：一种对移动通信数据业务客户画像的精确构建方法，其特征在于，包括以下步骤： (1).根据移动数据业务的需求，从数据集市中选择一个分业务视图； (2).从该分业务视图中选择关键字段，进行基于统计学的客户分群； (3).建立数据集市中所有客户的统一视图； (4).基于客户统一视图，采用多种分类算法构建多个分类模型； (5).评估该多个分类模型，从中选择最优分类模型，并发布该最优分类模型。
2：根据权利要求1所述的一种对移动通信数据业务客户画像的精确构建方法，其特征在于，所述的数据集市包括每个移动数据业务的分业务视图和每个移动数据业务的客户统一视图。
3：根据权利要求1所述的一种对移动通信数据业务客户画像的精确构建方法，其特征在于，所述的步骤(2)进一步包括：采用数据挖掘工具审核分业务视图中的各字段，查看其数据的分布和质量；根据移动数据业务的需求，确定分业务视图的关键字段，并在关键字段的维度上进行统计分析，确定关键字段数据的分布情况；根据关键字段数据的分布情况，将客户分群。
4：根据权利要求1所述的一种对移动通信数据业务客户画像的精确构建方法，其特征在于，所述的客户统一视图包括各客户的个人基本信息、各客户的在各数据业务维度上的记录，两者通过客户的手机号码来关联。
5：根据权利要求1所述的一种对移动通信数据业务客户画像的精确构建方法，其特征在于，所述的步骤(4)进一步包括：从客户统一视图中采样两类数据，该两类数据为：数据a，属于特定的某项业务的一个群的数据，此部分数据符合该群的统计规则；数据b，此部分数据为不符合数据a的抽取规则的数据；数据a与数据b的比例区间为1∶1-1∶4；采用多个分类算法对采样的数据进行建模；为各模型设置最优的参数。
6：根据权利要求1所述的一种对移动通信数据业务客户画像的精确构建方法，其特征在于，所述的步骤(5)进一步包括：模型评估，根据各模型产生的评估参数以及正确率来进行模型的评测，选出当前最优的模型；模型的推广，将模型应用于整个数据集，判断产生的规则集，是否有实际的意义，然后将规则转化成用户群的特征信息添加到各个群的群特描述部分；模型的前台展现，创建表一和表二，分别用来存放群信息和属于该群的用户信息，表一中存放群号、群的数量和群的特征描述信息，表二中存放归属的群号、手机号及个人用户信息。

说明书

一种对移动通信数据业务客户画像的精确构建方法
    【技术领域】

    本发明涉及移动通信行业的数据挖掘技术，特别是涉及一种对移动通信数据业务客户画像的精确构建方法。

    背景技术

    数据挖掘(Data Mining)就是从大型数据库中的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用的信息，提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。数据挖掘利用各种分析工具在海量数据中发现模型与数据间的关系，这些模型和关系可以用来做预测。数据挖掘通过预测未来趋势及行为，做出前瞻的，基于知识的决策。

    客户画像就是把客户分成一个个群体，在每个群体内部，客户的特征非常相似；而群体与群体之间，客户的特征具有较大差异。只有区分出一个个的客户群，企业才可以对每个客户群进行有效的管理并采取相应的营销手段，我们将用客户画像来替代以往的客户细分这个名词。

    在移动通信行业众多的数据业务中进行数据挖掘、建立客户画像，目前尚未提出一种系统化的流程及方法来对移动行业的数据业务进行全面的挖掘和进行客户画像，而此过程当中，如何在建立好的数据集市上进行客户画像，采用什么样的数据挖掘建模方法进行建模，都没有一种标准化的方法以及流程来控制。

    目前，移动通信行业新业务的复杂多样化决定了通过一张统一的客户视图不能全面准确的对客户进行描述，需要根据不同的业务类型对客户进行进一步的精确画像。

    技术方案

    本发明所要解决的技术问题就是为了克服上述现有技术存在的缺陷而提供一种对移动通信数据业务客户画像的精确构建方法。

    本发明的目的可以通过以下技术方案来实现：一种对移动通信数据业务客户画像的精确构建方法，其特征在于，包括以下步骤：

    (1).根据移动数据业务的需求，从数据集市中选择一个分业务视图；

    (2).从该分业务视图中选择关键字段，进行基于统计学的客户分群；

    (3).建立数据集市中所有客户的统一视图；

    (4).基于客户统一视图，采用多种分类算法构建多个分类模型；

    (5).评估该多个分类模型，从中选择最优分类模型，并发布该最优分类模型。

    所述的数据集市包括每个移动数据业务的分业务视图和每个移动数据业务的客户统一视图。

    所述的步骤(2)进一步包括：

    采用数据挖掘工具审核分业务视图中的各字段，查看其数据的分布和质量；

    根据移动数据业务的需求，确定分业务视图的关键字段，并在关键字段的维度上进行统计分析，确定关键字段数据的分布情况；

    根据关键字段数据的分布情况，将客户分群。

    所述的客户统一视图包括各客户的个人基本信息、各客户的在各数据业务维度上的记录，两者通过客户的手机号码来关联。

    所述的步骤(4)进一步包括：

    从客户统一视图中采样两类数据，该两类数据为：数据a，属于特定的某项业务的一个群的数据，此部分数据符合该群的统计规则；数据b，此部分数据为不符合数据a的抽取规则的数据；数据a与数据b的比例区间为1∶1-1∶4；

    采用多个分类算法对采样的数据进行建模；

    为各模型设置最优的参数。

    所述的步骤(5)进一步包括：

    模型评估，根据各模型产生的评估参数以及正确率来进行模型地评测，选出当前最优的模型；

    模型的推广，将模型应用于整个数据集，判断产生的规则集，是否有实际的意义，然后将规则转化成用户群的特征信息添加到各个群的群特描述部分；

    模型的前台展现，创建表一和表二，分别用来存放群信息和属于该群的用户信息，表一中存放群号、群的数量和群的特征描述信息，表二中存放归属的群号、手机号及个人用户信息。

    与现有技术相比，通过本发明的方法可以实现客户在特定的数据业务下的精确画像，实现了对客户全面准确的描述。

    【附图说明】

    图1为本发明的流程图。

    【具体实施方式】

    下面结合附图对本发明作进一步说明。

    如图1所示，一种对移动通信数据业务客户画像的精确构建方法，包括以下步骤：

    (1).根据移动数据业务的需求，从数据集市中选择一个分业务视图；

    (2).从该分业务视图中选择关键字段，进行基于统计学的客户分群；

    (3).建立数据集市中所有客户的统一视图；

    (4).基于客户统一视图，采用多种分类算法构建多个分类模型；

    (5).评估该多个分类模型，从中选择最优分类模型，并发布该最优分类模型；

    所述的数据集市包括每个移动数据业务的分业务视图和每个移动数据业务的客户统一视图；

    所述的步骤(2)进一步包括：

    采用数据挖掘工具审核分业务视图中的各字段，查看其数据的分布和质量；根据移动数据业务的需求，确定分业务视图的关键字段，并在关键字段的维度上进行统计分析，确定关键字段数据的分布情况；根据关键字段数据的分布情况，将客户分群；

    所述的客户统一视图包括各客户的个人基本信息、各客户的在各数据业务维度上的记录，两者通过客户的手机号码来关联；

    所述的步骤(4)进一步包括：从客户统一视图中采样两类数据，该两类数据为：数据a，属于特定的某项业务的一个群的数据，此部分数据符合该群的统计规则；数据b，此部分数据为不符合数据a的抽取规则的数据；数据a与数据b的比例区间为1∶1-1∶4；采用多个分类算法对采样的数据进行建模；为各模型设置最优的参数；

    所述的步骤(5)进一步包括：模型评估，根据各模型产生的评估参数以及正确率来进行模型的评测，选出当前最优的模型；模型的推广，将模型应用于整个数据集，判断产生的规则集，是否有实际的意义，然后将规则转化成用户群的特征信息添加到各个群的群特描述部分；模型的前台展现，创建表一和表二，分别用来存放群信息和属于该群的用户信息，表一中存放群号、群的数量和群的特征描述信息，表二中存放归属的群号、手机号及个人用户信息。

    确定分业务视图字段的需求：数据集市是由若干的分业务视图和客户统一视图构成的，分业务视图是对特定的数据业务的全面属性的展现，分业务视图包括个人基本信息，个人在该业务范围内的行为信息和费用信息；

    由于数据源当中的业务数据的种类有很多，要根据数据挖掘的主题来选择所需要的字段；ETL人员要对数据源进行数据预处理并要根据需求建立各分业务视图，采用存储过程来具体实施，并每月自动生成一张当月的分业务视图；

    采用数据挖掘工具审核字段信息：此步骤中要采用数据挖掘工具来全面的审核分业务视图当中各个字段的信息，查看其数据的分布，以及数据的质量；

    在关键字段维度上进行统计分析：要根据数据挖掘主题来确定各分业务视图中的关键字段，对关键字段进行基于统计学的分析，确定关键字段上数据的分布情况，根据统计结果来在关键字段上进行合理的划分，从而在关键字段维度上将分业务视图进行分群；

    按照统计结果在关键维度上进行客户分群：此步骤要实现基于统计结果的分群，在实际的业务视图当中，要根据数据的分布特征来确定分群的规则，将分群的规则整理好，以便自动化处理；

    确定要进行抽取的字段：本步骤要确定客户统一视图的字段信息，分业务视图反映了用户在单个数据业务维度上的个人基本信息，行为信息，费用信息，分业务视图可以在单个业务维度上对客户进行分群，以及群信息特征描述等操作。但是，此操作只限定在单个业务维度上，如果我们要进行在所有业务维度上的客户分群，以及客户分群特征描述等操作时，就会遇到困难，所以有必要建立全数据业务维度的客户统一视图；客户统一视图由两大部分组成，第一部分为客户的个人基本信息，第二部分为由所有数据业务组成的客户在各数据业务维度上的记录；

    建立客户统一视图：此步骤要建立客户统一视图，本发明采用的策略为以个人信息表为基本表来按照手机号码来和客户业务视图中手机号码来进行连接，另外还要进行空值处理，将空值赋值为零，和对字段进行更名以避免多表中的重名字段。

    从客户统一视图中采样：本步骤要从统一客户视图中随机抽取部分样本，此样本包含两类数据，数据a：属于特定的某项业务的一个群的数据，此部分数据符合该群的统计规则。数据b：此部分数据为不符合a数据中抽取规则的数据。数据a与数据b的比例区间为(1∶1-1∶4)，具体的比例选择要看模型的评估结果；

    采用分类算法对样本建模：采用分类算法对样本数据进行建模，利用分类算法来产生属于某个客户群的特征规则；

    模型的参数的设置：根据数据模型来设置参数，分类算法应该进行采用多种分类算法来对样本数据建模，并采用相应的参数，使模型在参数设置方面获得最优，以便下一步的模型的评估之用；

    模型评估：本发明采用多种分类算法来进行建模分析，本步骤要对模型产生的评估参数以及正确率来进行模型的评测，本步骤要选出当前最优的模型；

    模型的推广：本步骤要在选取的最优模型基础上进行模型的推广，将模型应用于整个数据集，对于模型产生的规则集，业务人员要进行解释，看规则是否有实际的意义，然后将规则转化成用户群的特征信息添加到各个群的群特描述部分；

    模型的前台展现：本步骤要实现模型的前台展现，创建两张数据表，表一和表二分别用来存放群信息和属于该群的用户信息。群信息表中存放群号，群的数量，群的特征描述信息。用户信息表中存放归属的群号，手机号及个人用户信息。

    在分业务视图基础上，选择每种数据业务的相关的关键字段，进行基于统计学的分群。由于数据业务的各个字段的数据缺失值的情况，以及字段重要性的不同，应该选择性的挑选各个业务有价值的字段进行统计分析，利用统计分析结果进行客户的分群，并同时获得统计分析阶段的群特征。

    建立所有数据业务的客户统一视图，此客户统一视图包含了个人用户的基本信息，以及该客户在所有数据业务当中的各种费用信息和行为信息。

    基于客户统一视图，利用数据挖掘分类模型获取每个数据业务下，每个分群信息的特征描述信息。此客户统一视图为所有业务加上个人基本信息组成的，这样的目的是利用分类模型将每个业务下的各个分群，与其不符合该分群的信息的其他用户，利用统计分析阶段利用的字段进行分类，从而获得了该分群的群特征。

    模型的评估及模型发布，模型的评估包括利用测试数据集来对模型进行评估，比较模型的正确率，从中选取最优的模型。模型的发布包括将按模型导出的规则来将数据集分成其属于的群，然后将分群信息写入前台展示数据库中。

    实施例

    本实施例以某省移动的Doss运营平台数据挖掘部分为例：

    A.基于需求建立移动13个数据业务的数据集市，该数据集市包括13个分业务视图；

    B.以MO手机上网分业务视图为例来展开说明，首先对数据进行审核，选取非零值比例较高的上网GPRS流量作为关键字段进行客户的细分，将客户的分为如下几个群：

    低流量用户(MO_FLOW_GPRS2＜＝750的用户，数量为2504921，占总数67.66％)

    中低流量用户(750＜MO_FLOW_GPRS2＜＝2750之间的用户，数量为688539，占总数的18.6％)

    中高流量用户(2750＜MO_FLOW_GPRS2＜＝4750之间的用户，数量为176969，占总数的4.78％)

    高流量用户(MO_FL OW_GPRS2＞4750以上的用户，数量为331536，占总数的8.96％)

    C.建立客户统一视图，如表1所示为部分客户统一视图的字段信息：

    表1

    D.采用多种分类算法对采样的数据进行建模，选取最优的C5.0算法来进行模型的应用及前台的展现；

    由C5.0对mo手机上网高流量用户群进行建模分析，得到如下的群特征信息：

    使用的品牌是动感地带，年龄小于26岁，飞信pc端活跃天数大于等于1的用户，符合此条件的用户数且gprs流量大于4750kb的用户数为735，且置信度为0.617。