一种样本属性的分析方法、装置和设备.pdf

上传人:e1 文档编号:1561642 上传时间:2018-06-24 格式:PDF 页数:17 大小:8.43MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310049899.1

申请日:

2013.02.07

公开号:

CN103150349A

公开日:

2013.06.12

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20130207|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

华为软件技术有限公司

发明人:

曹明; 金中良

地址:

210012 江苏省南京市雨花台区软件大道101号华为南京基地

优先权:

专利代理机构:

北京三高永信知识产权代理有限责任公司 11138

代理人:

鞠永善

PDF下载: PDF下载
内容摘要

本发明公开了一种样本属性的分析方法、装置和设备,属于数据分析领域。方法包括:根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2...Rn];将每个属性值的样本占比Ri依次与之前的属性值的样本占比R1、R2...Ri-1累加,得到每个属性值的累计占比Wi;根据累计占比Wi和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。本发明解决了目前样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。

权利要求书

权利要求书一种样本属性的分析方法,其特征在于,所述方法包括:
根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2...Rn];所述n为属性值个数;
将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2...Ri‑1累加,得到所述每个属性值的累计占比Wi;
根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。
根据权利要求1所述的方法,其特征在于,当所述样本属性为数值属性时,所述样本属性的属性值为数值段;所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
根据权利要求1所述的方法,其特征在于,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,还包括:
根据预设的规则去除所述样本属性的属性值中的异常属性值。
根据权利要求1所述的方法,其特征在于,所述根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,包括:
根据公式计算得到所述样本属性的强势值I;
其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。
根据权利要求1所述的方法,其特征在于,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;
根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;
计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。
根据权利要求5所述的方法,其特征在于,所述根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2......Rn],包括:
将所述任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2......Cn/2];其中,所述n为属性值个数。
一种样本属性的分析装置,其特征在于,所述装置包括:
样本占比模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
占比序列模块,用于根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2...Rn];所述n为属性值个数;
累计占比模块,用于将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2...Ri‑1累加,得到所述每个属性值的累计占比Wi;
强势值模块,用于根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。
根据权利要求7所述的装置,其特征在于,所述样本占比模块,包括:
数值样本占比单元,用于当所述当所述样本属性为数值属性时,所述样本属性的属性值为数值段;根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
根据权利要求7所述的装置,其特征在于,所述装置还包括:
预处理模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,根据预设的规则去除所述样本属性的属性值中的异常属性值。
根据权利要求7所述的装置,其特征在于,所述强势值模块,包括:
计算单元,用于根据公式计算得到所述样本属性的强势值I;其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。
根据权利要求7所述的装置,其特征在于,所述样本占比模块,包括:
总样本占比单元,用于对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;
子样本占比单元,用于根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;
样本占比单元,用于计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。
根据权利要求11所述的装置,其特征在于,所述占比序列模块包括:
占比序列单元,用于将所述样本占比单元计算的任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2......Cn/2];其中,所述n为属性值个数。
一种样本属性的分析设备,其特征在于,所述设备包括:
存储器,用于存储功能模块的运行数据;
处理器,用于与所述存储器耦合,所述处理器配置为用于执行如权利要求1至6任一所述的样本属性的分析方法;
收发器,用于与所述处理器耦合,收发所述处理器处理的各种数据。

说明书

说明书一种样本属性的分析方法、装置和设备
技术领域
本发明涉及数据分析领域,特别涉及一种样本属性的分析方法、装置和设备。
背景技术
随着存储技术的迅猛发展,数据量越来越大,大量的数据保存于数据库中。通过对数据的各种样本属性进行分析,从而可以获知数据样本的分布情况,加深对当前业务状况的了解,进而有助于决策。其中,样本属性分为数值属性和非数值属性,例如,年龄为数值属性,性别为非数值属性。
目前,对数据的样本属性的分析方法主要是数据分析人员通过使用如Excel(微软公司的办公软件Microsoft office的组件之一)、SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案)图表等数据分析工具对数据的样本属性进行分析,并结合最小值、最大值、均值、标准方差等统计指标综合分析,在了解每个指标的分布之后,主观判断属性的相对显著性。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
目前采用数据分析工具对样本属性进行分析的方法,首先由于需要对业务有较高的理解且需要熟悉分析工具,才能熟练使用图表等数据分析工具完成对数据的深度研究,因此对分析人员要求高且主观性较强;
其次,当业务属性较多时,传统的数据分析工具处理效率低,而数据分析人员也需要对每个属性进行逐一研究,需要消耗大量的资源;
最后,现有的方法主要是主观判断和经验,缺乏一个定量的判断依据,且对于数值属性和非数值属性无法统一去评价。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种样本属性的分析方法、设备和系统。所述技术方案如下:
第一方面,提供了一种样本属性的分析方法,所述方法包括:
根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2......Rn];所述n为属性值个数;
将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2...Ri‑1累加,得到所述每个属性值的累计占比Wi;
根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。
在第一方面的第一种可能的实现方式中,所述当所述样本属性为数值属性时,所述样本属性的属性值为数值段;所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
在第一方面的第二种可能的实现方式中,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,还包括:
根据预设的规则去除所述样本属性的属性值中的异常属性值。
在第一方面的第三种可能的实现方式中,所述根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,包括:
根据公式计算得到所述样本属性的强势值I;
其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。
在第一方面的第四种可能的实现方式中,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:
对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;
根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;
计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。
在第一方面的第五种可能的实现方式中,所述根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2......Rn],包括:
将所述任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2......Cn/2];其中,所述n为属性值个数。
第二方面,提供了一种样本属性的分析装置,所述装置包括:
样本占比模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;
占比序列模块,用于根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2......Rn];所述n为属性值个数;
累计占比模块,用于将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2...Ri‑1累加,得到所述每个属性值的累计占比Wi;
强势值模块,用于根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。
在第二方面的第一种可能的实现方式中,所述样本占比模块,包括:
数值样本占比单元,用于当所述当所述样本属性为数值属性时,所述样本属性的属性值为数值段;根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。
在第二方面的第二种可能的实现方式中,所述装置还包括:
预处理模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,根据预设的规则去除所述样本属性的属性值中的异常属性值。
在第二方面的第三种可能的实现方式中,所述强势值模块,包括:
计算单元,用于根据公式计算得到所述样本属性的强势值I;其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。
在第二方面的第四种可能的实现方式中,所述样本占比模块,包括:
总样本占比单元,用于对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;
子样本占比单元,用于根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;
样本占比单元,用于计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。
在第二方面的第五种可能的实现方式中,所述占比序列模块包括:
占比序列单元,用于将所述样本占比单元计算的任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2......Cn/2];其中,所述n为属性值个数。
第三方面,提供了一种样本属性的分析设备,所述设备包括:
存储器,用于存储功能模块的运行数据;
处理器,用于与所述存储器耦合,所述处理器配置为用于执行第一方面任一所述的样本属性的分析方法;
收发器,用于与所述处理器耦合,收发所述处理器处理的各种数据。
本发明实施例提供的技术方案带来的有益效果是:
通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据所述累计占比得到所述样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的样本属性的分析方法流程图;
图2是本发明实施例二提供的样本属性的分析方法流程图;
图3是本发明实施例二提供的样本属性的预处理示意图;
图4是本发明实施例二提供的样本属性的分割数值段示意图;
图5是本发明实施例二提供的样本属性的累计占比序列曲线图;
图6是本发明实施例三提供的样本属性的分析方法流程图;
图7是本发明实施例四提供的样本属性的分析装置第一结构示意图;
图8是本发明实施例四提供的样本属性的分析装置第二结构示意图;
图9是本发明实施例四提供的样本属性的分析装置第三结构示意图;
图10是本发明实施例四提供的样本属性的分析装置第四结构示意图;
图11是本发明实施例四提供的样本属性的分析装置第五结构示意图;
图12是本发明实施例四提供的样本属性的分析装置第六结构示意图;
图13是本发明实施例五提供的样本属性的分析设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种样本属性的分析方法,参见图1,该方法包括:
101、根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;
102、根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2...Rn];n为属性值个数;
103、将每个属性值的样本占比Ri依次与每个属性值的样本占比Ri之前的属性值的样本占比R1、R2...Ri‑1累加,得到每个属性值的累计占比Wi;
104、根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。
具体地,当样本属性为数值属性时,样本属性的属性值为数值段;根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri,包括:
根据样本中样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。
具体地,根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri之前,还包括:
根据预设的规则去除样本属性的属性值中的异常属性值。
具体地,根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,包括:
根据公式计算得到样本属性的强势值I;
其中,Wi为任一属性值i的累计占比,n为属性值个数,abs()为绝对值运算。
具体地,根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri,包括:
对于总样本中样本属性的任一属性值i,根据总样本中属性值i的样本个数与总样本总数得到属性值i的第一样本占比Ri’;
根据子样本中属性值i的样本个数与子样本的样本个数得到属性值i的第二样本占比Ri”;
计算Ri’与Ri”的绝对差值Ci,并将Ci作为属性值i的样本占比Ri。
进一步地,根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2......Rn],包括:
将任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到样本属性的占比序列[C1/2、C2/2......Cn/2];其中,n为属性值个数。
本发明实施例提供的方法,通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
实施例二
参见图2,本发明实施例提供了一种样本属性的分析方法,该方法包括:
201、根据预设的规则去除样本中样本属性的属性值中的异常属性值。
具体地,样本属性中的异常属性值,会导致分析出现偏差,因此在进行分析之前,需要将样本属性中的异常属性值进行剔除。参见图3,去除异常值后,样本属性的强势值有所减小,但是更能反映出样本属性的实际分布。
202、根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;
具体地,Ri等于每个属性值的样本个数与样本总数的比值,为小于1的数。当样本属性为非数值属性(如性别、消费档次),若样本属性为消费档次,有3个属性值:高、中、低,样本总数为50,其中高的样本个数为15,中的样本个数为10,低的样本个数为25,计算高的样本占比为R1=15/50=0.3、中的样本占比为R2=10/50=0.2、低的样本占比为R3=25/50=0.5。
当样本属性为数值属性时(如年龄、收入),样本属性的属性值为数值段;根据样本中样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。若样本属性为年龄,样本中的年龄分别为(15、19、24、27、35、37、42、47、53、69),首先需要根据年龄范围对年龄进行数值离散化分割成多个年龄段,如:10~30、30~50、50~70,则10~30、30~50、50~70对应的样本个数分别为:4、4、2;10~30、30~50、50~70的样本占比分别为4/10=0.4、4/10=0.4、2/10=0.2。
本发明实施例采用等深分箱方法分割数值段,其分箱数n(如上例中分割成3个数值段,n=3)的变化对分析结果的影响较大,参见图4,随着n的增加,评价值逐渐趋于稳定,一般选择n=6~10。在需要考虑运算效率的场合,可以令n=6,无需考虑运算效率的场合,令n=10;选择合适的离散化个数n,将减轻计算机资源消耗,提高效率。
203、根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2...Rn];n为属性值个数;
具体地,将每个属性值的样本占比Ri按照从小到大的顺序排列,得到样本属性的占比序列[R1、R2...Rn];如消费档次的高、中、”的样本占比为0.3、0.2、0.5,则占比序列为[0.2、0.3、0.5]。
204、将每个属性值的样本占比Ri依次与每个属性值的样本占比Ri之前的属性值的样本占比R1、R2...Ri‑1累加,得到每个属性值的累计占比Wi;
具体地,将占比序列中每个属性值的样本占比Ri依次与之前每个属性值的样本占比R1、R2...Ri‑1累加,得到每个属性值的累计占比Wi=R1+R2+...Ri,此时累计占比依次排列得到累计占比序列:W1、W1、...、Wn‑1、Wn,其中n为属性值个数;参见图5,该累计占比序列为一条曲线(洛伦茨曲线),图中A部分的面积与虚线面积的比值,即为该属性的强势特征值。该值介于0‑1之间,越接近于1说明属性越强势,越接近于0则越不强势。
205、根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。
具体地,根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,包括:
根据公式计算得到样本属性的强势值I;
表1
属性名称属性类型强势特征值套餐类型非数值0.33年龄数值0.37掉线次数数值0.58高峰时通话时长数值0.61低谷时通话时长数值0.48国内通话话费数值0.42国内通话次数数值0.55消费档次非数值0.55
参见表1,根据上述公式计算得到移动通话业务各个样本属性的强势特征值,根据表1中强势值,可以很清晰的看到,最强势的样本属性为高峰时通话,其次为掉线次数。
本发明实施例提供的方法,通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
实施例三
参见图6,本发明实施例提供了一种样本属性的分析方法,本发明实施例中的样本包括总样本和子样本,该方法包括:
601、根据预设的规则去除样本中样本属性的属性值中的异常属性值。
具体过程参见步骤201,不再赘述。
602、分别计算总样本中每个属性值的第一样本占比以及对应的子样本中该属性值的第二样本占比,然后计算每个属性值的第一样本占比与第二样本占比的绝对差值。
具体地,对于总样本中样本属性的任一属性值i,根据总样本中属性值i的样本个数与总样本总数得到属性值i的第一样本占比Ri’;
根据子样本中属性值i的样本个数与子样本的样本个数得到属性值i的第二样本占比Ri”;
计算Ri’与Ri”的绝对差值Ci,并将Ci作为属性值i的样本占比Ri。
参见表2,总样本中消费档次的“低”的第一样本占比为2.80%;子样本中消费档次的“低”的第二样本占比为3.87%,“低”的样本占比为2.80%‑3.87%的绝对差值1.08%;绝对差值越大,说明子样本的样本属性越显著。
表2
资费档次中低中高总样本2.80%13.66%52.24%24.01%7.21%0.08%子样本3.88%33.02%4.30%54.83%3.85%0.12%绝对值差1.08%19.36%47.93%30.83%3.37%0.04%
603、将任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到样本属性的占比序列[C1/2、C2/2...Cn/2];其中,n为属性值个数。
具体地,将任一属性值i的绝对差值Ci与2做除后由小到大进行排列,得到样本属性的占比序列。参见表2,消费档次的属性值低、中低、中、中高、高、无的绝对差值分别为:1.08%、19.36%、47.93%、30.83%、3.37%、0.04%,则绝对差值Ci与2相除得到:0.54%、9.68%、23.96%、15.42%、1.69%、0.02%由小到大进行排列,得到(0.02%、0.54%、1.69%、9.68%、15.42%、23.96%)。
604、将每个属性值的样本占比Ci/2依次与每个属性值的样本占比Ci/2之前的属性值的样本占比C1/2、C2/2...Ci‑1/2累加,得到每个属性值的累计占比Wi;
具体地,将每个属性值的样本占比Ci/2依次与之前每个属性值的样本占比C1/2、C2/2...Ci‑1/2累加,得到每个属性值的累计占比Wi=C1/2+C2/2+...Ci/2,此时累计占比依次排列得到累计占比序列:W1、W1、...、Wn‑1、Wn。
605、根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。
具体地,根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,包括:
根据公式计算得到样本属性的强势值I;
本发明实施例提供的方法,通过将计算的总样本的第一样本占比和子样本的第二样本占比的绝对差值进行排列得到样本属性的占比序列,对占比序列中每个属性值的样本占比累加得到累计占比;根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
实施例四
参见图7,本发明实施例提供了一种样本属性的分析装置,该装置包括:
样本占比模块701,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;
占比序列模块702,用于根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2......Rn];n为属性值个数;
累计占比模块703,用于将每个属性值的样本占比Ri依次与每个属性值的样本占比Ri之前的属性值的样本占比R1、R2......R(i‑1)累加,得到每个属性值的累计占比Wi;
强势值模块704,用于根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。
具体地,参见图8,样本占比模块701,包括:
数值样本占比单元701a,用于当样本属性为数值属性时,样本属性的属性值为数值段;根据样本中样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。
具体地,参见图9,该装置还包括:
预处理模块705,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri之前,根据预设的规则去除样本属性的属性值中的异常属性值。
具体地,参见图10,强势值模块704,包括:
计算单元704a,用于根据公式计算得到样本属性的强势值I;其中,Wi为任一属性值i的累计占比,n为属性值个数,abs()为绝对值运算。
具体地,参见图11,样本占比模块701,包括:
总样本占比单元701b,用于对于总样本中样本属性的任一属性值i,根据总样本中属性值i的样本个数与总样本总数得到属性值i的第一样本占比Ri’;
子样本占比单元701c,用于根据子样本中属性值i的样本个数与子样本的样本个数得到属性值i的第二样本占比Ri”;
样本占比单元701d,用于计算Ri’与Ri”的绝对差值Ci,并将Ci作为属性值i的样本占比Ri。
具体地,参见图12,占比序列模块702包括:
占比序列单元702a,用于将样本占比单元701d计算的任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到样本属性的占比序列[C1/2、C2/2......Cn/2];其中,n为属性值个数。
本发明实施例提供的装置,通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
实施例五
参见图13,本发明实施例提供了一种样本属性的分析设备,该设备包括:
存储器1301,用于存储功能模块的运行数据;
处理器1302,用于与存储器耦合,处理器配置为用于执行如权利要求1至6任一的样本属性的分析方法;
收发器1303,用于与处理器耦合,收发处理器处理的各种数据。
处理器1302,具体用于执行实施例一所述的方法,不再赘述。
本发明实施例提供的设备,通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。
需要说明的是:上述实施例提供的样本属性的分析装置和设备在对样本属性进行分析时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置和设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的样本属性的分析装置和设备与样本属性的分析方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

一种样本属性的分析方法、装置和设备.pdf_第1页
第1页 / 共17页
一种样本属性的分析方法、装置和设备.pdf_第2页
第2页 / 共17页
一种样本属性的分析方法、装置和设备.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《一种样本属性的分析方法、装置和设备.pdf》由会员分享,可在线阅读,更多相关《一种样本属性的分析方法、装置和设备.pdf(17页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103150349 A(43)申请公布日 2013.06.12CN103150349A*CN103150349A*(21)申请号 201310049899.1(22)申请日 2013.02.07G06F 17/30(2006.01)(71)申请人华为软件技术有限公司地址 210012 江苏省南京市雨花台区软件大道101号华为南京基地(72)发明人曹明 金中良(74)专利代理机构北京三高永信知识产权代理有限责任公司 11138代理人鞠永善(54) 发明名称一种样本属性的分析方法、装置和设备(57) 摘要本发明公开了一种样本属性的分析方法、装置和设备,属于数据分析领域。方。

2、法包括:根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列R1、R2.Rn;将每个属性值的样本占比Ri依次与之前的属性值的样本占比R1、R2.Ri-1累加,得到每个属性值的累计占比Wi;根据累计占比Wi和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。本发明解决了目前样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。(51)Int.Cl.权利要求书2页 说明书9页 附。

3、图5页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书9页 附图5页(10)申请公布号 CN 103150349 ACN 103150349 A1/2页21.一种样本属性的分析方法,其特征在于,所述方法包括:根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列R1、R2.Rn;所述n为属性值个数;将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2.Ri-1累加,得到所述每个属性值的累计占比W。

4、i;根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。2.根据权利要求1所述的方法,其特征在于,当所述样本属性为数值属性时,所述样本属性的属性值为数值段;所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。3.根据权利要求1所述的方法,其特征在于,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,还包括:根据预设的规则去除所述样本属性的属性值中的异常属性值。

5、。4.根据权利要求1所述的方法,其特征在于,所述根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,包括:根据公式计算得到所述样本属性的强势值I;其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。5.根据权利要求1所述的方法,其特征在于,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri;根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri。

6、”;计算所述Ri与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。6.根据权利要求5所述的方法,其特征在于,所述根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列R1、R2.Rn,包括:将所述任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列C1/2、C2/2.Cn/2;其中,所述n为属性值个数。7.一种样本属性的分析装置,其特征在于,所述装置包括:样本占比模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;权 利 要 求 书C。

7、N 103150349 A2/2页3占比序列模块,用于根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列R1、R2.Rn;所述n为属性值个数;累计占比模块,用于将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2.Ri-1累加,得到所述每个属性值的累计占比Wi;强势值模块,用于根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。8.根据权利要求7所述的装置,其特征在于,所述样本占比模块,包括:数值样本占比单元,用于当所述当所述样本属。

8、性为数值属性时,所述样本属性的属性值为数值段;根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。9.根据权利要求7所述的装置,其特征在于,所述装置还包括:预处理模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,根据预设的规则去除所述样本属性的属性值中的异常属性值。10.根据权利要求7所述的装置,其特征在于,所述强势值模块,包括:计算单元,用于根据公式计算得到所述样本属性的强势值I;其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。11.根据权利要求7所述的装置,其特征在于,所。

9、述样本占比模块,包括:总样本占比单元,用于对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri;子样本占比单元,用于根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;样本占比单元,用于计算所述Ri与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。12.根据权利要求11所述的装置,其特征在于,所述占比序列模块包括:占比序列单元,用于将所述样本占比单元计算的任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列C1/2、C。

10、2/2.Cn/2;其中,所述n为属性值个数。13.一种样本属性的分析设备,其特征在于,所述设备包括:存储器,用于存储功能模块的运行数据;处理器,用于与所述存储器耦合,所述处理器配置为用于执行如权利要求1至6任一所述的样本属性的分析方法;收发器,用于与所述处理器耦合,收发所述处理器处理的各种数据。权 利 要 求 书CN 103150349 A1/9页4一种样本属性的分析方法、 装置和设备技术领域0001 本发明涉及数据分析领域,特别涉及一种样本属性的分析方法、装置和设备。背景技术0002 随着存储技术的迅猛发展,数据量越来越大,大量的数据保存于数据库中。通过对数据的各种样本属性进行分析,从而可以。

11、获知数据样本的分布情况,加深对当前业务状况的了解,进而有助于决策。其中,样本属性分为数值属性和非数值属性,例如,年龄为数值属性,性别为非数值属性。0003 目前,对数据的样本属性的分析方法主要是数据分析人员通过使用如Excel(微软公司的办公软件Microsoft office的组件之一)、SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案)图表等数据分析工具对数据的样本属性进行分析,并结合最小值、最大值、均值、标准方差等统计指标综合分析,在了解每个指标的分布之后,主观判断属性的相对显著性。0004 在实现本发明的过程中,发明人。

12、发现现有技术至少存在以下问题:0005 目前采用数据分析工具对样本属性进行分析的方法,首先由于需要对业务有较高的理解且需要熟悉分析工具,才能熟练使用图表等数据分析工具完成对数据的深度研究,因此对分析人员要求高且主观性较强;0006 其次,当业务属性较多时,传统的数据分析工具处理效率低,而数据分析人员也需要对每个属性进行逐一研究,需要消耗大量的资源;0007 最后,现有的方法主要是主观判断和经验,缺乏一个定量的判断依据,且对于数值属性和非数值属性无法统一去评价。发明内容0008 为了解决现有技术的问题,本发明实施例提供了一种样本属性的分析方法、设备和系统。所述技术方案如下:0009 第一方面,提。

13、供了一种样本属性的分析方法,所述方法包括:0010 根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;0011 根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列R1、R2.Rn;所述n为属性值个数;0012 将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2.Ri-1累加,得到所述每个属性值的累计占比Wi;0013 根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。0014 在第一方面的第一种。

14、可能的实现方式中,所述当所述样本属性为数值属性时,所述样本属性的属性值为数值段;所述根据样本中样本属性的每个属性值的样本个数与样本说 明 书CN 103150349 A2/9页5总数得到所述每个属性值的样本占比Ri,包括:0015 根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。0016 在第一方面的第二种可能的实现方式中,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,还包括:0017 根据预设的规则去除所述样本属性的属性值中的异常属性值。0018 在第一方面的第三种可能的实现方式中,所述根据所述每个属性值的累计。

15、占比Wi和属性值个数n得到所述样本属性的强势值I,包括:0019 根据公式计算得到所述样本属性的强势值I;0020 其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。0021 在第一方面的第四种可能的实现方式中,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:0022 对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri;0023 根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;0024 计算所述Ri与。

16、所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。0025 在第一方面的第五种可能的实现方式中,所述根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列R1、R2.Rn,包括:0026 将所述任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列C1/2、C2/2.Cn/2;其中,所述n为属性值个数。0027 第二方面,提供了一种样本属性的分析装置,所述装置包括:0028 样本占比模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;00。

17、29 占比序列模块,用于根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列R1、R2.Rn;所述n为属性值个数;0030 累计占比模块,用于将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2.Ri-1累加,得到所述每个属性值的累计占比Wi;0031 强势值模块,用于根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。0032 在第二方面的第一种可能的实现方式中,所述样本占比模块,包括:0033 数值样本占比单元,用于当所述当所述样。

18、本属性为数值属性时,所述样本属性的属性值为数值段;根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述说 明 书CN 103150349 A3/9页6每个数值段的样本占比。0034 在第二方面的第二种可能的实现方式中,所述装置还包括:0035 预处理模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,根据预设的规则去除所述样本属性的属性值中的异常属性值。0036 在第二方面的第三种可能的实现方式中,所述强势值模块,包括:0037 计算单元,用于根据公式计算得到所述样本属性的强势值I;其中,所述Wi为任一属性值i的累计占比,所述n为属性值个。

19、数,所述abs()为绝对值运算。0038 在第二方面的第四种可能的实现方式中,所述样本占比模块,包括:0039 总样本占比单元,用于对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri;0040 子样本占比单元,用于根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;0041 样本占比单元,用于计算所述Ri与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。0042 在第二方面的第五种可能的实现方式中,所述占比序列模块包括:0043 占比序列单元,用于将所述样本占比单元。

20、计算的任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列C1/2、C2/2.Cn/2;其中,所述n为属性值个数。0044 第三方面,提供了一种样本属性的分析设备,所述设备包括:0045 存储器,用于存储功能模块的运行数据;0046 处理器,用于与所述存储器耦合,所述处理器配置为用于执行第一方面任一所述的样本属性的分析方法;0047 收发器,用于与所述处理器耦合,收发所述处理器处理的各种数据。0048 本发明实施例提供的技术方案带来的有益效果是:0049 通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性。

21、值的样本占比累加,得到累计占比,根据所述累计占比得到所述样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。附 图说明0050 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。说 明 书CN 103150349 A4/9页70051 图1是本发明实施例一提供的样本属性的分析方。

22、法流程图;0052 图2是本发明实施例二提供的样本属性的分析方法流程图;0053 图3是本发明实施例二提供的样本属性的预处理示意图;0054 图4是本发明实施例二提供的样本属性的分割数值段示意图;0055 图5是本发明实施例二提供的样本属性的累计占比序列曲线图;0056 图6是本发明实施例三提供的样本属性的分析方法流程图;0057 图7是本发明实施例四提供的样本属性的分析装置第一结构示意图;0058 图8是本发明实施例四提供的样本属性的分析装置第二结构示意图;0059 图9是本发明实施例四提供的样本属性的分析装置第三结构示意图;0060 图10是本发明实施例四提供的样本属性的分析装置第四结构示。

23、意图;0061 图11是本发明实施例四提供的样本属性的分析装置第五结构示意图;0062 图12是本发明实施例四提供的样本属性的分析装置第六结构示意图;0063 图13是本发明实施例五提供的样本属性的分析设备结构示意图。具体实施方式0064 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。0065 实施例一0066 本发明实施例提供了一种样本属性的分析方法,参见图1,该方法包括:0067 101、根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;0068 102、根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进。

24、行排列,得到样本属性的占比序列R1、R2.Rn;n为属性值个数;0069 103、将每个属性值的样本占比Ri依次与每个属性值的样本占比Ri之前的属性值的样本占比R1、R2.Ri-1累加,得到每个属性值的累计占比Wi;0070 104、根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。0071 具体地,当样本属性为数值属性时,样本属性的属性值为数值段;根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri,包括:0072 根据样本中样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。0073 具体地,。

25、根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri之前,还包括:0074 根据预设的规则去除样本属性的属性值中的异常属性值。0075 具体地,根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,包括:0076 根据公式计算得到样本属性的强势值I;说 明 书CN 103150349 A5/9页80077 其中,Wi为任一属性值i的累计占比,n为属性值个数,abs()为绝对值运算。0078 具体地,根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri,包括:0079 对于总样本中样本属性的任一属性值i,根据总样本中属性值i的样本个。

26、数与总样本总数得到属性值i的第一样本占比Ri;0080 根据子样本中属性值i的样本个数与子样本的样本个数得到属性值i的第二样本占比Ri”;0081 计算Ri与Ri”的绝对差值Ci,并将Ci作为属性值i的样本占比Ri。0082 进一步地,根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列R1、R2.Rn,包括:0083 将任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到样本属性的占比序列C1/2、C2/2.Cn/2;其中,n为属性值个数。0084 本发明实施例提供的方法,通过对计算的每个属性值的样本占比进行排列得到样本中样本。

27、属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。0085 实施例二0086 参见图2,本发明实施例提供了一种样本属性的分析方法,该方法包括:0087 201、根据预设的规则去除样本中样本属性的属性值中的异常属性值。0088 具体地,样本属性中的异常属性值,会导致分析出现偏差,因此在进行分析之前,需要将样本属性中的异常属性值进行剔除。参见图3,去除异常值后,样本属性的强势值有。

28、所减小,但是更能反映出样本属性的实际分布。0089 202、根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;0090 具体地,Ri等于每个属性值的样本个数与样本总数的比值,为小于1的数。当样本属性为非数值属性(如性别、消费档次),若样本属性为消费档次,有3个属性值:高、中、低,样本总数为50,其中高的样本个数为15,中的样本个数为10,低的样本个数为25,计算高的样本占比为R1=15/50=0.3、中的样本占比为R2=10/50=0.2、低的样本占比为R3=25/50=0.5。0091 当样本属性为数值属性时(如年龄、收入),样本属性的属性值为数值段;根据样本中。

29、样本属性的每个数值段的样本个数与样本总数得到每个数值段的样本占比。若样本属性为年龄,样本中的年龄分别为(15、19、24、27、35、37、42、47、53、69),首先需要根据年龄范围对年龄进行数值离散化分割成多个年龄段,如:1030、3050、5070,则1030、3050、5070对应的样本个数分别为:4、4、2;1030、3050、5070的样本占比分别为4/10=0.4、4/10=0.4、2/10=0.2。0092 本发明实施例采用等深分箱方法分割数值段,其分箱数n(如上例中分割成3个数值段,n=3)的变化对分析结果的影响较大,参见图4,随着n的增加,评价值逐渐趋于稳定,一般选择n=。

30、610。在需要考虑运算效率的场合,可以令n=6,无需考虑运算效率的场合,令n=10;选择合适的离散化个数n,将减轻计算机资源消耗,提高效率。说 明 书CN 103150349 A6/9页90093 203、根据每个属性值的样本占比Ri对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列R1、R2.Rn;n为属性值个数;0094 具体地,将每个属性值的样本占比Ri按照从小到大的顺序排列,得到样本属性的占比序列R1、R2.Rn;如消费档次的高、中、”的样本占比为0.3、0.2、0.5,则占比序列为0.2、0.3、0.5。0095 204、将每个属性值的样本占比Ri依次与每个属性值的样本占。

31、比Ri之前的属性值的样本占比R1、R2.Ri-1累加,得到每个属性值的累计占比Wi;0096 具体地,将占比序列中每个属性值的样本占比Ri依次与之前每个属性值的样本占比R1、R2.Ri-1累加,得到每个属性值的累计占比Wi=R1+R2+.Ri,此时累计占比依次排列得到累计占比序列:W1、W1、.、Wn-1、Wn,其中n为属性值个数;参见图5,该累计占比序列为一条曲线(洛伦茨曲线),图中A部分的面积与虚线面积的比值,即为该属性的强势特征值。该值介于0-1之间,越接近于1说明属性越强势,越接近于0则越不强势。0097 205、根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,并将强。

32、势值I作为对样本属性进行分析的结果。0098 具体地,根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,包括:0099 根据公式计算得到样本属性的强势值I;0100 表10101 属性名称属性类型强势特征值套餐类型非数值0.33年龄数值0.37掉线次数数值0.58高峰时通话时长数值0.61低谷时通话时长数值0.48国内通话话费数值0.42国内通话次数数值0.55消费档次非数值0.550102 参见表1,根据上述公式计算得到移动通话业务各个样本属性的强势特征值,根据表1中强势值,可以很清晰的看到,最强势的样本属性为高峰时通话,其次为掉线次数。0103 本发明实施例提供的方法,通过。

33、对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据说 明 书CN 103150349 A7/9页10累计占比得到样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。0104 实施例三0105 参见图6,本发明实施例提供了一种样本属性的分析方法,本发明实施例中的样本包括总样本和子样本,该方法包括:0106 601、根据预设的规则去除样本中样本属性的属性值中的异常属性值。0107 具体过程参见。

34、步骤201,不再赘述。0108 602、分别计算总样本中每个属性值的第一样本占比以及对应的子样本中该属性值的第二样本占比,然后计算每个属性值的第一样本占比与第二样本占比的绝对差值。0109 具体地,对于总样本中样本属性的任一属性值i,根据总样本中属性值i的样本个数与总样本总数得到属性值i的第一样本占比Ri;0110 根据子样本中属性值i的样本个数与子样本的样本个数得到属性值i的第二样本占比Ri”;0111 计算Ri与Ri”的绝对差值Ci,并将Ci作为属性值i的样本占比Ri。0112 参见表2,总样本中消费档次的“低”的第一样本占比为2.80%;子样本中消费档次的“低”的第二样本占比为3.87%。

35、,“低”的样本占比为2.80%-3.87%的绝对差值1.08%;绝对差值越大,说明子样本的样本属性越显著。0113 表20114 资费档次低中低中中高高无总样本2.80% 13.66% 52.24% 24.01% 7.21% 0.08%子样本3.88% 33.02% 4.30% 54.83% 3.85% 0.12%绝对值差1.08% 19.36% 47.93% 30.83% 3.37% 0.04%0115 603、将任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到样本属性的占比序列C1/2、C2/2.Cn/2;其中,n为属性值个数。0116 具体地,将任一属性值。

36、i的绝对差值Ci与2做除后由小到大进行排列,得到样本属性的占比序列。参见表2,消费档次的属性值低、中低、中、中高、高、无的绝对差值分别为:1.08%、19.36%、47.93%、30.83%、3.37%、0.04%,则绝对差值Ci与2相除得到:0.54%、9.68%、23.96%、15.42%、1.69%、0.02%由小到大进行排列,得到(0 .02%、0.54%、1.69%、9.68%、15.42%、23.96%)。0117 604、将每个属性值的样本占比Ci/2依次与每个属性值的样本占比Ci/2之前的属性值的样本占比C1/2、C2/2.Ci-1/2累加,得到每个属性值的累计占比Wi;0118 具体地,将每个属性值的样本占比Ci/2依次与之前每个属性值的样本占比C1/2、C2/2.Ci-1/2累加,得到每个属性值的累计占比Wi=C1/2+C2/2+.Ci/2,此时累计占比依次排列得到累计占比序列:W1、W1、.、Wn-1、Wn。0119 605、根据每个属性值的累计占比Wi和属性值个数n得到样本属性的强势值I,并说 明 书CN 103150349 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1