一种数据分类方法及系统.pdf

上传人:111****112 文档编号:1282101 上传时间:2018-04-12 格式:PDF 页数:25 大小:885.80KB
返回 下载 相关 举报
摘要
申请专利号:

CN201010293694.4

申请日:

2010.09.21

公开号:

CN102063457A

公开日:

2011.05.18

当前法律状态:

驳回

有效性:

无权

法律详情:

发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20110518|||实质审查的生效IPC(主分类):G06F 17/30申请日:20100921|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

合肥兆尹信息科技有限责任公司

发明人:

储晨

地址:

230031 安徽省合肥市蜀山区肥西路66号汇金大厦21楼

优先权:

专利代理机构:

北京集佳知识产权代理有限公司 11227

代理人:

逯长明

PDF下载: PDF下载
内容摘要

本发明公开了一种数据分类方法及系统。本发明公开了一种数据分类方法,包括:选取分割变量;依据所述分割变量和所述目标变量,对原始样本集分割分层,得到训练子集和测试子集;选取所述训练子集中的关键变量,计算回归系数,根据所述关键变量和回归系数运用回归模型,对训练子集逐个建模以产生描述数据的模型;将所述测试子集中的样本变量代入所述模型,计算样本的概率值,根据所述概率值对样本进行分类。应用上述技术方案,选取关键变量之前首先根据分割变量对原始样本集进行分割,有效地消除关键变量的局部差异性,提高建模的准确度,进而样本分类准确度提高。

权利要求书

1: 一种数据分类方法, 其特征在于, 包括 : 计算各个样本变量与预设的目标变量的相关系数, 以及在其他样本变量条件下, 所述 各个样本变量与所述目标变量的偏相关系数 ; 选取相关系数和偏相关系数符号相反, 且相关系数最大的样本变量 X1, 并依据样本变 量 X1 选取与其相对应的样本变量 X2, 将样本变量 X2 作为分割变量 ; 依据所述分割变量和所述目标变量, 对原始样本集分割分层, 得到训练子集和测试子 集; 选取所述训练子集中的关键变量, 计算回归系数, 根据所述关键变量和回归系数运用 回归模型, 对训练子集逐个建模以产生描述数据的模型 ; 将所述测试子集中的样本变量代入所述模型, 计算样本的概率值, 根据所述概率值对 样本进行分类。
2: 根据权利要求 1 所述的分类方法, 其特征在于, 计算各个样本变量与预设的目标变 量的相关系数, 以及在其他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关 系数之前还包括 : 计算原始样本集中各个样本变量的缺失比例, 根据缺失比例选取符合缺失比例条件的 样本变量 ; 分别计算所述选取的符合缺失比例条件的样本变量的各自均值, 对所述选取的符合缺 失比例条件样本变量进行均值填充 ; 填充后的样本变量组成新样本集。
3: 根据权利要求 2 所述的分类方法, 其特征在于, 在填充后的样本变量组成新样本集 之后, 计算各个样本变量与预设的目标变量的相关系数, 以及在其他样本变量条件下, 所述 各个样本变量与所述目标变量的偏相关系数之前, 还包括 : 获取新样本集中样本变量的样本总个数 ; 当样本总个数超过预设的样本总个数时, 从新样本集中抽取预设的样本总个数的样 本。
4: 根据权利要求 3 所述的分类方法, 其特征在于, 在将所述测试子集中的样本变量代 入所述模型, 计算样本的概率值, 根据所述概率值对样本进行分类之后还包括 : 判断所述模型是否达到最佳预测效果 ; 当所述模型未达到最佳预测效果, 则返回执行选取相关系数和偏相关系数符号相反, 且相关系数最大的样本变量 X1, 并依据样本变量 X1 选取与其相对应的样本变量 X2, 将样本 变量 X2 作为分割变量的步骤。
5: 根据权利要求 4 所述的分类方法, 其特征在于, 判断所述模型是否达到最佳预测效 果包括 : 从所述概率值中获取目标变量取值为 1 的概率值 ; 将该概率值合并, 按照数值的大小, 从大到小排序 ; 按照概率值的排序将测试集排序, 选取排序后样本个数在预定数值范围的样本, 计算 该样本的转换率值 ; 比较所述转换率值和普通建模方法得到的转换率值 ; 判断比较结果是否高出预设提高值, 以判断所述模型是否达到最佳预测效果。 2
6: 根据权利要求 5 所述的分类方法, 其特征在于, 所述判断比较结果是否高出预设提 高值, 以判断所述模型是否达到最佳预测效果具体为 : 比较结果高出预设提高值时, 判断所 述模型达到最佳预测效果 ; 否则, 判断所述模型未达到最佳预测效果。
7: 根据权利要求 6 所述的分类方法, 其特征在于, 依据所述分割变量和所述目标变量, 对原始样本集分割分层, 得到训练子集和测试子集包括 : 根据所述目标变量, 按照 1 ∶ 1 的比例对原始样本集分层抽样, 得到训练集和测试集 ; 根据所述分割变量分别分割所述训练集和所述测试集得到训练子集和测试子集。
8: 根据权利要求 1-7 任意一项所述的分类方法, 其特征在于, 所述选取所述训练子集 中的关键变量, 计算回归系数具体为 : 使用逐步回归法选取所述训练子集中的关键变量, 通 过现有的标准软件计算回归系数。
9: 一种数据分类系统, 其特征在于, 包括 : 系数计算模块, 用于计算各个样本变量与预设的目标变量的相关系数, 以及在其他样 本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数 ; 与系数计算模块相连的分割变量选取模块, 用于选取相关系数和偏相关系数符号相 反, 且相关系数最大的样本变量 X1, 并依据样本变量 X1 选取与其相对应的样本变量 X2, 将样 本变量 X2 作为分割变量 ; 与分割变量选取模块相连的样本分割分层模块, 用于依据所述分割变量和所述目标变 量, 对原始样本集分割分层, 得到训练子集和测试子集 ; 与样本分割分层模块相连的建模模块, 用于选取所述训练子集中的关键变量, 计算回 归系数, 根据所述关键变量和回归系数运用回归模型, 对训练子集逐个建模以产生描述数 据的模型 ; 与样本分割分层模块和建模模块相连的分类模块, 用于将所述测试子集中的样本变量 代入所述模型, 计算样本的概率值, 根据所述概率值对样本进行分类。
10: 根据权利要求 9 所述的分类系统, 其特征在于, 还包括 : 样本变量选取模块, 用于计算原始样本集中各个样本变量的缺失比例, 根据缺失比例 选取符合缺失比例条件的样本变量 ; 与样本变量选取模块相连的样本变量填充模块, 用于分别计算所述选取的符合缺失比 例条件的样本变量的各自均值, 对所述选取的符合缺失比例条件样本变量进行均值填充 ; 与所述样本变量填充模块相连的新样本组成模块, 用于将填充后的样本变量组成新样 本集 ; 样本总个数获取模块, 用于获取新样本集中样本变量的样本总个数 ; 与样本总个数获取模块相连的样本抽取模块, 用于当所述总个数超过预设的样本总个 数时, 从新样本集中抽取预设的样本总个数的样本 ; 模型预测效果判定模块, 用于判断所述模型是否达到最佳预测效果, 当所述模型未达 到最佳预测效果, 则返回执行选取相关系数和偏相关系数符号相反, 且相关系数最大的样 并依据样本变量 X1 选取与其相对应的样本变量 X2, 将样本变量 X2 作为分割变量 本变量 X1, 的步骤。

说明书


一种数据分类方法及系统

    【技术领域】
     本发明涉及数据挖掘技术领域, 尤其涉及一种数据分类方法及系统。背景技术 分类系统是数据挖掘的主要系统之一, 其通常是从原始样本集中提取关键变量, 通过现有的标准软件例如 : SAS(Statistical Analysis Software, 统计分析软件 ) 和仿真 软件 MATLAB, 计算回归系数, 根据关键变量和回归系数运用 Logistic 回归模型建模, 用户 根据建模得到的模型预测数据的未来发展趋势, 以根据该趋势作出正确的操作。
     由于从整个原始样本集中提取关键变量与目标变量的相关性存在局部差异性, 该 局部差异性会使得总体建模时, 估计该关键变量的回归系数出现 “正负中和” 的现象, 导致 回归系数的估算不准确, 进而导致建模准确度低, 样本分类准确度降低。
     发明内容 有鉴于此, 本发明的目的在于提供一种数据分类方法及系统, 以解决现有技术中 关键变量与目标变量的相关性存在的局部差异性导致的导致回归系数的估算不准确, 进而 导致建模准确度低, 样本分类准确度降低的问题。
     本发明提供一种数据分类方法, 包括 :
     计算各个样本变量与预设的目标变量的相关系数, 以及在其他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数 ;
     选取相关系数和偏相关系数符号相反, 且相关系数最大的样本变量 X1, 并依据样 本变量 X1 选取与其相对应的样本变量 X2, 将样本变量 X2 作为分割变量 ;
     依据所述分割变量和所述目标变量, 对原始样本集分割分层, 得到训练子集和测 试子集 ;
     选取所述训练子集中的关键变量, 计算回归系数, 根据所述关键变量和回归系数 运用回归模型, 对训练子集逐个建模以产生描述数据的模型 ;
     将所述测试子集中的样本变量代入所述模型, 计算样本的概率值, 根据所述概率 值对样本进行分类。
     本发明还提供一种数据分类系统, 包括 :
     系数计算模块, 用于计算各个样本变量与预设的目标变量的相关系数, 以及在其 他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数 ;
     与系数计算模块相连的分割变量选取模块, 用于选取相关系数和偏相关系数符号 相反, 且相关系数最大的样本变量 X1, 并依据样本变量 X1 选取与其相对应的样本变量 X2, 将 样本变量 X2 作为分割变量 ;
     与分割变量选取模块相连的样本分割分层模块, 用于依据所述分割变量和所述目 标变量, 对原始样本集分割分层, 得到训练子集和测试子集 ;
     与样本分割分层模块相连的建模模块, 用于选取所述训练子集中的关键变量, 计
     算回归系数, 根据所述关键变量和回归系数运用回归模型, 对训练子集逐个建模以产生描 述数据的模型 ;
     与样本分割分层模块和建模模块相连的分类模块, 用于将所述测试子集中的样本 变量代入所述模型, 计算样本的概率值, 根据所述概率值对样本进行分类。
     应用上述技术方案, 通过计算各个样本变量与预设的目标变量的相关系数, 以及 在其他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数, 选取相关系数 和偏相关系数符号相反, 且相关系数最大的样本变量 X1, 并依据样本变量 X1 选取与其相对 应的样本变量 X2, 将样本变量 X2 作为分割变量, 根据分割变量分割原始样本集, 对所得到的 训练子集建模。由于在选取关键变量之前首先根据分割变量对原始样本集进行分割, 有效 地消除关键变量的局部差异性, 提高建模的准确度, 进而样本分类准确度提高。 附图说明
     为了更清楚地说明本发明实施例, 下面将对实施例中所需要使用的附图做简单的 介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例, 对于本领域普通技术人 员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
     图 1 为本发明实施例提供的数据分类方法的流程图 ;
     图 2 为本发明实施例提供的数据分类方法的第二种流程图 ;
     图 3 为本发明实施例提供的数据分类方法的第三种流程图 ;
     图 4 为图 3 所示分类方法中步骤 S312 的流程图 ;
     图 5 为本发明实施例提供的数据分类系统的一种结构示意图 ;
     图 6 为本发明实施例提供的数据分类系统的第二种结构示意图 ;
     图 7 为图 6 所示分类系统中模型预测效果判定模块的结构示意图 ;
     图 8 为图 6 所示分类系统中样本分割分层模块的结构示意图。 具体实施方式
     下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部实施例。基于本 发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下, 所获得的所有其他 实施例, 都属于本发明保护范围。
     需要首先明确的是 :
     1 个样本 : 是 1*n 维矩阵 ;
     样本集 : 是 m*n 维矩阵, 即该样本集包括 m 个样本 ;
     样本变量 : 是样本中的元素, 每个样本包括 n 个样本变量。
     分类系统是数据挖掘的主要系统之一, 该系统中建模模块的准确度直接影响预测 精度的准确度。现有的建模方法中关键变量的选取是直接从整个原始样本集中选取的, 由 于关键变量存在局部差异性, 该局部差异性导致回归系数出现 “正负中和” 的现象, 导致建 模准确度低, 进而样本分类准确度降低。 为了解决上述问题, 本发明实施例提供一种数据分 类方法, 该方法在建模选取关键变量之前根据分割变量分割原始样本集, 得到训练子集和 测试子集, 有效地消除关键变量的局部差异性, 提高建模的准确度, 进而样本分类准确度提高。 实施例一 :
     本发明实施例提供的数据分类方法的流程图如图 1 所示, 包括 :
     S101 : 计算各个样本变量与预设的目标变量的相关系数, 以及在其他样本变量条 件下, 所述各个样本变量与所述目标变量的偏相关系数 ;
     相关系数的计算公式为 :
     其中 : Y 为预设的目标变量, X1 为样本变量, N 为计算相关系数的样本变量的条数, 偏相关系数的计算公式为 :和 分别为 X1 和 Y 的均值。
     其中 : X2 为样本集中的样本变量, 上述偏相关系数是 X1 在 X2 为条件的前提下, X1 和 Y 的偏相关系数。
     S102 : 选取相关系数和偏相关系数符号相反, 且相关系数最大的样本变量 X1, 并依 据样本变量 X1 选取与其相对应的样本变量 X2, 将样本变量 X2 作为分割变量 ;
     样本变量为一个 n 维向量, 当 X2 的取值个数少时, 直接选取 X2 作为分割变量, 否则 需要对 X2 进行离散化处理, 根据 SAS 等软件中的变量离散化的聚类算法对 X2 进行离散化, 得到 X2 的离散化变量 X2′。选取 X2′作为分割变量。
     S103 : 根据所述分割变量和所述目标变量分割分层原始样本集, 得到训练子集和 测试子集 ;
     S103 可以包括以下子步骤 :
     S1031 : 根据所述目标变量, 按照 1 ∶ 1 的比例对原始样本集分层抽样, 得到训练集 和测试集 ;
     其中 : 分层抽样是根据目标变量的取值, 按照 1 ∶ 1 的比例对原始样本集分层抽 样。下面举例说明根据目标变量, 按照 1 ∶ 1 比例分层抽样, 例如 : 目标变量取值为 0, 1, 原始样本集中与目标变量的取值为 0 时相对应的所有样本变量随机分成两等份, 设为 (A1, A2), 同样, 与目标变量的取值为 1 时相对应的所有样本变量也随机分成两等份, 设为 (B1, B2), A1 和 B1 合并为训练集, A2 和 B2 合并为测试集, 以保证训练集和测试集中目标变量取 值为 0 和 1 时与之相对应的变量个数的比例与原始样本集中该比例相同。
     S1032 : 根据分割变量分别分割所述训练集和所述测试集得到训练子集和测试子 集。
     分割样本集时, 需要注意的是 : 分割得到的训练子集和测试子集的个数不能太多, 以防止过度拟合。训练子集和测试子集中的个数是根据分割变量的取值个数确定的。
     样本集分割的方式 : 根据分割变量的取值对训练集和测试集分割, 需要注意的是 : 训练集和测试集根据同一个分割变量的取值时, 训练集和测试集的分割方式要相同, 以保
     证后续过程中测试子集对训练子集建立的模型的检测有效。
     分割得到的训练子集和测试子集的个数与分割变量的取值个数是相同的, 即: 当 分割变量的取值只有两个数值时, 训练子集和测试子集的个数均为 2 个, 当分割变量的取 值为多个数值时, 训练子集和测试子集的个数均为多个。每个训练子集都有与之相对应的 测试子集, 即训练子集和测试子集是一一对应的, 该对应关系是根据训练子集和测试子集 中分割变量的取值确定的。比如 : 某个训练子集中分割变量的取值为 3, 那么相应的, 测试 子集中有一个测试子集, 其分割变量的取值也是 3。
     当然, 步骤 S103 还可以采用先根据分割变量分割原始样本集得到多个样本集 ; 再 根据目标变量, 按照 1 ∶ 1 的比例分别对样本集分层得到训练子集和测试子集。采用该方 法得到的训练子集和测试子集与采用上述方法得到的训练子集和测试子集是相同的, 不同 之处在于 : 该方法的运算时间多于上述方法的运算时间, 且分割变量取值的个数越多, 该方 法运算时间增加的越多, 因此, 本实施例优选 : 先分层后分割的方法。
     S104 : 选取所述训练子集中的关键变量, 计算回归系数, 根据所述关键变量和回归 系数运用回归模型, 对训练子集逐个建模以产生描述数据的模型 ; 其中 :
     由于分割变量的取值为多个时, 得到的训练子集为多个, 因此在建模时是对所有 的训练子集分别建模, 得到的描述数据的模型个数与训练子集的个数相同。 建模之前采用分割变量分割样本集是因为在分割变量为条件的前提, 建模需要的 某个关键变量与目标变量的相关系数与不以该分割变量为条件的前提其相关系数是相反 的, 称其为局部差异性, 因此, 若对整个样本集建模, 局部差异性不能体现在回归系数计算 中, 甚至导致回归系数出现 “正负中和” 的现象, 进而导致样本分类准确度降低。 所以为了防 止局部差异性被忽略, 在建模之前需要采用分割变量分割样本集, 以提高样本分类准确度。
     实际的数据分类中能够选取的关键变量非常多, 为了在拟合优度和关键变量的个 数之间达到最优平衡, 本发明使用向前向后的逐步回归法来确定关键变量的选取。设从训 练子集中选取的关键变量为 X1、 X2、 ......、 Xm, 其中 m 为关键变量的个数, Y 为目标变量, 服 从二项分布即 Y = {0, 1}, P(Y = 1) 表示 Y = 1 时的概率, P(Y = 0) 表示 Y = 0 时的概率, 并且 P(Y = 1)+P(Y = 0) = 1。则建模的模型方程如下 :
     X = (1 X1… Xm) β = (β0 β1… βm) 其中, β0, β1, ......, βm 为回归系数, 可通过现有的标准软件计算, 如: SAS 和MATLAB。 模 型 选 择 和 关 键 变 量 选 取 方 面, 采 用 的 判 断 标 注 为 AIC(AkaikeInformation Criterion, 赤池信息准则 ), 即所选取的关键变量和回归系数都必须满足使得 AIC 最小。
     AIC = -2logL+2(m+1)
     其中, m 为模型中回归系数的个数。选取 AIC 而不采用传统的 Wald 检验模型和关 键变量的选择, 是基于 AIC 判断更加快速, 需要的计算量少, 且兼顾了使似然函数尽量大和 使回归系数尽量小, 即用尽量少的回归系数拟合出更优的模型, 避免过度拟合现象的出现。
     S105 : 将所述测试子集中的样本变量代入所述模型, 计算样本的概率值, 根据所述 概率值对样本进行分类。
     测试子集和训练子集是一一对应的, 因此测试子集的各个样本变量需要代入与该 测试子集相对应的训练子集建模得到的模型。
     将测试子集的每个样本中的样本变量代入与测试子集所对应的训练子集建立的 模型中, 获取样本的概率值, 将所有测试子集的概率值合并且排序后, 将样本按照预设的分 类百分比进行分类。
     应用上述技术方案, 通过计算各个样本变量与预设的目标变量的相关系数, 以及 在其他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数, 选取相关系数 和偏相关系数符号相反, 且相关系数最大的样本变量 X1, 并依据样本变量 X1 选取与其相对 应的样本变量 X2, 将样本变量 X2 作为分割变量, 根据分割变量分割原始样本集, 对所得到的 训练子集建模。由于在选取关键变量之前首先根据分割变量对原始样本集进行分割, 有效 地消除关键变量的局部差异性, 提高建模的准确度, 进而样本分类准确度提高。 实施例二 :
     参见图 2, 示出了本发明的一种数据分类方法实施例二的流程图, 在选取分割变量 之前需要对原始样本集中的样本变量进行抽取和填充。本实施例二包括以下步骤 :
     S201 : 计算原始样本集中各个样本变量的缺失比例, 根据缺失比例选取符合缺失 比例条件的样本变量 ;
     S202 : 分别计算所述选取的符合缺失比例条件的样本变量的各自均值, 对所述选 取的符合缺失比例条件样本变量进行均值填充 ;
     缺失比例条件为变量的缺失比例不大于 30%, 当然该缺失比例条件不是固定的, 根据样本变量的缺失具体情况确定。下面以缺失比例条件为变量的缺失比例不大于 30%, 介绍是如何选取符合缺失比例条件的样本变量以及进行均值填充的。例如 : 样本总数为 4, 样本变量 A 的取值为 : {, 1, , }, 样本变量 B 的取值为 {1, 3, , }, 样本变量 C 的取值为 {1, 2, 3, }, 样本变量 D 的取值为 {1, 2, 4, 1}, 其中空缺的位置即为变量的缺失。样本变量的缺失 比例等于其缺失个数与样本总数的百分比, 以 A 为例, A 的缺失比例为 : 3/4*100%= 75%, A 的缺失比例大于 30%, 因此, 不选取 A。同样, 分别计算 B、 C 和 D 的缺失比例可知, 不选取 B, 只选取 C 和 D。
     计算 C 的均值, C 的均值为 : 1+2+3/3 = 2, 根据均值对 C 填充, 填充后的 C 为 : {1, 2, 3, 2}。由于 D 的缺失比例为 0, 因此, 不需要对 D 进行均值填充。
     S203 : 填充后的样本变量组成新样本集 ;
     S204 : 获取新样本集中样本变量的样本总个数 ;
     S205 : 新样本集的样本总个数是否超过预设的样本总个数, 是执行 S206, 否则执 行 S207 ;
     预设的样本总个数为 : 样本总个数为 2 万至 3 万。
     S206 : 从新样本集中抽取预设的样本总个数的样本, 执行 S207 ;
     S207-S211 : 与实施例一中的步骤 S101-S105 相同。
     应用上述方案, 直接从原始样本集抽取的样本变量时, 可能抽取的样本变量的缺 失比例很大, 即其缺失比例不符合缺失比例条件, 则导致有效信息过少, 导致分割变量选取 的准确度降低, 因此, 在分割变量选取之前, 首先选取缺失比例符合缺失比例条件的样本变 量, 再对选取的符合缺失比例条件样本变量进行均值填充, 有效增加可分析样本的总数, 提 高分割变量选取的准确度。
     实施例三
     对训练子集逐个建模产生描述数据的模型之后, 还需要对模型的预测效果进行判 断, 判断模型是否达到最佳预测效果, 因此, 在对测试子集中的样本变量分类之后还包括 : 对模型的预测效果的判断过程, 如图 3 所示, 包括 :
     S301 至 S311 : 与实施例二中的步骤 S201-S211 相同 ;
     S312 : 判断所述模型是否达到最佳预测效果, 如果是, 执行 S313, 否则, 执行 S314 ;
     具体地, 本步骤包括以下步骤, 如图 4 所示 :
     S3121 : 从步骤 S311 中所计算出的概率值中获取目标变量取值为 1 的概率值 ;
     S3122 : 将该概率值合并, 按照数值的大小, 从大到小排序 ;
     例如 : 测试子集 1 的概率值为 p1 = {10%, 39%, 27%, 50% }, 测试子集 2 的概率值 为 p2 = {8%, 20%, 71%, 43% }, 则先合并为 p = {10%, 39%, 27%, 50%, 8%, 20%, 71%, 43% }, 排序后为, p 变为 : p = {71%, 50%, 43%, 39%, 27%, 20%, 10%, 8% }。
     S3123 : 按照 S31323 中概率值的排序将测试集排序, 选取排序后样本个数在预定 数值范围的样本, 计算该样本的 MP( 转换率 ) 值 ; 具体为 :
     按照 S1051 排序后的概率值, 将各个测试子集中与概率值相对应的样本按照概率 值的排序进行排序合并, 以组成一个样本集, 再将该样本集等分为多个样本集, 从多个样本 集中选取一个样本集, 该样本集的概率值高于其他样本集。例如, 将样本集等分为 10 份, 按 照概率值的从大到小, 将等分后的样本集编号为 : 1 至 10, 若 S105 中指出的预定数值范围 为 10%, 则选取编号为 1 的样本集, 即概率值高于其他样本集的样本集, 计算该样本集的 MP 值。
     样 本 集 等 分 后, 计 算 各 个 等 分 样 本 集 的 模 型 指 标, 即: CT 值 (Cumulative of Total, 样本比例 ), SR 值 (Success Rate, 区间转化率 )、 CR 值 (Cumulative Rate, 累积转 化率 )、 CTS 值 (Cumulative of TotalSuccess, 转化样本占总转化样本的累积比率 )、 LI 值 (Life Index、 上升指数 ) 和 MP 值。MP 值等于 CR 值。
     实际数据分类中, 将多个样本集依次编号, 编号最小值为 1, 对于编号为 i 的样本 集, 其 CT 值、 SR 值、 CR 值、 CTS 值和 LI 值的计算分别如下 :
     其中 : 第 0 个 CTS 值记为 0。 S3124 : 比较所述 MP 值和普通建模方法得到的 MP 值 ; S3125 : 判断比较结果是否高出预设提高值, 如果是, 执行 S313, 否则, 执行 S314 ;其中 : 比较结果可以是 MP 值和普通建模方法得到的 MP 值之间的差值, 也可以是两者的 差值百分比。 例如 : MP 值为 11.23%, 普通建模方法得到的 MP 值为 10.11%, 若比较结果为差 值时, 计算两者的差, 即 11.23% -10.11%= 1.12%, 1.12%高出预设提高值 ( 预设提高值 为 1% )。而比较结果为差值百分比时, 计算式为 : ((11.23% -10.11% )/10.11% )*100% ≈ 11%。与普通建模方法得到的 MP 值相比, 本方法的 MP 值提高了 11%, 高出预设提高值 ( 预设提高值为 10% )。
     S313 : 判断判定模型达到最佳预测效果 ;
     S314 : 判定模型未达到最佳预测效果, 返回执行 S308。
     返回执行 S308 时, 需要改变对 X2 的离散化的算法, 或者选取满足相关系数与偏相 关系数相反的条件的其他样本变量。
     应用上述技术方案, 可以判断模型的预测效果是否达到最佳预测效果, 并且在位 达到预测效果时, 重新执行选取样本分割, 继续对数据进行分类。
     以下通过一个具体例子对本发明进一步说明。
     本实施例建模的目的是采用数据挖掘方法, 获取潜在汽车消费者分类模型, 以精 确定位高购买倾向的潜在汽车购买客户群, 为汽车行业的生产决策提供依据, 同时也可根 据每个客户的广告策略响应模型打分, 确定针对每个客户最有效的宣传方式, 选取最优的 广告策略, 为决策的指定提供指导性的数据准备。数据来源于某大型汽车金融公司提供的 汽车消费者海量信息数据库, 数据库包括二十多万条样本变量, 每条样本变量是一个多维 变量 {X1, X2, ..., Xm}, 其内的参数代表 : 用户在何时查看车型询问车价、 请求购买车型、 打算 购买时间与当前时间的时间间隔、 用户的电子邮件地址与其姓名的匹配程度以及其他用户 信息。 用户的购买状态为目标变量, 该目标变量为二维变量 {0, 1}, 其中 : 0 表示用户放弃购 买, 1 表示用户购买车辆。
     数据分类方法中, 首先判断原始样本集中各个样本变量的缺失比例是否符合缺失 比例条件, 例如 : 当缺失比例不大于 30%时, 表示该样本变量的缺失比例符合缺失比例条 件。当缺失比例符合缺失比例条件时, 选取该缺失比例相对应的样本变量。对选取的样本 变量进行其均值填充, 填充后的样本变量组成新样本集。 其次, 从新样本集中抽取样本变量 作为新样本子集, 计算子集中各个样本变量与目标变量的相关系数, 以及在其他样本变量 条件下, 所述各个样本变量与所述目标变量的偏相关系数, 如表 2 所示, 表 2 中 X1 和 X2 取值 表示在子集中的列编号。
     10102063457 A CN 102063467
     说相关系数和偏相关系数明书8/16 页表2
     从表 2 中选取相关系数和偏相关系数符号相反, 且相关系数和偏相关系数的差值 最大的样本变量 X1, 并依据 X1 选取与其相对应的 X2, 将 X2 作为分割变量, 如表 3 所示, 本实 施例中分割变量为第 10 列的样本变量 A9_o, 该 A9_o 表示, 用户在一个星期的第几天进行资 料填写及询价, 取值为 1-8, 其中 1-7 代表周一至周日, 8 代表节假日 ( 美国 )。
     表 3 相关系数和偏相关系数相反的组合
     选取出 A9_o 之后, 将原始样本集中的样本变量根据目标变量的取值 0 和 1, 按照 1 ∶ 1 的比例分层抽样, 得到训练集和测试集, 再根据 A9_o 将训练集和测试集分割为训练子 集和测试子集, 对训练子集分别建模以产生描述数据的模型。使用本发明的方法对汽车消 费者海量信息数据库进行建模, 模型参数如表 4、 表 5、 表 6 和表 7 所示。相对于表 1 所示的 模型指标, 基于本发明测试子集的模型指标如表 8 所示, 表 9 是相对于表 1 普通建模模型的 测试子集的模型指标。
     表4A9_o = {1, 2, 3, 4, 5} 的训练样本的模型参数 系数估计值 -3.74082 -0.09831 0.06968 估计方差 0.56770 0.10017 0.04418 Z值 -6.589 -0.981 1.577 P值 4.42e-11 0.32637 0.11475变量名 截距 A1_o A2_o13102063457 A CN 102063467说0.30078 -0.55164 0.03596 -0.18971 0.08229 0.07948 0.08963 0.05017 0.04660 0.03237 -0.06376 0.01859 0.05970明书4.817 -6.957 1.061 -6.358 3.289 3.288 3.290 0.434 2.260 1.241 -2.845 0.524 4.467 1.46e-06 3.46e-12 0.28884 2.05e-10 0.00101 0.00101 0.00100 0.66413 0.02382 0.21443 0.00443 0.60030 7.95e-0611/16 页A3_o A4_o A5_o A6_o A7_o A8_o A9_o A10_o A11_o A12_o A13_o A14_o A15_o
     0.06244 0.07929 0.03391 0.02984 0.02502 0.02417 0.02724 0.11554 0.02062 0.02608 0.02241 0.03547 0.01337表5A9_o = 6 的训练样本的模型参数 系数估计值 -3.528780 -0.206372 0.023088 0.326030 -0.292864 估计方差 0.620232 0.122280 0.049675 0.071059 0.089112 Z值 -5.689 -1.688 0.465 4.588 -3.286 P值 1.27e-08 0.091468 0.642084 4.47e-06 0.001015变量名 截距 A1_o A2_o A3_o A4_o14102063457 A CN 102063467说0.190853 -0.110843 -0.017115 0.025628 -0.042441 0.023507 -0.050970 -0.000916 0.069009 0.048512明书4.603 -1.962 -0.707 0.787 -0.338 0.980 -1.816 -0.036 1.955 3.292 4.16e-06 0.049804 0.479738 0.431280 0.735581 0.327006 0.069357 0.971128 0.050530 0.00099412/16 页A5_o A6_o A7_o A8_o A10_o A11_o A12_o A13_o A14_o A15_o
     0.041459 0.056505 0.024217 0.032563 0.125672 0.023983 0.028066 0.025308 0.035291 0.014735表6A9_o = 7 的训练样本的模型参数 系数估计值 -5.35626 -0.08975 0.11970 0.10479 -0.21511 0.05709 0.09818 0.02675 0.07552 估计方差 0.44631 0.09012 0.03465 0.04524 0.06453 0.01914 0.02857 0.01419 0.03977 Z值 -12.001 -0.996 3.454 2.316 -3.334 2.984 3.437 1.885 1.899 P值 < 2e-16 0.319303 0.000552 0.020545 0.000857 0.002849 0.000589 0.059387 0.057557变量名 截距 A1_o A2_o A3_o A4_o A5_o A6_o A7_o A8_o15102063457 A CN 102063467说0.22531 0.06182 -0.06076 -0.01446 0.09201 0.04392明书2.453 3.775 -3.090 -0.833 3.741 4.311 0.014169 0.000160 0.002000 0.404639 0.000183 1.63e-0513/16 页A10_o A11_o A12_o A13_o A14_o A15_o
     0.09185 0.01638 0.01966 0.01735 0.02459 0.01019表7A9_o = 8 的训练样本的模型参数 系数估计值 -4.153193 -0.150153 0.150461 0.196052 -0.181489 0.078067 0.025024 0.037638 -0.006805 -0.008445 0.016991 -0.005377 -0.044740 估计方差 0.451350 0.084253 0.035652 0.045571 0.061732 0.022941 0.022249 0.018381 0.031810 0.087655 0.015710 0.018253 0.016556 Z值 -9.202 -1.782 4.220 4.302 -2.940 3.403 1.125 2.048 -0.214 -0.096 1.082 -0.295 -2.702 P值 < 2e-16 0.074723 2.44e-05 1.69e-05 0.003282 0.000667 0.260705 0.040593 0.830604 0.923244 0.279442 0.768313 0.006886变量名 截距 A1_o A2_o A3_o A4_o A5_o A6_o A7_o A8_o A10_o A11_o A12_o A13_o16102063457 A CN 102063467说0.060623 0.031205明书2.537 3.258 0.011177 0.00112114/16 页A14_o A15_o
     0.023895 0.009577表8本发明的模型指标
     表9普通模型的模型指标从结果可以看出, 相对于普通模型, 本发明模型的模型指标提高。表 10 是模型关 键评价指标比较, 模型关键评价指标为 MP 值, MP 值与 CR 值相同, 从表 10 可以看出, 本发明 模型的 MP 值相对于普通建模得到的 MP 值提高 10% (10%是通过计算两者差值的百分比得 出的 ), 高出预设提高值, 达到最佳预测效果。
     表 10 关键评价指标比较
     综上, 本发明在选取关键变量之前首先根据分割变量对原始样本集进行分割, 有效地消除关键变量的局部差异性, 提高建模的准确度, 提高样本分类的准确度, 进而预测精 度提高。
     实施例四
     本发明还提供一种数据分类系统, 该系统的结构示意图如图 5 所示, 包括 : 系数计 算模块 10、 分割变量选取模块 11、 样本分割分层模块 12、 建模模块 13 和分类模块 14。其 中:
     系数计算模块 10, 用于计算各个样本变量与预设的目标变量的相关系数, 以及在 其他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数 ;
     分割变量选取模块 11, 用于选取相关系数和偏相关系数符号相反, 且相关系数最 大的样本变量 X1, 并依据样本变量 X1 选取与其相对应的样本变量 X2, 将样本变量 X2 作为分 割变量 ;
     样本分割分层模块 12, 用于依据所述分割变量和所述目标变量, 对原始样本集分 割分层, 得到训练子集和测试子集 ;
     建模模块 13, 用于选取所述训练子集中的关键变量, 计算回归系数, 根据所述关键 变量和回归系数运用回归模型, 对训练子集逐个建模以产生描述数据的模型 ;
     分类模块 14, 用于将所述测试子集中的样本变量代入所述模型, 计算样本的概率 值, 根据所述概率值对样本进行分类。
     本发明提供的数据分类系统还包括 : 样本变量选取模块 15, 与样本变量选取模块 15 相连的样本变量填充模块 16, 与样本变量填充模块 16 相连的新样本组成模块 17, 与新样 本组成模块 17 相连的样本总个数获取模块 18 和与样本总个数获取模块 18 相连的样本变 量抽取模块 19, 如图 6 所示。其中 :
     样本变量选取模块 15, 用于计算原始样本集中各个样本变量的缺失比例, 根据缺 失比例选取符合缺失比例条件的样本变量 ;
     样本变量填充模块 16, 用于分别计算所述选取的符合缺失比例条件的样本变量的 各自均值, 对所述选取的符合缺失比例条件样本变量进行均值填充 ;
     新样本组成模块 17, 用于将填充后的样本变量组成新样本集 ;
     样本总个数获取模块 18, 用于获取新样本集中的样本总个数 ;
     样本抽取模块 19, 用于当总个数超过预设的样本总个数时, 从新样本集中抽取预 设的样本总个数的样本。
     本发明实施例提供的数据分类系统还需要对模型的预测效果进行判断, 因此, 该 数据分类系统还包括 : 模型预测效果判定模块 20, 如图 6 所示。模型预测效果判定模块 20, 用于判断所述模型是否达到最佳预测效果, 当所述模型未达到最佳预测效果, 则返回执行 分割变量选取模块 11 中的步骤。需要指出的是 : 执行分割变量选取模块 11 中的步骤时, 需 要改变对 X2 的离散化的算法, 或者选取满足相关系数与偏相关系数相反的条件的其他样本 变量。
     模型预测效果判定模块 20 的结构示意图如图 7 所示, 包括 : 概率值获取单元 201、 概率值排序单元 202、 转换率值计算单元 203、 转换率值比较单元 204 和比较结果判断单元 205。其中 :
     概率值获取单元 201, 用于从所述概率值中获取目标变量取值为 1 的概率值 ;概率值排序单元 202, 用于将概率值获取单元 201 选取的概率值合并, 按照数值的 大小, 从大到小排序 ;
     转换率值计算单元 203, 用于按照概率值的排序将测试集排序, 选取排序后样本个 数在预定数值范围的样本, 计算该样本的转换率值 ;
     转换率值比较单元 204, 用于比较所述转换率值和普通建模方法得到的转换率 值;
     比较结果判断单元 205, 用于判断比较结果是否高出预设提高值, 以判断所述模型 是否达到最佳预测效果。 当比较结果高出预设提高值时, 判断所述模型达到最佳预测效果 ; 否则, 判断所述模型未达到最佳预测效果。
     本发明实施例中样本分割分层模块 12 包括 : 样本分层单元 121 和样本分割单元 122, 如图 8 所示。其中 :
     样本分层单元 121, 用于根据所述目标变量, 按照 1 ∶ 1 的比例对样本集分层抽样, 得到训练集和测试集 ;
     样本分割单元 122, 用于根据所述分割变量分别分割所述训练集和所述测试集得 到训练子集和测试子集。
     对所公开的实施例的上述说明, 使本领域专业技术人员能够实现或使用本发明。 对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的, 本文中所定义的 一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。 因此, 本发明 将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。

一种数据分类方法及系统.pdf_第1页
第1页 / 共25页
一种数据分类方法及系统.pdf_第2页
第2页 / 共25页
一种数据分类方法及系统.pdf_第3页
第3页 / 共25页
点击查看更多>>
资源描述

《一种数据分类方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种数据分类方法及系统.pdf(25页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN102063457A43申请公布日20110518CN102063457ACN102063457A21申请号201010293694422申请日20100921G06F17/3020060171申请人合肥兆尹信息科技有限责任公司地址230031安徽省合肥市蜀山区肥西路66号汇金大厦21楼72发明人储晨74专利代理机构北京集佳知识产权代理有限公司11227代理人逯长明54发明名称一种数据分类方法及系统57摘要本发明公开了一种数据分类方法及系统。本发明公开了一种数据分类方法,包括选取分割变量;依据所述分割变量和所述目标变量,对原始样本集分割分层,得到训练子集和测试子集;选取所述训。

2、练子集中的关键变量,计算回归系数,根据所述关键变量和回归系数运用回归模型,对训练子集逐个建模以产生描述数据的模型;将所述测试子集中的样本变量代入所述模型,计算样本的概率值,根据所述概率值对样本进行分类。应用上述技术方案,选取关键变量之前首先根据分割变量对原始样本集进行分割,有效地消除关键变量的局部差异性,提高建模的准确度,进而样本分类准确度提高。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书16页附图6页CN102063467A1/2页21一种数据分类方法,其特征在于,包括计算各个样本变量与预设的目标变量的相关系数,以及在其他样本变量条件下,所述各个样本变量。

3、与所述目标变量的偏相关系数;选取相关系数和偏相关系数符号相反,且相关系数最大的样本变量X1,并依据样本变量X1选取与其相对应的样本变量X2,将样本变量X2作为分割变量;依据所述分割变量和所述目标变量,对原始样本集分割分层,得到训练子集和测试子集;选取所述训练子集中的关键变量,计算回归系数,根据所述关键变量和回归系数运用回归模型,对训练子集逐个建模以产生描述数据的模型;将所述测试子集中的样本变量代入所述模型,计算样本的概率值,根据所述概率值对样本进行分类。2根据权利要求1所述的分类方法,其特征在于,计算各个样本变量与预设的目标变量的相关系数,以及在其他样本变量条件下,所述各个样本变量与所述目标变。

4、量的偏相关系数之前还包括计算原始样本集中各个样本变量的缺失比例,根据缺失比例选取符合缺失比例条件的样本变量;分别计算所述选取的符合缺失比例条件的样本变量的各自均值,对所述选取的符合缺失比例条件样本变量进行均值填充;填充后的样本变量组成新样本集。3根据权利要求2所述的分类方法,其特征在于,在填充后的样本变量组成新样本集之后,计算各个样本变量与预设的目标变量的相关系数,以及在其他样本变量条件下,所述各个样本变量与所述目标变量的偏相关系数之前,还包括获取新样本集中样本变量的样本总个数;当样本总个数超过预设的样本总个数时,从新样本集中抽取预设的样本总个数的样本。4根据权利要求3所述的分类方法,其特征在。

5、于,在将所述测试子集中的样本变量代入所述模型,计算样本的概率值,根据所述概率值对样本进行分类之后还包括判断所述模型是否达到最佳预测效果;当所述模型未达到最佳预测效果,则返回执行选取相关系数和偏相关系数符号相反,且相关系数最大的样本变量X1,并依据样本变量X1选取与其相对应的样本变量X2,将样本变量X2作为分割变量的步骤。5根据权利要求4所述的分类方法,其特征在于,判断所述模型是否达到最佳预测效果包括从所述概率值中获取目标变量取值为1的概率值;将该概率值合并,按照数值的大小,从大到小排序;按照概率值的排序将测试集排序,选取排序后样本个数在预定数值范围的样本,计算该样本的转换率值;比较所述转换率值。

6、和普通建模方法得到的转换率值;判断比较结果是否高出预设提高值,以判断所述模型是否达到最佳预测效果。权利要求书CN102063457ACN102063467A2/2页36根据权利要求5所述的分类方法,其特征在于,所述判断比较结果是否高出预设提高值,以判断所述模型是否达到最佳预测效果具体为比较结果高出预设提高值时,判断所述模型达到最佳预测效果;否则,判断所述模型未达到最佳预测效果。7根据权利要求6所述的分类方法,其特征在于,依据所述分割变量和所述目标变量,对原始样本集分割分层,得到训练子集和测试子集包括根据所述目标变量,按照11的比例对原始样本集分层抽样,得到训练集和测试集;根据所述分割变量分别分。

7、割所述训练集和所述测试集得到训练子集和测试子集。8根据权利要求17任意一项所述的分类方法,其特征在于,所述选取所述训练子集中的关键变量,计算回归系数具体为使用逐步回归法选取所述训练子集中的关键变量,通过现有的标准软件计算回归系数。9一种数据分类系统,其特征在于,包括系数计算模块,用于计算各个样本变量与预设的目标变量的相关系数,以及在其他样本变量条件下,所述各个样本变量与所述目标变量的偏相关系数;与系数计算模块相连的分割变量选取模块,用于选取相关系数和偏相关系数符号相反,且相关系数最大的样本变量X1,并依据样本变量X1选取与其相对应的样本变量X2,将样本变量X2作为分割变量;与分割变量选取模块相。

8、连的样本分割分层模块,用于依据所述分割变量和所述目标变量,对原始样本集分割分层,得到训练子集和测试子集;与样本分割分层模块相连的建模模块,用于选取所述训练子集中的关键变量,计算回归系数,根据所述关键变量和回归系数运用回归模型,对训练子集逐个建模以产生描述数据的模型;与样本分割分层模块和建模模块相连的分类模块,用于将所述测试子集中的样本变量代入所述模型,计算样本的概率值,根据所述概率值对样本进行分类。10根据权利要求9所述的分类系统,其特征在于,还包括样本变量选取模块,用于计算原始样本集中各个样本变量的缺失比例,根据缺失比例选取符合缺失比例条件的样本变量;与样本变量选取模块相连的样本变量填充模块。

9、,用于分别计算所述选取的符合缺失比例条件的样本变量的各自均值,对所述选取的符合缺失比例条件样本变量进行均值填充;与所述样本变量填充模块相连的新样本组成模块,用于将填充后的样本变量组成新样本集;样本总个数获取模块,用于获取新样本集中样本变量的样本总个数;与样本总个数获取模块相连的样本抽取模块,用于当所述总个数超过预设的样本总个数时,从新样本集中抽取预设的样本总个数的样本;模型预测效果判定模块,用于判断所述模型是否达到最佳预测效果,当所述模型未达到最佳预测效果,则返回执行选取相关系数和偏相关系数符号相反,且相关系数最大的样本变量X1,并依据样本变量X1选取与其相对应的样本变量X2,将样本变量X2作。

10、为分割变量的步骤。权利要求书CN102063457ACN102063467A1/16页4一种数据分类方法及系统技术领域0001本发明涉及数据挖掘技术领域,尤其涉及一种数据分类方法及系统。背景技术0002分类系统是数据挖掘的主要系统之一,其通常是从原始样本集中提取关键变量,通过现有的标准软件例如SASSTATISTICALANALYSISSOFTWARE,统计分析软件和仿真软件MATLAB,计算回归系数,根据关键变量和回归系数运用LOGISTIC回归模型建模,用户根据建模得到的模型预测数据的未来发展趋势,以根据该趋势作出正确的操作。0003由于从整个原始样本集中提取关键变量与目标变量的相关性存在。

11、局部差异性,该局部差异性会使得总体建模时,估计该关键变量的回归系数出现“正负中和”的现象,导致回归系数的估算不准确,进而导致建模准确度低,样本分类准确度降低。发明内容0004有鉴于此,本发明的目的在于提供一种数据分类方法及系统,以解决现有技术中关键变量与目标变量的相关性存在的局部差异性导致的导致回归系数的估算不准确,进而导致建模准确度低,样本分类准确度降低的问题。0005本发明提供一种数据分类方法,包括0006计算各个样本变量与预设的目标变量的相关系数,以及在其他样本变量条件下,所述各个样本变量与所述目标变量的偏相关系数;0007选取相关系数和偏相关系数符号相反,且相关系数最大的样本变量X1,。

12、并依据样本变量X1选取与其相对应的样本变量X2,将样本变量X2作为分割变量;0008依据所述分割变量和所述目标变量,对原始样本集分割分层,得到训练子集和测试子集;0009选取所述训练子集中的关键变量,计算回归系数,根据所述关键变量和回归系数运用回归模型,对训练子集逐个建模以产生描述数据的模型;0010将所述测试子集中的样本变量代入所述模型,计算样本的概率值,根据所述概率值对样本进行分类。0011本发明还提供一种数据分类系统,包括0012系数计算模块,用于计算各个样本变量与预设的目标变量的相关系数,以及在其他样本变量条件下,所述各个样本变量与所述目标变量的偏相关系数;0013与系数计算模块相连的。

13、分割变量选取模块,用于选取相关系数和偏相关系数符号相反,且相关系数最大的样本变量X1,并依据样本变量X1选取与其相对应的样本变量X2,将样本变量X2作为分割变量;0014与分割变量选取模块相连的样本分割分层模块,用于依据所述分割变量和所述目标变量,对原始样本集分割分层,得到训练子集和测试子集;0015与样本分割分层模块相连的建模模块,用于选取所述训练子集中的关键变量,计说明书CN102063457ACN102063467A2/16页5算回归系数,根据所述关键变量和回归系数运用回归模型,对训练子集逐个建模以产生描述数据的模型;0016与样本分割分层模块和建模模块相连的分类模块,用于将所述测试子集。

14、中的样本变量代入所述模型,计算样本的概率值,根据所述概率值对样本进行分类。0017应用上述技术方案,通过计算各个样本变量与预设的目标变量的相关系数,以及在其他样本变量条件下,所述各个样本变量与所述目标变量的偏相关系数,选取相关系数和偏相关系数符号相反,且相关系数最大的样本变量X1,并依据样本变量X1选取与其相对应的样本变量X2,将样本变量X2作为分割变量,根据分割变量分割原始样本集,对所得到的训练子集建模。由于在选取关键变量之前首先根据分割变量对原始样本集进行分割,有效地消除关键变量的局部差异性,提高建模的准确度,进而样本分类准确度提高。附图说明0018为了更清楚地说明本发明实施例,下面将对实。

15、施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0019图1为本发明实施例提供的数据分类方法的流程图;0020图2为本发明实施例提供的数据分类方法的第二种流程图;0021图3为本发明实施例提供的数据分类方法的第三种流程图;0022图4为图3所示分类方法中步骤S312的流程图;0023图5为本发明实施例提供的数据分类系统的一种结构示意图;0024图6为本发明实施例提供的数据分类系统的第二种结构示意图;0025图7为图6所示分类系统中模型预测效果判定模块的结构示意图;。

16、0026图8为图6所示分类系统中样本分割分层模块的结构示意图。具体实施方式0027下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。0028需要首先明确的是00291个样本是1N维矩阵;0030样本集是MN维矩阵,即该样本集包括M个样本;0031样本变量是样本中的元素,每个样本包括N个样本变量。0032分类系统是数据挖掘的主要系统之一,该系统中建模模块的准确度直接影响预测精度的准确度。现有。

17、的建模方法中关键变量的选取是直接从整个原始样本集中选取的,由于关键变量存在局部差异性,该局部差异性导致回归系数出现“正负中和”的现象,导致建模准确度低,进而样本分类准确度降低。为了解决上述问题,本发明实施例提供一种数据分类方法,该方法在建模选取关键变量之前根据分割变量分割原始样本集,得到训练子集和测试子集,有效地消除关键变量的局部差异性,提高建模的准确度,进而样本分类准确度提说明书CN102063457ACN102063467A3/16页6高。0033实施例一0034本发明实施例提供的数据分类方法的流程图如图1所示,包括0035S101计算各个样本变量与预设的目标变量的相关系数,以及在其他样本。

18、变量条件下,所述各个样本变量与所述目标变量的偏相关系数;0036相关系数的计算公式为00370038其中Y为预设的目标变量,X1为样本变量,N为计算相关系数的样本变量的条数,和分别为X1和Y的均值。0039偏相关系数的计算公式为00400041其中X2为样本集中的样本变量,上述偏相关系数是X1在X2为条件的前提下,X1和Y的偏相关系数。0042S102选取相关系数和偏相关系数符号相反,且相关系数最大的样本变量X1,并依据样本变量X1选取与其相对应的样本变量X2,将样本变量X2作为分割变量;0043样本变量为一个N维向量,当X2的取值个数少时,直接选取X2作为分割变量,否则需要对X2进行离散化处。

19、理,根据SAS等软件中的变量离散化的聚类算法对X2进行离散化,得到X2的离散化变量X2。选取X2作为分割变量。0044S103根据所述分割变量和所述目标变量分割分层原始样本集,得到训练子集和测试子集;0045S103可以包括以下子步骤0046S1031根据所述目标变量,按照11的比例对原始样本集分层抽样,得到训练集和测试集;0047其中分层抽样是根据目标变量的取值,按照11的比例对原始样本集分层抽样。下面举例说明根据目标变量,按照11比例分层抽样,例如目标变量取值为0,1,原始样本集中与目标变量的取值为0时相对应的所有样本变量随机分成两等份,设为A1,A2,同样,与目标变量的取值为1时相对应的。

20、所有样本变量也随机分成两等份,设为B1,B2,A1和B1合并为训练集,A2和B2合并为测试集,以保证训练集和测试集中目标变量取值为0和1时与之相对应的变量个数的比例与原始样本集中该比例相同。0048S1032根据分割变量分别分割所述训练集和所述测试集得到训练子集和测试子集。0049分割样本集时,需要注意的是分割得到的训练子集和测试子集的个数不能太多,以防止过度拟合。训练子集和测试子集中的个数是根据分割变量的取值个数确定的。0050样本集分割的方式根据分割变量的取值对训练集和测试集分割,需要注意的是训练集和测试集根据同一个分割变量的取值时,训练集和测试集的分割方式要相同,以保说明书CN10206。

21、3457ACN102063467A4/16页7证后续过程中测试子集对训练子集建立的模型的检测有效。0051分割得到的训练子集和测试子集的个数与分割变量的取值个数是相同的,即当分割变量的取值只有两个数值时,训练子集和测试子集的个数均为2个,当分割变量的取值为多个数值时,训练子集和测试子集的个数均为多个。每个训练子集都有与之相对应的测试子集,即训练子集和测试子集是一一对应的,该对应关系是根据训练子集和测试子集中分割变量的取值确定的。比如某个训练子集中分割变量的取值为3,那么相应的,测试子集中有一个测试子集,其分割变量的取值也是3。0052当然,步骤S103还可以采用先根据分割变量分割原始样本集得到。

22、多个样本集;再根据目标变量,按照11的比例分别对样本集分层得到训练子集和测试子集。采用该方法得到的训练子集和测试子集与采用上述方法得到的训练子集和测试子集是相同的,不同之处在于该方法的运算时间多于上述方法的运算时间,且分割变量取值的个数越多,该方法运算时间增加的越多,因此,本实施例优选先分层后分割的方法。0053S104选取所述训练子集中的关键变量,计算回归系数,根据所述关键变量和回归系数运用回归模型,对训练子集逐个建模以产生描述数据的模型;其中0054由于分割变量的取值为多个时,得到的训练子集为多个,因此在建模时是对所有的训练子集分别建模,得到的描述数据的模型个数与训练子集的个数相同。005。

23、5建模之前采用分割变量分割样本集是因为在分割变量为条件的前提,建模需要的某个关键变量与目标变量的相关系数与不以该分割变量为条件的前提其相关系数是相反的,称其为局部差异性,因此,若对整个样本集建模,局部差异性不能体现在回归系数计算中,甚至导致回归系数出现“正负中和”的现象,进而导致样本分类准确度降低。所以为了防止局部差异性被忽略,在建模之前需要采用分割变量分割样本集,以提高样本分类准确度。0056实际的数据分类中能够选取的关键变量非常多,为了在拟合优度和关键变量的个数之间达到最优平衡,本发明使用向前向后的逐步回归法来确定关键变量的选取。设从训练子集中选取的关键变量为X1、X2、XM,其中M为关键。

24、变量的个数,Y为目标变量,服从二项分布即Y0,1,PY1表示Y1时的概率,PY0表示Y0时的概率,并且PY1PY01。则建模的模型方程如下00570058X1X1XM005901M0060其中,0,1,M为回归系数,可通过现有的标准软件计算,如SAS和MATLAB。0061模型选择和关键变量选取方面,采用的判断标注为AICAKAIKEINFORMATIONCRITERION,赤池信息准则,即所选取的关键变量和回归系数都必须满足使得AIC最小。0062AIC2LOGL2M100630064说明书CN102063457ACN102063467A5/16页80065其中,M为模型中回归系数的个数。选。

25、取AIC而不采用传统的WALD检验模型和关键变量的选择,是基于AIC判断更加快速,需要的计算量少,且兼顾了使似然函数尽量大和使回归系数尽量小,即用尽量少的回归系数拟合出更优的模型,避免过度拟合现象的出现。0066S105将所述测试子集中的样本变量代入所述模型,计算样本的概率值,根据所述概率值对样本进行分类。0067测试子集和训练子集是一一对应的,因此测试子集的各个样本变量需要代入与该测试子集相对应的训练子集建模得到的模型。0068将测试子集的每个样本中的样本变量代入与测试子集所对应的训练子集建立的模型中,获取样本的概率值,将所有测试子集的概率值合并且排序后,将样本按照预设的分类百分比进行分类。。

26、0069应用上述技术方案,通过计算各个样本变量与预设的目标变量的相关系数,以及在其他样本变量条件下,所述各个样本变量与所述目标变量的偏相关系数,选取相关系数和偏相关系数符号相反,且相关系数最大的样本变量X1,并依据样本变量X1选取与其相对应的样本变量X2,将样本变量X2作为分割变量,根据分割变量分割原始样本集,对所得到的训练子集建模。由于在选取关键变量之前首先根据分割变量对原始样本集进行分割,有效地消除关键变量的局部差异性,提高建模的准确度,进而样本分类准确度提高。0070实施例二0071参见图2,示出了本发明的一种数据分类方法实施例二的流程图,在选取分割变量之前需要对原始样本集中的样本变量进。

27、行抽取和填充。本实施例二包括以下步骤0072S201计算原始样本集中各个样本变量的缺失比例,根据缺失比例选取符合缺失比例条件的样本变量;0073S202分别计算所述选取的符合缺失比例条件的样本变量的各自均值,对所述选取的符合缺失比例条件样本变量进行均值填充;0074缺失比例条件为变量的缺失比例不大于30,当然该缺失比例条件不是固定的,根据样本变量的缺失具体情况确定。下面以缺失比例条件为变量的缺失比例不大于30,介绍是如何选取符合缺失比例条件的样本变量以及进行均值填充的。例如样本总数为4,样本变量A的取值为,1,样本变量B的取值为1,3,样本变量C的取值为1,2,3,样本变量D的取值为1,2,4。

28、,1,其中空缺的位置即为变量的缺失。样本变量的缺失比例等于其缺失个数与样本总数的百分比,以A为例,A的缺失比例为3/410075,A的缺失比例大于30,因此,不选取A。同样,分别计算B、C和D的缺失比例可知,不选取B,只选取C和D。0075计算C的均值,C的均值为123/32,根据均值对C填充,填充后的C为1,2,3,2。由于D的缺失比例为0,因此,不需要对D进行均值填充。0076S203填充后的样本变量组成新样本集;0077S204获取新样本集中样本变量的样本总个数;0078S205新样本集的样本总个数是否超过预设的样本总个数,是执行S206,否则执行S207;0079预设的样本总个数为样本。

29、总个数为2万至3万。0080S206从新样本集中抽取预设的样本总个数的样本,执行S207;说明书CN102063457ACN102063467A6/16页90081S207S211与实施例一中的步骤S101S105相同。0082应用上述方案,直接从原始样本集抽取的样本变量时,可能抽取的样本变量的缺失比例很大,即其缺失比例不符合缺失比例条件,则导致有效信息过少,导致分割变量选取的准确度降低,因此,在分割变量选取之前,首先选取缺失比例符合缺失比例条件的样本变量,再对选取的符合缺失比例条件样本变量进行均值填充,有效增加可分析样本的总数,提高分割变量选取的准确度。0083实施例三0084对训练子集逐个。

30、建模产生描述数据的模型之后,还需要对模型的预测效果进行判断,判断模型是否达到最佳预测效果,因此,在对测试子集中的样本变量分类之后还包括对模型的预测效果的判断过程,如图3所示,包括0085S301至S311与实施例二中的步骤S201S211相同;0086S312判断所述模型是否达到最佳预测效果,如果是,执行S313,否则,执行S314;0087具体地,本步骤包括以下步骤,如图4所示0088S3121从步骤S311中所计算出的概率值中获取目标变量取值为1的概率值;0089S3122将该概率值合并,按照数值的大小,从大到小排序;0090例如测试子集1的概率值为P110,39,27,50,测试子集2的。

31、概率值为P28,20,71,43,则先合并为P10,39,27,50,8,20,71,43,排序后为,P变为P71,50,43,39,27,20,10,8。0091S3123按照S31323中概率值的排序将测试集排序,选取排序后样本个数在预定数值范围的样本,计算该样本的MP转换率值;具体为0092按照S1051排序后的概率值,将各个测试子集中与概率值相对应的样本按照概率值的排序进行排序合并,以组成一个样本集,再将该样本集等分为多个样本集,从多个样本集中选取一个样本集,该样本集的概率值高于其他样本集。例如,将样本集等分为10份,按照概率值的从大到小,将等分后的样本集编号为1至10,若S105中指。

32、出的预定数值范围为10,则选取编号为1的样本集,即概率值高于其他样本集的样本集,计算该样本集的MP值。0093样本集等分后,计算各个等分样本集的模型指标,即CT值CUMULATIVEOFTOTAL,样本比例,SR值SUCCESSRATE,区间转化率、CR值CUMULATIVERATE,累积转化率、CTS值CUMULATIVEOFTOTALSUCCESS,转化样本占总转化样本的累积比率、LI值LIFEINDEX、上升指数和MP值。MP值等于CR值。0094实际数据分类中,将多个样本集依次编号,编号最小值为1,对于编号为I的样本集,其CT值、SR值、CR值、CTS值和LI值的计算分别如下00950。

33、0960097说明书CN102063457ACN102063467A7/16页1000980099其中第0个CTS值记为0。0100S3124比较所述MP值和普通建模方法得到的MP值;0101S3125判断比较结果是否高出预设提高值,如果是,执行S313,否则,执行S314;其中0102比较结果可以是MP值和普通建模方法得到的MP值之间的差值,也可以是两者的差值百分比。例如MP值为1123,普通建模方法得到的MP值为1011,若比较结果为差值时,计算两者的差,即11231011112,112高出预设提高值预设提高值为1。而比较结果为差值百分比时,计算式为11231011/101110011。与。

34、普通建模方法得到的MP值相比,本方法的MP值提高了11,高出预设提高值预设提高值为10。0103S313判断判定模型达到最佳预测效果;0104S314判定模型未达到最佳预测效果,返回执行S308。0105返回执行S308时,需要改变对X2的离散化的算法,或者选取满足相关系数与偏相关系数相反的条件的其他样本变量。0106应用上述技术方案,可以判断模型的预测效果是否达到最佳预测效果,并且在位达到预测效果时,重新执行选取样本分割,继续对数据进行分类。0107以下通过一个具体例子对本发明进一步说明。0108本实施例建模的目的是采用数据挖掘方法,获取潜在汽车消费者分类模型,以精确定位高购买倾向的潜在汽车。

35、购买客户群,为汽车行业的生产决策提供依据,同时也可根据每个客户的广告策略响应模型打分,确定针对每个客户最有效的宣传方式,选取最优的广告策略,为决策的指定提供指导性的数据准备。数据来源于某大型汽车金融公司提供的汽车消费者海量信息数据库,数据库包括二十多万条样本变量,每条样本变量是一个多维变量X1,X2,XM,其内的参数代表用户在何时查看车型询问车价、请求购买车型、打算购买时间与当前时间的时间间隔、用户的电子邮件地址与其姓名的匹配程度以及其他用户信息。用户的购买状态为目标变量,该目标变量为二维变量0,1,其中0表示用户放弃购买,1表示用户购买车辆。0109数据分类方法中,首先判断原始样本集中各个样。

36、本变量的缺失比例是否符合缺失比例条件,例如当缺失比例不大于30时,表示该样本变量的缺失比例符合缺失比例条件。当缺失比例符合缺失比例条件时,选取该缺失比例相对应的样本变量。对选取的样本变量进行其均值填充,填充后的样本变量组成新样本集。其次,从新样本集中抽取样本变量作为新样本子集,计算子集中各个样本变量与目标变量的相关系数,以及在其他样本变量条件下,所述各个样本变量与所述目标变量的偏相关系数,如表2所示,表2中X1和X2取值表示在子集中的列编号。说明书CN102063457ACN102063467A8/16页110110表2相关系数和偏相关系数0111说明书CN102063457ACN102063。

37、467A9/16页120112说明书CN102063457ACN102063467A10/16页1301130114从表2中选取相关系数和偏相关系数符号相反,且相关系数和偏相关系数的差值最大的样本变量X1,并依据X1选取与其相对应的X2,将X2作为分割变量,如表3所示,本实施例中分割变量为第10列的样本变量A9_O,该A9_O表示,用户在一个星期的第几天进行资料填写及询价,取值为18,其中17代表周一至周日,8代表节假日美国。0115表3相关系数和偏相关系数相反的组合01160117选取出A9_O之后,将原始样本集中的样本变量根据目标变量的取值0和1,按照11的比例分层抽样,得到训练集和测试集。

38、,再根据A9_O将训练集和测试集分割为训练子集和测试子集,对训练子集分别建模以产生描述数据的模型。使用本发明的方法对汽车消费者海量信息数据库进行建模,模型参数如表4、表5、表6和表7所示。相对于表1所示的模型指标,基于本发明测试子集的模型指标如表8所示,表9是相对于表1普通建模模型的测试子集的模型指标。0118表4A9_O1,2,3,4,5的训练样本的模型参数0119变量名系数估计值估计方差Z值P值截距3740820567706589442E11A1_O0098310100170981032637A2_O0069680044181577011475说明书CN102063457ACN102063。

39、467A11/16页14A3_O0300780062444817146E06A4_O0551640079296957346E12A5_O0035960033911061028884A6_O0189710029846358205E10A7_O0082290025023289000101A8_O0079480024173288000101A9_O0089630027243290000100A10_O0050170115540434066413A11_O0046600020622260002382A12_O0032370026081241021443A13_O00637600224128450004。

40、43A14_O0018590035470524060030A15_O0059700013374467795E0601200121表5A9_O6的训练样本的模型参数0122变量名系数估计值估计方差Z值P值截距352878006202325689127E08A1_O0206372012228016880091468A2_O0023088004967504650642084A3_O032603000710594588447E06A4_O0292864008911232860001015说明书CN102063457ACN102063467A12/16页15A5_O0190853004145946034。

41、16E06A6_O0110843005650519620049804A7_O0017115002421707070479738A8_O0025628003256307870431280A10_O0042441012567203380735581A11_O0023507002398309800327006A12_O0050970002806618160069357A13_O0000916002530800360971128A14_O0069009003529119550050530A15_O00485120014735329200009940123表6A9_O7的训练样本的模型参数0124变量名。

42、系数估计值估计方差Z值P值截距535626044631120012E16A1_O00897500901209960319303A2_O01197000346534540000552A3_O01047900452423160020545A4_O02151100645333340000857A5_O00570900191429840002849A6_O00981800285734370000589A7_O00267500141918850059387A8_O00755200397718990057557说明书CN102063457ACN102063467A13/16页16A10_O02253100。

43、918524530014169A11_O00618200163837750000160A12_O00607600196630900002000A13_O00144600173508330404639A14_O00920100245937410000183A15_O0043920010194311163E050125表7A9_O8的训练样本的模型参数0126变量名系数估计值估计方差Z值P值截距4153193045135092022E16A1_O0150153008425317820074723A2_O015046100356524220244E05A3_O01960520045571430216。

44、9E05A4_O0181489006173229400003282A5_O0078067002294134030000667A6_O0025024002224911250260705A7_O0037638001838120480040593A8_O0006805003181002140830604A10_O0008445008765500960923244A11_O0016991001571010820279442A12_O0005377001825302950768313A13_O0044740001655627020006886说明书CN102063457ACN102063467A14/1。

45、6页17A14_O0060623002389525370011177A15_O00312050009577325800011210127表8本发明的模型指标01280129表9普通模型的模型指标01300131从结果可以看出,相对于普通模型,本发明模型的模型指标提高。表10是模型关键评价指标比较,模型关键评价指标为MP值,MP值与CR值相同,从表10可以看出,本发明模型的MP值相对于普通建模得到的MP值提高1010是通过计算两者差值的百分比得出的,高出预设提高值,达到最佳预测效果。0132表10关键评价指标比较01330134综上,本发明在选取关键变量之前首先根据分割变量对原始样本集进行分割,。

46、有说明书CN102063457ACN102063467A15/16页18效地消除关键变量的局部差异性,提高建模的准确度,提高样本分类的准确度,进而预测精度提高。0135实施例四0136本发明还提供一种数据分类系统,该系统的结构示意图如图5所示,包括系数计算模块10、分割变量选取模块11、样本分割分层模块12、建模模块13和分类模块14。其中0137系数计算模块10,用于计算各个样本变量与预设的目标变量的相关系数,以及在其他样本变量条件下,所述各个样本变量与所述目标变量的偏相关系数;0138分割变量选取模块11,用于选取相关系数和偏相关系数符号相反,且相关系数最大的样本变量X1,并依据样本变量X。

47、1选取与其相对应的样本变量X2,将样本变量X2作为分割变量;0139样本分割分层模块12,用于依据所述分割变量和所述目标变量,对原始样本集分割分层,得到训练子集和测试子集;0140建模模块13,用于选取所述训练子集中的关键变量,计算回归系数,根据所述关键变量和回归系数运用回归模型,对训练子集逐个建模以产生描述数据的模型;0141分类模块14,用于将所述测试子集中的样本变量代入所述模型,计算样本的概率值,根据所述概率值对样本进行分类。0142本发明提供的数据分类系统还包括样本变量选取模块15,与样本变量选取模块15相连的样本变量填充模块16,与样本变量填充模块16相连的新样本组成模块17,与新样。

48、本组成模块17相连的样本总个数获取模块18和与样本总个数获取模块18相连的样本变量抽取模块19,如图6所示。其中0143样本变量选取模块15,用于计算原始样本集中各个样本变量的缺失比例,根据缺失比例选取符合缺失比例条件的样本变量;0144样本变量填充模块16,用于分别计算所述选取的符合缺失比例条件的样本变量的各自均值,对所述选取的符合缺失比例条件样本变量进行均值填充;0145新样本组成模块17,用于将填充后的样本变量组成新样本集;0146样本总个数获取模块18,用于获取新样本集中的样本总个数;0147样本抽取模块19,用于当总个数超过预设的样本总个数时,从新样本集中抽取预设的样本总个数的样本。。

49、0148本发明实施例提供的数据分类系统还需要对模型的预测效果进行判断,因此,该数据分类系统还包括模型预测效果判定模块20,如图6所示。模型预测效果判定模块20,用于判断所述模型是否达到最佳预测效果,当所述模型未达到最佳预测效果,则返回执行分割变量选取模块11中的步骤。需要指出的是执行分割变量选取模块11中的步骤时,需要改变对X2的离散化的算法,或者选取满足相关系数与偏相关系数相反的条件的其他样本变量。0149模型预测效果判定模块20的结构示意图如图7所示,包括概率值获取单元201、概率值排序单元202、转换率值计算单元203、转换率值比较单元204和比较结果判断单元205。其中0150概率值获取单元201,用于从所述概率值中获取目标变量取值为1的概率值;说明书CN102063457ACN102063467A16/16页190151概率值排序单元202,用于将概率值获取单元201选取的概率值合并,按照数值的大小,从大到小排序;0152转换率值计算单元203,用于按照概率值的排序将测试集排序,选取排序后样本个数在预定数值范围的样本,计算该样本的转换。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1