一种数据分类方法及系统 【技术领域】
本发明涉及数据挖掘技术领域, 尤其涉及一种数据分类方法及系统。背景技术 分类系统是数据挖掘的主要系统之一, 其通常是从原始样本集中提取关键变量, 通过现有的标准软件例如 : SAS(Statistical Analysis Software, 统计分析软件 ) 和仿真 软件 MATLAB, 计算回归系数, 根据关键变量和回归系数运用 Logistic 回归模型建模, 用户 根据建模得到的模型预测数据的未来发展趋势, 以根据该趋势作出正确的操作。
由于从整个原始样本集中提取关键变量与目标变量的相关性存在局部差异性, 该 局部差异性会使得总体建模时, 估计该关键变量的回归系数出现 “正负中和” 的现象, 导致 回归系数的估算不准确, 进而导致建模准确度低, 样本分类准确度降低。
发明内容 有鉴于此, 本发明的目的在于提供一种数据分类方法及系统, 以解决现有技术中 关键变量与目标变量的相关性存在的局部差异性导致的导致回归系数的估算不准确, 进而 导致建模准确度低, 样本分类准确度降低的问题。
本发明提供一种数据分类方法, 包括 :
计算各个样本变量与预设的目标变量的相关系数, 以及在其他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数 ;
选取相关系数和偏相关系数符号相反, 且相关系数最大的样本变量 X1, 并依据样 本变量 X1 选取与其相对应的样本变量 X2, 将样本变量 X2 作为分割变量 ;
依据所述分割变量和所述目标变量, 对原始样本集分割分层, 得到训练子集和测 试子集 ;
选取所述训练子集中的关键变量, 计算回归系数, 根据所述关键变量和回归系数 运用回归模型, 对训练子集逐个建模以产生描述数据的模型 ;
将所述测试子集中的样本变量代入所述模型, 计算样本的概率值, 根据所述概率 值对样本进行分类。
本发明还提供一种数据分类系统, 包括 :
系数计算模块, 用于计算各个样本变量与预设的目标变量的相关系数, 以及在其 他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数 ;
与系数计算模块相连的分割变量选取模块, 用于选取相关系数和偏相关系数符号 相反, 且相关系数最大的样本变量 X1, 并依据样本变量 X1 选取与其相对应的样本变量 X2, 将 样本变量 X2 作为分割变量 ;
与分割变量选取模块相连的样本分割分层模块, 用于依据所述分割变量和所述目 标变量, 对原始样本集分割分层, 得到训练子集和测试子集 ;
与样本分割分层模块相连的建模模块, 用于选取所述训练子集中的关键变量, 计
算回归系数, 根据所述关键变量和回归系数运用回归模型, 对训练子集逐个建模以产生描 述数据的模型 ;
与样本分割分层模块和建模模块相连的分类模块, 用于将所述测试子集中的样本 变量代入所述模型, 计算样本的概率值, 根据所述概率值对样本进行分类。
应用上述技术方案, 通过计算各个样本变量与预设的目标变量的相关系数, 以及 在其他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数, 选取相关系数 和偏相关系数符号相反, 且相关系数最大的样本变量 X1, 并依据样本变量 X1 选取与其相对 应的样本变量 X2, 将样本变量 X2 作为分割变量, 根据分割变量分割原始样本集, 对所得到的 训练子集建模。由于在选取关键变量之前首先根据分割变量对原始样本集进行分割, 有效 地消除关键变量的局部差异性, 提高建模的准确度, 进而样本分类准确度提高。 附图说明
为了更清楚地说明本发明实施例, 下面将对实施例中所需要使用的附图做简单的 介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例, 对于本领域普通技术人 员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图 1 为本发明实施例提供的数据分类方法的流程图 ;
图 2 为本发明实施例提供的数据分类方法的第二种流程图 ;
图 3 为本发明实施例提供的数据分类方法的第三种流程图 ;
图 4 为图 3 所示分类方法中步骤 S312 的流程图 ;
图 5 为本发明实施例提供的数据分类系统的一种结构示意图 ;
图 6 为本发明实施例提供的数据分类系统的第二种结构示意图 ;
图 7 为图 6 所示分类系统中模型预测效果判定模块的结构示意图 ;
图 8 为图 6 所示分类系统中样本分割分层模块的结构示意图。 具体实施方式
下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部实施例。基于本 发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下, 所获得的所有其他 实施例, 都属于本发明保护范围。
需要首先明确的是 :
1 个样本 : 是 1*n 维矩阵 ;
样本集 : 是 m*n 维矩阵, 即该样本集包括 m 个样本 ;
样本变量 : 是样本中的元素, 每个样本包括 n 个样本变量。
分类系统是数据挖掘的主要系统之一, 该系统中建模模块的准确度直接影响预测 精度的准确度。现有的建模方法中关键变量的选取是直接从整个原始样本集中选取的, 由 于关键变量存在局部差异性, 该局部差异性导致回归系数出现 “正负中和” 的现象, 导致建 模准确度低, 进而样本分类准确度降低。 为了解决上述问题, 本发明实施例提供一种数据分 类方法, 该方法在建模选取关键变量之前根据分割变量分割原始样本集, 得到训练子集和 测试子集, 有效地消除关键变量的局部差异性, 提高建模的准确度, 进而样本分类准确度提高。 实施例一 :
本发明实施例提供的数据分类方法的流程图如图 1 所示, 包括 :
S101 : 计算各个样本变量与预设的目标变量的相关系数, 以及在其他样本变量条 件下, 所述各个样本变量与所述目标变量的偏相关系数 ;
相关系数的计算公式为 :
其中 : Y 为预设的目标变量, X1 为样本变量, N 为计算相关系数的样本变量的条数, 偏相关系数的计算公式为 :和 分别为 X1 和 Y 的均值。
其中 : X2 为样本集中的样本变量, 上述偏相关系数是 X1 在 X2 为条件的前提下, X1 和 Y 的偏相关系数。
S102 : 选取相关系数和偏相关系数符号相反, 且相关系数最大的样本变量 X1, 并依 据样本变量 X1 选取与其相对应的样本变量 X2, 将样本变量 X2 作为分割变量 ;
样本变量为一个 n 维向量, 当 X2 的取值个数少时, 直接选取 X2 作为分割变量, 否则 需要对 X2 进行离散化处理, 根据 SAS 等软件中的变量离散化的聚类算法对 X2 进行离散化, 得到 X2 的离散化变量 X2′。选取 X2′作为分割变量。
S103 : 根据所述分割变量和所述目标变量分割分层原始样本集, 得到训练子集和 测试子集 ;
S103 可以包括以下子步骤 :
S1031 : 根据所述目标变量, 按照 1 ∶ 1 的比例对原始样本集分层抽样, 得到训练集 和测试集 ;
其中 : 分层抽样是根据目标变量的取值, 按照 1 ∶ 1 的比例对原始样本集分层抽 样。下面举例说明根据目标变量, 按照 1 ∶ 1 比例分层抽样, 例如 : 目标变量取值为 0, 1, 原始样本集中与目标变量的取值为 0 时相对应的所有样本变量随机分成两等份, 设为 (A1, A2), 同样, 与目标变量的取值为 1 时相对应的所有样本变量也随机分成两等份, 设为 (B1, B2), A1 和 B1 合并为训练集, A2 和 B2 合并为测试集, 以保证训练集和测试集中目标变量取 值为 0 和 1 时与之相对应的变量个数的比例与原始样本集中该比例相同。
S1032 : 根据分割变量分别分割所述训练集和所述测试集得到训练子集和测试子 集。
分割样本集时, 需要注意的是 : 分割得到的训练子集和测试子集的个数不能太多, 以防止过度拟合。训练子集和测试子集中的个数是根据分割变量的取值个数确定的。
样本集分割的方式 : 根据分割变量的取值对训练集和测试集分割, 需要注意的是 : 训练集和测试集根据同一个分割变量的取值时, 训练集和测试集的分割方式要相同, 以保
证后续过程中测试子集对训练子集建立的模型的检测有效。
分割得到的训练子集和测试子集的个数与分割变量的取值个数是相同的, 即: 当 分割变量的取值只有两个数值时, 训练子集和测试子集的个数均为 2 个, 当分割变量的取 值为多个数值时, 训练子集和测试子集的个数均为多个。每个训练子集都有与之相对应的 测试子集, 即训练子集和测试子集是一一对应的, 该对应关系是根据训练子集和测试子集 中分割变量的取值确定的。比如 : 某个训练子集中分割变量的取值为 3, 那么相应的, 测试 子集中有一个测试子集, 其分割变量的取值也是 3。
当然, 步骤 S103 还可以采用先根据分割变量分割原始样本集得到多个样本集 ; 再 根据目标变量, 按照 1 ∶ 1 的比例分别对样本集分层得到训练子集和测试子集。采用该方 法得到的训练子集和测试子集与采用上述方法得到的训练子集和测试子集是相同的, 不同 之处在于 : 该方法的运算时间多于上述方法的运算时间, 且分割变量取值的个数越多, 该方 法运算时间增加的越多, 因此, 本实施例优选 : 先分层后分割的方法。
S104 : 选取所述训练子集中的关键变量, 计算回归系数, 根据所述关键变量和回归 系数运用回归模型, 对训练子集逐个建模以产生描述数据的模型 ; 其中 :
由于分割变量的取值为多个时, 得到的训练子集为多个, 因此在建模时是对所有 的训练子集分别建模, 得到的描述数据的模型个数与训练子集的个数相同。 建模之前采用分割变量分割样本集是因为在分割变量为条件的前提, 建模需要的 某个关键变量与目标变量的相关系数与不以该分割变量为条件的前提其相关系数是相反 的, 称其为局部差异性, 因此, 若对整个样本集建模, 局部差异性不能体现在回归系数计算 中, 甚至导致回归系数出现 “正负中和” 的现象, 进而导致样本分类准确度降低。 所以为了防 止局部差异性被忽略, 在建模之前需要采用分割变量分割样本集, 以提高样本分类准确度。
实际的数据分类中能够选取的关键变量非常多, 为了在拟合优度和关键变量的个 数之间达到最优平衡, 本发明使用向前向后的逐步回归法来确定关键变量的选取。设从训 练子集中选取的关键变量为 X1、 X2、 ......、 Xm, 其中 m 为关键变量的个数, Y 为目标变量, 服 从二项分布即 Y = {0, 1}, P(Y = 1) 表示 Y = 1 时的概率, P(Y = 0) 表示 Y = 0 时的概率, 并且 P(Y = 1)+P(Y = 0) = 1。则建模的模型方程如下 :
X = (1 X1… Xm) β = (β0 β1… βm) 其中, β0, β1, ......, βm 为回归系数, 可通过现有的标准软件计算, 如: SAS 和MATLAB。 模 型 选 择 和 关 键 变 量 选 取 方 面, 采 用 的 判 断 标 注 为 AIC(AkaikeInformation Criterion, 赤池信息准则 ), 即所选取的关键变量和回归系数都必须满足使得 AIC 最小。
AIC = -2logL+2(m+1)
其中, m 为模型中回归系数的个数。选取 AIC 而不采用传统的 Wald 检验模型和关 键变量的选择, 是基于 AIC 判断更加快速, 需要的计算量少, 且兼顾了使似然函数尽量大和 使回归系数尽量小, 即用尽量少的回归系数拟合出更优的模型, 避免过度拟合现象的出现。
S105 : 将所述测试子集中的样本变量代入所述模型, 计算样本的概率值, 根据所述 概率值对样本进行分类。
测试子集和训练子集是一一对应的, 因此测试子集的各个样本变量需要代入与该 测试子集相对应的训练子集建模得到的模型。
将测试子集的每个样本中的样本变量代入与测试子集所对应的训练子集建立的 模型中, 获取样本的概率值, 将所有测试子集的概率值合并且排序后, 将样本按照预设的分 类百分比进行分类。
应用上述技术方案, 通过计算各个样本变量与预设的目标变量的相关系数, 以及 在其他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数, 选取相关系数 和偏相关系数符号相反, 且相关系数最大的样本变量 X1, 并依据样本变量 X1 选取与其相对 应的样本变量 X2, 将样本变量 X2 作为分割变量, 根据分割变量分割原始样本集, 对所得到的 训练子集建模。由于在选取关键变量之前首先根据分割变量对原始样本集进行分割, 有效 地消除关键变量的局部差异性, 提高建模的准确度, 进而样本分类准确度提高。 实施例二 :
参见图 2, 示出了本发明的一种数据分类方法实施例二的流程图, 在选取分割变量 之前需要对原始样本集中的样本变量进行抽取和填充。本实施例二包括以下步骤 :
S201 : 计算原始样本集中各个样本变量的缺失比例, 根据缺失比例选取符合缺失 比例条件的样本变量 ;
S202 : 分别计算所述选取的符合缺失比例条件的样本变量的各自均值, 对所述选 取的符合缺失比例条件样本变量进行均值填充 ;
缺失比例条件为变量的缺失比例不大于 30%, 当然该缺失比例条件不是固定的, 根据样本变量的缺失具体情况确定。下面以缺失比例条件为变量的缺失比例不大于 30%, 介绍是如何选取符合缺失比例条件的样本变量以及进行均值填充的。例如 : 样本总数为 4, 样本变量 A 的取值为 : {, 1, , }, 样本变量 B 的取值为 {1, 3, , }, 样本变量 C 的取值为 {1, 2, 3, }, 样本变量 D 的取值为 {1, 2, 4, 1}, 其中空缺的位置即为变量的缺失。样本变量的缺失 比例等于其缺失个数与样本总数的百分比, 以 A 为例, A 的缺失比例为 : 3/4*100%= 75%, A 的缺失比例大于 30%, 因此, 不选取 A。同样, 分别计算 B、 C 和 D 的缺失比例可知, 不选取 B, 只选取 C 和 D。
计算 C 的均值, C 的均值为 : 1+2+3/3 = 2, 根据均值对 C 填充, 填充后的 C 为 : {1, 2, 3, 2}。由于 D 的缺失比例为 0, 因此, 不需要对 D 进行均值填充。
S203 : 填充后的样本变量组成新样本集 ;
S204 : 获取新样本集中样本变量的样本总个数 ;
S205 : 新样本集的样本总个数是否超过预设的样本总个数, 是执行 S206, 否则执 行 S207 ;
预设的样本总个数为 : 样本总个数为 2 万至 3 万。
S206 : 从新样本集中抽取预设的样本总个数的样本, 执行 S207 ;
S207-S211 : 与实施例一中的步骤 S101-S105 相同。
应用上述方案, 直接从原始样本集抽取的样本变量时, 可能抽取的样本变量的缺 失比例很大, 即其缺失比例不符合缺失比例条件, 则导致有效信息过少, 导致分割变量选取 的准确度降低, 因此, 在分割变量选取之前, 首先选取缺失比例符合缺失比例条件的样本变 量, 再对选取的符合缺失比例条件样本变量进行均值填充, 有效增加可分析样本的总数, 提 高分割变量选取的准确度。
实施例三
对训练子集逐个建模产生描述数据的模型之后, 还需要对模型的预测效果进行判 断, 判断模型是否达到最佳预测效果, 因此, 在对测试子集中的样本变量分类之后还包括 : 对模型的预测效果的判断过程, 如图 3 所示, 包括 :
S301 至 S311 : 与实施例二中的步骤 S201-S211 相同 ;
S312 : 判断所述模型是否达到最佳预测效果, 如果是, 执行 S313, 否则, 执行 S314 ;
具体地, 本步骤包括以下步骤, 如图 4 所示 :
S3121 : 从步骤 S311 中所计算出的概率值中获取目标变量取值为 1 的概率值 ;
S3122 : 将该概率值合并, 按照数值的大小, 从大到小排序 ;
例如 : 测试子集 1 的概率值为 p1 = {10%, 39%, 27%, 50% }, 测试子集 2 的概率值 为 p2 = {8%, 20%, 71%, 43% }, 则先合并为 p = {10%, 39%, 27%, 50%, 8%, 20%, 71%, 43% }, 排序后为, p 变为 : p = {71%, 50%, 43%, 39%, 27%, 20%, 10%, 8% }。
S3123 : 按照 S31323 中概率值的排序将测试集排序, 选取排序后样本个数在预定 数值范围的样本, 计算该样本的 MP( 转换率 ) 值 ; 具体为 :
按照 S1051 排序后的概率值, 将各个测试子集中与概率值相对应的样本按照概率 值的排序进行排序合并, 以组成一个样本集, 再将该样本集等分为多个样本集, 从多个样本 集中选取一个样本集, 该样本集的概率值高于其他样本集。例如, 将样本集等分为 10 份, 按 照概率值的从大到小, 将等分后的样本集编号为 : 1 至 10, 若 S105 中指出的预定数值范围 为 10%, 则选取编号为 1 的样本集, 即概率值高于其他样本集的样本集, 计算该样本集的 MP 值。
样 本 集 等 分 后, 计 算 各 个 等 分 样 本 集 的 模 型 指 标, 即: CT 值 (Cumulative of Total, 样本比例 ), SR 值 (Success Rate, 区间转化率 )、 CR 值 (Cumulative Rate, 累积转 化率 )、 CTS 值 (Cumulative of TotalSuccess, 转化样本占总转化样本的累积比率 )、 LI 值 (Life Index、 上升指数 ) 和 MP 值。MP 值等于 CR 值。
实际数据分类中, 将多个样本集依次编号, 编号最小值为 1, 对于编号为 i 的样本 集, 其 CT 值、 SR 值、 CR 值、 CTS 值和 LI 值的计算分别如下 :
其中 : 第 0 个 CTS 值记为 0。 S3124 : 比较所述 MP 值和普通建模方法得到的 MP 值 ; S3125 : 判断比较结果是否高出预设提高值, 如果是, 执行 S313, 否则, 执行 S314 ;其中 : 比较结果可以是 MP 值和普通建模方法得到的 MP 值之间的差值, 也可以是两者的 差值百分比。 例如 : MP 值为 11.23%, 普通建模方法得到的 MP 值为 10.11%, 若比较结果为差 值时, 计算两者的差, 即 11.23% -10.11%= 1.12%, 1.12%高出预设提高值 ( 预设提高值 为 1% )。而比较结果为差值百分比时, 计算式为 : ((11.23% -10.11% )/10.11% )*100% ≈ 11%。与普通建模方法得到的 MP 值相比, 本方法的 MP 值提高了 11%, 高出预设提高值 ( 预设提高值为 10% )。
S313 : 判断判定模型达到最佳预测效果 ;
S314 : 判定模型未达到最佳预测效果, 返回执行 S308。
返回执行 S308 时, 需要改变对 X2 的离散化的算法, 或者选取满足相关系数与偏相 关系数相反的条件的其他样本变量。
应用上述技术方案, 可以判断模型的预测效果是否达到最佳预测效果, 并且在位 达到预测效果时, 重新执行选取样本分割, 继续对数据进行分类。
以下通过一个具体例子对本发明进一步说明。
本实施例建模的目的是采用数据挖掘方法, 获取潜在汽车消费者分类模型, 以精 确定位高购买倾向的潜在汽车购买客户群, 为汽车行业的生产决策提供依据, 同时也可根 据每个客户的广告策略响应模型打分, 确定针对每个客户最有效的宣传方式, 选取最优的 广告策略, 为决策的指定提供指导性的数据准备。数据来源于某大型汽车金融公司提供的 汽车消费者海量信息数据库, 数据库包括二十多万条样本变量, 每条样本变量是一个多维 变量 {X1, X2, ..., Xm}, 其内的参数代表 : 用户在何时查看车型询问车价、 请求购买车型、 打算 购买时间与当前时间的时间间隔、 用户的电子邮件地址与其姓名的匹配程度以及其他用户 信息。 用户的购买状态为目标变量, 该目标变量为二维变量 {0, 1}, 其中 : 0 表示用户放弃购 买, 1 表示用户购买车辆。
数据分类方法中, 首先判断原始样本集中各个样本变量的缺失比例是否符合缺失 比例条件, 例如 : 当缺失比例不大于 30%时, 表示该样本变量的缺失比例符合缺失比例条 件。当缺失比例符合缺失比例条件时, 选取该缺失比例相对应的样本变量。对选取的样本 变量进行其均值填充, 填充后的样本变量组成新样本集。 其次, 从新样本集中抽取样本变量 作为新样本子集, 计算子集中各个样本变量与目标变量的相关系数, 以及在其他样本变量 条件下, 所述各个样本变量与所述目标变量的偏相关系数, 如表 2 所示, 表 2 中 X1 和 X2 取值 表示在子集中的列编号。
10102063457 A CN 102063467
说相关系数和偏相关系数明书8/16 页表2
从表 2 中选取相关系数和偏相关系数符号相反, 且相关系数和偏相关系数的差值 最大的样本变量 X1, 并依据 X1 选取与其相对应的 X2, 将 X2 作为分割变量, 如表 3 所示, 本实 施例中分割变量为第 10 列的样本变量 A9_o, 该 A9_o 表示, 用户在一个星期的第几天进行资 料填写及询价, 取值为 1-8, 其中 1-7 代表周一至周日, 8 代表节假日 ( 美国 )。
表 3 相关系数和偏相关系数相反的组合
选取出 A9_o 之后, 将原始样本集中的样本变量根据目标变量的取值 0 和 1, 按照 1 ∶ 1 的比例分层抽样, 得到训练集和测试集, 再根据 A9_o 将训练集和测试集分割为训练子 集和测试子集, 对训练子集分别建模以产生描述数据的模型。使用本发明的方法对汽车消 费者海量信息数据库进行建模, 模型参数如表 4、 表 5、 表 6 和表 7 所示。相对于表 1 所示的 模型指标, 基于本发明测试子集的模型指标如表 8 所示, 表 9 是相对于表 1 普通建模模型的 测试子集的模型指标。
表4A9_o = {1, 2, 3, 4, 5} 的训练样本的模型参数 系数估计值 -3.74082 -0.09831 0.06968 估计方差 0.56770 0.10017 0.04418 Z值 -6.589 -0.981 1.577 P值 4.42e-11 0.32637 0.11475变量名 截距 A1_o A2_o13102063457 A CN 102063467说0.30078 -0.55164 0.03596 -0.18971 0.08229 0.07948 0.08963 0.05017 0.04660 0.03237 -0.06376 0.01859 0.05970明书4.817 -6.957 1.061 -6.358 3.289 3.288 3.290 0.434 2.260 1.241 -2.845 0.524 4.467 1.46e-06 3.46e-12 0.28884 2.05e-10 0.00101 0.00101 0.00100 0.66413 0.02382 0.21443 0.00443 0.60030 7.95e-0611/16 页A3_o A4_o A5_o A6_o A7_o A8_o A9_o A10_o A11_o A12_o A13_o A14_o A15_o
0.06244 0.07929 0.03391 0.02984 0.02502 0.02417 0.02724 0.11554 0.02062 0.02608 0.02241 0.03547 0.01337表5A9_o = 6 的训练样本的模型参数 系数估计值 -3.528780 -0.206372 0.023088 0.326030 -0.292864 估计方差 0.620232 0.122280 0.049675 0.071059 0.089112 Z值 -5.689 -1.688 0.465 4.588 -3.286 P值 1.27e-08 0.091468 0.642084 4.47e-06 0.001015变量名 截距 A1_o A2_o A3_o A4_o14102063457 A CN 102063467说0.190853 -0.110843 -0.017115 0.025628 -0.042441 0.023507 -0.050970 -0.000916 0.069009 0.048512明书4.603 -1.962 -0.707 0.787 -0.338 0.980 -1.816 -0.036 1.955 3.292 4.16e-06 0.049804 0.479738 0.431280 0.735581 0.327006 0.069357 0.971128 0.050530 0.00099412/16 页A5_o A6_o A7_o A8_o A10_o A11_o A12_o A13_o A14_o A15_o
0.041459 0.056505 0.024217 0.032563 0.125672 0.023983 0.028066 0.025308 0.035291 0.014735表6A9_o = 7 的训练样本的模型参数 系数估计值 -5.35626 -0.08975 0.11970 0.10479 -0.21511 0.05709 0.09818 0.02675 0.07552 估计方差 0.44631 0.09012 0.03465 0.04524 0.06453 0.01914 0.02857 0.01419 0.03977 Z值 -12.001 -0.996 3.454 2.316 -3.334 2.984 3.437 1.885 1.899 P值 < 2e-16 0.319303 0.000552 0.020545 0.000857 0.002849 0.000589 0.059387 0.057557变量名 截距 A1_o A2_o A3_o A4_o A5_o A6_o A7_o A8_o15102063457 A CN 102063467说0.22531 0.06182 -0.06076 -0.01446 0.09201 0.04392明书2.453 3.775 -3.090 -0.833 3.741 4.311 0.014169 0.000160 0.002000 0.404639 0.000183 1.63e-0513/16 页A10_o A11_o A12_o A13_o A14_o A15_o
0.09185 0.01638 0.01966 0.01735 0.02459 0.01019表7A9_o = 8 的训练样本的模型参数 系数估计值 -4.153193 -0.150153 0.150461 0.196052 -0.181489 0.078067 0.025024 0.037638 -0.006805 -0.008445 0.016991 -0.005377 -0.044740 估计方差 0.451350 0.084253 0.035652 0.045571 0.061732 0.022941 0.022249 0.018381 0.031810 0.087655 0.015710 0.018253 0.016556 Z值 -9.202 -1.782 4.220 4.302 -2.940 3.403 1.125 2.048 -0.214 -0.096 1.082 -0.295 -2.702 P值 < 2e-16 0.074723 2.44e-05 1.69e-05 0.003282 0.000667 0.260705 0.040593 0.830604 0.923244 0.279442 0.768313 0.006886变量名 截距 A1_o A2_o A3_o A4_o A5_o A6_o A7_o A8_o A10_o A11_o A12_o A13_o16102063457 A CN 102063467说0.060623 0.031205明书2.537 3.258 0.011177 0.00112114/16 页A14_o A15_o
0.023895 0.009577表8本发明的模型指标
表9普通模型的模型指标从结果可以看出, 相对于普通模型, 本发明模型的模型指标提高。表 10 是模型关 键评价指标比较, 模型关键评价指标为 MP 值, MP 值与 CR 值相同, 从表 10 可以看出, 本发明 模型的 MP 值相对于普通建模得到的 MP 值提高 10% (10%是通过计算两者差值的百分比得 出的 ), 高出预设提高值, 达到最佳预测效果。
表 10 关键评价指标比较
综上, 本发明在选取关键变量之前首先根据分割变量对原始样本集进行分割, 有效地消除关键变量的局部差异性, 提高建模的准确度, 提高样本分类的准确度, 进而预测精 度提高。
实施例四
本发明还提供一种数据分类系统, 该系统的结构示意图如图 5 所示, 包括 : 系数计 算模块 10、 分割变量选取模块 11、 样本分割分层模块 12、 建模模块 13 和分类模块 14。其 中:
系数计算模块 10, 用于计算各个样本变量与预设的目标变量的相关系数, 以及在 其他样本变量条件下, 所述各个样本变量与所述目标变量的偏相关系数 ;
分割变量选取模块 11, 用于选取相关系数和偏相关系数符号相反, 且相关系数最 大的样本变量 X1, 并依据样本变量 X1 选取与其相对应的样本变量 X2, 将样本变量 X2 作为分 割变量 ;
样本分割分层模块 12, 用于依据所述分割变量和所述目标变量, 对原始样本集分 割分层, 得到训练子集和测试子集 ;
建模模块 13, 用于选取所述训练子集中的关键变量, 计算回归系数, 根据所述关键 变量和回归系数运用回归模型, 对训练子集逐个建模以产生描述数据的模型 ;
分类模块 14, 用于将所述测试子集中的样本变量代入所述模型, 计算样本的概率 值, 根据所述概率值对样本进行分类。
本发明提供的数据分类系统还包括 : 样本变量选取模块 15, 与样本变量选取模块 15 相连的样本变量填充模块 16, 与样本变量填充模块 16 相连的新样本组成模块 17, 与新样 本组成模块 17 相连的样本总个数获取模块 18 和与样本总个数获取模块 18 相连的样本变 量抽取模块 19, 如图 6 所示。其中 :
样本变量选取模块 15, 用于计算原始样本集中各个样本变量的缺失比例, 根据缺 失比例选取符合缺失比例条件的样本变量 ;
样本变量填充模块 16, 用于分别计算所述选取的符合缺失比例条件的样本变量的 各自均值, 对所述选取的符合缺失比例条件样本变量进行均值填充 ;
新样本组成模块 17, 用于将填充后的样本变量组成新样本集 ;
样本总个数获取模块 18, 用于获取新样本集中的样本总个数 ;
样本抽取模块 19, 用于当总个数超过预设的样本总个数时, 从新样本集中抽取预 设的样本总个数的样本。
本发明实施例提供的数据分类系统还需要对模型的预测效果进行判断, 因此, 该 数据分类系统还包括 : 模型预测效果判定模块 20, 如图 6 所示。模型预测效果判定模块 20, 用于判断所述模型是否达到最佳预测效果, 当所述模型未达到最佳预测效果, 则返回执行 分割变量选取模块 11 中的步骤。需要指出的是 : 执行分割变量选取模块 11 中的步骤时, 需 要改变对 X2 的离散化的算法, 或者选取满足相关系数与偏相关系数相反的条件的其他样本 变量。
模型预测效果判定模块 20 的结构示意图如图 7 所示, 包括 : 概率值获取单元 201、 概率值排序单元 202、 转换率值计算单元 203、 转换率值比较单元 204 和比较结果判断单元 205。其中 :
概率值获取单元 201, 用于从所述概率值中获取目标变量取值为 1 的概率值 ;概率值排序单元 202, 用于将概率值获取单元 201 选取的概率值合并, 按照数值的 大小, 从大到小排序 ;
转换率值计算单元 203, 用于按照概率值的排序将测试集排序, 选取排序后样本个 数在预定数值范围的样本, 计算该样本的转换率值 ;
转换率值比较单元 204, 用于比较所述转换率值和普通建模方法得到的转换率 值;
比较结果判断单元 205, 用于判断比较结果是否高出预设提高值, 以判断所述模型 是否达到最佳预测效果。 当比较结果高出预设提高值时, 判断所述模型达到最佳预测效果 ; 否则, 判断所述模型未达到最佳预测效果。
本发明实施例中样本分割分层模块 12 包括 : 样本分层单元 121 和样本分割单元 122, 如图 8 所示。其中 :
样本分层单元 121, 用于根据所述目标变量, 按照 1 ∶ 1 的比例对样本集分层抽样, 得到训练集和测试集 ;
样本分割单元 122, 用于根据所述分割变量分别分割所述训练集和所述测试集得 到训练子集和测试子集。
对所公开的实施例的上述说明, 使本领域专业技术人员能够实现或使用本发明。 对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的, 本文中所定义的 一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。 因此, 本发明 将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。