数据挖掘及分类方法.pdf

上传人:1520****312 文档编号:1637314 上传时间:2018-06-30 格式:PDF 页数:7 大小:535.31KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310655793.6

申请日:

2013.12.09

公开号:

CN104699702A

公开日:

2015.06.10

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20131209|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

中国银联股份有限公司

发明人:

杨鸿超; 王骏; 刘为怀; 岳钢

地址:

200135上海市浦东新区含笑路36号银联大厦

优先权:

专利代理机构:

中国专利代理(香港)有限公司72001

代理人:

方世栋; 汤春龙

PDF下载: PDF下载
内容摘要

本发明提出了数据挖掘及分类方法,所述方法包括:基于预定规则从目标数据集中收集目标对象的至少一个属性数据的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量;针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。本发明所公开的数据挖掘及分类方法能够根据目标对象的多个属性数据的值来挖掘和分类目标对象。

权利要求书

权利要求书
1.  一种数据挖掘及分类方法,所述数据挖掘及分类方法包括下列步骤:
(A1)基于预定规则从目标数据集中收集目标对象的至少一个属性数据的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量;
(A2)针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。

2.  根据权利要求1所述的数据挖掘及分类方法,其特征在于,所述基于聚类处理的分类操作进一步包括:(B1)规范化初始的属性向量,以消除属性向量中的不同属性的取值差异所引入的数据偏移。

3.  根据权利要求2所述的数据挖掘及分类方法,其特征在于,所述步骤(B1)进一步包括:使用z-score规范化过程对初始的属性向量进行规范化,其包括:针对属性向量中的任一属性值A,使得规范化后的值Anew是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值。

4.  根据权利要求3所述的数据挖掘及分类方法,其特征在于,所述基于聚类处理的分类操作进一步包括:(B2)针对规范化后的属性向量进行2-类聚类处理,其包括:(C1)确定两个类别的“种子”向量以将其作为聚类中心;(C2)利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。

5.  根据权利要求4所述的数据挖掘及分类方法,其特征在于,所述步骤(C1)进一步包括:将所有已知的第一类目标对象所对应的属性向量在向量空间中的几何中心作为第一聚类中心,并且将所有已知的第二类目标对象所对应的属性向量在向量空间中的几何中心作为第二聚类中心。

6.  根据权利要求5所述的数据挖掘及分类方法,其特征在于,所述基于聚类处理的分类操作进一步包括:(B3)从被聚类到第一聚类中心的属性向量群中挑选出其所对应的目标对象原本属于第二类目标对象的属性向量,以构成第一部分的潜在对应于第一类目标对象的属性向量。

7.  根据权利要求6所述的数据挖掘及分类方法,其特征在于,所述基于聚类处理的分类操作进一步包括:(B4)对被聚类到第二聚类中心的属性向量进行离群点分析,所述离群点分析包括:(1)将距所述第二聚类中心的距离大于预定的离群距离阈值的属性向量确定为离群点;(2)以如下方式筛选所确定的离群点:将位于以第一聚类中心和第二聚类中心之间的距离为直径并且所述第一聚类中心和第二聚类中心在其表面上的向量空间内的离群点构成第二部分的潜在对应于第一类目标对象的属性向量。

8.  根据权利要求7所述的数据挖掘及分类方法,其特征在于,所述基于聚类处理的分类操作进一步包括:(B5)合并所述第一部分的潜在对应于第一类目标对象的属性向量和所述第二部分的潜在对应于第一类目标对象的属性向量以获得分类结果。

9.  根据权利要求8所述的数据挖掘及分类方法,其特征在于,所述数据挖掘及分类方法以分布式计算的方式被实现。

说明书

说明书数据挖掘及分类方法
技术领域
本发明涉及数据挖掘及分类方法,更具体地,涉及基于聚类技术的数据挖掘及分类方法。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,对特定的对象进行有效的分类以便针对不同类别的对象实施不同的处理方案。
在现有的技术方案中,通常根据与目标对象相关联的单一属性数据来对目标对象进行分类,即基于每个目标对象的某个特定的属性数据的值对目标对象进行分类。
然而,现有的技术方案存在如下问题:由于仅仅基于单一属性数据对目标对象进行分类,故分类结果的精确度较低。
因此,存在如下需求:提供能够根据目标对象的多个属性数据的值来挖掘和分类目标对象的基于聚类技术的数据挖掘及分类方法。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了能够根据目标对象的多个属性数据的值来挖掘和分类目标对象的基于聚类技术的数据挖掘及分类方法。
本发明的目的是通过以下技术方案实现的:
一种数据挖掘及分类方法,所述数据挖掘及分类方法包括下列步骤:
(A1)基于预定规则从目标数据集中收集目标对象的至少一个属性数据的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量;
(A2)针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。
在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B1)规范化初始的属性向量,以消除属性向量中的不同属性的取值差异所引入的数据偏移。
在上面所公开的方案中,优选地,所述步骤(B1)进一步包括:使用z-score规范化过程对初始的属性向量进行规范化,其包括:针对属性向量中的任一属性值A,使得规范化后的值Anew是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值。
在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B2)针对规范化后的属性向量进行2-类聚类处理,其包括:(C1)确定两个类别的“种子”向量以将其作为聚类中心;(C2)利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。
在上面所公开的方案中,优选地,所述步骤(C1)进一步包括:将所有已知的第一类目标对象所对应的属性向量在向量空间中的几何中心作为第一聚类中心,并且将所有已知的第二类目标对象所对应的属性向量在向量空间中的几何中心作为第二聚类中心。
在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B3)从被聚类到第一聚类中心的属性向量群中挑选出其所对应的目标对象原本属于第二类目标对象的属性向量,以构成第一部分的潜在对应于第一类目标对象的属性向量。
在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B4)对被聚类到第二聚类中心的属性向量进行离群点分析,所述离群点分析包括:(1)将距所述第二聚类中心的距离大于预定的离群距离阈值的属性向量确定为离群点;(2)以如下方式筛选所确定的离群点:将位于以第一聚类中心和第二聚类中心之间的距离为直径并且所述第一聚类中心和第二聚类中心在其表面上的向量空间内的离群点构成第二部分的潜在对应于第一类目标对象的属性向量。
在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B5)合并所述第一部分的潜在对应于第一类目标对象的属性向量和所述第二部分的潜在对应于第一类目标对象的属性向量以获得分类结果。
在上面所公开的方案中,优选地,所述数据挖掘及分类方法以分布式计算的方式被实现。
本发明所公开的基于聚类技术的数据挖掘及分类方法具有以下优点:能够根据目标对象的多个属性数据的值来挖掘和分类目标对象并且具有良好地可扩展性,从而显著的提高了分类准确性。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的数据挖掘及分类方法的流程图。
图2是根据本发明的实施例的数据挖掘及分类方法中的离群点分析及筛选基本原理的示意图。
具体实施方式
图1是根据本发明的实施例的数据挖掘及分类方法的流程图。如图1所示,本发明所公开的数据挖掘及分类方法包括下列步骤:(A1)基于预定规则从目标数据集(例如金融领域中的交易记录集合)中收集目标对象(例如金融卡用户)的至少一个属性数据(例如消费金额、消费次数、消费场景等等)的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量(例如,属性向量的每一位代表可以描述金融卡消费行为的不同含义,如金融卡的消费金额、消费次数、消费时间等等,并且属性向量的位数可以任意定制和扩展,即可以采用任意多的指标来描述金融卡的消费行为);(A2)针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。
优选地,在本发明所公开的数据挖掘及分类方法中,所述属性向量的位数能够根据实际需求而被任意扩展。
优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B1)规范化初始的属性向量,以消除属性向量中的不同属性的取值差异所引入的数据偏移(这也可以提高后续处理步骤的迭代速率)。
优选地,在本发明所公开的数据挖掘及分类方法中,所述步骤(B1)进一步包括:使用z-score规范化过程对初始的属性向量进行规范化,其包括:针对属性向量中的任一属性值A,使得规范化后的值Anew是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值(其中,所述均值和所述标准差是针对所有属性向量中对应该属性值的位的值而言的)。
优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B2)针对规范化后的属性向量进行2-类聚类处理,其包括:(C1)确定两个类别的“种子”向量以将其作为聚类中心;(C2)利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。
优选地,在本发明所公开的数据挖掘及分类方法中,所述步骤(C1)进一步包括:将所有已知的第一类目标对象(例如金融领域中的高端持卡人,诸如白金卡持卡人)所对应的属性向量在向量空间中的几何中心作为第一聚类中心,并且将所有已知的第二类目标对象(例如金融领域中的非高端持卡人,诸如普通卡持卡人)所对应的属性向量在向量空间中的几何中心作为第二聚类中心。
优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B3)从被聚类到第一聚类中心的属性向量群中挑选出其所对应的目标对象原本属于第二类目标对象的属性向量,以构成第一部分的潜在对应于第一类目标对象的属性向量(例如对应于潜在的高端持卡人的属性向量,其原本属于普通卡持卡人)。
优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B4)对被聚类到第二聚类中心的属性向量进行离群点分析,所述离群点分析包括:(1)将距所述第二聚类中心的距离大于预定的离群距离阈值的属性向量确定为离群点;(2)以如下方式筛选所确定的离群点:将位于以第一聚类中心和第二聚类中心之间的距离为直径并且所述第一聚类中心和第二聚类中心在其表面上的向量空间内的离群点构成第二部分的潜在对应于第一类目标对象的属性向量(例如对应于潜在的高端持卡人的属性向量,其原本属于普通卡持卡人)。
图2是根据本发明的实施例的数据挖掘及分类方法中的离群点分析及筛选基本原理的示意图。如图2所示,A和B分别为第二聚类中心和第一聚类中心,以A为中心的虚线圆外的属性向量点为离群点,并且将位于以AB为直径的圆内的离群点划归为第二部分的潜在对应于第一类目标对象的属性向量(例如对应于潜在的高端持卡人的属性向量,其原本属于普通卡持卡人)。该示意图是基于二维空间的,但是其基本原理可以扩展到任意维度的高维空间。
优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B5)合并所述第一部分的潜在对应于第一类目标对象的属性向量和所述第二部分的潜在对应于第一类目标对象的属性向量以获得分类结果(即所有潜在对应于第一类目标对象的属性向量,例如所有对应于潜在的高端持卡人的属性向量)。
优选地,本发明所公开的数据挖掘及分类方法以分布式计算的方式被实现。例如,由于在各个步骤中输入的均为向量数据,并且不涉及向量与向量之间的运算,因此可以将这些向量数据分配给不同的计算节点进行计算处理,每个计算节点处理一部分向量,在处理完成之后,可以根据具体的键值(例如金融卡的卡号)将计算结果进行归类以便进行进一步的处理,并最后合并处理结果以得到最终的计算结果。
由上可见,本发明所公开的数据挖掘及分类方法具有下列优点:能够根据目标对象的多个属性数据的值来挖掘和分类目标对象并且具有良好地可扩展性,从而显著的提高了分类准确性。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。

数据挖掘及分类方法.pdf_第1页
第1页 / 共7页
数据挖掘及分类方法.pdf_第2页
第2页 / 共7页
数据挖掘及分类方法.pdf_第3页
第3页 / 共7页
点击查看更多>>
资源描述

《数据挖掘及分类方法.pdf》由会员分享,可在线阅读,更多相关《数据挖掘及分类方法.pdf(7页珍藏版)》请在专利查询网上搜索。

本发明提出了数据挖掘及分类方法,所述方法包括:基于预定规则从目标数据集中收集目标对象的至少一个属性数据的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量;针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。本发明所公开的数据挖掘及分类方法能够根据目标对象的多个属性数据的值来挖掘和分类目标对。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1