一种基于已知标签的大数据常态模式提取方法及系统.pdf

上传人:b*** 文档编号:628229 上传时间:2018-02-27 格式:PDF 页数:15 大小:1.36MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410355680.9

申请日:

2014.07.24

公开号:

CN104102730A

公开日:

2014.10.15

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140724|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

中国软件与技术服务股份有限公司

发明人:

王电; 陈庆彬; 黄煜可

地址:

100081 北京市海淀区学院南路55号(中软大厦)

优先权:

专利代理机构:

北京君尚知识产权代理事务所(普通合伙) 11200

代理人:

余长江

PDF下载: PDF下载
内容摘要

本发明公开了一种基于已知标签的大数据常态模式提取方法。本方法为:1)服务器从各终端采集的总样本数据集中抽取若干样本,得到一抽样样本集合,抽样样本集合中的样本已分类并按照类别标签进行标注;2)根据选取的属性降维指标计算抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性四项指标;3)根据计算结果对属性进行排序,选取若干属性作为大数据降维后保留的属性;4)根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的四项指标,然后选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式。本发明计算复杂度低,结果确定性高,增强了在实际应用中的可信度。

权利要求书

1.  一种基于已知标签的大数据常态模式提取方法,其步骤为:
1)中央服务器从各终端服务器采集的总样本数据集中抽取若干样本,得到一抽样样本集合,所述抽样样本集合中的样本已分类并按照类别标签进行标注;
2)根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;
3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;
4)根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。

2.
  如权利要求1所述的方法,其特征在于对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度。

3.
  如权利要求1所述的方法,其特征在于对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。

4.
  如权利要求1或2或3所述的方法,其特征在于根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。

5.
  如权利要求1或2或3所述的方法,其特征在于采用基于条件概率和贝叶斯算法计算所述辨识度。

6.
  如权利要求1或2或3所述的方法,其特征在于设定一分类精细度阈值N,如果步骤4)划分后的任一常态模式的样本数小于该分类精细度阈值N,则重新选取属性特征对该总样本数据进行划分。

7.
  一种基于已知标签的大数据常态模式提取系统,其特征在于包括多个终端服务器和一中央服务器,所述终端服务器通过网络与所述中央服务器连接;其中,所述中央服务器包括数据采集模块、数据降维模块和常态模式划分模块;
所述数据采集模块,用于从各终端服务器采集样本数据,得到一总样本数据集;所述样本数据为已分类并按照类别标签进行标注;
所述数据降维模块,用于从总样本数据集中抽取若干样本,得到一抽样样本集合,根据选取的属性降维指标计算该抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,以及根据计算结果对属性进行排序,选取属性特征;
所述常态模式划分模块,用于根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据进行划分,将划分结果作为常态模式;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。

8.
  如权利要求7所述的系统,其特征在于对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度;对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。

9.
  如权利要求7所述的系统,其特征在于根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称;所述中央服务器通过一常态模式发布器发布所述常态模式。

10.
  如权利要求7或8或9所述的系统,其特征在于所述常态模式划分模块中设定一分类精细度阈值N,如果划分后的任一常态模式的样本数小于该分类精细度阈值N,则所述数据降维模块重新选取属性特征发送给所述常态模式划分模块对该总样本数据进行划分。

说明书

一种基于已知标签的大数据常态模式提取方法及系统
技术领域
本发明涉及一种常态模式提取方法及系统,尤其涉及一种基于已知标签的大数据常态模式提取方法及系统。
背景技术
在现实生活中,我们经常希望根据一组已知标签的样本获取数据内在蕴含的更丰富的信息,这就需要将各个标签对应的众多样本进行进一步细分,获得每个标签类别的若干子类别,以便从各个子类别中获得更加丰富的信息。例如,某公司针对会员进行了一次促销活动,按照是否在促销中购买产品,可以给公司的全体会员标上“购买”和“未购买”两种标签,使得全体会员的数据成为带有已知标签的样本数据。我们希望获取更丰富的信息,比如部分会员未购买的原因,是否有更加有针对性的促销方式等等。这就需要将这两个已知的样本集合进一步划分为子集合,获得更丰富的会员消费习惯信息。
对样本数据进行再分类的问题,常用的处理方法有两种:
第一种分类方法,基于经验确定一些分类的指标(属性、属性值)并按照这些指标将样本数据分类,例如将一群人分为“青年”、“中年”、“老年”三类,就是基于属性“年龄层”做出的。这种分类方式强烈的依赖于分类人的经验,具有较强的主观色彩,使得不同人对同一组样本数据得到的分类结果可能有较大不同,而且难以确定究竟哪种分类更加科学。
第二种分类方法,基于数据挖掘聚类分析的聚类结果,将聚类结果直接作为分类结果。这种方法具有较好的客观性,但存在以下不足:
(1)聚类分析算法复杂性过高,在数据量较大时处理困难;
(2)传统的聚类算法不能给出簇的命名,不利于实际应用;
(3)主流的聚类算法属于随机算法,基于随机的初值,聚类结果也随着初值变化,聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。
对样本数据进行再分类时,还会遇到“大数据”的问题。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。数据降维 的方法很多,例如:根据数据本身的特性,可以分为线性降维和非线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监督降维和半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于已知标签的大数据常态模式提取方法和系统。该方法和系统提出了全新的“常态模式”概念,使用全新的“属性对已知标签的影响力”提取技术,计算属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项指标,完成大数据降维。针对降维后的全体样本数据,提取全体数据的常态模式,相对直接分析高维全体数据而言,有利于降低本系统的计算复杂度、提高分析效率。该步骤获得的常态模式,即已知集合的加细划分问题。作为一项副产品,本发明还给出常态模式的命名方法,由此克服了传统的聚类分析算法不能自动给簇命名的弊端。
本发明的技术方案为:
一种基于已知标签的大数据常态模式提取方法,其步骤为:
1)中央服务器从各终端服务器采集的总样本数据集中抽取若干样本,得到一抽样样本集合,所述抽样样本集合中的样本已分类并按照类别标签进行标注;
2)根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;
3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;
4)根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该 属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
进一步的,对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度。
进一步的,对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。
进一步的,根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。
进一步的,采用基于条件概率和贝叶斯算法计算所述辨识度。
进一步的,设定一分类精细度阈值N,如果步骤4)划分后的任一常态模式的样本数小于该分类精细度阈值N,则重新选取属性特征对该总样本数据进行划分。
本发明的系统如图4所示,主要包括:
(1)数据采集模块。
将待分析的已知标签样本数据从分布在各地的终端服务器数据库中传输汇总到中央服务器的数据库中。
(2)数据降维模块。
本发明中的数据降维和常态模式提取都基于全新的“属性对已知标签的影响力”提取技术,其包括四项指标:属性值辨识度、属性辨识度、属性值重要性、属性重要性。根据指标计算结果对属性排序;选取排序靠前的属性对大数据进行降维。
(3)常态模式划分模块。
算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度以及属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据进行划分,将划分结果作为常态模式。根据常态模式划分所依据的属性和属性值,命名常态模式的名称,然后通过一常态模式发布器发布。常态模式,可以理解为样本数据中的常见类型,每个常态模式都是一组属性值的集合,常态模式集合是对全体样本的一种划分。
例如,图1中的一个常态模式可能是{颜色=黑,形状=方,尺寸=小},该类型包括了所有小的黑方块,它对应属性值{颜色=黑}、{形状=方}和{尺寸=小},是这三个属性值的集合。当然,某一个确实的常态模式中的属性值不一定是唯一的,因此,{颜色=黑或灰,形状=方,尺寸=小}也可能是一个常态模式。另一方面,由于{颜色=黑,形状=方或圆,尺寸=小}可以化简为{颜色=黑,尺寸=小},因此,常态模式对应的属性值不一定包含所有的属性,也就是说,有的属性在常态模式的划分中并不重要。
直观的讲,一个样本总体全体常态模式的集合对应一个分类树,如图2所示,就是一个可能的常态模式集合。
常态模式的一个重要特点是“划分”性,也就是“不重不漏”。两个常态模式不能拥有共同的样本,即不相交;同时,绝大部分样本都属于某一个常态模式,只有少部分“异常值”、“离群值”。在图1中,常态模式覆盖了绝大部分样本,除了左下角灰底白点的大圆,这是异常值。
一个需要区别的概念是正常类型。事实上,常态模式并不等价于正常类型,常态模式只是从出现的频率上给出了出现频率高的划分方法,并不意味着它一定是正常的、正确的。例如,在道路上暂时没有机动车通过时行人闯红灯过马路,这是一种常见的行为,但却不是正确、合法的行为。当然,一般来说,常态模式是正常类型,不属于常态模式的异常值是不正常的样本。
与现有技术相比,积极效果为:
(1)客观地给出已知标签的各个集合的子集合(加细划分),不使用经验模型,避免主观因素引起错误或误差;
(2)算法复杂性较低,并且提供了大数据维数选择的解决方案;
(3)与主流的聚类算法相比,属于确定性算法,保证了结果的确定性,增强了在实际应用中的可信度;
(4)与主流的聚类算法相比,给出了常态模式的命名方案。
本方法可应用于公安情报数据分析、反腐败数据分析、居民家庭用电情况分析、交通出行模式分析、疾病特征数据分析、医疗数据分析、客户市场细分等多种领域,获取常态模式,从而促进资源合理配置,本方法具有较强的普适性。
附图说明
图1为常态模式示意图;
图2为常态模式实例图;
图3为常态模式提取系统流程图;
图4为常态模式提取系统结构图;
图5为常态模式提取及命名操作结果图;
图6为常态模式查看方法图;
图7为时间序列分析和拐点分析预警示意图。
具体实施方式
本发明公开了一种全新的基于已知标签的大数据常态模式提取方法,如图3所示,包括以下主要步骤。
步骤1:数据采集。
数据采集模块是本系统的硬件基础。该模块将待分析的已知标签样本数据从分布在各地的终端数据库中传输汇总到中央数据库。
步骤2:数据清洗。
通过数据采集终端汇总得到的数据,难免存在不完整、错误、重复等现象。数据清洗步骤用于过滤这些不符合要求的数据,过滤的结果将提交给相关主管部门,确认是直接过滤掉还是作为异常值提取出来做进一步分析。
步骤3:数据降维。
经过清洗的已知标签样本数据汇总到中央数据库。由于样本量(N1)巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。
数据降维步骤包括以下子步骤:
步骤3.1:数据抽样。
对全体样本进行系统抽样(systematic sampling)。系统抽样,又称机械抽样、等距抽样。具体而言:
(1)由系统硬件运转能力确定适合的抽样样本量(N2),定义压缩比(M)为:
M=N1÷N2;
(2)将全体样本数据按某一顺序排列起来,标注唯一的序号;
(3)从前M个样本中随机的选出一个样本作为抽样样本,记其序号为k;
(4)将序号为k、k+M、k+2*M、…、k+(N2-1)*M的N2个样本作为抽样结果。
步骤3.2:降维指标选择。
针对抽样得到的N2个样本可以通过后续的步骤计算降维指标(即“属性对已知标签的影响力”),并根据“影响力”的排序来确定降维后保留的属性。本系统提供降维指标的选择,可选择的降维指标有:
降维指标1:属性辨识度指标;
降维指标2:属性重要性指标。
降维指标选择主要看待分析的问题中“样本量”因素是否重要,建议如下:
(1)如果“样本量”因素不重要,应选择属性辨识度指标给出影响力排序;
(2)如果“样本量”因素重要,应选择属性重要性指标给出影响力排序;
(3)如果想综合考虑上述两种情况,应结合这两个指标给出综合性的排序。
步骤3.3:降维指标计算。
计算降维指标,也就是计算每个属性“对已知标签的影响力”,具体包括:属性辨识度和属性重要性,同时还需要计算两个过渡性的指标:属性值辨识度和属性值重要性。我们以案例为基础,说明这四项指标的主要计算步骤。系统将根据用户在步骤3.2中的选择情况计算相应的指标。
四项指标计算案例:
一个包含100人的研究样本,其中包含50名女性和50名男性,其中10人犯盗窃罪,其中4名女性、6名男性;100人中20人有前科,其中有8人犯盗窃罪。具体数据如下表1:
表1:四项指标计算案例

序号样本量性别前科标签142未犯盗窃罪236未犯盗窃罪38未犯盗窃罪45犯盗窃罪54未犯盗窃罪63犯盗窃罪71犯盗窃罪81犯盗窃罪

(1)计算属性值相对某个标签的辨识度。
样本集合中的样本已分类并按照类别标签进行标注;计算属性值的辨识度,也就是基于条件概率和贝叶斯算法的理论,计算哪些属性值对已知的标签取值有较大影响(定性)以及影响值多大(定量)。具体而言,用增加属性条件后的概率变化值,即条件概率值与概率值的差,来表示每个标签中每个属性值的辨识度。
具体到本案例,我们想研究哪些属性对样本是否犯有盗窃罪具有较大的影响力,从而实施有针对性的预防和干预工作。我们首先计算属性值相对某个标签的辨识度,以“犯盗窃罪”这个标签为例。
对于这100人中的一个样本x,在属性未知的情况下,预测他(她)犯盗窃罪的概率(可能性)是:P(x犯盗窃罪)=10/100=10%。
情况1:对于“性别=女”这个属性,如果知道这个人x是女性,则x犯盗窃罪的条件概率是:P(x犯盗窃罪|x是女性)=4/50=8%,因为50名女性中有4人犯盗窃罪,概率变化值 为8%-10%=-2%。
情况2:对于“前科=有”这个属性,如果知道这个人x有前科,则x犯盗窃罪的条件概率是:P(x犯盗窃罪|x有前科)=8/20=40%,因为20名有前科的人中有8人犯盗窃罪,概率变化值为40%-10%=30%。
比较情况1和情况2:“前科=有”这个属性值相对标签“犯盗窃罪”的辨识度大于0,也就是具有该属性值的样本(条件概率),比无法判断是否具有该属性值的样本(无条件概率)犯盗窃罪的可能性更大;“性别=女”这个属性值相对标签“犯盗窃罪”的辨识度小于0,也就是具有该属性值的样本,比无法判断是否具有该属性值的样本犯盗窃罪的可能性更小。进一步,“前科=有”这个属性值相对标签“犯盗窃罪”的辨识度的绝对值要远远大于“性别=女”这个属性值,可以认为前者对“犯盗窃罪”这个已知标签的影响力更大。
同理,可以计算出“性别=男”这个属性值相对标签“犯盗窃罪”的辨识度为0.02,“前科=无”这个属性值相对标签“犯盗窃罪”的辨识度为-0.075。进一步考虑标签“未犯盗窃罪”,可以计算得到:“性别=女”相对标签“未犯盗窃罪”的辨识度为0.02;“性别=男”相对标签“未犯盗窃罪”的辨识度为-0.02;“前科=有”相对标签“未犯盗窃罪”的辨识度为-0.3;“前科=无”相对标签“未犯盗窃罪”的辨识度为0.075。
(2)计算属性值的辨识度。
对于样本具有的每一个属性值,将它相对所有的标签,都按照步骤2计算一个概率差值,即该属性值相对该标签的辨识度,再将这些辨识度取平方平均数,得到该属性值针对整个空间的辨识度。可见,“性别=女”和“性别=男”的辨识度均为0.02;“前科=有”的辨识度为0.3;“前科=无”的辨识度为0.075。
这样计算的属性值辨识度没有考虑属性值对应的样本量大小,可以很好的识别样本量很少但辨别能力很强的属性。落实到实践中,针对“前科=有”的群体开展预防和干预工作要比针对“性别=男”的群体开展工作具有更好的效果。而“前科=无”和“性别=女”的群体,“犯盗窃罪”的可能性小于平均值,不需要进行预防干预工作。
(3)计算属性的辨识度。
利用步骤3,我们得到了属性值“性别=女”和“性别=男”对于两类标签划分(相似性)的辨识度,将两者的平方平均数定义为“性别”这一属性对于已知标签的辨识度,计算得0.02。同样的,将属性值“前科=有”和“前科=无”的辨识度的平方平均数定义为“前科”这一属性对于已知标签的辨识度,计算得0.2187。
(4)计算属性值的重要性。
为了平衡属性值的辨别能力和对应的样本量,在“辨识度”概念的基础上定义“重要性” 概念。粗略的说,属性值的重要性等于属性值的辨识度乘上属性值对应的样本量。
例如,属性值“性别=女”和“性别=男”的辨识度均为0.02,对应样本量均为50,重要性为1;属性值“前科=有”的辨识度为0.3,对应样本量为20,重要性为6;属性值“前科=无”的辨识度为0.075,对应样本量为80,重要性为6。更加细化的,我们还可以计算属性值相对于某个标签的重要性,例如,属性值“性别=女”相对标签“犯盗窃罪”的重要性为-1;属性值“性别=男”相对标签“未犯盗窃罪”的重要性为1。
可见,由于对应样本量的差异,两着的辨识度差别较大但重要性差别较小,辨识度和重要性反映的信息存在不同。对于更复杂的情况,不同属性对应的的样本数量可能存在很大的差异,甚至常常造成辨识度较高但对应样本量较少的属性值的重要性低于辨识度较低但对应样本量较多的属性值。重要性指标可以用于较大范围的宣传教育工作,较好的平衡的针对性和覆盖面。落实到实践中,可以针对“前科=有”的群体开展犯罪危害的教育工作。
进一步的,当一个属性只有两个属性值时,两者对已知标签的重要性绝对值相同,这符合我们对“重要性”概念的一般认识,因为两个取值知道其中一个也就知道了另一个。
(5)计算属性的重要性。
属性的重要性可以有两种定义,一种是通过属性值的重要性来计算,即“属性的重要性等于属性值的重要性的平方平均数”;一种是通过属性的辨识度来计算,即“属性的重要性等于属性的辨识度乘上属性对应的样本量”。由于每个属性对应的样本量都是样本总量,如果采用后者的定义,那么属性的重要性和辨识度概念则本质上是相同的,不利于建立多层次的属性影响力排序。因此,我们采用前一种定义方式。粗略的说,属性的重要性等于属性值的重要性的平方平均数。
在本例中,属性“性别”的重要性为1,属性“前科”的重要性为6。这个结果也是与我们的直观非常一致的。
步骤3.4:降维指标排序。
降维指标计算,也就是给出属性“对已知标签的影响力”排序。根据步骤3.2中用户的选择以及步骤3.3中的相关指标计算结果,获得属性“对已知标签的影响力”排序。
步骤3.5:大数据降维(维度选择)。
根据步骤3.4中给出的属性“对已知标签的影响力”排序,根据实际需求设定影响力阈值,选择前D个属性或影响力大于该阈值的若干属性作为大数据降维后保留的属性,即维度选择。
步骤4:常态模式划分及命名。
针对降维后的全体样本数据,提取低维全体数据的常态模式。相对于直接提取高维全体 数据的常态模式,有利于降低本系统的计算复杂度、提高分析效率。
步骤4.1:划分指标选择。
我们可是使用四种不同的指标作为常态模式划分的标准。这四项指标包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性。如前所述,它们都是“属性对已知标签的影响力”指标。
客户可以单独使用其中某项指标进行划分,也可以结合上述两个或多个指标给出综合性的划分。本系统提供划分指标的选择功能,客户可以根据实际需求选择需要使用的指标。划分指标选择主要看待分析的问题中“样本量”因素是否重要以及属性中各属性值“对已知标签的影响力”是否比较接近,选择的建议如下表2:
表2:“属性对已知标签的影响力”排序指标选择建议

步骤4.2:划分指标计算。
常态模式的划分过程需要重复的计算属性值辨识度、属性辨识度、属性值重要性、属性重要性等相关指标,具体的计算方法参见步骤3.3。
步骤4.3:常态模式划分。
以“发明内容”部分的图形常态模式划分案例为例,说明常态模式划分的具体操作流程。
首先,针对全体样本计算客户指定的划分指标,选择影响力最大的属性作为待划分属性。例如,如果选择的属性为“形状”,数据将按照其属性值分为“形状=方”和“形状=圆”两个类。每个部分属性1的属性值可能唯一,也可能是几个相近属性值的集合,但不同部分属性1的属性值一定不同,这些都是由算法自动实现的。接下来,针对划分获得的每个部分,不考虑属性1,再选择其中重要性或者辨识度最高的属性,分别进行第二步划分(三个部分的下一步划分可能选取不同的属性)。例如,“形状=方”的类,按照“尺寸”属性再划分。
当分类的精细程度满足实际需求时,划分结束(每个部分划分的次数也可能不同),得到单纯基于属性重要性的分类,称为常态模式。实际操作时,需要针对情况选择重要性或辨识度作为下一步划分的标准。常态模式覆盖了绝大部分样本,基本做到“不重不漏”,具有很强的客观性。
分类的精细程度,又称为颗粒度,作为算法的停止规则,可以规定划分后的任一常态模式的样本数不小于N,或者划分次数等于K等等。
步骤4.4:常态模式命名。
通过步骤4.3构建的常态模式具有很强的可命名性。事实上,常态模式是由各个属性和属性值一步一步划分得到,因此这些属性值自然的成为了类型的“名称”,很自然的解决了“常态模式”的命名问题。
常态模式的命名方式为:针对需要命名的常态模式(叶节点),沿着根节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。也就是说,常态模式的名称是若干对分类影响较大的属性值的集合。
以图2为例,常态模式包括以下六个:
常态模式1:{形状=方,尺寸=大};
常态模式2:{形状=方,尺寸=小,颜色=黑};
常态模式3:{形状=方,尺寸=小,颜色=灰};
常态模式4:{形状=方,尺寸=小,颜色=白};
常态模式5:{形状=圆,颜色=黑};
常态模式6:{形状=圆,颜色=灰或白}。
步骤5:常态模式发布。
本系统最后一个环节是将上述计算获得的常态模式发布,反馈给用户。
应用实例
本发明公开了一种基于已知标签的大数据常态模式提取方法及系统,已经用以进行××地区治安风险防范的评估。它是基于数据仓库与数据挖掘技术,以本发明的基本分析方法为基础,从历史数据中获取指定时间区段的社会治安风险评估常态特征指标(属性及属性值),进行大数据降维和常态模式提取,从而形成区域性社会安全态势综合评估与专项评估模型和评估指标(属性及属性值)体系,并对相应时间区段的全部常态指标(属性及属性值)进行标定。在所标定的常态指标(属性及属性值)体系中,依据降维后的属性辨识度及重要性对其进行排序处理,并给予相应的命名。
本发明已经用于某地区全部案件类别的经常性态势描述,经过本发明常态模式提取及命名操作,结果如图5所示。
常态模式提取的重要意义不仅仅在于清晰的展示了数据的内在子结构。它也可以作为一系列重要分析的基础,例如:我们可以在提取的常态模式基础上对样本的属性值重要性进行 排序。在本专利公开的系统中,我们可以通过第一行菜单选择需要查看的常态模式,如图6所示。
另一个重要的应用是:将常态模式的个数作为一个整体指标,通过时间序列分析和拐点分析,获得基于这个整体指标的预警信息,如图7所示。这种预警信息可以很好的表现出数据子结构的异常变动。

一种基于已知标签的大数据常态模式提取方法及系统.pdf_第1页
第1页 / 共15页
一种基于已知标签的大数据常态模式提取方法及系统.pdf_第2页
第2页 / 共15页
一种基于已知标签的大数据常态模式提取方法及系统.pdf_第3页
第3页 / 共15页
点击查看更多>>
资源描述

《一种基于已知标签的大数据常态模式提取方法及系统.pdf》由会员分享,可在线阅读,更多相关《一种基于已知标签的大数据常态模式提取方法及系统.pdf(15页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104102730A43申请公布日20141015CN104102730A21申请号201410355680922申请日20140724G06F17/3020060171申请人中国软件与技术服务股份有限公司地址100081北京市海淀区学院南路55号(中软大厦)72发明人王电陈庆彬黄煜可74专利代理机构北京君尚知识产权代理事务所普通合伙11200代理人余长江54发明名称一种基于已知标签的大数据常态模式提取方法及系统57摘要本发明公开了一种基于已知标签的大数据常态模式提取方法。本方法为1服务器从各终端采集的总样本数据集中抽取若干样本,得到一抽样样本集合,抽样样本集合中的样本已分类。

2、并按照类别标签进行标注;2根据选取的属性降维指标计算抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性四项指标;3根据计算结果对属性进行排序,选取若干属性作为大数据降维后保留的属性;4根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的四项指标,然后选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式。本发明计算复杂度低,结果确定性高,增强了在实际应用中的可信度。51INTCL权利要求书2页说明书9页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书9页附图3页10申请公布号CN104102730ACN10410。

3、2730A1/2页21一种基于已知标签的大数据常态模式提取方法,其步骤为1中央服务器从各终端服务器采集的总样本数据集中抽取若干样本,得到一抽样样本集合,所述抽样样本集合中的样本已分类并按照类别标签进行标注;2根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;3分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;4根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对。

4、该总样本数据集进行划分,将划分结果作为常态模式;其中,属性值辨识度的计算方法为选取样本一属性I的一属性值A,计算具有该属性值A的样本属于标签J的条件概率值,以及未增加该属性值条件时样本属于该标签J的概率值;将所述条件概率值与所述概率值的差值作为该属性值A对于该标签J的属性值辨识度;将该属性值A对于所有标签的属性值辨识度的平方平均数作为该属性值A的属性值辨识度;属性辨识度的计算方法为根据属性I所有属性值辨识度计算该属性I的属性辨识度;属性值重要性的计算方法为将样本属性I取属性值A时属于标签J的样本量乘以该属性值A对于该标签J的属性辨识度,得到该属性值A对于该标签J的属性值重要性;将该属性值A对于。

5、所有标签的属性值重要性的平方平均数作为该属性值A的属性值重要性;属性重要性的计算方法为根据属性I所有属性值重要性计算该属性I的属性重要性。2如权利要求1所述的方法,其特征在于对该属性I所有属性值的属性值辨识度的平方平均数作为该属性I的属性辨识度。3如权利要求1所述的方法,其特征在于对该属性I所有属性值的属性值重要性的平方平均数作为该属性I的属性重要性。4如权利要求1或2或3所述的方法,其特征在于根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。5如权利要求1或2或3所述的方法,其特征在于采用基于条件概率和贝叶斯算法计算所述辨识度。6如权利要求1或2或3所述的方法,其特征在于设定。

6、一分类精细度阈值N,如果步骤4划分后的任一常态模式的样本数小于该分类精细度阈值N,则重新选取属性特征对该总样本数据进行划分。7一种基于已知标签的大数据常态模式提取系统,其特征在于包括多个终端服务器和一中央服务器,所述终端服务器通过网络与所述中央服务器连接;其中,所述中央服务器包括数据采集模块、数据降维模块和常态模式划分模块;所述数据采集模块,用于从各终端服务器采集样本数据,得到一总样本数据集;所述样本数据为已分类并按照类别标签进行标注;所述数据降维模块,用于从总样本数据集中抽取若干样本,得到一抽样样本集合,根据选取的属性降维指标计算该抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨权利要。

7、求书CN104102730A2/2页3识度和或属性值重要性、属性重要性,以及根据计算结果对属性进行排序,选取属性特征;所述常态模式划分模块,用于根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据进行划分,将划分结果作为常态模式;其中,属性值辨识度的计算方法为选取样本一属性I的一属性值A,计算具有该属性值A的样本属于标签J的条件概率值,以及未增加该属性值条件时样本属于该标签J的概率值;将所述条件概率值与所述概率值的差值作为该属性值A对于该标签J的属性值辨识度;将该属性值A对于所有标。

8、签的属性值辨识度的平方平均数作为该属性值A的属性值辨识度;属性辨识度的计算方法为根据属性I所有属性值辨识度计算该属性I的属性辨识度;属性值重要性的计算方法为将样本属性I取属性值A时属于标签J的样本量乘以该属性值A对于该标签J的属性辨识度,得到该属性值A对于该标签J的属性值重要性;将该属性值A对于所有标签的属性值重要性的平方平均数作为该属性值A的属性值重要性;属性重要性的计算方法为根据属性I所有属性值重要性计算该属性I的属性重要性。8如权利要求7所述的系统,其特征在于对该属性I所有属性值的属性值辨识度的平方平均数作为该属性I的属性辨识度;对该属性I所有属性值的属性值重要性的平方平均数作为该属性I。

9、的属性重要性。9如权利要求7所述的系统,其特征在于根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称;所述中央服务器通过一常态模式发布器发布所述常态模式。10如权利要求7或8或9所述的系统,其特征在于所述常态模式划分模块中设定一分类精细度阈值N,如果划分后的任一常态模式的样本数小于该分类精细度阈值N,则所述数据降维模块重新选取属性特征发送给所述常态模式划分模块对该总样本数据进行划分。权利要求书CN104102730A1/9页4一种基于已知标签的大数据常态模式提取方法及系统技术领域0001本发明涉及一种常态模式提取方法及系统,尤其涉及一种基于已知标签的大数据常态模式提取方法及系统。。

10、背景技术0002在现实生活中,我们经常希望根据一组已知标签的样本获取数据内在蕴含的更丰富的信息,这就需要将各个标签对应的众多样本进行进一步细分,获得每个标签类别的若干子类别,以便从各个子类别中获得更加丰富的信息。例如,某公司针对会员进行了一次促销活动,按照是否在促销中购买产品,可以给公司的全体会员标上“购买”和“未购买”两种标签,使得全体会员的数据成为带有已知标签的样本数据。我们希望获取更丰富的信息,比如部分会员未购买的原因,是否有更加有针对性的促销方式等等。这就需要将这两个已知的样本集合进一步划分为子集合,获得更丰富的会员消费习惯信息。0003对样本数据进行再分类的问题,常用的处理方法有两种。

11、0004第一种分类方法,基于经验确定一些分类的指标属性、属性值并按照这些指标将样本数据分类,例如将一群人分为“青年”、“中年”、“老年”三类,就是基于属性“年龄层”做出的。这种分类方式强烈的依赖于分类人的经验,具有较强的主观色彩,使得不同人对同一组样本数据得到的分类结果可能有较大不同,而且难以确定究竟哪种分类更加科学。0005第二种分类方法,基于数据挖掘聚类分析的聚类结果,将聚类结果直接作为分类结果。这种方法具有较好的客观性,但存在以下不足00061聚类分析算法复杂性过高,在数据量较大时处理困难;00072传统的聚类算法不能给出簇的命名,不利于实际应用;00083主流的聚类算法属于随机算法,基。

12、于随机的初值,聚类结果也随着初值变化,聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。0009对样本数据进行再分类时,还会遇到“大数据”的问题。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。数据降维的方法很多。

13、,例如根据数据本身的特性,可以分为线性降维和非线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监督降维和半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。发明内容0010针对现有技术中存在的技术问题,本发明的目的在于提供一种基于已知标签的大说明书CN104102730A2/9页5数据常态模式提取方法和系统。该方法和系统提出了全新的“常态模式”概念,使用全新的“属性对已知标签的影响力”提取技术,计算属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项指标,完成大数据降维。针对降维后的全体样本数据,提取全体数据的常态。

14、模式,相对直接分析高维全体数据而言,有利于降低本系统的计算复杂度、提高分析效率。该步骤获得的常态模式,即已知集合的加细划分问题。作为一项副产品,本发明还给出常态模式的命名方法,由此克服了传统的聚类分析算法不能自动给簇命名的弊端。0011本发明的技术方案为0012一种基于已知标签的大数据常态模式提取方法,其步骤为00131中央服务器从各终端服务器采集的总样本数据集中抽取若干样本,得到一抽样样本集合,所述抽样样本集合中的样本已分类并按照类别标签进行标注;00142根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;00153分别根据。

15、属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;00164根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式;0017其中,属性值辨识度的计算方法为选取样本一属性I的一属性值A,计算具有该属性值A的样本属于标签J的条件概率值,以及未增加该属性值条件时样本属于该标签J的概率值;将所述条件概率值与所述概率值的差值作为该属性值A对于该标签J的属性值辨识度;将该属性值A对于所有标签的属性值辨识度。

16、的平方平均数作为该属性值A的属性值辨识度;0018属性辨识度的计算方法为根据属性I所有属性值辨识度计算该属性I的属性辨识度;0019属性值重要性的计算方法为将样本属性I取属性值A时属于标签J的样本量乘以该属性值A对于该标签J的属性辨识度,得到该属性值A对于该标签J的属性值重要性;将该属性值A对于所有标签的属性值重要性的平方平均数作为该属性值A的属性值重要性;0020属性重要性的计算方法为根据属性I所有属性值重要性计算该属性I的属性重要性。0021进一步的,对该属性I所有属性值的属性值辨识度的平方平均数作为该属性I的属性辨识度。0022进一步的,对该属性I所有属性值的属性值重要性的平方平均数作为。

17、该属性I的属性重要性。0023进一步的,根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。0024进一步的,采用基于条件概率和贝叶斯算法计算所述辨识度。0025进一步的,设定一分类精细度阈值N,如果步骤4划分后的任一常态模式的样本数小于该分类精细度阈值N,则重新选取属性特征对该总样本数据进行划分。说明书CN104102730A3/9页60026本发明的系统如图4所示,主要包括00271数据采集模块。0028将待分析的已知标签样本数据从分布在各地的终端服务器数据库中传输汇总到中央服务器的数据库中。00292数据降维模块。0030本发明中的数据降维和常态模式提取都基于全新的“属性对。

18、已知标签的影响力”提取技术,其包括四项指标属性值辨识度、属性辨识度、属性值重要性、属性重要性。根据指标计算结果对属性排序;选取排序靠前的属性对大数据进行降维。00313常态模式划分模块。0032算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度以及属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据进行划分,将划分结果作为常态模式。根据常态模式划分所依据的属性和属性值,命名常态模式的名称,然后通过一常态模式发布器发布。常态模式,可以理解为样本数据中的常见类型,每个常态模式都是一组属性值的集合,常态模式集合是对全体样本的一种划分。0033例如,图1中的一个常态。

19、模式可能是颜色黑,形状方,尺寸小,该类型包括了所有小的黑方块,它对应属性值颜色黑、形状方和尺寸小,是这三个属性值的集合。当然,某一个确实的常态模式中的属性值不一定是唯一的,因此,颜色黑或灰,形状方,尺寸小也可能是一个常态模式。另一方面,由于颜色黑,形状方或圆,尺寸小可以化简为颜色黑,尺寸小,因此,常态模式对应的属性值不一定包含所有的属性,也就是说,有的属性在常态模式的划分中并不重要。0034直观的讲,一个样本总体全体常态模式的集合对应一个分类树,如图2所示,就是一个可能的常态模式集合。0035常态模式的一个重要特点是“划分”性,也就是“不重不漏”。两个常态模式不能拥有共同的样本,即不相交;同时。

20、,绝大部分样本都属于某一个常态模式,只有少部分“异常值”、“离群值”。在图1中,常态模式覆盖了绝大部分样本,除了左下角灰底白点的大圆,这是异常值。0036一个需要区别的概念是正常类型。事实上,常态模式并不等价于正常类型,常态模式只是从出现的频率上给出了出现频率高的划分方法,并不意味着它一定是正常的、正确的。例如,在道路上暂时没有机动车通过时行人闯红灯过马路,这是一种常见的行为,但却不是正确、合法的行为。当然,一般来说,常态模式是正常类型,不属于常态模式的异常值是不正常的样本。0037与现有技术相比,积极效果为00381客观地给出已知标签的各个集合的子集合加细划分,不使用经验模型,避免主观因素引。

21、起错误或误差;00392算法复杂性较低,并且提供了大数据维数选择的解决方案;00403与主流的聚类算法相比,属于确定性算法,保证了结果的确定性,增强了在实际应用中的可信度;00414与主流的聚类算法相比,给出了常态模式的命名方案。0042本方法可应用于公安情报数据分析、反腐败数据分析、居民家庭用电情况分析、交说明书CN104102730A4/9页7通出行模式分析、疾病特征数据分析、医疗数据分析、客户市场细分等多种领域,获取常态模式,从而促进资源合理配置,本方法具有较强的普适性。附图说明0043图1为常态模式示意图;0044图2为常态模式实例图;0045图3为常态模式提取系统流程图;0046图4。

22、为常态模式提取系统结构图;0047图5为常态模式提取及命名操作结果图;0048图6为常态模式查看方法图;0049图7为时间序列分析和拐点分析预警示意图。具体实施方式0050本发明公开了一种全新的基于已知标签的大数据常态模式提取方法,如图3所示,包括以下主要步骤。0051步骤1数据采集。0052数据采集模块是本系统的硬件基础。该模块将待分析的已知标签样本数据从分布在各地的终端数据库中传输汇总到中央数据库。0053步骤2数据清洗。0054通过数据采集终端汇总得到的数据,难免存在不完整、错误、重复等现象。数据清洗步骤用于过滤这些不符合要求的数据,过滤的结果将提交给相关主管部门,确认是直接过滤掉还是作。

23、为异常值提取出来做进一步分析。0055步骤3数据降维。0056经过清洗的已知标签样本数据汇总到中央数据库。由于样本量N1巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。0057数据降维步骤包括以下子步骤0058步骤31数据抽样。0059对全体样本进行系统抽样SYSTEMATICSAMPLING。系统抽样,又称机械抽样、等距抽样。具体而言00601由系统硬件运转能力确定适合的抽。

24、样样本量N2,定义压缩比M为0061MN1N2;00622将全体样本数据按某一顺序排列起来,标注唯一的序号;00633从前M个样本中随机的选出一个样本作为抽样样本,记其序号为K;00644将序号为K、KM、K2M、KN21M的N2个样本作为抽样结果。0065步骤32降维指标选择。0066针对抽样得到的N2个样本可以通过后续的步骤计算降维指标即“属性对已知标说明书CN104102730A5/9页8签的影响力”,并根据“影响力”的排序来确定降维后保留的属性。本系统提供降维指标的选择,可选择的降维指标有0067降维指标1属性辨识度指标;0068降维指标2属性重要性指标。0069降维指标选择主要看待分。

25、析的问题中“样本量”因素是否重要,建议如下00701如果“样本量”因素不重要,应选择属性辨识度指标给出影响力排序;00712如果“样本量”因素重要,应选择属性重要性指标给出影响力排序;00723如果想综合考虑上述两种情况,应结合这两个指标给出综合性的排序。0073步骤33降维指标计算。0074计算降维指标,也就是计算每个属性“对已知标签的影响力”,具体包括属性辨识度和属性重要性,同时还需要计算两个过渡性的指标属性值辨识度和属性值重要性。我们以案例为基础,说明这四项指标的主要计算步骤。系统将根据用户在步骤32中的选择情况计算相应的指标。0075四项指标计算案例0076一个包含100人的研究样本,。

26、其中包含50名女性和50名男性,其中10人犯盗窃罪,其中4名女性、6名男性;100人中20人有前科,其中有8人犯盗窃罪。具体数据如下表10077表1四项指标计算案例0078序号样本量性别前科标签142女无未犯盗窃罪236男无未犯盗窃罪38男有未犯盗窃罪45男有犯盗窃罪54女有未犯盗窃罪63女有犯盗窃罪71男无犯盗窃罪81女无犯盗窃罪00791计算属性值相对某个标签的辨识度。0080样本集合中的样本已分类并按照类别标签进行标注;计算属性值的辨识度,也就是基于条件概率和贝叶斯算法的理论,计算哪些属性值对已知的标签取值有较大影响定性以及影响值多大定量。具体而言,用增加属性条件后的概率变化值,即条件概。

27、率值与概率值的差,来表示每个标签中每个属性值的辨识度。说明书CN104102730A6/9页90081具体到本案例,我们想研究哪些属性对样本是否犯有盗窃罪具有较大的影响力,从而实施有针对性的预防和干预工作。我们首先计算属性值相对某个标签的辨识度,以“犯盗窃罪”这个标签为例。0082对于这100人中的一个样本X,在属性未知的情况下,预测他她犯盗窃罪的概率可能性是PX犯盗窃罪10/10010。0083情况1对于“性别女”这个属性,如果知道这个人X是女性,则X犯盗窃罪的条件概率是PX犯盗窃罪|X是女性4/508,因为50名女性中有4人犯盗窃罪,概率变化值为8102。0084情况2对于“前科有”这个属。

28、性,如果知道这个人X有前科,则X犯盗窃罪的条件概率是PX犯盗窃罪|X有前科8/2040,因为20名有前科的人中有8人犯盗窃罪,概率变化值为401030。0085比较情况1和情况2“前科有”这个属性值相对标签“犯盗窃罪”的辨识度大于0,也就是具有该属性值的样本条件概率,比无法判断是否具有该属性值的样本无条件概率犯盗窃罪的可能性更大;“性别女”这个属性值相对标签“犯盗窃罪”的辨识度小于0,也就是具有该属性值的样本,比无法判断是否具有该属性值的样本犯盗窃罪的可能性更小。进一步,“前科有”这个属性值相对标签“犯盗窃罪”的辨识度的绝对值要远远大于“性别女”这个属性值,可以认为前者对“犯盗窃罪”这个已知标。

29、签的影响力更大。0086同理,可以计算出“性别男”这个属性值相对标签“犯盗窃罪”的辨识度为002,“前科无”这个属性值相对标签“犯盗窃罪”的辨识度为0075。进一步考虑标签“未犯盗窃罪”,可以计算得到“性别女”相对标签“未犯盗窃罪”的辨识度为002;“性别男”相对标签“未犯盗窃罪”的辨识度为002;“前科有”相对标签“未犯盗窃罪”的辨识度为03;“前科无”相对标签“未犯盗窃罪”的辨识度为0075。00872计算属性值的辨识度。0088对于样本具有的每一个属性值,将它相对所有的标签,都按照步骤2计算一个概率差值,即该属性值相对该标签的辨识度,再将这些辨识度取平方平均数,得到该属性值针对整个空间的。

30、辨识度。可见,“性别女”和“性别男”的辨识度均为002;“前科有”的辨识度为03;“前科无”的辨识度为0075。0089这样计算的属性值辨识度没有考虑属性值对应的样本量大小,可以很好的识别样本量很少但辨别能力很强的属性。落实到实践中,针对“前科有”的群体开展预防和干预工作要比针对“性别男”的群体开展工作具有更好的效果。而“前科无”和“性别女”的群体,“犯盗窃罪”的可能性小于平均值,不需要进行预防干预工作。00903计算属性的辨识度。0091利用步骤3,我们得到了属性值“性别女”和“性别男”对于两类标签划分相似性的辨识度,将两者的平方平均数定义为“性别”这一属性对于已知标签的辨识度,计算得002。

31、。同样的,将属性值“前科有”和“前科无”的辨识度的平方平均数定义为“前科”这一属性对于已知标签的辨识度,计算得02187。00924计算属性值的重要性。0093为了平衡属性值的辨别能力和对应的样本量,在“辨识度”概念的基础上定义“重要性”概念。粗略的说,属性值的重要性等于属性值的辨识度乘上属性值对应的样本量。说明书CN104102730A7/9页100094例如,属性值“性别女”和“性别男”的辨识度均为002,对应样本量均为50,重要性为1;属性值“前科有”的辨识度为03,对应样本量为20,重要性为6;属性值“前科无”的辨识度为0075,对应样本量为80,重要性为6。更加细化的,我们还可以计算。

32、属性值相对于某个标签的重要性,例如,属性值“性别女”相对标签“犯盗窃罪”的重要性为1;属性值“性别男”相对标签“未犯盗窃罪”的重要性为1。0095可见,由于对应样本量的差异,两着的辨识度差别较大但重要性差别较小,辨识度和重要性反映的信息存在不同。对于更复杂的情况,不同属性对应的的样本数量可能存在很大的差异,甚至常常造成辨识度较高但对应样本量较少的属性值的重要性低于辨识度较低但对应样本量较多的属性值。重要性指标可以用于较大范围的宣传教育工作,较好的平衡的针对性和覆盖面。落实到实践中,可以针对“前科有”的群体开展犯罪危害的教育工作。0096进一步的,当一个属性只有两个属性值时,两者对已知标签的重要。

33、性绝对值相同,这符合我们对“重要性”概念的一般认识,因为两个取值知道其中一个也就知道了另一个。00975计算属性的重要性。0098属性的重要性可以有两种定义,一种是通过属性值的重要性来计算,即“属性的重要性等于属性值的重要性的平方平均数”;一种是通过属性的辨识度来计算,即“属性的重要性等于属性的辨识度乘上属性对应的样本量”。由于每个属性对应的样本量都是样本总量,如果采用后者的定义,那么属性的重要性和辨识度概念则本质上是相同的,不利于建立多层次的属性影响力排序。因此,我们采用前一种定义方式。粗略的说,属性的重要性等于属性值的重要性的平方平均数。0099在本例中,属性“性别”的重要性为1,属性“前。

34、科”的重要性为6。这个结果也是与我们的直观非常一致的。0100步骤34降维指标排序。0101降维指标计算,也就是给出属性“对已知标签的影响力”排序。根据步骤32中用户的选择以及步骤33中的相关指标计算结果,获得属性“对已知标签的影响力”排序。0102步骤35大数据降维维度选择。0103根据步骤34中给出的属性“对已知标签的影响力”排序,根据实际需求设定影响力阈值,选择前D个属性或影响力大于该阈值的若干属性作为大数据降维后保留的属性,即维度选择。0104步骤4常态模式划分及命名。0105针对降维后的全体样本数据,提取低维全体数据的常态模式。相对于直接提取高维全体数据的常态模式,有利于降低本系统的。

35、计算复杂度、提高分析效率。0106步骤41划分指标选择。0107我们可是使用四种不同的指标作为常态模式划分的标准。这四项指标包括属性值辨识度、属性辨识度、属性值重要性、属性重要性。如前所述,它们都是“属性对已知标签的影响力”指标。0108客户可以单独使用其中某项指标进行划分,也可以结合上述两个或多个指标给出综合性的划分。本系统提供划分指标的选择功能,客户可以根据实际需求选择需要使用的指标。划分指标选择主要看待分析的问题中“样本量”因素是否重要以及属性中各属性值说明书CN104102730A108/9页11“对已知标签的影响力”是否比较接近,选择的建议如下表20109表2“属性对已知标签的影响力。

36、”排序指标选择建议01100111步骤42划分指标计算。0112常态模式的划分过程需要重复的计算属性值辨识度、属性辨识度、属性值重要性、属性重要性等相关指标,具体的计算方法参见步骤33。0113步骤43常态模式划分。0114以“发明内容”部分的图形常态模式划分案例为例,说明常态模式划分的具体操作流程。0115首先,针对全体样本计算客户指定的划分指标,选择影响力最大的属性作为待划分属性。例如,如果选择的属性为“形状”,数据将按照其属性值分为“形状方”和“形状圆”两个类。每个部分属性1的属性值可能唯一,也可能是几个相近属性值的集合,但不同部分属性1的属性值一定不同,这些都是由算法自动实现的。接下来。

37、,针对划分获得的每个部分,不考虑属性1,再选择其中重要性或者辨识度最高的属性,分别进行第二步划分三个部分的下一步划分可能选取不同的属性。例如,“形状方”的类,按照“尺寸”属性再划分。0116当分类的精细程度满足实际需求时,划分结束每个部分划分的次数也可能不同,得到单纯基于属性重要性的分类,称为常态模式。实际操作时,需要针对情况选择重要性或辨识度作为下一步划分的标准。常态模式覆盖了绝大部分样本,基本做到“不重不漏”,具有很强的客观性。0117分类的精细程度,又称为颗粒度,作为算法的停止规则,可以规定划分后的任一常态模式的样本数不小于N,或者划分次数等于K等等。0118步骤44常态模式命名。011。

38、9通过步骤43构建的常态模式具有很强的可命名性。事实上,常态模式是由各个属性和属性值一步一步划分得到,因此这些属性值自然的成为了类型的“名称”,很自然的解决了“常态模式”的命名问题。0120常态模式的命名方式为针对需要命名的常态模式叶节点,沿着根节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。也就是说,常态模式的名称是若干对分类影响较大的属性值的集合。0121以图2为例,常态模式包括以下六个0122常态模式1形状方,尺寸大;说明书CN104102730A119/9页120123常态模式2形状方,尺寸小,颜色黑;0124常态模式3形状方,尺寸小,颜色灰;0125常态模式4形状方。

39、,尺寸小,颜色白;0126常态模式5形状圆,颜色黑;0127常态模式6形状圆,颜色灰或白。0128步骤5常态模式发布。0129本系统最后一个环节是将上述计算获得的常态模式发布,反馈给用户。0130应用实例0131本发明公开了一种基于已知标签的大数据常态模式提取方法及系统,已经用以进行地区治安风险防范的评估。它是基于数据仓库与数据挖掘技术,以本发明的基本分析方法为基础,从历史数据中获取指定时间区段的社会治安风险评估常态特征指标属性及属性值,进行大数据降维和常态模式提取,从而形成区域性社会安全态势综合评估与专项评估模型和评估指标属性及属性值体系,并对相应时间区段的全部常态指标属性及属性值进行标定。。

40、在所标定的常态指标属性及属性值体系中,依据降维后的属性辨识度及重要性对其进行排序处理,并给予相应的命名。0132本发明已经用于某地区全部案件类别的经常性态势描述,经过本发明常态模式提取及命名操作,结果如图5所示。0133常态模式提取的重要意义不仅仅在于清晰的展示了数据的内在子结构。它也可以作为一系列重要分析的基础,例如我们可以在提取的常态模式基础上对样本的属性值重要性进行排序。在本专利公开的系统中,我们可以通过第一行菜单选择需要查看的常态模式,如图6所示。0134另一个重要的应用是将常态模式的个数作为一个整体指标,通过时间序列分析和拐点分析,获得基于这个整体指标的预警信息,如图7所示。这种预警信息可以很好的表现出数据子结构的异常变动。说明书CN104102730A121/3页13图1图2图3说明书附图CN104102730A132/3页14图4图5说明书附图CN104102730A143/3页15图6图7说明书附图CN104102730A15。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1