一种网络物理系统混合数据分类方法.pdf

上传人:1*** 文档编号:1638886 上传时间:2018-06-30 格式:PDF 页数:7 大小:512.93KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510083345.2

申请日:

2015.02.16

公开号:

CN104699768A

公开日:

2015.06.10

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20150216|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

南京邮电大学

发明人:

陈志; 罗一迪; 岳文静

地址:

210023江苏省南京市亚东新城区文苑路9号

优先权:

专利代理机构:

南京经纬专利商标代理有限公司32200

代理人:

叶连生

PDF下载: PDF下载
内容摘要

本发明给出一种网络物理系统混合数据分类方法,该方法利用决策树对用户输入网络物理系统数据依据不同的类型进行分类处理。在本方法中,当数据记录是离散型数据,通过计算数据记录属性的信息增益来构建代表离散型数据分类的决策树;当数据记录是连续型数据,通过计算数据记录的残差平方和来构建代表离散型数据分类的决策树。本发明所述的网络物理系统混合数据分类方法包含如下过程:收集用户输入网络物理系统数据,根据相关的逻辑判断条件,利用决策树进行数据分类。所述网络物理系统数据可以是离散值,也可以是连续值。本发明能够减少资源限制对网络物理系统数据分类效率的影响,在较少的时间和空间条件下对网络物理系统进行高效数据分类。

权利要求书

权利要求书
1.  一种网络物理系统混合数据分类方法,其特征在于该方法包括以下步骤:
步骤1)收集用户输入的网络物理系统的数据记录,并设定数据记录的类型,所述的数 据记录包括数据值、属性名称、属性值,这里数据记录中不同的属性由用户指定,不同的属 性对应特定的值,所述数据记录的类型是指离散型数据和连续型数据;
步骤2)依次选择网络物理系统数据记录构建决策树,
步骤21)当数据记录是离散型数据,则进行如下步骤:
步骤211)创建一个根节点,该节点包括网络物理系统当前所有离散型的数据记录,
步骤212)当根节点中所有数据记录的属性值都相同,则将根节点标记为叶子节点C, 并返回根节点;
步骤213)当根节点中所有数据记录的属性值不相同,则计算每种属性的数据在所有数 据记录中出现的次数与总的数据个数的比值,将这个比值作为该种属性的信息增益,选择具 有最大信息增益的属性作为分裂属性,根据这个分裂属性将根节点分为两部分;所述的信息 增益是一种选择方式,看属性能够为分类系统带来多少信息,带来的信息越多,该特征越重 要;所述的分裂属性是指节点分裂成不同节点所依据的原则,是一个判断逻辑;
步骤214)按照步骤211)至步骤213),对于新生成的节点递归进行相同的步骤;
步骤215)向用户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决 策树完成对网络物理系统中离散型数据记录的分类;
步骤22)当数据记录是连续型数据,则进行如下步骤:
步骤221)创建一个根节点,该节点包括网络物理系统当前所有连续型的数据记录;
步骤222)分别计算各个数据记录作为分隔点的残差平方和,所述的计算残差平方和的 具体步骤为首先计算每一个数据记录的数据值与当前作为分隔点的数据记录的数据值的差, 再计算所有数据记录的数据值的平均值,然后计算每一个数据记录的数据值与所有数据记录 的数据值的平均值的差,最后将每一个数据记录的数据值与作为分隔点的数据记录的数据值 的差、每一个数据记录的数据值与所有数据记录的数据值的平均值的差这两个值之间的差的 平方和作为当前作为分隔点的数据记录的残差平方和;
步骤223)选择残差平方和最小的数据记录作为最佳分隔点;所述的最佳分隔点是指分 裂节点的一种原则;
步骤224)将小于分隔点的数据数据记录作为该分隔点的左子树;
步骤225)将大于分隔点的数据数据记录作为该分隔点的右子树;
步骤226)依据步骤221)至步骤224)对左子树进行构建决策树;
步骤227)依据步骤221)至步骤224)对右子树进行构建决策树;
步骤228)当该节点属性完全相同或只剩一个数据记录,则将该节点标记为叶节点;
步骤229)选择两个相邻叶子节点,计算这两个相邻叶子节点的残差平方和,再计算这 两个相邻叶子节点合并后的残差平方和,然后比较这两个相邻叶子节点合并前后的残差平方 和,当合并后的小于合并前的,则将两个叶子节点合并为一个节点;
步骤2210)重复步骤229),当所有相邻叶子节点都通过步骤229)进行处理完毕,向用 户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决策树完成对网络物理 系统中连续型数据记录的分类。

说明书

说明书一种网络物理系统混合数据分类方法
技术领域
本发明涉及一种网络物理系统数据分类方法,解决资源限制对网络物理系统不同类型数 据分类低效问题,属于计算机技术、物联网、网络物理系统交叉应用领域。
背景技术
网络物理系统利用网络实现计算进程与物理进程之间的交互,一个集成计算,网络,控 制的下一代智能系统。通过3C融合和协作,实现大型工程的实时感知,动态控制,信息传 递。它注重计算资源与物理资源的紧密结合与协调,主要用于一些智能系统上如机器人,智 能导航、医疗、能源等多个重要发展领域等。
数据挖掘是一种在海量数据中发现有用信息的技术,是现在计算机技术中热门的方向。 数据挖掘通过统计,检索,机器学习等技术实现从大量的数据中发现隐藏信息的目标。决策 树是数据挖掘分类算法的一个重要方法,是直观运用概率分布的一种图解法。决策树的建立 是用来辅助决策,是一种特殊的树型结构,在机器学习中,决策树是一个预测模型,代表的 是对象属性与对象值之间的一种映射关系。决策树中每个节点表示某个对象,而每个分叉路 径则代表的某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表 示的对象的值。在分类问题中使用决策树模型有很多的优点,根据决策树可以很容易地构造 出规则,而规则通常易于解释和理解。决策树模型也有一些缺点,比如处理缺失数据时的困 难,过度拟合问题的出现,以及忽略数据集中属性之间的相关性等。
发明内容
技术问题:本发明目的是给出一种网络物理系统混合数据分类方法,解决在较少的时间 和空间条件下对网络物理系统不同类型数据分类低效问题,减小资源限制对于分类效率的影 响。本发明利用决策树解决网络物理系统数据分类问题。
技术方案:本发明所述的网络物理系统混合数据分类方法包含如下过程:收集用户输入 网络物理系统数据,根据相关的逻辑判断条件,利用决策树进行数据分类。所述网络物理系 统数据可以是离散值,也可以是连续值。
本发明所述的网络物理系统混合数据分类方法包括以下步骤:
步骤1)收集用户输入的网络物理系统的数据记录,并设定数据记录的类型。所述的数 据记录包括数据值、属性名称、属性值,这里数据记录中不同的属性由用户指定,不同的属 性对应特定的值。所述数据记录的类型是指离散型数据和连续型数据。
步骤2)依次选择网络物理系统数据记录构建决策树。
步骤21)当数据记录是离散型数据,则进行如下步骤:
步骤211)创建一个根节点,该节点包括网络物理系统当前所有离散型的数据记录。
步骤212)当根节点中所有数据记录的属性值都相同,则将根节点标记为叶子节点C, 并返回根节点。
步骤213)当根节点中所有数据记录的属性值不相同,则计算每种属性的数据在所有数 据记录中出现的次数与总的数据个数的比值,将这个比值作为该种属性的信息增益,选择具 有最大信息增益的属性作为分裂属性,根据这个分裂属性将根节点分为两部分。所述的信息 增益是一种选择方式,看属性能够为分类系统带来多少信息,带来的信息越多,该特征越重 要。所述的分裂属性是指节点分裂成不同节点所依据的原则,是一个判断逻辑。
步骤214)按照步骤211)至步骤213),对于新生成的节点递归进行相同的步骤。
步骤215)向用户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决 策树完成对网络物理系统中离散型数据记录的分类。
步骤22)当数据记录是连续型数据,则进行如下步骤:
步骤221)创建一个根节点,该节点包括网络物理系统当前所有连续型的数据记录;
步骤222)分别计算各个数据记录作为分隔点的残差平方和。所述的计算残差平方和的 具体步骤为首先计算每一个数据记录的数据值与当前作为分隔点的数据记录的数据值的差, 再计算所有数据记录的数据值的平均值,然后计算每一个数据记录的数据值与所有数据记录 的数据值的平均值的差,最后将每一个数据记录的数据值与作为分隔点的数据记录的数据值 的差、每一个数据记录的数据值与所有数据记录的数据值的平均值的差这两个值之间的差的 平方和作为当前作为分隔点的数据记录的残差平方和。
步骤223)选择残差平方和最小的数据记录作为最佳分隔点。所述的最佳分隔点是指分 裂节点的一种原则。
步骤224)将小于分隔点的数据数据记录作为该分隔点的左子树;
步骤225)将大于分隔点的数据数据记录作为该分隔点的右子树。
步骤226)依据步骤221)至步骤224)对左子树进行构建决策树;
步骤227)依据步骤221)至步骤224)对右子树进行构建决策树;
步骤228)当该节点属性完全相同或只剩一个数据记录,则将该节点标记为叶节点;
步骤229)选择两个相邻叶子节点,计算这两个相邻叶子节点的残差平方和,再计算这 两个相邻叶子节点合并后的残差平方和,然后比较这两个相邻叶子节点合并前后的残差平方 和,当合并后的小于合并前的,则将两个叶子节点合并为一个节点;
步骤2210)重复步骤229),当所有相邻叶子节点都通过步骤229)进行处理完毕,向用 户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决策树完成对网络物理 系统中连续型数据记录的分类。
有益效果:本发明提供了一种基于决策树的网络物理系统混合数据分类方法,具有如下 的有益效果:
(1)本发明所述的基于决策树的数据分类方法因为决策树算法利用分而治之的思想,递 归式地对高维度数据降维,分成一个个很容易处理的块。
(2)本发明所述的基于决策树的数据分类方法,可以将海量的数据进行数据分类,为后 续的决策判断提供科学依据,作为后续开发的基础。
(3)本发明所述的基于决策树的数据分类方法,虽然是用于最初的分析阶段,但是相比 于其他的分类方法,比较高效。
附图说明
图1是网络物理系统混合数据分类方法流程图。
具体实施方式
下面对本发明附图的某些实施例作更详细的描述。
图1是本专利所述网络物理系统混合数据分类方法的流程图。因为网络物理系统所传输 的数据类型是不定的,可以是离散值,也可以是连续值,所以本发明对此做了区分长处理, 下面以具体实例来进一步描述具体实施的步骤。
本发明应用到视频监控系统中,可以得到如下的应用。
视频监控系统属于一种网络物理系统,可以传输视频监控信息,本发明在这里统计在不 同的人一天内出现在同一个摄像头下出现的次数和时间,性别,时刻的信息数据进行分类, 所有的数据记录是一年统计的数据。其中,出现的次数,性别是一个离散值,而时间,时刻 是一个连续值。应用本发明进行分类的具体步骤如下:
步骤1)收集用户输入的网络物理系统的数据记录,设定出现在同一个摄像头下的次数 mi,性别gi是离散值,出现在同一个摄像头下的时间ti,时刻Ti是连续值。
步骤2)根据网络物理系统所传输的次数mi,性别gi和时间ti,时刻Ti记录建立决策树, 具体步骤如下。所述的数据记录包括数据值,属性名称,属性值(对不同的属性进行标号, 使不同的属性对应特定的值)。
步骤21)如果传输的是出现的次数mi,性别gi,则进行如下步骤:
步骤211)创建一个根节点N,该节点包括网络物理系统所传输的所有次数记录mi;
步骤212)如果根节点N中所有数据记录的属性值都相同,则将根节点N标记为叶子节 点C,并返回根节点N;
步骤213)否则,计算信息增益;所述的信息增益是一种选择方式,看属性能够为分类 系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时 信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量, 就是熵。信息增益的公式为D是所有的数据记录,pi表示数据记 录中属于类i的非零概率。具体步骤如下:
步骤2131)统计每种属性的数据在所有数据记录中出现的次数ni;
步骤2132)计算ni与总的数据个数的比值pi;
步骤2133)计算信息增益
步骤214)选择最大的数据作为分裂属性,将根节点N分为两部分;所述的分裂属性是 指节点分裂成不同节点所依据的原则,是一个判断逻辑。
步骤215)按照前三步的方法,对于新生成的节点递归进行相同的步骤;
步骤216)返回根节点N;
步骤22)如果数据记录是出现的时间ti,时刻Ti,则进行一下步骤:
步骤221)创建一个根节点N,该节点包括网络物理系统所传输的所有时间记录ti;
步骤222)计算各个数据记录作为分隔点的残差平方和;所述的残差平方和是用来表示 数据拟合程度的量。残差平方和的计算公式是其中yi'表示每一个数据记录 的数据值y的估计值与作为实际值的差,表示每一个数据记录的数据值y的实际值与所有 数据记录的数据值的平均值之间的差。具体步骤如下:
步骤2221)计算每一个数据记录的数据值与作为分隔点的数据记录的数据值的差yi';
步骤2222)计算所有数据记录的数据值的平均值
步骤2223)计算每一个数据记录的数据值与平均值的差
步骤2224)计算作为分隔点的数据记录的残差平方和
步骤223)选择残差平方和最小的数据记录作为最佳分隔点;所述的最佳分隔点是指分 裂节点的一种原则。
步骤224)将小于分隔点的数据记录作为该分隔点的左子树;
步骤225)将大于分隔点的数据记录作为该分隔点的右子树;
步骤226)依据步骤221)——步骤224)对左子树进行构建决策树;
步骤227)依据步骤221)——步骤224)对右子树进行构建决策树;
步骤228)当该节点属性完全相同或只剩一个数据,则将该节点标记为叶节点Ci,其中 i=1,2...n(n为最终叶节点的个数);
步骤229)计算两个相邻两个叶子节点Ci,Ci+1的残差平方和;
步骤22-10)计算这两个叶子节点Ci,Ci+1合并后的残差平方和;
步骤22-11)比较合并前后的残差平方和,如果合并后的小于合并前的,则将两个叶子节 点合并为一个节点Ci;
步骤22-12)按照前三步的方法递归进行所有叶节点的比较;
步骤22-13)返回根节点N。

一种网络物理系统混合数据分类方法.pdf_第1页
第1页 / 共7页
一种网络物理系统混合数据分类方法.pdf_第2页
第2页 / 共7页
一种网络物理系统混合数据分类方法.pdf_第3页
第3页 / 共7页
点击查看更多>>
资源描述

《一种网络物理系统混合数据分类方法.pdf》由会员分享,可在线阅读,更多相关《一种网络物理系统混合数据分类方法.pdf(7页珍藏版)》请在专利查询网上搜索。

本发明给出一种网络物理系统混合数据分类方法,该方法利用决策树对用户输入网络物理系统数据依据不同的类型进行分类处理。在本方法中,当数据记录是离散型数据,通过计算数据记录属性的信息增益来构建代表离散型数据分类的决策树;当数据记录是连续型数据,通过计算数据记录的残差平方和来构建代表离散型数据分类的决策树。本发明所述的网络物理系统混合数据分类方法包含如下过程:收集用户输入网络物理系统数据,根据相关的逻辑判。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1