一种基于多分类器融合的动态数据分级方法.pdf

上传人:e2 文档编号:4036721 上传时间:2018-08-12 格式:PDF 页数:7 大小:402.77KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510095551.5

申请日:

2015.03.04

公开号:

CN104636493A

公开日:

2015.05.20

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20150304|||公开

IPC分类号:

G06F17/30; G06K9/62

主分类号:

G06F17/30

申请人:

浪潮电子信息产业股份有限公司

发明人:

赵雅倩; 陈继承

地址:

250101山东省济南市高新区浪潮路1036号

优先权:

专利代理机构:

济南信达专利事务所有限公司37100

代理人:

姜明

PDF下载: PDF下载
内容摘要

本发明公开一种基于多分类器融合的动态数据分级方法,属于计算机存储技术领域,具体步骤为:①对训练集数据进行数据特征提取,形成初始数据特征集合;②对初始数据特征集合,进行数据特征预处理,筛选出最优特征子集;③对最优特征子集,进行多分类器训练,得出不同分类模型;④将不同分类模型经分类器融合形成动态数据分级模型,利用动态数据分级模型对动态数据进行分级;本发明的方法提高复杂应用环境中数据分级的准确性,更合理的表述多应用多类型数据的存储层次,在提高数据分级的准确性的同时,进一步提升存储性能。

权利要求书

权利要求书
1.  一种基于多分类器融合的动态数据分级方法,其特征是具体步骤为:
①对训练集数据进行数据特征提取,形成初始数据特征集合;
②对初始数据特征集合,进行数据特征预处理,筛选出最优特征子集;
③对最优特征子集,进行多分类器训练,得出不同分类模型;
④将不同分类模型经分类器融合形成动态数据分级模型,利用动态数据分级模型对动态数据进行分级。

2.  根据权利要求1所述的一种基于多分类器融合的动态数据分级方法,其特征是所述的数据特征提取利用人工或机器进行,用映射或变换的方法将原始特征降维,变换为与原始特征相比数量较少的新特征,形成初始数据特征集合。

3.  根据权利要求1或2所述的一种基于多分类器融合的动态数据分级方法,其特征是对所述的初始数据特征集合,选择最有分类信息的特征,使用PCA、维度变换、粗糙集属性约简中的一种或几种方法进行筛选,筛选出最优特征子集。

4.  根据权利要求3所述的一种基于多分类器融合的动态数据分级方法,其特征是根据应用场景和数据类型选择多个分类器进行训练,得到若干分类器模型,选择有监督分类器,以及相对简单的半监督或无监督分类器模型。

5.  根据权利要求4所述的一种基于多分类器融合的动态数据分级方法,其特征是不同分类模型的数据类别进行决策融合,根据各分类器的贡献度,可得到融合分类器模型如下:
其中, Wij是分类器i对类别j的贡献度,Cij是分类器i判断数据属于类别j的置信度。

6.  根据权利要求5所述的一种基于多分类器融合的动态数据分级方法,其特征是使用的所述的决策融合方法有投票选举法、遗传算法、模糊积分融合中的一种或几种。

7.  根据权利要求6所述的一种基于多分类器融合的动态数据分级方法,其特征是利用所述的动态数据分级模型对动态数据进行分级过程为:计算待处理数据的分类特征,将其与各分类器模型进行匹配,各分类器的分类并行处理,得到各分类器的决策结果Cij,利用生成的动态数据分级模型进行计算,得到待处理数据的最终判别类别,完成与其余存储层次的映射。

说明书

说明书一种基于多分类器融合的动态数据分级方法
技术领域
本发明公开一种动态数据分级方法,属于计算机存储技术领域,具体地说是一种基于多分类器融合的动态数据分级方法。
背景技术
随着大数据、云存储时代的到来,云数据中心得到了飞速发展,使得高性能、低成本的智能数据管理成为研究热点。由于复杂的应用环境导致数据具有时效性和空间性、数据访问和处理复杂性、存储访问需求多样性等特征,所以需要对各种动态数据进行分级、分层处理,以实现应用需求和存储资源之间的合理映射,提高存储设备的性价比。例如,通过数据分级模型将数据分为热点数据与冷数据,将热点数据放置到性能更加优异的存储设备上,提升访问性能,将不被经常访问的冷数据放置到低速设备上,降低存储成本。随着数据中心规模的扩大,数据种类越来越多,应用场景也越来越复杂,基于单一分类器的动态数据分级模式已不能适应新的需求。针对此问题,本发明提出了一种基于多分类器融合的智能动态数据分级方法,提高复杂应用环境中数据分级的准确性, 更合理的表述多应用多类型数据的存储层次,在提高数据分级的准确性的同时,进一步提升存储性能。而且,由于多个分类器通常都选择简单模型,可并行处理,因此,基于多分类器融合的动态数据分级方法还可提高数据分级的处理速度,提升存储效率。
发明内容
本发明针对随着数据中心规模的扩大,数据种类越来越多,应用场景也越来越复杂,基于单一分类器的动态数据分级模式已不能适应新的需求的问题,提供一种基于多分类器融合的动态数据分级方法,实现了提高复杂应用环境中数据分级的准确性, 更合理的表述多应用多类型数据的存储层次。
本发明提出的具体方案是:
一种基于多分类器融合的动态数据分级方法,具体步骤为:
①对训练集数据进行数据特征提取,形成初始数据特征集合;
②对初始数据特征集合,进行数据特征预处理,筛选出最优特征子集;
③对最优特征子集,进行多分类器训练,得出不同分类模型;
④将不同分类模型经分类器融合形成动态数据分级模型,利用动态数据分级模型对动态数据进行分级。
所述的数据特征提取利用人工或机器进行,用映射或变换的方法将原始特征降维,变换为与原始特征相比数量较少的新特征,形成初始数据特征集合。
对所述的初始数据特征集合,选择最有分类信息的特征,使用PCA、维度变换、粗糙集属性约简中的一种或几种方法进行筛选,筛选出最优特征子集。
根据应用场景和数据类型选择多个分类器进行训练,得到若干分类器模型,选择有监督分类器,以及相对简单的半监督或无监督分类器模型。
不同分类模型的数据类别进行决策融合,根据各分类器的贡献度,可得到融合分类器模型如下:
其中, Wij是分类器i对类别j的贡献度,Cij是分类器i判断数据属于类别j的置信度。
使用的所述的决策融合方法有投票选举法、遗传算法、模糊积分融合中的一种或几种。
利用所述的动态数据分级模型对动态数据进行分级过程为:计算待处理数据的分类特征,将其与各分类器模型进行匹配,各分类器的分类并行处理,得到各分类器的决策结果Cij,利用生成的动态数据分级模型进行计算,得到待处理数据的最终判别类别,完成与其余存储层次的映射。
本发明的有益之处是:本发明提出了一种基于多分类器融合的智能动态数据分级方法,提高复杂应用环境中数据分级的准确性, 更合理的表述多应用多类型数据的存储层次,在提高数据分级的准确性的同时,进一步提升存储性能。而且,由于多个分类器通常都选择简单模型,可并行处理,因此,基于多分类器融合的动态数据分级方法还可提高数据分级的处理速度,提升存储效率。
附图说明
图1本发明的流程示意图。
具体实施方式
对本发明做进一步具体说明,对一组大量的人物图片数据进行动态分级。具体过程如下。
一种基于多分类器融合的动态数据分级方法,具体步骤为:
①将图片集数据进行数据特征提取,形成初始数据特征集合;此次数据特征提取利用人工或机器都可进行,用变换的方法将原始特征降维,变换为与原始特征相比数量较少的新特征,形成初始数据特征集合。
②对所述的初始数据特征集合,选择最有分类信息的特征,此次图片选择最能体线性别的特征作为最有分类信息的特征,使用PCA筛选出最优特征子集;其中PCA是最优正交线性变换,相应的特征提取方式。
③对最优特征子集,进行多分类器训练,得出不同分类模型;其中一个分类器训练,如下:
根据上述的最优特征子集的样本,利用OpenCV训练分类器。这个过程是由haartraining程序来实现的,该程序源码由OpenCV自带,且可执行程序在OpenCV安装目录的bin目录下。
Haartraining的命令行参数如下:
-data<dir_name>存放训练好的分类器的路径名。
-vec<vec_file_name>正样本文件名(由trainingssamples程序或者由其他的方法创建的)
-bg<background_file_name>背景描述文件。
-npos<number_of_positive_samples>,
-nneg<number_of_negative_samples>用来训练每一个分类器阶段的正/负样本。合理的值是:nPos = 7000;nNeg = 3000
-nstages<number_of_stages>训练的阶段数。
-nsplits<number_of_splits>决定用于阶段分类器的弱分类器。如果1,则一个简单的stump classifier被使用。如果是2或者更多,则带有number_of_splits个内部节点的CART分类器被使用。
-mem<memory_in_MB>预先计算的以MB为单位的可用内存。内存越大则训练的速度越快。
-sym(default)
-nonsym指定训练的目标对象是否垂直对称。垂直对称提高目标的训练速度。例如,正面部是垂直对称的。
-minhitrate《min_hit_rate》每个阶段分类器需要的最小的命中率。总的命中率为min_hit_rate的number_of_stages次方。
-maxfalsealarm<max_false_alarm_rate>没有阶段分类器的最大错误报警率。总的错误警告率为max_false_alarm_rate的number_of_stages次方。
-weighttrimming<weight_trimming>指定是否使用权修正和使用多大的权修正。一个基本的选择是0.9
-eqw
-mode<basic(default)|core|all>选择用来训练的haar特征集的种类。basic仅仅使用垂直特征。all使用垂直和45度角旋转特征。
-w《sample_width》
-h《sample_height》训练样本的尺寸,(以像素为单位)。必须和训练样本创建的尺寸相同。
一个训练分类器的例子:
"D:/Program Files/OpenCV/bin/haartraining.exe"   -data data/cascade -vec data/pos.vec -bg negdata/negdata.dat -npos 49 -nneg 49 -mem 200 -mode ALL -w 20 -h 20训练结束后,会在目录data下生成一些子目录,即为训练好的分类器。训练好的分类器生成不同分类模型。
④将不同分类模型经分类器融合形成动态数据分级模型,利用动态数据分级模型对动态数据进行分级。根据应用场景和数据类型选择多个分类器进行训练,得到若干分类器模型,可以选择有监督分类器,以及相对简单的半监督或无监督分类器模型。
不同分类模型的数据类别进行决策融合,根据各分类器的贡献度,可得到融合分类器模型如下:
其中, Wij是分类器i对类别j的贡献度,Cij是分类器i判断数据属于类别j的置信度。
利用所述的动态数据分级模型对动态数据进行分级过程为:计算待处理数据的分类特征,将其与各分类器模型进行匹配,各分类器的分类并行处理,得到各分类器的决策结果Cij,利用生成的动态数据分级模型进行计算,得到待处理数据的最终判别类别,完成与其余存储层次的映射。

一种基于多分类器融合的动态数据分级方法.pdf_第1页
第1页 / 共7页
一种基于多分类器融合的动态数据分级方法.pdf_第2页
第2页 / 共7页
一种基于多分类器融合的动态数据分级方法.pdf_第3页
第3页 / 共7页
点击查看更多>>
资源描述

《一种基于多分类器融合的动态数据分级方法.pdf》由会员分享,可在线阅读,更多相关《一种基于多分类器融合的动态数据分级方法.pdf(7页珍藏版)》请在专利查询网上搜索。

本发明公开一种基于多分类器融合的动态数据分级方法,属于计算机存储技术领域,具体步骤为:对训练集数据进行数据特征提取,形成初始数据特征集合;对初始数据特征集合,进行数据特征预处理,筛选出最优特征子集;对最优特征子集,进行多分类器训练,得出不同分类模型;将不同分类模型经分类器融合形成动态数据分级模型,利用动态数据分级模型对动态数据进行分级;本发明的方法提高复杂应用环境中数据分级的准确性,更合理的表述多。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1