实时数据流模式识别应用的数据补全方法.pdf

上传人:zhu****69 文档编号:4591950 上传时间:2018-10-21 格式:PDF 页数:10 大小:1.22MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410737932.4

申请日:

2014.12.05

公开号:

CN104484673A

公开日:

2015.04.01

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06K 9/62申请日:20141205|||公开

IPC分类号:

G06K9/62

主分类号:

G06K9/62

申请人:

南京大学

发明人:

吕建; 汪亮; 陶先平

地址:

210046江苏省南京市栖霞区仙林大道163号

优先权:

专利代理机构:

南京苏高专利商标事务所(普通合伙)32204

代理人:

李玉平

PDF下载: PDF下载
内容摘要

本发明公开了一种针对实时数据流模式识别应用中数据缺失问题的数据补全方法。该数据补全方法包含一个运行时动态缓存、一项数据完整性指标和一个基于滑动窗口的迭代式数据补全算法构成。其中,运行时动态缓存保存获取的实时数据;数据完整性指标根据数据率与当前滑动窗口中数据的分布来判断数据完整性;数据补全算法根据数据完整性,迭代地使用缓存的历史数据来对当前滑动窗口的数据进行补全。本发明针对实时数据流模式识别应用中常见的数据缺失问题,提出了一种高效的数据补全方法,拥有补全效果好、在线化程度高、适用面广、对应用透明等优点,能够有效运用于各类针对连续实时数据流的模式识别应用。

权利要求书

1.  一种实时数据流模式识别应用的数据补全方法,其特征在于,包含一个 运行时在线数据缓存,一项数据完整性指标、和一个基于滑动窗口的迭代式抗冗 余数据补全算法,具体包含以下步骤:
1)数据源连续产生数据形成输入数据流,设数据率已知为每秒r个采样值, 输入数据存储于运行时在线数据缓存,记缓存的数据为D;
2)以当前时刻t为起点,使用大小为w秒的滑动窗口在缓存的数据中向前 截取一段D[t-w,t]作为当前窗口数据;
3)在当前窗口数据D[t-w,t]的基础上,结合已知数据源的数据率r、滑动窗 口大小w,计算数据完整性指标c;
4)若当前窗口数据D[t-w,t]的完整性指标c不达标,则从前一个窗口的数据 D[t-2w,t-w]中以最小冗余为原则,选取数据补充填入当前窗口D[t-w,t],若补全 后完整性指标c达到标准则算法结束,否则迭代执行本步骤直至完整性指标c达 到标准或穷尽缓存中的所有数据。

2.
  如权利要求1所述的实时数据流模式识别应用的数据补全方法,其特征 在于,步骤1)的具体过程为:
1.1)创建动态大小的在线运行时缓存D;
1.2)将数据源产生的数据存入D,并按照数据获取时间递增排序;
1.3)根据上层模式识别应用的需求,定义D中缓存数据最长的保留时间为 h秒,以避免缓存过于陈旧的数据。

3.
  如权利要求2所述的实时数据流模式识别应用的数据补全方法,其特征 在于,步骤2)的具体过程为:
2.1)根据上层模式识别应用的需求,定义滑动窗口的大小w秒为合理的数 据在时间上的分片粒度;
2.2)以当前时刻t为起点,向前回溯读取缓存D中以t-w时刻开始到t时刻 结束的一段数据D[t-w,t]作为当前滑动窗口的数据。

4.
  如权利要求2所述的实时数据流模式识别应用的数据补全方法,其特征 在于,步骤3)的具体过程为:
3.1)给定当前滑动窗口数据D[t-w,t],已知数据源的数据率r和滑动窗口大 小w,按照以下公式计算数据完整性指标c:

其中,分子|D[t-w,t]|表示D[t-w,t]中所包含数据的数量;根据上述公式,由于分母 r·w是w时间内传感器数据量的上限,因此c为定义在[0,1]区间上的实数,c取 值越大,表示数据D[t-w,t]的完整性越高。

5.
  如权利要求2所述的实时数据流模式识别应用的数据补全方法,其特征 在于,步骤4)的具体过程为:
4.1)设置补全回溯深度变量j并初始化为j=1;
4.2)设用于补全的缓存历史数据段为D[t-2w,t-w],取D[t-2w,t-w]中尾部的j 个数据和D[t-w,t]中头部的j个数据进行比较,取其差值的绝对值相加并求平均, 即,按照如下公式计算j项数据间差值的平均值,d(j):
d ( j ) = 1 j Σ k = 1 j | D [ t - ω - j + k - 1 ] - D [ t - ω + k - 1 ] | ]]>
其中,j为历史数据段和当前数据段的重叠部分大小,k取1到j表示对重叠部分 的数据进行枚举,|D[t-w-j+k-1]–D[t-w+k-1]|表示历史数据段的倒数第j项数据 和当前数据段的第一项数据对其后,重叠部分第k项数据的数值差的绝对值;
4.3)计算当j的值为1到w时d(j)的取值,最终确定使得d(j)最小的j的值 j’;
4.4)将D[t-2w,t-w-j’]中的数据子序列,按原顺序补充到D[t-w,t]中数据序列 的前方,得到补全后的当前滑动窗口中的数据D[t-w,t]。

说明书

实时数据流模式识别应用的数据补全方法
技术领域
本发明涉及一种针对实时数据流模式识别应用的数据补全方法,属于计算机 应用领域,针对实时数据流采集与传输中常见的因设备性能限制、网络通信质量 波动等原因造成的数据缺失问题,结合在线实时模式识别应用的特性,实现了一 种高效的数据补全方法。
背景技术
随着物联网相关技术,如无线传感器网络、可穿戴式感知和计算设备的快速 发展,计算机系统能够不断地获取外部环境感知数据并进行处理。这些由大量传 感器节点不间断感知到的数据通过无线网络等传输手段实时汇总到处理节点,就 形成了潜在无穷的实时数据流。这些实时数据流经过处理后,能够通过模式识别 等技术,从中提取出拥有高抽象层次的、丰富语义的、有用的信息,来服务于人 类。
由于无线网络传输的不可靠性、带宽的局限性、各类传感器定时睡眠等原因, 处理节点接收到的实时数据流往往存在数据的缺失。而与实时数字信号处理和流 媒体播放类应用不同,模式识别算法旨在从底层数据流中抽取出有用的特征,从 而识别出具有高抽象层次、丰富语义的、有用的信息。数据补全方法是模式识别 应用中应对数据缺失问题的重要技术,传统的方法往往采用在缺失处填入固定默 认值、或最近的一次获得的数据的方式来对缺失数据进行补全。但是由于这种方 法没有很好地契合模式识别类应用的特点,因此其效果往往不是特别显著。
发明内容
发明目的:为了克服传统方法数据补全效果差的不足,本发明从针对实时流 数据的模式识别类应用的特点出发,提出了一种使用在线缓存数据的、低冗余、 高效的数据补全方法。在高效的同时,该数据补全方法对输入数据特征、后续模 式识别方法和其它系统组件实现方案不作任何预设,能够无缝、透明地插入和拔 出应用系统数据处理流程,灵活满足不同应用场景的需求。
从一般意义上说,模式识别类应用具有以下三个特点:1)对数据缺失敏感: 数据缺失造成的信息丢失,会对特征提取的质量造成严重影响,进而影响模式识 别算法的准确性;2)从模式识别结果角度看,数据具有本地化特性:高层抽象 信息表现为包含丰富语义信息的类别,与实时原始数据不同,类别的变化频率相 对缓慢,因此,在考虑数据对应的类别时,呈现出本地化的特性(即,数据所对 应的类别在一段时间内不改变);3)冗余信息价值不大:重复的、冗余的数据对 于提取有用特征的价值不大。
根据以上三个特点,我们确定了针对模式识别应用的数据补全算法需求,提 出了利用历史数据进行补全的方法,提出了相应的完整性指标和抗冗余的数据补 全算法。具体来说,本发明所提出的针对实时流数据模式识别应用的数据补全方 法,包含一个运行时在线数据缓存,一项数据完整性指标、和一个基于滑动窗口 的迭代式抗冗余数据补全算法。该数据补全方法对于模式识别应用的其他组件透 明,可以方便地应用于已部署的系统中增强系统的抗数据丢失能力,也可以在需 要时随时关闭而不影响系统其他组件的正常运行。
技术方案:一种实时数据流模式识别应用的数据补全方法,其具体过程包含 以下步骤:
1)数据源连续产生数据形成输入数据流,设数据率已知为每秒r个采样值 (r根据应用场景确定,为正实数),输入数据存储于运行时在线数据缓存,记 缓存的数据为D;
2)以当前时刻t为起点,使用大小为w秒(w根据应用场景确定,为正实 数)的滑动窗口在缓存的数据中向前截取一段D[t-w,t]作为当前窗口数据;
3)在当前窗口数据D[t-w,t]的基础上,结合已知数据源的数据率r、滑动窗 口大小w,计算数据完整性指标c;
4)若当前窗口数据D[t-w,t]的完整性指标c不达标,则从前一个窗口的数据 D[t-2w,t-w]中以最小冗余为原则,选取数据补充填入当前窗口D[t-w,t],若补全 后完整性指标c达到标准则算法结束,否则迭代执行本步骤直至完整性指标c达 到标准或穷尽缓存中的所有数据。
其中,步骤1)的具体过程为:
1.1)创建动态大小的在线运行时缓存D;
1.2)将数据源产生的数据存入D,并按照数据获取时间递增排序;
1.3)根据上层模式识别应用的需求,定义D中缓存数据最长的保留时间为 h秒(h为w的整数倍),以避免缓存过于陈旧的数据。
其中,步骤2)的具体过程为:
2.1)根据上层模式识别应用的需求,定义滑动窗口的大小w秒为合理的数 据在时间上的分片粒度;
2.2)以当前时刻t为起点,向前回溯读取缓存D中以t-w时刻开始到t时刻 结束的一段数据D[t-w,t]作为当前滑动窗口的数据。
其中,步骤3)的具体过程为:
3.1)给定当前滑动窗口数据D[t-w,t],已知数据源的数据率r和滑动窗口大 小w,按照以下公式计算数据完整性指标c:

其中,分子|D[t-w,t]|表示D[t-w,t]中所包含数据的数量。根据上述公式,由于分母 r·w是w时间内传感器数据量的上限,因此c为定义在[0,1]区间上的实数,c取 值越大,表示数据D[t-w,t]的完整性越高。
其中,步骤4)的具体过程为:
4.1)设置补全回溯深度变量j并初始化为j=1;
4.2)设用于补全的缓存历史数据段为D[t-2w,t-w],取D[t-2w,t-w]中尾部的j 个数据和D[t-w,t]中头部的j个数据进行比较,取其差值的绝对值相加并求平均, 即,按照如下公式计算j项数据间差值的平均值,d(j):
d ( j ) = 1 j Σ k = 1 j | D [ t - w - j + k - 1 ] - D [ t - w + k - 1 ] | ]]>
其中,j为历史数据段和当前数据段的重叠部分大小,k取1到j表示对重叠部分 的数据进行枚举,|D[t-w-j+k-1]–D[t-w+k-1]|表示历史数据段的倒数第j项数据 和当前数据段的第一项数据对其后,重叠部分第k项数据的数值差的绝对值;
4.3)计算当j的值为1到w时d(j)的取值,最终确定使得d(j)最小的j的值 j’;
4.4)将D[t-2w,t-w-j’]中的数据子序列,按原顺序补充到D[t-w,t]中数据序列 的前方,得到补全后的当前滑动窗口中的数据D[t-w,t]。
附图说明
图1是系统流程图;
图2是数据补全方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本 发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发 明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
1、硬件环境
1)由一个或多个传感器节点构成的数据源,能够连续产生传感器数据汇聚 成数据流,数据流中的数据可能会产生缺失;
2)一个数据补全服务器,该服务器能够连入数据源获取实时数据流,并具 备足够的存储和处理能力(视数据流的数据率而定)来满足在线数据缓存和补全 算法的需求。
2、应用场景
在应用本发明所公开的数据补全方法时,首先需将实时采集得到的传感器数 据流接入数据补全服务器。由用户根据后续的模式识别方法的需求规定数据的分 片大小w、数据完整性指标c、以及缓存大小h。服务器根据接收到的实时数据, 以w时间为单位判断数据的完整性并进行相应的补全操作。该数据补全方法确 保输出的数据流尽可能地达到用户所规定的数据完整性指标c,同时保证所包含 的数据为最新的h时间内所采集到的数据。补全后的数据相比原始数据有更高的 完整性,更有利于后续的模式识别方法从中提取出有用的信息。
补全后的数据和输入数据流相同的格式,因此该数据补全方法对数据流的操 作对于应用的其他组件是透明的,能够方便地插入和拔出应用系统的数据处理流 程,满足不同流数据模式识别应用的需求。
本发明所涉及技术的一个典型应用场景是以物联网技术为支撑的大数据应 用。在物联网基础设施的支持下,能够采集到大量的环境、用户健康信息等数据 并汇总到云端。这类技术包括目前已经处于快速建设当中的空气质量检测网络、 车载移动传感器网络、智能可穿戴设备网络等。以智能可穿戴设备网络为例,目 前市场上新兴的以智能手环为代表的可穿戴设备,能够以较高的采样频率,获取 包括加速度、心率、体温在内的和用户生理健康有关的数据。这些采集到的原始 数据通过无线通信技术,以实时数据流的形式汇总到云端进行处理。云端软件通 过一系列的模式识别方法,能够从用户生理原始数据中识别出用户的动作、情绪 状态、日常生活规律等有用的高层次信息,进而更好地为用户提供服务。然而由 于网络通信的不可靠性、电池耗尽导致关机、设备主动睡眠、用户不当使用等不 可控的原因,底层硬件所采集并传送到云端的原始数据中不可避免地存在缺失的

情况。若要从数据源头保证数据的高质量、高完整性,则要付出相当大的代价或 根本无法实现。而通过合理使用本发明所提出的数据补全方法,可以在原始数据 存在缺失的情况下,以很小的代价,保持高层模式识别结果的高质量,满足应用 的整体需求。
3、方法描述
本发明所涉及的针对实时数据流模式识别应用的数据补全方法,其数据处理 流程如图1所示。
1)数据分片和缓存技术
本发明所涉及的实时数据补全方法,其基础是对输入数据流的分片和缓存技 术。假设当前时间为t,根据应用需求,能够确定时间分片的大小为w秒,模式 识别应用能够容忍的数据新鲜度为h秒(h为w的整数倍)。数据分片和缓存技 术首先利用一个长度为w秒滑动窗口将输入数据流切分成时间上不相交的数据 段D[t-w,t],D[t-2w,t-w],...,D[i,j],...,D[t-h,t-h+w],其中i和j分别是数据段中所 包含数据的开始和结束时间。由于每段数据中所包含的数据量,根据数据源的数 据率和数据缺失情况,可能存在较大波动,因此在缓存数据段时,需要开辟动态 存储空间来对缓存数据进行存储。考虑到h的取值往往较小,因此对数据的缓存 可以在内存中完成。
2)数据完整性指标计算
假设数据源的数据率为每秒r个采样值,给定当前时间t和分片大小w,当 分片得到的当前数据段D[t-w,t]中所包含的采样数据的项数|D[t-w,t]|小于r·w 时,称当前数据段中的数据不完整,而其不完整(或完整)的程度,由完整性量 化指标c刻画,c的计算方法如下式所示:

3)最小冗余数据匹配和补全方法
当当前数据段中所包含的数据量达不到应用系统所需要的数据量,即,数据 完整性指标c低于应用所规定的阈值时(阈值的取值由应用决定,往往取0.7以 上较为合理),则需要对当前数据段中的数据进行补全。在进行补全时,利用数 据的本地化特性,即,数据所对应的类别在一段时间内不改变,从而能够通过将 较近一段时间内采集到的数据补充到现有的数据段中,来实现以较低概率引入其 他类别数据的基础上,补足当前数据段中缺失的信息的目的。同时,根据模式识 别应用的特点,冗余数据的价值很低,因此在补全时需要去除冗余信息。
在补全时,以一个单位时间的数据重叠为起始点,计算当前数据段和缓存的 历史数据段在不同程度的重叠时的相似程度来判断冗余。用于判断冗余程度的相 似性量化指标的计算过程如下所述:
设用于补全的缓存历史数据段为D[t-2w,t-w],取D[t-2w,t-w]中尾部的j个数 据和D[t-w,t]中头部的j个数据进行比较,取其差值的绝对值相加并求平均,即, 按照如下公式计算j项数据间差值的平均值,d(j):
d ( j ) = 1 j Σ k = 1 j | D [ t - w - j + k - 1 ] - D [ t - w + k - 1 ] | ]]>
取使得d(j)最小的j的取值j’为最终的j的取值,并将D[t-2w,t-w-j’]中的数 据子序列,按原顺序补充到D[t-w,t]中数据序列的前方,得到补全后的当前滑动 窗口中的数据D[t-w,t]。
完成当前一次补全后,再度计算D[t-w,t]的数据完整性指标,若没有达到应 用所规定的完整性阈值,则继续使用本过程,使用D[t-3w,t-2w]中缓存的历史数 据来对当前数据段中的数据进行补全;若数据完整性达到标准,或已穷尽所有缓 存的数据,则结束算法。

实时数据流模式识别应用的数据补全方法.pdf_第1页
第1页 / 共10页
实时数据流模式识别应用的数据补全方法.pdf_第2页
第2页 / 共10页
实时数据流模式识别应用的数据补全方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《实时数据流模式识别应用的数据补全方法.pdf》由会员分享,可在线阅读,更多相关《实时数据流模式识别应用的数据补全方法.pdf(10页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410737932.4 (22)申请日 2014.12.05 G06K 9/62(2006.01) (71)申请人 南京大学 地址 210046 江苏省南京市栖霞区仙林大道 163 号 (72)发明人 吕建 汪亮 陶先平 (74)专利代理机构 南京苏高专利商标事务所 ( 普通合伙 ) 32204 代理人 李玉平 (54) 发明名称 实时数据流模式识别应用的数据补全方法 (57) 摘要 本发明公开了一种针对实时数据流模式识别 应用中数据缺失问题的数据补全方法。该数据补 全方法包含一个运行时动态缓存、 一项数据完整 性指标和一个基于滑动。

2、窗口的迭代式数据补全算 法构成。 其中, 运行时动态缓存保存获取的实时数 据 ; 数据完整性指标根据数据率与当前滑动窗口 中数据的分布来判断数据完整性 ; 数据补全算法 根据数据完整性, 迭代地使用缓存的历史数据来 对当前滑动窗口的数据进行补全。本发明针对实 时数据流模式识别应用中常见的数据缺失问题, 提出了一种高效的数据补全方法, 拥有补全效果 好、 在线化程度高、 适用面广、 对应用透明等优点, 能够有效运用于各类针对连续实时数据流的模式 识别应用。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书5页 附图2页 (10)申请公布号。

3、 CN 104484673 A (43)申请公布日 2015.04.01 CN 104484673 A 1/2 页 2 1.一种实时数据流模式识别应用的数据补全方法, 其特征在于, 包含一个运行时在线 数据缓存, 一项数据完整性指标、 和一个基于滑动窗口的迭代式抗冗余数据补全算法, 具体 包含以下步骤 : 1) 数据源连续产生数据形成输入数据流, 设数据率已知为每秒 r 个采样值, 输入数据 存储于运行时在线数据缓存, 记缓存的数据为 D ; 2) 以当前时刻 t 为起点, 使用大小为 w 秒的滑动窗口在缓存的数据中向前截取一段 Dt-w,t 作为当前窗口数据 ; 3) 在当前窗口数据 Dt-。

4、w,t 的基础上, 结合已知数据源的数据率 r、 滑动窗口大小 w, 计算数据完整性指标 c ; 4) 若当前窗口数据 Dt-w,t 的完整性指标 c 不达标, 则从前一个窗口的数据 Dt-2w,t-w 中以最小冗余为原则, 选取数据补充填入当前窗口 Dt-w,t, 若补全后完整 性指标 c 达到标准则算法结束, 否则迭代执行本步骤直至完整性指标 c 达到标准或穷尽缓 存中的所有数据。 2.如权利要求 1 所述的实时数据流模式识别应用的数据补全方法, 其特征在于, 步骤 1) 的具体过程为 : 1.1) 创建动态大小的在线运行时缓存 D ; 1.2) 将数据源产生的数据存入 D, 并按照数据获。

5、取时间递增排序 ; 1.3)根据上层模式识别应用的需求, 定义D中缓存数据最长的保留时间为h秒, 以避免 缓存过于陈旧的数据。 3.如权利要求 2 所述的实时数据流模式识别应用的数据补全方法, 其特征在于, 步骤 2) 的具体过程为 : 2.1) 根据上层模式识别应用的需求, 定义滑动窗口的大小 w 秒为合理的数据在时间上 的分片粒度 ; 2.2) 以当前时刻 t 为起点, 向前回溯读取缓存 D 中以 t-w 时刻开始到 t 时刻结束的一 段数据 Dt-w,t 作为当前滑动窗口的数据。 4.如权利要求 2 所述的实时数据流模式识别应用的数据补全方法, 其特征在于, 步骤 3) 的具体过程为 :。

6、 3.1)给定当前滑动窗口数据Dt-w,t, 已知数据源的数据率r和滑动窗口大小w, 按照 以下公式计算数据完整性指标 c : 其中, 分子 |Dt-w,t| 表示 Dt-w,t 中所包含数据的数量 ; 根据上述公式, 由于分母 rw 是 w 时间内传感器数据量的上限, 因此 c 为定义在 0,1 区间上的实数, c 取值越大, 表示数据 Dt-w,t 的完整性越高。 5.如权利要求 2 所述的实时数据流模式识别应用的数据补全方法, 其特征在于, 步骤 4) 的具体过程为 : 4.1) 设置补全回溯深度变量 j 并初始化为 j 1 ; 4.2) 设用于补全的缓存历史数据段为 Dt-2w,t-w。

7、, 取 Dt-2w,t-w 中尾部的 j 个数 权 利 要 求 书 CN 104484673 A 2 2/2 页 3 据和Dt-w,t中头部的j个数据进行比较, 取其差值的绝对值相加并求平均, 即, 按照如下 公式计算 j 项数据间差值的平均值, d(j) : 其中, j 为历史数据段和当前数据段的重叠部分大小, k 取 1 到 j 表示对重叠部分的数 据进行枚举, |Dt-w-j+k-1Dt-w+k-1| 表示历史数据段的倒数第 j 项数据和当前数据 段的第一项数据对其后, 重叠部分第 k 项数据的数值差的绝对值 ; 4.3) 计算当 j 的值为 1 到 w 时 d(j) 的取值, 最终确定。

8、使得 d(j) 最小的 j 的值 j ; 4.4) 将 Dt-2w,t-w-j 中的数据子序列, 按原顺序补充到 Dt-w,t 中数据序列的前 方, 得到补全后的当前滑动窗口中的数据 Dt-w,t。 权 利 要 求 书 CN 104484673 A 3 1/5 页 4 实时数据流模式识别应用的数据补全方法 技术领域 0001 本发明涉及一种针对实时数据流模式识别应用的数据补全方法, 属于计算机应用 领域, 针对实时数据流采集与传输中常见的因设备性能限制、 网络通信质量波动等原因造 成的数据缺失问题, 结合在线实时模式识别应用的特性, 实现了一种高效的数据补全方法。 背景技术 0002 随着物联。

9、网相关技术, 如无线传感器网络、 可穿戴式感知和计算设备的快速发展, 计算机系统能够不断地获取外部环境感知数据并进行处理。 这些由大量传感器节点不间断 感知到的数据通过无线网络等传输手段实时汇总到处理节点, 就形成了潜在无穷的实时数 据流。 这些实时数据流经过处理后, 能够通过模式识别等技术, 从中提取出拥有高抽象层次 的、 丰富语义的、 有用的信息, 来服务于人类。 0003 由于无线网络传输的不可靠性、 带宽的局限性、 各类传感器定时睡眠等原因, 处理 节点接收到的实时数据流往往存在数据的缺失。 而与实时数字信号处理和流媒体播放类应 用不同, 模式识别算法旨在从底层数据流中抽取出有用的特征。

10、, 从而识别出具有高抽象层 次、 丰富语义的、 有用的信息。 数据补全方法是模式识别应用中应对数据缺失问题的重要技 术, 传统的方法往往采用在缺失处填入固定默认值、 或最近的一次获得的数据的方式来对 缺失数据进行补全。但是由于这种方法没有很好地契合模式识别类应用的特点, 因此其效 果往往不是特别显著。 发明内容 0004 发明目的 : 为了克服传统方法数据补全效果差的不足, 本发明从针对实时流数据 的模式识别类应用的特点出发, 提出了一种使用在线缓存数据的、 低冗余、 高效的数据补全 方法。 在高效的同时, 该数据补全方法对输入数据特征、 后续模式识别方法和其它系统组件 实现方案不作任何预设,。

11、 能够无缝、 透明地插入和拔出应用系统数据处理流程, 灵活满足不 同应用场景的需求。 0005 从一般意义上说, 模式识别类应用具有以下三个特点 : 1) 对数据缺失敏感 : 数据 缺失造成的信息丢失, 会对特征提取的质量造成严重影响, 进而影响模式识别算法的准确 性 ; 2) 从模式识别结果角度看, 数据具有本地化特性 : 高层抽象信息表现为包含丰富语义 信息的类别, 与实时原始数据不同, 类别的变化频率相对缓慢, 因此, 在考虑数据对应的类 别时, 呈现出本地化的特性 ( 即, 数据所对应的类别在一段时间内不改变 ) ; 3) 冗余信息价 值不大 : 重复的、 冗余的数据对于提取有用特征的。

12、价值不大。 0006 根据以上三个特点, 我们确定了针对模式识别应用的数据补全算法需求, 提出了 利用历史数据进行补全的方法, 提出了相应的完整性指标和抗冗余的数据补全算法。具体 来说, 本发明所提出的针对实时流数据模式识别应用的数据补全方法, 包含一个运行时在 线数据缓存, 一项数据完整性指标、 和一个基于滑动窗口的迭代式抗冗余数据补全算法。 该 数据补全方法对于模式识别应用的其他组件透明, 可以方便地应用于已部署的系统中增强 说 明 书 CN 104484673 A 4 2/5 页 5 系统的抗数据丢失能力, 也可以在需要时随时关闭而不影响系统其他组件的正常运行。 0007 技术方案 : 。

13、一种实时数据流模式识别应用的数据补全方法, 其具体过程包含以下 步骤 : 0008 1)数据源连续产生数据形成输入数据流, 设数据率已知为每秒r个采样值(r根据 应用场景确定, 为正实数 ), 输入数据存储于运行时在线数据缓存, 记缓存的数据为 D ; 0009 2) 以当前时刻 t 为起点, 使用大小为 w 秒 (w 根据应用场景确定, 为正实数 ) 的滑 动窗口在缓存的数据中向前截取一段 Dt-w,t 作为当前窗口数据 ; 0010 3) 在当前窗口数据 Dt-w,t 的基础上, 结合已知数据源的数据率 r、 滑动窗口大 小 w, 计算数据完整性指标 c ; 0011 4) 若当前窗口数据。

14、 Dt-w,t 的完整性指标 c 不达标, 则从前一个窗口的数据 Dt-2w,t-w 中以最小冗余为原则, 选取数据补充填入当前窗口 Dt-w,t, 若补全后完整 性指标 c 达到标准则算法结束, 否则迭代执行本步骤直至完整性指标 c 达到标准或穷尽缓 存中的所有数据。 0012 其中, 步骤 1) 的具体过程为 : 0013 1.1) 创建动态大小的在线运行时缓存 D ; 0014 1.2) 将数据源产生的数据存入 D, 并按照数据获取时间递增排序 ; 0015 1.3) 根据上层模式识别应用的需求, 定义 D 中缓存数据最长的保留时间为 h 秒 (h 为 w 的整数倍 ), 以避免缓存过于。

15、陈旧的数据。 0016 其中, 步骤 2) 的具体过程为 : 0017 2.1) 根据上层模式识别应用的需求, 定义滑动窗口的大小 w 秒为合理的数据在时 间上的分片粒度 ; 0018 2.2) 以当前时刻 t 为起点, 向前回溯读取缓存 D 中以 t-w 时刻开始到 t 时刻结束 的一段数据 Dt-w,t 作为当前滑动窗口的数据。 0019 其中, 步骤 3) 的具体过程为 : 0020 3.1)给定当前滑动窗口数据Dt-w,t, 已知数据源的数据率r和滑动窗口大小w, 按照以下公式计算数据完整性指标 c : 0021 0022 其中, 分子 |Dt-w,t| 表示 Dt-w,t 中所包含数。

16、据的数量。根据上述公式, 由于 分母 rw 是 w 时间内传感器数据量的上限, 因此 c 为定义在 0,1 区间上的实数, c 取值 越大, 表示数据 Dt-w,t 的完整性越高。 0023 其中, 步骤 4) 的具体过程为 : 0024 4.1) 设置补全回溯深度变量 j 并初始化为 j 1 ; 0025 4.2) 设用于补全的缓存历史数据段为 Dt-2w,t-w, 取 Dt-2w,t-w 中尾部的 j 个数据和Dt-w,t中头部的j个数据进行比较, 取其差值的绝对值相加并求平均, 即, 按照 如下公式计算 j 项数据间差值的平均值, d(j) : 说 明 书 CN 104484673 A 。

17、5 3/5 页 6 0026 0027 其中, j 为历史数据段和当前数据段的重叠部分大小, k 取 1 到 j 表示对重叠部分 的数据进行枚举, |Dt-w-j+k-1Dt-w+k-1| 表示历史数据段的倒数第 j 项数据和当前 数据段的第一项数据对其后, 重叠部分第 k 项数据的数值差的绝对值 ; 0028 4.3) 计算当 j 的值为 1 到 w 时 d(j) 的取值, 最终确定使得 d(j) 最小的 j 的值 j ; 0029 4.4) 将 Dt-2w,t-w-j 中的数据子序列, 按原顺序补充到 Dt-w,t 中数据序列 的前方, 得到补全后的当前滑动窗口中的数据 Dt-w,t。 附。

18、图说明 0030 图 1 是系统流程图 ; 0031 图 2 是数据补全方法流程图。 具体实施方式 0032 下面结合具体实施例, 进一步阐明本发明, 应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围, 在阅读了本发明之后, 本领域技术人员对本发明的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。 0033 1、 硬件环境 0034 1) 由一个或多个传感器节点构成的数据源, 能够连续产生传感器数据汇聚成数据 流, 数据流中的数据可能会产生缺失 ; 0035 2) 一个数据补全服务器, 该服务器能够连入数据源获取实时数据流, 并具备足够 的存储和处理能力 ( 视数据流的数据。

19、率而定 ) 来满足在线数据缓存和补全算法的需求。 0036 2、 应用场景 0037 在应用本发明所公开的数据补全方法时, 首先需将实时采集得到的传感器数据流 接入数据补全服务器。 由用户根据后续的模式识别方法的需求规定数据的分片大小w、 数据 完整性指标 c、 以及缓存大小 h。服务器根据接收到的实时数据, 以 w 时间为单位判断数据 的完整性并进行相应的补全操作。 该数据补全方法确保输出的数据流尽可能地达到用户所 规定的数据完整性指标c, 同时保证所包含的数据为最新的h时间内所采集到的数据。 补全 后的数据相比原始数据有更高的完整性, 更有利于后续的模式识别方法从中提取出有用的 信息。 0。

20、038 补全后的数据和输入数据流相同的格式, 因此该数据补全方法对数据流的操作对 于应用的其他组件是透明的, 能够方便地插入和拔出应用系统的数据处理流程, 满足不同 流数据模式识别应用的需求。 0039 本发明所涉及技术的一个典型应用场景是以物联网技术为支撑的大数据应用。 在 物联网基础设施的支持下, 能够采集到大量的环境、 用户健康信息等数据并汇总到云端。 这 类技术包括目前已经处于快速建设当中的空气质量检测网络、 车载移动传感器网络、 智能 可穿戴设备网络等。以智能可穿戴设备网络为例, 目前市场上新兴的以智能手环为代表的 可穿戴设备, 能够以较高的采样频率, 获取包括加速度、 心率、 体温。

21、在内的和用户生理健康 说 明 书 CN 104484673 A 6 4/5 页 7 有关的数据。这些采集到的原始数据通过无线通信技术, 以实时数据流的形式汇总到云端 进行处理。云端软件通过一系列的模式识别方法, 能够从用户生理原始数据中识别出用户 的动作、 情绪状态、 日常生活规律等有用的高层次信息, 进而更好地为用户提供服务。然而 由于网络通信的不可靠性、 电池耗尽导致关机、 设备主动睡眠、 用户不当使用等不可控的原 因, 底层硬件所采集并传送到云端的原始数据中不可避免地存在缺失的 0040 0041 情况。 若要从数据源头保证数据的高质量、 高完整性, 则要付出相当大的代价或根 本无法实现。

22、。而通过合理使用本发明所提出的数据补全方法, 可以在原始数据存在缺失的 情况下, 以很小的代价, 保持高层模式识别结果的高质量, 满足应用的整体需求。 0042 3、 方法描述 0043 本发明所涉及的针对实时数据流模式识别应用的数据补全方法, 其数据处理流程 如图 1 所示。 0044 1) 数据分片和缓存技术 0045 本发明所涉及的实时数据补全方法, 其基础是对输入数据流的分片和缓存技术。 假设当前时间为 t, 根据应用需求, 能够确定时间分片的大小为 w 秒, 模式识别应用能够容 忍的数据新鲜度为 h 秒 (h 为 w 的整数倍 )。数据分片和缓存技术首先利用一个长度为 w 秒 滑动窗。

23、口将输入数据流切分成时间上不相交的数据段 Dt-w,t,Dt-2w,t-w,.,Di,j ,.,Dt-h,t-h+w, 其中 i 和 j 分别是数据段中所包含数据的开始和结束时间。由于每段 数据中所包含的数据量, 根据数据源的数据率和数据缺失情况, 可能存在较大波动, 因此在 缓存数据段时, 需要开辟动态存储空间来对缓存数据进行存储。考虑到 h 的取值往往较小, 因此对数据的缓存可以在内存中完成。 0046 2) 数据完整性指标计算 0047 假设数据源的数据率为每秒 r 个采样值, 给定当前时间 t 和分片大小 w, 当分片得 到的当前数据段 Dt-w,t 中所包含的采样数据的项数 |Dt-。

24、w,t| 小于 r w 时, 称当前数 据段中的数据不完整, 而其不完整 ( 或完整 ) 的程度, 由完整性量化指标 c 刻画, c 的计算 方法如下式所示 : 0048 0049 3) 最小冗余数据匹配和补全方法 0050 当当前数据段中所包含的数据量达不到应用系统所需要的数据量, 即, 数据完整 性指标 c 低于应用所规定的阈值时 ( 阈值的取值由应用决定, 往往取 0.7 以上较为合理 ), 则需要对当前数据段中的数据进行补全。在进行补全时, 利用数据的本地化特性, 即, 数据 所对应的类别在一段时间内不改变, 从而能够通过将较近一段时间内采集到的数据补充到 现有的数据段中, 来实现以较。

25、低概率引入其他类别数据的基础上, 补足当前数据段中缺失 的信息的目的。同时, 根据模式识别应用的特点, 冗余数据的价值很低, 因此在补全时需要 说 明 书 CN 104484673 A 7 5/5 页 8 去除冗余信息。 0051 在补全时, 以一个单位时间的数据重叠为起始点, 计算当前数据段和缓存的历史 数据段在不同程度的重叠时的相似程度来判断冗余。 用于判断冗余程度的相似性量化指标 的计算过程如下所述 : 0052 设用于补全的缓存历史数据段为Dt-2w,t-w, 取Dt-2w,t-w中尾部的j个数据 和Dt-w,t中头部的j个数据进行比较, 取其差值的绝对值相加并求平均, 即, 按照如下。

26、公 式计算 j 项数据间差值的平均值, d(j) : 0053 0054 取使得 d(j) 最小的 j 的取值 j 为最终的 j 的取值, 并将 Dt-2w,t-w-j 中的数 据子序列, 按原顺序补充到 Dt-w,t 中数据序列的前方, 得到补全后的当前滑动窗口中的 数据 Dt-w,t。 0055 完成当前一次补全后, 再度计算 Dt-w,t 的数据完整性指标, 若没有达到应用所 规定的完整性阈值, 则继续使用本过程, 使用 Dt-3w,t-2w 中缓存的历史数据来对当前数 据段中的数据进行补全 ; 若数据完整性达到标准, 或已穷尽所有缓存的数据, 则结束算法。 说 明 书 CN 104484673 A 8 1/2 页 9 图 1 说 明 书 附 图 CN 104484673 A 9 2/2 页 10 图 2 说 明 书 附 图 CN 104484673 A 10 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1