一种基于RTBF的RFID冗余数据清洗策略.pdf

摘要
申请专利号：	CN201611269752.3	申请日：	2016.12.30
公开号：	CN106844561A	公开日：	2017.06.13
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20161230\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	重庆大学
发明人：	孙棣华; 郑林江; 赵敏; 刘卫宁; 朱文霖
地址：	400044 重庆市沙坪坝区沙坪坝正街174号
优先权：
专利代理机构：	北京汇泽知识产权代理有限公司 11228	代理人：	武君
PDF下载：	PDF下载

内容摘要

本发明公开了一种基于R??TBF的RFID冗余数据清洗策略，首先初始化过滤器，包括用于保存数据时间属性的整数数组M、哈希函数、映射函数、Map集合P以及时间阈值τ和强度阈值α；然后对当前数据X进行冗余判断，按照{ID,TIME,RSSI}格式传输和清洗规则进行冗余清洗：最后处理完当前数据X后；本发明提供的基于R??TBF的RFID冗余数据清洗策略，考虑了时间因素和强度因素两种限制条件对数据进行相应的清洗，通过一次时间戳清洗和二次强度值清洗，改善清洗效果，提高数据质量，最大程度还原数据真实性，为后续数据的有效利用提供有力保证。

权利要求书

1.一种基于R-TBF的RFID冗余数据清洗策略，其特征在于：包括以下步骤：
步骤1：初始化过滤器，初始化内容包括：
11)用于保存数据时间属性的整数数组M，大小为m；
12)k个用于将数据标签信息映射到整数数组的哈希函数h₁…h_k；
13)用于将整数数组下标值映射到Map集合键值的映射函数HK；
14)Map集合P，用来保存数据强度属性，其大小跟随数据量大小变化；
15)时间阈值τ和强度阈值α，分别确定数据的时间属性和强度属性是否冗余；
时间阈值τ的取值范围为：300ms～600ms；
强度阈值α的取值范围为：2dB～5dB；
步骤2：对当前数据X进行冗余判断，所述当前数据X按照{ID,TIME,RSSI}格式传输并按
照以下清洗规则进行冗余清洗：
其中，ID表示货包标签号；TIME表示此标签号被读取时的时间戳；RSSI表示此标签被读
取时的强度值；
21)首先将当前数据X中的X.ID通过k个哈希函数映射到整数数组M的k个不同位置，判
断k个位置是否都已被赋值，如果k个位置中至少有一个位置未被赋值，则说明数据X未被处
理过，直接将X.TIME更新至此k个位置，并根据映射函数HK更新X.RSSI到指定位置：
$<mrow>
<mi>H</mi>
<mi>K</mi>
<mo>=</mo>
<msubsup>
<mi>Σ</mi>
<mi>j</mi>
<mrow>
<mi>j</mi>
<mo>&Element;</mo>
<mi>k</mi>
</mrow>
</msubsup>
<msup>
<mn>2</mn>
<mi>j</mi>
</msup>
<mo>;</mo>
</mrow>$
其中，j的取值为整数数组中被选中的k个位置的下标，根据二进制位权规则，算出
X.HK，将其作为Map集合的键，将X.RSSI作为Map集合的对应值，对X的RSSI值进行保存；
22)如果k个位置均被赋值，则说明X.ID相同的数据已被处理过，则需要对当前数据X进
行冗余判断，冗余判断通过比较X.TIME和M[h_i(X.ID)]以及X.RSSI和X.HK.RSSI的大小判定
时间属性和强度属性的冗余；
步骤3：处理完当前数据X后，重复步骤2，利用相同的清洗规则处理下一个数据。
2.如权利要求1所述的基于R-TBF的RFID冗余数据清洗策略，其特征在于：所述步骤1中
的数据时间属性的整数数组M的大小m按照以下公式进行计算：
$<mrow>
<mi>m</mi>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mrow>
<mi>n</mi>
<mi> </mi>
<mi>ln</mi>
<mi> </mi>
<mi>P</mi>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mi>n</mi>
<mn>2</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mfrac>
<mo>;</mo>
</mrow>$
其中，n为输入数据量大小，P表示k·n次映射
后整数数组中某单元仍然为空的概率，k为哈希函数的个数。
3.如权利要求1所述的基于R-TBF的RFID冗余数据清洗策略，其特征在于：所述步骤1中
的哈希函数h₁…h_k的个数k按照以下公式进行计算：
k·n<m；
其中，n为输入数据量的大小，m为整数数组的大小；
k的计算公式为：
$<mrow>
<mi>k</mi>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mi>m</mi>
<mi>n</mi>
</mfrac>
<mi>ln</mi>
<mi> </mi>
<mi>P</mi>
<mo>;</mo>
</mrow>$
其中，n为输入数据量的大小，m为整数数组的大小,P表示k·n次映射后整数数组中某
单元仍然为空的概率。
4.如权利要求1所述的基于R-TBF的RFID冗余数据清洗策略，其特征在于：所述步骤1中
的映射函数HK按照以下公式进行计算：
$<mrow>
<mi>H</mi>
<mi>K</mi>
<mo>=</mo>
<msubsup>
<mi>Σ</mi>
<mi>j</mi>
<mrow>
<mi>j</mi>
<mo>&Element;</mo>
<mi>k</mi>
</mrow>
</msubsup>
<msup>
<mn>2</mn>
<mi>j</mi>
</msup>
<mo>;</mo>
</mrow>$
其中，j表示通过哈希函数选中的整数数组的某个单元，表示被选中的整数数组单元下
标根据其所在位置的权重进行二进制转十进制运算，k为哈希函数个数。
5.如权利要求1所述的基于R-TBF的RFID冗余数据清洗策略，其特征在于：所述步骤1中
的Map集合P的大小跟随数据量大小变化。

说明书

一种基于R-TBF的RFID冗余数据清洗策略

技术领域

本发明涉及数据清洗技术领域，特别是一种基于R-TBF的RFID冗余数据清洗策略。

背景技术

射频识别技术以其非接触、非视距等特点在物流、供应链等领域有着广泛的应用，
特别是随着现代计算机和智能仓储建设的发展，RFID技术的应用更加普遍。RFID数据是
RFID应用的重要组成部分，RFID数据的质量对于RFID技术的应用有着重要的影响。而在实
际RFID应用中，由于其非接触、非视距的特点，在读写器未靠近目标标签时，就已经产生了
大量目标标签的数据，这些数据带有一定的冗余性；另外，由于实际应用中往往有多个读写
器同时工作，在相近时间内针对同一目标标签也会产生大量冗余数据，这些冗余数据的产
生在整个RFID应用过程中是无法避免的，而这些冗余数据的存在也对RFID应用的普及造成
了限制。

除此之外，在RFID应用中，RFID数据大都具有流动性的特点，这对其处理提出了更
大的挑战，所以针对RFID冗余数据的清洗面临的主要问题就是对于大量的RFID数据流，如
何在较短的时间和较小的空间对其进行实时清洗，这对清洗算法在执行时间和占用空间上
提出了更高的要求。

目前针对RFID冗余数据的清洗方法有很多，Alonso提出基于语句查询的可扩展数
据流清洗模型ESP，但是它需要保存所有要处理的数据，不符合RFID数据流的动态性要求，
还会占用大量内存空间；另外，布隆于1970年提出Bloom Filter(以下简称BF)，BF以其低内
存占比和高效查询等特点，目前在数据清洗领域得到了广泛应用，Metwally使用BF检测冗
余数据，由于BF无删除功能，数据量足够大时会导致其被填满而失效。另外，Bloom Filter
是以数据的有无来判定其是否冗余，对于实际应用中的大量数据，需要针对同一标签保存
其有用数据信息而不只是一条数据信息，单个数据信息带有片面性和不确定性，因此传统
的Bloom Filter不符合实际应用需求。

Chun-Hee Lee等人首先提出了TBF(Time Bloom Filter)利用时间信息消除冗余
数据，虽然解决了RFID数据在时间属性上的冗余问题，在一定程度上可以对数据进行清洗
并且保留有效信息，但是RFID数据除了时间属性外还有强度属性，而强度属性在各RFID应
用中也有重要作用，并且对于判定时间属性上冗余的数据在强度属性上并不一定冗余，所
以基于TBF来对数据进行清洗，容易损失很多有效强度属性信息，对于RFID应用来说基于
TBF的清洗效果较差，考虑因素不全面并且在一定程度上降低了数据的质量，影响到后续应
用对RFID数据的有效利用。同样，专利申请号为CN201610212717.1中提出的基于DTBF的
RFID冗余数据清洗方法及系统虽然可以解决数据流大小不确定情况的数据清洗问题，但是
也未能考虑数据属性中强度因素对清洗效果的影响，因而虽然可以清洗数据但是由于考虑
因素不足而使得清洗效果不佳。RFID数据清洗在实际应用场景中，由于读写器覆盖范围大，
所以在移动RFID巡检车未到达标签正对位置时就已经能够读取到相应标签的数据信息，这
类信息的典型特点是时间小，强度小，如果仅仅依靠时间对数据是否冗余进行判断，就会导
致相同标签相近时间的有效强度信息被丢失，不能够真正反映数据本身的真实性，进而无
法还原其真实位置所在。因此，需要一种基于R-TBF的RFID冗余数据清洗策略。

发明内容

本发明的目的是提出一种基于R-TBF的RFID冗余数据清洗策略；该清洗策略在原
有清洗策略基础上，通过对时间和强度筛选规则的重新定义，在考虑时间的同时，考虑强度
大小，以此来改善数据清洗效果，提高数据质量。

本发明的目的是通过以下技术方案来实现的：

本发明提供的基于R-TBF的RFID冗余数据清洗策略，包括以下步骤：

步骤1：初始化过滤器，初始化内容包括：

11)用于保存数据时间属性的整数数组M，大小为m；

12)k个用于将数据标签信息映射到整数数组的哈希函数h₁…h_k；

13)用于将整数数组下标值映射到Map集合键值的映射函数HK；

14)Map集合P，用来保存数据强度属性，其大小跟随数据量大小变化；

15)时间阈值τ和强度阈值α，分别确定数据的时间属性和强度属性是否冗余；

时间阈值τ的取值范围为：300ms～600ms；

强度阈值α的取值范围为：2dB～5dB；

步骤2：对当前数据X进行冗余判断，所述当前数据X按照{ID,TIME,RSSI}格式传输
并按照以下清洗规则进行冗余清洗：

其中，ID表示货包标签号；TIME表示此标签号被读取时的时间戳；RSSI表示此标签
被读取时的强度值；

21)首先将当前数据X中的X.ID通过k个哈希函数映射到整数数组M的k个不同位
置，判断k个位置是否都已被赋值，如果k个位置中至少有一个位置未被赋值，则说明数据X
未被处理过，直接将X.TIME更新至此k个位置，并根据映射函数HK更新X.RSSI到指定位置：

其中，j的取值为整数数组中被选中的k个位置的下标，根据二进制位权规则，算出
X.HK，将其作为Map集合的键，将X.RSSI作为Map集合的对应值，对X的RSSI值进行保存；

22)如果k个位置均被赋值，则说明X.ID相同的数据已被处理过，则需要对当前数
据X进行冗余判断，冗余判断通过比较X.TIME和M[h_i(X.ID)]以及X.RSSI和X.HK.RSSI的大
小判定时间属性和强度属性的冗余；

步骤3：处理完当前数据X后，重复步骤2，利用相同的清洗规则处理下一个数据。

进一步，所述步骤1中的数据时间属性的整数数组M的大小m按照以下公式进行计
算：

其中，n为输入数据量大小，P表示k·n次
映射后整数数组中某单元仍然为空的概率，k为哈希函数的个数。

进一步，所述步骤1中的哈希函数h₁…h_k的个数k按照以下公式进行计算：

k·n<m；

其中，n为输入数据量的大小，m为整数数组的大小；

k的计算公式为：

其中，n为输入数据量的大小，m为整数数组的大小,P表示k·n次映射后整数数组
中某单元仍然为空的概率。

进一步，所述步骤1中的映射函数HK按照以下公式进行计算：

其中，j表示通过哈希函数选中的整数数组的某个单元，表示被选中的整数数组单
元下标根据其所在位置的权重进行二进制转十进制运算，k为哈希函数个数。

进一步，所述步骤1中的Map集合P的大小跟随数据量大小变化。

由于采用了上述技术方案，本发明具有如下的优点：

本发明提供的基于R-TBF的RFID冗余数据清洗策略，考虑了时间因素和强度因素
两种限制条件对数据进行相应的清洗，通过一次时间戳清洗和二次强度值清洗，改善清洗
效果，提高数据质量，最大程度还原数据真实性，为后续数据的有效利用提供有力保证。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并
且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可
以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和
获得。

附图说明

本发明的附图说明如下。

图1为清洗过程示意图。

图2为算法流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

实施例1

如图所示，本实施例提供的基于R-TBF的RFID冗余数据清洗策略，解决了传统基于
TBF的RFID数据清洗策略因约束条件不足而导致清洗效果不佳，误删有用数据的情况，进一
步提高数据质量，还原数据真实性，为后续数据的有效利用提供有力保证；在基于TBF的
RFID数据清洗策略的基础上，将考虑因素由单一的时间调整为时间和强度两个因素，因为
在实际应用场景中，由于读写器覆盖范围大，所以在移动RFID巡检车未到达标签正对位置
时就已经能够读取到相应标签的数据信息，这类信息的典型特点是时间小，强度小，如果仅
仅依靠时间对数据是否冗余进行判断，就会导致相同标签相近时间的有效强度信息被丢
失，不能够真正反映数据本身的真实性，进而无法还原其真实位置所在。

因此，本实施例在利用原有清洗策略基础上，通过对时间和强度筛选规则的重新
定义，在考虑时间的同时，考虑强度大小，以此来改善数据清洗效果，提高数据质量。具体内
容如下：

步骤1：初始化过滤器，初始化内容包括：

11)用于保存数据时间属性的整数数组M，大小为m；

m的大小根据如下公式计算：

其中，n为输入数据量大小，P表示k·n次
映射后整数数组中某单元仍然为空的概率，k为哈希函数的个数；

12)k个用于将数据标签信息映射到整数数组的哈希函数h₁…h_k；

k的大小要满足下列不等式：

k·n<m；

其中，n为输入数据量的大小，m为整数数组的大小；

k的计算公式为：

其中，n为输入数据量的大小，m为整数数组的大小,P表示k·n次映射后整数数组
中某单元仍然为空的概率；

13)用于将整数数组下标值映射到Map集合键值的映射函数HK；

HK函数公式如下：

其中，j表示通过哈希函数选中的整数数组的某个单元，此公式表示被选中的整数
数组单元下标根据其所在位置的权重进行二进制转十进制运算，k为哈希函数个数

14)Map集合P，用来保存数据强度属性，其大小跟随数据量大小变化；

15)时间阈值τ和强度阈值α，分别确定数据的时间属性和强度属性是否冗余。

时间阈值τ的取值范围为：300ms～600ms；

强度阈值α的取值范围为：2dB～5dB；

步骤2：对当前数据X进行冗余判断，数据X按照{ID,TIME,RSSI}格式传输并按照以
下清洗规则进行冗余清洗：

21)首先将X.ID通过k个哈希函数映射到整数数组M的k个不同位置，判断k个位置
是否都已被赋值，如果k个位置中至少有一个位置未被赋值，则说明数据X未被处理过，直接
将X.TIME更新至此k个位置，并根据映射函数HK更新X.RSSI到指定位置：

22)如果k个位置均被赋值，则说明X.ID相同的数据已被处理过，则需要对数据X进
行冗余判断，冗余判断通过比较X.TIME和M[h_i(X.ID)]以及X.RSSI和X.HK.RSSI的大小判定
其时间属性和强度属性的冗余；

步骤3：处理完数据X后，重复步骤2，利用相同的清洗规则处理下一个数据。

实施例2

下面结合图2所示清洗过程对进行具体说明，本实施例提供的清洗过程主要包含
以下步骤：

步骤1：初始化过滤器，初始化内容包括：

11)用于保存数据时间属性的整数数组M，大小为m；

m的大小根据如下公式计算：

其中，n为输入数据量大小，P表示k·n次
映射后整数数组中某单元仍然为空的概率，k为哈希函数的个数；

12)k个用于将数据标签信息映射到整数数组的哈希函数h₁…h_k；

k的大小要满足下列不等式：

k·n<m；

其中，n为输入数据量的大小，m为整数数组的大小；

k的计算公式为：

其中，n为输入数据量的大小，m为整数数组的大小；

13)用于将整数数组下标值映射到Map集合键值的映射函数HK；

HK函数公式如下：

其中，j表示通过哈希函数选中的整数数组的某个单元，此公式表示被选中的整数
数组单元下标根据其所在位置的权重进行二进制转十进制运算，k为哈希函数个数；

14)Map集合P，用来保存数据强度属性，其大小跟随数据量大小变化；

25)时间阈值τ和强度阈值α，分别确定数据的时间属性和强度属性是否冗余。

时间阈值τ的取值范围为：300ms～600ms；强度阈值α的取值范围为：2dB～5dB；本
实施例具体取值为350ms；400ms；450ms；500ms；以及2.5dB；3dB；3.5dB；4dB。

步骤2：对当前数据X进行冗余判断，数据X按照{ID,TIME,RSSI}格式传输并按照以
下清洗规则进行冗余清洗：

22)如果k个位置均被赋值，则说明X.ID相同的数据已被处理过，则需要对数据X进
行冗余判断，首先比较X.TIME和M[h_i(X.ID)]，如果

X.TIME-M[hi(X.ID)]＞τ；

则数据X在时间属性上不是冗余数据，然后比较X.RSSI和X.HK.RSSI，如果

X.RSSI-X.HK.RSSI＞α；

则数据X在强度属性上也不是冗余数据，所以将数据X的时间属性和强度属性都更
新至最新值，如果

X.RSSI-X.HK.RSSI＜α；

则数据X在强度属性上是冗余数据，所以只将数据X的时间属性更新至最新值，保
留原强度属性值；

3)如步骤22)所示，对数据X进行冗余判断，比较X.TIME和M[h_i(X.ID)]，如果

X.TIME-M[hi(X.ID)]＜τ；

则数据X在时间属性上是冗余数据，然后比较X.RSSI和X.HK.RSSI，如果

X.RSSI-X.HK.RSSI＞α；

则数据X在强度属性上不是冗余数据，所以只将数据X的强度属性更新至最新值，
保留原时间属性值，如果

X.RSSI-X.HK.RSSI＜α；

则数据X在强度属性上也是冗余数据，则将数据X做为冗余数据直接剔除。

步骤3：处理完数据X后，重复步骤2，利用相同的清洗规则处理下一个数据。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较
佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技
术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明
的保护范围当中。