一种模式信息损失最小化的序列类数据隐私保护方法.pdf

摘要
申请专利号：	CN201010298698.1	申请日：	2010.09.30
公开号：	CN101964034A	公开日：	2011.02.02
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 21/00申请日:20100930\|\|\|公开
IPC分类号：	G06F21/00; G06F17/30	主分类号：	G06F21/00
申请人：	浙江大学
发明人：	陈珂; 寿黎但; 陈刚; 胡天磊; 尚璇
地址：	310027 浙江省杭州市西湖区浙大路38号
优先权：
专利代理机构：	杭州求是专利事务所有限公司 33200	代理人：	林怀禹
PDF下载：	PDF下载

内容摘要

本发明公开了一种模式信息损失最小化的序列类数据隐私保护方法。基于一个广义的模式定义模型以及实际应用需求来确定模式定义函数集，在此基础上选择能够实现模式信息损失最小化的模式映射函数以提取模式特征。同时基于攻击者的背景知识来确定隐私攻击类型，基于k匿名技术，对时间序列的QI属性值和模式特征施加(k，P)匿名模型，该模型将时间序列的属性泛化区间以及模式特征分别作为独立的形式发布，在保证数据隐私的基础上，将时间序列的模式信息最小化，保证数据的可用性。(k，P)匿名模型能够兼容各种模式定义方式并拥有一套完整的可用性评估机制，其完善性和有效性使得(k，P)匿名模型能够在最大程度上博得信赖，获得广泛应用。

权利要求书

1：一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于该方法的步骤如下： 1) 建立一个广义的时间序列模式定义模型，根据这个模型以及实际应用的模式挖掘任务需求，选择符合实际应用需求的模式定义函数集； 2) 根据步骤 1) 中提出的模式定义函数集，确定模式映射函数，时间序列的属性分为标识属性， QI 属性和敏感属性三种，时间序列的模式特征由模式映射函数基于 QI 属性来进行提取； 3) 根据时间序列的属性值以及时间序列的模式特征，定义隐私攻击类型，构建 (k， P) 匿名模型以保护时间序列数据隐私； 4) 根据上述步骤 2) 中所述的时间序列的模式特征，衡量整个原始数据集中任意两条时间序列之间的模式相似性，构建 P 子组，以达到模式信息损失最小化的效果； 5) 基于步骤 4) 中形成的 P 子组，分析任意两个 P 子组之间的 QI 属性值的相似性，以自底向上的聚类方式对 P 子组进行聚类，形成 k 匿名组，使得原始数据集最终满足 (k， P) 匿名模型的要求； 6) 定义 (k， P) 匿名模型的信息损失衡量策略，并分析其隐私泄露概率，完成对 (k， P) 匿名模型的可用性评估，同时根据分组结果，对时间序列数据进行属性值的泛化，完成数据发布。
2：根据权利要求 1 所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于：步骤 1) 中选用的模式定义模型，兼容已有文献中所有的模式定义方式，对于一条具体的时间序列 r，其模式定义函数集形式化为 p(r) ＝， m 为系统变量，其中， fi(1 ≤ i ≤ m) 为任意两个或两个以上属性的相关性函数。
3：根据权利要求 1 所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于：步骤 2) 中的模式特征应满足以下两个条件： a) 由原始时间序列经过特定的模式映射函数得出； b) 可根据该模式特征对原始时间序列的模式进行重建。模式特征从 QI 属性中提取，并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。
4：根据权利要求 1 所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于：步骤 3) 中构建的 (k， P) 匿名模型是一个双层隐私保护模型，其具体含义如下： a) 在第一层约束中，整个原始数据集被要求在 QI 属性上满足 k 匿名的条件； b) 在第二层约束中，在每一个 k 匿名组内，要求每一条时间序列的模式特征都至少与其他 P-1 条时间序列相同。
5：根据权利要求 1 所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于：步骤 4) 中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识。
6：根据权利要求 1 所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于：步骤 6) 中提到的信息损失，包括属性值信息损失以及模式信息损失两部分，属性值信息损失由于属性值泛化而产生，模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异，在 (k， P) 匿名模型约束下，证明在最坏情况下的隐私泄露概率为 1/P。

说明书

一种模式信息损失最小化的序列类数据隐私保护方法
    技术领域本发明涉及数据库系统、数据隐私与模式信息提取技术，特别是涉及一种模式信息损失最小化的序列类数据隐私保护方法。
     背景技术时间序列数据被公认为是自然界和人类社会中一类非常重要的数据，其应用范围包括金融分析和社交行为追踪等重要领域。近几年来，传感器网络， RFID 和无线定位设备的快速发展，更加凸显了时间序列数据的重要性。但是，值得注意的是，时间序列数据中也包含着大量的隐私信息，如果不加以适当的保护，数据拥有者对数据隐私的担忧将极大的桎梏相关应用的发展。
     目前，时间序列数据的隐私保护问题还没有得到很好的解决。主要原因是时间序列数据与传统表数据相比，其数据特征相对复杂。时间序列数据的各个属性在时间上存在一种前后依赖的关系，整体表现为一种模式信息。模式匹配是时间序列数据的一类重要查询。
     k 匿名是传统表数据领域的一类重要的隐私保护技术。但是，如果将这种方法直接应用于时间序列数据，其缺陷十分明显。因为 k 匿名所要求的属性值泛化会使时间序列的模式信息遭到严重破坏，从而使得数据可用性大大降低。目前，一些与时间序列相关的隐私保护技术也各自存在缺陷。TGA 是一种基于干扰的匿名技术，首先将时间序列进行分组，然后在组内随机重建时间序列，这种方法导致的模式信息损失也非常之大。BFP2KA 是一种基于字符串的隐私保护技术，通过构建前缀树并对其进行剪枝来实现 k 匿名。虽然 BFP2KA 号称能够保留模式，但其所谓的模式仅限于字符串的精确匹配，通用性受到很大的限制。
     发明内容
     本发明的目的在于提供一种模式信息损失最小化的序列类数据隐私保护方法，基于 k 匿名技术，构建出一个新的匿名模型，即 (k， P) 匿名模型，在有效保护隐私的同时达到模式信息损失最小化的效果，有效的解决了时间序列的隐私保护问题。
     本发明采用的技术方案的步骤如下：
     1) 建立一个广义的时间序列模式定义模型，根据这个模型以及实际应用的模式挖掘任务需求，选择符合实际应用需求的模式定义函数集；
     2) 根据步骤 1) 中提出的模式定义函数集，确定模式映射函数，时间序列的属性分为标识属性， QI 属性和敏感属性三种，时间序列的模式特征由模式映射函数基于 QI 属性来进行提取；
     3) 根据时间序列的属性值以及时间序列的模式特征，定义隐私攻击类型，构建 (k， P) 匿名模型以保护时间序列数据隐私；
     4) 根据上述步骤 2) 中所述的时间序列的模式特征，衡量整个原始数据集中任意两条时间序列之间的模式相似性，构建 P 子组，以达到模式信息损失最小化的效果；5) 基于步骤 4) 中形成的 P 子组，分析任意两个 P 子组之间的 QI 属性值的相似性，以自底向上的聚类方式对 P 子组进行聚类，形成 k 匿名组，使得原始数据集最终满足 (k， P) 匿名模型的要求；
     6) 定义 (k， P) 匿名模型的信息损失衡量策略，并分析其隐私泄露概率，完成对 (k， P) 匿名模型的可用性评估，同时根据分组结果，对时间序列数据进行属性值的泛化，完成数据发布。
     步骤 1) 中选用的模式定义模型，兼容已有文献中所有的模式定义方式，对于一条具体的时间序列 r，其模式定义函数集形式化为 p(r) ＝， m 为系统变量，其中， fi(1 ≤ i ≤ m) 为任意两个或两个以上属性的相关性函数。
     步骤 2) 中的模式特征应满足以下两个条件： a) 由原始时间序列经过特定的模式映射函数得出； b) 可根据该模式特征对原始时间序列的模式进行重建。模式特征从 QI 属性中提取，并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。
     步骤 3) 中构建的 (k， P) 匿名模型是一个双层隐私保护模型，其具体含义如下：
     a) 在第一层约束中，整个原始数据集被要求在 QI 属性上满足 k 匿名的条件； b) 在第二层约束中，在每一个 k 匿名组内，要求每一条时间序列的模式特征都至少与其他 P-1 条时间序列相同。
     步骤 4) 中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识。
     步骤 6) 中提到的信息损失，包括属性值信息损失以及模式信息损失两部分，属性值信息损失由于属性值泛化而产生，模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异，在 (k， P) 匿名模型约束下，证明在最坏情况下的隐私泄露概率为 1/P。
     本发明具有的有益效果是：
     本发明充分利用了传统表数据领域的隐私保护模型以及现有的时间序列模式特征提取技术，将两者进行融合，为时间序列构建出一个新的隐私保护模型， (k， P) 匿名模型。该模型将时间序列的各个属性区间以及整条序列的模式特征分别作为独立的形式发布，能够在充分保证数据隐私的基础上，将时间序列的模式信息最小化，充分保证了数据的可用性。
     附图说明
     图 1 是本发明实施步骤流程图。图 2 是 (k， P) 匿名模型构造示意图。具体实施方式
     下面结合附图和具体实施对本发明的技术方案作进一步说明。
     1、如图 1 与图 2 所示，本发明具体实施过程和工作原理如下：
     1) 建立一个广义的时间序列模式定义模型，根据这个模型以及实际应用的模式挖掘任务需求，选择合适的模式定义函数集 ( 即符合实际应用需求的模式定义函数集 ) ；2) 根据步骤 1) 中提出的模式定义函数集，确定模式映射函数。时间序列的属性分为标识属性， QI 属性 ( 即联合标识属性 ) 和敏感属性三种。原始时间序列的模式特征由模式映射函数基于 QI 属性来进行提取；
     3) 根据时间序列的属性值以及模式特征，定义隐私攻击类型，构建 (k， P) 匿名模型以保护时间序列数据隐私；
     4) 根据上述步骤 2) 中所述的模式特征，衡量时间序列两两之间 ( 即原始数据集中任意两条时间序列之间 ) 的模式相似性，构建 P 子组 (P 子组的大小由参数 P 确定，在同一个 P 子组中的时间序列都具有相同的模式特征 )，以达到模式信息损失最小化的效果；
     5) 基于步骤 4) 中形成的 P 子组，分析任意两个 P 子组之间的 QI 属性值的相似性，以自底向上的聚类方式对 P 子组进行聚类，形成 k 匿名组，使得原始数据集最终满足 (k， P) 匿名模型的要求；
     6) 定义 (k， P) 匿名模型的信息损失衡量策略，并分析其隐私泄露概率，完成对 (k， P) 匿名模型的可用性评估。同时根据分组结果，对时间序列数据进行属性值的泛化，完成数据发布。
     步骤 1) 中选用的模式定义模型，可以兼容已有文献中所有的模式定义方式。对于一条具体的时间序列 r，其模式定义函数集可形式化为 p(r) ＝， m 为系统变量。其中， fi(1 ≤ i ≤ m) 为任意两个或两个以上属性的相关性函数。
     步骤 2) 中的模式特征应满足以下两个条件： a) 由原始时间序列经过特定的模式映射函数得出； b) 可根据该模式特征对原始时间序列的模式进行重建。模式特征从 QI 属性中提取，并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。鉴于模式信息的重要性，现有文献中有大量广为人知的模式特征提取技术，包括 SAX， PAA， PLA 和 APCA 等。步骤 1) 中定义的模式定义模型可以完全兼容这些模式特征提取技术。由于 SAX 的直观性和易操作性，以下几个步骤的具体实施方式将在 SAX 的基础上进行阐述。 SAX 技术将时间序列的属性值进行离散化，最终将其模式特征表示为一条字符串，其参数 level 用于控制模式特征的精确程度，即与原始时间序列模式的匹配程度。level 值越大，模式信息损失越小。
     步骤 3) 中，根据时间序列的属性值以及模式特征，分析攻击者的背景知识，定义隐私攻击类型。由于最终发布的数据中包含最大化保留的模式信息，所以攻击者的背景知识可以分为两大类，一类是关于时间序列属性值的背景知识，定义为 Kv，另一类是关于模式信息的背景知识，定义为 Kp。相应的，攻击者的隐私攻击类型可以划分为三大类： a) 基于 Kv 的隐私攻击； b) 基于 Kp 的隐私攻击； c) 基于 Kv ∪ Kp 的隐私攻击。(k， P) 匿名模型基于上述定义的三种隐私攻击类型进行构建，能够有效的抵御隐私攻击，从而保证用户隐私。
     (k， P) 匿名模型将时间序列的各个属性区间，以及整条序列的模式特征分别作为独立的形式发布，力求达到模式信息损失最小化的效果。(k， P) 匿名模型是一个双层隐私保护模型，其具体含义如下：
     a) 在第一层约束中，整个时间序列原始数据集被要求在 QI 属性上满足 k 匿名的条件，在数据发布时发布每个 k 匿名组各个属性的泛化区间；
     b) 在第二层约束中，在每一个 k 匿名组内，要求每一条时间序列的模式特征都至少与其他 P-1 条时间序列相同，在数据发布时发布每条时间序列的模式特征。(k， P) 匿名模型的构造示例如图 2 所示，在图 2 中，我们根据一个包含 8 条时间序列的原始数据集来构建 (k， P) 匿名模型，首先可将其分为 2 个 k 匿名组 (k 匿名组 1 和 k 匿名组 2)，每个 k 匿名组中包含四条时间序列，发布每个 k 匿名组的各个属性的泛化区间，然后，将每个 k 匿名组各进一步划分为两个 P 子组，发布各个 P 子组的模式特征。
     步骤 4) 中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识，需具体问题具体分析，不可一概而论。对于 SAX 而言，我们将模式特征的相似性定义为两条模式特征字符串之间的欧式距离。在进行分组以满足 (k， P) 匿名模型约束时，首先根据模式特征的相似性，在整个原始数据集中以一种自顶向下的方式来构造 P 子组，进一步保证模式信息损失最小化的需求。
     步骤 5) 中，基于步骤 4) 中形成的 P 子组，分析任意两个 P 子组之间的 QI 属性值的相似性，以自底向上的聚类方式对 P 子组进行聚类，形成 k 匿名组，使得原始数据集最终满足 (k， P) 匿名模型的要求。
     步骤 6) 中提到的信息损失，包括属性值信息损失以及模式信息损失两部分。属性值信息损失由于属性值泛化而产生。对于一条有 n 个属性的时间序列 r 而言，其属性区间上限可表示为损失可形式化为：
     属性区间下限表示为基于上述定义， r 的属性值信息模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异。在 (k， P) 匿名模型约束下，能够证明在最坏情况下的隐私泄露概率为 1/P。

资源描述

《一种模式信息损失最小化的序列类数据隐私保护方法.pdf》由会员分享，可在线阅读，更多相关《一种模式信息损失最小化的序列类数据隐私保护方法.pdf（8页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN101964034A43申请公布日20110202CN101964034ACN101964034A21申请号201010298698122申请日20100930G06F21/00200601G06F17/3020060171申请人浙江大学地址310027浙江省杭州市西湖区浙大路38号72发明人陈珂寿黎但陈刚胡天磊尚璇74专利代理机构杭州求是专利事务所有限公司33200代理人林怀禹54发明名称一种模式信息损失最小化的序列类数据隐私保护方法57摘要本发明公开了一种模式信息损失最小化的序列类数据隐私保护方法。基于一个广义的模式定义模型以及实际应用需求来确定模式定义函数集，在此基础上。

2、选择能够实现模式信息损失最小化的模式映射函数以提取模式特征。同时基于攻击者的背景知识来确定隐私攻击类型，基于K匿名技术，对时间序列的QI属性值和模式特征施加K，P匿名模型，该模型将时间序列的属性泛化区间以及模式特征分别作为独立的形式发布，在保证数据隐私的基础上，将时间序列的模式信息最小化，保证数据的可用性。K，P匿名模型能够兼容各种模式定义方式并拥有一套完整的可用性评估机制，其完善性和有效性使得K，P匿名模型能够在最大程度上博得信赖，获得广泛应用。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书4页附图2页CN101964035A1/1页21一种模式信息损失最。

3、小化的序列类数据隐私保护方法，其特征在于该方法的步骤如下1建立一个广义的时间序列模式定义模型，根据这个模型以及实际应用的模式挖掘任务需求，选择符合实际应用需求的模式定义函数集；2根据步骤1中提出的模式定义函数集，确定模式映射函数，时间序列的属性分为标识属性，QI属性和敏感属性三种，时间序列的模式特征由模式映射函数基于QI属性来进行提取；3根据时间序列的属性值以及时间序列的模式特征，定义隐私攻击类型，构建K，P匿名模型以保护时间序列数据隐私；4根据上述步骤2中所述的时间序列的模式特征，衡量整个原始数据集中任意两条时间序列之间的模式相似性，构建P子组，以达到模式信息损失最小化的效果；5基于步骤4中。

4、形成的P子组，分析任意两个P子组之间的QI属性值的相似性，以自底向上的聚类方式对P子组进行聚类，形成K匿名组，使得原始数据集最终满足K，P匿名模型的要求；6定义K，P匿名模型的信息损失衡量策略，并分析其隐私泄露概率，完成对K，P匿名模型的可用性评估，同时根据分组结果，对时间序列数据进行属性值的泛化，完成数据发布。2根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于步骤1中选用的模式定义模型，兼容已有文献中所有的模式定义方式，对于一条具体的时间序列R，其模式定义函数集形式化为PR，M为系统变量，其中，FI1IM为任意两个或两个以上属性的相关性函数。3根据权利要求1所述。

5、的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于步骤2中的模式特征应满足以下两个条件A由原始时间序列经过特定的模式映射函数得出；B可根据该模式特征对原始时间序列的模式进行重建。模式特征从QI属性中提取，并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。4根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于步骤3中构建的K，P匿名模型是一个双层隐私保护模型，其具体含义如下A在第一层约束中，整个原始数据集被要求在QI属性上满足K匿名的条件；B在第二层约束中，在每一个K匿名组内，要求每一条时间序列的模式特征都至少与其他P。

6、1条时间序列相同。5根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于步骤4中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识。6根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于步骤6中提到的信息损失，包括属性值信息损失以及模式信息损失两部分，属性值信息损失由于属性值泛化而产生，模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异，在K，P匿名模型约束下，证明在最坏情况下的隐私泄露概率为1/P。权利要求书CN101964034ACN101964035A1/4页3一种模式信息损失最小化的序列类数据隐。

7、私保护方法技术领域0001本发明涉及数据库系统、数据隐私与模式信息提取技术，特别是涉及一种模式信息损失最小化的序列类数据隐私保护方法。背景技术0002时间序列数据被公认为是自然界和人类社会中一类非常重要的数据，其应用范围包括金融分析和社交行为追踪等重要领域。近几年来，传感器网络，RFID和无线定位设备的快速发展，更加凸显了时间序列数据的重要性。但是，值得注意的是，时间序列数据中也包含着大量的隐私信息，如果不加以适当的保护，数据拥有者对数据隐私的担忧将极大的桎梏相关应用的发展。0003目前，时间序列数据的隐私保护问题还没有得到很好的解决。主要原因是时间序列数据与传统表数据相比，其数据特征相对复杂。

8、。时间序列数据的各个属性在时间上存在一种前后依赖的关系，整体表现为一种模式信息。模式匹配是时间序列数据的一类重要查询。0004K匿名是传统表数据领域的一类重要的隐私保护技术。但是，如果将这种方法直接应用于时间序列数据，其缺陷十分明显。因为K匿名所要求的属性值泛化会使时间序列的模式信息遭到严重破坏，从而使得数据可用性大大降低。目前，一些与时间序列相关的隐私保护技术也各自存在缺陷。TGA是一种基于干扰的匿名技术，首先将时间序列进行分组，然后在组内随机重建时间序列，这种方法导致的模式信息损失也非常之大。BFP2KA是一种基于字符串的隐私保护技术，通过构建前缀树并对其进行剪枝来实现K匿名。虽然BFP2。

9、KA号称能够保留模式，但其所谓的模式仅限于字符串的精确匹配，通用性受到很大的限制。发明内容0005本发明的目的在于提供一种模式信息损失最小化的序列类数据隐私保护方法，基于K匿名技术，构建出一个新的匿名模型，即K，P匿名模型，在有效保护隐私的同时达到模式信息损失最小化的效果，有效的解决了时间序列的隐私保护问题。0006本发明采用的技术方案的步骤如下00071建立一个广义的时间序列模式定义模型，根据这个模型以及实际应用的模式挖掘任务需求，选择符合实际应用需求的模式定义函数集；00082根据步骤1中提出的模式定义函数集，确定模式映射函数，时间序列的属性分为标识属性，QI属性和敏感属性三种，时间序列的。

10、模式特征由模式映射函数基于QI属性来进行提取；00093根据时间序列的属性值以及时间序列的模式特征，定义隐私攻击类型，构建K，P匿名模型以保护时间序列数据隐私；00104根据上述步骤2中所述的时间序列的模式特征，衡量整个原始数据集中任意两条时间序列之间的模式相似性，构建P子组，以达到模式信息损失最小化的效果；说明书CN101964034ACN101964035A2/4页400115基于步骤4中形成的P子组，分析任意两个P子组之间的QI属性值的相似性，以自底向上的聚类方式对P子组进行聚类，形成K匿名组，使得原始数据集最终满足K，P匿名模型的要求；00126定义K，P匿名模型的信息损失衡量策略，并。

11、分析其隐私泄露概率，完成对K，P匿名模型的可用性评估，同时根据分组结果，对时间序列数据进行属性值的泛化，完成数据发布。0013步骤1中选用的模式定义模型，兼容已有文献中所有的模式定义方式，对于一条具体的时间序列R，其模式定义函数集形式化为PR，M为系统变量，其中，FI1IM为任意两个或两个以上属性的相关性函数。0014步骤2中的模式特征应满足以下两个条件A由原始时间序列经过特定的模式映射函数得出；B可根据该模式特征对原始时间序列的模式进行重建。模式特征从QI属性中提取，并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。0015步骤3中构建的K，P匿名模。

12、型是一个双层隐私保护模型，其具体含义如下0016A在第一层约束中，整个原始数据集被要求在QI属性上满足K匿名的条件；0017B在第二层约束中，在每一个K匿名组内，要求每一条时间序列的模式特征都至少与其他P1条时间序列相同。0018步骤4中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识。0019步骤6中提到的信息损失，包括属性值信息损失以及模式信息损失两部分，属性值信息损失由于属性值泛化而产生，模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异，在K，P匿名模型约束下，证明在最坏情况下的隐私泄露概率为1/P。0020本发明具有的有益效果是0021本发明。

13、充分利用了传统表数据领域的隐私保护模型以及现有的时间序列模式特征提取技术，将两者进行融合，为时间序列构建出一个新的隐私保护模型，K，P匿名模型。该模型将时间序列的各个属性区间以及整条序列的模式特征分别作为独立的形式发布，能够在充分保证数据隐私的基础上，将时间序列的模式信息最小化，充分保证了数据的可用性。附图说明0022图1是本发明实施步骤流程图。0023图2是K，P匿名模型构造示意图。具体实施方式0024下面结合附图和具体实施对本发明的技术方案作进一步说明。00251、如图1与图2所示，本发明具体实施过程和工作原理如下00261建立一个广义的时间序列模式定义模型，根据这个模型以及实际应用的模式。

14、挖掘任务需求，选择合适的模式定义函数集即符合实际应用需求的模式定义函数集；说明书CN101964034ACN101964035A3/4页500272根据步骤1中提出的模式定义函数集，确定模式映射函数。时间序列的属性分为标识属性，QI属性即联合标识属性和敏感属性三种。原始时间序列的模式特征由模式映射函数基于QI属性来进行提取；00283根据时间序列的属性值以及模式特征，定义隐私攻击类型，构建K，P匿名模型以保护时间序列数据隐私；00294根据上述步骤2中所述的模式特征，衡量时间序列两两之间即原始数据集中任意两条时间序列之间的模式相似性，构建P子组P子组的大小由参数P确定，在同一个P子组中的时间序。

15、列都具有相同的模式特征，以达到模式信息损失最小化的效果；00305基于步骤4中形成的P子组，分析任意两个P子组之间的QI属性值的相似性，以自底向上的聚类方式对P子组进行聚类，形成K匿名组，使得原始数据集最终满足K，P匿名模型的要求；00316定义K，P匿名模型的信息损失衡量策略，并分析其隐私泄露概率，完成对K，P匿名模型的可用性评估。同时根据分组结果，对时间序列数据进行属性值的泛化，完成数据发布。0032步骤1中选用的模式定义模型，可以兼容已有文献中所有的模式定义方式。对于一条具体的时间序列R，其模式定义函数集可形式化为PR，M为系统变量。其中，FI1IM为任意两个或两个以上属性的相关性函数。。

16、0033步骤2中的模式特征应满足以下两个条件A由原始时间序列经过特定的模式映射函数得出；B可根据该模式特征对原始时间序列的模式进行重建。模式特征从QI属性中提取，并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。鉴于模式信息的重要性，现有文献中有大量广为人知的模式特征提取技术，包括SAX，PAA，PLA和APCA等。步骤1中定义的模式定义模型可以完全兼容这些模式特征提取技术。由于SAX的直观性和易操作性，以下几个步骤的具体实施方式将在SAX的基础上进行阐述。SAX技术将时间序列的属性值进行离散化，最终将其模式特征表示为一条字符串，其参数LEVEL用于控。

17、制模式特征的精确程度，即与原始时间序列模式的匹配程度。LEVEL值越大，模式信息损失越小。0034步骤3中，根据时间序列的属性值以及模式特征，分析攻击者的背景知识，定义隐私攻击类型。由于最终发布的数据中包含最大化保留的模式信息，所以攻击者的背景知识可以分为两大类，一类是关于时间序列属性值的背景知识，定义为KV，另一类是关于模式信息的背景知识，定义为KP。相应的，攻击者的隐私攻击类型可以划分为三大类A基于KV的隐私攻击；B基于KP的隐私攻击；C基于KVKP的隐私攻击。K，P匿名模型基于上述定义的三种隐私攻击类型进行构建，能够有效的抵御隐私攻击，从而保证用户隐私。0035K，P匿名模型将时间序列的。

18、各个属性区间，以及整条序列的模式特征分别作为独立的形式发布，力求达到模式信息损失最小化的效果。K，P匿名模型是一个双层隐私保护模型，其具体含义如下0036A在第一层约束中，整个时间序列原始数据集被要求在QI属性上满足K匿名的条件，在数据发布时发布每个K匿名组各个属性的泛化区间；0037B在第二层约束中，在每一个K匿名组内，要求每一条时间序列的模式特征都至少与其他P1条时间序列相同，在数据发布时发布每条时间序列的模式特征。K，P匿名说明书CN101964034ACN101964035A4/4页6模型的构造示例如图2所示，在图2中，我们根据一个包含8条时间序列的原始数据集来构建K，P匿名模型，首先。

19、可将其分为2个K匿名组K匿名组1和K匿名组2，每个K匿名组中包含四条时间序列，发布每个K匿名组的各个属性的泛化区间，然后，将每个K匿名组各进一步划分为两个P子组，发布各个P子组的模式特征。0038步骤4中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识，需具体问题具体分析，不可一概而论。对于SAX而言，我们将模式特征的相似性定义为两条模式特征字符串之间的欧式距离。在进行分组以满足K，P匿名模型约束时，首先根据模式特征的相似性，在整个原始数据集中以一种自顶向下的方式来构造P子组，进一步保证模式信息损失最小化的需求。0039步骤5中，基于步骤4中形成的P子组，分析任意两个P。

20、子组之间的QI属性值的相似性，以自底向上的聚类方式对P子组进行聚类，形成K匿名组，使得原始数据集最终满足K，P匿名模型的要求。0040步骤6中提到的信息损失，包括属性值信息损失以及模式信息损失两部分。属性值信息损失由于属性值泛化而产生。对于一条有N个属性的时间序列R而言，其属性区间上限可表示为属性区间下限表示为基于上述定义，R的属性值信息损失可形式化为00410042模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异。在K，P匿名模型约束下，能够证明在最坏情况下的隐私泄露概率为1/P。说明书CN101964034ACN101964035A1/2页7图1说明书附图CN101964034ACN101964035A2/2页8图2说明书附图CN101964034A。

展开阅读全文