一种隐私信息的保护方法和系统.pdf

上传人:62****3 文档编号:176997 上传时间:2018-01-31 格式:PDF 页数:10 大小:606.72KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510206769.3

申请日:

2015.04.28

公开号:

CN104766028A

公开日:

2015.07.08

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 21/62申请日:20150428|||公开

IPC分类号:

G06F21/62(2013.01)I

主分类号:

G06F21/62

申请人:

中国科学院微电子研究所

发明人:

陈岚; 肖京; 雷君

地址:

100029北京市朝阳区北土城西路3号中科院微电子所

优先权:

专利代理机构:

北京集佳知识产权代理有限公司11227

代理人:

王宝筠

PDF下载: PDF下载
内容摘要

本发明提供了一种隐私信息的保护方法和系统,包括:根据原始数据获得列数据为属性对的二维矩阵;对二维矩阵进行等距变换,令等距变换的旋转角在预设范围内变化,并得出随旋转角变化的偏转度曲线,偏转度可衡量隐私的保护程度;根据偏转度曲线确定旋转角的最佳取值范围;从最佳取值范围中随机选取旋转角对二维矩阵进行等距变换,以得到等距变换后的待挖掘数据,从而能够在实现隐私信息保护的同时能够确保变换后的数据间距离不变,以达到对变换后的数据进行聚类分析与对原始数据集进行聚类分析等同的效果;并且,由于本发明中对数据集的等距变换是随机的,因此,攻击者不能从转换后的数据集上推导出原始数据,从而增强了隐私信息的安全性。

权利要求书

1.  一种隐私信息的保护方法,其特征在于,包括:
根据原始数据获得列数据为属性对的二维矩阵;
对所述二维矩阵进行等距变换,令所述等距变换的旋转角在预设范围内变化,并得出随所述旋转角变化的偏转度曲线,所述偏转度可衡量隐私的保护程度;
根据所述偏转度曲线确定所述旋转角的最佳取值范围;
从所述最佳取值范围中随机选取旋转角对所述二维矩阵进行等距变换,以得到等距变换后的待挖掘数据。

2.
  根据权利要求1所述的方法,其特征在于,所述根据原始数据获得列数据为属性对的矩阵的过程,包括:
将原始数据构建为二维矩阵,所述二维矩阵的行数据为数据记录、列数据为属性;
利用规范化模型对所述二维矩阵进行等比例缩放,以得到规范化的二维矩阵;
将所述规范化的二维矩阵中的属性两两配对,以得到列数据为属性对的二维矩阵。

3.
  根据权利要求2所述的方法,其特征在于,将所述规范化的二维矩阵中的属性两两配对之前,包括:
判断所述属性的个数是否为偶数;
若为偶数,将所述属性两两配对;
若为奇数,将其中一个所述属性与等距变换后的一个属性进行配对,其他所述属性两两配对。

4.
  根据权利要求1所述的方法,其特征在于,所述旋转角在预设范围内变化是指所述旋转角从0到2π变化。

5.
  根据权利要求1所述的方法,其特征在于,所述根据所述偏转度曲线确定所述旋转角的最佳取值范围的过程,包括:
求出所述偏转度曲线的最大值以及对应的第一旋转角;
求出所述偏转度曲线的交点的最大值以及对应的第二旋转角;
将所述第一旋转角和第二旋转角中的最小值设定为所述最佳取值范围的最小值,将所述第一旋转角和第二旋转角中的最大值设定为所述最佳取值范围的最大值。

6.
  一种隐私信息的保护系统,其特征在于,包括:
第一模块,用于根据原始数据获得列数据为属性对的二维矩阵;
第二模块,用于对所述二维矩阵进行等距变换,令所述等距变换的旋转角在预设范围内变化,并得出随所述旋转角变化的偏转度曲线,所述偏转度可衡量隐私的保护程度;
第三模块,用于根据所述偏转度曲线确定所述旋转角的最佳取值范围;
第四模块,用于从所述最佳取值范围中随机选取旋转角对所述二维矩阵进行等距变换,以得到等距变换后的待挖掘数据。

7.
  根据权利要求6所述的系统,其特征在于,所述第一模块包括:
第一子模块,用于将原始数据构建为二维矩阵,所述二维矩阵的行数据为数据记录、列数据为属性;
第二子模块,用于利用规范化模型对所述二维矩阵进行等比例缩放,以得到规范化的二维矩阵;
第三子模块,用于将所述规范化的二维矩阵中的属性两两配对,以得到列数据为属性对的二维矩阵。

8.
  根据权利要求7所述的系统,其特征在于,所述第三子模块包括:
判断模块,用于判断所述属性的个数是否为偶数,若为偶数,将第一控制指令发送至配对模块,若为奇数,将第二控制指令发送至配对模块;
配对模块,用于在接收到所述第一控制指令后,将所述属性两两配对,在接收到所述第二控制指令后,将其中一个所述属性与等距变换后的一个属性进行配对,其他所述属性两两配对。

9.
  根据权利要求6所述的系统,其特征在于,所述第三模块包括:
第一单元,用于求出所述偏转度曲线的最大值以及对应的第一旋转角;
第二单元,用于求出所述偏转度曲线的交点的最大值以及对应的第二旋转角;
第三单元,用于将所述第一旋转角和第二旋转角中的最小值设定为所述最佳取值范围的最小值,将所述第一旋转角和第二旋转角中的最大值设定为所述最佳取值范围的最大值。

10.
  根据权利要求6所述的系统,其特征在于,所述旋转角在预设范围内变化是指所述旋转角从0到2π变化。

说明书

一种隐私信息的保护方法和系统
技术领域
本发明涉及计算机网络技术领域,更具体地说,涉及一种隐私信息的保护方法和系统。
背景技术
数据挖掘是指在大量的数据中挖掘出潜在的有用的数据的过程。虽然数据挖掘的恰当使用会挖掘出切实有用的数据,但是,如果数据挖掘技术被恶意使用的话,就会泄露用户的隐私信息,对用户的生活产生不良影响,而企业隐私信息的泄露则会严重影响企业的核心竞争力,因此,隐私信息保护已经成为当前数据挖掘领域十分重要的研究问题之一。
数据挖掘中通过等距变换在属性之间进行等距变换,实现隐藏敏感属性即隐私信息的目的。现有的一种保持空间距离不变的基于旋转的数据转换(Rotation-based Transformation,RBT)算法,将原始数据抽象成二维空间中的一个点,通过在二维坐标系上根据变换矩阵公式旋转角来改变各原始数据的值而不改变各值之间的距离,以此来实现二维空间中点的转换,获得较好的隐私信息保护效果。
但是,由于上述算法在对原始数据进行等距变换时,需要人工预置转换的偏转度,该偏转度可衡量隐私的保护程度,但是,由于现有技术中并没有一种通用的规则去量化数据转换中偏转度为多少时更安全,因此,人工也就无法确定预设何种角度的旋转角更为安全。
发明内容
有鉴于此,本发明提供了一种隐私信息的保护方法和系统,以提供一种能够自适应地在合理的偏转度区间内随机选取等距变换旋转角的方法,以解决现有技术中人工无法预置更为安全的偏转度的问题。
为实现上述目的,本发明提供如下技术方案:
一种隐私信息的保护方法,包括:
根据原始数据获得列数据为属性对的二维矩阵;
对所述二维矩阵进行等距变换,令所述等距变换的旋转角在预设范围内变化,并得出随所述旋转角变化的偏转度曲线,所述偏转度可衡量隐私的保护程度;
根据所述偏转度曲线确定所述旋转角的最佳取值范围;
从所述最佳取值范围中随机选取旋转角对所述二维矩阵进行等距变换,以得到等距变换后的待挖掘数据。
优选的,所述根据原始数据获得列数据为属性对的矩阵的过程,包括:
将原始数据构建为二维矩阵,所述二维矩阵的行数据为数据记录、列数据为属性;
利用规范化模型对所述二维矩阵进行等比例缩放,以得到规范化的二维矩阵;
将所述规范化的二维矩阵中的属性两两配对,以得到列数据为属性对的二维矩阵。
优选的,将所述规范化的二维矩阵中的属性两两配对之前,包括:
判断所述属性的个数是否为偶数;
若为偶数,将所述属性两两配对;
若为奇数,将其中一个所述属性与等距变换后的一个属性进行配对,其他所述属性两两配对。
优选的,所述旋转角在预设范围内变化是指所述旋转角从0到2π变化。
优选的,所述根据所述偏转度曲线确定所述旋转角的最佳取值范围的过程,包括:
求出所述偏转度曲线的最大值以及对应的第一旋转角;
求出所述偏转度曲线的交点的最大值以及对应的第二旋转角;
将所述第一旋转角和第二旋转角中的最小值设定为所述最佳取值范围的最小值,将所述第一旋转角和第二旋转角中的最大值设定为所述最佳取值范围的最大值。
一种隐私信息的保护系统,包括:
第一模块,用于根据原始数据获得列数据为属性对的二维矩阵;
第二模块,用于对所述二维矩阵进行等距变换,令所述等距变换的旋转角在预设范围内变化,并得出随所述旋转角变化的偏转度曲线,所述偏转度可衡量隐私的保护程度;
第三模块,用于根据所述偏转度曲线确定所述旋转角的最佳取值范围;
第四模块,用于从所述最佳取值范围中随机选取旋转角对所述二维矩阵进行等距变换,以得到等距变换后的待挖掘数据。
优选的,所述第一模块包括:
第一子模块,用于将原始数据构建为二维矩阵,所述二维矩阵的行数据为数据记录、列数据为属性;
第二子模块,用于利用规范化模型对所述二维矩阵进行等比例缩放,以得到规范化的二维矩阵;
第三子模块,用于将所述规范化的二维矩阵中的属性两两配对,以得到列数据为属性对的二维矩阵。
优选的,所述第三子模块包括:
判断模块,用于判断所述属性的个数是否为偶数,若为偶数,将第一控制指令发送至配对模块,若为奇数,将第二控制指令发送至配对模块;
配对模块,用于在接收到所述第一控制指令后,将所述属性两两配对,在接收到所述第二控制指令后,将其中一个所述属性与等距变换后的一个属性进行配对,其他所述属性两两配对。
优选的,所述第三模块包括:
第一单元,用于求出所述偏转度曲线的最大值以及对应的第一旋转角;
第二单元,用于求出所述偏转度曲线的交点的最大值以及对应的第二旋转角;
第三单元,用于将所述第一旋转角和第二旋转角中的最小值设定为所述最佳取值范围的最小值,将所述第一旋转角和第二旋转角中的最大值设定为所述最佳取值范围的最大值。
优选的,所述旋转角在预设范围内变化是指所述旋转角从0到2π变化。
与现有技术相比,本发明所提供的技术方案具有以下优点:
本发明所提供的隐私信息的保护方法和系统,根据偏转度曲线确定旋转角的最佳取值范围后,随机地在最佳取值范围内随机选取等距变换的旋转角,在实现隐私信息保护的同时能够确保变换后的数据间距离不变,以达到对变换后的数据进行聚类分析与对原始数据集进行聚类分析等同的效果;并且,由于本发明中对数据集的等距变换是随机的,因此,攻击者不能从转换后的数据集上推导出原始数据,从而增强了隐私信息的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1本发明的第一个实施例提供的一种隐私信息的保护方法的流程图;
图2为本发明的第二个实施例提供的一种隐私信息的保护系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的第一个实施例提供了一种隐私信息的保护方法,该方法的流程图如图1所示,包括:
根据原始数据获得列数据为属性对的二维矩阵;
其中,根据原始数据获得列数据为属性对的矩阵的过程,包括:
S101:将原始数据构建为二维矩阵,所述二维矩阵的行数据为数据记录、列数据为属性;
S102:利用规范化模型对所述二维矩阵进行等比例缩放,以得到规范化的二维矩阵;
S103:将所述规范化的二维矩阵中的属性两两配对,以得到列数据为属性对的二维矩阵;
具体地,在获得需要数据挖掘的原始数据之后,将原始数据构造为二维矩阵,该二维矩阵的行代表数据记录,列代表属性。其中,一个数据记录可表示成T={v1,v2,…,vn},n表示属性的个数,那么,m个数据记录就可以表示成一个m×n的二维矩阵D,如公式(1)所示:

求出每个属性的均值和标准差其中:
vj‾=1mΣi=1mvij---(2)]]>
σvj=1mΣi=1m(vij-vj‾)2---(3)]]>
之后,对二维矩阵进行Z-score数据规范化,将值vij规范化为v′ij,其中,
vij=(vij-vj‾)/σvj---(4)]]>
Z-score数据规范化将属性数据按比例缩放,使之落入一个小的特定区间。对于基于距离的数据变换方法,Z-score数据规范化可以有效防止具有较大初始值域的属性与具有较小初始值域的属性的权重相差过大。
然后,将规范化的二维矩阵的n个属性随机两两配对,得到n/2个m×2的矩阵,即得到列数据为属性对的二维矩阵D’。
二维矩阵D’,如公式(5)所示:
D=v1pv1q······vmpvmq---(5).]]>
其中,在将规范化的二维矩阵中的属性两两配对之前,包括:
判断属性的个数n是否为偶数;
若为偶数,将所述属性两两配对;
若为奇数,将其中一个所述属性与等距变换后的一个属性进行配对,其他属性两两配对。
在得到列数据为属性对的二维矩阵后,进入步骤S102。
S104:对所述二维矩阵进行等距变换,令所述等距变换的旋转角在预设范围内变化,并得出随所述旋转角变化的偏转度曲线,所述偏转度可衡量隐私的保护程度;
n个属性随机两两配对之后得到n/2个m×2的矩阵,对每一个m×2的矩阵进行如下旋转操作,即以θ为旋转角进行RBT等距旋转变换,将数据T(vip,viq)旋转成T(v′ip,v′iq),其中:
v′ip=vip cosθ-viq sinθ  (6)
v′iq=vip sinθ+viq cosθ  (7)
在以θ为旋转角进行RBT等距旋转变换的过程中,令旋转角θ从0到2π以10-2rad递增,得出属性i和j的偏转度曲线。其中,偏转度可以衡量隐私保护的程度,旋转后的偏转度根据公式(8)和(9)计算:
fi(θ)=1mΣi=1m[vip-(vipcosθ-viqsinθ)]2---(8)]]>
fi(θ)=1mΣi=1m[viq-(vipsinθ+viqcosθ)]2---(9)]]>
S105:根据所述偏转度曲线确定所述旋转角的最佳取值范围;
其中,根据所述偏转度曲线确定所述旋转角的最佳取值范围的过程,包括:
求出所述偏转度曲线的最大值以及对应的第一旋转角;
求出所述偏转度曲线的交点的最大值以及对应的第二旋转角;
将所述第一旋转角和第二旋转角中的最小值设定为所述最佳取值范围的最小值,将所述第一旋转角和第二旋转角中的最大值设定为所述最佳取值范围的最大值。
具体地,令旋转角θ从0到2π以10-2rad递增,得出属性i和j的偏转度曲 线之后,分别求出两条偏转度曲线的最大值fimax(θ)和fjmax(θ)以及对应的旋转角取值二者中的最大值即为最终求出的偏转度曲线的最大值为fmax,即fmax=max(fimax(θ),fjmax(θ)),θmax为fmax对应的第一旋转角的取值。
由于公式(8)中的fi(θ)和公式(9)中的fi(θ)都是初等函数组成的复合函数,因此,这两个函数在0到2π区间内必连续,又因为
fi(π2)-fj(π2)=-[fi(3π2)-fj(3π2)]---(10)]]>
因此,由洛尔定理可知,曲线fi(θ)和fi(θ)在(0,2π)内至少有一个交点。求出两条偏转度曲线交点中的最大值fin(θ)以及其所对应的第二旋转角的值θin
最后,得出对于这对属性i和j的旋转角θ的最佳取值范围(区间)为[min(θinmax),max(θinmax)]。
S106:从所述最佳取值范围中自适应的选取旋转角对所述二维矩阵进行等距变换,以得到等距变换后的待挖掘数据。
得到最佳取值范围后,从此区间中随机选取一个旋转角θ进行RBT操作,以得到旋转处理后的待挖掘数据。
本实施例提供的隐私信息的保护方法,根据偏转度曲线确定旋转角的最佳取值范围后,随机地在最佳取值范围内随机选取等距变换的旋转角,在实现隐私信息保护的同时能够确保变换后的数据间距离不变,以达到对变换后的数据进行聚类分析与对原始数据集进行聚类分析等同的效果;并且,由于本发明中对数据集的等距变换是随机的,因此,攻击者不能从转换后的数据集上推导出原始数据,从而增强了隐私信息的安全性。
本发明的第二个实施例提供了一种隐私信息的保护系统,该系统的结构 示意图如图2所示,包括第一模块201、第二模块202、第三模块203和第四模块204。
其中,第一模块201用于根据原始数据获得列数据为属性对的二维矩阵;第二模块202用于对所述二维矩阵进行等距变换,令所述等距变换的旋转角在预设范围内变化,该预设范围是指0到2π,并得出随所述旋转角变化的偏转度曲线,所述偏转度可衡量隐私的保护程度;第三模块203用于根据所述偏转度曲线确定所述旋转角的最佳取值范围;第四模块204用于从所述最佳取值范围中随机选取旋转角对所述二维矩阵进行等距变换,以得到等距变换后的待挖掘数据。
其中,第一模块201包括第一子模块、第二子模块和第三子模块,第一子模块用于将原始数据构建为二维矩阵,所述二维矩阵的行数据为数据记录、列数据为属性;第二子模块用于利用规范化模型对所述二维矩阵进行等比例缩放,以得到规范化的二维矩阵;第三子模块用于将所述规范化的二维矩阵中的属性两两配对,以得到列数据为属性对的二维矩阵。
此外,第三子模块包括判断模块和配对模块,判断模块用于判断所述属性的个数是否为偶数,若为偶数,将第一控制指令发送至配对模块,若为奇数,将第二控制指令发送至配对模块;配对模块用于在接收到所述第一控制指令后,将所述属性两两配对,在接收到所述第二控制指令后,将其中一个所述属性与等距变换后的一个属性进行配对,其他所述属性两两配对。
第三模块203包括第一单元、第二单元和第三单元,第一单元用于求出所述偏转度曲线的最大值以及对应的第一旋转角;第二单元用于求出所述偏转度曲线的交点的最大值以及对应的第二旋转角;第三单元用于将所述第一旋转角和第二旋转角中的最小值设定为所述最佳取值范围的最小值,将所述第一旋转角和第二旋转角中的最大值设定为所述最佳取值范围的最大值。
本实施例提供的隐私信息的保护系统,根据偏转度曲线确定旋转角的最佳取值范围后,随机地在最佳取值范围内随机选取等距变换的旋转角,在实现隐私信息保护的同时能够确保变换后的数据间距离不变,以达到对变换后的数据进行聚类分析与对原始数据集进行聚类分析等同的效果;并且,由于本发明中对数据集的等距变换是随机的,因此,攻击者不能从转换后的数据集上推导出原始数据,从而增强了隐私信息的安全性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

一种隐私信息的保护方法和系统.pdf_第1页
第1页 / 共10页
一种隐私信息的保护方法和系统.pdf_第2页
第2页 / 共10页
一种隐私信息的保护方法和系统.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《一种隐私信息的保护方法和系统.pdf》由会员分享,可在线阅读,更多相关《一种隐私信息的保护方法和系统.pdf(10页珍藏版)》请在专利查询网上搜索。

本发明提供了一种隐私信息的保护方法和系统,包括:根据原始数据获得列数据为属性对的二维矩阵;对二维矩阵进行等距变换,令等距变换的旋转角在预设范围内变化,并得出随旋转角变化的偏转度曲线,偏转度可衡量隐私的保护程度;根据偏转度曲线确定旋转角的最佳取值范围;从最佳取值范围中随机选取旋转角对二维矩阵进行等距变换,以得到等距变换后的待挖掘数据,从而能够在实现隐私信息保护的同时能够确保变换后的数据间距离不变,以。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 >


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1