一种基于数据映射的个性化隐私信息检索方法技术领域
本发明属于数据交易中的信息检索技术领域,更为具体地讲,涉及一种基于数据
映射的个性化隐私信息检索方法。
背景技术
随着网络信息技术飞速发展,各行各业对数据的需求量不断增长,不论是在学术
界还是在工业界都希望可以得到满足生产和研究的数据,并且数据在人们的生活中扮演着
越来越重要的角色。政府部门、商业组织或研究机构等各行业都需要大量的数据输入来满
足各式各样的需求,但是数据是复杂的,多变的,因此,各行业就需要从海量数据中搜索有
用信息来满足自身需要。但这样有可能导致个体查询内容隐私以及查询方的商业意图的泄
露,随之而来的是各种解决私密信息(如日常习惯、不良历史、信誉程度、以往病史等)方面
的研究,以确保信息的利用在满足行业需求的同时能保证个人隐私以及商业意图不被泄
露。正是这样的需求使得安全可信的数据交易平台应运而生,为用户提供保护数据主体隐
私的安全隐私平台。
在各种保护隐私的数据检索模型中最具代表性的是隐私信息检索保护模型,隐私
信息检索经过多年的研究,已经形成了相对完善的理论体系。虽然一些方法还存在一定的
缺陷,但随着一些关键问题的解决,隐私信息检索将越来越多地应用到各个领域,许多行业
为了保护数据查询提供方的利益以及查询方的商业利益,引入了隐私信息检索方法。
在进入了大数据时代之后,各种数据不断融合,各大机构都有足够多的数据,但是
当他们想通过其他机构查询数据的时候,他们不想暴露自己的数据给数据提供方,然而对
于此种需求目前行业内并没有有效的解决方法。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于数据映射的个性化隐私信
息检索方法,实现对买方检索内容和意图隐私的良好保护。
为实现上述发明目的,本发明基于数据映射的个性化隐私信息检索方法,包括以
下步骤:
S1:数据交易平台的买卖双方协商得到检索的参照列R;
S2:卖方将其数据库中的数据记录进行伪ID编号,对每条数据记录中参照列R的数
据采用不可逆加密算法进行加密得到参照列数据密文,卖方将每条数据记录的伪ID和参照
列数据密文发送给买方;
S3:买方在自己所要检索的数据中提取参照列R对应的数据,采用与卖方相同的不
可逆加密算法进行加密,在所接收到的伪ID和参照列数据密文中查询得到检索参照列数据
密文对应的伪ID,然后生成(k-1)M个假伪ID,其中k表示买方的隐私要求参数,k>1,M表示
买方检索参照列数据个数,将(k-1)M个假伪ID和对检索参照列数据对应的伪ID构成k匿名
集合,发送给卖方;
S4:卖方根据买方所发送来的k匿名集合,在其数据库中检索得到数据记录集,发
送给买方;
S5:买方接收到检索记录集后根据其真实检索参照列数据对应的伪ID在检索记录
集中筛选出所需检索记录,得到检索结果。
本发明基于数据映射的个性化隐私信息检索方法,数据交易平台的买卖双方协商
得到检索的参照列,卖方对其数据记录进行伪ID编号进行数据映射,并采用不可逆加密算
法进行加密得到参照列数据密文,一起发送给买方,买方采用相同的不可逆加密算法获取
查询参照列数据密文,查询得到对应的伪ID,根据隐私要求参数k生成(k-1)M个假伪ID,然
后将(k-1)M个假伪ID和M个所需检索数据对应的伪ID构建k匿名集合发送给卖方,卖方将检
索得到的数据记录集发送给买方,买方根据其真实检索参照列数据对应的伪ID在检索记录
集中筛选出所需检索记录,得到检索结果。采用本发明可以实现对买方检索内容和意图隐
私的良好保护。
附图说明
图1是本发明基于数据映射的个性化隐私信息检索方法的具体实施方式流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地
理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许
会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于数据映射的个性化隐私信息检索方法的具体实施方式流程图。
如图1所示,本发明基于数据映射的个性化隐私信息检索方法的具体步骤包括:
S101:买卖双方协商检索参照列:
数据交易平台的买卖双方协商得到检索的参照列R,例如身份证号、手机号等。通
过这种方式,可以根据买方的自身需求情况和卖方的数据提供情况来确定检索参照列,从
而提供个性化的信息检索。
S102:卖方基于数据映射加密数据:
卖方将其数据库中的数据记录进行伪ID编号,对每条数据记录中参照列R的数据
采用不可逆加密算法进行加密得到参照列数据密文,卖方将每条数据记录的伪ID和参照列
数据密文发送给买方。
伪ID编号就是对数据记录进行统一编号,可以视为对数据记录进行了映射,将每
条数据记录以一个伪ID来表示。本实施例中记卖方数据库中的数据记录数量为N,其伪ID为
自然数,那么数据记录的伪ID为0-N-1,然后将伪ID发送给买方。显然,伪ID是均匀分布的,
这样就忽略了实际数据的分布情况,防止了根据数据分布情况窃取信息的问题。表1是本实
施例中卖方所保存数据记录。
![]()
表1
如表1所示,本实施例中卖方保存有1000条数据记录,因此其伪ID为0-999。
本发明中卖方需要对每条数据记录中参照列R的数据采用不可逆加密算法进行加
密得到参照列数据密文,假设本实施例中选择的参照列R为PhoneNum,则需要对每个
PhoneNum进行加密,不可逆加密算法的特点就是无法根据密文解密得到原始明文。本实施
例中采用SHA(Secure Hash Algorithm,安全散列算法)256加密算法来进行不可逆加密,该
算法可以把任何类型的数据转换成256位的数据摘要,两个不同的数据不会产生同样的数
据摘要。以PhoneNum“15955592645”为例,采用SHA256加密算法得到的密文为
“3BE481CA29E74A01 367CEACA 0B5C7F5E E53E9A40 7D26D436 8EDD5395 41F7B13C”。该密
文是不可逆的,不能将此密文转变为手机号。本发明中将卖方将每条数据记录的伪ID和参
照列数据密文发送给买方,可以有效保证卖方数据安全。
S103:买方生成查询集合:
买方在自己所要检索的数据中提取参照列R对应的数据,采用与卖方相同的不可
逆加密算法进行加密,在所接收到的伪ID和参照列数据密文中查询得到检索参照列数据密
文对应的伪ID,然后生成(k-1)M个假伪ID,其中k表示买方的隐私要求参数,k>1,M表示买
方检索参照列数据个数,将(k-1)M个假伪ID和检索参照列数据对应的伪ID构成k匿名集合,
发送给卖方。
表2是本实施例中买方的检索参照列数据及对应伪ID。
Id
PhoneNum
0
15253592634
1
18753594256
2
18625562646
3
15642592185
4
15955592792
表2
如表2所示,本实施例中,需要查询5个数据,其对应的伪ID为0,1,2,3,4。设置k=
2,因此需要生成的假数据数量为5,即生成5个假伪ID,与表1中的年龄数据一起构成k匿名
集合。表3是本实施例中的k匿名集合。
表3
可见,本发明中买家将其检索参照列数据采用同样方式进行不可逆加密后,根据
密文来查询得到伪ID,再生成假伪ID一起构成k匿名集合,这样在传输检索数据时,传输的
并非检索参照列数据,而是伪ID,伪ID数据不存在特殊的分布特征或其他数据特性,即使被
窃取也很难获取买方的检索参照列数据。并且由于加入了假伪ID,卖方也不会得知买方的
真实的检索内容和意图隐私,加强了对买方的保护。
S104:卖方信息检索与反馈:
卖方根据买方所发送来的k匿名集合在其数据库中检索得到数据记录集,并发送
给买方。
S105:买方获取检索结果:
买方接收到检索记录集后,根据其真实检索参照列数据对应的伪ID在检索记录集
中筛选出所需检索记录,得到检索结果。
根据以上说明可知,本发明中买卖双方通过协商检索参照列,来实现个性化信息
检索,在检索过程中卖方将其数据库中的数据记录进行伪ID编号以实现数据映射,然后将
参照列数据采用不可逆加密算法进行加密,买方对检索参照列数据进行加密,筛选出检索
参照列数据密文对应的伪ID,发送给卖方进行检索,从而解决了隐私信息检索中对检索内
容和意图隐私保护问题。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术
人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技
术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些
变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。