一种数据访问方法及系统技术领域
本发明涉及数据处理领域的数据管理技术,尤其涉及一种数据访问方法及
系统。
背景技术
目前针对大数据平台,比如非结构化数据库,进行数据访问时只能通过视
图方式实现敏感信息的识别。视图是对原始数据库数据的一种变换,通过从一
个或多个数据库的实际表中获得的数据而形成的一张虚表。但是,采用针对大
数据平台的视图无法准确判断数据库中都有哪些敏感信息需要保护;另外,一
旦视图创建好后,不能修改,如果想修改视图,不利于灵活实施对敏感数据的
保护。
发明内容
有鉴于此,本发明的目的在于提供一种数据访问方法及系统,能至少解决
现有技术中存在的上述问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种数据访问方法,所述方法包括:
检测到针对数据信息的访问请求;
基于所述访问请求,获取到访问请求所针对的数据信息;
识别出所述数据信息中包含的至少一个关键字;
基于所述数据信息中包含的至少一个关键字、以及预设规则库,获取到
基于所述数据信息的访问结果;
其中,所述预设规则库中包括有至少一个预设规则;所述预设规则中设
置有用于识别一类敏感信息的规则。
本发明实施例提供了一种数据访问系统,所述系统包括:
通信单元,用于检测到针对数据信息的访问请求;
信息提取单元,用于基于所述访问请求,获取到访问请求所针对的数据
信息;
识别单元,用于识别出所述数据信息中包含的至少一个关键字;
处理单元,用于基于所述数据信息中包含的至少一个关键字、以及预设
规则库,获取到基于所述数据信息的访问结果;其中,所述预设规则库中包
括有至少一个预设规则;所述预设规则中设置有用于识别一类敏感信息的规
则。
本发明所提供的数据访问方法及系统,能够在接收到针对数据信息的访问
请求时,获取到数据信息,再从数据信息中获取到关键字,根据数据信息中
的关键字以及预设规则库中设置的针对敏感信息的预设规则,获取到对应的
访问结果。如此,就能够在对数据信息进行访问时,根据针对敏感信息的预
设规则进行比对,能够准确的识别出所要访问的数据信息中的敏感信息。
另外,由于本发明采用预设规则库的方式进行敏感信息的设置,所以能
够较为便利的针对预设规则库中的规则进行调整,能够保证灵活实施对敏感
数据的保护。
附图说明
图1为本发明实施例数据访问方法流程示意图一;
图2为本发明实施例数据的处理示意图一;
图3为本发明实施例数据的处理示意图二;
图4为本发明实施例数据的处理示意图三;
图5为本发明实施例数据访问方法流程示意图二;
图6为本发明实施例数据访问系统组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
实施例一、
本发明实施例提供了一种数据访问方法,如图1所示,包括:
步骤101:检测到针对数据信息的访问请求;
步骤102:基于所述访问请求,获取到访问请求所针对的数据信息;
步骤103:识别出所述数据信息中包含的至少一个关键字;
步骤104:基于所述数据信息中包含的至少一个关键字、以及预设规则
库,获取到基于所述数据信息的访问结果;其中,所述预设规则库中包括有
至少一个预设规则;所述预设规则中设置有用于识别一类敏感信息的规则。
这里,上述操作可以应用于大数据平台,具体可以为应用于大数据平台
中的一个服务器,比如在所述大数据平台中具备访问管理功能的服务器;或
者,可以应用于大数据平台中的多个服务器。
优选地,本实施例在执行步骤101之前,还可以包括:保存预设规则库。
所述预设规则库中包括有至少一个敏感信息。
保存所述预设规则库之前还会对预设规则库进行设置,比如,在除所述
服务器之外的其他设备中进行设置;或者,在服务器中直接进行设置。
所述敏感信息可以为以下至少之一:身份证信息、手机号码、位置信息。
其中,所述位置信息可以为用户家庭的位置信息、或者用户工作单位的位置
信息等。
另外,本实施例中针对的数据信息可以为所述大数据平台中至少一个数
据存储系统或数据存储结构中存储的数据信息。比如,可以为非结构化数据
库以及HDFS中存储的数据信息。
上述步骤101中所述针对数据信息的访问请求中可以至少包括有:所要
访问的数据信息的标识。比如,所要访问的数据信息为个人简历,那么所述
数据信息的标识可以包括有人名;所要访问的数据信息为一段文字,那么所
述数据信息的标识可以为该段文字的名称。
另外,本实施例中所述访问请求可以为来自用户的客户端,也可以为来
自服务器所在服务器集群中的上层应用,本实施例中不对其来源进行限定。
优选地,本实施例中所述服务器接收到访问请求之后,还会判断所述访
问请求是否合法。比如,可以包括:当所述访问请求由用户基于客户端发出,
则可以判断所述用户对应的用户标识是否为合法用户,若为合法用户,则确
定所述访问请求为合法的访问请求;
或者,当所述访问请求来自上层应用程序,则可以基于应用程序的标识
判断所述应用程序是否为合法访问的程序,若是,则确定访问请求为合法。
上述步骤102中,基于所述访问请求,获取到访问请求所针对的数据信
息,具体可以包括:
解析所述访问请求,至少获取到所述访问请求中所要访问的数据信息的
标识信息;基于所述数据信息的标识信息,从存储设备中获取到所述数据信
息。
上述识别出所述数据信息中包含的至少一个关键字,可以为:根据预设
的数据信息分析规则,对所述数据信息进行关键字提取,得到所述数据信息
中包含的至少一个关键字。
其中,所述数据信息分析规则,可以至少包括以下之一:
一、对数据信息中包含的连续的数字提取作为关键字;比如,连续至少
6为数字提取出来作为关键字,可以为电话号码、电话分机号、身份证号码
等;
二、将预设的多个词汇与所述数据信息中全部文字信息进行匹配,将相
互匹配词汇作为关键字;比如,可以为将某些敏感词汇作为提取规则,将这
些敏感词汇提取出来作为关键字;
三、将符合预设格式的文字以及数字的结合的信息作为关键字;比如,
符合“xx N,yy S”这种格式作为关键字,或者,“东经xx度”“北纬xx
度”等格式作为预设格式。
进一步地,所述基于所述数据信息中包含的至少一个关键字、以及预设
规则库,获取到基于所述数据信息的访问结果,可以包括:
判断所述数据信息中包含的关键字、与所述预设规则库中的预设规则是
否匹配;
若匹配,则确定所述访问请求涉及敏感信息,对所述数据信息中包含的
所述关键字进行处理,将处理后的数据信息作为访问结果;
若不匹配,则确定所述访问请求不涉及敏感信息,将所述数据信息直接
作为访问结果。
本实施例中所述关键字为具体的信息,比如,假设数据信息的关键字可
以为数据“123456”,预设规则库中设置的预设规则为包含有至少18位数
字的身份证信息;
将关键字“123456”与预设规则库中定义的预设规则进行匹配,可以得
知关键字与预设规则库中的预设规则不匹配;
此时,将数据信息直接作为访问结果。
上述步骤104中,所述对所述数据信息中包含的所述关键字进行处理,
将处理后的数据信息作为访问结果的操作,即对所述数据信息进行脱敏处理
的操作,可以包括有以下几种实现方式:
方式一、将所述数据信息中包含的关键字删除得到处理后的数据信息;
将删除关键字的数据信息作为访问结果。
比如,如图2所示,数据信息中包括有关键字一、关键字二,为了将该
数据信息脱敏,可以直接将关键字删除得到最终的数据信息。可以理解的是,
本方式一中所述删除关键字可以为遮挡数据信息中的关键字,比如,利用一
个空白框将关键字遮挡住。
采用方式一进行处理,能够保证对数据信息的处理速度,能够较快的得
到访问结果。
方式二、选取所述数据信息中包含的关键字对应的替换信息;利用所述
替换信息对所述数据信息中的关键字进行替换,得到替换后的数据信息作为
访问结果。
其中,所述替换信息可以为根据实际情况设置的信息,可以为全部替换
为统一的替换信息,或者,可以为根据预设的替换表将不同的关键字替换为
不同的替换信息。其中,所述替换表可以为将关键字与相同类型的替换信息
进行对应。
如图3所示,可以为将关键字一以及关键字二统一替换为预设的替换信
息,比如,图中所示均替换为“ABC”;或者,如图4所示,根据预设的替
换表得知关键字一可以替换为“A”,关键字二可以替换为“B”。
采用方式二中统一替换的方式能够较为快速的进行替换得到访问结果,
使用方式二中根据替换表进行替换的方式则能够使得用户至少了解到替换
掉的关键字的类型,能够提升用户从访问结果中获取到更多的除去敏感信息
之外的信息。
方式三、将所述数据信息中包含的关键字进行加密得到加密后的关键
字;利用所述加密后的关键字对所述数据信息中的关键字进行替换,得到访
问结果。
其中,所述加密的方式可以为采用AES、DES、RSA、MD5、哈希算法
等进行直接加密。
使用方式三中进行加密的方式进行处理,能够进一步的保证敏感信息不
回外泄。
优选地,本实施例提供的所述方法还可以包括:对所述预设规则库中的
至少一个预设规则进行更新,得到更新后的预设规则库。其中,所述更新可
以具体为对至少一个预设规则进行删除,或者,对至少一个预设规则进行重
新设置等。
可见,通过采用上述方案,就能够在接收到针对数据信息的访问请求时,
获取到数据信息,再从数据信息中获取到关键字,根据数据信息中的关键字
以及预设规则库中设置的针对敏感信息的预设规则,获取到对应的访问结
果。如此,就能够在对数据信息进行访问时,根据针对敏感信息的预设规则
进行比对,能够准确的识别出所要访问的数据信息中的敏感信息。
另外,由于本发明采用预设规则库的方式进行敏感信息的设置,所以能
够较为便利的针对预设规则库中的规则进行调整,能够保证灵活实施对敏感
数据的保护。
实施例二、
本实施例基于对大数据平台中非结构化数据库访问时的敏感数据识别
及保护,对数据访问方法进行进一步说明,包括:
用户或者应用程序对大数据平台中的非结构化数据库提出访问请求;大
数据平台中的入口访问组件首先会对访问请求语句进行语法语义解析,通过
解析获取用户或应用程序真正想要访问的具体内容。入口访问组件将用户或
应用程序真正想访问的数据与数据库中预先存储的预设规则库与进行查询
比对。若请求数据中包含敏感数据,则启动敏感数据脱敏处理机制,待数据
脱敏处理后再返回给用户相应的请求结果。
具体的可以如图5所示,包括以下步骤:
步骤501:用户或者应用程序对大数据平台中的非结构化数据库提出数
据访问请求。
步骤502:大数据平台完成对该用户以及相关请求的认证及授权,确认
为合法用户。
步骤503:大数据平台通过语法语义解析,确认此次请求的真正数据
步骤504:基于预设规则库,比如敏感字规则库,判断此次请求是否涉
及敏感信息,若不涉及敏感信息,则进行步骤505;若此次请求涉及到敏感
信息,则执行步骤506。
步骤505:返回用户所请求的相关信息,结束处理流程。
步骤506:依照脱敏处理规则,对相应的敏感数据进行脱敏处理。
步骤507:将脱敏后的数据信息作为访问结果返回给用户。
在该实施例中,用户或应用程序可以是对非结构化数据库的某列、某一
行或者某个单元格的请求访问,相应的敏感数据也可以是属于数据库中的某
一列值或者某一行或者是某个单元格。
另外,本实施例还提供另外一种操作场景,对大数据平台中分布式文件
系统访问时的敏感数据识别及保护:当用户或者应用程序对大数据平台中的
分布式文件系统提出访问请求时,大数据平台中的入口访问组件完成认证授
权之后,通过对访问请求语句进行语法语义解析,通过解析获取用户或应用
程序真正想要访问的具体内容。入口访问组件将用户或应用程序真正想访问
的数据与数据库中预先存储的预设规则库与进行查询比对。若请求数据中包
含敏感数据,则进一步经过敏感数据脱敏处理后再将相关请求返回给用户。
在该场景中,用户或应用程序可以是对分布式文件系统中的某个目录或
者某个具体文件的请求访问,相应的敏感数据也可以是属于分布式文件系统
中的某个目录或者某个具体文件。
实施例三、
本发明实施例提供了一种数据访问系统,如图6所示,包括:
通信单元61,用于检测到针对数据信息的访问请求;
信息提取单元62,用于基于所述访问请求,获取到访问请求所针对的
数据信息;
识别单元63,用于识别出所述数据信息中包含的至少一个关键字;
处理单元64,用于基于所述数据信息中包含的至少一个关键字、以及
预设规则库,获取到基于所述数据信息的访问结果;其中,所述预设规则库
中包括有至少一个预设规则;所述预设规则中设置有用于识别一类敏感信息
的规则。
这里,上述数据访问系统可以为大数据平台。另外,上述大数据平台中
的各个单元可以均设置于一个服务器中,比如在所述大数据平台中具备访问
管理功能的服务器;
或者,可以设置于不同的服务器中,比如,通信单元61可以设置于具
备信息收发功能的接口服务器;信息提取单元62可以设置于具备数据存储
功能的服务器;识别单元63可以为具备信息处理功能的服务器;处理单元
64可以设置于具备信息处理功能的服务器。可以理解的是,虽然这里仅提
供了每一个单元设置于不同的服务器中的示例,但是实际上可以将两个或单
个单元设置于相同的服务器,比如,可以将识别单元63以及处理单元64均
设置于相同的具备处理功能的服务器中。
优选地,处理单元64,还用于保存预设规则库。所述预设规则库中包
括有至少一个敏感信息。
保存所述预设规则库之前还会对预设规则库进行设置,比如,在除所述
服务器之外的其他设备中进行设置;或者,在服务器中直接进行设置。
所述敏感信息可以为以下至少之一:身份证信息、手机号码、位置信息。
其中,所述位置信息可以为用户家庭的位置信息、或者用户工作单位的位置
信息等。
本实施例中针对的数据信息可以为所述大数据平台中至少一个数据存
储系统或数据存储结构中存储的数据信息。比如,可以为非结构化数据库以
及HDFS中存储的数据信息。
所述针对数据信息的访问请求中可以至少包括有:所要访问的数据信息
的标识。比如,所要访问的数据信息为个人简历,那么所述数据信息的标识
可以包括有人名;所要访问的数据信息为一段文字,那么所述数据信息的标
识可以为该段文字的名称。
本实施例中所述访问请求可以为来自用户的客户端,也可以为来自服务
器所在服务器集群中的上层应用,本实施例中不对其来源进行限定。
优选地,本实施例中通信单元61,还可以用于当所述访问请求由用户
基于客户端发出,则可以判断所述用户对应的用户标识是否为合法用户,若
为合法用户,则确定所述访问请求为合法的访问请求;
或者,当所述访问请求来自上层应用程序,则可以基于应用程序的标识
判断所述应用程序是否为合法访问的程序,若是,则确定访问请求为合法。
信息提取单元62,具体用于解析所述访问请求,至少获取到所述访问
请求中所要访问的数据信息的标识信息;基于所述数据信息的标识信息,从
存储设备中获取到所述数据信息。
识别单元63,具体用于根据预设的数据信息分析规则,对所述数据信
息进行关键字提取,得到所述数据信息中包含的至少一个关键字。
其中,所述数据信息分析规则,可以至少包括以下之一:
一、对数据信息中包含的连续的数字提取作为关键字;比如,连续至少
6为数字提取出来作为关键字,可以为电话号码、电话分机号、身份证号码
等;
二、将预设的多个词汇与所述数据信息中全部文字信息进行匹配,将相
互匹配词汇作为关键字;比如,可以为将某些敏感词汇作为提取规则,将这
些敏感词汇提取出来作为关键字;
三、将符合预设格式的文字以及数字的结合的信息作为关键字;比如,
符合“xx N,yy S”这种格式作为关键字,或者,“东经xx度”“北纬xx
度”等格式作为预设格式。
进一步地,处理单元64,具体用于判断所述数据信息中包含的关键字、
与所述预设规则库中的预设规则是否匹配;
若匹配,则确定所述访问请求涉及敏感信息,对所述数据信息中包含的
所述关键字进行处理,将处理后的数据信息作为访问结果;
若不匹配,则确定所述访问请求不涉及敏感信息,将所述数据信息直接
作为访问结果。
本实施例中所述关键字为具体的信息,比如,假设数据信息的关键字可
以为数据“123456”,预设规则库中设置的预设规则为包含有至少18位数
字的身份证信息;
将关键字“123456”与预设规则库中定义的预设规则进行匹配,可以得
知关键字与预设规则库中的预设规则不匹配;
此时,将数据信息直接作为访问结果。
处理单元64,具体用于对所述数据信息中包含的所述关键字进行处理,
将处理后的数据信息作为访问结果的操作,即对所述数据信息进行脱敏处理
的操作,可以包括有以下几种实现方式:
方式一、将所述数据信息中包含的关键字删除得到处理后的数据信息;
将删除关键字的数据信息作为访问结果。
比如,如图2所示,数据信息中包括有关键字一、关键字二,为了将该
数据信息脱敏,可以直接将关键字删除得到最终的数据信息。可以理解的是,
本方式一中所述删除关键字可以为遮挡数据信息中的关键字,比如,利用一
个空白框将关键字遮挡住。
采用方式一进行处理,能够保证对数据信息的处理速度,能够较快的得
到访问结果。
方式二、选取所述数据信息中包含的关键字对应的替换信息;利用所述
替换信息对所述数据信息中的关键字进行替换,得到替换后的数据信息作为
访问结果。
其中,所述替换信息可以为根据实际情况设置的信息,可以为全部替换
为统一的替换信息,或者,可以为根据预设的替换表将不同的关键字替换为
不同的替换信息。其中,所述替换表可以为将关键字与相同类型的替换信息
进行对应。
如图3所示,可以为将关键字一以及关键字二统一替换为预设的替换信
息,比如,图中所示均替换为“ABC”;或者,如图4所示,根据预设的替
换表得知关键字一可以替换为“A”,关键字二可以替换为“B”。
采用方式二中统一替换的方式能够较为快速的进行替换得到访问结果,
使用方式二中根据替换表进行替换的方式则能够使得用户至少了解到替换
掉的关键字的类型,能够提升用户从访问结果中获取到更多的除去敏感信息
之外的信息。
方式三、将所述数据信息中包含的关键字进行加密得到加密后的关键
字;利用所述加密后的关键字对所述数据信息中的关键字进行替换,得到访
问结果。
其中,所述加密的方式可以为采用AES、DES、RSA、MD5、哈希算法
等进行直接加密。
使用方式三中进行加密的方式进行处理,能够进一步的保证敏感信息不
回外泄。
可见,通过采用上述方案,就能够在接收到针对数据信息的访问请求时,
获取到数据信息,再从数据信息中获取到关键字,根据数据信息中的关键字
以及预设规则库中设置的针对敏感信息的预设规则,获取到对应的访问结
果。如此,就能够在对数据信息进行访问时,根据针对敏感信息的预设规则
进行比对,能够准确的识别出所要访问的数据信息中的敏感信息。
另外,由于本发明采用预设规则库的方式进行敏感信息的设置,所以能
够较为便利的针对预设规则库中的规则进行调整,能够保证灵活实施对敏感
数据的保护。
本发明实施例所述集成的模块如果以软件功能模块的形式实现并作为
独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基
于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献
的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储
介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、基站、
或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的
存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、
随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种
可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和
软件结合。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范
围。