加密数据检测方法和系统.pdf

上传人:a1 文档编号:4844890 上传时间:2018-11-17 格式:PDF 页数:14 大小:1.43MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410225607.X

申请日:

2014.05.26

公开号:

CN104009836A

公开日:

2014.08.27

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||著录事项变更IPC(主分类):H04L 9/00变更事项:发明人变更前:朱军变更后:潘志松 周宇欢 张艳艳 孟娟 陶蔚|||专利申请权的转移IPC(主分类):H04L 9/00登记生效日:20160314变更事项:申请人变更前权利人:南京泰锐斯通信科技有限公司变更后权利人:中国人民解放军理工大学变更事项:地址变更前权利人:210000 江苏省南京市玄武区玄武大道699-1号变更后权利人:210000 江苏省南京市玄武区玄武大道689号|||实质审查的生效IPC(主分类):H04L 9/00申请日:20140526|||公开

IPC分类号:

H04L9/00

主分类号:

H04L9/00

申请人:

南京泰锐斯通信科技有限公司

发明人:

朱军

地址:

210000 江苏省南京市玄武区玄武大道699-1号

优先权:

专利代理机构:

北京欣永瑞知识产权代理事务所(普通合伙) 11450

代理人:

张庆敏

PDF下载: PDF下载
内容摘要

本发明提供了一种加密数据检测方法和系统。所述检测方法包括:判断输入的数据的协议是否为已知协议;对所述输入的数据中判断为未知协议的数据进行多种随机性测试,得到所述未知协议的数据分别与所述多种随机性测试对应的多个随机性特征;通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配,确定所述未知协议的数据是否是加密数据及加密数据的加密类型。本发明利用模式识别技术,以数据随机性为特征,训练不同密数据的模型,并利用训练好的模型自动识别其它数据的明、密类型或加密类型,实现在不解密的情况下获取有用的数据情报。

权利要求书

权利要求书1.  一种加密数据检测方法,其特征在于,包括以下步骤:判断输入的数据的协议是否为已知协议;对所述输入的数据中判断为未知协议的数据进行多种随机性测试,得到所述未知协议的数据分别与所述多种随机性测试对应的多个随机性特征;通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配,确定所述未知协议的数据是否是加密数据及加密数据的加密类型。2.  如权利要求1所述的方法,其特征在于:所述方法在进行所述随机性测试之前还包括:对所述输入的数据进行预处理。3.  如权利要求1所述的方法,其特征在于:所述数据的至少部分随机性特征包括:数据的离散傅立叶变换检验、游程检验和非重叠模块匹配检验的测试结果。4.  如权利要求1所述的方法,其特征在于:所述方法还包括:建立并通过已知加密类型的数据训练所述密数据模型。5.  如权利要求4所述的方法,其特征在于:所述建立所述密数据模型包括:基于至少一种分类器模型建立所述密数据模型。6.  如权利要求5所述的方法,其特征在于:所述分类器模型包括:动态时间规整模型、矢量量化模型、隐马尔可夫模型、高斯混合模型、人工神经网络模型、支持向量机模型、支持向量数据描述模型。7.  如权利要求5或6所述的方法,其特征在于,所述建立所述密数据模型进一步包括:基于高斯混合模型和支持向量数据描述模型建立所述密数据模型。8.  如权利要求1所述的方法,其特征在于:所述方法还包括:根据数据的随机性测试中数据的游程检验、频数检验、块内最大游程检验和重叠模块匹配检验的测试结果初步判决数据是否是加密数据。9.  一种加密数据检测系统,其特征在于,所述系统包括:判断模块,用于判断输入的数据的协议是否为已知协议;特征提取模块,用于对所述输入的数据中判断为未知协议的数据进行多种随机性测试,得到所述未知协议的数据分别与所述多种随机性测试对应的多个随机性特征;判决模块,用于通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配,确定所述未知协议的数据是否是加密数据及加密数据的加密类型。10.  如权利要求9所述的系统,其特征在于:所述系统还包括:模型训练模块,用于建立并通过已知加密类型的数据训练所述密数据模型。

说明书

说明书加密数据检测方法和系统
技术领域
本发明涉及数据识别领域,具体涉及一种基于数据随机性的加密数据检测方法和系统。
背景技术
数据加密是保护用户隐私的常用手段,但一些不法人员也利用该技术逃避管理部门监管,因此如何在不解密的情况下判断加密数据的属性是一个亟待解决的问题。目前常用的手段是从加密数据的来源判断其属性,比如源IP地址。加密代理系统的一个关键环节就是在用户终端和境外代理之间要建立一个加密的信道,从而规避安全审查。通常一些软件会采用公开通用的密码安全协议对网络通信进行保护,如SSL、TLS、IPSec、SSH等。对于这些已知的加密安全协议可以通过的IP协议号、TCP/UDP端口号以及相关协议字段值即可识别。
但是目前的技术手段IP地址很容易被篡改,比如通过代理的方式就可以很容易的隐藏加密数据的真实来源。除了根据加密数据的来源判断加密数据的属性外,还可以依据对加密算法的检测分析判断其属性。密码算法的检测评估是密码算法研究的重要组成,它能够对密码算法的设计和分析提供客观的量化指标和技术参数。在密码算法的设计和评测过程中,通常要从多方面对其进行检测和分析。因此,分析密码算法的统计性能是密码算法安全性研究的重要内容。
发明内容
本发明要解决的技术问题是:提供一种加密数据检测技术,以实现在不解密的情况下较为准确地获取数据的加密与否以及加密类型等情报。
为实现上述目的,第一方面,本发明提供了一种加密数据检测方法,其包括以下步骤:
判断输入的数据的协议是否为已知协议;
对所述输入的数据中判断为未知协议的数据进行多种随机性测试,得到所述未知协议的数据分别与所述多种随机性测试对应的多个随机性特征;
通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配,确定所述未知协议的数据是否是加密数据及加密数据的加密类型。
为实现上述目的,第二方面,本发明提供了一种加密数据检测系统,其特征在于,所述系统包括:
判断模块,用于判断输入的数据的协议是否为已知协议;
特征提取模块,用于对所述输入的数据中判断为未知协议的数据进行多种随机性测试,得到所述未知协议的数据分别与所述多种随机性测试对应的多个随机性特征;
判决模块,用于通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配,确定所述未知协议的数据是否是加密数据及加密数据的加密类型。
根据本发明所公开的技术方案,通过基于数据随机性的密数据检测方法,实现明、密数据的判别,并进一步实现数据加密类型的识别,从而可以达到有效监控加密代理系统的目的。采用上述检测方法的检测系统不仅具有优良的检测性能,并且检测时间短,反应速度快,能够实现在线检测。
附图说明
图1为本发明实施例一种加密数据检测方法流程图;
图2a为本发明实施例又一种加密数据检测方法的流程图;
图2b为本发明实施例另一种加密数据检测方法的流程图;
图3为本发明实施例一种密数据模型训练及数据加密类型确认的流程图;
图4为本发明实施例基于GMM与SVDD模型的密数据模型进行数据加密类型确认流程图;
图5为本发明实施例一种密数据检测系统的模块图;
图6为本发明实施例又一种密数据检测系统的模块图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明的方法及装置结合附图及实施例详细说明如下。
如图1所示,本发明实施例提出了一种加密数据检测方法,其包括以下步骤:
S110判断输入的数据的协议是否为已知协议;
S120对所述输入的数据中判断为未知协议的数据进行多种随机性测试,得到所述未知协议的数据分别与所述多种随机性测试对应的多个随机性特征;
S130通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配,确定所述未知协议的数据是否是加密数据及加密数据的加密类型。
本申请实施例通过基于数据随机性的密数据检测方法,实现明、密数据的判别,并进一步实现数据加密类型的识别,进而可以达到有效监控加密代理系统的目的。此外,采用上述检测方法的检测系统不仅具有优良的检测性能,并且检测时间短,反应速度快,能够实现在线检测。
下面对本申请实施例方法的各步骤进行进一步的说明:
S110判断输入的数据的协议是否为已知协议。
在本实施例中,把密数据初步划分为已知协议密数据和未知协议 密数据两种类型。在本申请实施例中,所述协议通常是指IP应用层的协议,也就是用来承载加密报文的协议。这样的协议有的支持加密,有的不支持;例如:如果某协议基本都是加密的,则对应的数据可以直接判为密数据,不需要随机性检测了;而对于一些不常用的协议数据,在数据流中非常难以发现,因此需要对其进行随机性检验。其中,对于公开协议,因特网指定机构IANA对使用密码协议的IP协议号和TCP/UDP端口号资源作了分配和使用规定,在本实施例的步骤S110中,可以通过这两个字段识别这些协议为已知的协议。此外,由于加密代理软件有可能修改协议字段或使用非默认端口,因此,除了协议号和端口号外,本实施例的步骤S110还可以采用其它相关协议字段来识别已知协议密数据,即在一个优选的实施方式中对于已知协议的数据,按IP协议号、TCP/UDP端口号和相关协议字段通过匹配规则来检测。
在一些可能的实施方式中,如图2a所示,对于已知协议的加密数据,也可通过步骤S120和步骤S130对数据进行随机性测试并通过密数据模型进行进一步判别以确定其类型。其具体方法参见下面对未知协议的加密数据的处理方法的描述。
通过步骤S110,使得输入的数据中已知协议的数据可以被识别出,但是仅仅依靠已知协议的筛选识别,还不能识别出所有的加密数据。这是因为有大量自定义的密码协议,并且加密代理软件会经常更新协议来实现反侦查。通常,经过加密的数据通常是随机的,未加密的数据是非随机的。进一步地可以认为,非随机数据肯定没有经过加密处理,而随机数据则在一定程度上是加密的。因此,本申请实施例方法中步骤S120通过分析各种现有随机性检测算法的性能,作为判别数据是否加密的依据。
S120对所述输入的数据中判断为未知协议的数据进行多种随机性测试,得到所述未知协议的数据分别与所述多种随机性测试对应的 多个随机性特征。
如图2b所示,在本申请的一种可能的实施方式中,在对数据进行随机性测试之前,需要对输入数据包进行预处理,其中:对于已知协议的数据,所述预处理步骤包括:滤除掉其中不重要的信息,比如协议信息等,只留下进行NIST随机性测试的有效的数据部分;对于含有未知协议的数据,对所述数据的预处理除了上述的步骤以外,还包括:对数据进行划分,比如将不同长度的数据截取成若干段相等长度的数据,或者在模型训练时给数据打上标记,明文数据为一类标记,密文数据为一类标记,甚至可以为不同加密方式的密文数据打上不同的标记。
在本申请实施例中,对数据进行多种随机性测试,例如包括:游程检验、频数检验、块内最大游程检验、数据的离散傅立叶变换检验、重叠模块匹配检验和非重叠模块匹配检验等等。
在本实施方式中,对数据进行的随机性测试的结果作为所述数据对应的随机性特征,因此对数据进行多个随机性测试就会得到对应的多个随机性特征。在一些实施方式中,所述多个随机性特征构成的向量维数可能会较大,因此在之后使用这些多个随机性特征时可能会根据需要进行降维处理。例如,选择部分随机性特征用于后续的处理。此外,在一些可能的实施方式中,不同的随机性测试方法获得的不同的随机性特征在数量级上有差异,还有可能需要进行归一化,形成一个统一的向量。
在一种可能的实施方式中,所述多个随机性特征中的至少部分还可以用于初步判决数据是否是加密数据。对于初步判决为是明文的数据,可以不再通过之后的密数据模型进行判决,减少计算量,提高判断效率。当然,本领域的技术人员可以知道,为了提高数据的明密以及密数据类型的判决精度,可以不进行所述明密数据的初步判决,而是将待判决的数据数据全部送入密数据模型进行更为精准的判断。
在本实施例的一种可能的实施方式中,可以采用以下四种随机性测试的结果作为初步判决明密数据的依据:游程检验、频数检验、块内最大游程检验和重叠模块匹配检验。其中:
游程检验:检验待检测序列中的游程总数是否符合随机性要求;先观测序列的游程数,如果该序列中的游程数太少,则该序列存在成群趋向,即0或1总是成群出现;如果该序列的游程数过多,则该序列有混合趋向,即0和1总是交替出现;理论上,数据可以存在较长的游程,但是实际上对加密数据来说这种长游程概率很小,而对于没有经过加密或压缩过的数据,这种较长的游程还是经常存在的,这些构成了我们判别数据是否加密的依据。
频数测试:用于确定二进制序列中的“0”或“1”的数目是否如真随机序列那样近似相等,如果是,则该序列是随机的。
块内最大游程检验:将序列划分为N个等长的子块,根据各个子块中最大1游程的分布来评价待检测序列的随机性。
重叠模块匹配检验:检测序列中重叠模块中的出现的次数是否接近给定值。
当数据同时通过以上几种随机性检测,或者通过两种以上的随机性检测,则可初步判断哪些数据为加密数据,并将这些加密数据送入密数据模型进行进一步的类型判别。
本实施例中,对于初步判断为加密数据的数据,接下来将通过根据特定的分类器模型训练的密数据模型进行分类。
S130通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配,确定所述未知协议的数据是否是加密数据及加密数据的加密类型。
在步骤S130中,关键的问题的建立什么样的密数据模型和采用什么样的随机性特征。
目前主流的分类器模型中,依其算法大致可以分为三类,模板匹配:如动态时间规整(DTW)模型,矢量量化(VQ)模型,概率统计法隐马尔可夫模型(HMM),高斯混合模型(GMM),辨识分类器算法人工神经网络(ANN)模型,支撑向量机(SVM)模型,支持向量数据描述(SVDD)模型等。
在本申请实施例的一种可能的实施方式中,基于GMM和SVDD模型建立所述密数据模型。
GMM与SVDD模型有很强的互补性,体现在:第一,SVDD模型属于区分性模型,GMM属于概率统计模型,在分类思想上有互补性;第二,SVDD模型的计算时间受特征维数影响小,受样本个数影响大,GMM正好相反,两者在应用条件上有互补性。因此,本申请实施例融合了GMM和SVDD模型等分类器模型的性能建立本申请实施例的密数据模型,提升了密数据的识别精度。
所述数据的多个随机性特征并不一定全部用于进行明密数据以及加密数据加密类型的判断,本申请的发明人发现数据的离散傅立叶变换检验,游程检验和非重叠模块匹配检验的随机测试结果对网络中的各种加密传输协议的识别效果最好,因此,在本实施例中采用数据的离散傅立叶变换检验,游程检验和非重叠模块匹配检验的测试结果作为所数据的随机性特征,用于确定所述未知协议的数据是否是加密数据及加密数据的加密类型。
本申请实施例以GMM、SVDD模型为分类器模型训练得到密数据模型,模型训练完毕后,未知协议的数据经所述随机性特征提取后通过模型计算,即可识别未知协议的数据加密与否以及加密数据的加密类型。
如图3所示,在一种可能的实施方式中,所述密数据模型训练及密数据识别的过程如下:
首先通过需要的测试软件产生样本加密数据,并对所述样本加密 数据进行加密类型(例如产生该样本加密数据的软件类型)的标记,进行预处理之后,对所述样本加密数据进行NIST随机性测试。本申请实施例中,所述随机性测试包括3种测试,分别是:离散傅里叶变换测试、游程测试和非重叠匹配测试。通过上述随机性测试产生随机性特征,其中包括1维离散傅立叶变换特征,1维游程特征,以及148维非重叠模块匹配特征,上述150维随机性特征用来表征该样本加密数据的加密特征。在这一部分还可以进行随机性特征的优化,因为150维特征有很大的冗余性,而且对于特定的加密数据,表征效果也不尽相同,因此还可以对150维特征进行优化,一方面降低特征维数,一方面提高模型训练和匹配的精度。
经过上面的步骤得到了上述随机性特征构成的特征组以及对应的标记。将这些作为训练数据,对分类器模型进行训练,获得一个Y=f(X)的函数f(),这就是密数据模型。其中,X就是数据的随机性特征对应的特征向量,Y就是数据对应的加密类型,一旦获得这个分类器,就可以测试新的样本了。
在本申请实施例中,用获取的随机性特征构成的特征向量以及对应的标记分别送入GMM、SVDD模型进行建模、训练。
除了上述的加密数据外,对于明文数据可以依靠同样的方法进行训练,用于之后通过该模型进行明文数据的判断。训练完毕后,得到不同的加密类型密数据对应不同分类器模型的参考模型。
此时,当待检测的未知协议的加密数据经过预处理和特征提取后,将提取的数据的随机性特征与参考模型进行匹配,即可根据特定的相似性准则来计算结果,最终判决密数据是明文还是密文,以及是哪种加密方式产生的密文。如图4所示,在本申请一种可能的实施方式中分别基于GMM以及SVDD模型训练了不同的识别分类器,在进行明密数据判决以及加密数据类型判决时采用相似似然准则计算:
FSCORE=ωSSCORE+(1-ω)GSCORE,0≤ω≤1,
其中,FSCORE是判决总得分,GSCORE是单独采用GMM时的似然得分,GSCORE是单独采用SVDD模型时的似然得分,ω是融合调节参数。通过ω调整两模型似然得分在总得分FSCORE中的比重,使得融合得到密数据模型的性能最优。将ω从0逐渐变大到1,当ω为1时,表示单独以SVDD分类器模型为识别分类器;而当ω等于0时,表示单独以GMM分类器模型为识别分类器。
在本实施例中采用以离散傅立叶变换检验,游程检验和非重叠模块匹配检验的测试结果作为密数据模型特征,GMM、SVDD分类器模型为识别分类器对加密数据的类型进行分类,本领域技术人员应该知晓,根据待识别的加密数据的加密类型不同,可以选择不同的随机性测试结果作为特征,也可以选择不同的分类密数据模型。
图5示出了本发明一种加密数据检测系统500的模块示意图,所述系统包括:
判断模块510,用于判断输入的数据的协议是否为已知协议;
特征提取模块520,用于对所述输入的数据中判断为未知协议的数据进行多种随机性测试,得到所述未知协议的数据分别与所述多种随机性测试对应的多个随机性特征;
判决模块530,用于通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配,确定所述未知协议的数据是否是加密数据及加密数据的加密类型。
如图6所示,在本申请实施例的一种可能的实施方式中,所述系统500还包括:
预处理模块540,用于所述判断模块530判断为是未知协议的数据进行预处理,然后再将其送入所述特征提取模块520进行所述随机性检测。所述数据的预处理参见上述方法实施例中的记载,这里不再赘述。
在一种可能的实施方式中,所述系统500还包括:
模型训练模块550,用于建立并通过已知加密类型的数据训练所述密数据模型。通过所述模型训练模块550建立并训练所述密数据模型的过程参见所述数据的预处理参见上述方法实施例中的记载,这里不再赘述。
本申请实施例通过基于数据随机性的密数据检测系统,实现明、密数据的判别,并进一步实现数据加密类型的识别,进而可以达到有效监控加密代理系统的目的。此外,采用上述检测方法的检测系统不仅具有优良的检测性能,并且检测时间短,反应速度快,能够实现在线检测。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

加密数据检测方法和系统.pdf_第1页
第1页 / 共14页
加密数据检测方法和系统.pdf_第2页
第2页 / 共14页
加密数据检测方法和系统.pdf_第3页
第3页 / 共14页
点击查看更多>>
资源描述

《加密数据检测方法和系统.pdf》由会员分享,可在线阅读,更多相关《加密数据检测方法和系统.pdf(14页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 104009836 A (43)申请公布日 2014.08.27 CN 104009836 A (21)申请号 201410225607.X (22)申请日 2014.05.26 H04L 9/00(2006.01) (71)申请人 南京泰锐斯通信科技有限公司 地址 210000 江苏省南京市玄武区玄武大道 699-1 号 (72)发明人 朱军 (74)专利代理机构 北京欣永瑞知识产权代理事 务所 ( 普通合伙 ) 11450 代理人 张庆敏 (54) 发明名称 加密数据检测方法和系统 (57) 摘要 本发明提供了一种加密数据检测方法和系 统。所述检测方法包括 : 判。

2、断输入的数据的协议 是否为已知协议 ; 对所述输入的数据中判断为未 知协议的数据进行多种随机性测试, 得到所述未 知协议的数据分别与所述多种随机性测试对应的 多个随机性特征 ; 通过一密数据模型对所述未知 协议的数据的至少部分随机性特征进行匹配, 确 定所述未知协议的数据是否是加密数据及加密数 据的加密类型。 本发明利用模式识别技术, 以数据 随机性为特征, 训练不同密数据的模型, 并利用训 练好的模型自动识别其它数据的明、 密类型或加 密类型, 实现在不解密的情况下获取有用的数据 情报。 (51)Int.Cl. 权利要求书 1 页 说明书 6 页 附图 6 页 (19)中华人民共和国国家知识。

3、产权局 (12)发明专利申请 权利要求书1页 说明书6页 附图6页 (10)申请公布号 CN 104009836 A CN 104009836 A 1/1 页 2 1. 一种加密数据检测方法, 其特征在于, 包括以下步骤 : 判断输入的数据的协议是否为已知协议 ; 对所述输入的数据中判断为未知协议的数据进行多种随机性测试, 得到所述未知协议 的数据分别与所述多种随机性测试对应的多个随机性特征 ; 通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配, 确定所述 未知协议的数据是否是加密数据及加密数据的加密类型。 2. 如权利要求 1 所述的方法, 其特征在于 : 所述方法在进行所述。

4、随机性测试之前还包 括 : 对所述输入的数据进行预处理。 3.如权利要求1所述的方法, 其特征在于 : 所述数据的至少部分随机性特征包括 : 数据 的离散傅立叶变换检验、 游程检验和非重叠模块匹配检验的测试结果。 4.如权利要求1所述的方法, 其特征在于 : 所述方法还包括 : 建立并通过已知加密类型 的数据训练所述密数据模型。 5.如权利要求4所述的方法, 其特征在于 : 所述建立所述密数据模型包括 : 基于至少一 种分类器模型建立所述密数据模型。 6. 如权利要求 5 所述的方法, 其特征在于 : 所述分类器模型包括 : 动态时间规整模型、 矢量量化模型、 隐马尔可夫模型、 高斯混合模型、。

5、 人工神经网络模型、 支持向量机模型、 支持 向量数据描述模型。 7. 如权利要求 5 或 6 所述的方法, 其特征在于, 所述建立所述密数据模型进一步包括 : 基于高斯混合模型和支持向量数据描述模型建立所述密数据模型。 8.如权利要求1所述的方法, 其特征在于 : 所述方法还包括 : 根据数据的随机性测试中 数据的游程检验、 频数检验、 块内最大游程检验和重叠模块匹配检验的测试结果初步判决 数据是否是加密数据。 9. 一种加密数据检测系统, 其特征在于, 所述系统包括 : 判断模块, 用于判断输入的数据的协议是否为已知协议 ; 特征提取模块, 用于对所述输入的数据中判断为未知协议的数据进行多。

6、种随机性测 试, 得到所述未知协议的数据分别与所述多种随机性测试对应的多个随机性特征 ; 判决模块, 用于通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行 匹配, 确定所述未知协议的数据是否是加密数据及加密数据的加密类型。 10. 如权利要求 9 所述的系统, 其特征在于 : 所述系统还包括 : 模型训练模块, 用于建立并通过已知加密类型的数据训练所述密数据模型。 权 利 要 求 书 CN 104009836 A 2 1/6 页 3 加密数据检测方法和系统 技术领域 0001 本发明涉及数据识别领域, 具体涉及一种基于数据随机性的加密数据检测方法和 系统。 背景技术 0002 数据。

7、加密是保护用户隐私的常用手段, 但一些不法人员也利用该技术逃避管理部 门监管, 因此如何在不解密的情况下判断加密数据的属性是一个亟待解决的问题。目前常 用的手段是从加密数据的来源判断其属性, 比如源 IP 地址。加密代理系统的一个关键环节 就是在用户终端和境外代理之间要建立一个加密的信道, 从而规避安全审查。通常一些软 件会采用公开通用的密码安全协议对网络通信进行保护, 如 SSL、 TLS、 IPSec、 SSH 等。对于 这些已知的加密安全协议可以通过的 IP 协议号、 TCP/UDP 端口号以及相关协议字段值即可 识别。 0003 但是目前的技术手段 IP 地址很容易被篡改, 比如通过代。

8、理的方式就可以很容易 的隐藏加密数据的真实来源。除了根据加密数据的来源判断加密数据的属性外, 还可以依 据对加密算法的检测分析判断其属性。密码算法的检测评估是密码算法研究的重要组成, 它能够对密码算法的设计和分析提供客观的量化指标和技术参数。 在密码算法的设计和评 测过程中, 通常要从多方面对其进行检测和分析。 因此, 分析密码算法的统计性能是密码算 法安全性研究的重要内容。 发明内容 0004 本发明要解决的技术问题是 : 提供一种加密数据检测技术, 以实现在不解密的情 况下较为准确地获取数据的加密与否以及加密类型等情报。 0005 为实现上述目的, 第一方面, 本发明提供了一种加密数据检测。

9、方法, 其包括以下步 骤 : 0006 判断输入的数据的协议是否为已知协议 ; 0007 对所述输入的数据中判断为未知协议的数据进行多种随机性测试, 得到所述未知 协议的数据分别与所述多种随机性测试对应的多个随机性特征 ; 0008 通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配, 确定 所述未知协议的数据是否是加密数据及加密数据的加密类型。 0009 为实现上述目的, 第二方面, 本发明提供了一种加密数据检测系统, 其特征在于, 所述系统包括 : 0010 判断模块, 用于判断输入的数据的协议是否为已知协议 ; 0011 特征提取模块, 用于对所述输入的数据中判断为未知协议。

10、的数据进行多种随机性 测试, 得到所述未知协议的数据分别与所述多种随机性测试对应的多个随机性特征 ; 0012 判决模块, 用于通过一密数据模型对所述未知协议的数据的至少部分随机性特征 进行匹配, 确定所述未知协议的数据是否是加密数据及加密数据的加密类型。 说 明 书 CN 104009836 A 3 2/6 页 4 0013 根据本发明所公开的技术方案, 通过基于数据随机性的密数据检测方法, 实现明、 密数据的判别, 并进一步实现数据加密类型的识别, 从而可以达到有效监控加密代理系统 的目的。 采用上述检测方法的检测系统不仅具有优良的检测性能, 并且检测时间短, 反应速 度快, 能够实现在线。

11、检测。 附图说明 0014 图 1 为本发明实施例一种加密数据检测方法流程图 ; 0015 图 2a 为本发明实施例又一种加密数据检测方法的流程图 ; 0016 图 2b 为本发明实施例另一种加密数据检测方法的流程图 ; 0017 图 3 为本发明实施例一种密数据模型训练及数据加密类型确认的流程图 ; 0018 图 4 为本发明实施例基于 GMM 与 SVDD 模型的密数据模型进行数据加密类型确认 流程图 ; 0019 图 5 为本发明实施例一种密数据检测系统的模块图 ; 0020 图 6 为本发明实施例又一种密数据检测系统的模块图。 具体实施方式 0021 下面结合附图和实施例, 对本发明的。

12、具体实施方式作进一步详细说明。以下实施 例用于说明本发明, 但不用来限制本发明的范围。 0022 本发明的方法及装置结合附图及实施例详细说明如下。 0023 如图 1 所示, 本发明实施例提出了一种加密数据检测方法, 其包括以下步骤 : 0024 S110 判断输入的数据的协议是否为已知协议 ; 0025 S120 对所述输入的数据中判断为未知协议的数据进行多种随机性测试, 得到所述 未知协议的数据分别与所述多种随机性测试对应的多个随机性特征 ; 0026 S130 通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配, 确定所述未知协议的数据是否是加密数据及加密数据的加密类型。 。

13、0027 本申请实施例通过基于数据随机性的密数据检测方法, 实现明、 密数据的判别, 并 进一步实现数据加密类型的识别, 进而可以达到有效监控加密代理系统的目的。 此外, 采用 上述检测方法的检测系统不仅具有优良的检测性能, 并且检测时间短, 反应速度快, 能够实 现在线检测。 0028 下面对本申请实施例方法的各步骤进行进一步的说明 : 0029 S110 判断输入的数据的协议是否为已知协议。 0030 在本实施例中, 把密数据初步划分为已知协议密数据和未知协议密数据两种类 型。在本申请实施例中, 所述协议通常是指 IP 应用层的协议, 也就是用来承载加密报文的 协议。这样的协议有的支持加密。

14、, 有的不支持 ; 例如 : 如果某协议基本都是加密的, 则对应 的数据可以直接判为密数据, 不需要随机性检测了 ; 而对于一些不常用的协议数据, 在数据 流中非常难以发现, 因此需要对其进行随机性检验。其中, 对于公开协议, 因特网指定机构 IANA对使用密码协议的IP协议号和TCP/UDP端口号资源作了分配和使用规定, 在本实施例 的步骤 S110 中, 可以通过这两个字段识别这些协议为已知的协议。此外, 由于加密代理软 件有可能修改协议字段或使用非默认端口, 因此, 除了协议号和端口号外, 本实施例的步骤 说 明 书 CN 104009836 A 4 3/6 页 5 S110 还可以采用。

15、其它相关协议字段来识别已知协议密数据, 即在一个优选的实施方式中对 于已知协议的数据, 按 IP 协议号、 TCP/UDP 端口号和相关协议字段通过匹配规则来检测。 0031 在一些可能的实施方式中, 如图 2a 所示, 对于已知协议的加密数据, 也可通过步 骤S120和步骤S130对数据进行随机性测试并通过密数据模型进行进一步判别以确定其类 型。其具体方法参见下面对未知协议的加密数据的处理方法的描述。 0032 通过步骤 S110, 使得输入的数据中已知协议的数据可以被识别出, 但是仅仅依靠 已知协议的筛选识别, 还不能识别出所有的加密数据。 这是因为有大量自定义的密码协议, 并且加密代理软。

16、件会经常更新协议来实现反侦查。 通常, 经过加密的数据通常是随机的, 未 加密的数据是非随机的。 进一步地可以认为, 非随机数据肯定没有经过加密处理, 而随机数 据则在一定程度上是加密的。因此, 本申请实施例方法中步骤 S120 通过分析各种现有随机 性检测算法的性能, 作为判别数据是否加密的依据。 0033 S120 对所述输入的数据中判断为未知协议的数据进行多种随机性测试, 得到所述 未知协议的数据分别与所述多种随机性测试对应的多个随机性特征。 0034 如图 2b 所示, 在本申请的一种可能的实施方式中, 在对数据进行随机性测试之 前, 需要对输入数据包进行预处理, 其中 : 对于已知协。

17、议的数据, 所述预处理步骤包括 : 滤 除掉其中不重要的信息, 比如协议信息等, 只留下进行 NIST 随机性测试的有效的数据部 分 ; 对于含有未知协议的数据, 对所述数据的预处理除了上述的步骤以外, 还包括 : 对数据 进行划分, 比如将不同长度的数据截取成若干段相等长度的数据, 或者在模型训练时给数 据打上标记, 明文数据为一类标记, 密文数据为一类标记, 甚至可以为不同加密方式的密文 数据打上不同的标记。 0035 在本申请实施例中, 对数据进行多种随机性测试, 例如包括 : 游程检验、 频数检验、 块内最大游程检验、 数据的离散傅立叶变换检验、 重叠模块匹配检验和非重叠模块匹配检 验。

18、等等。 0036 在本实施方式中, 对数据进行的随机性测试的结果作为所述数据对应的随机性特 征, 因此对数据进行多个随机性测试就会得到对应的多个随机性特征。 在一些实施方式中, 所述多个随机性特征构成的向量维数可能会较大, 因此在之后使用这些多个随机性特征时 可能会根据需要进行降维处理。例如, 选择部分随机性特征用于后续的处理。此外, 在一些 可能的实施方式中, 不同的随机性测试方法获得的不同的随机性特征在数量级上有差异, 还有可能需要进行归一化, 形成一个统一的向量。 0037 在一种可能的实施方式中, 所述多个随机性特征中的至少部分还可以用于初步判 决数据是否是加密数据。对于初步判决为是明。

19、文的数据, 可以不再通过之后的密数据模型 进行判决, 减少计算量, 提高判断效率。 当然, 本领域的技术人员可以知道, 为了提高数据的 明密以及密数据类型的判决精度, 可以不进行所述明密数据的初步判决, 而是将待判决的 数据数据全部送入密数据模型进行更为精准的判断。 0038 在本实施例的一种可能的实施方式中, 可以采用以下四种随机性测试的结果作为 初步判决明密数据的依据 : 游程检验、 频数检验、 块内最大游程检验和重叠模块匹配检验。 其中 : 0039 游程检验 : 检验待检测序列中的游程总数是否符合随机性要求 ; 先观测序列的游 程数, 如果该序列中的游程数太少, 则该序列存在成群趋向,。

20、 即0或1总是成群出现 ; 如果该 说 明 书 CN 104009836 A 5 4/6 页 6 序列的游程数过多, 则该序列有混合趋向, 即0和1总是交替出现 ; 理论上, 数据可以存在较 长的游程, 但是实际上对加密数据来说这种长游程概率很小, 而对于没有经过加密或压缩 过的数据, 这种较长的游程还是经常存在的, 这些构成了我们判别数据是否加密的依据。 0040 频数测试 : 用于确定二进制序列中的 “0” 或 “1” 的数目是否如真随机序列那样近 似相等, 如果是, 则该序列是随机的。 0041 块内最大游程检验 : 将序列划分为N个等长的子块, 根据各个子块中最大1游程的 分布来评价待。

21、检测序列的随机性。 0042 重叠模块匹配检验 : 检测序列中重叠模块中的出现的次数是否接近给定值。 0043 当数据同时通过以上几种随机性检测, 或者通过两种以上的随机性检测, 则可初 步判断哪些数据为加密数据, 并将这些加密数据送入密数据模型进行进一步的类型判别。 0044 本实施例中, 对于初步判断为加密数据的数据, 接下来将通过根据特定的分类器 模型训练的密数据模型进行分类。 0045 S130 通过一密数据模型对所述未知协议的数据的至少部分随机性特征进行匹配, 确定所述未知协议的数据是否是加密数据及加密数据的加密类型。 0046 在步骤 S130 中, 关键的问题的建立什么样的密数据。

22、模型和采用什么样的随机性 特征。 0047 目前主流的分类器模型中, 依其算法大致可以分为三类, 模板匹配 : 如动态时间 规整 (DTW) 模型, 矢量量化 (VQ) 模型, 概率统计法隐马尔可夫模型 (HMM), 高斯混合模型 (GMM), 辨识分类器算法人工神经网络(ANN)模型, 支撑向量机(SVM)模型, 支持向量数据描 述 (SVDD) 模型等。 0048 在本申请实施例的一种可能的实施方式中, 基于GMM和SVDD模型建立所述密数据 模型。 0049 GMM 与 SVDD 模型有很强的互补性, 体现在 : 第一, SVDD 模型属于区分性模型, GMM 属于概率统计模型, 在分类。

23、思想上有互补性 ; 第二, SVDD 模型的计算时间受特征维数影响 小, 受样本个数影响大, GMM 正好相反, 两者在应用条件上有互补性。因此, 本申请实施例融 合了GMM和SVDD模型等分类器模型的性能建立本申请实施例的密数据模型, 提升了密数据 的识别精度。 0050 所述数据的多个随机性特征并不一定全部用于进行明密数据以及加密数据加密 类型的判断, 本申请的发明人发现数据的离散傅立叶变换检验, 游程检验和非重叠模块匹 配检验的随机测试结果对网络中的各种加密传输协议的识别效果最好, 因此, 在本实施例 中采用数据的离散傅立叶变换检验, 游程检验和非重叠模块匹配检验的测试结果作为所数 据的。

24、随机性特征, 用于确定所述未知协议的数据是否是加密数据及加密数据的加密类型。 0051 本申请实施例以 GMM、 SVDD 模型为分类器模型训练得到密数据模型, 模型训练完 毕后, 未知协议的数据经所述随机性特征提取后通过模型计算, 即可识别未知协议的数据 加密与否以及加密数据的加密类型。 0052 如图 3 所示, 在一种可能的实施方式中, 所述密数据模型训练及密数据识别的过 程如下 : 0053 首先通过需要的测试软件产生样本加密数据, 并对所述样本加密数据进行加密类 型(例如产生该样本加密数据的软件类型)的标记, 进行预处理之后, 对所述样本加密数据 说 明 书 CN 104009836。

25、 A 6 5/6 页 7 进行 NIST 随机性测试。本申请实施例中, 所述随机性测试包括 3 种测试, 分别是 : 离散傅里 叶变换测试、 游程测试和非重叠匹配测试。 通过上述随机性测试产生随机性特征, 其中包括 1 维离散傅立叶变换特征, 1 维游程特征, 以及 148 维非重叠模块匹配特征, 上述 150 维随机 性特征用来表征该样本加密数据的加密特征。在这一部分还可以进行随机性特征的优化, 因为 150 维特征有很大的冗余性, 而且对于特定的加密数据, 表征效果也不尽相同, 因此还 可以对 150 维特征进行优化, 一方面降低特征维数, 一方面提高模型训练和匹配的精度。 0054 经过。

26、上面的步骤得到了上述随机性特征构成的特征组以及对应的标记。 将这些作 为训练数据, 对分类器模型进行训练, 获得一个 Y f(X) 的函数 f(), 这就是密数据模型。 其中, X 就是数据的随机性特征对应的特征向量, Y 就是数据对应的加密类型, 一旦获得这 个分类器, 就可以测试新的样本了。 0055 在本申请实施例中, 用获取的随机性特征构成的特征向量以及对应的标记分别送 入 GMM、 SVDD 模型进行建模、 训练。 0056 除了上述的加密数据外, 对于明文数据可以依靠同样的方法进行训练, 用于之后 通过该模型进行明文数据的判断。训练完毕后, 得到不同的加密类型密数据对应不同分类 器。

27、模型的参考模型。 0057 此时, 当待检测的未知协议的加密数据经过预处理和特征提取后, 将提取的数据 的随机性特征与参考模型进行匹配, 即可根据特定的相似性准则来计算结果, 最终判决密 数据是明文还是密文, 以及是哪种加密方式产生的密文。如图 4 所示, 在本申请一种可能的 实施方式中分别基于GMM以及SVDD模型训练了不同的识别分类器, 在进行明密数据判决以 及加密数据类型判决时采用相似似然准则计算 : 0058 FSCORE SSCORE+(1-)GSCORE,0 1, 0059 其中, FSCORE是判决总得分, GSCORE是单独采用 GMM 时的似然得分, GSCORE是单独采用 。

28、SVDD 模型时的似然得分, 是融合调节参数。通过 调整两模型似然得分在总得分 FSCORE 中的比重, 使得融合得到密数据模型的性能最优。将 从 0 逐渐变大到 1, 当 为 1 时, 表 示单独以 SVDD 分类器模型为识别分类器 ; 而当 等于 0 时, 表示单独以 GMM 分类器模型为 识别分类器。 0060 在本实施例中采用以离散傅立叶变换检验, 游程检验和非重叠模块匹配检验的测 试结果作为密数据模型特征, GMM、 SVDD 分类器模型为识别分类器对加密数据的类型进行分 类, 本领域技术人员应该知晓, 根据待识别的加密数据的加密类型不同, 可以选择不同的随 机性测试结果作为特征, 。

29、也可以选择不同的分类密数据模型。 0061 图 5 示出了本发明一种加密数据检测系统 500 的模块示意图, 所述系统包括 : 0062 判断模块 510, 用于判断输入的数据的协议是否为已知协议 ; 0063 特征提取模块 520, 用于对所述输入的数据中判断为未知协议的数据进行多种随 机性测试, 得到所述未知协议的数据分别与所述多种随机性测试对应的多个随机性特征 ; 0064 判决模块 530, 用于通过一密数据模型对所述未知协议的数据的至少部分随机性 特征进行匹配, 确定所述未知协议的数据是否是加密数据及加密数据的加密类型。 0065 如图 6 所示, 在本申请实施例的一种可能的实施方式。

30、中, 所述系统 500 还包括 : 0066 预处理模块 540, 用于所述判断模块 530 判断为是未知协议的数据进行预处理, 然 后再将其送入所述特征提取模块 520 进行所述随机性检测。所述数据的预处理参见上述方 说 明 书 CN 104009836 A 7 6/6 页 8 法实施例中的记载, 这里不再赘述。 0067 在一种可能的实施方式中, 所述系统 500 还包括 : 0068 模型训练模块550, 用于建立并通过已知加密类型的数据训练所述密数据模型。 通 过所述模型训练模块 550 建立并训练所述密数据模型的过程参见所述数据的预处理参见 上述方法实施例中的记载, 这里不再赘述。 。

31、0069 本申请实施例通过基于数据随机性的密数据检测系统, 实现明、 密数据的判别, 并 进一步实现数据加密类型的识别, 进而可以达到有效监控加密代理系统的目的。 此外, 采用 上述检测方法的检测系统不仅具有优良的检测性能, 并且检测时间短, 反应速度快, 能够实 现在线检测。 0070 本领域普通技术人员可以意识到, 结合本文中所公开的实施例描述的各示例的单 元及方法步骤, 能够以电子硬件、 或者计算机软件和电子硬件的结合来实现。 这些功能究竟 以硬件还是软件方式来执行, 取决于技术方案的特定应用和设计约束条件。专业技术人员 可以对每个特定的应用来使用不同方法来实现所描述的功能, 但是这种实。

32、现不应认为超出 本发明的范围。 0071 以上实施方式仅用于说明本发明, 而并非对本发明的限制, 有关技术领域的普通 技术人员, 在不脱离本发明的精神和范围的情况下, 还可以做出各种变化和变型, 因此所有 等同的技术方案也属于本发明的范畴, 本发明的专利保护范围应由权利要求限定。 说 明 书 CN 104009836 A 8 1/6 页 9 图 1 图 2a 说 明 书 附 图 CN 104009836 A 9 2/6 页 10 图 2b 说 明 书 附 图 CN 104009836 A 10 3/6 页 11 图 3 说 明 书 附 图 CN 104009836 A 11 4/6 页 12 图 4 说 明 书 附 图 CN 104009836 A 12 5/6 页 13 图 5 说 明 书 附 图 CN 104009836 A 13 6/6 页 14 图 6 说 明 书 附 图 CN 104009836 A 14 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1