一种启发式文档威胁检测方法及系统.pdf

摘要
申请专利号：	CN201410267588.7	申请日：	2014.06.16
公开号：	CN104966019A	公开日：	2015.10.07
当前法律状态：	授权	有效性：	有权
法律详情：	专利权人的姓名或者名称、地址的变更IPC(主分类):G06F 21/56变更事项:专利权人变更前:哈尔滨安天科技股份有限公司变更后:哈尔滨安天科技集团股份有限公司变更事项:地址变更前:150090 黑龙江省哈尔滨市开发区南岗集中区红旗大街162号506室变更后:150010 黑龙江省哈尔滨市高新技术产业开发区科技创新城创新创业广场7号楼（世坤路838号）\|\|\|专利权的转移IPC(主分类):G06F 21/56登记生效日:20180612变更事项:专利权人变更前权利人:哈尔滨安天科技集团股份有限公司变更后权利人:深圳市安之天信息技术有限公司变更事项:地址变更前权利人:150010 黑龙江省哈尔滨市高新技术产业开发区科技创新城创新创业广场7号楼（世坤路838号）变更后权利人:518000 广东省深圳市宝安区西乡街道宝源路名优工业产品展示采购中心B座7楼B726号\|\|\|授权\|\|\|实质审查的生效IPC(主分类):G06F 21/56申请日:20140616\|\|\|公开
IPC分类号：	G06F21/56(2013.01)I	主分类号：	G06F21/56
申请人：	哈尔滨安天科技股份有限公司
发明人：	童志明; 沈长伟; 张栗伟; 何公道
地址：	150090黑龙江省哈尔滨市开发区南岗集中区红旗大街162号506室
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明公开了一种启发式文档威胁检测方法及系统，对于文档类文件，包括：office系列或者PDF，通过对待检测文档进行结构解析，获取静态信息，利用所述静态信息判断待检测文档是否夹带敏感数据，若夹带敏感数据，则对敏感数据进行格式解析，进一步判定敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档为低风险文档，否则判定是高风险文档。本发明给出的方法和系统，可以对文档类的未知威胁进行检测，并克服了传统检测方法复杂，效率低下等问题。

权利要求书

权利要求书
1.  一种启发式文档威胁检测方法，其特征在于，包括：
对待检测文档进行结构解析，提取静态信息，包括：文档大小，文档字数，内嵌多媒体文件个数，内嵌多媒体文件大小；
基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则对所述敏感数据进行格式解析，否则待检测文档安全；
判断所述敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档，告警并进一步检测。

2.  如权利要求1所述的方法，其特征在于，所述基于所述静态信息，判断待检测文档是否夹带敏感数据的方法为：基于文档字数，内嵌多媒体文件个数和内嵌多媒体文件大小计算待检测文档理论大小，判断待检测文档理论大小和文档大小之间的差值或者比值是否在预设阈值范围内，若是，则待检测文档没有夹带敏感数据，否则待检测文档夹带敏感数据。

3.  一种启发式文档威胁检测系统，其特征在于，包括：
结构解析模块，对待检测文档进行结构解析，提取静态信息，包括：文档大小，文档字数，内嵌多媒体文件个数，内嵌多媒体文件大小；
数据判定模块，基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则对所述敏感数据进行格式解析，否则待检测文档安全；
格式判定模块，判断所述敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档，告警并进一步检测。

4.  如权利要求3所述的系统，其特征在于，所述基于所述静态信息，判断待检测文档是否夹带敏感数据的方法为：基于文档字数，内嵌多媒体文件个数和内嵌多媒体文件大小计算待检测文档理论大小，判断待检测文档理论大小和文档大小之间的差值或者比值是否在预设阈值范围内，若是，则待检测文档没有夹带敏感数据，否则待检测文档夹带敏感数据。

说明书

说明书一种启发式文档威胁检测方法及系统
技术领域
本发明涉及计算机网络安全技术领域，尤其涉及一种启发式文档威胁检测方法及系统。
背景技术
入侵者常常利用夹带了恶意代码的文档入侵用户的计算机，并引导用户进行打开操作，这样内嵌的恶意代码执行。通常文档类威胁主要有溢出类威胁、夹带类威胁等。这类威胁主要采用基于特征码的检测，先捕获样本，然后提取特征码，最后进行检测，或者将所述文档投入虚拟机，模拟打开等操作，观察其行为。
现有技术存在以下问题：特征码检测的主要的问题在于只能针对已知或者已捕获的样本有效，对于未知的或者未捕获的样本无能为力；其次，海量的文档在虚拟机中执行时，每个都要有一个运行与等待的时间，这样操作速度很慢；不同类的文档，在执行时都依赖于此文档的运行环境，所以虚拟机中的运行环境的搭建是一个耗时的过程，且运行环境未必能包括所有的文档执行环境，这样就导致于一些文档因为没有运行环境，而不能执行。
发明内容
针对上述技术问题，本发明提供了一种启发式文档威胁检测方法及系统，该方法通过对待检测文档进行结构解析，获取待检测文档的静态信息，基于静态信息判断是否夹带敏感数据，进而完成文档是否有威胁的判定。
本发明采用如下方法来实现：一种启发式文档威胁检测方法，包括：
对待检测文档进行结构解析，提取静态信息，包括：文档大小，文档字数，内嵌多媒体文件个数，内嵌多媒体文件大小；
基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则对所述敏感数据进行格式解析，否则待检测文档安全；
判断所述敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档，告警并进一步检测。
进一步地，所述基于所述静态信息，判断待检测文档是否夹带敏感数据的方法为：基于文档字数，内嵌多媒体文件个数和内嵌多媒体文件大小计算待检测文档理论大小，判断待检测文档理论大小和文档大小之间的差值或者比值是否在预设阈值范围内，若是，则待检测文档没有夹带敏感数据，否则待检测文档夹带敏感数据。
一种启发式文档威胁检测系统，包括：
结构解析模块，对待检测文档进行结构解析，提取静态信息，包括：文档大小，文档字数，内嵌多媒体文件个数，内嵌多媒体文件大小；
数据判定模块，基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则对所述敏感数据进行格式解析，否则待检测文档安全；
格式判定模块，判断所述敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档，告警并进一步检测。
进一步地，所述基于所述静态信息，判断待检测文档是否夹带敏感数据的方法为：基于文档字数，内嵌多媒体文件个数和内嵌多媒体文件大小计算待检测文档理论大小，判断待检测文档理论大小和文档大小之间的差值或者比值是否在预设阈值范围内，若是，则待检测文档没有夹带敏感数据，否则待检测文档夹带敏感数据。
综上所述，本发明提供了一种启发式文档威胁检测方法及系统，首先，对于待检测文档进行结构解析，获取相关的静态信息，利用获取的静态信息估计待检测文档理论大小，基于待检测文档理论大小与文档大小之间的差距判定是否夹带敏感数据，若是，则对敏感数据进行格式解析，否则待检测文档安全。基于格式解析的结果判定待检测文档是否是高风险文档。本发明所述的方法及系统，解决了传统方法不能有效检测未知的文档类威胁的缺陷，并且克服了虚拟机执行的搭建困难，耗费时间等问题。
附图说明
为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
图1为本发明提供的一种启发式文档威胁检测方法实施例流程图；
图2为本发明提供的一种启发式文档威胁检测系统实施例结构图。
具体实施方式
本发明给出了一种启发式文档威胁检测方法及系统，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术方案作进一步详细的说明：
本发明首先提供了一种启发式文档威胁检测方法实施例，如图1所示，包括：
S101对待检测文档进行结构解析，提取静态信息；
所述静态信息包括：文档大小，文档字数，内嵌多媒体文件个数，内嵌多媒体文件大小等；所述待检测文档类型包括office系列、PDF等；
S102基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则执行S103，否则待检测文档安全；
所述敏感数据为待检测文档经过结构解析后没有发现的夹带数据；
S103对所述敏感数据进行格式解析；
S104判断所述敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档，告警并进一步检测。
所述安全文档可夹带数据格式，即在已知的文档中会出现的格式，相对于其他格式的数据其安全等级较高。
优选地，所述基于所述静态信息，判断待检测文档是否夹带敏感数据的方法为：基于文档字数，内嵌多媒体文件个数和内嵌多媒体文件大小计算待检测文档理论大小，判断待检测文档理论大小和文档大小之间的差值或者比值是否在预设阈值范围内，若是，则待检测文档没有夹带敏感数据，否则待检测文档夹带敏感数据。
上述方法可以由如下的数学模型来完成，但不限于该数学模型：
或ε＝ΣiCiNi-S；
若ε在预设阈值范围内，则待检测文档没有夹带敏感数据，若ε不在预设阈值范围内，则待检测文档夹带敏感数据。其中，Ni为文档字数或者内嵌多媒体文件个数，Ci为对应的文字所占大小或者内嵌多媒体文件大小；S为文档大小。所有可以表述上述思想的数学模型，均在本发明保护的范围内；所述预设阈值是通过大规模的测试得出的。
本发明还提供了一种启发式文档威胁检测系统实施例，如图2所示，包括：
结构解析模块201，对待检测文档进行结构解析，提取静态信息；
所述静态信息包括：文档大小，文档字数，内嵌多媒体文件个数，内嵌多媒体文件大小等；所述待检测文档类型包括office系列、PDF等；
数据判定模块202，基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则对所述敏感数据进行格式解析，否则待检测文档安全；
所述敏感数据为待检测文档经过结构解析后没有发现的夹带数据；
格式判定模块203，判断所述敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档，告警并进一步检测。
所述安全文档可夹带数据格式，即在已知的文档中会出现的格式，相对于其他格式的数据其安全等级较高。
优选地，所述基于所述静态信息，判断待检测文档是否夹带敏感数据的方法为：基于文档字数，内嵌多媒体文件个数和内嵌多媒体文件大小计算待检测文档理论大小，判断待检测文档理论大小和文档大小之间的差值或者比值是否在预设阈值范围内，若是，则待检测文档没有夹带敏感数据，否则待检测文档夹带敏感数据。
上述方法可以由如下的数学模型来完成，但不限于该数学模型：
或ε＝ΣiCiNi-S；
若ε在预设阈值范围内，则待检测文档没有夹带敏感数据，若ε不在预设阈值范围内，则待检测文档夹带敏感数据。其中，Ni为文档字数或者内嵌多媒体文件个数，Ci为对应的文字所占大小或者内嵌多媒体文件大小；S为文档大小。所有可以表述上述思想的数学模型，均在本发明保护的范围内；所述预设阈值是通过大规模的测试得出的。
如上所述，本发明给出了一种启发式文档威胁检测方法及系统，对于传统方法来说，为了检测文档是否有威胁，需要利用已知样本提取特征码，利用特征码扫描进行检测，或者将文档投入虚拟机，模拟操作方法运行，监控其行为并进行判定。为了克服传统方法对于未知威胁无法有效检测，并且检测效率低的问题，本发明提供了一种启发式的文档威胁检测方法和系统实施例，通过获取待检测文档的静态信息，判断待检测文档是否夹带了敏感数据，如果夹带敏感数据，通过格式解析获取所述敏感数据的格式，判断所述格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档。本发明所提供的方法或系统，可以有效地检测和发现未知的有威胁的文档，弥补了传统方法检测文档类威胁的劣势。
以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换，均应涵盖在本发明的权利要求范围当中。