恶意代码库建立方法和系统技术领域
本发明涉及恶意代码技术领域,特别是涉及恶意代码库建立方法和系统。
背景技术
在日常文档的应用中,携带各种恶意代码的文档给人们的工作和生活带来不方便
的同时,还会造成经济损失。种类繁多的各种恶意代码隐藏在不同的文档中,恶意代码的各
种特征变化频繁,新的恶意代码也层出不穷,如何利用传统的三方恶意代码查找定位工具,
进行各种文档中的各种恶意代码的定位和查找,建立恶意代码库,是恶意代码技术领域一
个亟待解决的技术问题。
发明内容
基于此,有必要针对如何利用传统的三方恶意代码查找定位工具,进行各种文档
中的各种恶意代码的定位和查找,建立恶意代码库的问题,提供一种恶意代码库建立方法
和系统,其中,所述方法包括:
获取文档;
利用恶意代码识别软件扫描所述文档;
识别包含恶意代码的文档中的各最小逻辑单元,并生成与所述各最小逻辑单元一
一对应的宿主文档,且所述宿主文档只保留与之对应的一个最小逻辑单元;
利用所述恶意代码识别软件分别扫描所述各宿主文档,将包含恶意代码的所述宿
主文档确定为待提取文档;
提取所述待提取文档中最小逻辑单元的恶意代码特征,获取恶意代码特征记录;
根据所述恶意代码特征记录生成恶意代码库。
在其中一个实施例中,所述识别包含恶意代码的文档中的各最小逻辑单元,并生
成与所述各最小逻辑单元一一对应的宿主文档,还包括:
将包含恶意代码且只包含一个最小逻辑单元的文档,确定为与所述一个最小逻辑
单元对应的宿主文档;
则利用所述恶意代码识别软件分别扫描所述各宿主文档,将包含恶意代码的所述
宿主文档确定为待提取文档,还包括:
将与所述一个最小逻辑单元对应的宿主文档确定为待提取文档。
在其中一个实施例中,所述提取所述待提取文档中最小逻辑单元的恶意代码特
征,包括:
识别并记录所述待提取文档中最小逻辑单元的标点符号;
将所述最小逻辑单元的标点符号确定为恶意代码特征。
在其中一个实施例中,所述提取所述待提取文档中最小逻辑单元的恶意代码特
征,还包括:
计算所述待提取文档中最小逻辑单元的校验值或哈希值;
将所述校验值或哈希值确定为恶意代码特征。
在其中一个实施例中,所述文档,包括网页、PDF、WORD、EXCEL、FLASH。
本发明所提供的恶意代码库建立方法,通过恶意代码识别软件扫描文档后,若扫
描结果为文档包含恶意代码,则识别所述文档中的最小逻辑单元,并根据所述各最小逻辑
单元分别生成宿主文档,再次进行扫描,定位恶意代码所在的最小逻辑单元后,提取所述恶
意代码特征生成恶意代码库。本发明所提供的恶意代码库建立方法,能够自动的将恶意代
码在文档中定位出并提取恶意代码特征,建立恶意代码库。
在其中一个实施例中,将最小逻辑单元的标点符号识别并记录下来,做为恶意代
码特征建立恶意代码库,能够使所建立的恶意代码库在保留最大特征的基础上,至占用最
小的存储空间。
在其中一个实施例中,分别为文档中的各最小逻辑单元生成宿主文档后,后续再
利用第三方恶意代码识别软件扫描,即可定位恶意代码所在的宿主文档。为最小逻辑单元
生成宿主文档的方法,可将恶意代码的识别工作进行自动化的处理,提高恶意代码库的生
成效率。
本发明还提供一种恶意代码库建立系统,所述方法包括:
文档获取模块,用于获取文档;
文档扫描模块,用于利用恶意代码识别软件扫描所述文档;
宿主文档生成模块,用于识别包含恶意代码的文档中的各最小逻辑单元,并生成
与所述各最小逻辑单元一一对应的宿主文档,且所述宿主文档只保留与之对应的一个最小
逻辑单元;
待提取文档确定模块,用于利用所述恶意代码识别软件分别扫描所述各宿主文
档,将包含恶意代码的所述宿主文档确定为待提取文档;
恶意代码特征记录获取模块,用于提取所述待提取文档中最小逻辑单元的恶意代
码特征,获取恶意代码特征记录;
恶意代码库生成模块,用于根据所述恶意代码特征记录生成恶意代码库。
在其中一个实施例中,所述宿主文档生成模块,用于将包含恶意代码且只包含一
个最小逻辑单元的文档,确定为与所述一个最小逻辑单元对应的宿主文档;
所述待提取文档确定模块,用于将与所述一个最小逻辑单元对应的宿主文档确定
为待提取文档。
在其中一个实施例中,所述恶意代码特征记录获取模块,用于识别并记录所述待
提取文档中最小逻辑单元的标点符号;将所述最小逻辑单元的标点符号确定为恶意代码特
征。
在其中一个实施例中,所述恶意代码特征记录获取模块,还用于计算所述待提取
文档中最小逻辑单元的校验值或哈希值;将所述校验值或哈希值确定为恶意代码特征。
在其中一个实施例中,所述文档,包括网页、PDF、WORD、EXCEL、FLASH。
本发明提供的恶意代码库建立系统,通过恶意代码识别软件扫描文档后,若扫描
结果为文档包含恶意代码,则识别所述文档中的最小逻辑单元,并根据所述各最小逻辑单
元分别生成宿主文档,再次进行扫描,定位恶意代码所在的最小逻辑单元后,提取所述恶意
代码特征生成恶意代码库。本发明所提供的恶意代码库建立系统,能够自动的将恶意代码
在文档中定位出并提取恶意代码特征,建立恶意代码库。
在其中一个实施例中,将最小逻辑单元的标点符号识别并记录下来,做为恶意代
码特征建立恶意代码库,能够使所建立的恶意代码库在保留最大特征的基础上,至占用最
小的存储空间。
在其中一个实施例中,分别为文档中的各最小逻辑单元生成宿主文档后,后续再
利用第三方恶意代码识别软件扫描,即可定位恶意代码所在的宿主文档。为最小逻辑单元
生成宿主文档的方法,可将恶意代码的识别工作进行自动化的处理,提高恶意代码库的生
成效率。
附图说明
图1为一个实施例的恶意代码库建立方法的流程示意图;
图2为另一个实施例的恶意代码库建立方法的流程示意图;
图3为一个实施例的恶意代码库建立系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对
本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不
用于限定本发明。
图1为一个实施例的恶意代码库建立方法的流程示意图,如图1所示的恶意代码库
建立方法包括:
步骤S100,获取文档。
具体的,所述文档包括网页、PDF、WORD、EXCEL、FLASH。
步骤S200,利用恶意代码识别软件扫描所述文档。
具体的,所述恶意代码识别软件,为任意第三方的恶意代码识别软件,并且,可以
为多个第三方恶意代码识别软件。利用第三方的恶意代码识别软件,对所述文档进行扫描,
并根据扫描结果判定所述文档中是否包含恶意代码。由于所述第三方的恶意代码识别软件
只能判断出,所述文档是否包含恶意代码,但无法对恶意代码在文档中的位置进行定位。需
要对扫描结果为包含恶意代码的文档进行进一步的分析。
步骤S300,识别包含恶意代码的文档中的各最小逻辑单元,并生成与所述各最小
逻辑单元一一对应的宿主文档,且所述宿主文档只保留与之对应的一个最小逻辑单元。
具体的,由于所述文档中可能包含不止一个最小逻辑单元,而所述的最小逻辑单
元,携带所述恶意代码,为对所述文档中的恶意代码进行定位,需要将文档按照其包含的最
小逻辑单元,拆分为对应的宿主文档,每个宿主文档只包含其中一个最小逻辑单元,便于后
续的恶意代码的定位。
步骤S400,利用所述恶意代码识别软件分别扫描所述各宿主文档,将包含恶意代
码的所述宿主文档确定为待提取文档。
具体的,利用所述第三方的恶意代码识别软件,再次扫描各宿主文档,当扫描结果
为包含恶意代码时,即可确定所述宿主文档中的最小逻辑单元携带有恶意代码。
步骤S500,提取所述待提取文档中最小逻辑单元的恶意代码特征,获取恶意代码
特征记录。
具体的,提取所述最小逻辑单元中的恶意代码特征,获取恶意代码特征记录,所述
的恶意代码特征,包括识别并记录所述待提取文档中最小逻辑单元的标点符号;将所述最
小逻辑单元的标点符号确定为恶意代码特征。还包括:计算所述待提取文档中最小逻辑单
元的校验值或哈希值;将所述校验值或哈希值确定为恶意代码特征。
其中,记录所述最小逻辑单元的标点符号作为恶意代码特征,可以在保留恶意代
码最大特征的同时,最大程度的节省存储空间。
步骤S600,根据所述恶意代码特征记录生成恶意代码库。
具体的,将所述恶意代码特征记录生成恶意代码库,保证所生成的恶意代码库中
的恶意代码的实时性。
本发明提供的恶意代码库建立系统,通过恶意代码识别软件扫描文档后,若扫描
结果为文档包含恶意代码,则识别所述文档中的最小逻辑单元,并根据所述各最小逻辑单
元分别生成宿主文档,再次进行扫描,定位恶意代码所在的最小逻辑单元后,提取所述恶意
代码特征生成恶意代码库。本发明所提供的恶意代码库建立系统,能够自动的将恶意代码
在文档中定位出并提取恶意代码特征,建立恶意代码库。在本实施例中,将最小逻辑单元的
标点符号识别并记录下来,并根据恶意代码特征建立恶意代码库,能够使所建立的恶意代
码库在保留最大特征的基础上,至占用最小的存储空间。
图2为另一个实施例的恶意代码库建立方法的流程示意图,如图2所示的恶意代码
库建立方法,包括:
步骤S310,识别所述文档中的最小逻辑单元,所述文档中是否只包括一个最小逻
辑单元,若是,接步骤S320,若否,跳至步骤S330。
步骤S320,确定所述文档为待提取文档。
具体的,当所述文档中只包括一个最小逻辑单元时,可以将所述文档直接确定为
待提取文档。
步骤S330,当所述文档中包括至少两个最小逻辑单元时,分别在所述文档中只保
留其中一个最小逻辑单元,生成与所述至少两个最小逻辑单元一一对应的宿主文档。
具体的,当所述文档中包括至少两个最小逻辑单元时,需要进一步对恶意代码的
位置进行定位,通过为每个最小逻辑单元分别生成宿主文档,每个宿主文档至包含一个最
小逻辑单元,在通过后续的第三方恶意代码识别软件扫描,即可定位恶意代码所在的宿主
文档。
在本实施例中,分别为文档中的各最小逻辑单元生成宿主文档后,后续再利用第
三方恶意代码识别软件扫描,即可定位恶意代码所在的宿主文档。为最小逻辑单元生成宿
主文档的方法,可将恶意代码的识别工作进行自动化的处理,提高恶意代码库的生成效率。
图3为一个实施例的恶意代码库建立系统的结构示意图,如图3所示的恶意代码库
建立系统包括:
文档获取模块100,用于获取文档;所述文档,包括网页、PDF、WORD、EXCEL、FLASH。
文档扫描模块200,用于利用恶意代码识别软件扫描所述文档。
宿主文档生成模块300,当用于识别包含恶意代码的文档中的各最小逻辑单元,并
生成与所述各最小逻辑单元一一对应的宿主文档,且所述宿主文档只保留与之对应的一个
最小逻辑单元;还用于将包含恶意代码且只包含一个最小逻辑单元的文档,确定为与所述
一个最小逻辑单元对应的宿主文档。
待提取文档确定模块400,用于利用所述恶意代码识别软件分别扫描所述各宿主
文档,将包含恶意代码的所述宿主文档确定为待提取文档;还用于将与所述一个最小逻辑
单元对应的宿主文档确定为待提取文档。
恶意代码特征记录获取模块500,用于提取所述待提取文档中最小逻辑单元的恶
意代码特征,获取恶意代码特征记录;用于识别并记录所述待提取文档中最小逻辑单元的
标点符号;将所述最小逻辑单元的标点符号确定为恶意代码特征;还用于计算所述待提取
文档中最小逻辑单元的校验值或哈希值;将所述校验值或哈希值确定为恶意代码特征。
恶意代码库生成模块600,用于根据所述恶意代码特征记录生成恶意代码库。
本发明提供的恶意代码库建立系统,通过恶意代码识别软件扫描文档后,若扫描
结果为文档包含恶意代码,则识别所述文档中的最小逻辑单元,并根据所述各最小逻辑单
元分别生成宿主文档,再次进行扫描,定位恶意代码所在的最小逻辑单元后,提取所述恶意
代码特征生成恶意代码库。本发明所提供的恶意代码库建立系统,能够自动的将恶意代码
在文档中定位出并提取恶意代码特征,建立恶意代码库。
在本实施例中,将最小逻辑单元的标点符号识别并记录下来,做为恶意代码特征
建立恶意代码库,能够使所建立的恶意代码库在保留最大特征的基础上,至占用最小的存
储空间。
在本实施例中,分别为文档中的各最小逻辑单元生成宿主文档后,后续再利用第
三方恶意代码识别软件扫描,即可定位恶意代码所在的宿主文档。为最小逻辑单元生成宿
主文档的方法,可将恶意代码的识别工作进行自动化的处理,提高恶意代码库的生成效率。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实
施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存
在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并
不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来
说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护
范围。因此,本发明专利的保护范围应以所附权利要求为准。