一种基于谓语推断的安全事件特征分析方法及系统.pdf

摘要
申请专利号：	CN201410246888.7	申请日：	2014.06.05
公开号：	CN104050151A	公开日：	2014.09.17
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/22申请日:20140605\|\|\|公开
IPC分类号：	G06F17/22	主分类号：	G06F17/22
申请人：	北京江南天安科技有限公司
发明人：	陈虎; 唐开达
地址：	100088 北京市海淀区马甸东路17号金澳国际大厦11楼1110室
优先权：
专利代理机构：	北京轻创知识产权代理有限公司 11212	代理人：	杨立
PDF下载：	PDF下载

内容摘要

本发明涉及一种基于谓语推断的安全事件特征分析方法及系统，所述方法包括：步骤1，采集安全事件；步骤2，将采集的安全事件切分为若干单词；步骤3，分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；步骤4，根据语法树中的谓语，判断安全事件的类型。本发明通过利用对于谓词的标识，实现了对于一般安全事件的识别，对于内置标准化脚本无法解析的安全事件，在大多数场合不用再开发新的脚本，从而节省了人力，降低了维护成本；同时，由于预先对安全事件进行了分词，从而降低系统全文检索部件的负荷，提升了整体性能。

权利要求书

1.  一种基于谓语推断的安全事件特征分析方法，其特征在于，包括：
步骤1，采集安全事件；
步骤2，将采集的安全事件切分为若干单词；
步骤3，分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；
步骤4，根据语法树中的谓语，判断安全事件的类型。

2.  根据权利要求1所述的安全事件特征分析方法，其特征在于，所述步骤1具体包括通过Syslog方式、简单网络管理协议方式、文本文件方式、Windows管理接口方式和/或数据库方式逐条采集安全事件。

3.  根据权利要求1所述的安全事件特征分析方法，其特征在于，所述步骤2具体包括：调用分词器，且该分词器加载有事先配置的词库，并根据加载的词库将采集的安全事件切分为若干单词。

4.  根据权利要求1至3中任一所述的安全事件特征分析方法，其特征在于，还包括：
步骤5，传输并保存安全事件及其相应的分词结果、词性分析结果、语法树和安全事件类型。

5.  一种基于谓语推断的安全事件特征分析系统，其特征在于，包括安装在服务器上的采集部件、分词部件、语法分析部件和判断部件：
采集部件，其用于采集安全事件；
分词部件，其用于将采集的安全事件切分为若干单词；
语法分析部件，其用于分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；
判断部件，其用于根据语法树中的谓语，判断安全事件的类型。

6.  根据权利要求5所述的安全事件特征分析系统，其特征在于，所述采集部件通过Syslog方式、简单网络管理协议方式、文本文件方式、Windows管理接口方式和/或数据库方式逐条采集安全事件。

7.  根据权利要求5所述的安全事件特征分析系统，其特征在于，所述分词部件采用分词器，且该分词器加载事先配置的词库，并根据加载的词库将采集的安全事件切分为若干单词。

8.  根据权利要求5至7中任一所述的安全事件特征分析系统，其特征在于，还包括：
传输及存储部件，其用于传输并保存安全事件及其相应的分词结果、词性分析结果、语法树和安全事件类型。

9.  根据权利要求5至7中任一所述的安全事件特征分析系统，其特征在于，还包括初始化部件，其用于根据配置文件初始化采集部件、分词部件和语法分析部件。

10.  根据权利要求5至7中任一所述的安全事件特征分析系统，其特征在于，所述采集部件与所述语法分析部件安装在不同服务器上。

说明书

一种基于谓语推断的安全事件特征分析方法及系统
技术领域
本发明涉及信息安全领域，特别是涉及一种基于谓语推断的安全事件特征分析及系统。
背景技术
在信息安全领域中，特别是针对各类系统或设备的安全事件，如网络的攻击行为、网络的操作行为、系统的操作行为、数据库的操作行为审计等都是需要被集中进行采集、分析及处理的；但由于不同系统或设备的事件格式存在较大差异，事件中关于描述各类行为的内容也千差万别，一般应将事件中相关地址信息、端口信息、协议信息、主机信息、用户信息及行为信息进行解析并存放到相应的字段中，这个过程被称为安全事件的标准化。
目前，无论是国外类似系统或软件，如HP Arcsight Logger/ESM、Splunk等，还是国内相关系统或软件，如启明星辰天钥网络安全审计系统、天融信网络卫士日志审计系统等，对此处理的方式均是预先在系统中内置若干已知被管理系统的标准化脚本，这些脚本一般均是使用模式匹配的方式进行处理的，因其使用模式匹配(利用正则表达式)，故仅仅是利用有限状态机方法，因而此种解决方法的缺陷在于如果遇到不能识别的模式(如增加新的系统或设备类型)则无法正确标准化，那么就要根据新的事件模式重新开发处理脚本并进行测试，这需要一定的时间和开发工作量。
发明内容
本发明所要解决的技术问题是提供一种基于谓语推断的安全事件特征分析及系统，用于解决安全事件特征分析中因无法识别新的模式而需要单独开发解析脚本的问题。
本发明解决上述技术问题的技术方案如下：一种基于谓语推断的安全事件特征分析方法，包括：
步骤1，采集安全事件；
步骤2，将采集的安全事件切分为若干单词；
步骤3，分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；
步骤4，根据语法树中的谓语，判断安全事件的类型。
对应地，本发明的技术方案还包括一种基于谓语推断的安全事件特征分析系统，包括安装在服务器上的采集部件、分词部件、语法分析部件和判断部件；
采集部件，其用于采集安全事件；
分词部件，其用于将采集的安全事件切分为若干单词；
语法分析部件，其用于分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；
判断部件，其用于根据语法树中的谓语，判断安全事件的类型。
本发明的有益效果是：通过利用对于谓词的标识，实现了对于一般安全事件的识别，对于内置标准化脚本无法解析的安全事件，在大多数场合不用再开发新的脚本，从而节省了人力，降低了维护成本；同时，由于预先对安全事件进行了分词，从而降低系统全文检索部件的负荷，提升了整体性能。
附图说明
图1为本发明所述的一种基于谓语推断的安全事件特征分析方法的流程示意图；
图2为本发明所述的一种基于谓语推断的安全事件特征分析系统的结构示意图；
图3为本发明实施例中针对Linux安全事件的一个语法树示意图；
图4为本发明实施例中针对Windows安全事件的一个语法树示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。
如图1所示，本实施例给出了一种基于谓语推断的安全事件特征分析方法，包括：
步骤1，采集安全事件；
步骤2，将采集的安全事件切分为若干单词；
步骤3，分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；
步骤4，根据语法树中的谓语或系动词，判断安全事件的类型；
步骤5，传输并保存安全事件及其相应的分词结果、词性分析结果、语法树和安全事件类型。
如图2所示，对应上述步骤，本实施例还给出了一种基于谓语推断的安全事件特征分析系统，包括安装在服务器上的采集部件、分词部件、语法分析部件和判断部件；
采集部件，其用于采集安全事件；
分词部件，其用于将采集的安全事件切分为若干单词；
语法分析部件，其用于分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；
判断部件，其用于根据语法树中的谓语或系动词，判断安全事件的类型；
传输及存储部件，其用于传输并保存安全事件及其相应的分词结果、词性分析结果、语法树和安全事件类型。
对于上述的基于谓语推断的安全事件特征分析方法和系统，其具体的实施过程分为以下几个部分：
一、系统初始化部分
1)采集部件初始化。
初始化系统的安全事件采集部分，能接受或主动采集各类被管系统或设备的安全事件，采集方式包括Syslog、SNMP(Simple Network Management Protocol，即简单网络管理协议)、文本文件、WMI(Windows Management Interface，即Windows管理接口)、数据库等。
2)分词部件和词库初始化。
所述步骤2具体包括：调用分词器，且该分词器加载事先配置的词库，并根据加载的词库将采集的安全事件切分为若干单词。因此，需要对分词器和词库进行初始化。
系统根据相关配置文件加载分词器(使用国内的“庖丁”分词器)以及所使用的词库，其中分词器一般选择常用的可以支持中英文分词的引擎；由于安全事件中包含的词汇不多，且多为英文，故词库不宜选择过多大，否则会影响安全事件的解析效率，本实施例所选择的词库在一万个左右(含中文和英文单词)。
3)语法分析部件初始化
所述步骤3中进行词性分析和句型分析时需采用词性分析器和句型分析器，因此系统根据相关配置文件加载句型分析器和词性分析器，以实现对语法分析部件的初始化。
二、安全事件采集部分
根据初始化结果，所述步骤1具体包括通过Syslog方式、SNMP方式、文本文件方式、WMI方式和/或数据库方式逐条采集安全事件。
三、分词处理部分
分词器会根据组成安全事件的单词(依据词库)进行初步切分，将结果发送给语法分析部分。
四、语法分析部分
对于安全事件的语法分析包含两个部分，其一为词性分析，其二为句型分析；其中词性分析是根据分词的结果对各个单词进行分析，找出其中可能为谓语(动词)的部分，而句型分析针对词性分析结果，根据常见的句型进行分析，生成可以理解的语法树，以便于近一步地标准化，上述两个部分描述如下：
1)词性分析：词性分析部分主要针对分词结果，根据各个单词的词性进行分析，包括将一般的冠词去除，主要为定冠词(“the”)和不定冠词(“a”和“an”)，分析出可能为谓语的动词(包括系动词、实意动词)、助动词，其它代词、名词、形容词及副词；由于一般安全事件均为描述过去发生的问题，故时态分析较为简单，主要为：过去时、现在完成时以及一般现在时；另外，如果在谓语前部出现如“did not”、“didn’t”、“don’t”、“can not”等否定词也会一并进行分析。
2)句型分析：根据词性分析的结果，结合系统设置的句式(如主动或被动)、句型，生成语法树；由于安全事件的句子较为简单，基本上不会使用到从句，故本方案会设置几种句型(以EBNF表示，即Extended Backus-Naur Form，就是可扩展的巴科斯范式：用“::＝”表示“定义为”，用“|”表示“或”，用“<>”括起的部分为非终结符，“[]”括起的部分为可选内容，其它为终结符，而“空”就是无的意思)的递归文法产生式，其中充当谓语部分的动词是分析的关键，它们都是终结符，是分析句型的“句柄”，具体如下：
a)<句子>::＝<主谓宾>|<主系表>
b)<主谓宾>::＝[<状语>][<主语>][<状语>]谓语[<状语>][<宾语>][<状语>][[连词]<句子>]
c)<主系表>::＝[<状语>][<主语>][<状语>]系动词[<状语>][<表语>][<状语>]
d)<主语>::＝[连词]<句子>|<名词性短语>|名词|代词|空
e)<名词性短语>::＝名词<名词性短语>|形容词<名词性短语>|名词|代词
f)<状语>::＝[连词]<句子>|<副词性短语>|<介词短语>|副词
g)<介词短语>::＝介词<名词性短语>[<介词短语>]
h)<副词性短语>::＝副词<副词性短语>|副词
i)<宾语>::＝[连词]<句子>|<名词性短语>|名词|代词|空
j)<表语>::＝[连词]<句子>|<形容词性短语>|形容词
k)<形容词性短语>::＝形容词<形容词性短语>|形容词
通过运用上述产生式就可以对一般的安全事件内容进行分析，从而生成一颗语法树。
四、安全事件类型判断部分
通过对于谓语或系动词的分析，就可以知道事件的类型是什么，如“Login”即为用户登录行为，而“Close”则为关闭行为；而通过分析其主语和宾语也可以推导出其它需分析的内容，也可以通过分析包含介词的短语推导出其它必要内容，如主机、IP地址、端口、用户等信息。
五、传输及存储部分
将解析后的事件以及生成的语法树(如为新增)及相关分词结果发送到后续的系统分析部分，并以语法树的模式进行保存。安全事件及其分词结果被系统存储部分保存，并添加防篡改标识，相关分词的结果也会被全文检索系统进行二次利用，从而不用再进行重复的分词运算(传统方式是在全文检索部分集中进行分词)。存储候选模式供今后用户进行选择和细化，从而形成内置标准化模式。
在实际实施时，采用分布式部署方式，即系采集部件与语法分析部件安装在不同服务器上，它们所是使用的操作系统均为CentOS6.4，使用Intel64位硬件架构。
系统在实际测试时，采用如下几种设备的实际安全事件(加粗部分为谓语)，包括：
1、Linux系统：
1)Accepted password for root from192.168.100.12port23303ssh2
2)Did not receive identification string from192.168.100.216
3)Connection closed by UNKNOWN
2、Windows系统：
1)计算机试图验证帐户的凭据。验证包:MICROSOFT_AUTHENTICATION_PACKAGE_V1_0；登录帐户:administrator；源工作站:SMC-2057；错误代码:0x0。
3、思科路由器：
1)Power supply1input has changed.Power capacity adjusted to5771.64W
2)Configured from console by xuhao on vty0(192.168.100.11)
4、思科防火墙：
1)Built inbound ICMP connection for faddr192.168.100.156/0gaddr192.168.100.4/0laddr192.168.100.4/0
2)System Memory usage reached80％
5、Juniper VPN：
1)Primary authentication failed for30257035/System Local from222.75.160.44
2)Login failed using auth server System Local(Local Authentication).
可以看出，上述典型系统或设备的常见事件一般均是“主谓宾”句式，下面以Linux和Windows(内容分别是英文和中文)为例详细解释系统是如何进行处理的：
1)对于Linux安全事件：“Connection closed by UNKNOWN”，识别的步骤如下：
分词处理：系统会将上述句子划分为“Connection”、“closed”、“by”、“UNKNOWN”等四个单词；
词法分析：对于上述四个单词，只有“closed”(原型为“close”)为动词，其它为名词或介词；
句型分析：很明显上述句子可被识别为如下句型：主语+谓语+状语，生成的语法树如图3所示。
另外，通过对于短语“by UNKNOWN”的分析可知，介词“by”后应是用户名称；对于其它介词如“from”(如Linux的第一种和第二种事件、Juniper VPN的第一种事件)、“to”、“on”(思科路由器的第二种事件)等的推导也能够基本上明确之后的名词可能是主机名/IP地址或终端等；在做类似推导时，可以结合相关正则模式匹配技术，如PCRE(Perl Compatible Regular Expressions)正则库。
2)对于Windows安全事件：“计算机试图验证帐户的凭据。…”(系统仅识别遇到的第一个完整的句子)，识别的步骤如下：
分词处理：系统会将上述句子划分为“计算机”、“试图”、“验证”、“账户”、“凭据”等五个单词；
词法分析：对于上述五个单词，只有验证可能为动词，其它为名词；
句型分析：很明显上述句子可被识别为如下句型：主语+谓语+宾语，生成的语法树如图4所示。
因此，对于其它设备或系统上的安全事件，一般就可以使用类似的方法进行统一解析。通过这样的改进，系统就能够在大多数情况下不用再另外编写不同的解析脚本，但如果日志内容中仅为名词短语则无法利用此技术。当然，这种方式并不是为了完全取代现有的运作方式，它应是和传统的安全事件标准化方法互为补充。
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

资源描述

《一种基于谓语推断的安全事件特征分析方法及系统.pdf》由会员分享，可在线阅读，更多相关《一种基于谓语推断的安全事件特征分析方法及系统.pdf（9页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104050151A43申请公布日20140917CN104050151A21申请号201410246888722申请日20140605G06F17/2220060171申请人北京江南天安科技有限公司地址100088北京市海淀区马甸东路17号金澳国际大厦11楼1110室72发明人陈虎唐开达74专利代理机构北京轻创知识产权代理有限公司11212代理人杨立54发明名称一种基于谓语推断的安全事件特征分析方法及系统57摘要本发明涉及一种基于谓语推断的安全事件特征分析方法及系统，所述方法包括步骤1，采集安全事件；步骤2，将采集的安全事件切分为若干单词；步骤3，分析切分后的每个单词的词性。

2、，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；步骤4，根据语法树中的谓语，判断安全事件的类型。本发明通过利用对于谓词的标识，实现了对于一般安全事件的识别，对于内置标准化脚本无法解析的安全事件，在大多数场合不用再开发新的脚本，从而节省了人力，降低了维护成本；同时，由于预先对安全事件进行了分词，从而降低系统全文检索部件的负荷，提升了整体性能。51INTCL权利要求书1页说明书5页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书5页附图2页10申请公布号CN104050151ACN104050151A1/1页21一种基于谓语推断的安全事件特征分析方法，其特征。

3、在于，包括步骤1，采集安全事件；步骤2，将采集的安全事件切分为若干单词；步骤3，分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；步骤4，根据语法树中的谓语，判断安全事件的类型。2根据权利要求1所述的安全事件特征分析方法，其特征在于，所述步骤1具体包括通过SYSLOG方式、简单网络管理协议方式、文本文件方式、WINDOWS管理接口方式和/或数据库方式逐条采集安全事件。3根据权利要求1所述的安全事件特征分析方法，其特征在于，所述步骤2具体包括调用分词器，且该分词器加载有事先配置的词库，并根据加载的词库将采集的安全事件切分为若干单词。4根据权利要求1至3中任一所。

4、述的安全事件特征分析方法，其特征在于，还包括步骤5，传输并保存安全事件及其相应的分词结果、词性分析结果、语法树和安全事件类型。5一种基于谓语推断的安全事件特征分析系统，其特征在于，包括安装在服务器上的采集部件、分词部件、语法分析部件和判断部件采集部件，其用于采集安全事件；分词部件，其用于将采集的安全事件切分为若干单词；语法分析部件，其用于分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；判断部件，其用于根据语法树中的谓语，判断安全事件的类型。6根据权利要求5所述的安全事件特征分析系统，其特征在于，所述采集部件通过SYSLOG方式、简单网络管理协议方式、文本文。

5、件方式、WINDOWS管理接口方式和/或数据库方式逐条采集安全事件。7根据权利要求5所述的安全事件特征分析系统，其特征在于，所述分词部件采用分词器，且该分词器加载事先配置的词库，并根据加载的词库将采集的安全事件切分为若干单词。8根据权利要求5至7中任一所述的安全事件特征分析系统，其特征在于，还包括传输及存储部件，其用于传输并保存安全事件及其相应的分词结果、词性分析结果、语法树和安全事件类型。9根据权利要求5至7中任一所述的安全事件特征分析系统，其特征在于，还包括初始化部件，其用于根据配置文件初始化采集部件、分词部件和语法分析部件。10根据权利要求5至7中任一所述的安全事件特征分析系统，其特征在。

6、于，所述采集部件与所述语法分析部件安装在不同服务器上。权利要求书CN104050151A1/5页3一种基于谓语推断的安全事件特征分析方法及系统技术领域0001本发明涉及信息安全领域，特别是涉及一种基于谓语推断的安全事件特征分析及系统。背景技术0002在信息安全领域中，特别是针对各类系统或设备的安全事件，如网络的攻击行为、网络的操作行为、系统的操作行为、数据库的操作行为审计等都是需要被集中进行采集、分析及处理的；但由于不同系统或设备的事件格式存在较大差异，事件中关于描述各类行为的内容也千差万别，一般应将事件中相关地址信息、端口信息、协议信息、主机信息、用户信息及行为信息进行解析并存放到相应的字段。

7、中，这个过程被称为安全事件的标准化。0003目前，无论是国外类似系统或软件，如HPARCSIGHTLOGGER/ESM、SPLUNK等，还是国内相关系统或软件，如启明星辰天钥网络安全审计系统、天融信网络卫士日志审计系统等，对此处理的方式均是预先在系统中内置若干已知被管理系统的标准化脚本，这些脚本一般均是使用模式匹配的方式进行处理的，因其使用模式匹配利用正则表达式，故仅仅是利用有限状态机方法，因而此种解决方法的缺陷在于如果遇到不能识别的模式如增加新的系统或设备类型则无法正确标准化，那么就要根据新的事件模式重新开发处理脚本并进行测试，这需要一定的时间和开发工作量。发明内容0004本发明所要解决的技。

8、术问题是提供一种基于谓语推断的安全事件特征分析及系统，用于解决安全事件特征分析中因无法识别新的模式而需要单独开发解析脚本的问题。0005本发明解决上述技术问题的技术方案如下一种基于谓语推断的安全事件特征分析方法，包括0006步骤1，采集安全事件；0007步骤2，将采集的安全事件切分为若干单词；0008步骤3，分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；0009步骤4，根据语法树中的谓语，判断安全事件的类型。0010对应地，本发明的技术方案还包括一种基于谓语推断的安全事件特征分析系统，包括安装在服务器上的采集部件、分词部件、语法分析部件和判断部件；001。

9、1采集部件，其用于采集安全事件；0012分词部件，其用于将采集的安全事件切分为若干单词；0013语法分析部件，其用于分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；0014判断部件，其用于根据语法树中的谓语，判断安全事件的类型。0015本发明的有益效果是通过利用对于谓词的标识，实现了对于一般安全事件的识说明书CN104050151A2/5页4别，对于内置标准化脚本无法解析的安全事件，在大多数场合不用再开发新的脚本，从而节省了人力，降低了维护成本；同时，由于预先对安全事件进行了分词，从而降低系统全文检索部件的负荷，提升了整体性能。附图说明0016图1为本发明。

10、所述的一种基于谓语推断的安全事件特征分析方法的流程示意图；0017图2为本发明所述的一种基于谓语推断的安全事件特征分析系统的结构示意图；0018图3为本发明实施例中针对LINUX安全事件的一个语法树示意图；0019图4为本发明实施例中针对WINDOWS安全事件的一个语法树示意图。具体实施方式0020以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。0021如图1所示，本实施例给出了一种基于谓语推断的安全事件特征分析方法，包括0022步骤1，采集安全事件；0023步骤2，将采集的安全事件切分为若干单词；0024步骤3，分析切分后的每个单词的词性，同时根。

11、据词性分析结果，结合事先设置的句型格式，生成语法树；0025步骤4，根据语法树中的谓语或系动词，判断安全事件的类型；0026步骤5，传输并保存安全事件及其相应的分词结果、词性分析结果、语法树和安全事件类型。0027如图2所示，对应上述步骤，本实施例还给出了一种基于谓语推断的安全事件特征分析系统，包括安装在服务器上的采集部件、分词部件、语法分析部件和判断部件；0028采集部件，其用于采集安全事件；0029分词部件，其用于将采集的安全事件切分为若干单词；0030语法分析部件，其用于分析切分后的每个单词的词性，同时根据词性分析结果，结合事先设置的句型格式，生成语法树；0031判断部件，其用于根据语法。

12、树中的谓语或系动词，判断安全事件的类型；0032传输及存储部件，其用于传输并保存安全事件及其相应的分词结果、词性分析结果、语法树和安全事件类型。0033对于上述的基于谓语推断的安全事件特征分析方法和系统，其具体的实施过程分为以下几个部分0034一、系统初始化部分00351采集部件初始化。0036初始化系统的安全事件采集部分，能接受或主动采集各类被管系统或设备的安全事件，采集方式包括SYSLOG、SNMPSIMPLENETWORKMANAGEMENTPROTOCOL，即简单网络管理协议、文本文件、WMIWINDOWSMANAGEMENTINTERFACE，即WINDOWS管理接口、数据库等。00。

13、372分词部件和词库初始化。0038所述步骤2具体包括调用分词器，且该分词器加载事先配置的词库，并根据加载说明书CN104050151A3/5页5的词库将采集的安全事件切分为若干单词。因此，需要对分词器和词库进行初始化。0039系统根据相关配置文件加载分词器使用国内的“庖丁”分词器以及所使用的词库，其中分词器一般选择常用的可以支持中英文分词的引擎；由于安全事件中包含的词汇不多，且多为英文，故词库不宜选择过多大，否则会影响安全事件的解析效率，本实施例所选择的词库在一万个左右含中文和英文单词。00403语法分析部件初始化0041所述步骤3中进行词性分析和句型分析时需采用词性分析器和句型分析器，因此。

14、系统根据相关配置文件加载句型分析器和词性分析器，以实现对语法分析部件的初始化。0042二、安全事件采集部分0043根据初始化结果，所述步骤1具体包括通过SYSLOG方式、SNMP方式、文本文件方式、WMI方式和/或数据库方式逐条采集安全事件。0044三、分词处理部分0045分词器会根据组成安全事件的单词依据词库进行初步切分，将结果发送给语法分析部分。0046四、语法分析部分0047对于安全事件的语法分析包含两个部分，其一为词性分析，其二为句型分析；其中词性分析是根据分词的结果对各个单词进行分析，找出其中可能为谓语动词的部分，而句型分析针对词性分析结果，根据常见的句型进行分析，生成可以理解的语法。

15、树，以便于近一步地标准化，上述两个部分描述如下00481词性分析词性分析部分主要针对分词结果，根据各个单词的词性进行分析，包括将一般的冠词去除，主要为定冠词“THE”和不定冠词“A”和“AN”，分析出可能为谓语的动词包括系动词、实意动词、助动词，其它代词、名词、形容词及副词；由于一般安全事件均为描述过去发生的问题，故时态分析较为简单，主要为过去时、现在完成时以及一般现在时；另外，如果在谓语前部出现如“DIDNOT”、“DIDNT”、“DONT”、“CANNOT”等否定词也会一并进行分析。00492句型分析根据词性分析的结果，结合系统设置的句式如主动或被动、句型，生成语法树；由于安全事件的句子较。

16、为简单，基本上不会使用到从句，故本方案会设置几种句型以EBNF表示，即EXTENDEDBACKUSNAURFORM，就是可扩展的巴科斯范式用“”表示“定义为”，用“|”表示“或”，用“”括起的部分为非终结符，“”括起的部分为可选内容，其它为终结符，而“空”就是无的意思的递归文法产生式，其中充当谓语部分的动词是分析的关键，它们都是终结符，是分析句型的“句柄”，具体如下0050A|0051B谓语连词0052C系动词0053D连词|名词|代词|空0054E名词|形容词|名词|代词0055F连词|副词说明书CN104050151A4/5页60056G介词0057H副词|副词0058I连词|名词|代词|。

17、空0059J连词|形容词0060K形容词|形容词0061通过运用上述产生式就可以对一般的安全事件内容进行分析，从而生成一颗语法树。0062四、安全事件类型判断部分0063通过对于谓语或系动词的分析，就可以知道事件的类型是什么，如“LOGIN”即为用户登录行为，而“CLOSE”则为关闭行为；而通过分析其主语和宾语也可以推导出其它需分析的内容，也可以通过分析包含介词的短语推导出其它必要内容，如主机、IP地址、端口、用户等信息。0064五、传输及存储部分0065将解析后的事件以及生成的语法树如为新增及相关分词结果发送到后续的系统分析部分，并以语法树的模式进行保存。安全事件及其分词结果被系统存储部分保。

18、存，并添加防篡改标识，相关分词的结果也会被全文检索系统进行二次利用，从而不用再进行重复的分词运算传统方式是在全文检索部分集中进行分词。存储候选模式供今后用户进行选择和细化，从而形成内置标准化模式。0066在实际实施时，采用分布式部署方式，即系采集部件与语法分析部件安装在不同服务器上，它们所是使用的操作系统均为CENTOS64，使用INTEL64位硬件架构。0067系统在实际测试时，采用如下几种设备的实际安全事件加粗部分为谓语，包括00681、LINUX系统00691ACCEPTEDPASSWORDFORROOTFROM19216810012PORT23303SSH200702DIDNOTREC。

19、EIVEIDENTICATIONSTRINGFROM19216810021600713CONNECTIONCLOSEDBYUNKNOWN00722、WINDOWS系统00731计算机试图验证帐户的凭据。验证包MICROSOFT_AUTHENTICATION_PACKAGE_V1_0；登录帐户ADMINISTRATOR；源工作站SMC2057；错误代码0X0。00743、思科路由器00751POWERSUPPLY1INPUTHASCHANGEDPOWERCAPACITYADJUSTEDTO577164W00762CONGUREDFROMCONSOLEBYXUHAOONVTY01921681001。

20、100774、思科防火墙00781BUILTINBOUNDICMPCONNECTIONFORFADDR192168100156/0GADDR1921681004/0LADDR1921681004/000792SYSTEMMEMORYUSAGEREACHED8000805、JUNIPERVPN00811PRIMARYAUTHENTICATIONFAILEDFOR30257035/SYSTEMLOCALFROM2227516044说明书CN104050151A5/5页700822LOGINFAILEDUSINGAUTHSERVERSYSTEMLOCALLOCALAUTHENTICATION0083。

21、可以看出，上述典型系统或设备的常见事件一般均是“主谓宾”句式，下面以LINUX和WINDOWS内容分别是英文和中文为例详细解释系统是如何进行处理的00841对于LINUX安全事件“CONNECTIONCLOSEDBYUNKNOWN”，识别的步骤如下0085分词处理系统会将上述句子划分为“CONNECTION”、“CLOSED”、“BY”、“UNKNOWN”等四个单词；0086词法分析对于上述四个单词，只有“CLOSED”原型为“CLOSE”为动词，其它为名词或介词；0087句型分析很明显上述句子可被识别为如下句型主语谓语状语，生成的语法树如图3所示。0088另外，通过对于短语“BYUNKNOW。

22、N”的分析可知，介词“BY”后应是用户名称；对于其它介词如“FROM”如LINUX的第一种和第二种事件、JUNIPERVPN的第一种事件、“TO”、“ON”思科路由器的第二种事件等的推导也能够基本上明确之后的名词可能是主机名/IP地址或终端等；在做类似推导时，可以结合相关正则模式匹配技术，如PCREPERLCOMPATIBLEREGULAREXPRESSIONS正则库。00892对于WINDOWS安全事件“计算机试图验证帐户的凭据。”系统仅识别遇到的第一个完整的句子，识别的步骤如下0090分词处理系统会将上述句子划分为“计算机”、“试图”、“验证”、“账户”、“凭据”等五个单词；0091词法分。

23、析对于上述五个单词，只有验证可能为动词，其它为名词；0092句型分析很明显上述句子可被识别为如下句型主语谓语宾语，生成的语法树如图4所示。0093因此，对于其它设备或系统上的安全事件，一般就可以使用类似的方法进行统一解析。通过这样的改进，系统就能够在大多数情况下不用再另外编写不同的解析脚本，但如果日志内容中仅为名词短语则无法利用此技术。当然，这种方式并不是为了完全取代现有的运作方式，它应是和传统的安全事件标准化方法互为补充。0094以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书CN104050151A1/2页8图1图2说明书附图CN104050151A2/2页9图3图4说明书附图CN104050151A。

展开阅读全文