基于数据仓库的信息安全审计方法 【技术领域】
本发明涉及的是一种计算机信息安全审计方法,特别是一种基于数据仓库的信息安全审计方法。属于计算机和信息安全技术领域。
背景技术
安全审计是评判一个系统是否真正安全的重要尺码。安全审计是一个安全的网络必须支持的功能特性。安全审计功能主要是监控来自网络内部和外部的用户活动,侦察系统中存在的现有和潜在的威胁,对与安全有关的活动的相关信息进行识别,记录,存储和分析。目前安全审计讨论的内容主要有以下几点:1、系统审计2、网络审计3、安全应用审计。系统审计将用户对操作系统以及主机中重要审计资源的访问记录下来。网络审计记录了每个用户的网络详细使用情况,如果有人对网络进行了攻击、窃密或是其他破坏活动,可以通过对审计文件的查询和预警,了解其使用网络的情况,据此对这样的人进行法律制裁或是抵制他的再次攻击。安全应用审计接收各种安全应用(包括防火墙、入侵检测、防病毒等)产生地日志信息。管理员不仅仅可以根据这些日志信息实时的跟踪用户在全网络中的活动,而且可以在此基础上进行事后的综合分析。
经文献检索,发现在互联网上的产品报道,如捷普网络科技公司的Jump安全审计系统(参见http://www.jump.net.cn/product/supervise.asp),它是西安交大捷普公司自主开发的基于内容的Internet访问审计系统,该系统能够对所有的网络流进行审计,可以依据“关键字”、“关键字组合”、服务所对应的端口及电子邮件的内容进行监视,对可疑的数据包进行记录,将审计结果存入数据库,该系统具有以下缺陷和不足:(1)将注意力集中于网络通信和传输层次,而对应用层面的关注较少。无法获取各个应用之间的内在联系。(2)该系统通过在相应的网络节点设置敏感器,对网络中多个子网信息访问情况进行审计。这里的敏感器相当于日志代理,当敏感器发生故障时,尤其是当需要跨越Internet网管理敏感器时,大大增加了维护代价及网络管理的复杂性。(3)该系统借助于Access数据库存储日志信息。由于Access数据库的容量有限(大约1G),而网络产生的数据有可能几天甚至几个小时就写满数据库。(4)在系统运行时,一方面系统需要不断的向数据库中增加信息,另一方面中心控制台软件又经常进行大量复杂的统计分析,这两种操作造成了系统资源冲突,严重影响了系统的性能。
【发明内容】
本发明的目的在于克服现有技术中的不足,提供一种基于数据仓库的信息安全审计方法,使其解决了背景技术中存在的不足和缺陷,大大提高了审计系统的扩展性、开放性以及审计分析的效率。
本发明是通过以下技术方案实现的,本发明方法采用Syslog标准协议及基于正则表达式的模式匹配方法实时收集日志信息,借助于数据仓库将综合分析处理环境与操作处理环境分离开来,使数据库专注于各种审计日志的收集,而数据仓库则对各种源日志进行集成、提取,并按审计分析的主题域综合组织数据,同时采用信息安全多维模型的建模方法,对各个审计分析主题通过共同的分析维进行关联,形成了面向整个信息安全领域的多维星座;通过数据仓库中的多维模型,采用联机在线分析处理方法进行多维分析,同时在数据仓库的基础之上采用数据挖掘方法及关联分析方法进行数据挖掘,发现各种审计源审计日志之间大量的内在联系,从而发现网络中潜在的安全漏洞和问题;最后根据分析结果生成可用的审计分析报表。
本发明采用“数据驱动”的方法,不是面向应用需求,而是利用已有安全应用的审计日志、操作系统日志等进行审计,从已有安全应用及相关数据出发,按照审计分析领域对审计数据及数据之间的联系重新考察,组织数据仓库中的审计分析主题,根据分析结果,创建数据仓库中的多维模型。
本发明采用Syslog标准协议及基于正则表达式的模式匹配方法实时收集日志信息,通过数据仓库中的多维模型,大大提高了审计系统的扩展性及开放性;采用联机在线分析处理方法进行多维分析,大大提高了审计分析的效率;另外,数据仓库中的数据是冗余的,且不可修改的,所以为调查取证提供了有效可信的追纠证据。
以下对本发明方法作进一步的说明,方法步骤如下:
(1)分析网络中的审计源,确定需要审计的数据及审计分析主题。当前信息安全审计分析主题主要包括:防火墙事件分析主题、入侵检测事件分析主题、防病毒事件分析主题、SSLServer事件分析主题。
(2)根据审计分析主题及分析的角度,创建多维模型,以多维方式组织数据。由于关系型数据库的成熟及广泛使用,使用星型模型模拟多维模型的表示和存储。在星型模型中将多维模型的多维结构划分为两类表:一类是事实表,用来存放审计分析所需要的度量值及各个分析维度的码值,另一类是维表,它分布在事实表的周围,是审计分析和特定角度。事实表通过每一个维的值和维表联系起来。根据信息审计分析主题,各个多维模型如下:
●防火墙多维模型:事实表中的度量数据包括:持续访问时间、发送流量、接收流量。分析的维度包括:时间维、防火墙动作维(拒绝、通过等)、访问协议维(http、ftp、telnet、smtp、pop3等)、源地址维、目标地址维。
●入侵检测多维模型:事实表中的度量数据包括:报警事件细节数据、报警事件的处理建议。审计分析的维度包括:时间维、报警事件等级维(高、中、低)、报警探测器维、源地址维、目标地址维、服务端口维。
●防病毒多维模型:事实表中的度量数据包括:病毒发作位置(路径)。审计分析的维度包括:病毒感染时间维、病毒感染机器维、系统用户维、病毒名称维、病毒类型维(文件病毒、邮件病毒、宏病毒等)、扫描类型维(自动扫描、手动扫描)、病毒操作结果维(清除、隔离、删除等)。
●SSLServer多维模型:事实表中的度量数据包括:访问资源次数。审计分析的维度包括:访问资源时间维、源地址维、资源名称维、用户维、资源维。
(3)关联多维模型。以上的各个多维模型还只是互相独立的审计实体,无法将各个审计分析主题相关联。为了进行关联的审计分析,必须在各个多个维型之间有共同的审计维度。在以上的多维模型中,每个多维模型都具有时间维,而且每个多维模型都具有地址维或与用户信息相关的维度,如防火墙多维模型、入侵检测多维模型及SSLServer多维模型都具有地址维,而防病毒多维模型具有感染机器维。将这些维度抽象并根据网络中实际用户信息创建用户维,每个用户都具有其基本信息,包括IP地址、机器名等。通过该用户维及时间维,连接各个多维模型,构成信息安全的星座。
(4)完成数据仓库的创建后,启动日志服务器,监听UDP514端口,接收网络安全应用发送的日志。
(5)网络安全应用配置了Syslog服务后,当产生日志信息时实时的通过标准的Syslog协议向日志服务器发送日志信息。Syslog是多数linux/Unix平台上都有的内置服务,最近在其他平台(如Windows)上也有类似的产品,而且多数安全应用设备中都使用Syslog方式发送日志,因此使用Syslog协议可以将所有系统日志及安全设备日志发送到一台受保护的集中控制的服务器中,从而提供一种伸缩性比较好的方案,而且由于将日志实时的通过网络传输出来,避免了日志保存在本地被篡改、删除的危险。
(6)日志服务器接收日志信息后,通过管理员预先配置好的正则表达式对日志格式的模式进行匹配解析,从中提取审计所需要的信息,并对数据进行统一集成及转换工作,统一审计日志中的不一致数据。通过这种技术使得系统可以解析任何格式的设备日志,保证了系统的开放性和扩展性,是目前对种类繁多的安全设备进行统一收集信息的较为可行的方式。
(7)进行OLAP分析及数据挖掘分析。数据集成到数据仓库后,在数据仓库的基础之上进行OLAP分析和数据挖掘分析。OLAP分析包括切片、切块、旋转、钻取。数据挖掘则通过决策树方法、关联分析方法、序列模式分析方法挖掘审计日志中数据的内在联系,发现网络中潜在的安全漏洞和问题。
(8)根据分析结果生成可用的审计分析报表。整个审计分析过程是一个动态的反馈和循环的过程。一方面根据用户返回的信息不断的完善和调整模型以提高审计分析的效率和性能,另一方面不断理解审计分析需求,向用户提供更有用的审计决策信息。
本发明主要采用了基于正则表达式的模式匹配方法、信息安全多维模型的建模方法、联机在线分析处理方法、数据挖掘方法及关联分析方法。
●基于正则表达式的模式匹配方法
日志种类的多样化造成日志格式的多样化。由于安全审计日志大多以文本方式存储,对于该类型的审计日志可以采用基于正则表达式(Regular Expression)的文本处理方式,通过Pattern的方式进行文本域的提取和后续处理,以达到对日志解析的灵活度和开放性。
●信息安全多维模型的建模方法
创建信息安全多维模型将采用“数据驱动”的设计方法。首先,“数据驱动”就是利用已有的日志数据来进行系统建设,必须清楚的识别网络、各种操作系统及安全应用将产生什么样的数据,它们对当前系统设计有什么影响等等。其次,“数据驱动”不再是面向应用,从应用需求出发,而是从分析领域对各种安全应用的数据及数据之间的联系重新考察,组织数据中的主题。第三,“数据驱动”是利用数据模型有效的识别日志和分析主题数据的共同性。在该方法中,数据将是整个体系化环境的核心,所以在充分研究信息安全领域业务知识的基础上,归纳并抽象信息安全领域的分析主题域,确定粒度层次划分与数据分割策略,创建一个高度兼容的、可扩展的安全审计多维数据模型十分关键。
●联机在线分析处理方法
联机在线分析处理方法包括多维数据的存储技术,多维数据的切片和切块、钻取、旋转技术。通过OLAP技术,可以对不同来源的日志进行相关性分析,从而反映出这组设备内在的、具有一定价值的信息。比如查找一台机器在各种安全设备上留下的记录,可以更清晰地描述出其活动情况。
●数据挖掘方法及关联分析方法
数据挖掘(Data Mining)是从数据仓库中挖掘出隐含的、先前未知的、对安全决策有潜在价值的知识和规则。数据挖掘主要有预测/验证功能和描述功能。预测/验证功能指用已知信息预测或验证其他未知信息。预测方法有统计分析方法、关联规则和决策树预测方法、回归树预测方法等。描述功能指找到描述数据的可理解模式。描述方法包括以下几种:数据分类、回归分析、簇聚、概括、构造依赖模式、变化和偏差分析、模式发现、路径发现等。通过这些数据挖掘方法能够从大量的日志信息中网络犯罪的蛛丝马迹,并且发现网络中的潜在漏洞及设备管理配置存在的问题。另外,通过数据挖掘方法还能够从不同来源的数据中分析得出数据之间的相关性;通过与标准安全策略的对比能够掌握整个网络的安全风险状况,这些分析最终将返回到安全防范策略的制定中,保证安全策略的一致性和标准化,这些安全策略最终将应用到具体的安全防范执行中,并且可以充实全网安全策略库。
本发明具有实质性特点和显著进步,本发明具有以下显著效果:
(1)高度的扩展性与兼容性:借助于标准的Syslog协议及正则表达式方法,可快速支持各种类型的日志。与当前主流网络安全应用无缝兼容,无需采用代理模式,在大减小了网络管理的复杂度及系统维护代价。
(2)向用户提供了多维的审计分析视图。从网络管理员的角度来看,整个网络的视图是多维的,因此审计分析的概念模型也应该是多维的,审计分析应该是从不同的角度进行的。
(3)高效的分析效率与性能。数据仓库中的数据是经过集成、综合及预处理的,它将操作处理环境和审计分析环境隔离开来,解决了不同环境中的冲突问题,大大提高了统计分析的效率与性能。
(4)通过以用户为中心关联信息安全的各个多维模型,使得对不同类型审计日志进行关联分析成为可能,挖掘了网络中审计日志之间的内在联系。
(5)由于数据仓库是只读的,不可更改的数据源,所以确保了审计日志的可信性,为调查取证提供了有效可信的追纠证据。
【具体实施方式】
采用本发明方法开发了基于数据仓库的易扩展型安全审计系统,该安全审计系统通过数据仓库服务器将信息安全审计中的操作处理环境与综合分析处理环境分离。在操作处理环境中,系统要求各类网络安全应用以Syslog方式向远端的日志服务器实时发送日志。日志服务器监听Syslog的UDP514端口接收日志。接收到日志后与管理员预先配置好的正则表达式进行模式匹配,将符合条件的日志信息集成、净化导入数据仓库。在数据仓库中,面对诸多繁杂,繁重的,离散的低层次原始信息,创建信息安全的多维模型,在此多维模型的基础之上进行OLAP、数据挖掘等更高层次的深入分析,从而从众多的信息中发现原始日志中隐藏的内在联系,并且发现网络中存在的问题以及安全隐患,辅助网络管理员进行决策,调整安全策略。在监控端,一方面通过标准的SOAP协议对日志服务器进行远程配置管理,从而大大方便了管理员的工作;另一方面监控端从数据仓库读取审计信息,进行集中管理及审计分析。
下面是一个基于数据仓库的易扩展型安全审计系统的应用实例描述,具体如下:
对于高科技企业,员工经常需要Internet查询资料,同时也增加了感染病毒的机会。企业一方面通过防病毒软件(诺顿防病毒)杀病毒,另一方面通过防火墙(东方龙马防火墙)管理员工对Internet的访问。通过基于数据仓库的易扩展型安全审计系统,管理员可以将员工访问Internet的记录与感染病毒的记录进行关联审计分析,发现网络中的潜在漏洞。
(1)创建信息安全的数据仓库,其中包括防火墙多维模型、防病毒多维模型。防火墙多维模型中的数据包括:持续访问时间、发送流量、接收流量。分析的维度包括:时间维、防火墙动作维(拒绝、通过等)、访问协议维(http、ftp、telnet、smtp、pop3等)、源地址维、目标地址维。防病毒多维模型包括病毒发作位置(路径)。审计分析的维度包括:病毒感染时间维、病毒感染机器维、系统用户维、病毒名称维、病毒类型维(文件病毒、邮件病毒、宏病毒等)、扫描类型维(自动扫描、手动扫描)、病毒操作结果维(清除、隔离、删除等)。
(2)启动审计系统的日志服务器,监听UDP514端口。
(3)配置东方龙马防火墙,将日志接收的地址配为日志服务器的地址。
(4)配置诺顿防火墙,将日志以Syslog方式发送给日志服务器。
(5)当用户访问Internet时或感染病毒时,产生相关应用日志并实时的发送给日志服务器。
(6)日志服务器从UDP514端口接收到日志后,与配置好的正则表达式进行模式匹配。东方龙马防火墙的日志模式如下所示:([0-9]{1,3}\.[O-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}).*?kernel:id=\″firewall\″[\s]+time=\″(.*?)\″[\s]+.*?proto=\″(.*?)\″[\s]+src=\″(.*?)\″[\s]+srcport=\″(.*?)\″[\s]+dst=\″(.*?)\″[\s]+dstport=\″(.*?)\″[\s]+action=\″(.*?)\″
括号中是审计所需要的信息,日志服务器根据正则表达式模式取出信息后进行集成并导入到数据仓库中。采取同样的方式,日志服务器取出防病毒日志中的信息,过滤“手动扫描”的病毒日志,将“实时扫描”的日志导入到数据仓库中。
(7)在防病毒日志中包含了感染病毒的机器名及用户名,而防火墙日志中包含了员式访问Internet时的源地址,即访问机器的地址。根据用户维中机器与IP地址一一对应的关系,我们可以运用OLAP技术查询在同一时间段内感染机器在曾经访问了哪些网站,从而从防火墙日志中的目的地址知道员工是访问什么网站感染的病毒。
(8)管理员根据此审计信息可以在防火墙中增加规则,阻断从上述查询所得到目的地址发出的数据包,保证其他机器不受该网站病毒的感染。
使用基于数据仓库的信息安全审计方法后,具有显著的效果:
(1)配置简单、维护代价小。管理员只需对东方龙马防火墙等设备配置日志接收端地址,不需要学习使用其他软件。
(2)高度的扩展性和兼容性。当管理员更换防火墙类型时或增加其他类型的防火墙时,不需要重新编码实现日志的解析,只需要修改相应的配置文件修改日志的模式字符串即可。
(3)高效的分析效率和性能。由于在数据仓库中的数据是已经综合、汇总的数据,所以分析时只需要读取相应的统计信息,而不需要进行大量复杂的统计计算。另外,由于使用数据仓库将操作型处理环境和操作型处理环境分离,数据提取的速度性能也大大提高。
(4)提供了多维视图,使得数据的关联分析成为可能。数据仓库中的多维模型为管理员提供了多维视图,并且通过用户维使管理员将各个独立的应用关联起来,从而可以发现不同应用信息之间的内在联系。
(5)确保了日志信息的可信度,提供了追纠证据。由于数据仓库中的数据是冗余且只读的,所以防止不法用户进行篡改、删除。