一种并行搜索IT日志的检索方法、装置及系统技术领域
本发明涉及一种计算机领域,特别是涉及一种搜索海量IT日志的快速
检索方法、装置及系统。
背景技术
随着行业用户的网络结构日趋复杂,业务的集中带动数据和应用的集
中,各级数据中心应用系统越来越庞大,管理复杂度越来越高。对于安全管
理人员来说,需要定期分析大量网络设备、安全设备、应用系统、数据库、
主机等产生的海量日志,这样不可避免地需要检索这些海量的IT日志。
目前,一般采用两种方式进行IT日志检索:一种是将IT日志存储在关
系型数据库,从而进行检索,但在海量IT日志情况下,关系型数据库的结
构化存储无法满足用户要求的检索性能;另一种是使用分布式并行全文检
索,此种方式在对IT日志完成索引之后,有较好的查询性能,但无法满足
用户对于IT日志的精确检索,从而降低安全管理人员及运维人员工作效率。
所以,有必要提供一种新的检索技术,以确保在海量IT日志环境中,
在保证检索性能的同时,可以实现日志的全文检索与精确检索,提高日志信
息查询的性能与高效性,保证安全管理人员及运维人员能够对IT日志精确
检索,提高安全管理人员及运维人员的工作效率。
发明内容
本发明的目的在于提供一种并行搜索IT日志的检索方法、装置及系统,
可以确保用户在海量IT日志环境中,实现IT日志的全文检索与精确检索,
提高日志信息查询的性能与高效性,以及用户的工作效率。
为解决以上技术问题,本发明提供一种并行搜索IT日志的检索方法,
包括,
管理员登录管理平台模块,设置预处理规则和日志检索域;
管理平台根据预处理规则自动生成IT日志检索条件池;
用户从检索条件池选取检索条件并建立条件组合关系,并根据检索条件
检索IT日志。
进一步地,所述方法进一步包括:日志预处理模块根据管理平台下发的
预处理规则对采集到的IT日志进行预处理后存储。
进一步地,所述方法进一步包括:日志索引模块定期对预处理后的IT
日志文件进行索引。
进一步地,所述用户从检索条件池选取检索条件并建立条件组合关系,
并根据检索条件检索IT日志,具体包括:用户根据检索条件输入检索值,
系统根据建立的索引及用户IT日志检索域进行检索操作,将检索结果返回。
为解决以上技术问题,本发明还提供一种并行搜索IT日志的检索装置,
包括:管理平台模块、日志预处理模块、日志检索模块,
所述管理平台模块,用于设置并管理预处理规则,并将预处理规则下发
至日志预处理模块,以及,将预处理规则转换为IT日志检索条件,形成检
索条件池;
所述日志预处理模块,用于根据管理平台模块下发的预处理规则对采集
的原始IT日志进行预处理,形成预处理后的IT日志;
所述日志检索模块,用于用户从检索条件池选取检索条件并建立条件组
合关系,根据检索条件检索IT日志。
进一步地,所述装置进一步包括:日志存储模块,用于存储采集到的原
始IT日志,以及日志预处理模块20预处理后的IT日志。
进一步地,所述装置进一步包括:日志检索域控制模块,用于结合用户、
用户组、组织结构、权限信息,实现用户检索IT日志的分权分域。
进一步地,所述装置进一步包括:日志索引模块,对原始的IT日志及
预处理后的IT日志建立索引,再将索引分发到日志存储模块。
为解决以上技术问题,本发明还提供一种并行搜索IT日志的检索系统,
包括日志检索装置、日志采集器,
所述日志采集器,用于采集IT日志,形成原始IT日志;
所述日志检索装置,用于根据预处理规则对日志采集器采集的原始IT
日志进行预处理,以及,根据预处理规则自动生成IT日志检索条件池,供
用户从检索条件池选取检索条件并建立组合关系,进行检索。
与现有技术相比,本发明提供的一种并行搜索IT日志的检索方法、装
置及系统,使用户在海量IT日志情况下,根据预处理规则自动生成IT日志
检索条件池,从检索条件池选取检索条件并建立组合关系,实现IT日志的
全文检索与精确检索,提高日志信息查询的性能与高效性,以及为安全管理
人员与运维人员的日常管理、问题分析、故障排查提供准确有效的方法与途
径,提高工作效率;通过日志检索域设置,实现日志检索的分权分域,确保
IT日志的数据安全性;此外,还为外部各类安全管理平台提供通用的IT日
志查询接口,提升各平台构建速度,降低开发成本。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部
分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的
不当限定。在附图中:
图1是本发明提供的一种基于分布式并行搜索的海量IT日志检索系统
的结构示意图;
图2是本发明提供的一种基于分布式并行搜索的海量IT日志检索装置
的结构示意图;
图3是本发明提供的一种基于分布式并行搜索的海量IT日志检索方法
的流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明
白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此
处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供一种基于分布式并行搜索的海量IT日志检索
系统,该系统包括:日志采集器10、日志检索装置20,其中,
日志采集器10,用于采集IT日志,形成原始IT日志;
日志检索装置20,用于根据预处理规则对日志采集器10采集的原始IT
日志进行预处理,形成预处理后的IT日志,以及,根据预处理规则自动生
成IT日志检索条件池,供用户从检索条件池选取检索条件并建立组合关系,
实现精确检索。
如图2所示,本发明提供一种基于分布式并行搜索的海量IT日志检索
装置,该装置20包括:日志预处理模块21、日志存储模块22、日志索引模
块23、管理平台模块24、日志检索域控制模块25、日志检索模块26。其中,
日志预处理模块21,根据管理平台模块24下发的预处理规则对日志采
集器10采集的原始IT日志进行预处理,抽取用户关心的日志属性,并按照
规则重新将抽取的日志属性归档,形成预处理后的IT日志,如:
sip=10.16.107.10,sport=80,dip=222.10.20.30,dport=8080,logdetail=x
xxxxxxxx
sip=10.16.107.11,sport=80,dip=222.10.20.31,dport=8080,logdetail=x
xxxxxxxx
sip=10.16.107.11,sport=80,dip=222.10.20.32,dport=8080,logdetail=x
xxxxxxxx
日志存储模块22,用于存储采集到的原始IT日志,以及日志预处理模
块21预处理后的IT日志;
日志检索域控制模块25,用于结合用户、用户组、组织结构、权限信
息,实现用户检索日志存储模块22存储的IT日志的分权分域,只有具有相
关权限的用户才能查到与其相对应的IT日志,确保数据安全性。
日志索引模块23,使用Mapper/Reducer(映射器/缩减器)对原始的IT
日志及预处理后的IT日志建立索引,再将索引从HDFS(Hadoop Distributed
File System,分布式文件系统)分发到日志存储模块22的各存储单元LS1、
LS2、...LSn。
其中,对索引的更新分为两种:删除和添加。删除和添加步骤可按不同
定时策略来实现。
a)删除
在HDFS上删除索引,将生成的*.del文件分发到所有的日志索引模块
或者对HDFS索引目录删除索引再分发到对应的日志索引模块。
b)添加
新添加的数据用另一台服务器来生成。
日志检索模块26,用户可以使用管理平台模块24中的自定义日志检索
条件检索日志存储模块22中的IT日志。客户端随机选择一组日志检索模块
组,将检索条件同时发给该组日志检索模块组里的N台检索器LQ,日志检
索模块将检索结果返回。
管理平台模块24,用于设置并管理预处理规则,并将预处理规则下发
至日志预处理模块,以及,将预处理规则转换为IT日志检索条件,形成检
索条件池,从而实现用户管理、用户分组管理、组织机构管理、权限管理、
日志预处理规则管理、检索条件池管理、检索条件管理、检索界面功能。暗
送秋波包括:
用户管理:对管理平台用户进行增删改查,当与安全管理平台集成时,
可以通过接口将用户双向或单向同步。
用户分组管理:对管理平台用户进行分组管理,当与安全管理平台集成
时,可以通过接口将用户分组双向或单向同步。
组织机构管理:对管理平台组织机构进行管理,当与安全管理平台集成
时,可以通过接口将组织机构双向或单向同步。
权限管理:对管理平台使用权限及日志检索域进行管理,当与安全管理
平台集成时,可以通过接口将权限双向或单向同步。
日志预处理规则管理:对日志预处理模块使用到的日志预处理规则进行
设置和管理,并将预处理规则下发至日志预处理模块,在下发预处理规则的
同时,将预处理规则转换为IT日志检索条件,形成检索条件池。
检索条件池管理:对检索条件池中的检索条件进行管理。
检索条件管理:用户可以对自己的检索条件进行管理。管理平台用户根
据自身需求从检索条件池中选取IT日志检索条件。
检索界面:根据用户自定义检索条件,生成IT日志检索界面。
上述安全管理平台是指的是SOC(安全总控中心)、SAAS(安全审计
分析系统)之类的安全管理软件。本发明的日志检索系统为安全管理平台提
供标准的SQL查询接口,从而快速实现各安全管理平台的海量IT日志检索
功能,可以使得新建平台快速接入,降低已有平台改造工作量、改造风险,
节省改造成本。
如图3所示,本发明提供一种基于分布式并行搜索的海量IT日志检索
方法,包括:
步骤1:通过日志采集器对IT日志进行采集;
步骤2:管理员登录管理平台模块,设置预处理规则并下发,下发同时,
管理平台自动生成检索条件池;以及,设置平台用户使用权限及日志检索域;
步骤3:日志预处理模块根据管理平台下发的预处理规则对采集的IT
日志进行预处理后存储在日志存储模块中,同时,日志存储模块还存储原始
日志文件;
步骤4:日志索引模块定期对原始日志文件与预处理后的日志文件进行
索引;
步骤5:用户登录管理平台模块,从检索条件池选取检索条件,建立条
件组合关系;
步骤6:用户进入管理平台模块的检索界面,选择全文检索或精确检索,
当选择精确检索时,界面显示用户自定义检索条件,用户输入检索值,系统
根据建立的索引及用户IT日志检索域模块进行检索操作,将检索结果返回
到检索界面。
本发明提供的一种分布式并行搜索的海量IT日志的快速检索方法、装
置及系统,其特点是:在海量日志环境中,用户根据预处理规则自动生成IT
日志检索条件池,从检索条件池选取检索条件并建立组合关系,实现IT日
志的全文检索与精确检索,提高日志信息查询的性能与高效性,以及为安全
管理人员与运维人员的日常管理、问题分析、故障排查提供准确有效的方法
与途径,提高工作效率;通过日志检索域设置,实现日志检索的分权分域,
确保IT日志的数据安全性;此外,还为外部各类安全管理平台提供通用的
IT日志查询接口,提升各平台构建速度,降低开发成本。
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理
解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,
而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,
通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改
动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护
范围内。