《一种开放式的多源数据采集系统及方法.pdf》由会员分享,可在线阅读,更多相关《一种开放式的多源数据采集系统及方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104111983A43申请公布日20141022CN104111983A21申请号201410306336022申请日20140630G06F17/30200601G06F9/445200601G06F3/0620060171申请人中国科学院信息工程研究所地址100093北京市海淀区闵庄路甲89号72发明人张浩亮柳厅文时金桥亚静郭莉胡兰兰季月英闫旸74专利代理机构北京轻创知识产权代理有限公司11212代理人杨立54发明名称一种开放式的多源数据采集系统及方法57摘要本发明涉及一种开放式的多源数据采集系统及方法,包括用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集。
2、接口规则的任务管理模块;用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,并发送给数据存储模块的任务执行模块;用于存储数据输出模块输出的数据的数据存储模块;本发明覆盖了比较全面的数据源采集类型,支持目前通用的数据采集方式,支持数据采集接口的动态扩展和多个数据源的并行采集,当有新的数据源接入时,只需要配置数据采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对新数据源的数据采集。51INTCL权利要求书2页说明书6页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书6页附图3页1。
3、0申请公布号CN104111983ACN104111983A1/2页21一种开放式的多源数据采集系统,其特征在于,包括任务管理模块、任务执行模块和数据存储模块;所述任务管理模块,其用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过配置采集任务信息,添加不同类型的数据采集接口信息;所述任务执行模块,其用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,并发送给数据存储模块;所述数据存储模块,其用于存储数据输出模块输出的数据。2根据权利要求1所述一种开。
4、放式的多源数据采集系统,其特征在于,所述任务管理模块还用于通过配置和修改数据采集接口规则实现对采集任务的添加、更改、激活、锁定和删除;当有新的数据源接入时,只需要添加采集任务并配置采集任务信息,生成相应的数据采集接口规则。3根据权利要求1所述一种开放式的多源数据采集系统,其特征在于,所述任务执行模块采用多线程对多个数据源进行并行采集,每个线程包括初始化单元、任务执行单元和数据输出单元;所述初始化单元,其用于加载数据采集接口规则,读取采集任务信息,实现对数据采集接口的初始化;所述任务执行单元,其用于获取当前的采集任务列表,对激活状态的采集任务进行监听,当有新数据产生时进行数据采集,并将采集的数据。
5、传送给数据输出单元;所述数据输出单元,其用于将采集的数据按照统一格式进行封装,并传输到数据存储模块进行存储。4根据权利要求1或3所述一种开放式的多源数据采集系统,其特征在于,所述数据存储模块采用分布式开源系统ELASTICSEARCH,且ELASTICSEARCH的服务器地址采用默认指定位置或用户通过数据存储规则自定义的存储位置。5根据权利要求1或3所述一种开放式的多源数据采集系统,其特征在于,所述采集任务信息包括数据采集接口信息和任务状态信息;所述数据采集接口信息包括数据源的名称、源数据存储方式和源数据存储格式;所述源数据存储方式指数据源的存储类型以及存储位置;所述源数据存储格式是指源数据本。
6、身的格式及采集内容;所述任务状态信息激活状态和锁定状态。6根据权利要求5所述一种开放式的多源数据采集系统,其特征在于,所述数据源的类型包括数据库类型、文本类型和SOCKET通信数据类型。7一种开放式的多源数据采集方法,其特征在于,包括如下步骤步骤1根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过配置采集任务信息,添加不同类型的数据采集接口信息;步骤2加载数据采集接口规则,检测采集任务的任务状态,找出处于激活状态的采集任务,处于激活状态的采集任务对数据源进行监听,当有新数据时进行数据采集;权利要求书CN104111983A2/2。
7、页3步骤3将采集到的数据按照统一格式进行封装,并传输到数据存储模块进行存储,实现对采集数据的统一分布式存储。8根据权利要求7所述一种开放式的多源数据采集方法,其特征在于,上述技术方案还包括根据需要添加、更改、激活、锁定和删除采集任务。9根据权利要求7所述一种开放式的多源数据采集方法,其特征在于,步骤2的具体实现为采用多线程实现对多个数据源的并行采集,每个线程的处理步骤如下步骤21加载数据采集接口规则,读取采集任务信息,实现对数据采集接口的初始化;步骤22获取当前的采集任务列表,对激活状态的采集任务进行监听,当有新数据产生时进行数据采集;步骤23将采集的数据按照统一格式进行封装,并传输到数据存储。
8、模块进行存储。10根据权利要求7或9所述一种开放式的多源数据采集方法,其特征在于,所述数据存储模块采用分布式开源系统ELASTICSEARCH,且ELASTICSEARCH的服务器地址采用默认指定位置或用户自定义的存储位置。11根据权利要求7或9所述一种开放式的多源数据采集方法,其特征在于,所述采集任务信息包括数据采集接口信息和任务状态信息;所述数据采集接口信息包括数据源的名称、源数据存储方式和源数据存储格式;所述源数据存储方式指数据源的存储类型以及存储位置,所述源数据存储格式是指数据本身的格式,以及采集内容;所述信息任务状态包括激活状态和锁定状态。12根据权利要求11所述一种开放式的多源数据。
9、采集方法,其特征在于,所述数据源的类型包括数据库类型、文本类型和SOCKET通信数据类型。权利要求书CN104111983A1/6页4一种开放式的多源数据采集系统及方法技术领域0001本发明涉及网络安全领域,尤其涉及一种开放式的多源数据采集系统及方法。背景技术0002随着计算机技术的飞速发展和信息化的推进,网络安全问题日趋突出,为了应对网络安全威胁,往往需要部署各种各样的安全产品,包括漏洞扫描系统、病毒防护系统、木马监测系统、入侵检测系统等。网络管理员对不同安全产品产生的日志报警进行数据采集和关联分析,可以得到网络中潜在的安全威胁。0003不同的安全产品产生的日志报警在输出类型和数据格式上各不。
10、相同,网络安全管理系统需要从多分布、异构和自治的数据源中采集数据,还要保持数据的完整性和一致性。ETL技术是目前企业数据采集的主要解决方案,实现把不同来源、格式和特点的数据在逻辑上或物理上有机地集中。目前常用的ETL工具有OWBORACLEWAREHOUSEBUILDER、ODIORACLEDATAINTEGRATOR、TRINITY、DATASTAGE、REPOSITORYEXPLORER、BEELOAD、KETTLE、DATASPIDER等,这些工具通常针对一种或多种数据采集类型,实现对多源数据的采集。其中KETTLE作为一种开源工具,应用很广,支持的数据源采集类型包括数据库、文本等,用户。
11、可以自定义采集数据的输出格式和输出位置。但是,它并不能覆盖目前所有的通用数据采集类型,如SOCKET通信数据接收的方式;并且,采集数据的存储只能用户自己定义,当采集的数据量很大而且需要快速检索时,并不能提供一种利于海量数据检索的存储接口。0004综上,已有的多源数据采集工具存在以下不足1涵盖的数据采集方式不全面,只关注数据库和文本数据的主动采集,忽略了通信数据如SOCKET数据的被动接收;2数据接口扩展维护不方便,当接入新数据接口时,需要部署采集代理或使用数据模式转换工具;3存储方式不能实现海量数据的高效存储及检索等操作。发明内容0005本发明所要解决的技术问题是针对现有技术的不足,提供一种开。
12、放式的多源数据采集系统及方法,涵盖比较全面的数据采集类型,基于规则实现数据采集接口的扩展和维护,并支持对海量数据的统一存储。0006本发明解决上述技术问题的技术方案如下一种开放式的多源数据采集系统,包括任务管理模块、任务执行模块和数据存储模块;0007所述任务管理模块,其用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过配置采集任务信息,添加不同类型的数据采集接口信息;0008所述任务执行模块,其用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,。
13、并发送给数据存储模块;说明书CN104111983A2/6页50009所述数据存储模块,其用于存储数据输出模块输出的数据。0010本发明的有益效果是本发明覆盖了比较全面的数据源采集类型,支持目前通用的数据采集方式,支持数据采集接口的动态扩展和多个数据源的并行采集,当有新的数据源接入时,只需要配置数据采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对先数据源的数据采集。0011在上述技术方案的基础上,本发明还可以做如下改进。0012进一步,所述任务管理模块还用于通过配置和修改数据采集接口规则实现对采集任务的添加、更改、激活、锁定和删除;当有新的数据源接入时,只需要添加采集任务并配置。
14、采集任务信息,生成相应的数据采集接口规则。0013采用上述进一步方案的有益效果支持数据采集接口的动态扩展,当有新的数据源接入时,只需要添加采集任务并配置采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对于新数据源的数据采集。0014进一步,所述任务执行模块采用多线程对多个数据源进行并行采集,每个线程包括初始化单元、任务执行单元和数据输出单元;0015所述初始化单元,其用于加载数据采集接口规则,读取采集任务信息,实现对数据采集接口的初始化;0016所述任务执行单元,其用于获取当前的采集任务列表,对激活状态的采集任务进行监听,当有新数据产生时进行数据采集,并将采集的数据传送给数据输出。
15、单元;0017所述数据输出单元,其用于将采集的数据按照统一格式进行封装,并传输到数据存储模块进行存储。0018采用上述进一步方案的有益效果支持多个数据源的并行采集,大大提高数据采集效率,便于实现数据采集接口的动态扩展;对采集数据的采用统一格式进行封装,并在分布式系统中统一存储,利于数据的高效存储和检索。0019进一步,所述数据存储模块采用分布式开源系统ELASTICSEARCH,且ELASTICSEARCH的服务器地址采用默认指定位置或用户自定义的存储位置。0020采用上述进一步方案的有益效果将数据存储到分布式开源系统ELASTICSEARCH中,ES是一个分布式的检索系统,用来存储数据,利于。
16、实现数据的高效检索和分析处理。0021进一步,所述采集任务信息包括数据采集接口信息和任务状态信息;0022所述数据采集接口信息包括数据源的名称、源数据存储方式和源数据存储格式;所述源数据存储方式指数据源的存储类型以及存储位置;所述源数据存储格式是指源数据本身的格式及采集内容;0023所述任务状态信息激活状态和锁定状态。0024采用上述进一步方案的有益效果对采集任务信息进行配置,指定源数据的存储类型及存储位置以及源数据本身的格式及采集内容,创建相应的数据采集任务,实现快速高效数据采集。0025进一步,所述数据源的类型包括数据库类型、文本类型和SOCKET通信数据类型。0026采用上述进一步方案的。
17、有益效果支持三大类型的数据采集方式,数据库类型、文本类型和SOCKET通信数据类型,比较全面地覆盖了当前通用数据源类型。0027本发明解决上述技术问题的另一技术方案如下一种开放式的多源数据采集方说明书CN104111983A3/6页6法,包括如下步骤0028步骤1根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过配置采集任务信息,添加不同类型的数据采集接口信息;0029步骤2加载数据采集接口规则,检测采集任务的任务状态,找出处于激活状态的采集任务,处于激活状态的采集任务对数据源进行监听,当有新数据时进行数据采集;0030步骤3将。
18、采集到的数据按照统一格式进行封装,并传输到数据存储模块进行存储,实现对采集数据的统一分布式存储。0031在上述技术方案的基础上,本发明还可以做如下改进。0032进一步,上述技术方案还包括根据需要添加、更改、激活、锁定和删除采集任务。0033进一步,步骤2的具体实现为采用多线程实现对多个数据源的并行采集,每个线程的处理步骤如下0034步骤21加载数据采集接口规则,读取采集任务信息,实现对数据采集接口的初始化;0035步骤22获取当前的采集任务列表,对激活状态的采集任务进行监听,当有新数据产生时进行数据采集;0036步骤23将采集的数据按照统一格式进行封装,并传输到数据存储模块进行存储。0037进。
19、一步,所述数据存储模块采用分布式开源系统ELASTICSEARCH,且ELASTICSEARCH的服务器地址采用默认指定位置或用户通过数据存储规则自定义的存储位置。0038采用上述进一步方案的有益效果本系统提供一种利于海量数据检索的存储方式,与ELASTICSEARCH结合,实现对采集数据的分布式统一存储,利于数据的高效存储和检索。0039进一步,所述采集任务信息包括数据采集接口信息和任务状态信息;0040所述数据采集接口信息包括数据源的名称、源数据存储方式和源数据存储格式;所述源数据存储方式指数据源的存储类型以及存储位置,所述源数据存储格式是指数据本身的格式,以及采集内容;0041所述信息任。
20、务状态包括激活状态和锁定状态。0042进一步,所述数据源的类型包括数据库类型、文本类型和SOCKET通信数据类型。附图说明0043图1为本发明一种开放式的多源数据采集系统框图;0044图2为本发明所述任务执行模块执行任务流程示意图;0045图3为本发明一种开放式的多源数据采集方法流程图;0046图4为本发明步骤2的具体实现流程图。0047附图中,各标号所代表的部件列表如下00481、任务管理模块,2、任务执行模块,3、数据存储模块,21、初始化单元,22、任务执行单元,23、数据输出单元。说明书CN104111983A4/6页7具体实施方式0049以下结合附图对本发明的原理和特征进行描述,所举。
21、实例只用于解释本发明,并非用于限定本发明的范围。0050如图1所示,一种开放式的多源数据采集系统,包括任务管理模块1、任务执行模块2和数据存储模块3;0051所述任务管理模块1,其用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过配置采集任务信息,添加不同类型的数据采集接口信息;0052所述任务执行模块2,其用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,并发送给数据存储模块;0053所述数据存储模块3,其用于存储数据输出模块输出的数据。005。
22、4任务管理模块1主要是对采集任务信息的一系列操作。用户在交互界面中配置采集任务信息,后台生成数据采集接口规则配置文件。菜单选项包括任务添加、任务修改、任务删除、任务查询等。任务添加菜单,实现对新的采集任务的配置;任务修改菜单,实现对采集任务信息的修改,包括修改数据接口信息和任务状态;任务删除菜单,实现对已有采集任务的删除;任务查询菜单,显示当前已配置的所有采集任务或指定条件的采集任务。尤其当需要接入新的数据源时,通过修改数据采集接口配置规则来增加新的采集任务。用户还可以设置数据存储规则,如果用户设置了数据存储规则,采集的数据按照设置的存储规则进行存储;如果没有设置数据存储规则,则按照默认的存储。
23、位置存储。0055所述任务执行模块2通过加载数据采集接口规则信息,监听激活状态的数据源采集任务,当发现有新数据产生时,获取新数据,实现对数据源的实时采集。对于不同类型的数据源,采集方式各不相同,该工具支持三大类型的数据采集方式数据库类型、文本类型、SOCKET通信数据,比较全面地覆盖了当前通用数据源类型。0056其中,所述数据存储模块3采用分布式开源系统ES,且ES的服务器地址采用默认指定位置或用户自定义的存储位置。0057所述采集任务信息包含两部分内容任务状态信息和数据采集接口信息。0058任务状态信息包括激活状态和锁定状态,启动时,执行激活状态的采集任务。0059数据采集接口信息又包括数据。
24、源的名称、源数据存储方式和源数据存储格式。源数据存储方式是指数据源的存储类型以及存储位置,源数据存储格式是指数据本身的格式,以及采集内容。数据源的存储类型包括数据库类型,如MYSQL、ORACLE等;文本类型,如TXT、SYSLOG等;SOCKET通信数据。基本涵盖了目前通用的数据源采集类型。对于数据库类型的数据,需要指明数据库所在的主机IP地址、数据库名称、用户名、密码;对于文本类型,需要指明文件的存储路径;SOCKET通信,需要指明协议域、SOCKET类型、端口号、协议类型以及通信密钥等。数据存储格式信息,包含采集数据内容的存储格式对于数据库数据,包括要读取的数据表名,字段名,主键信息;对。
25、于文本数据,则包括文件的名称,以及关键字信息。0060如图2所示,所述任务执行模块2采用多线程对多个数据源进行并行采集,每个线程包括初始化单元21、任务执行单元22和数据输出单元23;说明书CN104111983A5/6页80061所述初始化单元21,其用于加载数据采集接口规则,读取采集任务信息,实现对数据采集接口的初始化,所述任务执行单元22,其用于获取当前的采集任务列表,对激活状态的采集任务进行监听,当有新数据产生时进行数据采集,并将采集的数据传送给数据输出单元23;所述数据输出单元23,其用于将采集的数据按照统一格式默认状态下,采集到的数据按照用户定义字段和内容的格式转换为JSON格式,。
26、用户也可以指定其他数据格式进行封装,并传输到数据存储模块进行存储。在默认的情况下,把采集数据存储到分布式系统ELASTICSEARCH简称ES中,ES是一个分布式的检索系统,用来存储数据,实现高效检索和分析处理。用户可以指定数据存储的服务器地址,也可以指定其他的存储方式。另外,如果用户配置了其他数据存储规则,则在初始化的时候需要加载数据存储规则,在输出数据时,按照数据存储规则进行存储。0062如图3所示,一种开放式的多源数据采集方法,包括如下步骤0063步骤1根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过配置采集任务信息,添。
27、加不同类型的数据采集接口信息;0064步骤2加载数据采集接口规则,检测采集任务的任务状态,找出处于激活状态的采集任务,处于激活状态的采集任务对数据源进行监听,当有新数据时进行数据采集;0065步骤3将采集到的数据按照统一格式进行封装,并传输到数据存储模块进行存储,实现对采集数据的统一分布式存储。0066步骤1的具体实现为用户在交互界面配置采集任务信息,并将配置完成的采集任务信息传递给服务器;服务器根据接收的采集任务信息生成数据采集接口规则。上述技术方案还包括根据需要添加、更改、激活、锁定和删除采集任务。0067首先,添加采集任务,配置采集任务信息。配置信息包括数据采集接口信息和采集任务状态信息。
28、。该工具比较全面的覆盖了目前通用的数据采集类型数据库类型、文本类型和SOCKET通信数据。对于数据库类型的数据源,需要配置的数据采集接口信息包括数据源的名称、数据库连接方式和需要采集的数据表及字段。具体信息包括数据库所在服务器IP地址、数据库名称、用户名、密码、数据表和采集字段。对于文本类型的数据源,需要配置的数据采集接口信息包括数据源的名称、文本文件的访问路径和文件名称。对于SOCKET传输数据,需要配置数据采集接口信息包括协议域、SOCKET类型、端口号、协议类型。对于以上三类数据还需要配置采集任务的状态信息,为激活状态或锁定状态。用户在交互界面配置好采集任务信息后,点击保存,在后台生成数。
29、据采集接口规则文件,以XML的格式存在。用户也可以直接编写配置文件,实现采集任务的添加。0068采集任务信息保存之后,加载数据采集接口规则文件,这时,就可以通过工具对已配置的采集任务进行各种操作,包括添加、修改、删除;以及状态的控制。任务状态如果是激活,则表示启动后要执行此任务;任务状态如果是锁定,表示启动后不执行此任务。用户可以通过交互界面控制采集任务状态的更改。0069启动之后,获取到了当前的采集任务列表。用户可以执行采集任务,工具获取激活状态的采集任务列表,对激活状态的数据源进行监听和数据获取。默认情况下,把采集到的数据封装为字段和内容格式的JSON格式。用户也可以自定义数据封装格式。0。
30、070当需要接入新的数据源时,只需要在任务管理模块添加采集任务即可,该系统支说明书CN104111983A6/6页9持数据库类型、文本类型和SOCKET通信类型的数据源,并且有自动加载功能,不需重启即可加载新接入的数据采集接口信息。0071如图4所示,步骤2的具体实现为采用多线程实现对多个数据源的并行采集,每个线程的处理步骤如下0072步骤21加载数据采集接口规则,读取采集任务信息,实现对数据采集接口的初始化;0073步骤22获取当前的采集任务列表,对激活状态的采集任务进行监听,当有新数据产生时进行数据采集;0074步骤23将采集的数据按照统一格式进行封装,并传输到数据存储模块进行存储。0075以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。说明书CN104111983A1/3页10图1说明书附图CN104111983A102/3页11图2说明书附图CN104111983A113/3页12图3图4说明书附图CN104111983A12。