《一种数据抽取和数据集成方法及其系统.pdf》由会员分享,可在线阅读,更多相关《一种数据抽取和数据集成方法及其系统.pdf(12页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN102325170A43申请公布日20120118CN102325170ACN102325170A21申请号201110243884X22申请日20110824H04L29/08200601G06F17/3020060171申请人无锡中科方德软件有限公司地址214121江苏省无锡市蠡园开发区滴翠路100号2号楼4楼西侧72发明人杜栓柱戴健孙薇刘利于建波周义汪美玲王磊74专利代理机构北京君尚知识产权代理事务所普通合伙11200代理人余长江54发明名称一种数据抽取和数据集成方法及其系统57摘要本发明公开了一种数据抽取和数据集成方法及其系统,属于网络通信领域。本方法为1命名服务器为。
2、抽取节点和集成节点分配ID,并将节点信息、ID分配信息发送给数据库服务器;2命名服务器将当前可用抽取节点返回给集成节点;3抽取节点根据集成节点的查询请求将本地用户表的基本信息发送给集成节点;4集成节点根据用户表信息在本地数据库为相应的数据抽取节点建立临时数据库、数据库表;5抽取节点根据集成节点的所需内容,查询本地数据库表,并返回相应的内容;6集成节点将返回的数据库表内容存储到集成节点相应的临时数据库中并更新相应数据库表。本发明具有高安全性、高传输率、高可靠性等优点,为企业提供决策上的精确数据。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书5页附图4页CN10。
3、2325183A1/2页21一种数据抽取和数据集成方法,其步骤为1设置一命名服务器、一数据库服务器、一数据集成节点、和若干个数据抽取节点;2所述数据抽取节点和数据集成节点向所述命名服务器发送本节点信息,所述命名服务器将接收的节点信息发送给所述数据库服务器;3所述命名服务器根据收到的节点信息为所述数据抽取节点和数据集成节点分配ID,并将ID分配信息发送给所述数据库服务器;4所述命名服务器根据所述数据集成节点发送的查询抽取节点列表请求消息,查询所述数据库服务器,将当前可用数据抽取节点返回给所述数据集成节点;5所述数据集成节点向当前可用的每个数据抽取节点发送查询请求,数据抽取节点根据所述查询请求将本。
4、地数据库中用户表的基本信息发送给所述数据集成节点;6所述数据集成节点根据数据抽取节点的用户表信息在本地数据库系统中为相应的数据抽取节点建立临时数据库、数据库表;其中所述临时数据库、数据库表与对应数据抽取节点的数据库、数据库表对应一致;7所述数据抽取节点根据所述数据集成节点的所需内容,查询本地数据库表,并返回相应的内容;8所述数据集成节点将返回的数据库表内容存储到所述数据集成节点相应的临时数据库中并更新相应数据库表。2如权利要求1所述的方法,其特征在于所述数据抽取节点的节点信息包括IP地址、端口号、MAC地址、节点类型;所述数据集成节点的节点信息包括IP地址、端口号、MAC地址、节点类型、当前登。
5、录的角色。3如权利要求2所述的方法,其特征在于所述命名服务器根据抽取节点的MAC地址、数据集成节点的MAC地址,使用哈希算法计算出哈希值作为ID分配给相应的所述数据抽取节点和数据集成节点。4如权利要求1或2或3所述的方法,其特征在于所述命名服务器为每一注册用户分配一角色,并设置每一角色的权限。5如权利要求4所述的方法,其特征在于步骤4中,所述命名服务器根据所述数据集成节点当前登录角色的权限,确定是否发送的查询抽取节点列表请求消息;如果所述数据集成节点当前登录的角色具有只读权限,则不发送所述请求消息;如果所述数据集成节点当前登录的角色具有可写权限,则发送所述请求消息;收到请求的所述数据抽取节点。。
6、6如权利要求5所述的方法,其特征在于步骤5中,所述数据集成节点首先判断所述数据集成节点当前登录角色的权限;如果为只读权限,则不能发送所述查询请求;如果为可写权限,则发送所述查询请求;收到请求的所述数据抽取节点提供当前角色对应权限范围内的数据库中表的值。7如权利要求6所述的方法,其特征在于步骤8中,所述数据集成节点根据当前登录角色的权限对数据做相应的操作如果为只读权限,则只能读取数据库中的数据;如果为可写权限,则根据权限要求做当前角色对应权限相应的数据集成操作。8如权利要求1所述的方法,其特征在于所述数据集成节点根据所述用户表信息中的数据抽取节点名称和数据源名称在本地数据库系统中为相应数据抽取节。
7、点建立所述临时数据库、数据库表。权利要求书CN102325170ACN102325183A2/2页39一种数据抽取和数据集成系统,其特征在于包括数据库服务器、命名服务器、数据集成节点以及多个数据抽取节点;其中每一所述数据抽取节点分别通过网络与所述数据集成节点、所述命名服务器连接,所述数据集成节点与所述命名服务器通过网络连接,所述命名服务器通过网络与所述数据库服务器连接;其中所述命名服务器用于控制所有数据抽取节点和数据集成节点的ID分配,并将ID分配信息发送给所述数据库服务器;所述数据库服务器用于存储命名服务器发送的普通节点ID分配信息;所述数据抽取节点用于对数据的接收以及对本地数据库的数据进行。
8、抽取操作,并将抽取来的数据发送给所述数据集成节点;所述数据抽取节点还向所述命名服务器发送节点信息,所述命名服务器将接收的节点信息发送给所述数据库服务器;所述数据集成节点用于对数据的发送以及对接收的数据进行处理;所述数据集成节点还向所述命名服务器发送节点信息,所述命名服务器将接收的节点信息发送给所述数据库服务器。权利要求书CN102325170ACN102325183A1/5页4一种数据抽取和数据集成方法及其系统技术领域0001本发明涉及一种基于安全数据传输中间件技术的数据抽取和数据集成方法及其系统,属于网络通信领域;本发明具有高安全性、高传输率、高可靠性等优点,为企业提供决策上的精确数据。背景。
9、技术0002随着企业信息化的不断提高,企业内部积累了大量的业务数据。这些业务数据具有相互独立、分散性,不同的业务系统之间的数据也不能很好的共享,因此,对这些相互独立、分散的数据进行统一处理以满足企业高层决策与分析需要,成为企业信息化建设面临的重大挑战。基于安全数据传输中间件技术的数据抽取和数据集成系统,其主要作用在于对各类不同的业务数据进行清理、标准化和汇总,为基于数据仓库的决策分析应用提供高质量的数据。目前,越来越多的企业正在构建数据仓库来满足其战略决策需要,而采用数据抽取和数据集成系统进行数据集成,也已成为企业实施数据仓库项目的首选方案。数据仓库是决策支持系统和联机分析应用数据源的结构化数。
10、据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库中的数据是对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。因此,在数据仓库的构建中,数据抽取和数据集成贯穿于项目始终,在整个数据仓库项目中起着十分关键的作用。0003目前典型的数据仓库解决方案中大多数具有数据抽取、清洗、转换、装载的过程。但是,在这四个过程中,当前的数据仓库解决方案没有考虑到其安全性。发明内容0004针对现有技术中存在的技术问题,本发明的目的在于提供一种基于安全数据传输中间件技术的数据抽取和数据集成方法及其系统,可。
11、以实现大量数据的抽取和集成,同时可以整合不同系统之间的数据,使得抽取到的数据可以安全、可靠、高效的传输到集成系统,各集成系统共享抽取数据,并可以根据需要提供相应的决策信息。0005本发明采用如下方案0006一种基于安全数据传输中间件技术的数据抽取和数据集成方法,其步骤为00071设置一命名服务器和一数据库服务器。同时设置若干个数据抽取节点和一个数据集成节点;对于命名服务器,数据库服务器以及抽取节点和集成节点分别安装和部署在不同的主机上,采用分布式结构,降低系统瓶颈,提高系统性能。00082所述数据抽取节点和数据集成节点向所述命名服务器发送本节点信息,所述命名服务器将接收的节点信息发送给所述数据。
12、库服务器;00093所述命名服务器根据抽取节点的MAC地址、数据集成节点的MAC地址,使用哈希算法计算出哈希值分配给所述数据抽取节点和数据集成节点的ID,并将ID分配信息发送给数据库服务器;说明书CN102325170ACN102325183A2/5页500104所述数据集成节点向所述命名服务器发送查询数据抽取节点列表信息,用于将抽取节点列表返回给集成节点。命名服务器接收到所述数据集成节点的查询抽取节点列表请求消息后,通过查询数据库服务器中的抽取节点,将可用于抽取的节点作为结果返回给数据集成端。00115所述数据集成节点向所述返回结果中的数据抽取节点发查询各个所述数据抽取节点的所有数据库中表的。
13、请求消息。00126所述数据抽取节点接收到所述数据集成节点的查询消息,连接本地数据库,将本地数据库中所有用户表的基本信息包括数据库类型,待发送的数据库名称,数据库表名称,表字段信息等内容发送给所述数据集成节点;00137所述数据集成节点收到抽取端的数据源信息后,根据抽取端的名称和数据源的名称在本地数据库系统中为所述抽取端节点建立临时数据库,数据库表。在这一过程中,数据集成节点将与所述数据集成端的数据库类型不同的所述抽取端的数据库转换成所述数据集成端的数据库类型。此时数据集成端的表结构同抽取端的数据库表结构一致,因此在以后的抽取表内容时不必进行格式转换等工作。以此类推,这样可以将分布在不同地点的。
14、数据抽取端的信息复制到集成端,这样集成端在以后的操作中实质上是对本地数据进行操作,又因为集成端使用的是统一的一个数据库,所以不必进行相应的数据转换,直接操作即可。所述数据集成节点根据接收到的所述数据抽取节点发送来的数据库中用户表的基本信息,按照所述数据集成节点用户需求,发送获取数据库中表的值消息,抽取相应的数据库表中部分数据或全部数据内容。00148所述数据抽取节点根据所述数据集成节点的所需内容,查询本地数据库表,并返回相应的内容,并将其存储到相应的临时数据库中,同时更新数据库表;00159所述数据集成节点根据抽取来的数据库表内容,按不同的需求做相应的操作,数据集成节点登录的角色不同,所做的相。
15、应操作不同,来确保数据抽取和数据集成的安全性。0016进一步的,所述数据抽取节点信息包括IP地址、端口号、MAC地址、节点类型。0017进一步的,所述数据集成节点信息包括IP地址、端口号、MAC地址、节点类型、当前登录的角色。0018进一步的,所述命名服务器根据数据抽取节点和数据集成节点的MAC地址,使用哈希算法得出其哈希值,作为该抽取节点和集成节点的ID。0019进一步的,所述数据库服务器上存储所述数据抽取节点和所述数据集成节点的节点列表,所述数据库服务器根据搜索条件和数据集成节点登录用户的权限对所述节点列表进行检索,得到所述数据抽取节点的节点信息。用户权限是用户在命名服务器上注册时设定的;。
16、命名服务器上存在一权限表,记录每一用户角色的权限。0020进一步的,所述数据集成节点向所述数据抽取节点发送获取数据库中表的基本结构信息即表的请求消息。如果所述数据集成节点当前登录的角色具有只读权限,则不能发送任何消息给数据抽取节点;所述数据集成节点当前登录的角色具有可写权限,则可以发送获取数据库中表的基本结构信息。收到请求的所述数据抽取节点,根据当前登录的角色来进行相应的操作,不同的角色赋予不同的操作权限。所述数据抽取节点只具有只读权限,则不能提供任何数据库中表的基本信息;所述数据抽取节点具有部分可写权限,则能根说明书CN102325170ACN102325183A3/5页6据权限规则提供权限。
17、范围内的数据库中表的基本结构信息;所述数据抽取节点具有完全可写权限,则能提供数据库中的所有表的基本结构信息。0021进一步的,所述数据集成节点向所述数据抽取节点发送获取数据库中表的值。所述数据集成节点当前登录的角色具有只读权限,则不能发送获取数据库中表的值消息给所述数据抽取节点;所述数据集成节点当前登录的角色具有可写权限,则可以发送消息给所述抽取节点。收到请求的所述数据抽取节点,根据数据集成节点当前登录的角色进行相应的操作。所述数据抽取节点只具有只读权限,则不能提供任何数据库中表的值;所述数据抽取节点具有部分可写权限,则能根据权限规则提供权限范围内的数据库中表的值;所述数据抽取节点具有完全可写。
18、权限,则能提供数据库中的所有表的值。0022进一步的,所述数据集成节点根据节点的权限,做相应的操作。具有只读权限,不能进行任何数据集成的操作,只能读取数据库中的数据;具有部分可写权限,根据权限要求做相应的数据集成操作;具有完全可写权限,可以做任何数据集成操作。0023一种基于中间件技术的数据抽取和数据集成系统,其特征在于包括数据库服务器、命名服务器以及多个数据抽取节点和一个数据集成节点;其中每一所述数据抽取节点分别通过网络与所述数据集成节点、所述命名服务器连接,所述数据集成节点与所述命名服务器通过网络连接,所述命名服务器通过网络与所述数据库服务器连接;其中0024所述命名服务器用于控制所有数据。
19、抽取节点和数据集成节点的ID分配,并将ID分配信息发送给所述数据库服务器;0025所述数据库服务器用于存储命名服务器发送的普通节点ID分配信息;0026所述数据抽取节点用于对数据的接收以及对本地数据库的数据进行抽取操作,并将抽取来的数据发送给所述数据集成节点。此外,所述数据抽取节点还向所述命名服务器发送节点信息,所述命名服务器将接收的节点信息发送给所述数据库服务器;0027所述数据集成节点用于对数据的发送以及对接收的数据进行相应的处理。此外,所述数据集成节点还向所述命名服务器发送节点信息,所述命名服务器将接收的节点信息发送给所述数据库服务器。0028本发明的基本功能模块可分为数据抽取模块、安全。
20、数据传输中间件模块、数据转换模块、数据集成模块。00291数据抽取模块0030数据抽取模块部署在数据抽取节点上,每个数据抽取节点上部署一个数据抽取模块。主要负责数据抽取节点对不同类型数据库中数据的抽取功能。所包括的主要功能有提供数据库的基本信息,提供数据库中表的基本信息,提供数据库中表的数据。除去数据抽取的基本功能外,数据抽取模块的功能还包括00311建立触发器。当数据抽取节点收到数据集成节点发送的获取数据库信息时,为每个库中的每个表建立增加、修改、删除的三个触发器。00322根据不同的抽取方式,如增量抽取会定时发送数据库中表的数据至数据集成端。00333根据所述数据抽取节点当前登录的角色确定。
21、可以对本节点所在的本地的哪些数据库进行抽取。登录的角色权限在命名服务器上角色注册的时候由管理员进行分配。00344删除触发器。当数据抽取节点需要退出系统时,删除建立的所有触发器。说明书CN102325170ACN102325183A4/5页700352数据转换模块0036数据转换模块部署在数据集成节点上,主要负责将数据抽取节点发来的不同数据进行转换。主要的转换功能包括00371字段映射;自定义映射规则,比如字段映射,允许用户将院数据库字段内容映射到新字段上,将抽取方的字段映射到集成端的自定义字段00382数据过滤;自定义过滤条件,类似于SQL语句中的WHERE条件语句。支持比较条件过滤,特定条。
22、件过滤等,集成端会将符合过滤条件的数据舍弃。00393数据清洗;数据集成端根据清洗的策略,对数据库中重复的内容作相应处理,如删除重复数据,保留一条重复数据或是完全保留重复数据等。00404数据替换;将原有数据替换成新数据。00415数据计算;将同类型的字段的值进行算数运算,逻辑运算,可达到统计数据和条件判断等目的。00426数据验证;将抽取到的数据进行验证。00437数据加解密;使用加密算法将抽取到的数据加密。00448数据拆分;将原有数据,按照新的字段进行重组。如将大于M的值和小于M的值分别赋予两个不同字段,将原数据拆分到新数据库表中。00453数据集成模块0046数据集成模块部署在数据集成。
23、节点上,主要负责将转换的数据按照业务规则进行相应的操作。主要的操作有00471数据合并;将两个不同数据库表的相同字段进行合并,合并结果保存至新表中。00482数据汇总;将抽取端的数据按照指定的字段或条件进行汇总查询,将结果以图形的方式展现出来。00494安全数据传输中间件模块0050安全数据传输中间件模块部署在数据抽取节点和数据集成节点上。主要负责将数据抽取节点的数据安全的传输到数据集成节点上。在安全传输方面首先是身份验证,然后是数据加密传输,由此保证数据的安全传输。0051与现有技术相比,本发明的积极效果是0052本发明集成了安全数据传输中间件技术,提高了屏蔽底层数据结构的差异,提高了数据抽。
24、取和数据集成的质量和安全性。具体表现在00531抽取的数据的及时性和完整性的保证。当抽取方第一次接收到数据集成节点的消息时,在抽取模块中建立触发器,监测抽取方数据库的变化。数据集成节点启动后,第一次获取数据库中的信息,必须要求进行全部抽取数据抽取节点将现有库中所有的用户库信息和表信息发送给数据集成节点。00542抽取和集成的安全性保证。根据登录节点的角色不同节点具有不同的权限,进而进行不同的操作,确保数据抽取和数据集成的安全性。00553数据传输的安全性、完整性、高效性保证。利用安全数据传输中间件,确保了抽取来的数据可以安全、完整、高效的传输给集成节点。说明书CN102325170ACN102。
25、325183A5/5页8附图说明0056图1本发明系统部署图;0057图2为系统整体功能框架;0058图3数据抽取节点获取数据库表信息;0059图4数据抽取节点获取数据库表数据;0060图5数据集成节点进行数据集成。具体实施方式00611本发明系统部署图0062如附图1所示,本系统部署一般包含两个服务器和多个抽取节点以及一个集成节点。节点间以及节点与服务器间通过消息进行交互。数据库服务器和命名服务器与数据抽取节点和数据集成节点的构成如附图2所示。不同之处在于,数据库服务器中所出来的消息均为与数据的操作相关的消息处理。命名服务器的消息处理所处理的消息均为节点的命名消息,使用一个512位的字符串来。
26、标识节点。数据抽取节点和数据集成节点根据功能不同将会加载不同的消息处理。0063服务器及数据抽取节点和数据集成节点构成,如附图2所示,包括三个模块数据抽取模块、数据传输模块、数据集成模块。00642节点启动0065每个节点需要向命名服务器发送节点信息,包括IP地址、端口号、MAC地址、节点类型、当前登录节点的角色。00663数据抽取0067数据抽取的过程如附图3和附图4所示。主要流程为数据抽取端接收到数据集成端发来的获取信息请求消息,数据抽取端接收到消息后进行处理,获取本地数据库中的表信息,并发送给数据集成端。数据抽取端抽取数据的方式有两种全量抽取和增量抽取。数据集成端发全量抽取请求消息,数据。
27、抽取端将所选库中所选择的表的所有数据抽取出来,发送给数据集成端;数据集成端发增量抽取请求消息,数据抽取端将所选库中所选择的表对应的中间表中数据抽取出来,发送给数据集成端。00684数据集成0069本发明中的数据集成是指将从数据抽取端采集来的数据进行集成合并处理。数据集成端工作流程如附图5所示。选择需要合并的数据所在的数据库,再从数据库中选择需要合并的数据所在的表,选择要进行合并的字段或要进行合并的表,设定映射规则,如A表中的“姓名”映射成B表中的“NAME”,系统会将两个表中的相同字段和映射字段进行合并,然后将合并结果保存至新标当中。说明书CN102325170ACN102325183A1/4页9图1图2说明书附图CN102325170ACN102325183A2/4页10图3说明书附图CN102325170ACN102325183A3/4页11图4说明书附图CN102325170ACN102325183A4/4页12图5说明书附图CN102325170A。