《一种企业异构数据分类编码集成交换与管理的方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种企业异构数据分类编码集成交换与管理的方法及装置.pdf(24页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104111998A43申请公布日20141022CN104111998A21申请号201410325216522申请日20140709G06F17/3020060171申请人江西理工大学地址341000江西省赣州市红旗大道86号72发明人井福荣古发辉74专利代理机构北京科亿知识产权代理事务所普通合伙11350代理人汤东凤54发明名称一种企业异构数据分类编码集成交换与管理的方法及装置57摘要本发明提供了一种企业异构数据分类编码集成交换与管理的方法及装置,通过统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;将采集的异构数据按照不同模式、不。
2、同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;构建基于统一服务接口的异构数据共享和交换机制。本发明解决了数据不一致、数据语义冲突、数据大量冗余等问题。51INTCL权利要求书3页说明书12页附图8页19中华人民共和国国家知识产权局12发明专利申请权利要求书3页说明书12页附图8页10申请公布号CN104111998ACN104111998A1/3。
3、页21一种企业异构数据分类编码集成交换与管理的方法,其特征在于包括以下步骤统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;构建基于统一服务接口的异构数据共享和交换机制。2如权利要求1所述的企业异构数据分类编码集成交换与管理的方法,。
4、其特征在于,所述统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据包括以下步骤建立主题树模型,通过主题树模型将结构化、半结构化以及非结构化的异构数据映射到最终的统一标准格式XMLSCHEME上,消除和屏蔽异构数据结构模式上的差异,从而统一异构数据集成的格式;按结构化、半结构化以及非结构化三种类型异构数据分别建立结构化、半结构化以及非结构化异构数据采集中间件,从本地和远程异构数据进行采集对于结构化异构数据,采用JDBC数据连接到各种不同环境、不同类型的数据库中,通过数据库操作,提取相关数据,再通过主题树模型进行表示;对于半结构化异构数据,若是存放在数据库中的则。
5、按照结构化数据采集方式,若是XML文档,转换成XMLDOM,并在其中封装各种数据操作,然后再通过主题树模型进行表示;对于非结构化异构数据,通过封装对文件的各种属性操作,将非结构化数据结构化表示成主题树,再映射为XMLSCHEME文档。3如权利要求1所述的企业异构数据分类编码集成交换与管理的方法,其特征在于,所述在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系包括以下步骤通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码;能批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续。
6、保留使用。4如权利要求3所述的企业异构数据分类编码集成交换与管理的方法,其特征在于,所述能批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用之后还包括步骤在不破坏原有系统编码的情况下,在原有系统的数据库表中添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用。5如权利要求1所述的企业异构数据分类编码集成交换与管理的方法,其特征在于,所述构建基于统一服务接口的异构数据共享和交换机制包括以下步骤针对不同的异构环境,通过WEBSERVICE提供统一标准服务接口;针对不同的应用需求,在相关SQL操作语言环境下,通过数据源驱动访问相关资源并权利要求书CN10。
7、4111998A2/3页3获取数据。6一种企业异构数据分类编码集成交换与管理的装置,其特征在于,包括异构数据采集处理模块,用于统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;异构数据分类模块,用于将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;编码更换模块,用于在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;异构数据共享交换。
8、模块,用于构建基于统一服务接口的异构数据共享和交换机制;其中,所述异构数据采集处理模块、异构数据分类模块、编码更换模块以及异构数据共享交换模块依次连接。7如权利要求6所述的企业异构数据分类编码集成交换与管理方法,其特征在于,所述异构数据采集处理模块包括主题树模型建立模块,用于建立主题树模型,通过主题树模型采集结构化、半结构化以及非结构化的异构数据,并将采集的异构数据的结构模式上的异构性进行消除和屏蔽,统一异构数据集成的格式;异构数据映射模块,用于基于主题树模型将异构数据映射到最终的统一标准格式XMLSCHEME上;以及采集中间件模型建立模块,用于异构数据的采集分结构化、半结构化、非结构化三种不。
9、同的采集中间件,如权利2所阐述;所述主题树模型建立模块、异构数据映射模块、采集中间件模型建立模块以及异构数据分类模块依次连接。8如权利要求6所述的企业异构数据分类编码集成交换与管理方法,其特征在于,所述编码更换模块包括新编码更新模块,用于通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码;旧编码保留模块,用于批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用;其中,所述异构数据分类模块分别与新编码更新模块以及旧编码保留模块连接,所述新编码更新模块以及旧编码保留模块分别与异构数据共享交换模块连接。9如权。
10、利要求8所述的企业异构数据分类编码集成交换与管理方法,其特征在于,所述编码更换模块还包括特别编码处理模块,用于在不破坏原有系统编码的情况下,在原有系统的数据库表中添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用;其中,所述异构数据分类模块、特别编码处理模块以及异构数据共享交换模块依次连接。10如权利要求6所述的企业异构数据分类编码集成交换与管理方法,其特征在于,所权利要求书CN104111998A3/3页4述异构数据共享交换模块包括接口统一标准模块,用于针对不同的异构环境,通过WEBSERVICE提供统一标准服务接口;以及数据交换共享模块,用于针对不同的应用需求,在相关SQL操。
11、作语言环境下,通过数据源驱动访问相关资源并获取数据;其中,所述数据交换共享模块与接口统一标准模块连接,所述接口统一标准模块与新编码更新模块、旧编码保留模块以及特别编码处理模块分别连接。权利要求书CN104111998A1/12页5一种企业异构数据分类编码集成交换与管理的方法及装置技术领域0001本发明属于计算机技术领域,尤其涉及一种企业异构数据分类编码集成交换与管理的方法及装置。背景技术0002随着计算机技术和网络技术的迅猛发展,大部分企业在信息化进程中,在不同时期,由不同的公司针对企业各部门不同的业务需求建设有大量的各种各样的应用信息系统,同时积累了大量数据资源。这些资源被视作与人力资源、物。
12、资资源和资金资源同等重要的战略资源,然而这些资源没能得到很好地利用和开发,企业之间甚至企业内部的数据资源无法共享、交换。0003其主要原因是由于企业内部各部门的职能和业务多种多样,信息化水平参差不齐,开始的信息化建设常常只考虑本身的业务需求而进行系统开发,导致了这些数据资源具有明显的分布性、自治性和异构性等特点,并以不同形式存储的、依赖于不同数据库管理系统。因此,如何解决企业内部及企业之间的信息共享、交换及对分布、异构的数据进行统一集中管理成为企业提升自身综合竞争力的一个急需解决的问题。0004异构数据集成技术通过解决企业多平台、多应用、多结构、多语义数据的集成,不仅可以把企业内部的各种相关数。
13、据资源进行整合,而且可以收集企业外部相关信息,为企业的决策提供支持。针对上述问题,国内外提出了各种各样的异构数据集成解决方案,概括起来主要有多数据库系统集成方法、联邦数据库集成方法、中间件集成方法、数据仓库集成方法、基于XML技术集成方法、基于网格的异构集成方法这六种集成方法。然而这些解决方案中均没有从根源上统一企业异构数据分类编码来考虑,从而严重制约企业异构数据集成与交换效果,企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等现象依然存在。导致这一现象的主要原因是在现有异构数据集成方法中,没有一种方式是从出现异构数据根源着手即企业异构数据缺乏统一分类编码,现有方法基本上是围。
14、绕如何实现异构数据的访问这一问题展开研究,因此集成企业很难做到集中管理所有异构数据资源,真正做到一个入口。另一方面,随着企业信息化进程的不断加快,企业对信息的需求也呈现越来越具有高效性、灵活性、广泛性、综合性和通用性等特点。0005因此,一种从根源上彻底解决企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题的自动化程度高、投资成本低的企业异构数据共享和交换技术亟待开发。发明内容0006本发明的目的在于提供一种企业异构数据分类编码集成交换与管理的方法及装置,旨在解决企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题。0007本发明是这样实现的,一种企业。
15、异构数据分类编码集成交换与管理的方法,包括说明书CN104111998A2/12页6以下步骤0008统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;0009将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;0010在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;0011构建基于统一服务接口的异构数据共享和交换机制。0012优选。
16、地,所述统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据包括以下步骤0013建立主题树模型,通过主题树模型采集结构化、半结构化以及非结构化的异构数据,并将采集的异构数据的结构模式上的异构性进行消除和屏蔽,统一异构数据集成的格式;0014基于主题树模型将异构数据映射到最终的统一标准格式XMLSCHEME上;0015建立异构数据采集中间件模型,通过异构数据采集中间件模型,采集企业异构数据,其具体做法为按结构化、半结构化以及非结构化三种类型异构数据分别建立结构化、半结构化以及非结构化异构数据采集中间件,从本地和远程异构数据进行采集对于结构化异构数据,采用JDBC。
17、数据连接到各种不同环境、不同类型的数据库中,通过数据库操作,提取相关数据,再通过主题树模型进行表示;对于半结构化异构数据,若是存放在数据库中的则按照结构化数据采集方式,若是XML文档,转换成XMLDOM,并在其中封装各种数据操作,然后再通过主题树模型进行表示;对于非结构化异构数据,通过封装对文件的各种属性操作,将非结构化数据结构化表示成主题树,再映射为XMLSCHEME文档。0016优选地,所述在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系包括以下步骤0017通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘。
18、汰,启用新编码;0018能批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用。0019优选地,所述能批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用之后还包括步骤0020在不破坏原有系统编码的情况下,在原有系统的数据库表中添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用。0021优选地,所述构建基于统一服务接口的异构数据共享和交换机制包括以下步骤0022针对不同的异构环境,通过WEBSERVICE提供统一标准服务接口;0023针对不同的应用需求,在相关SQL操作语言环境下,通过数据源驱动访问相关资源并获取数据。
19、。0024本发明进一步提供了一种企业异构数据分类编码集成交换与管理的装置,包括说明书CN104111998A3/12页70025异构数据采集处理模块,用于统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;0026异构数据分类模块,用于将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;0027编码更换模块,用于在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编。
20、码,逐步过渡到新的编码体系;0028异构数据共享交换模块,用于构建基于统一服务接口的异构数据共享和交换机制;其中,0029所述异构数据采集处理模块、异构数据分类模块、编码更换模块以及异构数据共享交换模块依次连接。0030优选地,所述异构数据采集处理模块包括0031主题树模型建立模块,用于建立主题树模型,通过主题树模型采集结构化、半结构化以及非结构化的异构数据,并将采集的异构数据的结构模式上的异构性进行消除和屏蔽,统一异构数据集成的格式;0032异构数据映射模块,用于基于主题树模型将异构数据映射到最终的统一标准格式XMLSCHEME上;0033以及采集中间件模型建立模块,用于企业异构数据的采集,。
21、具体做法为按结构化、半结构化以及非结构化三种类型异构数据分别建立结构化、半结构化以及非结构化异构数据采集中间件,从本地和远程异构数据进行采集对于结构化异构数据,采用JDBC数据连接到各种不同环境、不同类型的数据库中,通过数据库操作,提取相关数据,再通过主题树模型进行表示;对于半结构化异构数据,若是存放在数据库中的则按照结构化数据采集方式,若是XML文档,转换成XMLDOM,并在其中封装各种数据操作,然后再通过主题树模型进行表示;对于非结构化异构数据,通过封装对文件的各种属性操作,将非结构化数据结构化表示成主题树,再映射为XMLSCHEME文档。0034所述主题树模型建立模块、异构数据映射模块、。
22、采集中间件模型建立模块以及异构数据分类模块依次连接。0035优选地,所述编码更换模块包括0036新编码更新模块,用于通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码;0037旧编码保留模块,用于批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用;其中,0038所述异构数据分类模块分别与新编码更新模块以及旧编码保留模块连接,所述新编码更新模块以及旧编码保留模块分别与异构数据共享交换模块连接。0039优选地,所述编码更换模块还包括特别编码处理模块,用于在不破坏原有系统编码的情况下,在原有系统的数据库表中。
23、添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用;其中,0040所述异构数据分类模块、特别编码处理模块以及异构数据共享交换模块依次连说明书CN104111998A4/12页8接。0041优选地,所述异构数据共享交换模块包括0042接口统一标准模块,用于针对不同的异构环境,通过WEBSERVICE提供统一标准服务接口;0043以及数据交换共享模块,用于针对不同的应用需求,在相关SQL操作语言环境下,通过数据源驱动访问相关资源并获取数据;其中,0044所述数据交换共享模块与接口统一标准模块连接,所述接口统一标准模块与新编码更新模块、旧编码保留模块以及特别编码处理模块分别连接。004。
24、5本发明克服现有技术的不足,提供一种企业异构数据分类编码集成交换与管理的方法及装置,通过统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;构建基于统一服务接口的异构数据共享和交换机制。0046本发明针对现有异构数据集成方法还存在数据。
25、不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题,创新性的研究着重从语法和语义异构,兼顾系统异构和结构异构,真正意义上实现企业异构数据集成共享和交换。研究结果表明,语法和语义异构的出现,主要是不同数据源的设计者对于现实世界的事物的看待角度不会完全一样,为了达到企业级的统一,项目以统一企业异构数据语法和语义表示企业异构数据分类编码来解决企业异构数据集成与交换依然的企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题。0047本发明针对现有数据分类编码理论缺乏实施流程,通过研究,形成了企业异构数据分类编码工作流,明确了异构数据分类编码的每个步骤的工作方法和流程,。
26、经过实际应用,验证了工作流的有效性。0048本发明针对异构语法、语义和数据结构上的差异导致集成难的问题,创新地对异构数据统一用“主题树”表示,实现了异构数据的自动采集。0049本发明针对海量异构数据分类难的问题,基于机器学习、图像识别技术、“主题树”的表达模型和中间件技术,创新性地开发出了企业异构数据分类器,实现了企业异构数据的自动分类。0050本发明针对数据编码难于动态唯一性控制问题,创新性将分类规则、编码规则和审核机制固化进编码器,开发出了企业异构数据编码器,实现了企业异构数据的智能化编码。0051本发明集成XML、WEBSERVICE和SSH等多种技术,建立基于统一服务接口的异构数据共享。
27、和交换机制,实现了异构数据的共享和交换。附图说明0052图1是本发明企业异构数据分类编码集成交换与管理的方法一实施例的步骤流说明书CN104111998A5/12页9程图;0053图2是本发明企业异构数据分类编码集成交换与管理的方法一实施例中结构化异构数据主题树的表示形式示意图;0054图3是本发明企业异构数据分类编码集成交换与管理的方法一实施例中半结构化异构数据主题树的表示形式示意图;0055图4是本发明企业异构数据分类编码集成交换与管理的方法一实施例中非结构化异构数据主题树的表示形式示意图;0056图5是本发明企业异构数据分类编码集成交换与管理的方法一实施例中结构化异构数据采集中间件模型示。
28、意图;0057图6是本发明企业异构数据分类编码集成交换与管理的方法一实施例中半结构化异构数据采集中间件模型示意图;0058图7是本发明企业异构数据分类编码集成交换与管理的方法一实施例中非结构化异构数据采集中间件模型示意图;0059图8是本发明企业异构数据分类编码集成交换与管理的方法一实施例中异构数据分类器模型示意图;0060图9是本发明企业异构数据分类编码集成交换与管理的方法一实施例中异构数据编码器模型示意图;0061图10是本发明企业异构数据分类编码集成交换与管理的方法一实施例中对照表处理新旧编码图;0062图11是本发明企业异构数据分类编码集成交换与管理的方法一实施例中基于统一服务接口的异。
29、构数据交换共享和交换机制示意图;0063图12是本发明企业异构数据分类编码集成交换与管理的装置的结构示意图;0064图13是图12更具体的结构示意图。具体实施方式0065为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。0066一种企业异构数据分类编码集成交换与管理的方法,如图1所示,包括以下步骤0067S1、统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据。0068在步骤S1中,更具体,包括以下步骤0069建立主题树模型,通过主题树模型。
30、采集结构化、半结构化以及非结构化的异构数据,并将采集的异构数据的结构模式上的异构性进行消除和屏蔽,统一异构数据集成的格式。0070异构数据集成、分类编码其主要目的是实现异构数据共享、交换,提高企业精细化管理程度。异构数据集成是信息化环境下深层次的异构数据集成,即集成的数据不再只是结构化的、单一的数据,而是包含了半结构化、非结构化的多元数据及其属性、特征。本发明在现有集成技术、主题数据库建设等理论分析和总结的基础上,提出了“主题树”模型来统说明书CN104111998A6/12页10一异构数据集成的格式。0071主题树模型的定义主题树模型STMSUBJECTORIENTEDTREEMODEL的建。
31、立,主要目的是为了深层次的采集和集成,不仅需要将结构化和半结构化异构数据采集进来,而且还需要将非结构化的异构数据也采集到这个模型中来。采用主题树模型集成采集得到的异构数据可以消除和屏蔽数据在结构模式上的异构性。下面介绍主题树的相关概念和操作00721相关定义0073主题的定义0074定义1主题是一个抽象的概念,是在信息化建设较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在信息化建设较高层次上对分析实体数据的一个完整、一致的描述,能完整、统一地刻画各个分析实体数据所涉及企业的各项子数据及其属。
32、性和特征,以及数据之间的联系。0075企业典型抽象出的主题一般有组织机构、物料、产品、客户、零部件、供应商、订货、员工、文件资料、工程规范等。0076主题树的定义0077定义2主题树T是一个二元组STID,S,标记为TSTID,S。其中,STID是主题树标识符,唯一标识主题树所描述的一类实体,S是主题子树的集合,是由STID所标识的同类实体描述。0078主题子树的定义0079定义3主题子树ST是一个二元组SSTID,SA,标记为STSSTID,SS。其中,SSTID是主题子树标识符,唯一标识主题子树所抽象的主题,SS是主题子树所有主题属性子集合。0080主题属性子的定义0081定义4主题属性子。
33、是关于主题的某个属性的所有描述,用一个三元组A,U,V表示,称之为主题属性子。其中,A是表示属性名,U标识属性域,V标识属性值。00822相关操作0083为了实现对异构数据的集成,在此定义7种主题树的运算操作主题树并、主题树差、主题树交、主题树选择、主题树投影、主题树反投影和主题树连接。0084主题树并0085定义5主题树T1、T2,其并运算符定义为并运算定义如下设T1STID1,S1,T2STID2,S2,则其中,为类似集合并运算符。0086主题树差0087定义6主题树T1、T2,其差运算符定义为,并运算定义如下设T1STID1,S1,T2STID2,S2,则T1T2STID,S1S2。其中。
34、,为类似集合差运算符。0088主题树交0089定义7主题树T1、T2,其交运算符定义为交运算定义如下设T1STID1,S1说明书CN104111998A107/12页11,T2STID2,S2,则其中,为类似集合交运算符。0090以上三种运算与集合中的并、差、交不同的是主题树并不要求集合并运算的对参与运算的关系必须要有相同的度以及值必须来源于相同的属性域,而在此的并运算对每个主题属性子所包含属性名域、和值数目和内容不做限定。0091主题树选择0092定义8主题树选择是指在按照给定的条件F,从给定的主题树T中选择若干子树的一种操作,其选择运算符定义为F,选择运算定义如下设TSTID,S,则FTS。
35、TID,S。其中,F为布尔函数;表示选择的条件,S是S的子集,表示S中能使布尔函数F为真的那些主题子树的集合。主题树选择运算不同于关系运算的选择,选择条件中出现的属性名不一定存在于它的所有主题子树中。在这种情况下关系代数无法运算或返回空集,但主题树运算仍可选择满足条件的主题子树。0093主题树投影0094定义9主题树投影运算是从给定主题树的所有主题子树中选取给定的主题属性构成的主题属性子。给定TSTID,S和主题属性子集A,定义主题树T在A上的投影运算如下0095其中SST|STSSTASTST。0096主题树投影不同于关系代数的投影运算只要主题树中至少存在一棵主题子树它的主题属性子集与A有交。
36、集,主题树投影的结果就不为空。0097主题树反投影0098定义10主题树反投影运算是从给定主题树的所有主题子树中选取给定的主题属性之外构成的主题属性子。给定TSTID,S和主题属性子集A,定义主题树T在A上的反投影运算如下0099其中0100对于没有预知模式的数据源,用户并不知道其了解其全部数据内容,此时,主题树反投影运算使用户可以利用已知部分查询到未知部分,这对异构数据集成非常有用。0101主题树连接0102定义11主题树T1、T2,其连接运算符定义为连接运算定义如下设T1STID1,S1,T2STID2,S2,则其中F为连接条件,是布尔函数。0103主题树之间的联系主要是通过这种连接运算来。
37、实现。0104基于主题树模型将异构数据映射到最终的统一标准格式XMLSCHEME上,更具体的包括01051结构化异构数据的应用0106对于结构化的异构数据,只需将不同环境下的主题数据表中的每一个元组表示成如下一棵主题树,如图2所示,再做进一步的运算,这里数据的集成基本类似于集合的各种说明书CN104111998A118/12页12运算操作,因为所表示的主题树的结构是完全一致的。01072半结构化化异构数据的应用0108对于半结构化的异构数据,同样将不同环境下的主题数据表中的每一个元组表示成如下一棵主题树,如图3所示。这颗半结构化主题树与结构化异构数据主题树不同的是各个主题子树的主题属性子可能不。
38、同,在运算上就必须采用上述定义的主题树的各种运算才能把非结构化异构数据集成起来。0109如果半结构化异构数据是XML形式的,可以用后面的反映射方法把半结构化异构数据表示成一棵主题树。01103非结构化化异构数据的应用0111对于非结构化的异构数据,同样将不同环境下的非结构化数据着重从数据的大小、类型、描述等方面表示成如下一棵主题树,如图4所示。对非结构化异构数据集成时,事先可以预定常见的如视频、图像等不同主题的结构化模式,进而把非结构化的异构数据表示成结构化的数据,从而实现非结构化异构数据的集成。0112主题树与XMLSCHEME文档的映射0113要实现这种映射,显然比较简单,类似对主题树先根。
39、遍历,即把主题树的树根映射到XMLSCHEME文档中的根元素ROOT中,后面的子树是父树的子节点子元素NODE,采用递归映射的方式。0114建立异构数据采集中间件模型,通过异构数据采集中间件模型限于专业技术问题,具体如何作用烦请发明人说明下,更具体的包括01151结构化异构数据采集中间件0116结构化异构数据主要是指存储在各种不同类型数据库中的数据,对于这种异构数据,可以采用JDBC数据连接到各种不同环境、不同类型的数据库中,通过数据库操作,提取相关数据,整个结构化异构数据采集中间件模型,如图5所示。01172半结构化异构数据采集中间件0118半结构化异构数据若是存储在数据库中,则可以采用结构。
40、化数据采集中间件采集;若是半结构化异构数据且为XML文件形式的,则可以按照如下半结构化异构数据采集中间件采集,其模型如下图6所示01193非结构化异构数据采集中间件0120非结构化异构数据主要是指各种视频、图片等文件,为此,通过封装对文件的各种属性操作,将非结构化数据结构化表示成主题树,再映射为XMLSCHEME文档,其模型如下图7所示。0121S2、将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;01。
41、22在步骤S2中,更具体的包括0123异构数据的分类是根据主题数据的属性来划分,从人工智能的角度来说就是对异构数据的各种模式进行集成,然后按照一种新的受约束的模式进行分类。0124本发明将数据挖掘、人工智能等多种理论应用到分类器设计中,其主要思想是将说明书CN104111998A129/12页13预先规范化集成的数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,然后根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,从而导出智能化异构数据的分类规则。0125需要指出的是聚类主要目的是形成不同主题的。
42、主题名称模式和空间、相应的主题属性子名称模式和空间,为下一步进行分类做准备。0126分类器模型如图8所示,模型中,分类规则固化是指某种数据分类规则中共有多少层级码段;编码规则固化是指每个层级码段的编码值域以及在新增数据时自动根据规则产生新的编码;审核机制固化是在整个模型框架之外,待用户申请生成了编码后,编码自动跳转到专业审核口,通过专业审核后转到总审核口,待总审核通过后,编码自动发布。0127S3、在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;0128在步骤S3中,为了统一企业数据编码,在企业原有信息系统上,采用接口转换即对照表的方式将原有编码转换成新。
43、编码,逐步过渡到新的编码体系,以满足数据共享和交换的需要。能批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用,可以通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码。若新上信息系统则必须采用统一编码。对照表方式如图9所示。如在已有的人事和工资两个管理系统中,都有员工张华的信息,人事系统中员工张华的编号是“1122”,而工资系统中张华的编号是“0104”,因此,如果这两个系统要进行数据交换,则必须采用统一编码2020来建立两个不同码之间的联系。0129部分系统应用通过对照表方式,将旧编码全部转换成新编。
44、码后,由于部分系统设计对编码结构存在一定依赖性,导致系统不一定能全部自动转换,需要手工解决。对此,课题组又进行了改进,即在不破坏原有系统编码的情况下,在原有系统的数据库表中添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用,从而达到编码的统一。0130S4、构建基于统一服务接口的异构数据共享和交换机制。0131在步骤S4中,采用对照表方式更新旧编码,显然工作量较大,而且随着接入系统的增加,接口数量急剧增加,在实际应用过程中将会遇到诸如对老系统数据结构不熟悉等各种各样的困难。为此,本发明尝试在新增数据编码时,直接将新增数据自动传送到需要交换共享数据的系统中。经过研究和试验,实现了紫。
45、金矿业企业级数据分类编码实时传输至ERP、HR等系统中。提出的基于统一服务接口的异构数据共享和交换机制,主要思想是在集成平台添加标准的交换服务接口,可将新增数据自动传送到需要交换共享数据的系统中。统一服务接口的异构数据共享和交换机制如图10所示,针对不同的异构环境,WEBSERVICE提供了标准服务接口,无需繁杂的编程,只需相应的数据源驱动就可以访问到相关资源;针对不同的应用需求,用户只需提供相关SQL操作语言,就能按需取到数据。0132在本发明中,针对现有异构数据集成方法还存在数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题,创新性的研究着重从语法和语义异构,兼顾系统异构。
46、和结构异构,真正意义上实现企业异构数据集成共享和交换。研究结果表明,语法和说明书CN104111998A1310/12页14语义异构的出现,主要是不同数据源的设计者对于现实世界的事物的看待角度不会完全一样,为了达到企业级的统一,项目以统一企业异构数据语法和语义表示企业异构数据分类编码来解决企业异构数据集成与交换依然的企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题。0133针对现有数据分类编码理论缺乏实施流程,通过研究,形成了企业异构数据分类编码工作流,明确了异构数据分类编码的每个步骤的工作方法和流程,经过实际应用,验证了工作流的有效性。0134针对异构语法、语义和数据。
47、结构上的差异导致集成难的问题,创新地对异构数据统一用“主题树”表示,实现了异构数据的自动采集。0135针对海量异构数据分类难的问题,基于机器学习、图像识别技术、“主题树”的表达模型和中间件技术,创新性地开发出了企业异构数据分类器,实现了企业异构数据的自动分类。0136针对数据编码难于动态唯一性控制问题,创新性将分类规则、编码规则和审核机制固化进编码器,开发出了企业异构数据编码器,实现了企业异构数据的智能化编码。0137集成XML、WEBSERVICE和SSH等多种技术,建立基于统一服务接口的异构数据共享和交换机制,实现了异构数据的共享和交换。0138本发明进一步提供了一种企业异构数据分类编码集。
48、成交换与管理的装置,如图11和图12所示,包括0139异构数据采集处理模块1,用于统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;0140异构数据分类模块2,用于将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;0141编码更换模块3,用于在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;0142异构数据共享交换模块4,用于构建。
49、基于统一服务接口的异构数据共享和交换机制;其中,0143所述异构数据采集处理模块1、异构数据分类模块2、编码更换模块3以及异构数据共享交换模块4依次连接。0144更具体的,所述异构数据采集处理模块1包括0145主题树模型建立模块11,用于建立主题树模型,通过主题树模型采集结构化、半结构化以及非结构化的异构数据,并将采集的异构数据的结构模式上的异构性进行消除和屏蔽,统一异构数据集成的格式;0146异构数据映射模块12,用于基于主题树模型将异构数据映射到最终的统一标准格式XMLSCHEME上;0147以及采集中间件模型建立模块13,用于此处与权利要求2相对应,由代理人后续修改;其中,0148所述主题树模型建立模块11、异构数据映射模块12、采集中间件模型建立模块13说明书CN104111998A1411/12页15以及异构数据分类模块2依次连接。0149更具体的,所述编码更换模块3包括0150新编码更新模块31,用于通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码;0151旧编码保留模块32,用于批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用;其中,0。