一种非结构化数据存储系统及方法.pdf

上传人:Y0****01 文档编号:274309 上传时间:2018-02-07 格式:PDF 页数:13 大小:2.29MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310118763.1

申请日:

2013.04.08

公开号:

CN104102652A

公开日:

2014.10.15

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20130408|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

国家电网公司; 华北电力科学研究院有限责任公司

发明人:

徐小天; 王刚; 陈威; 石磊; 陈乐然

地址:

100031 北京市西城区西长安街86号

优先权:

专利代理机构:

北京三友知识产权代理有限公司 11127

代理人:

郭智

PDF下载: PDF下载
内容摘要

本发明提供一种非结构化数据存储系统及方法,包括:源系统数据服务器存储企业业务系统特征数据;XML生成器服务器根据源系统数据服务器的记录特征生成XML文件,并将源系统数据服务器中的非结构化数据文件本体进行提取,以与XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;XML解析器服务器将XML文件按照字段匹配规则进行解析,获取XML文件对应的属性和分类信息;并根据XML文件对应的属性和分类信息,将配对后的XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;非结构化数据服务器存储配对后的XML文件与非结构化数据文件本体的对应关系。本发明可以将各种类型源系统中的数据根据一定的业务规则导入至非结构化数据存储系统中。

权利要求书

1.  一种非结构化数据存储系统,其特征在于,所述企业业务特征数据存储系统包括:源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:
所述源系统数据服务器,用于存储企业业务系统特征数据;
所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;
所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。

2.
  如权利要求1所述非结构化数据存储系统,其特征在于,
所述XML生成器服务器将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括:检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。

3.
  如权利要求2所述非结构化数据存储系统,其特征在于,
所述XML生成器服务器根据所述非结构化数据文件本体的存放位置进行提取,进一步包括:如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。

4.
  如权利要求1所述非结构化数据存储系统,其特征在于,
所述非结构化数据服务器,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。

5.
  如权利要求1所述非结构化数据存储系统,其特征在于,
所述XML生成器服务器根据所述源系统数据服务器的记录特征生成的XML文件中 的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。

6.
  一种非结构化数据存储方法,其特征在于,所述方法应用于企业业务特征数据存储系统,该系统包括:源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,所述源系统数据服务器,用于存储企业业务系统特征数据;其中,所述方法包括:
通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
通过所述XML解析器服务器将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;
根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。

7.
  如权利要求6所述非结构化数据存储方法,其特征在于,所述将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括:
检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;
根据所述非结构化数据文件本体的存放位置进行提取。

8.
  如权利要求7所述非结构化数据存储方法,其特征在于,所述根据所述非结构化数据文件本体的存放位置进行提取,包括:
如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。

9.
  如权利要求6所述非结构化数据存储方法,其特征在于,所述将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性,包括:
以文件偶的形式,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。

10.
  如权利要求6所述非结构化数据存储方法,其特征在于,所述通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,包括:
通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件, 其中,所述XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。

说明书

一种非结构化数据存储系统及方法
技术领域
本发明涉及企业信息化技术,尤其涉及一种非结构化数据存储系统及方法。
背景技术
BPM(Business Process Management,即业务流程管理,是一套达成企业各种业务环节整合的全面管理方式,它通常以网络方式实现信息传递、数据同步、业务监控和企业业务流程的持续升级与优化)是提高现代企业信息化水平的重要技术。使用统一的流程描述规范对业务进行形式化定义,可以方便的完成企业的信息化系统集成、再造等工作,实现信息化系统的明确业务分割。在BPM过程的系统实现层面,常会涉及到多个业务子系统的数据交互问题:多个业务数据上可能存在相互依赖的系统采用不同的数据存储和传输规范,从而为系统间进行数据交互带来了较大障碍,这在遗留系统间以及遗留系统与新开发系统的交互过程中最为常见。为解决该类问题,通常需要为系统间的数据接口开发相应的数据读写系统,以实现正常的数据交互。
电力行业企业中普遍部署了ERP(Enterprise Resource Planning,即企业资源计划,是针对物资资源管理、人力资源管理、财务资源管理、信息资源管理集成一体化的企业管理软件套件,是现代企业信息化主流解决方案的重要组成部分)、电力MIS(Management Information System,即管理信息系统是一个以人为主导,利用计算机软硬件、网络通信设备以及其它办公设备,进行信息的收集、传输、加工、储存、更新和维护,以企业战略竞优、提高效益和效率为目的,支持企业的高层决策、中层控制和基层运作的集成化人机系统)等系统。通常使用ERP进行企业财务、资产、运营等方面的管理,而使用电力MIS进行两票、设备、检修等生产任务的管理。上述系统在国内市场已形成较为成熟的产品系列,多数解决方案中的业务数据采用结构化存储方式,即将数据存放于数据库的多个二维数据表中。而对业务数据中的非结构化数据(相对于结构化数据(行数据,存储在数据库中,可以用二维表结构来逻辑表达实现的数据)而言,无法用数据库二维逻辑表来表示的数据称为非结构化数据,主要包括各种格式的计算机文件,包括大文本、图片、音频、视频等格式),则主要有两种存储方式:一种是将非结构化数据本身作为一个二进制串,直 接作为字段存放在数据库表的记录中;另一种则是在数据库表中存放指向非结构化数据存储路径的URL(Uniform Resource Locator,统一资源定位符),而将非结构化数据本身存放在独立的文件系统中。
在电力企业内,上述系统中的非结构化文件主要包括各类设备设计文档、合同及说明文件、技术报告和检测报告、现场录音录像等,它们通常以附件的形式组织在系统流程中。在一般情况下,这些附件无法直接查找,也无法按类别、属性进行索引,只能通过查找所关联的业务流程,间接的获取相关信息。而电力企业为了掌握这部分生产相关的非结构化数据,需要建立专门用于存储和管理非结构化数据的数据存储系统,对非结构化数据按照不同的属性维度(比如按照年份、设备类型、制造商、重要程度等)进行分类索引,以方便从不同角度对其进行搜索和管理。
在上述背景下,如何对原有业务流程和生产信息管理系统中的非结构化数据和与之关联的结构化属性进行自动化的提取,建立原有系统中的流程、数据记录与非结构化数据存储系统中的非结构化文档的对应关系就成为本领域的技术人员所要解决的问题。
现有技术业务流程系统中结构化数据的提取尚未形成通用的技术规范,目前较为主流的方法是开发独立的数据读写模块,以构建单个源系统与目标系统之间的数据读写通道,使用该种解决方案,一般需要如下步骤:首先确定目标系统进行非结构化数据存储所需的分类以及属性信息,整理出对应的源系统应提供的字段列表;查看数据库,确定非结构化数据本体的存放位置,如果直接以大字段方式存储,则对该字段进行反序列化,否则根据非结构化数据本体的存储路径读取数据本体;针对特定的源系统开发适配工具,在该适配工具中配置源系统数据库参数,从源系统数据库中分别读取非结构化数据和需要抽取的对应特征数据字段;适配工具调用目标系统接口,将源系统抽取的特征数据按照匹配规则作为相应非结构化文档的属性/类别信息写入目标系统数据库,并根据属性/类别信息将非结构化数据写入目标系统。
上述解决方案的主要缺点如下:开发成本高:需要为每个源系统开发一套独立的系统适配工具,以使源系统特征数据与目标系统(非结构化数据存储系统)的属性/类别字段相匹配;耦合程度高:该方案中源系统数据抽取与目标系统的数据写入均由同一个适配器完成,没有进行合理的功能区隔。无论是源系统数据存储结构出现变化,还是目标系统所使用的属性及类别发生调整,都需要对适配工具进行重新开发。尤其是存在多个源系统时,目标系统的调整将导致所有源系统适配工具的重新开发,从而适应调整后的非结构化数据关联属性;纠错难度高:由于各适配器直接读取源系统数据表格,不生成提取过程的中间 文件,一旦发生错误仍需要读写源系统数据库进行追踪,并需要从数据提取步骤进行重新操作,修正成本较高。
综上可见,如何设计一种自动化提取电力企业生产业务特征数据的方法,以将各种类型源系统中的数据根据一定的业务规则导入至非结构化数据存储系统中,这是本领域的技术人员亟待解决的一个技术难题。
发明内容
本发明实施例提供一种非结构化数据存储系统及方法,以将各种类型源系统中的数据根据一定的业务规则导入至非结构化数据存储系统中。
一方面,本发明实施例提供了一种非结构化数据存储系统,所述企业业务特征数据存储系统包括:源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:
所述源系统数据服务器,用于存储企业业务系统特征数据;
所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;
所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。
可选的,在本发明一实施例中,所述XML生成器服务器将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括:检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。
可选的,在本发明一实施例中,所述XML生成器服务器根据所述非结构化数据文件本体的存放位置进行提取,进一步包括:如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构 化数据文件本体的存储路径读取对应的非结构化数据文件本体。
可选的,在本发明一实施例中,所述非结构化数据服务器,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。
可选的,在本发明一实施例中,所述XML生成器服务器根据所述源系统数据服务器的记录特征生成的XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。
另一方面,本发明实施例提供了一种非结构化数据存储方法,所述方法应用于企业业务特征数据存储系统,该系统包括:源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,所述源系统数据服务器,用于存储企业业务系统特征数据;其中,所述方法包括:
通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
通过所述XML解析器服务器将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;
根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。
可选的,在本发明一实施例中,所述将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括:检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。
可选的,在本发明一实施例中,所述根据所述非结构化数据文件本体的存放位置进行提取,包括:如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。
可选的,在本发明一实施例中,所述将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性,包括:以文件偶的形式,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。
可选的,在本发明一实施例中,所述通过所述XML生成器服务器根据所述源系统数 据服务器的记录特征生成XML文件,包括:通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,其中,所述XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。
上述技术方案具有如下有益效果:因为采用所述企业业务特征数据存储系统包括:源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:所述源系统数据服务器,用于存储企业业务系统特征数据;所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系的技术手段,所以达到了如下的技术效果:仅需开发一套XML生成器,一套XML解析器,就可以满足所有类型的源系统至目标系统的数据导入;无论源系统还是目标系统的数据表结构发生变化时,仅需要修改XML解析器使用的字段匹配规则配置文件,大大减少了开发工作量;将源系统数据抽取与目标系统的数据导入分隔为两个独立步骤,中间以标准化的XML文件进行数据交换,实现了较高程度的系统解耦;数据提取的结果采用XML与非结构化数据对应的形式进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种非结构化数据存储系统组成结构示意图;
图2为本发明实施例一种非结构化数据存储方法流程图;
图3为本发明应用实例系统结构示意图;
图4为本发明应用实例图3中的系统运作机制流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例一种非结构化数据存储系统组成结构示意图,所述企业业务特征数据存储系统包括:源系统数据服务器11、XML生成器服务器12、XML解析器服务器13、非结构化数据服务器14,其中:
所述源系统数据服务器11,用于存储企业业务系统特征数据;
所述XML生成器服务器12,与所述源系统数据服务器11相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
所述XML解析器服务器13,与所述XML生成器服务器12相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;
所述非结构化数据服务器14,与所述XML解析器服务器13相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。
可选的,所述XML生成器服务器12将所述源系统数据服务器11中的非结构化数据文件本体进行提取,包括:检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。
可选的,所述XML生成器服务器12根据所述非结构化数据文件本体的存放位置进行提取,进一步包括:如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。
可选的,所述非结构化数据服务器14,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。
可选的,所述XML生成器服务器12根据所述源系统数据服务器11的记录特征生成的XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。
对应于上述方法实施例,如图2所示,为本发明实施例一种非结构化数据存储方法流程图,所述方法应用于企业业务特征数据存储系统,该系统包括:源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,所述源系统数据服务器,用于存储企业业务系统特征数据;其中,所述方法包括:
201、通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
202、通过所述XML解析器服务器将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;
203、根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。
可选的,所述将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括:检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。
可选的,所述根据所述非结构化数据文件本体的存放位置进行提取,包括:如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。
可选的,所述将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性,包括:以文件偶的形式,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。
可选的,所述通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,包括:通过所述XML生成器服务器根据所述源系统数据服务器的记录特征 生成XML文件,其中,所述XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。
本发明实施例上述技术方案具有如下有益效果:因为采用所述企业业务特征数据存储系统包括:源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:所述源系统数据服务器,用于存储企业业务系统特征数据;所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系的技术手段,所以达到了如下的技术效果:仅需开发一套XML生成器,一套XML解析器,就可以满足所有类型的源系统至目标系统的数据导入;无论源系统还是目标系统的数据表结构发生变化时,仅需要修改XML解析器使用的字段匹配规则配置文件,大大减少了开发工作量;将源系统数据抽取与目标系统的数据导入分隔为两个独立步骤,中间以标准化的XML文件进行数据交换,实现了较高程度的系统解耦;数据提取的结果采用XML与非结构化数据对应的形式进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯。
以下举应用实例进行详细说明:
针对现有技术方案的不足,本发明应用实例方案将各源系统(源系统数据服务器)的数据抽取与目标系统(非结构化数据服务器)的数据写入作为两个独立的步骤完成。本发明应用实例中,为所有的源系统设置的一个数据抽取模块(设置于XML生成器服务器中,以下称XML生成器),该模块将源数据库单条记录中所有特征数据一次性读出,按照既定规则生成(为每条记录生成唯一的)XML(Extensible Markup Language,即可扩展标记语言,它是一种用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言)文档;设置单一XML 解析器(设置于XML解析器服务器中,以下称XML解析器),对各源系统生成的XML文档进行解析,并将解析结果写入目标系统数据库中,如图3所示,为本发明应用实例系统结构示意图。
如图4所示,为本发明应用实例图3中的系统运作机制流程示意图,包括:
401、开始;
402、源数据库记录读取;
403、识别目标系统数据库中与单条记录相关的所有结构化字段信息,生成源记录相关特征字段XML文件;其中单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条引用记录作为当前字段节点的子节点;
404、判断非结构化数据文件本体是否存储在表内?如果是,则转405,否认,转406;
405、如果源系统的非结构化数据文件本体直接以大字段方式在数据表中存储,则进行文件本体字段反序列化;
406、如果非结构化数据文件本体没有存储在表内,则读取文件存储路径;
407、按照路径读取非结构化数据文件本体;
408、进行XML文件与提取的非结构化数据文件本体配对,作为目标系统数据导入模块(即图3中的XML解析器)的输入;
409、目标系统的数据导入模块将分析输入的XML文件,按照字段匹配规则配置文件提取需要用到的特征数据字段,作为非结构化文档的属性和分类信息,并依此将对应的非结构化数据存储到相应分类并写入特定属性;
410、目标系统非结构化数据写入;采用文件偶的形式将XML文件与非结构化数据文件本体进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯;
411、结束。
本发明应用实例方案相比现行主流技术方案,在以下几个方面进行了改进:仅需开发一套XML生成器,一套XML解析器(需要说明的是,XML生成器与XML解析器的物理实现可分别设置于两个服务器中,或者设置于同一服务器中;另外,可以分别为每个源系统单独设计开发独立的XML生成器,分别进行数据抽取,同样能完成本发明应用实例上述文件抽取的目的),就可以满足所有类型的源系统至目标系统的数据导入;无论源系统还是目标系统的数据表结构发生变化时,仅需要修改XML解析器使用的字段匹配规则配置文件,大大减少了开发工作量;将源系统数据抽取与目标系统的数据导入分隔为两个 独立步骤,中间以标准化的XML文件进行数据交换,实现了较高程度的系统解耦;数据提取的结果采用XML文件与非结构化数据文件本体以文件偶的形式进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或服务器都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置, 或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

一种非结构化数据存储系统及方法.pdf_第1页
第1页 / 共13页
一种非结构化数据存储系统及方法.pdf_第2页
第2页 / 共13页
一种非结构化数据存储系统及方法.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《一种非结构化数据存储系统及方法.pdf》由会员分享,可在线阅读,更多相关《一种非结构化数据存储系统及方法.pdf(13页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104102652A43申请公布日20141015CN104102652A21申请号201310118763122申请日20130408G06F17/3020060171申请人国家电网公司地址100031北京市西城区西长安街86号申请人华北电力科学研究院有限责任公司72发明人徐小天王刚陈威石磊陈乐然74专利代理机构北京三友知识产权代理有限公司11127代理人郭智54发明名称一种非结构化数据存储系统及方法57摘要本发明提供一种非结构化数据存储系统及方法,包括源系统数据服务器存储企业业务系统特征数据;XML生成器服务器根据源系统数据服务器的记录特征生成XML文件,并将源系统数据服。

2、务器中的非结构化数据文件本体进行提取,以与XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;XML解析器服务器将XML文件按照字段匹配规则进行解析,获取XML文件对应的属性和分类信息;并根据XML文件对应的属性和分类信息,将配对后的XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;非结构化数据服务器存储配对后的XML文件与非结构化数据文件本体的对应关系。本发明可以将各种类型源系统中的数据根据一定的业务规则导入至非结构化数据存储系统中。51INTCL权利要求书2页说明书8页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书8页附图。

3、2页10申请公布号CN104102652ACN104102652A1/2页21一种非结构化数据存储系统,其特征在于,所述企业业务特征数据存储系统包括源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中所述源系统数据服务器,用于存储企业业务系统特征数据;所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件。

4、按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。2如权利要求1所述非结构化数据存储系统,其特征在于,所述XML生成器服务器将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。3如权利要求2所述非结构化数据存储系统,其。

5、特征在于,所述XML生成器服务器根据所述非结构化数据文件本体的存放位置进行提取,进一步包括如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。4如权利要求1所述非结构化数据存储系统,其特征在于,所述非结构化数据服务器,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。5如权利要求1所述非结构化数据存储系统,其特征在于,所述XML生成器服务器根据所述源系统数据服务器的记录特征生成的XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录。

6、的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。6一种非结构化数据存储方法,其特征在于,所述方法应用于企业业务特征数据存储系统,该系统包括源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,所述源系统数据服务器,用于存储企业业务系统特征数据;其中,所述方法包括通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;通过所述XML解析器服务器将所述XML文件按照字段匹配规则进行解析,获取所述。

7、XML文件对应的属性和分类信息;根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据权利要求书CN104102652A2/2页3文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。7如权利要求6所述非结构化数据存储方法,其特征在于,所述将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。8如权利要求7所述非结构化数据存储方法,其特征在于,所述根据所述非结构化数据文件本体的存放位置进行提取,包括如果所述源系统数据服务器的非结构化数据。

8、文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。9如权利要求6所述非结构化数据存储方法,其特征在于,所述将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性,包括以文件偶的形式,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。10如权利要求6所述非结构化数据存储方法,其特征在于,所述通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,包括通过所述XML生成器服务。

9、器根据所述源系统数据服务器的记录特征生成XML文件,其中,所述XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。权利要求书CN104102652A1/8页4一种非结构化数据存储系统及方法技术领域0001本发明涉及企业信息化技术,尤其涉及一种非结构化数据存储系统及方法。背景技术0002BPM(BUSINESSPROCESSMANAGEMENT,即业务流程管理,是一套达成企业各种业务环节整合的全面管理方式,它通常以网络方式实现信息传递、数据同步、业务监控和企业业务流程的持续升级与优化)是提高现代企业信息。

10、化水平的重要技术。使用统一的流程描述规范对业务进行形式化定义,可以方便的完成企业的信息化系统集成、再造等工作,实现信息化系统的明确业务分割。在BPM过程的系统实现层面,常会涉及到多个业务子系统的数据交互问题多个业务数据上可能存在相互依赖的系统采用不同的数据存储和传输规范,从而为系统间进行数据交互带来了较大障碍,这在遗留系统间以及遗留系统与新开发系统的交互过程中最为常见。为解决该类问题,通常需要为系统间的数据接口开发相应的数据读写系统,以实现正常的数据交互。0003电力行业企业中普遍部署了ERP(ENTERPRISERESOURCEPLANNING,即企业资源计划,是针对物资资源管理、人力资源管。

11、理、财务资源管理、信息资源管理集成一体化的企业管理软件套件,是现代企业信息化主流解决方案的重要组成部分)、电力MIS(MANAGEMENTINFORMATIONSYSTEM,即管理信息系统是一个以人为主导,利用计算机软硬件、网络通信设备以及其它办公设备,进行信息的收集、传输、加工、储存、更新和维护,以企业战略竞优、提高效益和效率为目的,支持企业的高层决策、中层控制和基层运作的集成化人机系统)等系统。通常使用ERP进行企业财务、资产、运营等方面的管理,而使用电力MIS进行两票、设备、检修等生产任务的管理。上述系统在国内市场已形成较为成熟的产品系列,多数解决方案中的业务数据采用结构化存储方式,即将。

12、数据存放于数据库的多个二维数据表中。而对业务数据中的非结构化数据(相对于结构化数据(行数据,存储在数据库中,可以用二维表结构来逻辑表达实现的数据)而言,无法用数据库二维逻辑表来表示的数据称为非结构化数据,主要包括各种格式的计算机文件,包括大文本、图片、音频、视频等格式),则主要有两种存储方式一种是将非结构化数据本身作为一个二进制串,直接作为字段存放在数据库表的记录中;另一种则是在数据库表中存放指向非结构化数据存储路径的URL(UNIFORMRESOURCELOCATOR,统一资源定位符),而将非结构化数据本身存放在独立的文件系统中。0004在电力企业内,上述系统中的非结构化文件主要包括各类设备。

13、设计文档、合同及说明文件、技术报告和检测报告、现场录音录像等,它们通常以附件的形式组织在系统流程中。在一般情况下,这些附件无法直接查找,也无法按类别、属性进行索引,只能通过查找所关联的业务流程,间接的获取相关信息。而电力企业为了掌握这部分生产相关的非结构化数据,需要建立专门用于存储和管理非结构化数据的数据存储系统,对非结构化数据按照不同的属性维度(比如按照年份、设备类型、制造商、重要程度等)进行分类索引,以方便从不同角度对其进行搜索和管理。0005在上述背景下,如何对原有业务流程和生产信息管理系统中的非结构化数据和与说明书CN104102652A2/8页5之关联的结构化属性进行自动化的提取,建。

14、立原有系统中的流程、数据记录与非结构化数据存储系统中的非结构化文档的对应关系就成为本领域的技术人员所要解决的问题。0006现有技术业务流程系统中结构化数据的提取尚未形成通用的技术规范,目前较为主流的方法是开发独立的数据读写模块,以构建单个源系统与目标系统之间的数据读写通道,使用该种解决方案,一般需要如下步骤首先确定目标系统进行非结构化数据存储所需的分类以及属性信息,整理出对应的源系统应提供的字段列表;查看数据库,确定非结构化数据本体的存放位置,如果直接以大字段方式存储,则对该字段进行反序列化,否则根据非结构化数据本体的存储路径读取数据本体;针对特定的源系统开发适配工具,在该适配工具中配置源系统。

15、数据库参数,从源系统数据库中分别读取非结构化数据和需要抽取的对应特征数据字段;适配工具调用目标系统接口,将源系统抽取的特征数据按照匹配规则作为相应非结构化文档的属性/类别信息写入目标系统数据库,并根据属性/类别信息将非结构化数据写入目标系统。0007上述解决方案的主要缺点如下开发成本高需要为每个源系统开发一套独立的系统适配工具,以使源系统特征数据与目标系统(非结构化数据存储系统)的属性/类别字段相匹配;耦合程度高该方案中源系统数据抽取与目标系统的数据写入均由同一个适配器完成,没有进行合理的功能区隔。无论是源系统数据存储结构出现变化,还是目标系统所使用的属性及类别发生调整,都需要对适配工具进行重。

16、新开发。尤其是存在多个源系统时,目标系统的调整将导致所有源系统适配工具的重新开发,从而适应调整后的非结构化数据关联属性;纠错难度高由于各适配器直接读取源系统数据表格,不生成提取过程的中间文件,一旦发生错误仍需要读写源系统数据库进行追踪,并需要从数据提取步骤进行重新操作,修正成本较高。0008综上可见,如何设计一种自动化提取电力企业生产业务特征数据的方法,以将各种类型源系统中的数据根据一定的业务规则导入至非结构化数据存储系统中,这是本领域的技术人员亟待解决的一个技术难题。发明内容0009本发明实施例提供一种非结构化数据存储系统及方法,以将各种类型源系统中的数据根据一定的业务规则导入至非结构化数据。

17、存储系统中。0010一方面,本发明实施例提供了一种非结构化数据存储系统,所述企业业务特征数据存储系统包括源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中0011所述源系统数据服务器,用于存储企业业务系统特征数据;0012所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;0013所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行。

18、解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存说明书CN104102652A3/8页6储到相应分类并赋予对应属性;0014所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。0015可选的,在本发明一实施例中,所述XML生成器服务器将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。0016可选的,在本发明一实施。

19、例中,所述XML生成器服务器根据所述非结构化数据文件本体的存放位置进行提取,进一步包括如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。0017可选的,在本发明一实施例中,所述非结构化数据服务器,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。0018可选的,在本发明一实施例中,所述XML生成器服务器根据所述源系统数据服务器的记录特征生成的XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该。

20、条字段引用记录作为当前字段节点的子节点。0019另一方面,本发明实施例提供了一种非结构化数据存储方法,所述方法应用于企业业务特征数据存储系统,该系统包括源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,所述源系统数据服务器,用于存储企业业务系统特征数据;其中,所述方法包括0020通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;0021通过所述XML解析器服务器将所述XML文件按照字段匹配规则进行解析,获取所。

21、述XML文件对应的属性和分类信息;0022根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。0023可选的,在本发明一实施例中,所述将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。0024可选的,在本发明一实施例中,所述根据所述非结构化数据文件本体的存放位置进行提取,包括如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化。

22、,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。0025可选的,在本发明一实施例中,所述将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性,包括以文件偶的形式,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。0026可选的,在本发明一实施例中,所述通过所述XML生成器服务器根据所述源系统说明书CN104102652A4/8页7数据服务器的记录特征生成XML文件,包括通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,其中,所。

23、述XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。0027上述技术方案具有如下有益效果因为采用所述企业业务特征数据存储系统包括源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中所述源系统数据服务器,用于存储企业业务系统特征数据;所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;。

24、所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系的技术手段,所以达到了如下的技术效果仅需开发一套XML生成器,一套XML解析器,就可以满足所有类型的源系统至目标系统的数据导入;无论源系统还是目标系统的数据表结构发生变化时,仅需要修改XML解析器使用的字段匹配规。

25、则配置文件,大大减少了开发工作量;将源系统数据抽取与目标系统的数据导入分隔为两个独立步骤,中间以标准化的XML文件进行数据交换,实现了较高程度的系统解耦;数据提取的结果采用XML与非结构化数据对应的形式进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯。附图说明0028为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0029图1为本发明实施例一种非结构化数据存储系统。

26、组成结构示意图;0030图2为本发明实施例一种非结构化数据存储方法流程图;0031图3为本发明应用实例系统结构示意图;0032图4为本发明应用实例图3中的系统运作机制流程示意图。具体实施方式0033下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。0034如图1所示,为本发明实施例一种非结构化数据存储系统组成结构示意图,所述企业业务特征数据存储系统包括源系统数据服务器11、XML生成器服。

27、务器12、XML解析器说明书CN104102652A5/8页8服务器13、非结构化数据服务器14,其中0035所述源系统数据服务器11,用于存储企业业务系统特征数据;0036所述XML生成器服务器12,与所述源系统数据服务器11相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;0037所述XML解析器服务器13,与所述XML生成器服务器12相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文。

28、件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;0038所述非结构化数据服务器14,与所述XML解析器服务器13相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。0039可选的,所述XML生成器服务器12将所述源系统数据服务器11中的非结构化数据文件本体进行提取,包括检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。0040可选的,所述XML生成器服务器12根据所述非结构化数据文件本体的存放位置进行提取,进一步包括如果所述源系统数据服务器的非结构化数据。

29、文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。0041可选的,所述非结构化数据服务器14,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。0042可选的,所述XML生成器服务器12根据所述源系统数据服务器11的记录特征生成的XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。0043对应于上述方法实施例,如图2所示,为本发明实施例一种非结构化数据存储方法流程图,所述方法应用于企业业务特。

30、征数据存储系统,该系统包括源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,所述源系统数据服务器,用于存储企业业务系统特征数据;其中,所述方法包括0044201、通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;0045202、通过所述XML解析器服务器将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;0046203、根据所述XML文件对应的属性和分类信息,将配对后的所述XML。

31、文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。0047可选的,所述将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。说明书CN104102652A6/8页90048可选的,所述根据所述非结构化数据文件本体的存放位置进行提取,包括如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。0049可选的,所述将配对后的。

32、所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性,包括以文件偶的形式,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。0050可选的,所述通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,包括通过所述XML生成器服务器根据所述源系统数据服务器的记录特征生成XML文件,其中,所述XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。0051本发明实施例上述技术方案具。

33、有如下有益效果因为采用所述企业业务特征数据存储系统包括源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中所述源系统数据服务器,用于存储企业业务系统特征数据;所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属。

34、性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系的技术手段,所以达到了如下的技术效果仅需开发一套XML生成器,一套XML解析器,就可以满足所有类型的源系统至目标系统的数据导入;无论源系统还是目标系统的数据表结构发生变化时,仅需要修改XML解析器使用的字段匹配规则配置文件,大大减少了开发工作量;将源系统数据抽取与目标系统的数据导入分隔为两个独立步骤,中间以标准化的XML文件进行数据交换,实现了较高程度的系统解耦;数据提取的结果采。

35、用XML与非结构化数据对应的形式进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯。0052以下举应用实例进行详细说明0053针对现有技术方案的不足,本发明应用实例方案将各源系统(源系统数据服务器)的数据抽取与目标系统(非结构化数据服务器)的数据写入作为两个独立的步骤完成。本发明应用实例中,为所有的源系统设置的一个数据抽取模块(设置于XML生成器服务器中,以下称XML生成器),该模块将源数据库单条记录中所有特征数据一次性读出,按照既定规则生成(为每条记录生成唯一的)XML(EXTENSIBLEMARKUPLANGUAGE,即可扩展标记语言,它是一种用于标记电子文件使其具。

36、有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言)文档;设置单一XML解析器(设置于XML解析器服务器中,以下称XML解析器),对各源系统生成的XML文档进行解析,并将解析说明书CN104102652A7/8页10结果写入目标系统数据库中,如图3所示,为本发明应用实例系统结构示意图。0054如图4所示,为本发明应用实例图3中的系统运作机制流程示意图,包括0055401、开始;0056402、源数据库记录读取;0057403、识别目标系统数据库中与单条记录相关的所有结构化字段信息,生成源记录相关特征字段XML文件;其中单条记录的每个数据字段作为X。

37、ML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条引用记录作为当前字段节点的子节点;0058404、判断非结构化数据文件本体是否存储在表内如果是,则转405,否认,转406;0059405、如果源系统的非结构化数据文件本体直接以大字段方式在数据表中存储,则进行文件本体字段反序列化;0060406、如果非结构化数据文件本体没有存储在表内,则读取文件存储路径;0061407、按照路径读取非结构化数据文件本体;0062408、进行XML文件与提取的非结构化数据文件本体配对,作为目标系统数据导入模块(即图3中的XML解析器)的输入;0063409、目标系统的数据导入模块将分析输入的XM。

38、L文件,按照字段匹配规则配置文件提取需要用到的特征数据字段,作为非结构化文档的属性和分类信息,并依此将对应的非结构化数据存储到相应分类并写入特定属性;0064410、目标系统非结构化数据写入;采用文件偶的形式将XML文件与非结构化数据文件本体进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯;0065411、结束。0066本发明应用实例方案相比现行主流技术方案,在以下几个方面进行了改进仅需开发一套XML生成器,一套XML解析器(需要说明的是,XML生成器与XML解析器的物理实现可分别设置于两个服务器中,或者设置于同一服务器中;另外,可以分别为每个源系统单独设计开发独立的。

39、XML生成器,分别进行数据抽取,同样能完成本发明应用实例上述文件抽取的目的),就可以满足所有类型的源系统至目标系统的数据导入;无论源系统还是目标系统的数据表结构发生变化时,仅需要修改XML解析器使用的字段匹配规则配置文件,大大减少了开发工作量;将源系统数据抽取与目标系统的数据导入分隔为两个独立步骤,中间以标准化的XML文件进行数据交换,实现了较高程度的系统解耦;数据提取的结果采用XML文件与非结构化数据文件本体以文件偶的形式进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯。0067本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(ILLUSTRATIVEL。

40、OGICALBLOCK),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(INTERCHANGEABILITY),上述的各种说明性部件(ILLUSTRATIVECOMPONENTS),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。说明书CN104102652A108/8页110068本发明实施例中所描述的各种说明性的逻辑块,或单元,或服务器都可以通过通用处理器,数字信。

41、号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。0069本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、。

42、寄存器、硬盘、可移动磁盘、CDROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。0070在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电。

43、脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CDROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(DISK)和磁盘(DISC)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。0071以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。说明书CN104102652A111/2页12图1图2说明书附图CN104102652A122/2页13图3图4说明书附图CN104102652A13。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1