一种基于列模板的智能文本数据采集方法和系统.pdf

上传人:e2 文档编号:565087 上传时间:2018-02-22 格式:PDF 页数:7 大小:461.38KB
返回 下载 相关 举报
摘要
申请专利号:

CN201410366176.9

申请日:

2014.07.29

公开号:

CN104123376A

公开日:

2014.10.29

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20140729|||公开

IPC分类号:

G06F17/30

主分类号:

G06F17/30

申请人:

广东能龙教育股份有限公司

发明人:

余敬龙

地址:

528403 广东省中山市东区中山四路49号二楼至四楼

优先权:

专利代理机构:

广州嘉权专利商标事务所有限公司 44205

代理人:

张海文

PDF下载: PDF下载
内容摘要

本发明公开了一种基于列模板的智能文本数据采集方法和系统,包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库;通过列模板方式的细化控制粒度,增强数据导入程序的灵活性和通用性。

权利要求书

1.  一种基于列模板的智能文本数据采集方法,其特征在于包括以下步骤:
A、分析数据文件,确定数据文件包含数据项信息;
B、根据数据文件数据项信息制定列模板;
C、转换数据,根据列模板将原始数据转换目标数据;
D、导入数据,将转换后的数据导入数据库。

2.
  根据权利要求1所述的一种基于列模板的智能文本数据采集方法,其特征在于:所述列模板包括对应数据库列名、数据类型、转换规则。

3.
  根据权利要求2所述的一种基于列模板的智能文本数据采集方法,其特征在于:所述转换规则包括直接导入转换、字典导入转换、关联导入转换。

4.
  根据权利要求3所述的一种基于列模板的智能文本数据采集方法,其特征在于:所述直接导入直接转换为数据不做转换;所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换。

5.
  根据权利要求4所述的一种基于列模板的智能文本数据采集方法,其特征在于:所述关联导入转换通过预先定义的SQL语句完成。

6.
  一种基于列模板的智能文本数据采集系统,其特征在于:包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库。

7.
  根据权利要求6所述的一种基于列模板的智能文本数据采集系统,其特征在于: 所述列模版包括对应数据库列名、数据类型、转换规则。

8.
  根据权利要求7所述的一种基于列模板的智能文本数据采集系统,其特征在于: 所述转换规则包括直接导入转换、字典导入转换、关联导入转换。

9.
  根据权利要求8所述的一种基于列模板的智能文本数据采集系统,其特征在于: 所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换。

10.
  根据权利要求9所述的一种基于列模板的智能文本数据采集系统,其特征在于:所述关联导入转换通过预先定义的SQL语句完成。

说明书

一种基于列模板的智能文本数据采集方法和系统
技术领域
本发明属于数据库技术领域,具体涉及一种将数据文件导入数据库的方法和系统,尤其适合将各种不同格式数据导入到数据库中。
背景技术
现有技术中,将数据文件导入数据库的方法为:首先提取数据文件中的一条数据,然后进行分析,根据分析结果,建立相应数据表以及数据表和该数据文件数据行的对应关系,然后编写程序将文件导入数据库。这种方法导入数据,必须针对不同的数据文件编写不同的导入程序,其缺点主要表现如下:
(1)必须针对每个数据文件编写不同的导入程序,开发工作量大。而且一旦数据文件格式变化,必须修改相应的导入程序,维护工作量大。
(2)对于文件格式预先不知道的情况,无法胜任。只适合预定义特定格式文件导入情况。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于列模板的智能文本数据采集方法和系统。
本发明采用的技术方案是:
一种基于列模板的智能文本数据采集方法,包括以下步骤:
A、分析数据文件,确定数据文件包含数据项信息;
B、根据数据文件数据项信息制定列模板;
C、    转换数据,根据列模板将原始数据转换目标数据;
D、   导入数据,将转换后的数据导入数据库。
其中,所述列模板包括对应数据库列名、数据类型、转换规则。
进一步的,所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
所述直接导入直接转换为数据不做转换;所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换。
所述关联导入转换通过预先定义的SQL语句完成。
本发明还包括基于上述方法的技术方案,一种基于列模板的智能文本数据采集系统,其特征在于:包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库。
所述列模版包括对应数据库列名、数据类型、转换规则。
所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换。
所述关联导入转换通过预先定义的SQL语句完成。
本发明的有益效果:
本发明智能文本数据采集方法和系统通过列模板方式的细化控制粒度,将数据文件每一个数据项和数据库的一列建立对应关系和转换规则,转换程序也是基于列的,数据导入程序动态组合不同的列导入不同的数据行;这样,只要写一次导入程序就可以导入不同格式的数据问题,从而实现一个导入程序采集各种不同数据文件的数据。
附图说明
下面结合附图对本发明的具体实施方式做进一步的说明。
图1是本发明的系统架构图;
图2是本发明的数据采集流程图;
图3是本发明具体实施例的列模板示意图。
具体实施方式
如图1所示,为本发明的一种基于列模板的智能文本数据采集系统,包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库。
其中列模板和列模板分析引擎是整个系统的核心。
所述列模版包括对应数据库列名、数据类型、转换规则。所述转换规则包括直接导入转换、字典导入转换、关联导入转换。具体的,所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换,该关联导入转换通过预先定义的SQL语句完成。
本发明的系统通过列模板方式的细化控制粒度,增强数据导入程序的灵活性和通用性,而无需传统数据表导入时必须针对不同的数据文件编写不同的导入程序。
本发明还包括基于上述系统同一个发明构思的技术方案,一种基于列模板的智能文本数据采集方法,包括以下步骤:(见图2)
A、分析数据文件,确定数据文件包含数据项信息;
B、根据数据文件数据项信息制定列模板;
E、 转换数据,根据列模板将原始数据转换目标数据;
F、 导入数据,将转换后的数据导入数据库。
本技术方案的具体实施例如图3所示,以用户资料导入为例,用户资料主要包括用户名称,性别,年龄,身份证号,地址等五项数据。假设其中一条数据为:张三,男,24,423322198805103266,广东省中山市中山四路88号。本例中数据项之间采用逗号分隔,也可以采用其他符号风格,比如空格和分号等。
相应的,如图所示,所述列模板包括对应数据库列名、数据类型、转换规则。进一步的,所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
具体的,所述直接导入直接转换为数据不做转换;
所述字典导入转换:主要按字典对应关系转换。比如:性别导入 提供的数据是 男,女,未知 而数据库存储的值是 0 --男,1 --女 ,2 --未知。这样数据导入之前需要做一层转换,转换的依据就是字典(0:男,1:女 ,2:未知);
 所述关联导入转换以现有数据做一次转换,(比如:导入一个物品的类别,需要先到类别数据表找到对应类别的ID,然后将ID导入数据库),所述关联导入转换通过预先定义的SQL语句完成。
本发明智能文本数据采集方法和系统分析数据分析文件是基于列粒度的,将数据文件每一个数据项和数据库的一列建立对应关系和转换规则,转换程序也是基于列的,数据导入程序动态组合不同的列导入不同的数据行;这样,只要写一次导入程序就可以导入不同格式的数据问题,从而实现一个导入程序采集各种不同数据文件的数据。
以上所述仅为本发明的优先实施方式,本发明并不限定于上述实施方式,只要以基本相同手段实现本发明目的的技术方案都属于本发明的保护范围之内。

一种基于列模板的智能文本数据采集方法和系统.pdf_第1页
第1页 / 共7页
一种基于列模板的智能文本数据采集方法和系统.pdf_第2页
第2页 / 共7页
一种基于列模板的智能文本数据采集方法和系统.pdf_第3页
第3页 / 共7页
点击查看更多>>
资源描述

《一种基于列模板的智能文本数据采集方法和系统.pdf》由会员分享,可在线阅读,更多相关《一种基于列模板的智能文本数据采集方法和系统.pdf(7页珍藏版)》请在专利查询网上搜索。

本发明公开了一种基于列模板的智能文本数据采集方法和系统,包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库;通过列模板方式的细化控制粒度,增强数据导入程序的灵活性和通用性。 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1