映射数据集元素.pdf

上传人:111****11 文档编号:4059363 上传时间:2018-08-13 格式:PDF 页数:36 大小:6.66MB
返回 下载 相关 举报
摘要
申请专利号:

CN201080051923.X

申请日:

2010.09.16

公开号:

CN102656554A

公开日:

2012.09.05

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 7/00申请日:20100916|||公开

IPC分类号:

G06F7/00; G06F17/30

主分类号:

G06F7/00

申请人:

起元技术有限责任公司

发明人:

S.斯图德; A.威斯曼

地址:

美国马萨诸塞州

优先权:

2009.09.16 US 61/243,132

专利代理机构:

北京市柳沈律师事务所 11105

代理人:

张丽新

PDF下载: PDF下载
内容摘要

将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素包括:在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个映射关系,映射关系中的至少一个包括可在数据处理系统上执行的变换表达式,所述变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出;在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识;基于来自输入数据集的与映射到输入变量的输入数据集的元素相关联的输入数据,根据变换表达式,从数据处理系统中生成输出数据;以及基于确认标准,响应于生成的输出数据,确定确认信息。

权利要求书

1: 一种用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素的 方法, 所述方法包括 : 在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个 映射关系, 映射关系中的至少一个包括可在数据处理系统上执行的变换表达式, 所述变换 表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出 ; 在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识 ; 基于来自输入数据集的、 与映射到输入变量的输入数据集的元素相关联的输入数据, 根据变换表达式, 从数据处理系统中生成输出数据 ; 基于确认标准, 响应于生成的输出数据, 确定确认信息, 所述确认标准定义与输出数据 集的一个或多个标识元素相关联的有效值的一个或多个特性 ; 以及 基于确定的确认信息, 在界面中呈现可视反馈。
2: 根据权利要求 1 的方法, 还包括根据映射关系, 将来自输入数据集的输入数据导入 到输出数据集中。
3: 根据权利要求 2 的方法, 其中, 导入该输入数据包括向输入数据集的输入记录的各 个字段中的输入值应用变换表达式, 且在输出数据集的输出记录的各个字段中存储输出 值, 其中, 所述输入记录的至少一些字段对应于映射到输入变量的、 输入数据集的元素, 且 输出记录的至少一些字段对应于映射到各个映射关系的输出的、 输出数据集的元素。
4: 根据权利要求 3 的方法, 其中, 向输入数据集的输入记录的各个字段中的输入值应 用变换表达式、 且在输出数据集的输出记录的各个字段中存储输出值包括 : 执行数据流图, 该数据流图包括表示数据处理组件的节点、 表示在数据处理组件之间的数据流的链接、 表 示提供输入记录的数据流的输入数据集的节点和表示接收输出记录的数据流的输出数据 集的节点。
5: 根据权利要求 1 的方法, 还包括存储用于指定所述映射关系的映射。
6: 根据权利要求 1 的方法, 其中, 确定确认信息包括检索所存储的确认标准的规范。
7: 根据权利要求 6 的方法, 其中, 由数据处理系统提供所述界面, 且向第一用户呈现所 述界面, 且从第二用户接收所述确认标准的规范。
8: 根据权利要求 1 的方法, 还包括在界面中呈现表示生成的输出数据的值。
9: 根据权利要求 1 的方法, 其中, 确定确认信息包括 : 基于与映射到变换映射关系的输 出的输出数据集的所标识元素相关联的确认标准, 评价关于包括变换表达式的每个变换映 射关系所生成的输出数据。
10: 根据权利要求 9 的方法, 其中, 所述映射关系包括多个包括变换表达式的变换映射 关系。
11: 根据权利要求 9 的方法, 其中, 所述确认标准包括第一确认标准和第二确认标准, 所述第一确认标准与输出数据集的第一所标识元素相关联、 用于定义与第一所标识元素相 关联的有效值的一个或多个特性, 且所述第二确认标准与输出数据集的第二所标识元素相 关联、 用于定义与第二所标识元素相关联的有效值的一个或多个特性。
12: 根据权利要求 11 的方法, 其中, 响应于所生成的、 包括对应于第一所标识元素的第 一字段和对应于第二所标识元素的第二字段的输出记录来确定确认信息。
13: 根据权利要求 12 的方法, 其中, 所述第一确认标准依赖于在输出记录的第二字段 2 中的值。
14: 根据权利要求 12 的方法, 其中, 所述确认信息依赖于在输出记录的第一字段中的 值和在输出记录的第二字段中的值。
15: 根据权利要求 1 的方法, 还包括确定指示变换表达式的有效结构的句法信息。
16: 根据权利要求 15 的方法, 还包括基于所确定的句法信息, 在界面中呈现界面可视 反馈。
17: 根据权利要求 1 的方法, 还包括接受修改后变换表达式, 该修改后变换表达式基于 所接收的用户对变换表达式的修改。
18: 根据权利要求 17 的方法, 还包括基于来自输入数据集的输入数据, 根据修改后变 换表达式, 从数据处理系统生成修改后输出数据。
19: 根据权利要求 18 的方法, 还包括响应于所生成的修改后输出数据, 确定修改后确 认信息, 且基于修改后确认信息在界面中呈现可视反馈。
20: 根据权利要求 19 的方法, 其中, 生成修改后输出数据并基于修改后确认信息呈现 可视反馈发生在正修改变换表达式时。
21: 根据权利要求 19 的方法, 其中, 生成修改后输出数据并基于修改后确认信息呈现 可视反馈在已经修改了变换表达式之后响应于用户请求而发生。
22: 根据权利要求 1 的方法, 其中, 根据表示到应用变换表达式的数据流图的组件的数 据流的链接, 接收来自输入数据集的输入数据, 该数据流图包括表示数据处理组件的节点、 表示在数据处理组件之间的数据流的链接、 表示提供输入数据的数据流的输入数据集的节 点和表示接收输出数据的数据流的输出数据集的节点。
23: 根据权利要求 1 的方法, 其中, 根据表示来自应用变换表达式的数据流图的组件的 数据流的链接, 向输出数据集提供在输出数据集中存储的所生成输出数据, 所述数据流图 包括表示数据处理组件的节点、 表示在数据处理组件之间的数据流的链接、 表示提供输入 数据的数据流的输入数据集的节点和表示接收输出数据的数据流的输出数据集的节点。
24: 根据权利要求 1 的方法, 其中, 响应于对应用第一映射关系的数据流图的组件的选 择, 接收至少第一映射关系, 该数据流图包括表示数据处理组件的节点、 表示在数据处理组 件之间的数据流的链接、 表示提供输入数据的数据流的输入数据集的节点和表示接收输出 数据的数据流的输出数据集的节点。
25: 根据权利要求 1 的方法, 其中, 所述可视反馈包括表示在界面上显示的沿袭图的多 个节点之一的确认信息的指示符, 所述节点表示包括与输出数据集的一个或多个所标识元 素相关联的至少一个变换后值的变换后值。
26: 根据权利要求 25 的方法, 其中, 所述可视反馈包括多个指示符, 每个指示符与界面 上显示的沿袭图的多个节点之中的节点相关联。
27: 根据权利要求 26 的方法, 其中, 由如下链接连接与所述指示符相关联的节点中的 至少一些节点, 所述链接表示节点所表示的变换后值之间的依赖关系。
28: 根据权利要求 1 的方法, 其中, 所述可视反馈包括多个指示符, 每个指示符与界面 上显示的多个输出元素之中的输出元素相关联, 该多个输出元素包括表示输出数据集的一 个或多个所标识元素的至少一个输出元素。
29: 根据权利要求 28 的方法, 其中, 界面上显示的多个输出元素对应于表示将变换表 3 达式应用于输入数据的记录的结果的字段。
30: 根据权利要求 29 的方法, 其中, 至少一个指示符指示对于行字段值的确认信息, 该 行表示将变换表达式应用于输入数据的单个记录得到的输出值。
31: 根据权利要求 29 的方法, 其中, 至少一个指示符指示对于列字段值的确认信息, 该 列表示将单个变换表达式多次应用于输入数据的各个记录。
32: 根据权利要求 1 的方法, 其中, 所述可视反馈包括基于确认信息计算的统计数据, 所述统计数据包括表示将确认标准应用于输入数据的多个记录的结果的数据。
33: 根据权利要求 32 的方法, 其中, 以规律的时间间隔计算所述统计数据。
34: 根据权利要求 1 的方法, 其中, 所述可视反馈包括与确认标准相关联的定制错误消 息, 所述定制错误消息指示关于将确认标准应用于输入数据的记录的具体实例的结果的信 息。
35: 根据权利要求 1 的方法, 还包括在界面中接收被定义为与输入变量无关的至少一 个常量的输出。
36: 根据权利要求 1 的方法, 还包括接收表示变换表达式的结果的期望值, 以及其中确 定确认信息包括将该期望值与关于包括变换表达式的每个变换映射关系生成的输出数据 相比较。
37: 一种用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素的 系统, 所述系统包括 : 输入数据存储系统, 存储输入数据集 ; 输出数据存储系统, 存储输出数据集 ; 以及 数据处理系统, 被配置以提供用于接收用户输入并呈现数据处理的结果的界面, 包 括: 在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个 映射关系, 映射关系中的至少一个包括可在数据处理系统上执行的变换表达式, 所述变换 表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出 ; 在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识 ; 基于来自输入数据集的、 与映射到输入变量的输入数据集的元素相关联的输入数据, 根据变换表达式, 从数据处理系统生成输出数据 ; 基于确认标准, 响应于生成的输出数据, 确定确认信息, 所述确认标准定义与输出数据 集的一个或多个标识元素相关联的有效值的一个或多个特性 ; 以及 基于确定的确认信息, 在界面中呈现可视反馈。
38: 一种用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素的 系统, 所述系统包括 : 用于存储输入数据集的装置 ; 用于存储输出数据集的装置 ; 以及 用于提供用于接收用户输入并呈现数据处理的结果的界面的装置, 包括 : 在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个 映射关系, 映射关系中的至少一个包括可在数据处理系统上执行的变换表达式, 所述变换 表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出 ; 4 在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识 ; 基于来自输入数据集的、 与映射到输入变量的输入数据集的元素相关联的输入数据, 根据变换表达式, 从数据处理系统中生成输出数据 ; 基于确认标准, 响应于生成的输出数据, 确定确认信息, 所述确认标准定义与输出数据 集的一个或多个标识元素相关联的有效值的一个或多个特性 ; 以及 基于确定的确认信息, 在界面中呈现可视反馈。
39: 一种存储用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个 元素的计算机程序的计算机可读介质, 所述计算机程序包括用于使得计算机进行以下的指 令: 在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个 映射关系, 映射关系中的至少一个包括可在数据处理系统上执行的变换表达式, 所述变换 表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出 ; 在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识 ; 基于来自输入数据集的、 与映射到输入变量的输入数据集的元素相关联的输入数据, 根据变换表达式, 从数据处理系统中生成输出数据 ; 基于确认标准, 响应于生成的输出数据, 确定确认信息, 所述确认标准定义与输出数据 集的一个或多个标识元素相关联的有效值的一个或多个特性 ; 以及 基于确定的确认信息, 在界面中呈现可视反馈。

说明书


映射数据集元素

    优先权声明
     本申请要求在 2009 年 9 月 16 日提交的美国临时专利申请 No.61/243,132 的权益, 其全部内容在此被引用附于此。
     技术领域
     该描述涉及映射数据集元素。背景技术 在一些数据库或数据仓储系统中, 一个数据集 ( “源” 或 “输入” 数据集) 的元素被 映射到另一数据集 ( “输出” 或 “目标” 数据集) 的元素。例如, 这些元素可以包括数据库表 的字段或数据对象的属性。然后, 输入数据集的记录 (例如, 表格的行) 可以被输入到输出数 据集中, 其适当的输入字段被映射到适当的输出字段。可以存在输入数据集的格式和输出 数据集的格式之间的差异, 这要求转换数据值来满足输出格式。 在一些情况下, 还应用例如 另外的数据变换以保证数据质量或满足输出数据集的期望特征。 映射处理可以涉及在具有 不同技能级别 (例如, 新手或专家) 或不同关注领域 (例如, 商业或技术) 的不同用户之间的 交互。
     发明内容 在一个方面中, 通常, 描述一种用于将在输入数据处理系统中存储的输入数据集 的一个或多个元素映射到在输出数据处理系统中存储的输出数据集的一个或多个元素的 方法。该方法包括在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间 的一个或多个映射关系, 映射关系中的至少一个包括可在数据处理系统上执行的变换表达 式, 所述变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输 出。该方法包括在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标 识。该方法包括基于来自输入数据集的、 与映射到输入变量的输入数据集的元素相关联的 根据变换表达式, 从数据处理系统中生成输出数据。该方法包括基于定义与输出数据集的 一个或多个标识元素相关联的有效值的一个或多个特性的确认标准, 响应于生成的输出数 据, 确定确认信息 ; 以及基于确定的确认信息, 在界面中呈现可视反馈。
     上述方面可以包括一个或多个以下特征。
     该方法还包括根据映射关系, 将来自输入数据集的输入数据导入到输出数据集 中。
     导入该输入数据包括向输入数据集的输入记录的各个字段中的输入值应用变换 表达式, 且在输出数据集的输出记录的各个字段中存储输出值, 其中, 所述输入记录的至少 一些字段对应于映射到输入变量的、 输入数据集的元素, 且输出记录的至少一些字段对应 于映射到各个映射关系的输出的、 输出数据集的元素。
     向输入数据集的输入记录的各个字段中的输入值应用变换表达式、 且在输出数据
     集的输出记录的各个字段中存储输出值包括 : 执行数据流图, 该数据流图包括表示数据处 理组件的节点、 表示在数据处理组件之间的数据流的链接、 表示提供输入记录的数据流的 输入数据集的节点和表示接收输出记录的数据流的输出数据集的节点。
     该方法还包括存储指定映射关系的映射。
     确定确认信息包括检索输出数据处理系统中存储的确认标准的规范。
     通过数据处理系统来提供所述界面, 且向第一用户呈现所述界面, 且从第二用户 接收输出数据处理系统中存储的确认标准的规范。
     该方法还包括在界面中呈现表示生成的输出数据的值。
     确定确认信息包括基于与映射到变换映射关系的输出的、 输出数据集的所标识元 件相关联的确认标准, 评价关于包括变换表达式的每个变换映射关系所生成的输出数据。
     所述映射关系包括多个包括变换表达式的变换映射关系。
     所述确认标准包括第一确认标准和第二确认标准, 所述第一确认标准与输出数据 集的第一所标识元素相关联、 用于定义与第一所表示元素相关联的有效值的一个或多个特 性, 且所述第二确认标准与输出数据集的第二所标识元素相关联, 用于定义与第二所标识 元素相关联的有效值的一个或多个特性。 响应于所生成的、 包括对应于第一所标识元素的第一字段和对应于第二所标识元 素的第二字段的输出记录来确定确认信息。
     所述第一确认标准依赖于在输出记录的第二字段中的值。
     所述确认信息依赖于在输出记录的第一字段中的值和输出记录的第二字段中的 值。
     该方法还包括确定指示变换表达式的有效结构的句法信息。
     该方法还包括基于所确定的句法信息, 在界面中呈现界面可视反馈。
     该方法还包括接受基于所接收的用户对变换表达式的修改的修改后变换表达式。
     该方法还包括基于来自输入数据集的输入数据, 根据修改后变换表达式, 从数据 处理系统生成修改后输出数据。
     该方法还包括响应于所生成的修改后输出数据, 确定修改后确认信息, 且基于修 改后确认信息在界面中呈现可视反馈。
     生成修改后输出数据并基于修改后确认信息呈现可视反馈发生在正修改变换表 达式时。
     生成修改后输出数据并基于修改后确认信息呈现可视反馈在已经修改了变换表 达式之后响应于用户请求而发生。
     根据表示到应用变换表达式的数据流图的组件的数据流的链接, 接收来自输入数 据集的输入数据, 该数据流图包括表示数据处理组件的节点、 表示在数据处理组件之间的 数据流的链接、 表示提供输入数据的数据流的输入数据集的节点和表示接收输出数据的数 据流的输出数据集的节点。
     根据表示来自应用变换表达式的数据流图的组件的数据流的链接, 向输出数据集 提供在输出数据集中存储的所生成输出数据, 所述数据流图包括表示数据处理组件的节 点、 表示在数据处理组件之间的数据流的链接、 表示提供输入数据的数据流的输入数据集 的节点和表示接收输出数据的数据流的输出数据集的节点。
     响应于对应用第一映射关系的数据流图的组件的选择, 接收至少第一映射关系, 该数据流图包括表示数据处理组件的节点、 表示在数据处理组件之间的数据流的链接、 表 示提供输入数据的数据流的输入数据集的节点和表示接收输出数据的数据流的输出数据 集的节点。
     所述可视反馈包括表示在界面上显示的沿袭图的多个节点之一的确认信息的指 示符, 所述节点表示包括与输出数据集的一个或多个所标识元素相关联的至少一个变换后 值的变换后值。
     所述可视反馈包括多个指示符, 每个指示符与界面上显示的沿袭图的多个节点之 中的节点相关联。
     由表示节点所表示的变换后值之间的依赖关系的链接来连接与所述指示符相关 联的至少一些节点。
     所述可视反馈包括多个指示符, 每个指示符与界面上显示的多个输出元素之中的 输出元素相关联, 该多个输出元素包括表示输出数据集的一个或多个所标识元素的至少一 个输出元素。
     界面上显示的多个输出元素对应于表示将变换表达式应用于输入数据的记录的 结果的字段。 至少一个指示符指示对于行字段值的确认信息, 该行表示将变换表达式应用于输 入数据的单个记录得到的输出值。
     至少一个指示符指示对于列字段值的确认信息, 该列表示将单个变换表达式多次 应用于输入数据的各个记录。
     所述可视反馈包括基于确认信息计算的统计数据, 所述统计数据包括表示将确认 标准应用于输入数据的多个记录的结果的数据。
     以规律的时间间隔计算统计数据。
     所述可视反馈包括与确认标准相关联的定制错误消息, 所述定制错误消息指示关 于将确认标准应用于输入数据的记录的具体实例的结果的信息。
     该方法还包括在界面中接收被定义为与输入变量无关的至少一个常数的输出。
     该方法还包括接收表示变换表达式的结果的期望值, 其中, 确定确认信息包括比 较该期望值与关于包括变换表达式的每个变换映射关系生成的输出数据。
     在另一方面中, 描述一种用于将输入数据集的一个或多个元素映射到输出数据集 的一个或多个元素的系统。 该系统包括输入数据存储系统, 存储输入数据集 ; 输出数据存储 系统, 存储输出数据集 ; 以及数据处理系统, 被配置以提供用于接收用户输入并呈现数据处 理的结果的界面。该接收和呈现包括 : 在界面中接收在给定的输出和由输入变量表示的一 个或多个输入之间的一个或多个映射关系, 映射关系中的至少一个包括可在数据处理系统 上执行的变换表达式, 所述变换表达式基于映射到输入数据集的元素的至少一个输入变量 定义映射关系的输出 ; 在所述界面中接收映射到各个映射关系的输出的输出数据集的元素 的标识 ; 基于来自输入数据集的、 与映射到输入变量的输入数据集的元素相关联的输入数 据, 根据变换表达式, 从数据处理系统生成输出数据 ; 基于定义与输出数据集的一个或多个 标识元素相关联的有效值的一个或多个特性的确认标准, 响应于生成的输出数据, 确定确 认信息 ; 以及基于确定的确认信息, 在界面中呈现可视反馈。
     在另一方面中, 描述一种用于将输入数据集的一个或多个元素映射到输出数据集 的一个或多个元素的系统。该系统包括用于存储输入数据集的装置 ; 用于存储输出数据集 的装置 ; 以及用于提供用于接收用户输入并呈现数据处理的结果的界面的装置。该接收和 呈现包括 : 在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或 多个映射关系, 映射关系中的至少一个包括可在数据处理系统上执行的变换表达式, 所述 变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出 ; 在所 述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识 ; 基于来自输入数据 集的与映射到输入变量的输入数据集的元素相关联的输入数据, 根据变换表达式来从数据 处理系统中生成输出数据 ; 基于定义与输出数据集的一个或多个标识元素相关联的有效值 的一个或多个特性的确认标准, 响应于生成的输出数据, 确定确认信息 ; 以及基于确定的确 认信息, 在界面中呈现可视反馈。
     在另一方面中, 通常, 一种计算机可读介质存储计算机程序, 用于将输入数据集的 一个或多个元素映射到输出数据集的一个或多个元素。该计算机程序包括用于使得计算 机进行以下的指令 : 在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间 的一个或多个映射关系, 映射关系中的至少一个包括可在数据处理系统上执行的变换表达 式, 所述变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输 出; 在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识 ; 基于来自 输入数据集的与映射到输入变量的输入数据集的元素相关联的输入数据, 根据变换表达式 来从数据处理系统中生成输出数据 ; 基于定义与输出数据集的一个或多个标识元素相关联 的有效值的一个或多个特征的确认标准, 响应于生成的输出数据, 确定确认信息 ; 以及基于 确定的确认信息, 在界面中呈现可视反馈。 上述方面可以包括下述一个或多个优点。
     在一些情况中, 当输入数据集正被映射到输出数据集时 (例如当将数据填充 (data feed) 加载到数据仓储中时) , 输入数据集可以具有大量字段 (例如, 上千个字段) , 而输出数 据集可以具有更少量的字段 (例如, 少于一百个字段) 。数据管理系统使用映射, 该映射提供 来自一个或多个输入字段的信息如何映射到给定的输出字段的规范。 提供数据管理系统的 用户界面, 以使得用户能够配置该映射 (在 “映射处理” 期间) 。
     用户界面包括测试和确认特征, 其使得相对无经验的用户能够观看测试值和确认 信息, 来使得用户能够验证映射的结果与意图是否一致并减少错误。确认特征使得更有经 验的用户能够预先将确认规则与输出数据集的元素相关联, 该确认规则稍后在映射处理期 间应用。例如, 一个或多个有经验的用户可以具有关于对于来自各种不同输入数据存储系 统中存储的大量输入数据集的数据、 要用作数据仓库的输出数据存储系统中存储的输出数 据集的需求的知识。对经验的用户来说, 将所有输入数据集的字段映射到输出数据集的适 当字段是不实际的。用户界面使得不同新手用户能够为每个输入数据集提供映射, 同时仍 然提供一种方式, 供经验用户实施确认标准, 来捕捉新手用户可能犯而有经验的用户不会 范的潜在错误, 或来满足与输出数据集相关联的某些惯例, 新手用户不会知道这些惯例。
     通过基于由更有经验或技术能力更强的用户提供的规则而将测试盒确认整合到 用户界面中, 能够较早 (在映射处理期间) 、 而不是稍后 (在系统整合处理期间) 捕获较没有 经验或技术能力较弱的用户带来的潜在错误或不一致。 可以通过较早捕获的这些错误或不
     一致来潜在地实现若干数量级的成本节约。 这不仅减少了不同用户组说明情况且确认问题 所需的时间, 还使得一旦确认了问题即更容易修复该问题。 附图说明
     从以下描述、 所附权利要求和附图, 本发明的其他特征和方面将变得更明显。 图 1 是用于映射数据集元素的示例系统。 图 2 是数据管理系统的例子。 图 3A 是数据处理图的例子。 图 3B 是变换的例子。 图 4 是规则输入界面的例子。 图 5 是变换视图界面和相关元素的例子。 图 6 是用于变换视图界面的操作的过程的流程图。 图 7A-7H 是变换视图界面的操作的例子。 图 8 是变换视图界面的例子。 图 9 是沿袭图 (lineage diagram) 的例子。 图 10 是变换视图界面的例子。 图 11 是确认规则界面的例子。具体实施方式
     参考图 1, 用于映射数据集元素并根据映射的数据集元素来处理数据的系统 10 包 括数据源 12, 其可以包括诸如存储设备或与在线数据流的连接的一个或多个数据源, 每个 数据源可以以各种存储格式中 (例如, 数据表、 电子表文件、 无格式文本文件或主框架使用 的原生格式 (native format)) 的任一来存储数据。 执行环境 14 包括数据集映射模块 16 和 数据集处理模块 22。执行环境 14 可以在适当的操作系统 (诸如 UNIX 操作系统) 的控制下 位于一个或多个通用计算机上。例如, 执行环境 14 可以包括多节点并行计算环境, 包括计 算机系统的配置, 这些计算机系统使用多个中央处理单元 (CPU) 、 无论本地 (例如, 诸如 SMP 计算机的多处理器系统) 或本地分布 (例如, 被耦合为簇或 MPP 的多个处理器) 或远程地、 还 是远程分布地 (例如, 经由 LAN 或 WAN 网络耦合的多个处理器) 、 或其任何组合。
     数据集映射模块 16 存储用于在输入数据集和输出数据集之间映射数据的映射信 息, 如以下更详细地描述的。数据集处理模块 22 从数据源 12 中存储的输入数据集读取数 据, 且例如, 基于包括要施加到该数据的变换表达式的数据存储系统 26 中存储的映射信息 24, 根据存储的映射信息来处理该数据。 提供数据源 12 的存储设备可以相对于执行环境 14 位于, 例如在与运行执行环境 14 的计算机连接的存储介质 (例如, 硬盘 18) 上存储, 或可以 相对于执行环境 14 位于远程, 例如位于在局域数据网或广域数据网上与运行执行环境 14 的计算机通信的远程系统 (例如, 主框架 20) 上。
     数据集映射模块 16 基于正被映射的数据, (例如, 通过显示器上的用户间界面) 向 用户显示视觉表示。 开发环境 28 也可以访问数据存储系统 26, 在该开发环境 28 中, 开发者 30 能够开发程序, 该程序在数据存储系统 26 中存储, 由数据处理模块 22 用来处理并显示 该数据。在一些实施方式中, 开发环境 28 是用于开发数据流图的系统, 数据流图包括顶点(组件或数据集) , 顶点由顶点之间的有向链接 (表示工作元素的流) 连接。例如, 在此处通过 引用而并入的美国公开 No.2007/0011668、 题为 "Managing Parameters for Graph-Based Applications" 中更详细地描述这种环境。
     数据集处理模块 22 可以处理来自包括不同形式的数据库系统的各种系统的数 据。该数据可以被组织为具有各个字段 (也称为 " 属性 " 或 " 列 ") 的值 (可能包括空值) 的 记录。当首次从数据源读取数据时, 数据集处理模块 22 通常以有关数据源中的记录的某 初始格式信息而开始。 (注意, 在一些情况下, 最初甚至可能不知道数据源的记录结构, 而代 之以可能在分析数据源之后来确定) 。关于记录的初始信息可以包括表示不同值的位的数 量、 记录内的字段顺序和由位表示的值的类型 (例如, 串、 符号 / 无符号整数) 。当数据集处 理模块 22 从数据源读取记录时, 其施加变换表达式来产生中间数据和输出数据。数据集映 射模块 16 能够访问该数据, 并在数据集映射模块 16 的用户界面中向用户显示数据的表示 (representation)。
     图 2 示出可以使用系统 10 实现的用于将一个数据集的元素映射到另一数据集的 元素的示例数据管理系统 300。 在该例子中, 系统 300 包括输入数据存储系统中存储的一个 或多个输入数据集 310a、 310b, 其中, 个体的输入数据集 (例如数据库表格) 可以具有可以用 作对系统 200 的输入的多个个体元素。输入数据集 310a 具有输入 312a、 312b、 312c、 312d (例如, 数据库表格的字段或列) 。 另外, 数据管理系统 300 还具有输出数据存储系统 (这可以 与输入数据存储系统相同) 中存储的一个或多个输出数据集 320a、 320b, 其中, 个体输出数 据集 (例如, 数据库表格) 可以具有可以用作系统 300 的输出的多个个体元素。输出数据集 320a 具有输出 322a、 322b、 322c、 322d(例如, 数据库表格的字段或列) 。数据管理系统 300 具有映射 (mapping)340, 其指示在输入 312 和输出 322 之间的映射关系, 且可选地变换与 正从输入映射到输出的元素相关联的指定值或特性。数据管理系统 300 包括数据处理系统 (例如, 由数据集处理模块 22 执行的数据流图) , 用于执行由映射定义的变换和通过用户界 面与用户交互, 且可以与数据库服务器 350 或其他计算系统结合地操作。在一些实施方式 中, 数据管理系统 300 的数据处理系统使用该映射 340 来将数据从输入数据集 310a 导入到 输出数据集 320a 中, 且向正从输入数据集 310a 导入到输出数据集 320a 中的数据 (例如个 体记录) 施加变换。在一些实施方式中, 数据管理系统 300 的数据处理系统使用该映射 340 来帮助用户设计将在稍后施加到数据的变换和 / 或使用不同数据处理系统导入数据。
     在这些图中, 实线的闭头箭头指示数据的流, 而虚线的开头箭头指示图的描述中 指定的另一种关联性。
     一些输入可以直接映射到一些输出。例如, 数据管理系统 300 将输入 312a 在不经 变换的情况下直接递送到输出 322a。 输入 312a 可以对应于称为 " 姓 " 的字段, 且输出 322a 可以对应于称为 "L 名字 " 的字段, 且由于两个字段意图以相同格式存储相同的数据逻辑数 据值, 因此当将输入数据集 310a 的记录导入到输出数据集 320a 时将不需要数据值的变换。 一些输入可以映射到输出, 且数据管理系统 300 可以变换与输入相关联的数据。例如, 对 于通过输入 312c 由数据管理系统 300 映射的元素, 可以通过进行计算或应用表达式来进行 变换, 从而改变与该元素相关联的数据值或与该元素相关联的特性 (例如, 输入数据集 310a 中的记录的给定字段内的数据值随着那些记录被导入到输出数据集 320a 而被变换) 。该变 换可以包括变换数据类型, 而保持数据值相同, 或可以包括变换数据值来改变特性, 诸如测量或资本 (capitalization) 的单位。一些输入可以映射到输出, 且数据管理系统 300 可以 以取决于预定标准而可变的方式变换该输入。例如, 与通过输入 312d 由数据管理系统 300 映射的元素相关联的一些数据可以具有基于给定的标准而应用的一个变换, 且与通过相同 输入 312d 由数据管理系统 300 映射的元素相关联的其他数据可以具有基于给定的标准而 应用的不同变换。用于确定对数据应用哪种变换的标准例如可以由数据管理系统 300 中的 计算逻辑 302 来确定。例如, 可以通过用户在用户界面中输入表达式或定义规则来提供计 算逻辑 302, 如以下更详细地描述的。 另外, 在这些实施例中, 变换可以对来自多于一个输入 的数据进行操作, 来生成映射到单个输出的数据, 诸如来自输入 312b 和 312c 的数据用于生 成映射到输出 322b 的数据。例如, 输出 322b 可以对应于其值是对应于输入 312b 和 312c 的字线的值的函数的字段。因此, 在给定的输出和一个或多个输入之间的映射关系可以包 括标识单个输或者指定变换施加于一个或多个所标识的输入。 将一个或多个输入映射到输 出时使用的变换可以采用数据结构的形式, 该数据结构定义要应用的表达式或要进行的计 算, 其称为变换, 可以用于各种数据处理情境下, 如下更详细描述的。使用一组变换 130a、 130b、 130c、 130d 来实现数据管理系统 300 中的映射 340。
     变换定义了对一个或多个输入进行的操作, 以生成一个或多个可能的输出。在一 些实施方式中, 初始地将该变换存储为具有预定格式的数据结构, 且稍后被编译为可执行 的形式。 该变换可以用在基于图形的计算的情境下, 诸如数据流图, 数据流图具有数据处理 组件, 通过表示数据流的链接元素连接数据处理组件。 例如, 图 3A 的简单数据流图 130 采用 两个数据集 132、 134 作为输入 (例如, 飞行里程 (frequent flyer) 数据和机票预定数据) , 在单独的格式组件 136、 138 中格式化每个数据集中的数据, 以便它们可以被一起使用, 且 在结合组件 140 中结合它们, 以产生输出数据集 142。变换本身可以通过基于图形的计算, 诸如在图 130 中的计算, 来实现, 或可以在图像的组件、 诸如构成该图 130 的个体组件 136、 138 和 140 内实现。
     还可以使用称为 " 业务规则 (business rule)" 的数据处理构造来实现变换。业 务规则可以被表示为一组标准, 其可以用于例如将数据从一个格式转换为另一个格式、 进 行关于数据的确定、 或基于一组输入数据来生成新数据。例如, 在图 3B 中, 在机票预定系统 中的记录 102 指示乘客的名字 104、 他今年飞行了多少英里 106、 他机票的级别 108、 和他的 座位排 110。业务规则指示这种乘客应该被归入到登机组 1。业务规则通常是人们容易理 解的, 即 “头等舱乘客处于组 1 中” , 但在使用业务规则来操纵数据之前可能需要被翻译为 计算机可以理解的东西。可以使用变换 112 来实现业务规则, 变换 112 从一个或多个数据 源例如输入数据集 100 接收输入记录诸如记录 102, 并向输出数据集 120 中插入输出记录例 如指示乘客的名字 104 和他所在的哪个组 118 的记录 114。输入和输出数据集还可以被称 为数据流。
     为了针对无技术用户简化实现业务规则的变换的创建和操纵, 为这种用户提供工 具, 以便以这些用户熟悉的格式处理一个或多个业务规则的集合, 其称为规则集, 其告知计 算机系统他们想要变换做什么。规则集是产生单个变换的规则的集合, 规则可以由一个或 多个规则案例 (rule case) 组成, 该一个或多个规则案例取决于该输入计算用于规则的输 出的不同值。规则还可以包括其他规则。在规则集中的一些规则可以产生另外或替换的输 出的值。规则集可以包含其它规则集, 该其它规则集被称为 “被包括的” 规则集。图 4 示出业务规则编辑器 200, 其是用于指定业务规则的属性的用户界面的例子。 业务规则编辑器 200 可以是用户界面的组件, 用于将输入数据集的元素映射到输出数据集 的元素且生成在数据管理系统 300 中使用的对应映射 340。 业务规则的输入在左侧列出, 且 业务规则的输出在右侧列出。 业务规则编辑器 200 中的触发列 (trigger column)202、 204、 206、 208 对应于可用 (available) 数据值, 且行 210a-h 对应于规则示例, 即涉及可用数据值 的标准 (criteria) 的集合。如果给定记录 (对于规则案例具有标准的每个触发列) 的数据 值满足触发标准, 则规则案例应用于该给定记录 (例如图 1A 中的 102) 。 如果应用规则案例, 则基于一个或多个输出列 212 来生成输出。所有输入关系被满足的规则案例可以被称为 " 被触发的 "。每个输出列 212 对应于潜在的输出变量, 且在可应用的行 210a-h 的对应单元 (cell) 中的值确定该变量的输出 (如果有的话) 。该单元可以包含被分配给该变量的值, 或 其可以包含必须被估算以生成输出值的表达式, 如以下所述的。可能存在多于一个的输出 列, 虽然在图 4 中仅示出一个输出列。
     关于编辑业务规则, 输出变量具有 " 缺省值 ", 该缺省值是表达式, 包括仅是输入 变量的名称的表达式。还可以通过表示更复杂的逻辑的规则来计算输出变量。当用户编辑 业务规则时, 该用户可以观看输出变量, 且通过将输入变量从工具条 (sidebar) 拉到对应于 输出变量的缺省值单元来建立映射。 用户还可以直接编辑输出变量的缺省值表达式。 另外, 当需要更先进的逻辑来计算具体输出时, 用户可以创建一个或多个规则来计算该输出。 当编辑业务规则时, 用户可以在包含关于输出变量的技术信息的输出变量网格 (grid) 中分配缺省值。例如, 用户可以从示出规则集的主窗体中创建输出的规则。在用于 生成映射 340 的用户界面的一些实施方式中, 当用户创建规则时, 该用户可以看到缺省值, 且当用户分配缺省值时, 该对应的规则可以是可用的。
     由于由不具有技术能力的用户来创建和操纵业务规则, 所以一组用户可能在创建 和操纵将如意图地运作的规则的能力上不同。 一些用户可能对如何创建和操纵业务规则具 有初步或不完整的理解, 而其他用户可能在技术上很娴熟, 且完全理解创建和操纵业务规 则的所有方面。 而且, 一些用户可能具有业务规则的底层含义的知识, 例如其在真实世界的 应用, 而其他用户可能不具有如何在使用中应用业务规则的任何知识。 例如, 对收入税所知 有限或者完全不知的用户可能不能完全理解用于处理收入税返还的业务规则的目的。 用户 对业务规则的真实世界的应用的知识可以与用户对业务规则的技术知识无关。例如, 具有 较高技术知识但具有较低应用知识的用户可以创建业务规则, 然后, 具有较高应用知识的 用户可以检查该业务规则, 以确认当业务规则投入使用时该业务规则将实现意图的目的。 在该例子中, 具有较高技术知识的用户可以被认为是针对业务规则应用的新手用户, 而具 有较高应用知识的用户可以被认为是针对业务规则应用的有经验的用户。换句话说, 技术 上娴熟的用户可以观看由具有有限技术知识的用户创建的业务规则, 来确定业务规则是否 满足技术需求。 在这些例子中, 技术上娴熟的用户可以被认为是有经验的用户, 且具有有限 技术知识的用户可以被认为是新手用户。另外, 一些系统可以具有由大量用户生成的大量 业务规则, 这些用户的每个仅生成总规则的小部分。每个规则的功能性将反映其对应创建 者 - 操纵者的熟练程度。
     用户界面可以使能在输入和输出数据集的元素之间映射 340 的生成、 诸如在来自 输入记录的字段向输出记录中的字段之间的映射。 例如, 当向数据仓库中加载数据填充时,
     填充 (输入) 可以具有数百字段。填充中的数据将用于在占据数据仓库中的五十个字段 (输 出) 。该例子中的映射 340 提供输入字段如何映射到输出字段的规范。
     在一些情况下, 个体输入字段将直接映射到个体输出字段。 因此, 将通过在用户界 面中简单地为许多输出分配具体输入字段的值来计算这许多输出。 可以用表达式、 常数、 输 入字段的简单组合 (例如串链接) 、 或包括 if/then/else 逻辑或函数调用的更复杂的逻辑来 计算其他输出。可以使用业务规则来计算一些输出。用户界面可以提供适当的编辑器, 包 括业务规则编辑器 200。
     在一些实施方式中, 数据管理系统 300 包括用户界面, 该用户界面能够允许用户 进行更简单的任务、 同时还在该用户界面内接收与更复杂的任务相关联的直接反馈。 例如, 如下更详细描述的, 确认 (validation) 的任务可以经由由更有经验的用户提前准备的确 认规范而并入。 有助于多个相关任务的单个用户界面允许用户通过操纵或修改变换以便它 们提供期望的映射来将输入数据集的元素映射到输出数据集的元素。另外, 用户可以在一 个位置处看到对变换进行操纵如何影响输入和输出之间的映射。 例如, 使用用户界面, 用户 可以捕捉并修复错误, 以便这些变换将如意图地工作。
     测试数据可以有助于评估一个变换或一组变换是否会如意图地工作。例如, 可以 使用一组原型 (prototypical) 输入和期望的输出来提供测试数据。
     在一些例子中, 用户具有可以用于生成测试数据的真实数据。 例如, 为了处理用户 不具有用来测试的真实数据的情况, 该系统可以提供用于一次一个记录地输入测试数据的 数据输入表格。用户可以在输入数据集中键入每个字段的值, 且这些记录将被添加到测试 数据集。
     数据管理系统 300 能够为这些变换提供句法规则。句法规则指示将适当编译和 / 或执行的变换的结构。如果操作数据管理系统的用户修改任何变换, 用户的修改应该符合 句法规则。另外, 数据管理系统 300 能够为这些变换的输出提供确认规则。确认规则指示 根据期望的格式或输出数据集的其他特性而被接受为有效的输出的类型。 如果用户向真实 数据或测试数据施加任何变换, 变换的输出应该符合确认规则。确认规则和句法规则可以 被提供作为规则集, 如上所述, 或被提供作为可以施加于变换的输出的其他形式的可执行 逻辑。
     在一些例子中, 用户可以在单个用户界面处访问一个或多个变换。该用户界面向 用户提供与映射 340 相关联的一些或所有变换的视图 (view)。另外, 单个界面还可以在修 改或执行任何变换时自动对变换和测试数据应用句法规则和确认规则。
     因此, 从该界面, 用户可以观看该映射如何将输入的集体 (collection) 相关于输 出的集体, 包括如何评估和变换这些输入。
     图 5 示出了映射观看界面 500 的例子, 其可以由不一定具有显著的技术专业知识 的新手用户 402 来操纵。映射观看界面 500 呈现每个指定在一个或多个输入和给定的输出 之间的映射关系的行。界面 500 包括变换 502 的列, 该变换以可以输入、 观看和编辑的变换 表达式的形式显示。变换表达式参考映射到输入数据集的字段的输入变量。在输入正被直 接映射到输出、 而没有任何变换的情况下, 变换列可以简单地标识该输入, 而不包括任何变 换表达式。在一些实施方式中, 变换 502 可以将常数值直接映射到输出, 且得到的输出将具 有不基于任何输入变量而改变的值。该变换 502 可以自动地从该界面中执行、 以及修改和使用这些修改重新执行。新 手用户 402 可能不具有专业知识来保证他生成或修改的变换 502 的输出的有效性, 但映射 观看界面 500 向新手用户 402 提供另外的信息, 该另外信息并入了更有经验的用户的专业 知识, 且映射观看界面 500 提供另外的安全措施来防止新手用户 402 犯潜在的错误。
     可以通过包括一个或多个组件数据流图 130 来实现变换。数据流图 130 包含执行 变换的功能性的可执行代码。映射观看界面 500 可以提取该代码, 且直接执行该代码。
     当新手用户 402 修改变换 502 时, 该映射观看界面 500 可以向修改后的变换应用 句法规则 510, 来评估这些修改是否可接受。句法规则 510 为变换指定有效结构。不适当地 构造的变换可能无法适当地执行。如果新手用户 402 以使得变换具有无效结构的方式修改 变换, 变换观看界面将使用句法规则来标识该无效性, 且向用户指示该问题。 可以由具有对 变换结构和执行的技术专业知识的有经验的用户 404b 来定义句法规则 510, 从而新手用户 402 将受益于有经验的用户对变换的更好的理解。
     在使用中, 可能存在少量有经验的用户 404a、 404b、 404c, 但大量新手用户 402, 他们都使用映射观看界面 500 的实例来操纵对类似的数据集操作的变换。有经验的用户 404a、 404b、 404c 可以定义由许多可能的新手用户在许多可能的操作情形下使用的句法规 则和确认规则。以此方式, 所有许多可能的新手用户手边拥有了有经验的用户的知识和专 业水平。
     还参考图 5, 每个变换 502 与输出名 508 相关联。相比于由数据管理系统本身使 用的变量名或另一标识符, 可以选取输出名 508 来表示变换后的输出的 “真实世界” 功能, 。 输出名 508 对应于变换 503 向其提供数据的输出数据集 320 中的字段。例如, 如果变换 502 处理注定用于行旅行者的数据库的数据, 则输出名 508 可以表示与航线、 航班、 乘客身份或 另一真实世界概念有关的数据库中的字段。
     每个变换 502 还可以与测试值 504 相关联。用户可以选择对其执行变换的测试数 据 512, 以便对测试数据格式化以用作变换 502 的输入数据集 310。对测试数据 512 中的给 定记录 (例如初始记录) 执行的变换的结果被示出为测试值 504。可以由新手用户 402 或由 具有专业知识来定义各种测试情形的有经验的用户 404a、 404b、 404c 生成测试数据 512, 以 便新手用户 402 可以仅编辑变换 502 并观看该结果。
     每个变换还可以与确认 506 相关联。当新手用户 402 使用测试数据 512 执行变换 时, 映射观看界面 500 可以应用确认规则 514, 来确定得到的测试值 504 是否是有效的。 变换 502 的输出可以具有 (例如, 基于输出数据集 320 的特性) 针对其格式或内容的约束, 且确认 规则 514 指定输出的什么样的格式或内容是有效的。例如, 变换可能提供应该落入特定范 围内的数字形式的输出, 或变换可能提供应该具有特定长度、 根据字典正确拼写的或具有 其他特性的字 (word) 的形式的输出。 确认规则 514 可以指定输出必须是一组预定可能值之 一。确认规则 514 可以指定输出应该不对应于空白 (blank) 或空 (NULL) 的值, 该空白或空 的值可能由变换导致, 该变换将输入连接到产生空白或空的值的输出, 或可能由输出未被 映射到任何输入而导致。确认规则 514 可以统一地应用到映射的输出, 来保证在不同输出 之间的约束得到满足。 例如, 两个输出可以分别具有有效的值, 但其总和可能不满足给定的 约束, 或一个输出值是否有效的确定可能取决于另一输出的值 (例如, “父母产假 (parental leave) ” 字段的有效值可以取决于 “性别” 字段具有男性还是女性的值) 。在一些实施方式中, 确认规则 514 可以接合次要或外部的信息源而操作。例如, 变换 502 可以用于将数据从 第一格式转换为第二格式。确认规则可以引用诸如表格的数据结构, 该表格指示以第一格 式表示的数据的有效值、 且还指示以第二格式表示的数据的有效值。
     如果测试值 504 落在由确认规则 514 指定的格式或内容约束之外, 则该确认 506 将指示关于测试值 504 存在问题, 且指示因此可能存在变换 502 的潜在问题。有经验的用 户 404a、 404b、 404c 可以利用有经验的用户对如何分析给定的数据集且确定什么构成了该 数据集的有效数据的知识, 定义确定规则 514。 有经验的用户还可以利用技术编程和数据管 理知识, 来将那些确认约束编制为确认规则 514, 这些确认规则 514 可以被存储为可执行代 码, 且应用于变换的输出。因此, 操作映射观看界面 500 的新手用户 402 不一定需要仔细检 查由测试数据 512 得到的测试值 504, 而是可以查看确认 506 来看是否可能存在应该给予进 一步关注的问题。
     图 6 示出由系统 300 用来使得用户能够使用映射观看界面 500 观看和操纵映射和 其相关联的变换的示例过程 600 的流程图。该过程获取 602 测试数据, 测试数据包括提供 对应于映射到给定变换的输入的输入数据集的元素 (例如字段) 的输入数据值的一个或多 个记录。然后, 该过程标识 604 对应于映射到给定变换的输出的输出数据集的元素的数据 目的地 (例如字段) 。接下来, 该过程获取 606 映射的最后版本, 该映射的最后版本包括变换 的最后版本。在 “记录测试模式” 中, 该过程向输入数据集的单个测试记录应用确认规则。 在 “数据集测试模式” 中, 该过程向输入数据集的多个测试记录 (在一些情况下, 在输入数据 集指定所有记录) 应用确认规则。 该过程确定 608 用户是否输入了新输入, 其表示对一个或多个变换的修改。如果 用户没有输入新输入, 该过程向测试数据应用 610 变换的当前版本。然后, 该过程向作为这 些变换的输出接收的得到的测试值应用 612 确认规则。 该过程显示 614 修改后的变换, 且还 显示 616 来源于修改后的变换的测试值。 另外, 该过程基于应用确认规则的结果来显示 618 确认信息, 以便用户可以评估这些测试值是否有效。如果该确认信息与其输出不满足确认 标准的具体变换相关联, 则确认信息可以在可视地与该变换相关联 (例如, 用在确认列的对 应行中的图标和 / 或说明文本) 。在一些情况下, 该确认信息可以与多个变换的无效输出或 多个变换之间的无效关系相关联, 在该情况下, 该确认信息不一定与任何具体变换相关联。 该过程还显示 620 由这些变换使用的目的地的输出名。然后, 该过程返回到确定 608 用户 是否输入了任何修改这些变换的新输入。
     如果用户输入了新输入, 该新输入将导致得到了一个或多个修改后的变换, 则该 过程从基于新输入而重新编译这些变换的变换编译器接收 622 修改后的变换, 且该过程还 检查 624 修改后的变换的句法。如果根据句法规则, 该句法无效, 则该过程警告 625 用户, 以便该用户可以以新输入的形式校正该句法。如果该句法有效, 该过程接受 626 该修改后 的变换, 且然后继续上述步骤, 以向测试数据应用 610 这些变换开始。在记录测试模式中, 重新编译和向测试记录应用修改后的变换可以几乎实时地发生 (例如少于一秒) , 以便随着 变换正被编辑, 用户体验基于该句法和确认规则的实况反馈 (live feedback)。 在数据集测 试模式中, 重新编译和向测试记录应用修改后的变换可以响应于用户请求而发起。
     图 7A-7H 示出与映射观看界面 500 的各种用户交互的例子。该界面包括变换表达 式 702(变换的文本表示) 、 测试值 704、 确认 712 和输出 708。
     参考图 7A, 用户修改变换表达式 702。如果该修改产生畸形的 (malformed) 变换 表达式, 该界面根据供应的句法规则, 利用感叹号 710 指示该畸形变换表达式。
     参考图 7B, 响应于用户提供具有校正后的句法的修改后的变换表达式 702 而提供 测试值 704。
     参考图 7C, 用户输入变换表达式 702, 基于由该表达式变换的输入数据来计算输 出 708 的值。
     参考图 7D, 用户输入变换表达式 702a, 基于由若干变换表达式 702b、 702c 之一来 计算输出 708 的值。
     参考图 7E, 用户输入依赖于另一变换表达式 702b 的变换表达式 702a, 来计算其输 出 708 的值。
     参考图 7F, 用户修改变换表达式 702b, 另一变换表达式 702a 依赖于该变换表达式 702b。第一变换表达式的输出 708 据此更新。
     参考图 7G, 确认通知 712 指示变换表达式 702 的输出的任何问题, 即使该变换表达 式在句法上是正确的。
     参考图 7H, 用户观看测试数据 708。确认通知 712 指示向测试数据应用变换表达 式 702 的任何问题。 图 8 示出表示映射观看界面 500 的一个实施方式的示例映射观看界面 800, 用于管 理计算税表的值的变换表达式。映射观看界面 800 具有许多行 802a、 802b、 802c, 每个包括 输出字段 804 (例如, 在该例子中的税表的行) 的名字、 进行以计算对应于输出字段 804 的输 出值的该变换表达式 806、 当被应用于测试数据 (例如, 图 5 所示的测试数据 512) 时变换表 达式 806 的计算的值 808 的形式的测试值。如果计算的值 808 之一触发确认规则之一 (例 如图 5 所示的确认规则 514) , 则该映射观看界面 800 在计算的值附近显示确认指示符 810, 来指示已经触发确认规则, 且用户可以调查计算的值来确定其是否无效和 / 或相关联的变 换表达式 806 是否需要修改。在一些实施方式中, 确认指示符 810 指示在计算的值 808 和 预期值之间的差。例如, 可能已经在先前的时间点应用了变换表达式 806, 生成输了出值。 当变换表达式 806 应用于相同的输入数据时, 可以预期计算的值 808 应与先前生成的输出 值相同。在一些实施方式中, 如果计算的值 808 之一触发句法规则之一 (例如图 5 所示的句 法规则 510) , 则映射观看界面 800 显示句法错误指示符 (未示出) 。
     映射观看界面 500 可以用于在由一个或多个数据流图进行的操作序列中在多个 时间点中的任一时间点处观看变换表达式、 输出字段和计算的值。映射观看界面 500 可以 生成沿袭 (lineage) 图, 其可以用于显示关于根据一个或多个变换表达式而变换了的数据 的不同字段的值的信息。 有时, 数据库用户可能想要调查如何从不同数据源得到特定数据。 例如, 数据库用户可能想要知道如何生成数据集或数据对象, 或从哪个源导入数据集或数 据对象。跟踪数据集回溯到源 (该数据集是从该源得到的) 被称为数据沿袭跟踪 (或 “上游 数据沿袭跟踪” ) 。有时, 数据库用户可能想要调查特定数据集如何被使用 (称为 “下游数据 沿袭跟踪” 或 “影响分析” ) , 例如, 哪个应用读取了给定的数据集。数据库用户还可能有兴 趣知道一数据集如何与其他数据集相关。 例如, 用户可能想要知道是否修改数据集, 将影响 什么表格。
     图 9 示出沿袭图 900, 表示包括节点 904a、 904b、 904c 和链接 906, 节点 904a、 904b、
     904c 表示 (例如, 通过数据流图中的不同组件) 应用的变换表达式, 和链接 906 将表示上游 和下游依赖关系的节点从上游输入测试数据集 908 连接到下游输出数据集 912。来自输入 数据集 908 的测试数据可以被提供给节点 904a、 904b, 节点 904a、 904b 表示用于处理测试数 据的变换表达式的应用, 且这些结果被传送给节点 904c, 节点 904c 随着测试数据继续由进 一步在沿袭图 900 的节点序列中的节点变换, 而类似地应用变换表达式。用户可以基选择 任一节点, 且观看与该节点相关联的输出字段和变换表达式, 以及基于向已经由节点表示 的变换表达式根据链接 806 表示的依赖关系而处理了的数据应用变换表达式而观看输出 字段的计算值。
     随着一个或多个数据流图正处理输入测试数据集 908 中的数据, 可以存储生成沿 袭图所需的该信息。沿袭图中的每个节点可以与源于变换表达式的应用的计算的值相关 联。在一些情况下, 一个或多个节点 904d、 904e、 904f 与计算的值相关联, 该计算的值触发 与该节点相关联的一个或多个确认规则。在这些情况下, 沿袭图 900 在节点 904d、 904e、 904f 上显示确认指示符 910a、 910b、 910c, 其中, 对该节点 904d、 904e、 904f, 已经触发了确 认规则。用户可以使用映射观看界面 500 来观看输出字段、 变换表达式和那些节点中的任 一节点的计算的值, 以确定是否有问题, 例如变换表达式是否产生无效数据。在一些例子 中, 沿袭图 900 还显示节点之一何时触发了句法规则 (例如, 图 5 的句法规则之一) 的指示 符。
     用户还可以使用沿袭图 900 的视图, 来确定序列中的若干节点是否触发了确认规 则, 并确定确认问题的初始根源诸如无效数据。 在该例子中, 所有三个节点 904d、 904e、 904f 均触发了确认规则, 如指示符 910a、 910b、 910c 指示的。可以检查节点 904d、 904e、 904f 和 从节点 904d 到节点 904e 和从节点 904e 到节点 904f 的对应沿袭关系, 以便找到潜在的确 认问题。有可能节点 904d 中的变换表达式生成了无效数据, 然后, 该无效数据传播到节点 904e 和 904f, 还触发那些节点中的类似确认规则。给出了该可能性, 该用户首先可以观看 第一节点 904d 的变换表达式和计算值, 来确定是否这是所有三个节点的问题的根源。
     图 10 示出了可以用于一次观看许多输出字段和计算值的测试结果界面 1000。例 如, 在数据集测试模式中, 测试结果界面 1000 可以被用于显示向测试数据应用变换表达式 的结果。测试结果界面 1000 显示表示向测试数据的多个记录 1004a、 1004b、 1004c (作为多 个行) 应用其相关联的变换表达式的多个输出字段 1002a、 1002b、 1002c(在列标题中的) 。 用户可以观看测试结果界面 1000, 来看对测试数据的许多记录应用许多变换表达式的效 果, 包括测试数据中的任一个是否触发了任何确认规则。测试结果界面 1000 可以显示确认 指示符 1006a, 其指示哪个数据段 (在具体记录中的计算值) 触发了确认规则, 且可能是无效 的。测试结果界面 1000 还可以在列 (或行) 标题中显示确认指示符 1006b, 来向用户指示对 应列 (或行) 中的至少一个数据段触发了确认规则。 该显示形式可以当由测试结果界面 1000 呈现的数据的视图很大时、 帮助用户找出个体数据段的确认指示符 1006a。在一些实施方 式中, 测试结果界面 1000 还呈现关于所呈现的数据的统计数据 1008(例如, 以直方图的形 式) , 诸如多少数据触发了确认规则以及触发了多少不同规则。在一些例子中, 以规律的时 间间隔、 诸如一小时或一天、 响应于对测试数据的变换表达式的不同应用, 计算该统计数据 1008, 且在其他例子中, 通过在观看数据时应用变换表达式来实时计算该统计数据。例如, 有经验的用户 (例如图 5 的有经验用户 404b) 可能基于天来使用测试结果界面 1000, 来看在一天中是否由其他用户进行的改变来触发了任何确认规则。
     图 11 示出了确认规则界面 1100, 其允许用户观看并修改一组确认规则 1104a、 1104b、 1104c 的触发条件 1102a、 1102b、 1102c。在一些实施方式中, 确认规则还具有相关的 错误代码 1106, 指示确认规则表示的错误类型、 例如必要信息的遗漏或输出字段表示的信 息之间的不一致。在一些实施方式中, 确认规则界面 1100 允许用户访问关于任何确认规则 使用的给定输入的信息 1110, 以便该用户不需要访问不同界面来获得该信息。
     确认规则还可以当用户搜寻关于确认规则触发的具体实例的更多信息时、 向用户 显示相关的定制 (custom) 错误消息 1108。 例如, 用户可能点击确认指示符 (例如, 图 9 中的 确认指示符 910a) , 然后, 用户界面将显示针对该确认规则的适当的定制错误消息 1108, 或 用户界面可能显示与由一组数据触发的确认规则相关联的所有定制错误消息的列表。 在一 些例子中, 有经验的用户 (例如, 图 5 的有经验的用户 404c) 定义错误消息, 来向可能不熟悉 确认规则的、 操作用户界面的另一用户提供人类可读的信息。
     可以使用在计算机上执行的软件来实现上述映射方法。例如, 软件形成在一个或 多个已编程或可编程计算机系统 (其可以是各种架构, 诸如分布式、 客户端 / 服务器式、 或 网格式) 上执行的一个或多个计算机程序中的过程, 该一个或多个已编程或可编程计算机 系统每个包括至少一个处理器、 至少一个数据存储系统 (包括易失性和非易失性存储器和 / 或存储元件) 、 至少一个输入设备或端口和至少一个输出设备或端口。软件可以形成例如提 供与数据流图的设计和配置相关的其他服务的更大的程序的一个或多个模块。 图中的节点 (称为 “组件” ) 和元件 (称为 “数据流” ) 可以被实现为在计算机可读介质中存储的数据结构 或符合在数据储存库中储存的数据模型的其他组织的数据。
     可以在诸如可由通用或专用可编程计算机读取的 CD-ROM 的存储介质上提供软 件, 或通过网络通信介质发送 (编码于传播的信号中) 软件到执行其的计算机。所有功能可 以在专用计算机或使用专用硬件、 诸如协处理器上进行。 软件可以按分布式方式实现, 其中 由软件指定的计算的不同部分被不同计算机实施。 每个这种计算机程序优选地被存储在或 被下载到可由通用或专用可编程计算机读取的存储介质或设备 (例如, 固态存储器或介质、 或磁或光介质) , 用于当存储介质或设备被计算机系统读取时配置和操作该计算机以进行 在此描述的过程。 本发明的系统还可以被考虑实现为用计算机程序配置的计算机可读存储 介质, 其中如此配置的存储介质使得计算机系统按规定且预定的方式操作以进行在此描述 的功能。
     已经描述了本发明的大量实施例。 但是, 将理解, 可以在不脱离本发明的精神和范 围的情况下进行各种修改。 例如, 上述步骤的一些可以是无关顺序的, 且因此可以按不同于 上述的顺序的顺序来进行。
     要理解, 上述描述意图例示而非限制本发明的范围, 本发明的范围由所附权利要 求的范围限定。例如, 上述大量功能步骤可以按不同的顺序进行, 而不实质影响整个处理。 其他实施例也在以下权利要求的范围内。

映射数据集元素.pdf_第1页
第1页 / 共36页
映射数据集元素.pdf_第2页
第2页 / 共36页
映射数据集元素.pdf_第3页
第3页 / 共36页
点击查看更多>>
资源描述

《映射数据集元素.pdf》由会员分享,可在线阅读,更多相关《映射数据集元素.pdf(36页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102656554 A(43)申请公布日 2012.09.05CN102656554A*CN102656554A*(21)申请号 201080051923.X(22)申请日 2010.09.1661/243,132 2009.09.16 USG06F 7/00(2006.01)G06F 17/30(2006.01)(71)申请人起元技术有限责任公司地址美国马萨诸塞州(72)发明人 S.斯图德 A.威斯曼(74)专利代理机构北京市柳沈律师事务所 11105代理人张丽新(54) 发明名称映射数据集元素(57) 摘要将输入数据集的一个或多个元素映射到输出数据集的一个或多个元。

2、素包括:在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个映射关系,映射关系中的至少一个包括可在数据处理系统上执行的变换表达式,所述变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出;在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识;基于来自输入数据集的与映射到输入变量的输入数据集的元素相关联的输入数据,根据变换表达式,从数据处理系统中生成输出数据;以及基于确认标准,响应于生成的输出数据,确定确认信息。(30)优先权数据(85)PCT申请进入国家阶段日2012.05.16(86)PCT申请的申请数据PCT/US2010/049142 。

3、2010.09.16(87)PCT申请的公布数据WO2011/035039 EN 2011.03.24(51)Int.Cl.权利要求书4页 说明书14页 附图13页按照条约第19条修改的权利要求书4页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 4 页 说明书 14 页 附图 13 页按照条约第19条修改的权利要求书 4 页1/4页21.一种用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素的方法,所述方法包括:在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个映射关系,映射关系中的至少一个包括可在数据处理系统上执行的变换表达式,所述变。

4、换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出;在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识;基于来自输入数据集的、与映射到输入变量的输入数据集的元素相关联的输入数据,根据变换表达式,从数据处理系统中生成输出数据;基于确认标准,响应于生成的输出数据,确定确认信息,所述确认标准定义与输出数据集的一个或多个标识元素相关联的有效值的一个或多个特性;以及基于确定的确认信息,在界面中呈现可视反馈。2.根据权利要求1的方法,还包括根据映射关系,将来自输入数据集的输入数据导入到输出数据集中。3.根据权利要求2的方法,其中,导入该输入数据包括向输入数据集的输入记录的。

5、各个字段中的输入值应用变换表达式,且在输出数据集的输出记录的各个字段中存储输出值,其中,所述输入记录的至少一些字段对应于映射到输入变量的、输入数据集的元素,且输出记录的至少一些字段对应于映射到各个映射关系的输出的、输出数据集的元素。4.根据权利要求3的方法,其中,向输入数据集的输入记录的各个字段中的输入值应用变换表达式、且在输出数据集的输出记录的各个字段中存储输出值包括:执行数据流图,该数据流图包括表示数据处理组件的节点、表示在数据处理组件之间的数据流的链接、表示提供输入记录的数据流的输入数据集的节点和表示接收输出记录的数据流的输出数据集的节点。5.根据权利要求1的方法,还包括存储用于指定所述。

6、映射关系的映射。6.根据权利要求1的方法,其中,确定确认信息包括检索所存储的确认标准的规范。7.根据权利要求6的方法,其中,由数据处理系统提供所述界面,且向第一用户呈现所述界面,且从第二用户接收所述确认标准的规范。8.根据权利要求1的方法,还包括在界面中呈现表示生成的输出数据的值。9.根据权利要求1的方法,其中,确定确认信息包括:基于与映射到变换映射关系的输出的输出数据集的所标识元素相关联的确认标准,评价关于包括变换表达式的每个变换映射关系所生成的输出数据。10.根据权利要求9的方法,其中,所述映射关系包括多个包括变换表达式的变换映射关系。11.根据权利要求9的方法,其中,所述确认标准包括第一。

7、确认标准和第二确认标准,所述第一确认标准与输出数据集的第一所标识元素相关联、用于定义与第一所标识元素相关联的有效值的一个或多个特性,且所述第二确认标准与输出数据集的第二所标识元素相关联、用于定义与第二所标识元素相关联的有效值的一个或多个特性。12.根据权利要求11的方法,其中,响应于所生成的、包括对应于第一所标识元素的第一字段和对应于第二所标识元素的第二字段的输出记录来确定确认信息。13.根据权利要求12的方法,其中,所述第一确认标准依赖于在输出记录的第二字段权 利 要 求 书CN 102656554 A2/4页3中的值。14.根据权利要求12的方法,其中,所述确认信息依赖于在输出记录的第一字。

8、段中的值和在输出记录的第二字段中的值。15.根据权利要求1的方法,还包括确定指示变换表达式的有效结构的句法信息。16.根据权利要求15的方法,还包括基于所确定的句法信息,在界面中呈现界面可视反馈。17.根据权利要求1的方法,还包括接受修改后变换表达式,该修改后变换表达式基于所接收的用户对变换表达式的修改。18.根据权利要求17的方法,还包括基于来自输入数据集的输入数据,根据修改后变换表达式,从数据处理系统生成修改后输出数据。19.根据权利要求18的方法,还包括响应于所生成的修改后输出数据,确定修改后确认信息,且基于修改后确认信息在界面中呈现可视反馈。20.根据权利要求19的方法,其中,生成修改。

9、后输出数据并基于修改后确认信息呈现可视反馈发生在正修改变换表达式时。21.根据权利要求19的方法,其中,生成修改后输出数据并基于修改后确认信息呈现可视反馈在已经修改了变换表达式之后响应于用户请求而发生。22.根据权利要求1的方法,其中,根据表示到应用变换表达式的数据流图的组件的数据流的链接,接收来自输入数据集的输入数据,该数据流图包括表示数据处理组件的节点、表示在数据处理组件之间的数据流的链接、表示提供输入数据的数据流的输入数据集的节点和表示接收输出数据的数据流的输出数据集的节点。23.根据权利要求1的方法,其中,根据表示来自应用变换表达式的数据流图的组件的数据流的链接,向输出数据集提供在输出。

10、数据集中存储的所生成输出数据,所述数据流图包括表示数据处理组件的节点、表示在数据处理组件之间的数据流的链接、表示提供输入数据的数据流的输入数据集的节点和表示接收输出数据的数据流的输出数据集的节点。24.根据权利要求1的方法,其中,响应于对应用第一映射关系的数据流图的组件的选择,接收至少第一映射关系,该数据流图包括表示数据处理组件的节点、表示在数据处理组件之间的数据流的链接、表示提供输入数据的数据流的输入数据集的节点和表示接收输出数据的数据流的输出数据集的节点。25.根据权利要求1的方法,其中,所述可视反馈包括表示在界面上显示的沿袭图的多个节点之一的确认信息的指示符,所述节点表示包括与输出数据集。

11、的一个或多个所标识元素相关联的至少一个变换后值的变换后值。26.根据权利要求25的方法,其中,所述可视反馈包括多个指示符,每个指示符与界面上显示的沿袭图的多个节点之中的节点相关联。27.根据权利要求26的方法,其中,由如下链接连接与所述指示符相关联的节点中的至少一些节点,所述链接表示节点所表示的变换后值之间的依赖关系。28.根据权利要求1的方法,其中,所述可视反馈包括多个指示符,每个指示符与界面上显示的多个输出元素之中的输出元素相关联,该多个输出元素包括表示输出数据集的一个或多个所标识元素的至少一个输出元素。29.根据权利要求28的方法,其中,界面上显示的多个输出元素对应于表示将变换表权 利 。

12、要 求 书CN 102656554 A3/4页4达式应用于输入数据的记录的结果的字段。30.根据权利要求29的方法,其中,至少一个指示符指示对于行字段值的确认信息,该行表示将变换表达式应用于输入数据的单个记录得到的输出值。31.根据权利要求29的方法,其中,至少一个指示符指示对于列字段值的确认信息,该列表示将单个变换表达式多次应用于输入数据的各个记录。32.根据权利要求1的方法,其中,所述可视反馈包括基于确认信息计算的统计数据,所述统计数据包括表示将确认标准应用于输入数据的多个记录的结果的数据。33.根据权利要求32的方法,其中,以规律的时间间隔计算所述统计数据。34.根据权利要求1的方法,其。

13、中,所述可视反馈包括与确认标准相关联的定制错误消息,所述定制错误消息指示关于将确认标准应用于输入数据的记录的具体实例的结果的信息。35.根据权利要求1的方法,还包括在界面中接收被定义为与输入变量无关的至少一个常量的输出。36.根据权利要求1的方法,还包括接收表示变换表达式的结果的期望值,以及其中确定确认信息包括将该期望值与关于包括变换表达式的每个变换映射关系生成的输出数据相比较。37.一种用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素的系统,所述系统包括:输入数据存储系统,存储输入数据集;输出数据存储系统,存储输出数据集;以及数据处理系统,被配置以提供用于接收用户输入并呈现数。

14、据处理的结果的界面,包括:在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个映射关系,映射关系中的至少一个包括可在数据处理系统上执行的变换表达式,所述变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出;在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识;基于来自输入数据集的、与映射到输入变量的输入数据集的元素相关联的输入数据,根据变换表达式,从数据处理系统生成输出数据;基于确认标准,响应于生成的输出数据,确定确认信息,所述确认标准定义与输出数据集的一个或多个标识元素相关联的有效值的一个或多个特性;以及基于确定的确认信息,在界面中呈现可视。

15、反馈。38.一种用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素的系统,所述系统包括:用于存储输入数据集的装置;用于存储输出数据集的装置;以及用于提供用于接收用户输入并呈现数据处理的结果的界面的装置,包括:在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个映射关系,映射关系中的至少一个包括可在数据处理系统上执行的变换表达式,所述变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出;权 利 要 求 书CN 102656554 A4/4页5在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识;基于来自输入数据集的、与映射到输入变。

16、量的输入数据集的元素相关联的输入数据,根据变换表达式,从数据处理系统中生成输出数据;基于确认标准,响应于生成的输出数据,确定确认信息,所述确认标准定义与输出数据集的一个或多个标识元素相关联的有效值的一个或多个特性;以及基于确定的确认信息,在界面中呈现可视反馈。39.一种存储用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素的计算机程序的计算机可读介质,所述计算机程序包括用于使得计算机进行以下的指令:在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个映射关系,映射关系中的至少一个包括可在数据处理系统上执行的变换表达式,所述变换表达式基于映射到输入数据集的元素的。

17、至少一个输入变量定义映射关系的输出;在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识;基于来自输入数据集的、与映射到输入变量的输入数据集的元素相关联的输入数据,根据变换表达式,从数据处理系统中生成输出数据;基于确认标准,响应于生成的输出数据,确定确认信息,所述确认标准定义与输出数据集的一个或多个标识元素相关联的有效值的一个或多个特性;以及基于确定的确认信息,在界面中呈现可视反馈。权 利 要 求 书CN 102656554 A1/14页6映射数据集元素0001 优先权声明0002 本申请要求在2009年9月16日提交的美国临时专利申请No.61/243,132的权益,其全部内容在。

18、此被引用附于此。技术领域0003 该描述涉及映射数据集元素。背景技术0004 在一些数据库或数据仓储系统中,一个数据集(“源”或“输入”数据集)的元素被映射到另一数据集(“输出”或“目标”数据集)的元素。例如,这些元素可以包括数据库表的字段或数据对象的属性。然后,输入数据集的记录(例如,表格的行)可以被输入到输出数据集中,其适当的输入字段被映射到适当的输出字段。可以存在输入数据集的格式和输出数据集的格式之间的差异,这要求转换数据值来满足输出格式。在一些情况下,还应用例如另外的数据变换以保证数据质量或满足输出数据集的期望特征。映射处理可以涉及在具有不同技能级别(例如,新手或专家)或不同关注领域(。

19、例如,商业或技术)的不同用户之间的交互。发明内容0005 在一个方面中,通常,描述一种用于将在输入数据处理系统中存储的输入数据集的一个或多个元素映射到在输出数据处理系统中存储的输出数据集的一个或多个元素的方法。该方法包括在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个映射关系,映射关系中的至少一个包括可在数据处理系统上执行的变换表达式,所述变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出。该方法包括在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识。该方法包括基于来自输入数据集的、与映射到输入变量的输入数据集的元素相关联的根据变换表。

20、达式,从数据处理系统中生成输出数据。该方法包括基于定义与输出数据集的一个或多个标识元素相关联的有效值的一个或多个特性的确认标准,响应于生成的输出数据,确定确认信息;以及基于确定的确认信息,在界面中呈现可视反馈。0006 上述方面可以包括一个或多个以下特征。0007 该方法还包括根据映射关系,将来自输入数据集的输入数据导入到输出数据集中。0008 导入该输入数据包括向输入数据集的输入记录的各个字段中的输入值应用变换表达式,且在输出数据集的输出记录的各个字段中存储输出值,其中,所述输入记录的至少一些字段对应于映射到输入变量的、输入数据集的元素,且输出记录的至少一些字段对应于映射到各个映射关系的输出。

21、的、输出数据集的元素。0009 向输入数据集的输入记录的各个字段中的输入值应用变换表达式、且在输出数据说 明 书CN 102656554 A2/14页7集的输出记录的各个字段中存储输出值包括:执行数据流图,该数据流图包括表示数据处理组件的节点、表示在数据处理组件之间的数据流的链接、表示提供输入记录的数据流的输入数据集的节点和表示接收输出记录的数据流的输出数据集的节点。0010 该方法还包括存储指定映射关系的映射。0011 确定确认信息包括检索输出数据处理系统中存储的确认标准的规范。0012 通过数据处理系统来提供所述界面,且向第一用户呈现所述界面,且从第二用户接收输出数据处理系统中存储的确认标。

22、准的规范。0013 该方法还包括在界面中呈现表示生成的输出数据的值。0014 确定确认信息包括基于与映射到变换映射关系的输出的、输出数据集的所标识元件相关联的确认标准,评价关于包括变换表达式的每个变换映射关系所生成的输出数据。0015 所述映射关系包括多个包括变换表达式的变换映射关系。0016 所述确认标准包括第一确认标准和第二确认标准,所述第一确认标准与输出数据集的第一所标识元素相关联、用于定义与第一所表示元素相关联的有效值的一个或多个特性,且所述第二确认标准与输出数据集的第二所标识元素相关联,用于定义与第二所标识元素相关联的有效值的一个或多个特性。0017 响应于所生成的、包括对应于第一所。

23、标识元素的第一字段和对应于第二所标识元素的第二字段的输出记录来确定确认信息。0018 所述第一确认标准依赖于在输出记录的第二字段中的值。0019 所述确认信息依赖于在输出记录的第一字段中的值和输出记录的第二字段中的值。0020 该方法还包括确定指示变换表达式的有效结构的句法信息。0021 该方法还包括基于所确定的句法信息,在界面中呈现界面可视反馈。0022 该方法还包括接受基于所接收的用户对变换表达式的修改的修改后变换表达式。0023 该方法还包括基于来自输入数据集的输入数据,根据修改后变换表达式,从数据处理系统生成修改后输出数据。0024 该方法还包括响应于所生成的修改后输出数据,确定修改后。

24、确认信息,且基于修改后确认信息在界面中呈现可视反馈。0025 生成修改后输出数据并基于修改后确认信息呈现可视反馈发生在正修改变换表达式时。0026 生成修改后输出数据并基于修改后确认信息呈现可视反馈在已经修改了变换表达式之后响应于用户请求而发生。0027 根据表示到应用变换表达式的数据流图的组件的数据流的链接,接收来自输入数据集的输入数据,该数据流图包括表示数据处理组件的节点、表示在数据处理组件之间的数据流的链接、表示提供输入数据的数据流的输入数据集的节点和表示接收输出数据的数据流的输出数据集的节点。0028 根据表示来自应用变换表达式的数据流图的组件的数据流的链接,向输出数据集提供在输出数据。

25、集中存储的所生成输出数据,所述数据流图包括表示数据处理组件的节点、表示在数据处理组件之间的数据流的链接、表示提供输入数据的数据流的输入数据集的节点和表示接收输出数据的数据流的输出数据集的节点。说 明 书CN 102656554 A3/14页80029 响应于对应用第一映射关系的数据流图的组件的选择,接收至少第一映射关系,该数据流图包括表示数据处理组件的节点、表示在数据处理组件之间的数据流的链接、表示提供输入数据的数据流的输入数据集的节点和表示接收输出数据的数据流的输出数据集的节点。0030 所述可视反馈包括表示在界面上显示的沿袭图的多个节点之一的确认信息的指示符,所述节点表示包括与输出数据集的。

26、一个或多个所标识元素相关联的至少一个变换后值的变换后值。0031 所述可视反馈包括多个指示符,每个指示符与界面上显示的沿袭图的多个节点之中的节点相关联。0032 由表示节点所表示的变换后值之间的依赖关系的链接来连接与所述指示符相关联的至少一些节点。0033 所述可视反馈包括多个指示符,每个指示符与界面上显示的多个输出元素之中的输出元素相关联,该多个输出元素包括表示输出数据集的一个或多个所标识元素的至少一个输出元素。0034 界面上显示的多个输出元素对应于表示将变换表达式应用于输入数据的记录的结果的字段。0035 至少一个指示符指示对于行字段值的确认信息,该行表示将变换表达式应用于输入数据的单个。

27、记录得到的输出值。0036 至少一个指示符指示对于列字段值的确认信息,该列表示将单个变换表达式多次应用于输入数据的各个记录。0037 所述可视反馈包括基于确认信息计算的统计数据,所述统计数据包括表示将确认标准应用于输入数据的多个记录的结果的数据。0038 以规律的时间间隔计算统计数据。0039 所述可视反馈包括与确认标准相关联的定制错误消息,所述定制错误消息指示关于将确认标准应用于输入数据的记录的具体实例的结果的信息。0040 该方法还包括在界面中接收被定义为与输入变量无关的至少一个常数的输出。0041 该方法还包括接收表示变换表达式的结果的期望值,其中,确定确认信息包括比较该期望值与关于包括。

28、变换表达式的每个变换映射关系生成的输出数据。0042 在另一方面中,描述一种用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素的系统。该系统包括输入数据存储系统,存储输入数据集;输出数据存储系统,存储输出数据集;以及数据处理系统,被配置以提供用于接收用户输入并呈现数据处理的结果的界面。该接收和呈现包括:在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个映射关系,映射关系中的至少一个包括可在数据处理系统上执行的变换表达式,所述变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出;在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标。

29、识;基于来自输入数据集的、与映射到输入变量的输入数据集的元素相关联的输入数据,根据变换表达式,从数据处理系统生成输出数据;基于定义与输出数据集的一个或多个标识元素相关联的有效值的一个或多个特性的确认标准,响应于生成的输出数据,确定确认信息;以及基于确定的确认信息,在界面中呈现可视反馈。说 明 书CN 102656554 A4/14页90043 在另一方面中,描述一种用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素的系统。该系统包括用于存储输入数据集的装置;用于存储输出数据集的装置;以及用于提供用于接收用户输入并呈现数据处理的结果的界面的装置。该接收和呈现包括:在界面中接收在给定。

30、的输出和由输入变量表示的一个或多个输入之间的一个或多个映射关系,映射关系中的至少一个包括可在数据处理系统上执行的变换表达式,所述变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出;在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识;基于来自输入数据集的与映射到输入变量的输入数据集的元素相关联的输入数据,根据变换表达式来从数据处理系统中生成输出数据;基于定义与输出数据集的一个或多个标识元素相关联的有效值的一个或多个特性的确认标准,响应于生成的输出数据,确定确认信息;以及基于确定的确认信息,在界面中呈现可视反馈。0044 在另一方面中,通常,一种计算机可读介质存。

31、储计算机程序,用于将输入数据集的一个或多个元素映射到输出数据集的一个或多个元素。该计算机程序包括用于使得计算机进行以下的指令:在界面中接收在给定的输出和由输入变量表示的一个或多个输入之间的一个或多个映射关系,映射关系中的至少一个包括可在数据处理系统上执行的变换表达式,所述变换表达式基于映射到输入数据集的元素的至少一个输入变量定义映射关系的输出;在所述界面中接收映射到各个映射关系的输出的输出数据集的元素的标识;基于来自输入数据集的与映射到输入变量的输入数据集的元素相关联的输入数据,根据变换表达式来从数据处理系统中生成输出数据;基于定义与输出数据集的一个或多个标识元素相关联的有效值的一个或多个特征。

32、的确认标准,响应于生成的输出数据,确定确认信息;以及基于确定的确认信息,在界面中呈现可视反馈。0045 上述方面可以包括下述一个或多个优点。0046 在一些情况中,当输入数据集正被映射到输出数据集时(例如当将数据填充(data feed)加载到数据仓储中时),输入数据集可以具有大量字段(例如,上千个字段),而输出数据集可以具有更少量的字段(例如,少于一百个字段)。数据管理系统使用映射,该映射提供来自一个或多个输入字段的信息如何映射到给定的输出字段的规范。提供数据管理系统的用户界面,以使得用户能够配置该映射(在“映射处理”期间)。0047 用户界面包括测试和确认特征,其使得相对无经验的用户能够观。

33、看测试值和确认信息,来使得用户能够验证映射的结果与意图是否一致并减少错误。确认特征使得更有经验的用户能够预先将确认规则与输出数据集的元素相关联,该确认规则稍后在映射处理期间应用。例如,一个或多个有经验的用户可以具有关于对于来自各种不同输入数据存储系统中存储的大量输入数据集的数据、要用作数据仓库的输出数据存储系统中存储的输出数据集的需求的知识。对经验的用户来说,将所有输入数据集的字段映射到输出数据集的适当字段是不实际的。用户界面使得不同新手用户能够为每个输入数据集提供映射,同时仍然提供一种方式,供经验用户实施确认标准,来捕捉新手用户可能犯而有经验的用户不会范的潜在错误,或来满足与输出数据集相关联。

34、的某些惯例,新手用户不会知道这些惯例。0048 通过基于由更有经验或技术能力更强的用户提供的规则而将测试盒确认整合到用户界面中,能够较早(在映射处理期间)、而不是稍后(在系统整合处理期间)捕获较没有经验或技术能力较弱的用户带来的潜在错误或不一致。可以通过较早捕获的这些错误或不说 明 书CN 102656554 A5/14页10一致来潜在地实现若干数量级的成本节约。这不仅减少了不同用户组说明情况且确认问题所需的时间,还使得一旦确认了问题即更容易修复该问题。附图说明0049 从以下描述、所附权利要求和附图,本发明的其他特征和方面将变得更明显。0050 图1是用于映射数据集元素的示例系统。0051 。

35、图2是数据管理系统的例子。0052 图3A是数据处理图的例子。0053 图3B是变换的例子。0054 图4是规则输入界面的例子。0055 图5是变换视图界面和相关元素的例子。0056 图6是用于变换视图界面的操作的过程的流程图。0057 图7A-7H是变换视图界面的操作的例子。0058 图8是变换视图界面的例子。0059 图9是沿袭图(lineage diagram)的例子。0060 图10是变换视图界面的例子。0061 图11是确认规则界面的例子。具体实施 方式0062 参考图1,用于映射数据集元素并根据映射的数据集元素来处理数据的系统10包括数据源12,其可以包括诸如存储设备或与在线数据流。

36、的连接的一个或多个数据源,每个数据源可以以各种存储格式中(例如,数据表、电子表文件、无格式文本文件或主框架使用的原生格式(native format))的任一来存储数据。执行环境14包括数据集映射模块16和数据集处理模块22。执行环境14可以在适当的操作系统(诸如UNIX操作系统)的控制下位于一个或多个通用计算机上。例如,执行环境14可以包括多节点并行计算环境,包括计算机系统的配置,这些计算机系统使用多个中央处理单元(CPU)、无论本地(例如,诸如SMP计算机的多处理器系统)或本地分布(例如,被耦合为簇或MPP的多个处理器)或远程地、还是远程分布地(例如,经由LAN或WAN网络耦合的多个处理器。

37、)、或其任何组合。0063 数据集映射模块16存储用于在输入数据集和输出数据集之间映射数据的映射信息,如以下更详细地描述的。数据集处理模块22从数据源12中存储的输入数据集读取数据,且例如,基于包括要施加到该数据的变换表达式的数据存储系统26中存储的映射信息24,根据存储的映射信息来处理该数据。提供数据源12的存储设备可以相对于执行环境14位于,例如在与运行执行环境14的计算机连接的存储介质(例如,硬盘18)上存储,或可以相对于执行环境14位于远程,例如位于在局域数据网或广域数据网上与运行执行环境14的计算机通信的远程系统(例如,主框架20)上。0064 数据集映射模块16基于正被映射的数据,(例如,通过显示器上的用户间界面)向用户显示视觉表示。开发环境28也可以访问数据存储系统26,在该开发环境28中,开发者30能够开发程序,该程序在数据存储系统26中存储,由数据处理模块22用来处理并显示该数据。在一些实施方式中,开发环境28是用于开发数据流图的系统,数据流图包括顶点说 明 书CN 102656554 A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1