《基于HIVE的优化器优化方法.pdf》由会员分享,可在线阅读,更多相关《基于HIVE的优化器优化方法.pdf(6页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103399963 A (43)申请公布日 2013.11.20 CN 103399963 A *CN103399963A* (21)申请号 201310373084.9 (22)申请日 2013.08.26 G06F 17/30(2006.01) G06F 17/27(2006.01) (71)申请人 苏州国云数据科技有限公司 地址 215123 江苏省苏州市苏州工业园区仁 爱路 150 号第二教学楼 A108 室 (72)发明人 王一民 (74)专利代理机构 苏州广正知识产权代理有限 公司 32234 代理人 刘述生 (54) 发明名称 基于 Hive 的优化器优。
2、化方法 (57) 摘要 本发明公开了一种基于 Hive 的优化器优化 方法, 其步骤包括 : 将结构化查询语言数据发送 至语义分析驱动模块 ; 在语义分析驱动模块中, 对结构化查询语言数据进行分析, 并将语义分析 数据发送至元数据分析器模块 ; 基于缓存的优化 器接收并优化关键词数据和元数据分析器模块的 分析数据 ; 基于规则的优化器接收并优化基于缓 存的优化器的优化数据 ; 获取元数据的关键词, 并将其保存在关键词存储模块中 ; 在自动建模功 能模块中, 接收基于规则的优化器的最优结构化 查询语言数据并进行建模 ; 元数据统计模型模块 与自动建模功能模块进行数据交换 ; 将建模数据 传送至H。
3、ive客户端模块。 本发明提供的基于Hive 的优化器优化方法, 不仅效率高, 而且可以可以消 除重复计算, 方便使用。 (51)Int.Cl. 权利要求书 1 页 说明书 3 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书3页 附图1页 (10)申请公布号 CN 103399963 A CN 103399963 A *CN103399963A* 1/1 页 2 1. 一种基于 Hive 的优化器优化方法, 其特征在于 : 步骤包括 : 在 ETL 自动化模块中, 接收 Hive 客户端模块的结构化查询语言数据 ; 将结构化查询语言数据发送。
4、至语义分析驱动模块 ; 在语义分析驱动模块中, 对结构化查询语言数据进行分析, 并将语义分析数据发送至 元数据分析器模块 ; 基于缓存的优化器接收并优化关键词数据和元数据分析器模块的分析数据 ; 基于规则的优化器接收并优化基于缓存的优化器的优化数据 ; 获取元数据分析器模块的分析数据、 Hive 元数据、 Hadoop 元数据和优化数据中的关键 词, 并将其保存在关键词存储模块中 ; 在自动建模功能模块中, 接收基于规则的优化器的最优结构化查询语言数据 ; 根据中间表、 指标汇总表和最优结构化查询语言, 进行建模 ; 在元数据统计模型模块中, 接收并统计建模数据 ; 在自动建模功能模块中, 接。
5、收统计数据, 并根据统计数据进行建模 ; 将建模数据传送至 Hive 客户端模块。 2.根据权利要求1所述的基于Hive的优化器优化方法, 其特征在于, 所述Hive客户端 模块包括统一视图模块和订阅模块。 3. 根据权利要求 1 所述的基于 Hive 的优化器优化方法, 其特征在于, 所述中间表包括 用户中间表、 商品中间表和成交中间表。 4. 根据权利要求 1 所述的基于 Hive 的优化器优化方法, 其特征在于, 所述指标汇总表 包括卖家指标表和商品指标表。 5. 根据权利要求 1 所述的基于 Hive 的优化器优化方法, 其特征在于, 所述元数据包括 天网元数据、 云梯元数据和血缘分析。
6、元数据。 权 利 要 求 书 CN 103399963 A 2 1/3 页 3 基于 Hive 的优化器优化方法 技术领域 0001 本发明涉及了一种优化器方法, 特别是涉及了一种基于 Hive 的优化器优化方法。 背景技术 0002 在一些购物或咨询等网站和平台上, 随着业务扩展和讯息的不断增加, 数据需求 也在不断增长, 数据体系越来越庞大, 常规的模型重构赶不上快速变化的业务, 从而导致了 需要不断的进行大型重构, 但是这样不仅会浪费大量的人力和时间去进行重构, 而且重构 过程复杂, 不方便使用。 0003 大数据体系中, 大规模数据处理的性能是最关键的指标之一, 然而在现实环境中, 大。
7、多数大数据应用, 面临着性能瓶颈, 尤其在数据挖掘和大数据分析层次, 存在着大量的冗 余计算和低效计算, 所以人们需要更加满足需求的优化器系统。 发明内容 0004 本发明主要是针对现在市场的要求, 提供了一种具有效率高、 方便使用的基于 Hive 的优化器优化方法。 0005 为了实现上述目的, 本发明提供以下技术方案 : 0006 本发明提供了一种基于 Hive 的优化器优化方法, 其步骤包括 : 在 ETL 自动化模块 中, 接收 Hive 客户端模块的结构化查询语言数据 ; 将结构化查询语言数据发送至语义分析 驱动模块 ; 在语义分析驱动模块中, 对结构化查询语言数据进行分析, 并将语。
8、义分析数据发 送至元数据分析器模块 ; 基于缓存的优化器接收并优化关键词数据和元数据分析器模块的 分析数据 ; 基于规则的优化器接收并优化基于缓存的优化器的优化数据 ; 获取元数据分析 器模块的分析数据、 Hive 元数据、 Hadoop 元数据和优化数据中的关键词, 并将其保存在关 键词存储模块中 ; 在自动建模功能模块中, 接收基于规则的优化器的最优结构化查询语言 数据 ; 根据中间表、 指标汇总表和最优结构化查询语言, 进行建模 ; 在元数据统计模型模块 中, 接收并统计建模数据 ; 在自动建模功能模块中, 接收统计数据, 并根据统计数据进行建 模 ; 将建模数据传送至 Hive 客户端。
9、模块。 0007 在本发明一个较佳实施例中, 所述 Hive 客户端模块包括统一视图模块和订阅模 块。 0008 在本发明一个较佳实施例中, 所述中间表包括用户中间表、 商品中间表和成交中 间表。 0009 在本发明一个较佳实施例中, 所述指标汇总表包括卖家指标表和商品指标表。 0010 在本发明一个较佳实施例中, 所述元数据包括天网元数据、 云梯元数据和血缘分 析元数据 0011 本发明的有益效果是 : 本发明所述的基于 Hive 的优化器优化方法, 不仅效率高, 而且可以可以消除重复计算, 方便使用。 说 明 书 CN 103399963 A 3 2/3 页 4 附图说明 0012 图 1。
10、 是本发明基于 Hive 的优化器优化方法一较佳实施例的流程示意图。 具体实施方式 0013 下面结合附图对本发明的较佳实施例进行详细阐述, 以使本发明的优点和特征能 更易于被本领域技术人员理解, 从而对本发明的保护范围做出更为清楚明确的界定。 0014 请参阅图 1, 图 1 是本发明基于 Hive 的优化器优化方法一较佳实施例的流程示意 图。 0015 本发明提供了一种基于 Hive 的优化器优化方法, 其步骤包括 : 在 ETL 自动化模块 中, 接收 Hive 客户端模块的结构化查询语言数据 ; 将结构化查询语言数据发送至语义分析 驱动模块 ; 在语义分析驱动模块中, 对结构化查询语言。
11、数据进行分析, 并将语义分析数据发 送至元数据分析器模块 ; 基于缓存的优化器接收并优化关键词数据和元数据分析器模块的 分析数据 ; 基于规则的优化器接收并优化基于缓存的优化器的优化数据 ; 获取元数据分析 器模块的分析数据、 Hive 元数据、 Hadoop 元数据和优化数据中的关键词, 并将其保存在关 键词存储模块中 ; 在自动建模功能模块中, 接收基于规则的优化器的最优结构化查询语言 数据 ; 根据中间表、 指标汇总表和最优结构化查询语言, 进行建模 ; 在元数据统计模型模块 中, 接收并统计建模数据 ; 在自动建模功能模块中, 接收统计数据, 并根据统计数据进行建 模 ; 将建模数据传。
12、送至 Hive 客户端模块。 0016 通过大量业务场景分析, 可扩展性的架构设计, 对云计算和大数据基础设施 Hadoop、 hive 等, 通过优化器在上层进行了一套完整的优化, 从而解决了目前大数据计算 中, 从在的速度瓶颈, 该技术还有效的提高了数据使用率, 为公司至少节省了 50的计算单 元。 0017 本发明的优化器是完全透明的, 不需要工程师对上层的大数据应用做任何修改, 也不用下层计算单元做适应, 完全自动的让计算效率大幅度提升。该优化器还相当完美 迎合目前对实时分析的需求, 直接将已有的数据成果做出及时和实时反馈, 这也弥补了 Hadoop 只适合批处理计算的弱点。 0018。
13、 所述基于 Hive 的优化器优化方法, 利用现有的产出数据, 在其他代价不变的基础 上, 基本可以消除重复计算, 提高数据优化效率, 而且, 基于 Hive 和 Hadoop 的特性, 系统可 以自动设置参数, 实现数据计算的高效执行, 另外, 系统冗余处理能力强, 可以及时的发现 异常, 防止任务重跑, 方便使用。 0019 所述 Hive 客户端模块包括统一视图模块和订阅模块等模块, 按照实际使用的需 要来增减模块, 方便使用。 0020 所述中间表包括用户中间表、 商品中间表和成交中间表等, 所述指标汇总表包括 卖家指标表和商品指标表等, 所述中间表和所述指标汇总表的种类和数量也必须参。
14、考用户 和系统的要求进行设置和管理, 功能明确, 方便管理和使用。 0021 在系统优化和升级的过程中, 只要对中间表或指标汇总表进行改动, 既按照需求 添加或修改或删除中间表、 指标汇总表即可, 不需要改动代码, 防止出现系统漏洞和错误, 而且, 平常的系统维护也比较简单, 不需要过分维护, 方便使用。 0022 所述元数据包括天网元数据、 云梯元数据、 血缘分析元数据以及其他类型的元数 说 明 书 CN 103399963 A 4 3/3 页 5 据。 0023 本发明所述的基于 Hive 的优化器优化方法, 不仅效率高, 而且可以可以消除重复 计算, 方便使用。 0024 以上所述仅为本发明的实施例, 并非因此限制本发明的专利范围, 凡是利用本发 明说明书及附图内容所作的等效结构或等效流程变换, 或直接或间接运用在其他相关的技 术领域, 均同理包括在本发明的专利保护范围内。 说 明 书 CN 103399963 A 5 1/1 页 6 图 1 说 明 书 附 图 CN 103399963 A 6 。