《基于HADOOP平台的WEB数据挖掘系统.pdf》由会员分享,可在线阅读,更多相关《基于HADOOP平台的WEB数据挖掘系统.pdf(6页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103309867 A (43)申请公布日 2013.09.18 CN 103309867 A *CN103309867A* (21)申请号 201210060688.3 (22)申请日 2012.03.09 G06F 17/30(2006.01) (71)申请人 句容智恒安全设备有限公司 地址 212400 江苏省镇江市句容市边城镇石 坑村 (今太科技创业园) 2 幢一层 101 室 (72)发明人 黄玉明 李伟 (54) 发明名称 基于 Hadoop 平台的 Web 数据挖掘系统 (57) 摘要 本发明基于 Hadoop 平台的 Web 数据挖掘系 统, 涉及数据。
2、挖掘系统。该系统包括用户交互层、 业务应用层、 Web 数据挖掘平台层和分布式存储 计算层 ; 所述的用户交互层, 用于用户和系统之 间的交互, 包括 : 用户管理模块、 业务模块和展示 模块 ; 所述的业务应用层包括 : 业务响应模块和 工作流模块 ; 所述的Web数据挖掘平台层包括 : 数 据加载模块、 结果存储模块、 模式评估模块、 并行 ETL 模块和并行数据挖掘算法模块 ; 所述的分布 式存储计算层, 使用 Hadoop 实现文件分布式存储 和并行计算功能, 包括 : HDFS 模块、 MapReduce 模 块和分布式管理模块。本发明需要巨大计算能力 的各个模块的计算和存储要求扩展。
3、到 HADOOP 集 群中的各个节点上, 利用集群的并行计算和存储 能力来进行相关数据挖掘工作。 (51)Int.Cl. 权利要求书 1 页 说明书 3 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书3页 附图1页 (10)申请公布号 CN 103309867 A CN 103309867 A *CN103309867A* 1/1 页 2 1. 一种基于 Hadoop 平台的 web 数据挖掘系统, 包括用户交互层、 业务应用层、 Web 数据 挖掘平台层和分布式存储计算层 ; 所述的用户交互层, 用于用户和系统之间的交互, 包括 : 用户。
4、管理模块、 业务模块和展 示模块 ; 所述的业务应用层包括 : 业务响应模块和工作流模块 ; 所述的 Web 数据挖掘平台层包括 : 数据加载模块、 结果存储模块、 模式评估模块、 并行 ETL 模块和并行数据挖掘算法模块 ; 所述的分布式存储计算层, 使用 Hadoop 实现文件分布式存储和并行计算功能, 包括 : HDFS 模块、 MapReduce 模块和分布式管理模块 ; 在上述用户交互层中 : 用户管理模块, 其用于识别用户身份、 设置相关权限以及对用户登录或者注销的管 理 ; 业务模块, 其用于提交细粒度的用户业务需求 ; 展示模块, 其用于对业务结果的查看、 分析和保存 ; 在上。
5、述的业务应用层中 : 业务响应模块, 其用于响应上层的业务模块, 对完成业务所需的子业务进行调用、 管 理, 并通过调用底层模块完成业务 ; 工作流模块, 其用于对业务状态进行监控、 管理, 和将具体的信息参数返回给业务响应 模块 ; 在上述的 Web 数据挖掘平台层中 : 数据加载模块, 其用于将挖掘所需的数据进行注册并放入系统的 HDFS 文件系统中 ; 结果存储模块, 其用于存放挖掘现在产生或者历史产生的各种模式 ; 模式评估模块, 其用于对产生的模式进行评估 ; 并行ETL模块, 其用于对数据进行预处理, 输入的数据来自于HDFS文件中, 并将处理结 果也放入 HDFS 中, 为挖掘过。
6、程进行数据清理, 提取, 转换和加载 ; 并行数据挖掘算法模块, 其用于为数据挖掘提供并行算法, 包含一个基于 HADOOP 进行 并行数据挖掘算法的库 ; 在上述的分布式存储计算层中 : HDFS 模块, 其用于提供各种访问接口, 包括 API 以及各种操作命令, 实现海量 web 数据 的分布式存储 ; MapReduce 模块, 其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节 点以实现并行计算。 权 利 要 求 书 CN 103309867 A 2 1/3 页 3 基于 Hadoop 平台的 Web 数据挖掘系统 技术领域 0001 本发明涉及数据挖掘系统, 具体地说是一种基。
7、于 Hadoop 平台的 web 数据挖掘系 统。 背景技术 0002 Web 数据挖掘是指使用数据挖掘技术在 www 数据中发现潜在的, 有用的模式或者 信息。 它建立在对大量的网络数据进行分析的基础上, 采用相应的数据挖掘算法, 在具体的 应用模型上进行数据的提取、 筛选、 转换、 挖掘和模式分析, 最后做出归纳性的推理。 但是目 前对 web 数据挖掘的研究主要集中在改进挖掘算法方面, 这只会提高挖掘系统的有效性, 并没有提高挖掘系统对数据的处理能力。随着网络技术的迅猛发展, web 上的数据正以指 数级飞速增长, 使用单一的数据挖掘平台已经在计算能力上遇到了瓶颈, 本发明发明了基 于 。
8、Hadoop 平台 web 数据挖掘系统。 发明内容 0003 基于 Hadoop 平台的 Web 数据挖掘系统, 包括用户交互层、 业务应用层、 Web 数据挖 掘平台层和分布式存储计算层 ; 所述的用户交互层, 用于用户和系统之间的交互, 包括 : 用户管理模块、 业务模块和展 示模块 ; 所述的业务应用层包括 : 业务响应模块和工作流模块 ; 所述的 Web 数据挖掘平台层包括 : 数据加载模块、 结果存储模块、 模式评估模块、 并行 ETL 模块和并行数据挖掘算法模块 ; 所述的分布式存储计算层, 使用 Hadoop 实现文件分布式存储和并行计算功能, 包括 : HDFS 模块、 Ma。
9、pReduce 模块和分布式管理模块 ; 在上述用户交互层中 : 用户管理模块, 其用于识别用户身份、 设置相关权限以及对用户登录或者注销的管 理 ; 业务模块, 其用于提交细粒度的用户业务需求 ; 展示模块, 其用于对业务结果的查看、 分析和保存 ; 在上述的业务应用层中 : 业务响应模块, 其用于响应上层的业务模块, 对完成业务所需的子业务进行调用、 管 理, 并通过调用底层模块完成业务 ; 工作流模块, 其用于对业务状态进行监控、 管理, 和将具体的信息参数返回给业务响应 模块 ; 在上述的 Web 数据挖掘平台层中 : 数据加载模块, 其用于将挖掘所需的数据进行注册并放入系统的 HDF。
10、S 文件系统中 ; 结果存储模块, 其用于存放挖掘现在产生或者历史产生的各种模式 ; 说 明 书 CN 103309867 A 3 2/3 页 4 模式评估模块, 其用于对产生的模式进行评估 ; 并行ETL模块, 其用于对数据进行预处理, 输入的数据来自于HDFS文件中, 并将处理结 果也放入 HDFS 中, 为挖掘过程进行数据清理, 提取, 转换和加载 ; 并行数据挖掘算法模块, 其用于为数据挖掘提供并行算法, 包含一个基于 HADOOP 进行 并行数据挖掘算法的库 ; 在上述的分布式存储计算层中 : HDFS 模块, 其用于提供各种访问接口, 包括 API 以及各种操作命令, 实现海量 w。
11、eb 数据 的分布式存储 ; MapReduce 模块, 其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节 点以实现并行计算。 附图说明 0004 图 1 为本发明的基于 HADoop 平台的 web 数据挖掘系统的结构示意图。 具体实施方式 0005 基于 Hadoop 平台的 Web 数据挖掘系统, 如图 1 所示, 包括用户交互层、 业务应用 层、 Web 数据挖掘平台层和分布式存储计算层 ; 所述的用户交互层, 用于用户和系统之间的交互, 包括 : 用户管理模块、 业务模块和展 示模块 ; 所述的业务应用层包括 : 业务响应模块和工作流模块 ; 所述的 Web 数据挖掘平台层。
12、包括 : 数据加载模块、 结果存储模块、 模式评估模块、 并行 ETL 模块和并行数据挖掘算法模块 ; 所述的分布式存储计算层, 使用 Hadoop 实现文件分布式存储和并行计算功能, 包括 : HDFS 模块、 MapReduce 模块和分布式管理模块 ; 在上述用户交互层中 : 用户管理模块, 其用于识别用户身份、 设置相关权限以及对用户登录或者注销的管 理 ; 业务模块, 其用于提交细粒度的用户业务需求 ; 展示模块, 其用于对业务结果的查看、 分析和保存 ; 在上述的业务应用层中 : 业务响应模块, 其用于响应上层的业务模块, 对完成业务所需的子业务进行调用、 管 理, 并通过调用底层。
13、模块完成业务 ; 工作流模块, 其用于对业务状态进行监控、 管理, 和将具体的信息参数返回给业务响应 模块 ; 在上述的 Web 数据挖掘平台层中 : 数据加载模块, 其用于将挖掘所需的数据进行注册并放入系统的 HDFS 文件系统中 ; 结果存储模块, 其用于存放挖掘现在产生或者历史产生的各种模式 ; 模式评估模块, 其用于对产生的模式进行评估 ; 并行ETL模块, 其用于对数据进行预处理, 输入的数据来自于HDFS文件中, 并将处理结 说 明 书 CN 103309867 A 4 3/3 页 5 果也放入 HDFS 中, 为挖掘过程进行数据清理, 提取, 转换和加载 ; 并行数据挖掘算法模块。
14、, 其用于为数据挖掘提供并行算法, 包含一个基于 HADOOP 进行 并行数据挖掘算法的库 ; 在上述的分布式存储计算层中 : HDFS 模块, 其用于提供各种访问接口, 包括 API 以及各种操作命令, 实现海量 web 数据 的分布式存储 ; MapReduce 模块, 其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节 点以实现并行计算。 0006 本发明充分利用 HADOOP 的集群特征, 将数据挖掘系统中需要巨大计算能力的各 个模块的计算和存储要求扩展到 HADOOP 集群中的各个节点上, 利用集群的并行计算和存 储能力来进行相关数据挖掘工作。在底层使用 HADOOP 来存储、 分析和处理巨大的数据量, 而在高层通过接口直接透明的调用底层的计算和存储能力。 说 明 书 CN 103309867 A 5 1/1 页 6 图 1 说 明 书 附 图 CN 103309867 A 6 。