基于HADOOP平台的WEB数据挖掘系统.pdf

摘要
申请专利号：	CN201210060688.3	申请日：	2012.03.09
公开号：	CN103309867A	公开日：	2013.09.18
当前法律状态：	撤回	有效性：	无权
法律详情：	登录超时
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	句容智恒安全设备有限公司
发明人：	黄玉明; 李伟
地址：	212400 江苏省镇江市句容市边城镇石坑村（今太科技创业园）2幢一层101室
优先权：
专利代理机构：		代理人：
PDF下载：	PDF下载

内容摘要

本发明基于Hadoop平台的Web数据挖掘系统，涉及数据挖掘系统。该系统包括用户交互层、业务应用层、Web数据挖掘平台层和分布式存储计算层；所述的用户交互层，用于用户和系统之间的交互，包括：用户管理模块、业务模块和展示模块；所述的业务应用层包括：业务响应模块和工作流模块；所述的Web数据挖掘平台层包括：数据加载模块、结果存储模块、模式评估模块、并行ETL模块和并行数据挖掘算法模块；所述的分布式存储计算层，使用Hadoop实现文件分布式存储和并行计算功能，包括：HDFS模块、MapReduce模块和分布式管理模块。本发明需要巨大计算能力的各个模块的计算和存储要求扩展到HADOOP集群中的各个节点上，利用集群的并行计算和存储能力来进行相关数据挖掘工作。

权利要求书

权利要求书
1. 一种基于Hadoop平台的web数据挖掘系统，包括用户交互层、业务应用层、Web数据挖掘平台层和分布式存储计算层；
所述的用户交互层，用于用户和系统之间的交互，包括：用户管理模块、业务模块和展示模块；
所述的业务应用层包括：业务响应模块和工作流模块；
所述的Web数据挖掘平台层包括：数据加载模块、结果存储模块、模式评估模块、并行ETL模块和并行数据挖掘算法模块；
所述的分布式存储计算层，使用Hadoop实现文件分布式存储和并行计算功能，包括：HDFS模块、MapReduce模块和分布式管理模块；
在上述用户交互层中：
用户管理模块，其用于识别用户身份、设置相关权限以及对用户登录或者注销的管理；
业务模块，其用于提交细粒度的用户业务需求；
展示模块，其用于对业务结果的查看、分析和保存；
在上述的业务应用层中：
业务响应模块，其用于响应上层的业务模块，对完成业务所需的子业务进行调用、管理，并通过调用底层模块完成业务；
工作流模块，其用于对业务状态进行监控、管理，和将具体的信息参数返回给业务响应模块；
在上述的Web数据挖掘平台层中：
数据加载模块，其用于将挖掘所需的数据进行注册并放入系统的HDFS文件系统中；
结果存储模块，其用于存放挖掘现在产生或者历史产生的各种模式；
模式评估模块，其用于对产生的模式进行评估；
并行ETL模块，其用于对数据进行预处理，输入的数据来自于HDFS文件中，并将处理结果也放入HDFS中，为挖掘过程进行数据清理，提取，转换和加载；
并行数据挖掘算法模块，其用于为数据挖掘提供并行算法，包含一个基于HADOOP进行并行数据挖掘算法的库；
在上述的分布式存储计算层中：
HDFS模块，其用于提供各种访问接口，包括API以及各种操作命令，实现海量web数据的分布式存储；
MapReduce模块，其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节点以实现并行计算。

说明书

说明书基于Hadoop平台的Web数据挖掘系统
技术领域
本发明涉及数据挖掘系统，具体地说是一种基于Hadoop平台的web数据挖掘系统。
背景技术
Web数据挖掘是指使用数据挖掘技术在www数据中发现潜在的，有用的模式或者信息。它建立在对大量的网络数据进行分析的基础上，采用相应的数据挖掘算法，在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析，最后做出归纳性的推理。但是目前对web数据挖掘的研究主要集中在改进挖掘算法方面，这只会提高挖掘系统的有效性，并没有提高挖掘系统对数据的处理能力。随着网络技术的迅猛发展，web上的数据正以指数级飞速增长，使用单一的数据挖掘平台已经在计算能力上遇到了瓶颈，本发明发明了基于Hadoop平台web数据挖掘系统。
发明内容
基于Hadoop平台的Web数据挖掘系统，包括用户交互层、业务应用层、Web数据挖掘平台层和分布式存储计算层；
所述的用户交互层，用于用户和系统之间的交互，包括：用户管理模块、业务模块和展示模块；
所述的业务应用层包括：业务响应模块和工作流模块；
所述的Web数据挖掘平台层包括：数据加载模块、结果存储模块、模式评估模块、并行ETL模块和并行数据挖掘算法模块；
所述的分布式存储计算层，使用Hadoop实现文件分布式存储和并行计算功能，包括：HDFS模块、MapReduce模块和分布式管理模块；
在上述用户交互层中：
用户管理模块，其用于识别用户身份、设置相关权限以及对用户登录或者注销的管理；
业务模块，其用于提交细粒度的用户业务需求；
展示模块，其用于对业务结果的查看、分析和保存；
在上述的业务应用层中：
业务响应模块，其用于响应上层的业务模块，对完成业务所需的子业务进行调用、管理，并通过调用底层模块完成业务；
工作流模块，其用于对业务状态进行监控、管理，和将具体的信息参数返回给业务响应模块；
在上述的Web数据挖掘平台层中：
数据加载模块，其用于将挖掘所需的数据进行注册并放入系统的HDFS文件系统中；
结果存储模块，其用于存放挖掘现在产生或者历史产生的各种模式；
模式评估模块，其用于对产生的模式进行评估；
并行ETL模块，其用于对数据进行预处理，输入的数据来自于HDFS文件中，并将处理结果也放入HDFS中，为挖掘过程进行数据清理，提取，转换和加载；
并行数据挖掘算法模块，其用于为数据挖掘提供并行算法，包含一个基于HADOOP进行并行数据挖掘算法的库；
在上述的分布式存储计算层中：
HDFS模块，其用于提供各种访问接口，包括API以及各种操作命令，实现海量web数据的分布式存储；
MapReduce模块，其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节点以实现并行计算。
附图说明
图1为本发明的基于HADoop平台的web数据挖掘系统的结构示意图。
具体实施方式
基于Hadoop平台的Web数据挖掘系统，如图1所示，包括用户交互层、业务应用层、Web数据挖掘平台层和分布式存储计算层；
所述的用户交互层，用于用户和系统之间的交互，包括：用户管理模块、业务模块和展示模块；
所述的业务应用层包括：业务响应模块和工作流模块；
所述的Web数据挖掘平台层包括：数据加载模块、结果存储模块、模式评估模块、并行ETL模块和并行数据挖掘算法模块；
所述的分布式存储计算层，使用Hadoop实现文件分布式存储和并行计算功能，包括：HDFS模块、MapReduce模块和分布式管理模块；
在上述用户交互层中：
用户管理模块，其用于识别用户身份、设置相关权限以及对用户登录或者注销的管理；
业务模块，其用于提交细粒度的用户业务需求；
展示模块，其用于对业务结果的查看、分析和保存；
在上述的业务应用层中：
业务响应模块，其用于响应上层的业务模块，对完成业务所需的子业务进行调用、管理，并通过调用底层模块完成业务；
工作流模块，其用于对业务状态进行监控、管理，和将具体的信息参数返回给业务响应模块；
在上述的Web数据挖掘平台层中：
数据加载模块，其用于将挖掘所需的数据进行注册并放入系统的HDFS文件系统中；
结果存储模块，其用于存放挖掘现在产生或者历史产生的各种模式；
模式评估模块，其用于对产生的模式进行评估；
并行ETL模块，其用于对数据进行预处理，输入的数据来自于HDFS文件中，并将处理结果也放入HDFS中，为挖掘过程进行数据清理，提取，转换和加载；
并行数据挖掘算法模块，其用于为数据挖掘提供并行算法，包含一个基于HADOOP进行并行数据挖掘算法的库；
在上述的分布式存储计算层中：
HDFS模块，其用于提供各种访问接口，包括API以及各种操作命令，实现海量web数据的分布式存储；
MapReduce模块，其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节点以实现并行计算。
本发明充分利用HADOOP的集群特征，将数据挖掘系统中需要巨大计算能力的各个模块的计算和存储要求扩展到HADOOP集群中的各个节点上，利用集群的并行计算和存储能力来进行相关数据挖掘工作。在底层使用HADOOP来存储、分析和处理巨大的数据量，而在高层通过接口直接透明的调用底层的计算和存储能力。

资源描述

《基于HADOOP平台的WEB数据挖掘系统.pdf》由会员分享，可在线阅读，更多相关《基于HADOOP平台的WEB数据挖掘系统.pdf（6页珍藏版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103309867 A (43)申请公布日 2013.09.18 CN 103309867 A *CN103309867A* (21)申请号 201210060688.3 (22)申请日 2012.03.09 G06F 17/30(2006.01) (71)申请人句容智恒安全设备有限公司地址 212400 江苏省镇江市句容市边城镇石坑村（今太科技创业园） 2 幢一层 101 室 (72)发明人黄玉明李伟 (54) 发明名称基于 Hadoop 平台的 Web 数据挖掘系统 (57) 摘要本发明基于 Hadoop 平台的 Web 数据挖掘系统，涉及数据。

2、挖掘系统。该系统包括用户交互层、业务应用层、 Web 数据挖掘平台层和分布式存储计算层；所述的用户交互层，用于用户和系统之间的交互，包括：用户管理模块、业务模块和展示模块；所述的业务应用层包括：业务响应模块和工作流模块；所述的Web数据挖掘平台层包括：数据加载模块、结果存储模块、模式评估模块、并行 ETL 模块和并行数据挖掘算法模块；所述的分布式存储计算层，使用 Hadoop 实现文件分布式存储和并行计算功能，包括： HDFS 模块、 MapReduce 模块和分布式管理模块。本发明需要巨大计算能力的各个模块的计算和存储要求扩展。

3、到 HADOOP 集群中的各个节点上，利用集群的并行计算和存储能力来进行相关数据挖掘工作。 (51)Int.Cl. 权利要求书 1 页说明书 3 页附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书1页说明书3页附图1页 (10)申请公布号 CN 103309867 A CN 103309867 A *CN103309867A* 1/1 页 2 1. 一种基于 Hadoop 平台的 web 数据挖掘系统，包括用户交互层、业务应用层、 Web 数据挖掘平台层和分布式存储计算层；所述的用户交互层，用于用户和系统之间的交互，包括：用户。

4、管理模块、业务模块和展示模块；所述的业务应用层包括：业务响应模块和工作流模块；所述的 Web 数据挖掘平台层包括：数据加载模块、结果存储模块、模式评估模块、并行 ETL 模块和并行数据挖掘算法模块；所述的分布式存储计算层，使用 Hadoop 实现文件分布式存储和并行计算功能，包括： HDFS 模块、 MapReduce 模块和分布式管理模块；在上述用户交互层中：用户管理模块，其用于识别用户身份、设置相关权限以及对用户登录或者注销的管理；业务模块，其用于提交细粒度的用户业务需求；展示模块，其用于对业务结果的查看、分析和保存；在上。

5、述的业务应用层中：业务响应模块，其用于响应上层的业务模块，对完成业务所需的子业务进行调用、管理，并通过调用底层模块完成业务；工作流模块，其用于对业务状态进行监控、管理，和将具体的信息参数返回给业务响应模块；在上述的 Web 数据挖掘平台层中：数据加载模块，其用于将挖掘所需的数据进行注册并放入系统的 HDFS 文件系统中；结果存储模块，其用于存放挖掘现在产生或者历史产生的各种模式；模式评估模块，其用于对产生的模式进行评估；并行ETL模块，其用于对数据进行预处理，输入的数据来自于HDFS文件中，并将处理结果也放入 HDFS 中，为挖掘过。

6、程进行数据清理，提取，转换和加载；并行数据挖掘算法模块，其用于为数据挖掘提供并行算法，包含一个基于 HADOOP 进行并行数据挖掘算法的库；在上述的分布式存储计算层中： HDFS 模块，其用于提供各种访问接口，包括 API 以及各种操作命令，实现海量 web 数据的分布式存储； MapReduce 模块，其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节点以实现并行计算。权利要求书 CN 103309867 A 2 1/3 页 3 基于 Hadoop 平台的 Web 数据挖掘系统技术领域 0001 本发明涉及数据挖掘系统，具体地说是一种基。

7、于 Hadoop 平台的 web 数据挖掘系统。背景技术 0002 Web 数据挖掘是指使用数据挖掘技术在 www 数据中发现潜在的，有用的模式或者信息。它建立在对大量的网络数据进行分析的基础上，采用相应的数据挖掘算法，在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析，最后做出归纳性的推理。但是目前对 web 数据挖掘的研究主要集中在改进挖掘算法方面，这只会提高挖掘系统的有效性，并没有提高挖掘系统对数据的处理能力。随着网络技术的迅猛发展， web 上的数据正以指数级飞速增长，使用单一的数据挖掘平台已经在计算能力上遇到了瓶颈，本发明发明了基于。

8、Hadoop 平台 web 数据挖掘系统。发明内容 0003 基于 Hadoop 平台的 Web 数据挖掘系统，包括用户交互层、业务应用层、 Web 数据挖掘平台层和分布式存储计算层；所述的用户交互层，用于用户和系统之间的交互，包括：用户管理模块、业务模块和展示模块；所述的业务应用层包括：业务响应模块和工作流模块；所述的 Web 数据挖掘平台层包括：数据加载模块、结果存储模块、模式评估模块、并行 ETL 模块和并行数据挖掘算法模块；所述的分布式存储计算层，使用 Hadoop 实现文件分布式存储和并行计算功能，包括： HDFS 模块、 Ma。

9、pReduce 模块和分布式管理模块；在上述用户交互层中：用户管理模块，其用于识别用户身份、设置相关权限以及对用户登录或者注销的管理；业务模块，其用于提交细粒度的用户业务需求；展示模块，其用于对业务结果的查看、分析和保存；在上述的业务应用层中：业务响应模块，其用于响应上层的业务模块，对完成业务所需的子业务进行调用、管理，并通过调用底层模块完成业务；工作流模块，其用于对业务状态进行监控、管理，和将具体的信息参数返回给业务响应模块；在上述的 Web 数据挖掘平台层中：数据加载模块，其用于将挖掘所需的数据进行注册并放入系统的 HDF。

10、S 文件系统中；结果存储模块，其用于存放挖掘现在产生或者历史产生的各种模式；说明书 CN 103309867 A 3 2/3 页 4 模式评估模块，其用于对产生的模式进行评估；并行ETL模块，其用于对数据进行预处理，输入的数据来自于HDFS文件中，并将处理结果也放入 HDFS 中，为挖掘过程进行数据清理，提取，转换和加载；并行数据挖掘算法模块，其用于为数据挖掘提供并行算法，包含一个基于 HADOOP 进行并行数据挖掘算法的库；在上述的分布式存储计算层中： HDFS 模块，其用于提供各种访问接口，包括 API 以及各种操作命令，实现海量 w。

11、eb 数据的分布式存储； MapReduce 模块，其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节点以实现并行计算。附图说明 0004 图 1 为本发明的基于 HADoop 平台的 web 数据挖掘系统的结构示意图。具体实施方式 0005 基于 Hadoop 平台的 Web 数据挖掘系统，如图 1 所示，包括用户交互层、业务应用层、 Web 数据挖掘平台层和分布式存储计算层；所述的用户交互层，用于用户和系统之间的交互，包括：用户管理模块、业务模块和展示模块；所述的业务应用层包括：业务响应模块和工作流模块；所述的 Web 数据挖掘平台层。

12、包括：数据加载模块、结果存储模块、模式评估模块、并行 ETL 模块和并行数据挖掘算法模块；所述的分布式存储计算层，使用 Hadoop 实现文件分布式存储和并行计算功能，包括： HDFS 模块、 MapReduce 模块和分布式管理模块；在上述用户交互层中：用户管理模块，其用于识别用户身份、设置相关权限以及对用户登录或者注销的管理；业务模块，其用于提交细粒度的用户业务需求；展示模块，其用于对业务结果的查看、分析和保存；在上述的业务应用层中：业务响应模块，其用于响应上层的业务模块，对完成业务所需的子业务进行调用、管理，并通过调用底层。

13、模块完成业务；工作流模块，其用于对业务状态进行监控、管理，和将具体的信息参数返回给业务响应模块；在上述的 Web 数据挖掘平台层中：数据加载模块，其用于将挖掘所需的数据进行注册并放入系统的 HDFS 文件系统中；结果存储模块，其用于存放挖掘现在产生或者历史产生的各种模式；模式评估模块，其用于对产生的模式进行评估；并行ETL模块，其用于对数据进行预处理，输入的数据来自于HDFS文件中，并将处理结说明书 CN 103309867 A 4 3/3 页 5 果也放入 HDFS 中，为挖掘过程进行数据清理，提取，转换和加载；并行数据挖掘算法模块。

14、，其用于为数据挖掘提供并行算法，包含一个基于 HADOOP 进行并行数据挖掘算法的库；在上述的分布式存储计算层中： HDFS 模块，其用于提供各种访问接口，包括 API 以及各种操作命令，实现海量 web 数据的分布式存储； MapReduce 模块，其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节点以实现并行计算。 0006 本发明充分利用 HADOOP 的集群特征，将数据挖掘系统中需要巨大计算能力的各个模块的计算和存储要求扩展到 HADOOP 集群中的各个节点上，利用集群的并行计算和存储能力来进行相关数据挖掘工作。在底层使用 HADOOP 来存储、分析和处理巨大的数据量，而在高层通过接口直接透明的调用底层的计算和存储能力。说明书 CN 103309867 A 5 1/1 页 6 图 1 说明书附图 CN 103309867 A 6 。

展开阅读全文