分布式数据处理平台.pdf

摘要
申请专利号：	CN201510062380.6	申请日：	2015.02.05
公开号：	CN104598631A	公开日：	2015.05.06
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20150205\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	北京航空航天大学
发明人：	沃天宇; 孙承根; 吴博; 于伟仁; 李建欣
地址：	100191北京市海淀区学院路37号
优先权：
专利代理机构：	北京同立钧成知识产权代理有限公司11205	代理人：	马爽; 黄健
PDF下载：	PDF下载

内容摘要

本发明涉及一种分布式数据处理平台，包括：存储层、计算层、查询接口与算法库，以及应用层；存储层包括：分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES；HBase搭建在HDFS之上，用于存储微博的标识与微博数据之间的对应关系；ES中建立有微博关键字段与微博标识之间的对应关系；应用层接收用户终端发送的处理指令，根据处理指令向查询接口与算法库发送对应的查询请求；查询接口与算法库根据查询请求从存储层中查询微博数据；计算层根据处理指令对查询到的微博数据进行处理，将处理结果反馈给应用层，从而通过HBase和ES的配合使用，提高了分布式数据处理平台的查询速度和分析效率，满足微博大数据的要求。

权利要求书

权利要求书
1.  一种分布式数据处理平台，其特征在于，包括：
存储层、计算层、查询接口与算法库，以及应用层；
所述存储层，包括：分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES；所述HBase数据库系统搭建在所述HDFS之上，用于存储微博的标识与微博数据之间的对应关系；所述分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系；
所述应用层，用于接收用户终端发送的处理指令，根据所述处理指令向所述查询接口与算法库发送对应的查询请求，所述查询请求中携带微博的标识或微博关键字段；
所述查询接口与算法库，用于根据所述查询请求从存储层中查询微博数据；
所述计算层，用于根据所述处理指令对所述查询接口与算法库查询到的微博数据进行处理，得到处理结果，将所述处理结果反馈给所述应用层。

2.  根据权利要求1所述的分布式数据处理平台，其特征在于，所述应用层包括：微博搜索组件、统计分析组件、微博分类组件和事件检测组件；
所述处理指令为微博搜索指令、统计分析指令、微博分类指令或者事件检测指令；
所述微博搜索组件用于从用户终端接收所述微博搜索指令，根据所述微博搜索指令向所述查询接口与算法库发送对应的查询请求；
所述统计分析组件用于从用户终端接收所述统计分析指令，根据所述统计分析指令向所述查询接口与算法库发送对应的查询请求；
所述微博分类组件用于从用户终端接收所述微博分类指令，根据所述微博分类指令向所述查询接口与算法库发送对应的查询请求；
所述事件检测组件用于从用户终端接收所述事件检测指令，根据所述事件检测指令向所述查询接口与算法库发送对应的查询请求。

3.  根据权利要求2所述的分布式数据处理平台，其特征在于，所述查询接口与算法库，包括：统一查询接口、Shark查询引擎和Mahout算法集合；所述统一查询接口用于从应用层的各组件中接收查询请求，根据所述查询请求调用Shark查询引擎从存储层中查询微博数据。

4.  根据权利要求3所述的分布式数据处理平台，其特征在于，所述计算层包括：基于内存的Spark计算引擎；
所述Spark计算引擎用于，调用所述查询接口与算法库中的Mahout算法集合，根据所述各组件的处理指令对所述查询接口与算法库查询到的微博数据进行处理，得到与所述处理指令对应的处理结果，将所述处理结果通过所述统一查询接口反馈给与所述处理指令对应的组件。

5.  根据权利要求1所述的分布式数据处理平台，其特征在于，所述微博数据包括：微博信息数据、用户数据、评论数据和转发关系数据。

6.  根据权利要求5所述的分布式数据处理平台，其特征在于，
所述微博信息数据中包括：每条微博的ID、来源、创建时间、地理信息、微博作者ID、微博配图、微博内容、转发的上一级微博的ID、转发的根微博的ID、转发数量、评论数量和点赞数量中的任意一种或多种参数；
所述微博信息数据以微博ID和微博创建时间为标识存储在所述HBase 数据库系统中。

7.  根据权利要求5所述的分布式数据处理平台，其特征在于，
所述用户数据中包括：用户UID、微博昵称、省份、城市、地址、个人描述、用户博客地址、自定义图像、性别、用户个性化URL、粉丝数、关注数、微博数、收藏数、创建时间、是否微博认证用户、认证类型、互粉数、备注信息、用户语言版本、认证原因；
所述用户数据以用户UID为标识存储在所述HBase数据库系统中。

8.  根据权利要求5所述的分布式数据处理平台，其特征在于，
所述评论数据中包括：评论ID、评论针对的原始微博ID、发布评论的用户UID、评论的内容、评论发布时间、评论的来源；
所述评论数据以评论ID、评论针对的原始微博ID和评论发布时间为标识存储在所述HBase数据库系统中。

9.  根据权利要求5所述的分布式数据处理平台，其特征在于，
所述转发关系数据中包括：原始微博ID，原始微博的各个转发微博的ID 以及其对应的上一级微博ID；
所述转发关系数据以所述原始微博ID为标识存储在所述HBase数据库系统中。

说明书

说明书分布式数据处理平台
技术领域
本发明涉及计算机技术领域，尤其涉及一种分布式数据处理平台。
背景技术
微博是一种典型的大数据类型，它从诞生到现在，发展迅速，例如，新浪微博的每日发博量已经超过一亿条，尤其在突发和热点事件中，微博的影响规模和传播速度超越了普通博客和传统的新闻媒体。目前，针对微博的企业营销和舆情监测是关注的热点，例如，微博实时查询，统计分析，微博分类，热点检测等。
现有技术中，采用Hadoop平台来实现对微博的实时查询、统计分析、微博分类、热点检测等。在Hadoop平台中，微博数据存放在关系型数据库Hbase 中。Hadoop平台对微博进行分析时，需要从关系型数据库调取微博数据，基于磁盘对微博数据进行捕捉分析和计算，然后存储至关系型数据库中。然而现有技术中，从关系型数据库调取微博数据，需要根据微博数据的ID等标识顺序查询各对应关系，才能查询到微博数据，从而导致采用Hadoop平台来对微博进行查询分析时的查询速度慢，而磁盘对微博数据进行捕捉分析和计算，分析效率低，难以满足微博大数据的要求。
发明内容
本发明提供一种分布式数据处理平台，用于解决现有技术中Hadoop平台分析效率低的问题。
本发明的第一个方面是提供一种分布式数据处理平台，包括：
存储层、计算层、查询接口与算法库，以及应用层；
所述存储层，包括：分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES；所述HBase数据库系统搭建在所述HDFS之上，用于存储微博的标识与微博数据之间的对应关系；所述分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系；
所述应用层，用于接收用户终端发送的处理指令，根据所述处理指令向所述查询接口与算法库发送对应的查询请求，所述查询请求中携带微博的标识或微博关键字段；
所述查询接口与算法库，用于根据所述查询请求从存储层中查询微博数据；
所述计算层，用于根据所述处理指令对所述查询接口与算法库查询到的微博数据进行处理，得到处理结果，将所述处理结果反馈给所述应用层。
进一步地，所述应用层包括：微博搜索组件、统计分析组件、微博分类组件和事件检测组件；
所述处理指令为微博搜索指令、统计分析指令、微博分类指令或者事件检测指令；
所述微博搜索组件用于从用户终端接收所述微博搜索指令，根据所述微博搜索指令向所述查询接口与算法库发送对应的查询请求；
所述统计分析组件用于从用户终端接收所述统计分析指令，根据所述统计分析指令向所述查询接口与算法库发送对应的查询请求；
所述微博分类组件用于从用户终端接收所述微博分类指令，根据所述微博分类指令向所述查询接口与算法库发送对应的查询请求；
所述事件检测组件用于从用户终端接收所述事件检测指令，根据所述事件检测指令向所述查询接口与算法库发送对应的查询请求。
进一步地，所述查询接口与算法库，包括：统一查询接口、Shark查询引擎和Mahout算法集合；所述统一查询接口用于从应用层的各组件中接收查询请求，根据所述查询请求调用Shark查询引擎从存储层中查询微博数据。
进一步地，所述计算层具体用于，调用所述查询接口与算法库中的 Mahout算法集合，根据所述各组件的处理指令对所述查询接口与算法库查询到的微博数据进行处理，得到与所述处理指令对应的处理结果，将所述处理结果通过所述统一查询接口反馈给与所述处理指令对应的组件。
进一步地，所述微博数据包括：微博信息数据、用户数据、评论数据和转发关系数据。
进一步地，所述微博信息数据中包括：每条微博的ID、来源、创建时间、地理信息、微博作者ID、微博配图、微博内容、转发的上一级微博的ID、转发的根微博的ID、转发数量、评论数量和点赞数量中的任意一种或多种参数；
所述微博信息数据以微博ID和微博创建时间为标识存储在所述HBase 数据库系统中。
进一步地，所述用户数据中包括：用户UID、微博昵称、省份、城市、地址、个人描述、用户博客地址、自定义图像、性别、用户个性化URL、粉丝数、关注数、微博数、收藏数、创建时间、是否微博认证用户、认证类型、互粉数、备注信息、用户语言版本、认证原因；
所述用户数据以用户UID为标识存储在所述HBase数据库系统中。
进一步地，所述评论数据中包括：评论ID、评论针对的原始微博ID、发布评论的用户UID、评论的内容、评论发布时间、评论的来源；
所述评论数据以评论ID、评论针对的原始微博ID和评论发布时间为标识存储在所述HBase数据库系统中。
进一步地，所述转发关系数据中包括：原始微博ID，原始微博的各个转发微博的ID以及其对应的上一级微博ID；
所述转发关系数据以所述原始微博ID为标识存储在所述HBase数据库系统中。
本发明中，提供一种分布式数据处理平台，包括：存储层、计算层、查询接口与算法库，以及应用层；存储层，包括：分布式文件系统HDFS、HBase 数据库系统和分布式索引系统ES；HBase数据库系统搭建在HDFS之上，用于存储微博的标识与微博数据之间的对应关系；分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系；应用层，用于接收用户终端发送的处理指令，根据处理指令向查询接口与算法库发送对应的查询请求，查询请求中携带微博的标识或微博关键字段；查询接口与算法库，用于根据查询请求从存储层中查询微博数据；计算层，用于根据处理指令对查询接口与算法库查询到的微博数据进行处理，得到处理结果，将处理结果反馈给应用层，从而在HBase数据库系统和分布式索引系统ES的配合使用下，提高分布式数据处理平台查询微博的速度和对微博进行分析的效率，能够满足微博大数据的要求。
附图说明
图1为本发明提供的分布式数据处理平台实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
图1为本发明提供的分布式数据处理平台实施例的结构示意图，如图1 所示，包括：
存储层11、计算层12、查询接口与算法库13，以及应用层14；
存储层11，包括：分布式文件系统(Hadoop Distributed File System，HDFS) 111、数据库系统(Hadoop Database，HBase)112和分布式索引系统(Elastic Search，ES)113；HBase数据库系统112搭建在HDFS111之上，用于存储微博的标识与微博数据之间的对应关系；分布式索引系统ES113中建立有微博关键字段与微博标识之间的对应关系；
应用层14，用于接收用户终端发送的处理指令，根据处理指令向查询接口与算法库13发送对应的查询请求，查询请求中携带微博的标识或微博关键字段；
查询接口与算法库13，用于根据查询请求从存储层11中查询微博数据；
计算层12，用于根据处理指令对查询接口与算法库13查询到的微博数据进行处理，得到处理结果，将处理结果反馈给应用层14。
其中，应用层具体可以14包括：微博搜索组件、统计分析组件、微博分类组件和事件检测组件；
对应的，处理指令具体可以为微博搜索指令、统计分析指令、微博分类指令或者事件检测指令；
微博搜索组件用于从用户终端接收微博搜索指令，根据微博搜索指令向查询接口与算法库发送对应的查询请求；
统计分析组件用于从用户终端接收统计分析指令，根据统计分析指令向查询接口与算法库发送对应的查询请求；
微博分类组件用于从用户终端接收微博分类指令，根据微博分类指令向查询接口与算法库发送对应的查询请求；
事件检测组件用于从用户终端接收事件检测指令，根据事件检测指令向查询接口与算法库发送对应的查询请求。
具体地，微博数据包括：微博信息数据、用户数据、评论数据和转发关系数据。
微博信息数据中包括：每条微博的ID、来源、创建时间、地理信息、微博作者ID、微博配图、微博内容、转发的上一级微博的ID、转发的根微博的 ID、转发数量、评论数量和点赞数量中的任意一种或多种参数；微博信息数据以微博ID和微博创建时间为标识存储在HBase数据库系统中。
用户数据中包括：用户身份证明(User Identification，UID)、微博昵称、省份、城市、地址、个人描述、用户博客地址、自定义图像、性别、用户个性化统一资源定位器(Uniform Resoure Locator，URL)、粉丝数、关注数、微博数、收藏数、创建时间、是否微博认证用户、认证类型、互粉数、备注信息、用户语言版本、认证原因；用户数据以用户UID为标识存储在HBase 数据库系统中。
评论数据中包括：评论ID、评论针对的原始微博ID、发布评论的用户 UID、评论的内容、评论发布时间、评论的来源；评论数据以评论ID、评论针对的原始微博ID和评论发布时间为标识存储在HBase数据库系统中。
转发关系数据中包括：原始微博ID，原始微博的各个转发微博的ID以及其对应的上一级微博ID；转发关系数据以原始微博ID为标识存储在HBase 数据库系统中。
进一步地，微博关键字段具体可以为微博ID等，与微博关键字段对应的标识具体可以为微博ID、微博创建时间、用户UID、评论ID、评论针对的原始微博ID、评论发布时间和原始微博ID中的任意一种或多种。
具体地，分布式数据处理平台可以先根据微博ID从分布式索引系统ES 中查询相关微博数据，例如微博ID、微博创建时间、用户UID、评论ID、评论针对的原始微博ID、评论发布时间和原始微博ID等，若信息不全，可以根据微博ID、微博创建时间、用户UID、评论ID、评论针对的原始微博ID、评论发布时间和原始微博ID中的任意一种或多种在HBase数据库系统中进行补充查询，获取微博数据中的其他参数的信息。
进一步地，查询接口与算法库，包括：统一查询接口、Shark查询引擎和 Mahout算法集合；统一查询接口用于从应用层的各组件中接收查询请求，根据查询请求调用Shark查询引擎从存储层中查询微博数据。
进一步地，计算层包括：基于内存的Spark计算引擎；Spark计算引擎用于，调用查询接口与算法库中的Mahout算法集合，根据各组件的处理指令对查询接口与算法库查询到的微博数据进行处理，得到与处理指令对应的处理结果，将处理结果通过统一查询接口反馈给与处理指令对应的组件。
其中，由于Spark计算引擎进行大规模数据计算时，需要调用ES的索引数据。因此本实施例中，可以将Spark计算引擎与ES整合在一起，使得Spark 计算引擎可以直接并行访问ES存储的数据。
通过采用统一查询接口，可以将难以整合到一起的组件，例如HBase数据库系统和基于内存的Spark计算引擎，ES和基于内存的Spark计算引擎整合到一起，实现通过统一查询接口对各个组件的数据进行查询。
本实施例中，提供一种分布式数据处理平台，包括：存储层、计算层、查询接口与算法库，以及应用层；存储层，包括：分布式文件系统HDFS、 HBase数据库系统和分布式索引系统ES；HBase数据库系统搭建在HDFS之上，用于存储微博的标识与微博数据之间的对应关系；分布式索引系统ES 中建立有微博关键字段与微博标识之间的对应关系；应用层，用于接收用户终端发送的处理指令，根据处理指令向查询接口与算法库发送对应的查询请求，查询请求中携带微博的标识或微博关键字段；查询接口与算法库，用于根据查询请求从存储层中查询微博数据；计算层，用于根据处理指令对查询接口与算法库查询到的微博数据进行处理，得到处理结果，将处理结果反馈给应用层，从而在HBase数据库系统和分布式索引系统ES的配合使用下，提高分布式数据处理平台查询微博的速度和对微博进行分析的效率，能够满足微博大数据的要求。
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。