一种确定云平台中最优通信代理节点数目的方法.pdf

摘要
申请专利号：	CN201410395123.X	申请日：	2014.08.12
公开号：	CN104219226A	公开日：	2014.12.17
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):H04L 29/06申请日:20140812\|\|\|公开
IPC分类号：	H04L29/06; H04L29/08; H04L12/24	主分类号：	H04L29/06
申请人：	重庆大学
发明人：	任海军; 龙澜; 潘璐璐; 吴良俊; 郭晓东; 吴海燕; 王博
地址：	400044 重庆市沙坪坝区沙坪坝正街174号
优先权：
专利代理机构：	重庆大学专利中心 50201	代理人：	王翔
PDF下载：	PDF下载

内容摘要

本发明的目的是解决现有技术没有确定云平台中最优通信代理节点的数目的问题。为实现本发明目的而采用的技术方案是这样的，一种确定云平台中最优通信代理节点数目的方法，构建一个包括一台控制节点服务器和若干台计算节点服务器的云平台，每一台所述的计算节点服务器上构建若干台虚拟机。所述云平台基于OpenStackHavana版搭建。在所述云平台的服务器上构建若干个通信代理节点，所述通信代理节点用于管理虚拟机。根据map阶段(分发处理阶段)总耗时、Reduce阶段(合并处理阶段)总耗时和MapReduce进程(大数据处理进程)过程耗时的表达式确定获得云平台中最优的通信代理节点数目。

权利要求书

1. 一种确定云平台中最优通信代理节点数目的方法，构建一个包括一台控制节点服务器和若干台计算节点服务器的云平台，每一台所述的计算节点服务器上构建若干台虚拟机；所述云平台基于OpenStack Havana版搭建；在所述云平台的服务器上构建若干个通信代理节点，所述通信代理节点用于管理虚拟机；
其特征在于：最优的通信代理节点数目k通过以下步骤确定：
1)map阶段(分发处理阶段)总耗时：
Ttotalmap=Σi=1mΣj=1nitijmap=N·SB+Σi=1mΣj=1niμijμtotal·SkB+NSμtptal=N·SB+SNakBN+NSμtotal,]]>其中，代表map阶段总耗时，m代表计算节点服务器的数量，n_i代表第i台计算节点服务器上虚拟机的数量，代表map阶段第i台计算节点服务器上第j个虚拟机耗时，N代表在MapReduce进程(大数据处理进程)中可用的虚拟机数量，S代表map阶段稳态时，固定时间段内输入云平台的数据总大小的期望，B代表任意两个计算节点服务器之间传输1GB数据所需时间，μ_ij代表第i号计算节点服务器上的第j台虚拟机当前的处理能力，μ_total代表当前云平台中所有虚拟机的性能总和，k代表云平台中通信代理节点的数目，N_a代表构建在有通信代理的服务器上的虚拟机数量之和；
2)Reduce阶段(合并处理阶段)总耗时：
Ttotalreduce=Σi=1mΣj=1nitijreduce=(N-Na)SrnrkB+[NSrnrB-(N-Na)SrkB·nrknr+k-1-NaSrnrB]+NSrB·(1-NaN)nr=NSrnrkB+[NSrnrB-(1-1μtotal)NSrkb·nrknr+k-1-NSrnrμtotalB(nr+k-1)]+NSrB·(1-1μtotal)nr]]>
其中：代表reduce阶段总耗时，m代表计算节点服务器的数量，n_i代表第i号计算节点服务器上虚拟机的数量，代表reduce阶段第i台计算节点服务器上第j个虚拟机耗时，N代表在MapReduce进程(大数据处理进程)中可用的虚拟机数量，S_r代表reduce阶段稳态时，固定时间段内输入的数据总大小的期望，n_r代表reduce阶段数据的虚拟机的数量，B代表任意两个计算节点服务器之间传输1GB数据所需时间，k代表云平台中通信代理节点的数目，μ_cocat代表当前云平台中所有虚拟机的性能总和，N_a代表构建在有通信代理的服务器上的虚拟机数量之和；
3)MapReduce进程(大数据处理进程)过程耗时的表达式：
Ttotal=Ttotalmap+Ttotalreduce=NSB+S(N-Na)kBN+N2Sμtotal(N-Na)+[(2k+1)N-(k+1)Na]SrnrkB-(N-2Na)SrnrB(nr+k-1)]]>4)根据T_total的表达式，求解获得云平台中最优的通信代理节点数目k：
&PartialD;Ttotal&PartialD;k=0&DoubleRightArrow;k=NSnrμtotal|BS-(nr+1)NSrμtotal|.]]>

说明书

一种确定云平台中最优通信代理节点数目的方法
技术领域
本发明涉及云平台大数据处理。
背景技术
基于云平台的大数据处理集群由于其弹性可伸缩的计算框架以及“按需获取”的新型业务模式正逐渐的被工业界采纳。
从OpenStack Grizzly版开始，为了改善虚拟网络的性能和可靠性，可以允许租户在多主机上部署通信代理节点。但是，虚拟网络组件Neutron只实现了虚拟网络的通信功能，并没有进一步关注虚拟网络通信性能的提升。也就是说，没有提供有效的通信代理节点部署分配策略。而针对基于OpenStack的Hadoop集群，我们需要如何去设计通信代理分配策略来优化虚拟网络的性能以提升集群大数据处理的能力是我们亟需解决的问题。具体来说，就是为基于OpenStack的虚拟网络优化部署提供解决方案，而其中一个关键问题就是要确定云平台中最优通信代理节点的数目。
发明内容
本发明的目的是解决现有技术没有确定云平台中最优通信代理节点的数目的问题。
为实现本发明目的而采用的技术方案是这样的，一种确定云平台中最优通信代理节点数目的方法，构建一个包括一台控制节点服务器和若干台计算节点服务器的云平台，每一台所述的计算节点服务器上构建若干台虚拟机。所述云平台基于OpenStack Havana版搭建。在所述云平台的服务器上构建若干个通信代理节点，所述通信代理节点用于管理虚拟机。
所述通信代理节点的数目k通过以下步骤确定：
1)map阶段(分发处理阶段)总耗时：
Ttotalmap=Σi=1mΣj=1nitijmap=N·SB+Σi=1mΣj=1niμijμtotal·SkB+NSμtptal=N·SB+SNakBN+NSμtotal,]]>其中，代表map阶段总耗时，m代表计算节点服务器的数量，n_i代表第i号计算节点服务器上虚拟机的数量，代表map阶段第i台计算节点服务器上第j个虚拟机耗时，N代表在MapReduce进程(大数据处理进程)中可用的虚拟机数量，S代表map阶段稳态时，固定时间段内输入云平台的数据总大小的期望，B代表任意两个计算节点服务器之间传输1GB数据所需时间，μ_ij代表第i号计算节点服务器上的第j台虚拟机当前的处理能力，μ_total代表当前云平台中所有虚拟机的性能总和，k代表云平台中通信代理节点的数目，N_a代表构建在有通信代理的服务器上的虚拟机数量之和。
2)Reduce阶段(合并处理阶段)总耗时：
Ttotalreduce=Σi=1mΣj=1nitijreduce=(N-Na)SrnrkB+[NSrnrB-(N-Na)SrkB·nrknr+k-1-NaSrnrB]+NSrB·(1-NaN)nr=NSrnrkB+[NSrnrB-(1-1μtotal)NSrkb·nrknr+k-1-NSrnrμtotalB(nr+k-1)]+NSrB·(1-1μtotal)nr]]>
其中：代表reduce阶段总耗时，m代表计算节点服务器的数量，n_i代表第i号计算节点服务器上虚拟机的数量，代表reduce阶段第i台计算节点服务器上第j个虚拟机耗时，N代表在MapReduce进程(大数据处理进程)中可用的虚拟机数量，S_r代表reduce阶段稳态时，固定时间段内输入的数据总大小的期望，n_r处理reduce阶段数据的虚拟机的数量，B代表任意两个计算节点服务器之间传输1GB数据所需时间，k代表云平台中通信代理节点的数目，μ_total代表当前云平台中所有虚拟机的性能总和，N_a代表构建在有通信代理的服务器上的虚拟机数量之和。
3)MapReduce进程(大数据处理进程)过程耗时的表达式：
Ttotal=Ttotalmap+Ttotalreduce=NSB+S(N-Na)kBN+N2Sμtotal(N-Na)+[(2k+1)N-(k+1)Na]SrnrkB-(N-2Na)SrnrB(nr+k-1)]]>
4)根据T_total的表达式，求解获得云平台中最优的通信代理节点数目的表达式：
&PartialD;Ttotal&PartialD;k=0&DoubleRightArrow;k=NSnrμtotal|BS-(nr+1)NSrμtotal|]]>
本发明的技术效果是毋庸置疑的。基于上述方法，为基于OpenStack的虚拟网络优化部署提供了解决方案，解决了其中一个关键问题--确定云平台中最优通信代理节点的数目。
附图说明
图1为云平台大数据处理流程示意图。
图2为最优通信代理节点的数目确定流程图。
图3为实施例2的实验效果。
图4为实施例3的实验效果。
具体实施方式
下面结合附图和实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。
实施例1：
本实施例公开一种确定云平台中最优通信代理节点数目的方法。根据现有技术，将要构建一个包括一台控制节点服务器和m台计算节点服务器的云平台，计算节点服务器的编号用变量i表示，i＝1、2……m。每一台(第i台)所述的计算节点服务器上构建n_i，i＝1、2……m台虚拟机，虚拟机的编号用变量j表示，j＝1、2……n_i。有的计算节点服务器上没有虚拟机，则对应的n_i＝0。所述云平台基于OpenStack Havana版搭建。在所述云平台的计算节点服务器上构建k个通信代理节点，所述通信代理节点用于管理虚拟机。值得说明的是，m和n_i(即{n₁、n₂……n_m})的具体值是确定的，通信代理节点数目k待定。
最优的通信代理节点数目k通过以下步骤确定：
1)map阶段(分发处理阶段)总耗时：
Map阶段分为三个过程：第一步，将大数据切分成小型数据块，然后分发给平台中的通信代理；第二步，通信代理将第一阶段传输过来的数据分发给它负责的虚拟机；第三步，虚拟机处理通信代理转发来的数据。
Ttotalmap=Σi=1mΣj=1nitijmap=N·SB+Σi=1mΣj=1niμijμtotal·SkB+NSμtptal=N·SB+SNakBN+NSμtotal,]]>其中，代表map阶段总耗时，m代表计算节点服务器的数量，n_i代表第i台计算节点服务器上虚拟机的数量，代表map阶段第i台计算节点服务器上第j个虚拟机耗时，N代表在MapReduce进程(大数据处理进程)中可用的虚拟机数量，S代表map阶段稳态时，固定时间段内输入云平台的数据总大小的期望，B代表任意两个计算节点服务器之间传输1GB数据所需时间，μ_ij代表第i号计算节点服务器上的第j台虚拟机当前的处理能力，μ_total代表当前云平台中所有虚拟机的性能总和，k代表云平台中通信代理节点的数目(待求)，N_a代表构建在有通信代理的服务器上的虚拟机数量之和。
2)Reduce阶段(合并处理阶段)总耗时：
Reduce阶段的工作由三部分构成：第一部分，Mapper将处理完的结果提交给负责它的通信代理。第二部分，所有通信代理将汇聚过来的结果发送给Reducer的通信代理。第三部分，Reducer通信代理将结果转发给目的虚拟机。
Ttotalreduce=Σi=1mΣj=1nitijreduce=(N-Na)SrnrkB+[NSrnrB-(N-Na)SrkB·nrknr+k-1-NaSrnrB]+NSrB·(1-NaN)nr=NSrnrkB+[NSrnrB-(1-1μtotal)NSrkb·nrknr+k-1-NSrnrμtotalB(nr+k-1)]+NSrB·(1-1μtotal)nr]]>
其中：代表reduce阶段总耗时，m代表计算节点服务器的数量，n_i代表第i号计算节点服务器上虚拟机的数量，代表reduce阶段第i台计算节点服务器上第j个虚拟机耗时，N代表在MapReduce进程(大数据处理进程)中可用的虚拟机数量，S_r代表reduce阶段稳态时，固定时间段内输入的数据总大小的期望，n_r代表reduce阶段数据的虚拟机的数量，B代表任意两个计算节点服务器之间传输1GB数据所需时间，k代表云平台中通信代理节点的数目，μ_total代表当前云平台中所有虚拟机的性能总和，N_a代表构建在有通信代理的服务器上的虚拟机数量之和。
3)MapReduce进程(大数据处理进程)过程耗时的表达式：
Ttotal=Ttotalmap+Ttotalreduce=NSB+S(N-Na)kBN+N2Sμtotal(N-Na)+[(2k+1)N-(k+1)Na]SrnrkB-(N-2Na)SrnrB(nr+k-1)]]>
4)根据T_total的表达式，求解获得云平台中最优的通信代理节点数目k：
&PartialD;Ttotal&PartialD;k=0&DoubleRightArrow;k=NSnrμtotal|BS-(nr+1)NSrμtotal|.]]>N代表map阶段在MapReduce进程(大数据处理进程)中可用的虚拟机数量，S代表map阶段稳态时，固定时间段内输入云平台的数据总大小的期望，μ_total代表map阶段当前云平台中所有虚拟机的性能总和，S_r代表reduce阶段稳态时，固定时间段内输入的数据总大小的期望，n_r代表reduce阶段数据的虚拟机的数量，B代表reduce阶段任意两个计算节点服务器之间传输1GB数据所需时间。
实施例2
一种确定云平台中最优通信代理节点的数目的方法，构建一个包括一台控制节点服务器和3台计算节点服务器的云平台。每一台所述的计算节点服务器上构建若干台虚拟机，即第1台计算节点服务器上构建有3台虚拟机，第2台计算节点服务器上构建有2台虚拟机，第3台计算节点服务器上构建有3台虚拟机。所述云平台基于OpenStack Havana版搭建。
本发明所求得最优通信代理数目表达式
k=NSnrμtotal|BS-(nr+1)NSrμtotal|]]>
N＝8个(平台搭建好后即可得出该数)，S＝2.1GB(以vSphere测得)，n_r＝4个(平台搭建好后即可得出该数)，μ_total＝19GHz(以vSphere测得)，B＝100s/GB(以vSphere测得)，S_r＝1.2GB(以vSphere测得)，代入上式，求得k约等于2，即需要设置2个通信代理，能使数据处理性能最高。
选用经典的MapReduce程序：WordCount，测试数据通过网络爬虫在Wikipedia上爬取21G的文本数据。在WordCount程序运行完之后，得出整个MapReduce阶段的总时间。从图3中可以看出当通信代理设置为2个时，耗时最低，故最优通信代理数目为2，与公式所求吻合。
实施例3：
基于OpenStack Havana版搭建云平台。构建了一个包含21台服务器的云计算IaaS平台，其中包括1台控制节点，20台计算节点。具体服务器配置和每台服务器上的虚拟机如表1所示。该平台以虚拟资源的方式为用户提供虚拟资源的使用，提供的虚拟资源的模板种类如表2所示。选用统一的微型主机模板。然后在IaaS平台中分配了246台虚拟机，搭建了基于云计算的并行计算集群。其中配置一台虚拟机作为Hadoop的master节点，其他245台作为Hadoop的slave节点。为了对本方法进行评估，以计算机程序设计语言对方法进行了实现，并整合到OpenStack平台中，在实际的IaaS应用场景中，对本方法进行详细的评估。
表1云计算IaaS平台服务器配置

表2云计算IaaS平台提供的虚拟资源种类

基于采集到的实际用户在利用Hadoop的MapReduce过程中稳定时达到的作业大小，我们对实际的云平台上的大数据处理场景进行了模拟。我们选用了经典的MapReduce程序：WordCount，而测试数据是我们在通过网络爬虫在维基百科上爬到的43G的文本数据。在WordCount程序运行完之后，我们统计每个slave上的时间，进而得出整个MapReduce阶段的总时间。
图4中表示没有利用我们的任何发明策略，实验的总时间随着数据量增大的曲线。而是采用本发明方法优化了通信代理数量的实验结果。

资源描述

《一种确定云平台中最优通信代理节点数目的方法.pdf》由会员分享，可在线阅读，更多相关《一种确定云平台中最优通信代理节点数目的方法.pdf（12页珍藏版）》请在专利查询网上搜索。

1、10申请公布号CN104219226A43申请公布日20141217CN104219226A21申请号201410395123X22申请日20140812H04L29/06200601H04L29/08200601H04L12/2420060171申请人重庆大学地址400044重庆市沙坪坝区沙坪坝正街174号72发明人任海军龙澜潘璐璐吴良俊郭晓东吴海燕王博74专利代理机构重庆大学专利中心50201代理人王翔54发明名称一种确定云平台中最优通信代理节点数目的方法57摘要本发明的目的是解决现有技术没有确定云平台中最优通信代理节点的数目的问题。为实现本发明目的而采用的技术方案是这样的，一种确定云平台。

2、中最优通信代理节点数目的方法，构建一个包括一台控制节点服务器和若干台计算节点服务器的云平台，每一台所述的计算节点服务器上构建若干台虚拟机。所述云平台基于OPENSTACKHAVANA版搭建。在所述云平台的服务器上构建若干个通信代理节点，所述通信代理节点用于管理虚拟机。根据MAP阶段分发处理阶段总耗时、REDUCE阶段合并处理阶段总耗时和MAPREDUCE进程大数据处理进程过程耗时的表达式确定获得云平台中最优的通信代理节点数目。51INTCL权利要求书2页说明书6页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书6页附图3页10申请公布号CN104219226ACN1。

3、04219226A1/2页21一种确定云平台中最优通信代理节点数目的方法，构建一个包括一台控制节点服务器和若干台计算节点服务器的云平台，每一台所述的计算节点服务器上构建若干台虚拟机；所述云平台基于OPENSTACKHAVANA版搭建；在所述云平台的服务器上构建若干个通信代理节点，所述通信代理节点用于管理虚拟机；其特征在于最优的通信代理节点数目K通过以下步骤确定1MAP阶段分发处理阶段总耗时其中，代表MAP阶段总耗时，M代表计算节点服务器的数量，NI代表第I台计算节点服务器上虚拟机的数量，代表MAP阶段第I台计算节点服务器上第J个虚拟机耗时，N代表在MAPREDUCE进程大数据处理进程中可用的虚。

4、拟机数量，S代表MAP阶段稳态时，固定时间段内输入云平台的数据总大小的期望，B代表任意两个计算节点服务器之间传输1GB数据所需时间，IJ代表第I号计算节点服务器上的第J台虚拟机当前的处理能力，TOTAL代表当前云平台中所有虚拟机的性能总和，K代表云平台中通信代理节点的数目，NA代表构建在有通信代理的服务器上的虚拟机数量之和；2REDUCE阶段合并处理阶段总耗时其中代表REDUCE阶段总耗时，M代表计算节点服务器的数量，NI代表第I号计算节点服务器上虚拟机的数量，代表REDUCE阶段第I台计算节点服务器上第J个虚拟机耗时，N代表在MAPREDUCE进程大数据处理进程中可用的虚拟机数量，SR代表R。

5、EDUCE阶段稳态时，固定时间段内输入的数据总大小的期望，NR代表REDUCE阶段数据的虚拟机的数量，B代表任意两个计算节点服务器之间传输1GB数据所需时间，K代表云平台中通信代理节点的数目，COCAT代表当前云平台中所有虚拟机的性能总和，NA代表构建在有通信代理的服务器上的虚拟机数量之和；3MAPREDUCE进程大数据处理进程过程耗时的表达式4根据TTOTAL的表达式，求解获得云平台中最优的通信代理节点数目K权利要求书CN104219226A2/2页3权利要求书CN104219226A1/6页4一种确定云平台中最优通信代理节点数目的方法技术领域0001本发明涉及云平台大数据处理。背景技术00。

6、02基于云平台的大数据处理集群由于其弹性可伸缩的计算框架以及“按需获取”的新型业务模式正逐渐的被工业界采纳。0003从OPENSTACKGRIZZLY版开始，为了改善虚拟网络的性能和可靠性，可以允许租户在多主机上部署通信代理节点。但是，虚拟网络组件NEUTRON只实现了虚拟网络的通信功能，并没有进一步关注虚拟网络通信性能的提升。也就是说，没有提供有效的通信代理节点部署分配策略。而针对基于OPENSTACK的HADOOP集群，我们需要如何去设计通信代理分配策略来优化虚拟网络的性能以提升集群大数据处理的能力是我们亟需解决的问题。具体来说，就是为基于OPENSTACK的虚拟网络优化部署提供解决方案，。

7、而其中一个关键问题就是要确定云平台中最优通信代理节点的数目。发明内容0004本发明的目的是解决现有技术没有确定云平台中最优通信代理节点的数目的问题。0005为实现本发明目的而采用的技术方案是这样的，一种确定云平台中最优通信代理节点数目的方法，构建一个包括一台控制节点服务器和若干台计算节点服务器的云平台，每一台所述的计算节点服务器上构建若干台虚拟机。所述云平台基于OPENSTACKHAVANA版搭建。在所述云平台的服务器上构建若干个通信代理节点，所述通信代理节点用于管理虚拟机。0006所述通信代理节点的数目K通过以下步骤确定00071MAP阶段分发处理阶段总耗时0008其中，代表MAP阶段总耗时。

8、，M代表计算节点服务器的数量，NI代表第I号计算节点服务器上虚拟机的数量，代表MAP阶段第I台计算节点服务器上第J个虚拟机耗时，N代表在MAPREDUCE进程大数据处理进程中可用的虚拟机数量，S代表MAP阶段稳态时，固定时间段内输入云平台的数据总大小的期望，B代表任意两个计算节点服务器之间传输1GB数据所需时间，IJ代表第I号计算节点服务器上的第J台虚拟机当前的处理能力，TOTAL代表当前云平台中所有虚拟机的性能总和，K代表云平台中通信代理节点的数目，NA代表构建在有通信代理的服务器上的虚拟机数量之和。00092REDUCE阶段合并处理阶段总耗时0010说明书CN104219226A2/6页5。

9、0011其中代表REDUCE阶段总耗时，M代表计算节点服务器的数量，NI代表第I号计算节点服务器上虚拟机的数量，代表REDUCE阶段第I台计算节点服务器上第J个虚拟机耗时，N代表在MAPREDUCE进程大数据处理进程中可用的虚拟机数量，SR代表REDUCE阶段稳态时，固定时间段内输入的数据总大小的期望，NR处理REDUCE阶段数据的虚拟机的数量，B代表任意两个计算节点服务器之间传输1GB数据所需时间，K代表云平台中通信代理节点的数目，TOTAL代表当前云平台中所有虚拟机的性能总和，NA代表构建在有通信代理的服务器上的虚拟机数量之和。00123MAPREDUCE进程大数据处理进程过程耗时的表达式。

10、001300144根据TTOTAL的表达式，求解获得云平台中最优的通信代理节点数目的表达式00150016本发明的技术效果是毋庸置疑的。基于上述方法，为基于OPENSTACK的虚拟网络优化部署提供了解决方案，解决了其中一个关键问题确定云平台中最优通信代理节点的数目。附图说明0017图1为云平台大数据处理流程示意图。0018图2为最优通信代理节点的数目确定流程图。0019图3为实施例2的实验效果。0020图4为实施例3的实验效果。具体实施方式0021下面结合附图和实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知。

11、识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。0022实施例10023本实施例公开一种确定云平台中最优通信代理节点数目的方法。根据现有技术，说明书CN104219226A3/6页6将要构建一个包括一台控制节点服务器和M台计算节点服务器的云平台，计算节点服务器的编号用变量I表示，I1、2M。每一台第I台所述的计算节点服务器上构建NI，I1、2M台虚拟机，虚拟机的编号用变量J表示，J1、2NI。有的计算节点服务器上没有虚拟机，则对应的NI0。所述云平台基于OPENSTACKHAVANA版搭建。在所述云平台的计算节点服务器上构建K个通信代理节点，所述通信代理节点用于管理虚拟机。值得。

12、说明的是，M和NI即N1、N2NM的具体值是确定的，通信代理节点数目K待定。0024最优的通信代理节点数目K通过以下步骤确定00251MAP阶段分发处理阶段总耗时0026MAP阶段分为三个过程第一步，将大数据切分成小型数据块，然后分发给平台中的通信代理；第二步，通信代理将第一阶段传输过来的数据分发给它负责的虚拟机；第三步，虚拟机处理通信代理转发来的数据。0027其中，代表MAP阶段总耗时，M代表计算节点服务器的数量，NI代表第I台计算节点服务器上虚拟机的数量，代表MAP阶段第I台计算节点服务器上第J个虚拟机耗时，N代表在MAPREDUCE进程大数据处理进程中可用的虚拟机数量，S代表MAP阶段稳。

13、态时，固定时间段内输入云平台的数据总大小的期望，B代表任意两个计算节点服务器之间传输1GB数据所需时间，IJ代表第I号计算节点服务器上的第J台虚拟机当前的处理能力，TOTAL代表当前云平台中所有虚拟机的性能总和，K代表云平台中通信代理节点的数目待求，NA代表构建在有通信代理的服务器上的虚拟机数量之和。00282REDUCE阶段合并处理阶段总耗时0029REDUCE阶段的工作由三部分构成第一部分，MAPPER将处理完的结果提交给负责它的通信代理。第二部分，所有通信代理将汇聚过来的结果发送给REDUCER的通信代理。第三部分，REDUCER通信代理将结果转发给目的虚拟机。00300031其中代表R。

14、EDUCE阶段总耗时，M代表计算节点服务器的数量，NI代表第I号计算节点服务器上虚拟机的数量，代表REDUCE阶段第I台计算节点服务器上第J个虚拟机耗时，N代表在MAPREDUCE进程大数据处理进程中可用的虚拟机数量，SR代表REDUCE阶段稳态时，固定时间段内输入的数据总大小的期望，NR代表REDUCE阶段数据的虚拟机的数量，B代表任意两个计算节点服务器之间传输1GB数据所需时间，K代表云平台中说明书CN104219226A4/6页7通信代理节点的数目，TOTAL代表当前云平台中所有虚拟机的性能总和，NA代表构建在有通信代理的服务器上的虚拟机数量之和。00323MAPREDUCE进程大数据处。

15、理进程过程耗时的表达式003300344根据TTOTAL的表达式，求解获得云平台中最优的通信代理节点数目K0035N代表MAP阶段在MAPREDUCE进程大数据处理进程中可用的虚拟机数量，S代表MAP阶段稳态时，固定时间段内输入云平台的数据总大小的期望，TOTAL代表MAP阶段当前云平台中所有虚拟机的性能总和，SR代表REDUCE阶段稳态时，固定时间段内输入的数据总大小的期望，NR代表REDUCE阶段数据的虚拟机的数量，B代表REDUCE阶段任意两个计算节点服务器之间传输1GB数据所需时间。0036实施例20037一种确定云平台中最优通信代理节点的数目的方法，构建一个包括一台控制节点服务器和3。

16、台计算节点服务器的云平台。每一台所述的计算节点服务器上构建若干台虚拟机，即第1台计算节点服务器上构建有3台虚拟机，第2台计算节点服务器上构建有2台虚拟机，第3台计算节点服务器上构建有3台虚拟机。所述云平台基于OPENSTACKHAVANA版搭建。0038本发明所求得最优通信代理数目表达式00390040N8个平台搭建好后即可得出该数，S21GB以VSPHERE测得，NR4个平台搭建好后即可得出该数，TOTAL19GHZ以VSPHERE测得，B100S/GB以VSPHERE测得，SR12GB以VSPHERE测得，代入上式，求得K约等于2，即需要设置2个通信代理，能使数据处理性能最高。0041选用。

17、经典的MAPREDUCE程序WORDCOUNT，测试数据通过网络爬虫在WIKIPEDIA上爬取21G的文本数据。在WORDCOUNT程序运行完之后，得出整个MAPREDUCE阶段的总时间。从图3中可以看出当通信代理设置为2个时，耗时最低，故最优通信代理数目为2，与公式所求吻合。0042实施例30043基于OPENSTACKHAVANA版搭建云平台。构建了一个包含21台服务器的云计算IAAS平台，其中包括1台控制节点，20台计算节点。具体服务器配置和每台服务器上的虚拟机如表1所示。该平台以虚拟资源的方式为用户提供虚拟资源的使用，提供的虚拟资源的模板种类如表2所示。选用统一的微型主机模板。然后在I。

18、AAS平台中分配了246台虚拟机，搭建了基于云计算的并行计算集群。其中配置一台虚拟机作为HADOOP的MASTER节点，其他245台作为HADOOP的SLAVE节点。为了对本方法进行评估，以计算机程序设计语言对方法进行了实现，并整合到OPENSTACK平台中，在实际的IAAS应用场景中，对本方法进行详细的评估。说明书CN104219226A5/6页80044表1云计算IAAS平台服务器配置004500460047表2云计算IAAS平台提供的虚拟资源种类0048说明书CN104219226A6/6页90049基于采集到的实际用户在利用HADOOP的MAPREDUCE过程中稳定时达到的作业大小，我。

19、们对实际的云平台上的大数据处理场景进行了模拟。我们选用了经典的MAPREDUCE程序WORDCOUNT，而测试数据是我们在通过网络爬虫在维基百科上爬到的43G的文本数据。在WORDCOUNT程序运行完之后，我们统计每个SLAVE上的时间，进而得出整个MAPREDUCE阶段的总时间。0050图4中表示没有利用我们的任何发明策略，实验的总时间随着数据量增大的曲线。而是采用本发明方法优化了通信代理数量的实验结果。说明书CN104219226A1/3页10图1说明书附图CN104219226A102/3页11图2图3说明书附图CN104219226A113/3页12图4说明书附图CN104219226A12。

展开阅读全文