一种节能的虚拟存储服务器系统及其调度方法.pdf

上传人:62****3 文档编号:176751 上传时间:2018-01-31 格式:PDF 页数:13 大小:734.76KB
返回 下载 相关 举报
摘要
申请专利号:

CN201510134591.6

申请日:

2015.03.25

公开号:

CN104765572A

公开日:

2015.07.08

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 3/06申请日:20150325|||公开

IPC分类号:

G06F3/06

主分类号:

G06F3/06

申请人:

华中科技大学

发明人:

曹强; 万胜刚; 蔡浩然; 谢长生

地址:

430074湖北省武汉市洪山区珞喻路1037号

优先权:

专利代理机构:

华中科技大学专利中心42201

代理人:

曹葆青

PDF下载: PDF下载
内容摘要

本发明提供了一种虚拟存储服务器系统,所述系统包括一个计算节点和若干个存储节点,其中:所述计算节点包含CPU、内存、主板以及存储部件,所述存储部件由若干固态盘构成;所述存储节点包含一个低能耗存储控制器和一组磁盘;所述计算结点和存储结点之间通过网络互联,计算结点的存储空间和存储结点的存储空间共同构成一个虚拟存储空间;在任何时间点,计算结点和存储结点中存在一个作为主存储控制器,整体管理整个虚拟存储空间,对外提供一个存取本虚拟存储空间数据的入口;计算型任务运行在计算结点上,如果一段时间没有计算型任务,则关闭计算结点,把数据存取型任务放到存储结点上执行;一旦有计算任务到达本虚拟存储服务器,则启动计算结点。

权利要求书

1.  一种虚拟存储服务器系统,其特征在于,所述系统包括一个计算节点和若干个存储节点,其中:
所述计算节点包含CPU、内存、主板以及存储部件,所述存储部件由若干固态盘构成;所述存储节点包含一个低能耗存储控制器和一组磁盘;所述计算结点和存储结点之间通过网络互联,计算结点的存储空间和存储结点的存储空间共同构成一个虚拟存储空间;
在任何时间点,计算结点和存储结点中存在一个作为主存储控制器,整体管理整个虚拟存储空间,对外提供一个存取本虚拟存储空间数据的入口;
计算型任务运行在计算结点上,如果一段时间没有计算型任务,则关闭计算结点,把数据存取型任务放到存储结点上执行;一旦有计算任务到达本虚拟存储服务器,则启动计算结点。

2.
  如权利要求1所述的系统,其特征在于,所述低能耗存储控制器为ARM或ATOM处理器。

3.
  如权利要求1或2所述的系统,其特征在于,连接所述计算结点和存储结点的网络为千兆或者万兆以太网、Inifiniband网络、光纤通道,或者PCIe网络。

4.
  一种基于权利要求1至3任一项所述虚拟存储服务器系统的主存储管理器,其特征在于,所述主存储管理器由若干个控制器和核心全局数据结构构成,其中:
所述控制器包括I/O选择器、域文件分配器、负载监控和能耗调度器、数据预取器和一致性控制器,其中所述I/O选择器用于根据请求文件名通过域文件分配表(Domain File Allocation Table,DFAT)查询该文件相应的物理位置;所述域文件分配器用于在写过程中根据文件大小和存储结 点上的负载选择分配的存储结点;所述负载监控和能耗调度器用于监测每次文件操作,维护热文件表(Hot Files Table,HFT);所述数据预取器用于负责对SSD中数据的预取;所述一致性控制器用于保证计算结点和存储结点数据上的一致;
所述核心全局数据结构包括域文件分配表、热文件表、缓存文件表,其中DFAT表以条目的方式记录全局文件GFileID和物理子文件SCID之间的映射关系,SCID包含存储结点和内部文件ID两个部分;其中DFAT表中至少包括L字段、S字段、S#字段、Ver字段、B字段;其中L表示该文件是否在计算结点上;S表示是否是分条文件;S#表示分配编号,Ver表示版本域,B表示文件最新版本是否已经同步;所述热文件表,用于记录每个文件的最后存取时间、创建时间、上一个统计段存取次数以及记录数据处理程序处理的文件集合,以方便文件预取到计算结点中;所述缓存文件表(Buffered Files Table,BFT),用于记录缓存在SSD中的文件。

5.
  一种基于权利要求4所述主存储管理器的节能调度方法,其特征在于,所述方法包括:
(1)当计算结点为活动状态的时候,处理流程如下:
(1.1)主实例运行在计算结点上,判断在处理任务完成之后的一个阀值Tc时间内是否有数据处理任务,如果有则进入步骤(1.2),如果没有,进入步骤(1.3);
(1.2)完成对数据任务的处理,返回步骤(1.1);
(1.3)主实例把计算结点上的最新元数据和数据更新到存储结点,选择一个热点文件最多的存储结点作为下一个主实例,然后关闭计算结点,结束。
(2)当存储结点为活动状态的时候,处理流程如下:
(2.1)判断主实例是否在存储结点上,若不在则进入步骤(2.2),若在则进入步骤(2.5);
(2.2)判断在预设阈值时间Ts之内是否有I/O访问,若没有则进入步骤(2.3),若有则进入步骤(2.4);
(2.3)关闭该节点或将该节点置为休眠状态,结束;
(2.4)对存储结点节点进行数据操作,返回步骤(2.2);
(2.5)判断预设时间Tsd之内存储结点每个磁盘是否有数据存取访问,若有则进入步骤(2.6),若没有则进入步骤(2.7);
(2.6)对存储结点节点进行数据存取操作,返回步骤(2.5);
(2.7)将该磁盘关闭,或者根据处理器的节能策略把处理器处于低能耗状态,结束。

6.
  如权利要求5所述的节能调度方法,其特征在于,所述方法还包括:
读操作:对于读文件的情况,I/O选择器根据请求文件名通过DFAT查询该文件相应的物理位置,如果计算结点处于活动状态,并且文件在计算结点上,则从计算结点上读取;否则,I/O选择器通过查询DFAT表找到相应文件所处的存储结点,并读出相应文件;
写操作:针对写过程,域文件分配器根据文件大小和存储结点上的负载选择分配存储结点,如果文件大小大于阈值,则分条到多个存储结点上;如果文件大小小于阈值,则无需分条并保存到一个存储结点上;
更新操作:在更新文件情况下,保留文件名,更新文件内容;为了减少对于DFAT的操作次数,采用创建新文件,然后修改DFAT表形式,按照写操作先进行更新文件的分配写,然后删除旧的文件分配项,增加新的文件分配项;
数据处理操作:计算结点上能够安装多个数据处理应用的运行环境,当数据处理请求到达时,提取该请求中的运行参数和处理文件列表,如果相应的文件不在计算结点的SSD中,则查询DFAT表从存储结点中读取相应文件,之后按照要求启动相应的应用程序,对这些数据集进行处理;之后如果仅需要结果数据,则返还给外部调用程序;如果需要创建新文件则 在本地计算结点中存放,并尽快更新到存储结点,同时同步DFAT。

说明书

一种节能的虚拟存储服务器系统及其调度方法
技术领域
本发明属于大数据技术领域,更具体地,涉及一种节能的虚拟存储服务器及其调度方法。
背景技术
大数据计算需要大量的存储服务器用于处理和保存数据。典型的单个存储服务器包括一个或者多个服务器级的处理器,数十个GB级内存,高性能主板,这些可以称之为计算子系统,同时服务器需要配置8-16个磁盘,通过磁盘阵列形式构成存储子系统。这种配置的核心思想是单个服务器就近处理本地存储中的数据。不幸的是,现实数据中心负载呈现非常大的波动。现实应用表明,绝大部分时候,存储服务器及其中计算与存储部件很少处于峰值工作状态,而是面临中低强度负载。但是即使中低负载强度都需要计算子系统和存储子系统的参与,且当前处理器采用DVFS具有较好的负载能耗正比特性(power-proportionality),但是就整个计算子系统而言,内存和主板还不能达到较好的负载能耗正比型,越是高性能计算子系统,其空闲能耗越大。计算子系统一般具有50-200瓦的功耗范围,其实际功率随着负载的变化而变化。而存储子系统基本不具备负载能耗正比特性,存储子系统只要工作就处于相对稳定的功耗范围,即使是少量负载也会让存储子系统消耗接近峰值的能耗。例如典型16个硬盘的能耗基本为100瓦,而存储控制器为50-100瓦,存储子系统的整体功耗为150-250瓦,几乎不随负载变化为变化。
就目前针对计算和存储的能耗调度粒度而言,计算子系统能耗调度对于负载强度变化的响应速度是微秒级,具有较大的调度范围;而存储子系 统能耗调度对于I/O负载强度的响应速度是分钟级,仅具有较小调度范围。现有的存储服务器系统没能对计算资源和存储资源进行更合理的分配及使用,这就造成了不必要的能耗浪费。
发明内容
本发明的目的在于提供一种节能的虚拟存储服务器及其调度方法,其目的在于,解决现有数据中心存在的高能耗的技术问题,减小电费开销,降低全球碳污染。
为了实现上述目的,按照本发明的一个方面,提供了一种虚拟存储服务器系统,所述系统包括一个计算节点和若干个存储节点,其中:
所述计算节点包含CPU、内存、主板以及存储部件,所述存储部件由若干固态盘构成;所述存储节点包含一个低能耗存储控制器和一组磁盘;所述计算结点和存储结点之间通过网络互联,计算结点的存储空间和存储结点的存储空间共同构成一个虚拟存储空间;
在任何时间点,计算结点和存储结点中存在一个作为主存储控制器,整体管理整个虚拟存储空间,对外提供一个存取本虚拟存储空间数据的入口;
计算型任务运行在计算结点上,如果一段时间没有计算型任务,则关闭计算结点,把数据存取型任务放到存储结点上执行;一旦有计算任务到达本虚拟存储服务器,则启动计算结点。
在本发明的一个实施例中,所述低能耗存储控制器为ARM或ATOM处理器。
在本发明的一个实施例中,连接所述计算结点和存储结点的网络为千兆或者万兆以太网、Inifiniband网络、光纤通道,或者PCIe网络。
按照本发明的另一方面,还提供了一种基于上述虚拟存储服务器系统的主存储管理器,所述主存储管理器由若干个控制器和核心全局数据结构构成,其中:
所述控制器包括I/O选择器、域文件分配器、负载监控和能耗调度器、数据预取器和一致性控制器,其中所述I/O选择器用于根据请求文件名通过域文件分配表(Domain File Allocation Table,DFAT)查询该文件相应的物理位置;所述域文件分配器用于在写过程中根据文件大小和存储结点上的负载选择分配的存储结点;所述负载监控和能耗调度器用于监测每次文件操作,维护热文件表(Hot Files Table,HFT);所述数据预取器用于负责对SSD中数据的预取;所述一致性控制器用于保证计算结点和存储结点数据上的一致;
所述核心全局数据结构包括域文件分配表、热文件表、缓存文件表,其中DFAT表以条目的方式记录全局文件GFileID和物理子文件SCID之间的映射关系,SCID包含存储结点和内部文件ID两个部分;其中DFAT表中至少包括L字段、S字段、S#字段、Ver字段、B字段;其中L表示该文件是否在计算结点上;S表示是否是分条文件;S#表示分配编号,Ver表示版本域,B表示文件最新版本是否已经同步;所述热文件表,用于记录每个文件的最后存取时间、创建时间、上一个统计段存取次数以及记录数据处理程序处理的文件集合,以方便文件预取到计算结点中;所述缓存文件表(Buffered Files Table,BFT),用于记录缓存在SSD中的文件。
按照本发明的另一方面,还提供了一种基于上述主存储管理器的节能调度方法,所述方法包括:
(1)当计算结点为活动状态的时候,处理流程如下:
(1.1)主实例运行在计算结点上,判断在处理任务完成之后的一个阀值Tc时间内是否有数据处理任务,如果有则进入步骤(1.2),如果没有,进入步骤(1.3);
(1.2)完成对数据任务的处理,返回步骤(1.1);
(1.3)主实例把计算结点上的最新元数据和数据更新到存储结点,选择一个热点文件最多的存储结点作为下一个主实例,然后关闭计算结点, 结束。
(2)当存储结点为活动状态的时候,处理流程如下:
(2.1)判断主实例是否在存储结点上,若不在则进入步骤(2.2),若在则进入步骤(2.5);
(2.2)判断在预设阈值时间Ts之内是否有I/O访问,若没有则进入步骤(2.3),若有则进入步骤(2.4);
(2.3)关闭该节点或将该节点置为休眠状态,结束;
(2.4)对存储结点节点进行数据操作,返回步骤(2.2);
(2.5)判断预设时间Tsd之内存储结点每个磁盘是否有数据存取访问,若有则进入步骤(2.6),若没有则进入步骤(2.7);
(2.6)对存储结点节点进行数据存取操作,返回步骤(2.5);
(2.7)将该磁盘关闭,或者根据处理器的节能策略把处理器处于低能耗状态,结束。
在本发明的一个实施例中,所述方法还包括:
读操作:对于读文件的情况,I/O选择器根据请求文件名通过DFAT查询该文件相应的物理位置,如果计算结点处于活动状态,并且文件在计算结点上,则从计算结点上读取;否则,I/O选择器通过查询DFAT表找到相应文件所处的存储结点,并读出相应文件;
写操作:针对写过程,域文件分配器根据文件大小和存储结点上的负载选择分配存储结点,如果文件大小大于阈值,则分条到多个存储结点上;如果文件大小小于阈值,则无需分条并保存到一个存储结点上;
更新操作:在更新文件情况下,保留文件名,更新文件内容;为了减少对于DFAT的操作次数,采用创建新文件,然后修改DFAT表形式,按照写操作先进行更新文件的分配写,然后删除旧的文件分配项,增加新的文件分配项;
数据处理操作:计算结点上能够安装多个数据处理应用的运行环境, 当数据处理请求到达时,提取该请求中的运行参数和处理文件列表,如果相应的文件不在计算结点的SSD中,则查询DFAT表从存储结点中读取相应文件,之后按照要求启动相应的应用程序,对这些数据集进行处理;之后如果仅需要结果数据,则返还给外部调用程序;如果需要创建新文件则在本地计算结点中存放,并尽快更新到存储结点,同时同步DFAT。
总体而言,通过本发明所构思的基本方案,能够取得如下收益效果:
(1)虚拟存储服务器结点分离的设计,能够明显减少计算和存储弱相关依赖所产生的能耗浪费。
(2)虚拟存储服务器在计算结点端安装SSD硬盘,仅仅从IOPS(Input/Output Operations Per Second,每秒进行读写I/O操作的次数)角度来看,如果工作数据集在SSD中,SSD比硬盘的IOPS有数量级上的提升。
(3)对性能影响主要体现在能够尽早精确的获取工作数据集。获取工作数据集的方法有很多种,对于大型任务,可以在分配任务时把工作数据集迁移到计算结点中的SSD上。对于工作数据集缺失的情况,由于多个存储结点通过并行的方法把工作数据集快速迁移到SSD上。对于少量数据缺失,存储结点会增加一点响应时间。对于仅需要传输数据的任务,存储控制器能够自行完成,无需计算结点参与。
(4)本方法带来的额外好处是,多个存储结点可以协同完成并行数据传输任务,提供数据存取的带宽。另一个方面,但一个计算结点关闭时,存储结点依然可以提供数据服务。
附图说明
图1是本发明中虚拟存储服务器物理结构示意图;
图2是本发明中虚拟存储服务管理器结构示意图;
图3是本发明中计算结点为活动状态时调度策略流程图;
图4是本发明中存储结点为活动状态时调度策略流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的整体设计思路如下:由于现实中的数据中心负载呈现非常大的波动,现实应用表明,绝大部分时候,存储服务器及其中计算与存储部件很少处于峰值工作状态,而是处于中低强度负载。而即使中低负载强度也需要计算子系统和存储子系统的参与,虽然当前处理器采用DVFS(Dynamic Voltage and Frequency Scaling,动态电压频率调整)具有较好的负载能耗正比特性,但是就整个计算子系统而言,内存和主板还不能达到较好的负载能耗正比型,越是高性能计算子系统,其空闲能耗越大。如何尽可能地调整计算子系统和存储子系统资源使其得到更充分的利用,降低能耗的浪费,是本发明关注的问题。
如图1所示,为本发明提供的一种节能的虚拟存储服务器系统的物理结构,整个存储服务器系统包括一个计算节点和若干个存储节点,其中:
所述计算节点包含CPU、内存、主板以及存储部件,所述存储部件由若干固态盘构成;所述存储节点包含一个低能耗存储控制器(ARM或ATOM处理器)和一组磁盘;所述计算结点和存储结点之间通过网络互联,网络可以是千兆或者万兆以太网、Inifiniband网络、光纤通道,或者PCIe网络,虚拟存储服务器通过标准网络和外部服务器进行数据和命令交互;计算结点的存储空间和存储结点的存储空间共同构成一个虚拟存储空间;
在任何时间点,计算结点和存储结点中存在一个作为主存储控制器,整体管理整个虚拟存储空间,对外提供一个存取本虚拟存储空间数据的入口;
计算型任务运行在计算结点上,如果一段时间没有计算型任务,则关闭计算结点,把数据存取型任务放到存储结点上执行;一旦有计算任务到达本虚拟存储服务器,则启动计算结点。
基于上述物理结构,本发明提供了一个主存储管理器结构(Virtual Storage Server Manager,VSSM),一般情况下,计算节点和存储节点会运行一个主实例,其中主实例具体负责元数据(DFAT表,HFT表和计算结点缓存文件表)的更新和同步。如果计算节点处于活动状态,主实例就运行在计算节点上;如果计算处于休眠或者关闭状态,主实例运行于其中一个存储节点上。
图2为虚拟存储服务管理器结构,虚拟存储服务管理器由几个控制器和核心全局数据结构构成。控制器包括I/O选择器,域文件分配器,负载监控和能耗调度器,数据预取器和一致性控制器。I/O选择器根据请求文件名通过域文件分配表(Domain File Allocation Table,DFAT)查询该文件相应的物理位置。域文件分配器在写过程中根据文件大小和存储结点上的负载选择分配的存储结点。负载监控和能耗调度器监测每次文件操作,维护热文件表(Hot Files Table,HFT)。数据预取器负责对SSD中数据的预取。一致性控制器保证计算结点和存储结点数据上的一致。核心全局数据结构包括域文件分配表,热文件表,缓存文件表,其中DFAT表最为重要,如表1所示,它是以条目的方式记录全局文件GFileID和物理子文件SCID之间的映射关系,SCID包含存储结点和内部文件ID两个部分。L表示该文件是否在计算结点上;S域表示是否是分条文件;S#表示分配编号,Ver表示版本域,B表示文件最新版本是否已经同步。后面还有其他一些属性。虚拟存储管理服务器维护一个DFAT。DFAT可以独立于计算结点和存储结点。DFAT表可以文件形式存在,也具有相应的版本号。能够在节点之间进行拷贝和迁移。
表1

GFileIDSCIDL_y/nS_y/nS_#SizeVerB_y/n……GFileIDSCIDL_y/nS_y/nS_#SizeVerB_y/n……GFileIDSCIDL_y/nS_y/nS_#SizeVerB_y/n……………………………………………………

热文件表,记录每个文件的最后存取时间,创建时间,上一个统计段存取次数以及记录数据处理程序处理的文件集合,以方便文件预取到计算结点中。缓存文件表(Buffered Files Table,BFT),记录缓存在SSD中的文件。
本发明数据中心的调度方法是应用在包括上述虚拟存储服务器系统的数据中心中,如图3和图4该方法包括以下内容:
如图3所示,当计算结点为活动状态时候,调度方法如下:
(1)主实例运行在计算结点上,判断在处理任务完成之后的一个阀值Tc时间内是否有数据处理任务,如果有则进入步骤(2),如果没有,进入步骤(3);
(2)完成对数据任务的处理,返回步骤(1);
(3)主实例把计算结点上的最新元数据和数据更新到存储结点,选择一个热点文件最多的存储结点作为下一个主实例,然后关闭计算结点,结束。
如图4所示,当存储结点为活动状态的时候,调度方法如下:
(1)判断主实例是否在存储结点上,若不在则进入步骤(2),若在则进入步骤(5);
(2)判断在一定阈值时间Ts之内是否有I/O访问,若没有则进入步骤(3),若有则进入步骤(4);
(3)关闭该节点或将该节点置为休眠状态,结束;
(4)对存储结点节点进行数据操作,返回步骤(2);
(5)判断一定时间Tsd之内存储结点每个磁盘是否有数据存取访问,若有则进入步骤(6),若没有则进入步骤(7);
(6)对存储结点节点进行数据存取操作,返回步骤(5);
(7)将该磁盘关闭,或者根据处理器的节能策略(例如DVFS)把处理器处于低能耗状态,但是不能完全关闭该节点,结束。
进一步地,所述调度方法还包括四种基本外部操作:(1)读操作:对于读指定文件的情况,I/O选择器根据请求文件名通过DFAT查询该文件相应的物理位置,如果计算结点处于活动状态,并且文件在计算结点上,则从计算结点上读取;否则,I/O选择器通过查询DFAT表找到相应文件所处的存储结点,并读出相应文件;(2)写操作:针对写过程,域文件分配器根据文件大小和存储结点上的负载选择分配存储结点,如果文件大小大于阈值(例如1MB),则分条到多个存储结点上;如果文件大小小于阈值(例如1MB),则无需分条并保存到一个存储结点上。这样的好处是,对于大文件能够通过多个存储结点并发的方式改善文件传输性能。最后,所有新的文件分配信息记录在DFAT中。(3)更新操作:在更新文件情况下,保留文件名,但是更新文件内容。为了减少对于DFAT的操作次数,将采用创建新文件,然后修改DFAT表形式,按照写操作先进行更新文件的分配写,然后删除旧的文件分配项,增加新的文件分配项。(4)数据处理操作:计算结点上能够安装多个数据处理应用的运行环境,当数据处理请求到达时,提取该请求中的运行参数和处理文件列表,如果相应的文件不在计算结点的SSD中,则查询DFAT表从存储结点中读取相应文件,之后按照要求启动相应的应用程序,对这些数据集进行处理。之后如果仅需要结果数据,则返还给外部调用程序;如果需要创建新文件则在本地计算结点中存放,并尽快更新到存储结点,同时同步DFAT。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等 同替换和改进等,均应包含在本发明的保护范围之内。

一种节能的虚拟存储服务器系统及其调度方法.pdf_第1页
第1页 / 共13页
一种节能的虚拟存储服务器系统及其调度方法.pdf_第2页
第2页 / 共13页
一种节能的虚拟存储服务器系统及其调度方法.pdf_第3页
第3页 / 共13页
点击查看更多>>
资源描述

《一种节能的虚拟存储服务器系统及其调度方法.pdf》由会员分享,可在线阅读,更多相关《一种节能的虚拟存储服务器系统及其调度方法.pdf(13页珍藏版)》请在专利查询网上搜索。

本发明提供了一种虚拟存储服务器系统,所述系统包括一个计算节点和若干个存储节点,其中:所述计算节点包含CPU、内存、主板以及存储部件,所述存储部件由若干固态盘构成;所述存储节点包含一个低能耗存储控制器和一组磁盘;所述计算结点和存储结点之间通过网络互联,计算结点的存储空间和存储结点的存储空间共同构成一个虚拟存储空间;在任何时间点,计算结点和存储结点中存在一个作为主存储控制器,整体管理整个虚拟存储空间,。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1