一种考虑访问随机性的文件分级存储方法和系统.pdf

上传人:1520****312 文档编号:1636455 上传时间:2018-06-30 格式:PDF 页数:9 大小:562.41KB
返回 下载 相关 举报
摘要
申请专利号:

CN201410678157.X

申请日:

2014.11.24

公开号:

CN104376094A

公开日:

2015.02.25

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20150225|||实质审查的生效IPC(主分类):G06F 17/30申请日:20141124|||公开

IPC分类号:

G06F17/30; G06F3/06

主分类号:

G06F17/30

申请人:

浪潮电子信息产业股份有限公司

发明人:

马春

地址:

250101山东省济南市高新区浪潮路1036号

优先权:

专利代理机构:

济南信达专利事务所有限公司37100

代理人:

姜明

PDF下载: PDF下载
内容摘要

本发明提供一种考虑访问随机性的文件分级存储方法和系统。将存储系统中的各种计算资源、存储资源和通信资源进行量化,同时统计所有文件的访问特征并量化各文件的资源消耗,结合具体的文件迁移策略计算文件迁移的存储系统总体收益,得到的结果是文件的一个集合,在执行文件迁移操作时将位于上述计算结果的一个子集中的文件进行迁移。采用本发明提出的考虑访问随机性的文件分级存储方法,通过将访问随机性较大的文件纳入文件分级和文件迁移的范畴,能够减少因文件随机访问带来的系统性能开销,有效提升文件分级存储系统的整体性能,充分发挥SSD设备的性能,提高了系统资源利用率。

权利要求书

权利要求书
1.  一种考虑访问随机性的文件分级存储方法,其特征在于包括:
 S1:量化存储系统的资源,对分级存储系统的HDD层和SSD层的资源进行量化;
 S2:量化文件对系统中资源的消耗,即文件存储在某一层时,该层带宽、IOPS和平均IO时间等资源的开销;
 S3:对存储系统中所有文件的访问特性进行统计,计算并量化文件的访问随机性和访问热度;
S4:根据文件的访问随机性和热度,采用具体的文件迁移策略对文件进行HDD层和SSD层的迁移。

2.  如权利要求1所述的方法,其特征在于:
所述步骤S1中的存储系统的资源,具体包括计算资源、存储资源和通信资源。

3.  如权利要求1所述的方法,其特征在于:
所述步骤S2中文件对系统中资源的消耗,指存储系统存储该文件所需消耗的存储资源,以及支持上层应用系统对文件的访问所消耗的算计资源和通信资源。

4.  如权利要求1所述的方法,其特征在于:
 所述步骤S3中对文件的访问特性进行统计,具体包括对文件的访问IO在文件中的分布统计,和对文件的读访问频率统计,用于计算文件的访问随机性和热度。

5.  如权利要求1所述的方法,其特征在于:
 所述步骤S4中具体的文件迁移策略,指根据步骤S1~S3中的量化数据,计算文件迁移的存储系统整体性能收益,选取使得系统整体性能收益最大的文件进行迁移。

6.  应用一种考虑访问随机性的文件分级存储方法的存储系统,其特征在于包括6个主要功能模块:数据统计模块、数据分析模块、迁移策略模块、迁移管理模块、元数据模块和设备管理模块;此六个模块实现于存储系统中文件系统的上层和VFS的下层;同时包括存储控制器、磁盘驱动器和固态存储器以及网络链接。

说明书

说明书一种考虑访问随机性的文件分级存储方法和系统
技术领域
本发明涉及文件分级存储技术领域,具体涉及一种考虑访问随机性的文件分级存储方法和系统。 
背景技术
随机互联网数据量的急剧增长,人们对存储系统的容量和性能提出了越来越高的要求,现代的存储系统不仅需要大容量,还要满足高吞吐率、高IOPS和IO访问低延迟。然而目前存储系统的性能仍然受限于传统机械式硬盘,机械式的磁盘驱动器(Hard Disk Driver,简称HDD)仍然是目前存储系统使用最多的存储介质。而传统机械式硬盘由于其固有物理特性,其随机访问的性能相比顺序访问性能较差。近年出现的固态存储器(Solid Storage Driver,简称SSD),如Flash存储器、固态盘和PCM等,正好弥补了传统HDD的缺点,基于闪存技术的SSD读写延迟较小,对数据随机访问提供了很好的支持。而由于SSD   速度越来越快,容量越来越大,存储系统中开始使用SSD与HDD构成混合存储系统,将存储系统中访问频繁的数据和文件存放到SSD中,以充分发挥SSD的优势,这就形成了分级存储系统。由于SSD的先擦除后刷写,以及具有有限擦除次数的特点,分级存储系统中多将读频繁的数据存储于SSD设备。
现有分级存储系统主要有数据块分级和文件分级两种,以数据块为粒度的分级技术实现偏系统底层,数据迁移粒度较小,对存储系统提升比文件分级大,目前主要是根据数据块访问热度进行数据块迁移。而以文件为粒度的分级技术目前也是根据上层应用系统对文件的访问热度对文件在HDD层和SSD层之间进行迁移,但文件级的分级存储技术相比数据块级的分级技术,还需要考虑文件数据的访问随机性问题,某些访问热度一般的文件按照现有分级策略不会迁移到SSD层中,但是上层应用系统对该文件数据的访问随机性较大,导致该文件的访问对HDD层的性能造成较大的实际开销。 
发明内容
为了解决上述技术问题,本发明提出了一种考虑访问随机性的文件分级存储方法,可以提高文件级分级存储系统的整体性能和存储资源利用率,同时提出了基于该方法的文件级分级存储系统架构。
一种考虑访问随机性的文件分级存储方法,包括:
S1:量化存储系统的资源,对分级存储系统的HDD层和SSD层的资源(包括带宽、IOPS、平均IO时间)进行量化;
S2:量化文件对系统中资源的消耗,即文件存储在某一层时,该层带宽、IOPS和平均IO时间等资源的开销;
S3:对存储系统中所有文件的访问特性进行统计,计算并量化文件的访问随机性和访问热度;
S4:根据文件的访问随机性和热度,采用具体的文件迁移策略对文件进行HDD层和SSD层的迁移。
特别地,所述步骤S1中的存储系统的资源,具体包括计算资源、存储资源和通信资源。
特别地,所述步骤S2中文件对系统中资源的消耗,指存储系统存储该文件所需消耗的存储资源,以及支持上层应用系统对文件的访问所消耗的算计资源和通信资源。
特别地,所述步骤S3中对文件的访问特性进行统计,具体包括对文件的访问IO在文件中的分布统计,和对文件的读访问频率统计,用于计算文件的访问随机性和热度。之所以统计文件的读访问频率,是由于背景技术中说明的SSD的固有特性,其先擦除后刷写和具有有限刷写次数的特点决定了SSD设备不适合作为写频繁数据的存储介质。
特别地,所述步骤S4中具体的文件迁移策略,指根据步骤S1~S3中的量化数据,计算文件迁移的存储系统整体性能收益,选取使得系统整体性能收益最大的文件进行迁移。
 应用本发明提出的考虑访问随机性的文件分级存储方法的存储系统,主要包括系统的控制器、操作系统、网络、存储设备以及电源管理等,其中主要功能模块位于操作系统中的文件系统层之上。具体系统架构在具体实施方式中进行详细说明。该系统包括6个主要功能模块:数据统计模块、数据分析模块、迁移策略模块、迁移管理模块、元数据模块和设备管理模块;此六个模块实现于存储系统中文件系统的上层和VFS的下层;同时包括存储控制器、磁盘驱动器和固态存储器等存储设备以及网络链接。
本发明的有益效果是:采用本发明提出的考虑访问随机性的文件分级存储方法,能够有效提升文件分级存储系统的整体性能,充分发挥SSD设备的性能,提高了系统资源利用率。
附图说明
图1是本发明提出方法的实施流程示意图。
图2是应用本发明方法的存储系统的架构示意图。
具体实施方式
下面参照附图1,对本发明提出的方法以具体实施例进行描述说明。
存储系统的资源主要包括计算资源、存储资源和通信资源,其中计算资源包括存储系统控制器及各种处理器的占用时间,存储资源包括存储系统中的HDD和SSD的存储空间,以及各级缓存的存储空间,通信资源包括存储系统中的数据传输和控制信息传输能力,如各存储节点之间的网络带宽、存储节点内部的总线等。通常以节点或层级的存储容量、带宽和节点单位时间能够处理的IO数量即IOPS为存储系统资源的主要考虑因素。
文件级分层存储系统主要分为两层:HDD层和SSD层,分别以HDD和SSD作为存储介质。每层所需考虑的资源有:存储空间容量(Capacity,记为C)、带宽(Bandwidth,记为B)和单位时间IO请求频率(IOPS,记为I)。HDD层的容量记为CH,带宽记为BH,IO请求频率记为IH,SSD层的容量记为CS,带宽记为BS,IO请求频率记为IS。存储系统中每种资源都具有上限,如存储容量上限为系统中所有存储设备实际存储空间的总和,在代表每种资源的符号后面加下标m表示该种资源的上限,即HDD层的容量上限、带宽上限和IO请求频率上限分别记为CHm、BHm和IHm,SSD层的容量上限、带宽上限和IO请求频率上限分别记为CSm、BSm和ISm。
存储系统中每种资源的当前值和上限确定有多种方式,如容量上限为各设备存储空间之和,在系统建立之初即可由系统配置文件或操作系统获得,又如容量的当前值、带宽和IO请求频率的上限可由系统运行过程中统计的系统运行数据获得。在一些实施例中应用本发明的人员也可使用其它方式获得系统当前资源和资源上限。
文件存储在存储系统中会消耗资源,如文件的存储资源开销为存储文件及其副本的数据空间,以及系统为管理该文件所需增加的元数据。考虑上述量化的存储系统资源,在代表每种资源将文件fi消耗的各种资源的符号后面加下标fi或i表示文件fi对该种资源的消耗,即文件fi消耗HDD层的容量、带宽和IO请求频率分别记为CHi、BHi和IHi,消耗SSD层的容量、带宽和IO请求频率分别记为CSi、BSi和ISi。
文件对各种资源的消耗的确定方式有多种,如根据文件大小、存储系统副本组织方式和元数据组织方式计算文件的容量开销,根据文件的读访问频率和每次读取文件的大小计算带宽和IO请求频率开销。在一些实施例中,应用本发明的人员也可使用其它方式计算文件对各种资源的消耗。
统计文件的访问特性,包括对文件读访问频率的统计,以及IO访问请求的数据在文件内的分布情况进行记录,进一步计算文件的访问热度和访问随机性。文件fi的访问热度记为Hi,访问随机性记为Ri。
对文件读访问频率进行统计,能够识别出存储系统中的热点数据,从而将热点数据迁移到性能较高的SSD层,提升系统性能。而对文件访问请求数据在文件内的分布情况进行统计,同样出于提高系统性能的目的,这是因为对某些热度一般的文件,按照文件迁移策略可能不会被迁移到SSD层,然而实际应用中对这些文件的访问请求呈现较大的随机性。对文件的访问请求的随机性有多种表现形式,如上层应用系统下发到存储系统的多种连续IO请求都是针对同一文件,但请求访问的是文件中的不同部分,彼此之间无法合并,此时在磁盘中这些访问请求表现为对文件的随机访问。又如上层应用系统下发到存储系统中的对同一文件的IO请求是顺序的,请求访问的是文件中连续的部分,但在这些IO请求之间存在多个其它文件的访问请求,且由于磁盘驱动程序的IO队列深度,无法对这些分散在其它IO请求中的同一文件访问请求进行合并,此种情况下也会造成磁盘中对文件的随机访问。在某些实施例中还存在其它形式的文件随机访问方式,在此不做赘述。虽然文件的访问热度一般,但是对文件的访问请求随机性较大,导致对文件的访问造成较大的存储资源开销,影响系统的整体性能,因此也应将此类型文件也迁移到SSD层以发挥SSD设备随机访问性能优越的特点。
在建议实施例中,将文件的访问热度H定义为存储系统最近一段时间内单位时间文件的读访问次数,将文件的访问随机性R定义为最近一段时间内连续两个对文件访问的IO请求的数据起始位置之差与平均IO请求数据大小的比值。在其它实施例中,应用本发明的人员也可采用其它方式定义和计算文件的访问热度H和访问随机性R。
文件的迁移策略规定了文件迁移的方式,在某些实施例中,以固定时间为周期进行文件迁移操作,在其它实施例中也可不定期的将迁移增益达到某一阈值的文件进行迁移操作,也可在存储系统负载较低时进行文件迁移,应用本发明的人员也可采用其它条件触发文件迁移操作。文件的迁移策略也规定了每次文件迁移的数量或数据量大小,由于文件的迁移会对存储系统造成额外的性能开销,因此要限制每次迁移操作的规模。文件的迁移策略同时规定了文件访问特性计算的时间长度,因为文件的热度等访问特性是随时间变化而不断变化的,若对其访问特性的计算周期过短,会造成文件的迁移抖动,使得文件频繁地在HDD层和SSD层之间迁移;反之若对文件访问特性的计算周期过长,则无法发挥文件迁移带来的存储系统性能提升。在其它实施例中,应用本发明的人员也可根据实际情况增加其它文件的迁移策略。
文件的迁移策略可由存储系统的管理员手动设置,也可由计算机算法自动根据存储系统运行时的统计信息进行计算得出。在其它实施例中,应用本发明的人员也可根据实际情况增加其它文件的迁移策略的设置方式。
文件存储在不同层的资源开销是不同的,通常情况下文件存储在SSD层的资源消耗要小于其存储在HDD中的资源消耗,而两者的差值即为文件从HDD层迁移到SSD层的收益。
记文件fi存储在HDD层的资源消耗为COSTHi
COSTHi = CHi + BHi + IHi
 记文件fi存储在SSD层的资源消耗为COSTSi
COSTSi = CSi + BSi + ISi
 记文件迁移到SSD层的收益为Pi
Pi = COSTHi - COSTSi
 注意,Pi可能为负值,此时表明文件fi迁移到SSD层会增加系统资源开销。
根据上述公式,定义存储系统的文件迁移总收益W为:
                                                 
由上述定义,可得迁移文件的选择条件如下:
,其中n为存储系统中所存储的文件总数。
上述条件是典型的0-1规划问题,可用计算机算法设计中的贪吃法或动态规划法等进行求解。得到的解即为文件分级存储系统中触发文件迁移操作后,需要迁移的文件集合。将集合中的所有文件按照各自的迁移收益Pi进行排序,再结合文件迁移策略中的文件迁移数量和数据量限制,最终确定出文件实际迁移的集合,此集合是上述问题的解的子集。
最后,对上述步骤所选定的文件进行迁移,迁移完成后重新量化系统资源。对文件的迁移目的地,即文件迁移到新层的具体设备的选择,仍需考虑层内各设备的负载均衡,可用多种现有技术实现,不属于本发明范畴。
应用本发明方法的文件分级存储系统的架构如附图2所示,在建议实施例中本发明方法的具体实现形式为存储系统的操作系统中的一个模块,在其它实施例中应用本发明的人员也可使用其它实现方式。应用本发明方法的主模块位于文件系统的上层,这方便其以文件为单位进行管理和实现文件迁移,主模块位于VFS下层,这使得文件的迁移对操作系统上层文件接口透明,屏蔽下层复杂的数据管理。主模块由6个子模块构成:
数据统计子模块:用于统计每个文件的资源消耗和访问特性;
数据分析子模块:用于对数据统计子模块和设备管理子模块的统计数据进行处理计算;
迁移策略子模块:用于管理系统中文件迁移的具体策略,可接收存储系统管理员的输入,也可由子模块中的算法,根据数据分析子模块的计算结果进行自动配置;
迁移管理子模块:负责实际的文件迁移操作的执行;
元数据子模块:记录文件管理所需的元数据,提供元数据查询和修改接口;
设备管理子模块:管理下层HDD和SSD设备,监测设备状态和统计设备资源变化。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

一种考虑访问随机性的文件分级存储方法和系统.pdf_第1页
第1页 / 共9页
一种考虑访问随机性的文件分级存储方法和系统.pdf_第2页
第2页 / 共9页
一种考虑访问随机性的文件分级存储方法和系统.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《一种考虑访问随机性的文件分级存储方法和系统.pdf》由会员分享,可在线阅读,更多相关《一种考虑访问随机性的文件分级存储方法和系统.pdf(9页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410678157.X(22)申请日 2014.11.24G06F 17/30(2006.01)G06F 3/06(2006.01)(71)申请人浪潮电子信息产业股份有限公司地址 250101 山东省济南市高新区浪潮路1036号(72)发明人马春(74)专利代理机构济南信达专利事务所有限公司 37100代理人姜明(54) 发明名称一种考虑访问随机性的文件分级存储方法和系统(57) 摘要本发明提供一种考虑访问随机性的文件分级存储方法和系统。将存储系统中的各种计算资源、存储资源和通信资源进行量化,同时统计所有文件的访问特征并量化各文件的。

2、资源消耗,结合具体的文件迁移策略计算文件迁移的存储系统总体收益,得到的结果是文件的一个集合,在执行文件迁移操作时将位于上述计算结果的一个子集中的文件进行迁移。采用本发明提出的考虑访问随机性的文件分级存储方法,通过将访问随机性较大的文件纳入文件分级和文件迁移的范畴,能够减少因文件随机访问带来的系统性能开销,有效提升文件分级存储系统的整体性能,充分发挥SSD设备的性能,提高了系统资源利用率。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书5页 附图2页(10)申请公布号 CN 104376094 A(43)申请公布日 2015.02.25CN 1。

3、04376094 A1/1页21.一种考虑访问随机性的文件分级存储方法,其特征在于包括:S1:量化存储系统的资源,对分级存储系统的HDD层和SSD层的资源进行量化;S2:量化文件对系统中资源的消耗,即文件存储在某一层时,该层带宽、IOPS和平均IO时间等资源的开销;S3:对存储系统中所有文件的访问特性进行统计,计算并量化文件的访问随机性和访问热度;S4:根据文件的访问随机性和热度,采用具体的文件迁移策略对文件进行HDD层和SSD层的迁移。2.如权利要求1所述的方法,其特征在于:所述步骤S1中的存储系统的资源,具体包括计算资源、存储资源和通信资源。3.如权利要求1所述的方法,其特征在于:所述步骤。

4、S2中文件对系统中资源的消耗,指存储系统存储该文件所需消耗的存储资源,以及支持上层应用系统对文件的访问所消耗的算计资源和通信资源。4.如权利要求1所述的方法,其特征在于:所述步骤S3中对文件的访问特性进行统计,具体包括对文件的访问IO在文件中的分布统计,和对文件的读访问频率统计,用于计算文件的访问随机性和热度。5.如权利要求1所述的方法,其特征在于:所述步骤S4中具体的文件迁移策略,指根据步骤S1S3中的量化数据,计算文件迁移的存储系统整体性能收益,选取使得系统整体性能收益最大的文件进行迁移。6.应用一种考虑访问随机性的文件分级存储方法的存储系统,其特征在于包括6个主要功能模块:数据统计模块、。

5、数据分析模块、迁移策略模块、迁移管理模块、元数据模块和设备管理模块;此六个模块实现于存储系统中文件系统的上层和VFS的下层;同时包括存储控制器、磁盘驱动器和固态存储器以及网络链接。权 利 要 求 书CN 104376094 A1/5页3一种考虑访问随机性的文件分级存储方法和系统技术领域0001 本发明涉及文件分级存储技术领域,具体涉及一种考虑访问随机性的文件分级存储方法和系统。背景技术0002 随机互联网数据量的急剧增长,人们对存储系统的容量和性能提出了越来越高的要求,现代的存储系统不仅需要大容量,还要满足高吞吐率、高IOPS和IO访问低延迟。然而目前存储系统的性能仍然受限于传统机械式硬盘,机。

6、械式的磁盘驱动器(Hard Disk Driver,简称HDD)仍然是目前存储系统使用最多的存储介质。而传统机械式硬盘由于其固有物理特性,其随机访问的性能相比顺序访问性能较差。近年出现的固态存储器(Solid Storage Driver,简称SSD),如Flash存储器、固态盘和PCM等,正好弥补了传统HDD的缺点,基于闪存技术的SSD读写延迟较小,对数据随机访问提供了很好的支持。而由于SSD 速度越来越快,容量越来越大,存储系统中开始使用SSD与HDD构成混合存储系统,将存储系统中访问频繁的数据和文件存放到SSD中,以充分发挥SSD的优势,这就形成了分级存储系统。由于SSD的先擦除后刷写,。

7、以及具有有限擦除次数的特点,分级存储系统中多将读频繁的数据存储于SSD设备。0003 现有分级存储系统主要有数据块分级和文件分级两种,以数据块为粒度的分级技术实现偏系统底层,数据迁移粒度较小,对存储系统提升比文件分级大,目前主要是根据数据块访问热度进行数据块迁移。而以文件为粒度的分级技术目前也是根据上层应用系统对文件的访问热度对文件在HDD层和SSD层之间进行迁移,但文件级的分级存储技术相比数据块级的分级技术,还需要考虑文件数据的访问随机性问题,某些访问热度一般的文件按照现有分级策略不会迁移到SSD层中,但是上层应用系统对该文件数据的访问随机性较大,导致该文件的访问对HDD层的性能造成较大的实。

8、际开销。发明内容0004 为了解决上述技术问题,本发明提出了一种考虑访问随机性的文件分级存储方法,可以提高文件级分级存储系统的整体性能和存储资源利用率,同时提出了基于该方法的文件级分级存储系统架构。0005 一种考虑访问随机性的文件分级存储方法,包括:S1:量化存储系统的资源,对分级存储系统的HDD层和SSD层的资源(包括带宽、IOPS、平均IO时间)进行量化;S2:量化文件对系统中资源的消耗,即文件存储在某一层时,该层带宽、IOPS和平均IO时间等资源的开销;S3:对存储系统中所有文件的访问特性进行统计,计算并量化文件的访问随机性和访问热度;S4:根据文件的访问随机性和热度,采用具体的文件迁。

9、移策略对文件进行HDD层和SSD说 明 书CN 104376094 A2/5页4层的迁移。0006 特别地,所述步骤S1中的存储系统的资源,具体包括计算资源、存储资源和通信资源。0007 特别地,所述步骤S2中文件对系统中资源的消耗,指存储系统存储该文件所需消耗的存储资源,以及支持上层应用系统对文件的访问所消耗的算计资源和通信资源。0008 特别地,所述步骤S3中对文件的访问特性进行统计,具体包括对文件的访问IO在文件中的分布统计,和对文件的读访问频率统计,用于计算文件的访问随机性和热度。之所以统计文件的读访问频率,是由于背景技术中说明的SSD的固有特性,其先擦除后刷写和具有有限刷写次数的特点。

10、决定了SSD设备不适合作为写频繁数据的存储介质。0009 特别地,所述步骤S4中具体的文件迁移策略,指根据步骤S1S3中的量化数据,计算文件迁移的存储系统整体性能收益,选取使得系统整体性能收益最大的文件进行迁移。0010 应用本发明提出的考虑访问随机性的文件分级存储方法的存储系统,主要包括系统的控制器、操作系统、网络、存储设备以及电源管理等,其中主要功能模块位于操作系统中的文件系统层之上。具体系统架构在具体实施方式中进行详细说明。该系统包括6个主要功能模块:数据统计模块、数据分析模块、迁移策略模块、迁移管理模块、元数据模块和设备管理模块;此六个模块实现于存储系统中文件系统的上层和VFS的下层;。

11、同时包括存储控制器、磁盘驱动器和固态存储器等存储设备以及网络链接。0011 本发明的有益效果是:采用本发明提出的考虑访问随机性的文件分级存储方法,能够有效提升文件分级存储系统的整体性能,充分发挥SSD设备的性能,提高了系统资源利用率。附图说明0012 图1是本发明提出方法的实施流程示意图。0013 图2是应用本发明方法的存储系统的架构示意图。具体实施方式0014 下面参照附图1,对本发明提出的方法以具体实施例进行描述说明。0015 存储系统的资源主要包括计算资源、存储资源和通信资源,其中计算资源包括存储系统控制器及各种处理器的占用时间,存储资源包括存储系统中的HDD和SSD的存储空间,以及各级。

12、缓存的存储空间,通信资源包括存储系统中的数据传输和控制信息传输能力,如各存储节点之间的网络带宽、存储节点内部的总线等。通常以节点或层级的存储容量、带宽和节点单位时间能够处理的IO数量即IOPS为存储系统资源的主要考虑因素。0016 文件级分层存储系统主要分为两层:HDD层和SSD层,分别以HDD和SSD作为存储介质。每层所需考虑的资源有:存储空间容量(Capacity,记为C)、带宽(Bandwidth,记为B)和单位时间IO请求频率(IOPS,记为I)。HDD层的容量记为CH,带宽记为BH,IO请求频率记为IH,SSD层的容量记为CS,带宽记为BS,IO请求频率记为IS。存储系统中每种资源都。

13、具有上限,如存储容量上限为系统中所有存储设备实际存储空间的总和,在代表每种资源的符号后面加下标m表示该种资源的上限,即HDD层的容量上限、带宽上限和IO请求频率上限分别记为CHm、BHm和IHm,SSD层的容量上限、带宽上限和IO请求频率上限分别记为说 明 书CN 104376094 A3/5页5CSm、BSm和ISm。0017 存储系统中每种资源的当前值和上限确定有多种方式,如容量上限为各设备存储空间之和,在系统建立之初即可由系统配置文件或操作系统获得,又如容量的当前值、带宽和IO请求频率的上限可由系统运行过程中统计的系统运行数据获得。在一些实施例中应用本发明的人员也可使用其它方式获得系统当。

14、前资源和资源上限。0018 文件存储在存储系统中会消耗资源,如文件的存储资源开销为存储文件及其副本的数据空间,以及系统为管理该文件所需增加的元数据。考虑上述量化的存储系统资源,在代表每种资源将文件fi消耗的各种资源的符号后面加下标fi或i表示文件fi对该种资源的消耗,即文件fi消耗HDD层的容量、带宽和IO请求频率分别记为CHi、BHi和IHi,消耗SSD层的容量、带宽和IO请求频率分别记为CSi、BSi和ISi。0019 文件对各种资源的消耗的确定方式有多种,如根据文件大小、存储系统副本组织方式和元数据组织方式计算文件的容量开销,根据文件的读访问频率和每次读取文件的大小计算带宽和IO请求频率。

15、开销。在一些实施例中,应用本发明的人员也可使用其它方式计算文件对各种资源的消耗。0020 统计文件的访问特性,包括对文件读访问频率的统计,以及IO访问请求的数据在文件内的分布情况进行记录,进一步计算文件的访问热度和访问随机性。文件fi的访问热度记为Hi,访问随机性记为Ri。0021 对文件读访问频率进行统计,能够识别出存储系统中的热点数据,从而将热点数据迁移到性能较高的SSD层,提升系统性能。而对文件访问请求数据在文件内的分布情况进行统计,同样出于提高系统性能的目的,这是因为对某些热度一般的文件,按照文件迁移策略可能不会被迁移到SSD层,然而实际应用中对这些文件的访问请求呈现较大的随机性。对文。

16、件的访问请求的随机性有多种表现形式,如上层应用系统下发到存储系统的多种连续IO请求都是针对同一文件,但请求访问的是文件中的不同部分,彼此之间无法合并,此时在磁盘中这些访问请求表现为对文件的随机访问。又如上层应用系统下发到存储系统中的对同一文件的IO请求是顺序的,请求访问的是文件中连续的部分,但在这些IO请求之间存在多个其它文件的访问请求,且由于磁盘驱动程序的IO队列深度,无法对这些分散在其它IO请求中的同一文件访问请求进行合并,此种情况下也会造成磁盘中对文件的随机访问。在某些实施例中还存在其它形式的文件随机访问方式,在此不做赘述。虽然文件的访问热度一般,但是对文件的访问请求随机性较大,导致对文。

17、件的访问造成较大的存储资源开销,影响系统的整体性能,因此也应将此类型文件也迁移到SSD层以发挥SSD设备随机访问性能优越的特点。0022 在建议实施例中,将文件的访问热度H定义为存储系统最近一段时间内单位时间文件的读访问次数,将文件的访问随机性R定义为最近一段时间内连续两个对文件访问的IO请求的数据起始位置之差与平均IO请求数据大小的比值。在其它实施例中,应用本发明的人员也可采用其它方式定义和计算文件的访问热度H和访问随机性R。0023 文件的迁移策略规定了文件迁移的方式,在某些实施例中,以固定时间为周期进行文件迁移操作,在其它实施例中也可不定期的将迁移增益达到某一阈值的文件进行迁移操作,也可。

18、在存储系统负载较低时进行文件迁移,应用本发明的人员也可采用其它条件触发文件迁移操作。文件的迁移策略也规定了每次文件迁移的数量或数据量大小,由于文件说 明 书CN 104376094 A4/5页6的迁移会对存储系统造成额外的性能开销,因此要限制每次迁移操作的规模。文件的迁移策略同时规定了文件访问特性计算的时间长度,因为文件的热度等访问特性是随时间变化而不断变化的,若对其访问特性的计算周期过短,会造成文件的迁移抖动,使得文件频繁地在HDD层和SSD层之间迁移;反之若对文件访问特性的计算周期过长,则无法发挥文件迁移带来的存储系统性能提升。在其它实施例中,应用本发明的人员也可根据实际情况增加其它文件的。

19、迁移策略。0024 文件的迁移策略可由存储系统的管理员手动设置,也可由计算机算法自动根据存储系统运行时的统计信息进行计算得出。在其它实施例中,应用本发明的人员也可根据实际情况增加其它文件的迁移策略的设置方式。0025 文件存储在不同层的资源开销是不同的,通常情况下文件存储在SSD层的资源消耗要小于其存储在HDD中的资源消耗,而两者的差值即为文件从HDD层迁移到SSD层的收益。0026 记文件fi存储在HDD层的资源消耗为COSTHiCOSTHi= CHi+ BHi+ IHi记文件fi存储在SSD层的资源消耗为COSTSiCOSTSi= CSi+ BSi+ ISi记文件迁移到SSD层的收益为Pi。

20、Pi= COSTHi- COSTSi注意,Pi可能为负值,此时表明文件fi迁移到SSD层会增加系统资源开销。0027 根据上述公式,定义存储系统的文件迁移总收益W为:由上述定义,可得迁移文件的选择条件如下:,其中n为存储系统中所存储的文件总数。0028 上述条件是典型的0-1规划问题,可用计算机算法设计中的贪吃法或动态规划法等进行求解。得到的解即为文件分级存储系统中触发文件迁移操作后,需要迁移的文件集合。将集合中的所有文件按照各自的迁移收益Pi进行排序,再结合文件迁移策略中的文件迁移数量和数据量限制,最终确定出文件实际迁移的集合,此集合是上述问题的解的子集。0029 最后,对上述步骤所选定的文。

21、件进行迁移,迁移完成后重新量化系统资源。对文件的迁移目的地,即文件迁移到新层的具体设备的选择,仍需考虑层内各设备的负载均衡,可说 明 书CN 104376094 A5/5页7用多种现有技术实现,不属于本发明范畴。0030 应用本发明方法的文件分级存储系统的架构如附图2所示,在建议实施例中本发明方法的具体实现形式为存储系统的操作系统中的一个模块,在其它实施例中应用本发明的人员也可使用其它实现方式。应用本发明方法的主模块位于文件系统的上层,这方便其以文件为单位进行管理和实现文件迁移,主模块位于VFS下层,这使得文件的迁移对操作系统上层文件接口透明,屏蔽下层复杂的数据管理。主模块由6个子模块构成:数。

22、据统计子模块:用于统计每个文件的资源消耗和访问特性;数据分析子模块:用于对数据统计子模块和设备管理子模块的统计数据进行处理计算;迁移策略子模块:用于管理系统中文件迁移的具体策略,可接收存储系统管理员的输入,也可由子模块中的算法,根据数据分析子模块的计算结果进行自动配置;迁移管理子模块:负责实际的文件迁移操作的执行;元数据子模块:记录文件管理所需的元数据,提供元数据查询和修改接口;设备管理子模块:管理下层HDD和SSD设备,监测设备状态和统计设备资源变化。0031 当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。说 明 书CN 104376094 A1/2页8图1说 明 书 附 图CN 104376094 A2/2页9图2说 明 书 附 图CN 104376094 A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1