采用渐进RAID存储数据的装置、系统和方法.pdf

上传人:1*** 文档编号:1003529 上传时间:2018-03-24 格式:PDF 页数:98 大小:6.43MB
返回 下载 相关 举报
摘要
申请专利号:

CN200780050972.X

申请日:

2007.12.06

公开号:

CN101689130A

公开日:

2010.03.31

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 11/10申请公布日:20100331|||实质审查的生效IPC(主分类):G06F 11/10申请日:20071206|||公开

IPC分类号:

G06F11/10

主分类号:

G06F11/10

申请人:

弗森多系统公司(dba弗森-艾奥)

发明人:

大卫·弗林; 乔纳森·撒切尔; 迈克尔·扎佩; 大卫·阿特金森

地址:

美国犹他州

优先权:

2006.12.6 US 60/873,111; 2007.9.22 US 60/974,470

专利代理机构:

北京安信方达知识产权代理有限公司

代理人:

韩 龙;阎娬斌

PDF下载: PDF下载
内容摘要

本发明公开了采用渐进RAID进行数据存储的装置、系统和方法。存储请求接收模块(1702)接收数据存储请求。条带化模块(1704)计算数据的条带形状,每个条带包括N个数据段。所述条带化模块(1704)将N个数据段写入N个存储设备(150)。每个数据段写入分配给条带的存储设备集(1604)内的不同存储设备(150)。奇偶校验-镜像模块(1706)将N个数据段集写入存储设备集内的一个或多个奇偶校验-镜像存储设备(1602)。奇偶校验级数模块(1708)响应存储整合操作,计算每个奇偶校验-镜像存储设备(1602)内的奇偶校验数据段,并存储所述奇偶校验数据段。所述存储整合操作用于恢复奇偶校验-镜像存储设备(1602)内的存储空间和/或数据。

权利要求书

1、  一种可靠地高性能地存储数据的装置,其特征在于,所述装置包括:
存储请求接收模块,所述存储请求接收模块接收数据存储请求,所述数据包括文件的数据或对象的数据;
条带化模块,所述条带化模块计算数据的条带形状,所述条带形状包含一个或多个条带,每个条带包括N个数据段的集,并且所述条带化模块将条带的N个数据段写入N个存储设备,其中N个数据段的每一个都写入分配给条带的存储设备集中的不同存储设备;
奇偶校验-镜像模块,所述奇偶校验-镜像模块将条带的N个数据段的集写入存储设备集中的一个或多个奇偶校验-镜像存储设备,所述奇偶校验-镜像存储设备是除N个存储设备以外的设备;以及
奇偶校验级数模块,所述奇偶校验级数模块响应存储整合操作,计算条带的一个或多个奇偶校验数据段,所述一个或多个奇偶校验数据段根据N个数据段计算,所述N个数据段存储于一个或多个奇偶校验-镜像存储设备,所述奇偶校验级数模块还将奇偶校验数据段存储到一个或多个奇偶校验-镜像存储设备中的每一个,所述存储整合操作用于恢复一个或多个奇偶校验-镜像存储设备中的至少一个的至少一个存储空间和数据。

2、
  根据权利要求1所述的装置,其特征在于还包括奇偶校验交替模块,所述奇偶校验交替模块将每个条带的存储设备集内的存储设备交替分配为条带的一个或多个奇偶校验-镜像存储设备。

3、
  根据权利要求1所述的装置,其特征在于根据存储接收模块、条带化模块和奇偶校验-镜像模块的存储操作自主进行存储整合操作。

4、
  根据权利要求1所述的装置,其特征在于存储设备集包括第一存储设备集,还包括镜像集模块,所述镜像集模块产生除第一存储设备集以外的一个或多个存储设备集,其中一个或多个附加存储设备集中的每一个都包括至少一个相关的条带化模块,所述条带化模块将N个数据段写入一个或多个附加存储设备集中的每一个的N个存储设备。

5、
  根据权利要求4所述的装置,其特征在于一个或多个附加存储设备集中的每一个包括存储N个数据段集的关联奇偶校验-镜像模块和计算一个或多个奇偶校验数据段的奇偶校验级数模块。

6、
  根据权利要求1所述的装置,其特征在于还包括更新模块,所述更新模块通过以下方式更新数据段:
接收更新的数据段,所述更新的数据段对应于N个存储设备内存储的N个数据段中的现有数据段;
将更新的数据段复制到存储现有数据段的条带的存储设备,还复制到条带的一个或多个奇偶校验-镜像存储设备;
用更新的数据段替换N个存储设备的存储设备内存储的现有数据段;
响应奇偶校验级数模块,用更新的数据段替换一个或多个奇偶校验-镜像存储设备内存储的对应的现有数据段,所述奇偶校验级数模块不生成一个或多个奇偶校验-镜像存储设备内的一个或多个奇偶校验数据段。

7、
  根据权利要求1所述的装置,其特征在于第一存储设备的集包括第一存储设备集,还包括镜像修复模块,所述镜像修复模块恢复第一存储设备集的存储设备中存储的数据段,第一存储设备集的所述存储设备不可用,从含有数据段拷贝的镜像存储设备中恢复数据段,所述镜像存储设备包括存储N个数据段的拷贝的一个或多个存储设备的集中的一个。

8、
  根据权利要求7所述的装置,其特征在于所述镜像修复模块响应客户端读取数据段的读取请求,恢复数据段。

9、
  根据权利要求8所述的装置,其特征在于所述镜像修复模块还包括直接客户端响应模块,所述直接客户端响应模块将请求的数据段从镜像存储设备发送给客户端。

10、
  根据权利要求1所述的装置,其特征在于还包括预先整合修复模块,所述预先整合修复模块响应读取数据段的请求,恢复存储设备集的存储设备中存储的数据段,所述存储设备不可用,在奇偶校验级数模块生成一个或多个奇偶校验-镜像存储设备内的一个或多个奇偶校验数据段之前,从奇偶校验-镜像存储设备恢复所述数据段。

11、
  根据权利要求1所述的装置,其特征在于还包括后整合修复模块,所述后整合修复模块所述存储设备无法使用时恢复存储设备集的存储设备内存储的数据段,其中,在奇偶校验级数模块响应存储整合操作生成一个或多个奇偶校验数据段之后,采用一个或多个奇偶校验-镜像存储设备内存储的一个或多个奇偶校验数据段恢复所述数据段。

12、
  根据权利要求1所述的装置,其特征在于还包括,
数据重建模块,所述数据重建模块在重建操作中将恢复的数据段存储到替换存储设备,所述恢复的数据段与不可用的存储设备内存储的不可用的数据段匹配,所述不可用的存储设备包括N个存储设备中的一个,重建操作将数据段重新存储到替换存储设备,以匹配之前存储在不可用的存储设备内的数据段,通过重建操作由下述方式中的一个恢复所述恢复的数据段:
如果匹配的数据段位于奇偶校验-镜像存储设备内,则根据奇偶校验-镜像存储设备内存储的匹配数据段恢复;
如果恢复的数据段并不在一个或多个奇偶校验-镜像存储设备内,则从含有不可用的数据段拷贝的镜像存储设备恢复,所述镜像存储设备包含一个或多个存储设备的集中的一个,所述存储设备存储N个数据段的拷贝;以及
如果恢复的数据段不位于一个或多个奇偶校验-镜像存储设备或镜像存储设备内,则根据由一个或多个奇偶校验数据段和N个数据段中可用的数据段重新生成的重生的数据段恢复。

13、
  根据权利要求1所述的装置,其特征在于还包括:
奇偶校验重建模块,所述奇偶校验重建模块在奇偶校验重建操作中在替换存储设备内重建恢复的奇偶校验数据段,所述恢复的奇偶校验数据段与不可用的奇偶校验-镜像存储设备中存储的不可用的奇偶校验数据段匹配,所述不可用的奇偶校验-镜像存储设备包括一个或多个奇偶校验-镜像存储设备中的一个,所述奇偶校验重建操作将奇偶校验数据段重新存储到替换存储设备,以匹配之前存储在不可用的奇偶校验-镜像存储设备中的奇偶校验数据段,用于重建操作的恢复的奇偶校验数据段可以按以下方式中的一个重新生成:
利用第二存储设备集的奇偶校验-镜像存储设备内存储的奇偶校验数据段重新生成,所述第二存储设备集存储条带的镜像拷贝;
如果N个存储设备内的N个数据段可用,则利用N个存储设备中的一个内存储的N个数据段重新生成;
如果无法从N个存储设备得到N个数据段中的一个或多个并且匹配的奇偶校验数据段在第二存储设备集内不可用,则利用存储N个数据段的拷贝的第二存储设备集的一个或多个存储设备重新生成;以及
无论可用的数据段和不匹配的奇偶校验数据段位于一个或多个存储设备集的什么位置,利用可用的数据段和不匹配的奇偶校验数据段生重新生成。

14、
  根据权利要求1所述的装置,其特征在于N个存储设备包括N个固态存储设备,所述N个固态存储设备的每一个都具有固态控制器。

15、
  根据权利要求1所述的装置,其特征在于接收数据存储请求、计算条带形状和将N个数据段写入N个存储设备、将N个数据段集写入奇偶校验-镜像存储设备和计算奇偶校验数据段中的至少一个发生于下述设备中的一个:
存储设备集中的存储设备;
客户端;以及
第三方RAID管理设备。

16、
  一种在渐进的独立驱动器冗余阵列(RAID)群组中更新数据的装置,其特征在于所述装置包括:
更新接收模块,所述更新接收模块接收更新的数据段,所述更新的数据段对应于现有条带的现有数据段,条带包括来自分入一个或多个条带的文件或对象的数据,每个条带包括N个数据段和一个或多个奇偶校验数据段,所述N个数据段存储在分配给条带的存储设备集的存储设备内,每个奇偶校验数据段由条带的N个数据段生成并且存储在分配给条带的一个或多个奇偶校验-镜像存储设备中,所述存储设备集包括一个或多个奇偶校验-镜像存储设备,所述现有条带包括N个现有数据段和一个或多个现有奇偶校验数据段;
更新复制模块,所述更新复制模块将更新的数据段复制到存储对应的现有数据段的存储设备内,并且还复制到对应现有条带的一个或多个奇偶校验-镜像存储设备;以及
奇偶校验更新模块,所述奇偶校验更新模块响应存储整合操作,为现有条带的一个或多个奇偶校验-镜像存储设备计算一个或多个更新的奇偶校验数据段,所述存储整合操作利用更新的一个或多个奇偶校验数据段,恢复一个或多个奇偶校验-镜像存储设备内的至少一个存储空间和数据。

17、
  根据权利要求16所述的装置,其特征在于根据现有奇偶校验数据段、更新的数据段和现有数据段计算更新的奇偶校验数据段。

18、
  根据权利要求17所述的装置,其特征在于现有数据段的动作为下述一种或多种:
在读取现有数据段以生成更新的奇偶校验数据段之前,现有数据段保持不动;
响应N个存储设备中存储现有数据段的存储设备对更新的数据段的拷贝的接收,现有数据段被复制到数据-镜像存储设备;
响应存储现有数据段的N个存储设备中存储设备的存储整合操作,现有数据段被复制到数据-镜像存储设备。

19、
  根据权利要求16所述的装置,其特征在于根据现有奇偶校验数据段、更新的数据段和德耳塔数据段计算更新的奇偶校验数据段,所述德耳塔数据段由更新的数据段与现有数据段之差产生。

20、
  根据权利要求19所述的装置,其特征在于所述德耳塔数据段具有下述特性中的一种:
在读取用于生成更新的奇偶校验数据段的德耳塔数据段之前,所述德耳塔数据段存储在存储现有数据段的存储设备中;
响应存储现有数据段的存储设备接收更新的数据段的拷贝,所述德耳塔数据段被复制到数据-镜像存储设备;
响应存储现有数据段的存储设备的存储整合操作,所述德耳塔数据段被复制到数据-镜像存储设备。

21、
  根据权利要求16所述的装置,其特征在于接收更新的数据段、复制更新的数据段和计算更新的奇偶校验数据段中的至少一个动作发生于下述设备中的一个:
存储设备集中的存储设备;
客户端;以及
第三方RAID管理设备。

22、
  根据权利要求16所述的装置,其特征在于所述存储整合操作根据更新接收模块和更新复制模块的操作自主进行。

23、
  一种可靠地高性能地存储数据的装置,其特征在于,所述装置包括:
存储设备的集,所述存储设备的集分配给一个条带,所述存储设备的集包括N个存储设备和除N个存储设备之外的一个或多个奇偶校验-镜像存储设备;
存储请求接收模块,所述存储请求接收模块接收数据存储请求,所述数据包括文件的数据或对象的数据;
条带化模块,所述条带化模块计算数据的条带形状,所述条带形状包含一个或多个条带,每个条带包括N个数据段的集,并且将条带的N个数据段写入N个存储设备,其中N个数据段的每一个都写入存储设备的集中的不同存储设备;
奇偶校验-镜像模块,所述奇偶校验-镜像模块将条带的N个数据段的集写入一个或多个奇偶校验-镜像存储设备中的每一个;以及
奇偶校验级数模块,所述奇偶校验级数模块响应存储整合操作计算条带的一个或多个奇偶校验数据段,所述一个或多个奇偶校验数据段根据一个或多个奇偶校验-镜像存储设备内存储的N个数据段计算,所述奇偶校验级数模块还向一个或多个奇偶校验-镜像存储设备的每一个存储奇偶校验数据段,所述存储整合操作根据存储请求接收模块、条带化模块和奇偶校验镜像模块的存储操作自主进行,所述存储整合操作用于恢复一个或多个奇偶校验-镜像存储设备中的至少一个存储空间和数据。

24、
  根据权利要求23所述的系统,其特征在于,还包括一个或多个服务器,所述服务器包括N个存储设备和一个或多个奇偶校验-镜像存储设备。

25、
  根据权利要求24所述的系统,其特征在于,还包括一个或多个服务器内的一个或多个客户端,其中存储接收模块接收来自一个或多个客户端中的至少一个客户端的请求。

26、
  一种计算机程序制品,其特征在于,包括计算机可读介质,所述计算机可读介质具有计算机可用程序编码,所述计算机可读程序编码可执行以进行可靠地、高性能地存储数据,所述计算机程序制品的操作包括:
接收数据存储请求,所述数据包括文件的数据或对象的数据;
计算数据的条带形状,所述条带形状包含一个或多个条带,每个条带包括N个数据段的集,并且将N个数据段写入N个存储设备,其中N个数据段的每一个都写入分配给条带的存储设备的集中的不同存储设备;
将条带的N个数据段的集写入存储设备的集中的一个或多个奇偶校验-镜像存储设备,所述一个或多个奇偶校验-镜像存储设备是除N个存储设备以外的设备;以及
响应存储整合操作,计算条带的奇偶校验数据段,所述奇偶校验数据段根据奇偶校验-镜像存储设备存储的N个数据段计算,在奇偶校验-镜像存储设备中存储所述奇偶校验数据段,所述存储整合操作根据接收存储N个数据段的请求、将N个数据段写入N个存储设备或将N个数据段写入一个或多个奇偶校验-镜像模块的操作自主进行,所述存储整合操作用于恢复奇偶校验-镜像存储设备中的至少一个存储空间和数据。

27、
  一种计算机程序制品,其特征在于,包括计算机可读介质,所述计算机可读介质具有计算机可用程序编码,所述计算机可读程序编码可执行以进行可靠地、高性能地存储数据,所述计算机程序制品的操作包括:
接收更新的数据段,所述更新的数据段对应于现有条带的现有数据段,条带包括来自划分到一个或多个条带的文件或对象的数据,每个条带包括N个数据段和一个或多个奇偶校验数据段,所述N个数据段存储在分配给条带的存储设备的集的存储设备内,每个奇偶校验数据段由条带的N个数据段生成并且存储在分配给条带的一个或多个奇偶校验-镜像存储设备内,所述存储设备的集包括一个或多个奇偶校验-镜像存储设备,所述现有条带包括N个现有数据段和一个或多个现有奇偶校验数据段;
将更新的数据段复制到存储对应的现有数据段的存储设备,还复制到对应现有条带的一个或多个奇偶校验-镜像存储设备;以及
响应存储整合操作,计算现有条带的一个或多个奇偶校验-镜像存储设备的一个或多个更新的奇偶校验数据段,所述存储整合操作利用更新的一个或多个奇偶校验数据段,恢复一个或多个奇偶校验-镜像存储设备中的至少一个存储空间和数据。

说明书

采用渐进RAID存储数据的装置、系统和方法
发明背景
相关申请的交叉引用
本申请是下述申请的部分连续申请并要求下述申请的优先权:DavidFlynn等人于2006年12月6日提交的题为“Elemental Blade System”的美国临时专利申请(申请号为:60/873,111);David Flynn等人于2007年9月22日提交的题为“Apparatus,System,and Method for Object-Oriented Solid-State Storage”的美国临时专利申请(申请号为:60/974,470)。上述申请通过引用并入本文中。
技术领域
本发明涉及数据存储,更具体地,涉及采用渐进RAID系统存储数据。
背景技术
独立驱动器冗余阵列(“RAID”)可以用许多方式构建,以达到不同目的。如下所述,驱动器是存储数据的大容量存储设备。驱动器或存储设备可以是固态存储器、硬盘驱动器(“HDD”)、磁带存储器、光驱动器或本领域的技术人员公知的其他任意大容量存储设备。在一种实施方式中,驱动器包括以虚容量方式访问的大容量存储设备的一部分。在另一种实施方式中,驱动器包括两个或多个数据存储设备,与RAID、简单磁盘/驱动器捆绑(“JBOD”)类似,所述两个或多个数据存储设备能以虚容量的方式一同访问并在存储区域网络(“SAN”)中构建。通常通过存储控制器以单个单元或虚容量的方式访问驱动器。在优选实施方式中,存储控制器包括固态存储控制器。本领域的技术人员应当认识到RAID中以大容量存储设备的形式构建的驱动器的其他形式。下面说明的实施方式中,驱动器和存储设备可交换使用。
传统上,将不同的RAID构造称作RAID级别。基本的RAID配置是RAID级别0,所述级别产生存储设备的镜像拷贝。RAID0的优点在于一个或多个存储设备中的数据的完全拷贝在一个或多个存储设备的镜像拷贝内可用,因而能相对较快地读取主驱动器或镜像驱动器中的数据。RAID0还在主存储设备故障的情况下提供数据的备份拷贝。RAID0的缺点在于,由于写入数据要写入两次,所以写入得相对较慢。
另一种RAID配置为RAID级别1。RAID级别1中,写入ARID的数据分为对应于存储设备集中的N个存储设备的N个数据段。N个数据段形成“条带”。由于多个存储设备并行存储N个数据段的速度比单个存储设备存储包含N个数据段的数据的速度快,通过条带化多个存储设备中的数据以提高性能。但由于数据可以分布在多个存储设备中,并且多个存储设备的存取时间通常小于从包含所有所需数据的一个存储设备中读取数据的时间,所以读取数据相对较慢。此外,RAID1不提供故障保护。
常用的RAID配置是RAID级别5,所述配置包括条带化N个存储设备中的N个数据段,以及在N+1个存储设备中存储奇偶校验数据段。由于RAID可以容许存储设备发生单个故障,RAID5也可以容许故障。例如,如果存储设备发生故障,可使用其他可用的数据段和为条带特别计算的奇偶校验数据段产生条带的丢失的数据段。RAID5使用的存储空间通常小于RAID0,因为存储设备中RAID集的每个存储设备不需要存储数据的全部拷贝,只需存储条带的数据段或奇偶校验数据段。RAID5与RAID1类似,写入数据相对较快,读取数据相对较慢。但由于必须根据条带的N个数据段计算每个条带的奇偶校验数据段,向典型地传统RAID5写入数据的速度比向RAID1写入数据的速度慢。
另一种常用的RAID配置是RAID级别6,其包括双重分布式奇偶校验。RAID6中,两个存储设备被分配为奇偶校验-镜像设备(例如1602a、1602b)。分别计算条带的每个奇偶校验数据段,从而可以利用剩余的可用数据段和/或奇偶校验数据段恢复存储设备集中发生损失的任意两个存储设备。RAID6的性能优点与缺点同RAID5相同。
多重RAID还可以用于在需要高可靠性时增加容错性。例如,在RAID0的配置中为配置为RAID5的两个存储设备集产生镜像。得到的配置可以称作RAID50。如果每个镜像集使用RAID6,则所述配置可称为RAID60。多重RAID配置通常具有与基础RAID群组相同的性能问题。
发明内容
从前述讨论中明显得出,需要有这样一种用于渐进RAID的装置、系统和方法,所述装置、系统和方法有利于容错、比传统的容错RAID级别(如RAID0、RAID5、RAID6等)的数据写入速度快并且比传统的条带式RAID级别(如RAID1、RAID5、RAID6等)的数据读取速度快。有利地是,这种装置、系统和方法在根据需要计算奇偶校验数据段之前(例如存储合并操作之前或存储合并操作进行一部分时),向奇偶校验-镜像存储设备写入N个数据段,利用了RAID0系统的优势。
本发明是针对现有技术的现状进行开发的,具体地,是针对现有技术中通过现有数据管理系统尚未完全解决的问题和需要。因而,本发明已被开发出以提供一种利用渐进RAID可靠地、高性能地存储数据以克服现有技术中的上述多数或全部缺陷的装置、系统和方法。
渐进RAID的装置具有多个模块,所述模块包括存储请求接收模块、条带化模块、奇偶校验-镜像模块和奇偶校验级数模块。存储请求接收模块接收数据存储请求。所述数据包括文件的数据或对象的数据。条带化模块计算数据的条带形状。条带形状包括一个或多个条带,每个条带包括N的数据段。条带化模块还向N个存储设备写入条带的N个数据段,其中N个数据段中的每一个都写入分配给条带的存储设备集中的不同存储设备。
奇偶校验-镜像模块将条带的N个数据段集写入存储设备集中的一个或多个奇偶校验-镜像存储设备。奇偶校验-镜像存储设备是除N个存储设备以外的设备。奇偶校验级数模块响应存储整合操作,计算条带的一个或多个奇偶校验数据段。根据一个或多个奇偶校验-镜像存储设备中存储的N个数据段计算所述一个或多个奇偶校验数据段。奇偶校验级数模块还在一个或多个奇偶校验-镜像存储设备中存储奇偶校验数据段。实现存储整合操作用于通过恢复一个或多个奇偶校验-镜像存储设备中的至少一个的至少一个存储空间和数据。
在一种实施方式中,所述装置可以包括奇偶校验替换模块,所述奇偶校验替换模块(为每个条带)将存储设备集中的存储设备交替分配为所述条带的一个或多个奇偶校验-镜像存储设备。在另一种实施方式中,根据存储接收模块、条带化模块和奇偶校验-镜像模块的存储操作自主进行存储整合操作。
在一种实施方式中,存储设备包括第一存储设备集,装置包括产生除第一存储设备集以外的一个或多个存储设备集的镜像集模块,其中一个或多个其他存储集中的每一个都包括至少一个相关的条带化模块,所述条带化模块将N个数据段写入一个或多个其他存储集的每一个。在另一种实施方式中,一个或多个附加存储设备集的每一个都包括存储N个数据段的集的关联奇偶校验-镜像模块。在再一种实施方式中,装置包括计算一个或多个奇偶校验数据段的奇偶校验级数模块。
在一种实施方式中,装置还构造为包括通过接收更新的数据段使数据段更新的更新模块。更新的数据段对应于N个存储设备中存储的N个数据段中现有的数据段。更新模块将更新的数据段复制到存储现有数据段的条带的存储设备,还复制到条带的一个或多个奇偶校验-镜像存储设备。更新模块以更新的数据段替换N个存储设备中的存储设备中存储的现有数据段。更新模块响应(未在一个或多个奇偶校验-镜像存储设备内产生一个或多个奇偶校验数据段的)奇偶校验级数模块,以更新的数据段替换一个或多个奇偶校验-镜像存储模块内存储的现有数据段。
装置的一种实施方式中,第一存储设备的集是第一存储设备集,装置包括恢复第一存储设备集的存储设备内存储的数据段的镜像修复模块。第一存储设备集的存储设备无法使用。从包含数据段拷贝的镜像存储设备恢复数据段。镜像存储设备包括存储N个数据段的拷贝的一个或多个存储设备集中的一个存储设备。在另一种实施方式中,镜像修复模块还包括直接客户端响应模块,所述直接客户端响应模块从镜像存储设备将请求的数据段发送给客户端。
在一种实施方式中,装置包括预先整合恢复模块,所述预先整合恢复模块在存储设备无法使用时响应读取数据段的请求,恢复存储集的存储设备中存储的数据段,以及在奇偶校验级数模块在一个或多个校验-镜像存储设备中产生一个或多个奇偶校验数据段之前,所述预先整合恢复模块从奇偶校验-镜像存储设备恢复所述数据段。
在另一种实施方式中,后整合修复模块在存储设备无法使用时恢复存储集的存储设备中存储的数据段,以及在奇偶校验级数模块响应存储整合操作生成一个或多个奇偶校验数据段之后,利用存储在一个或多个奇偶校验-镜像存储设备中的一个或多个奇偶校验数据段恢复数据段。
所述装置的一种实施方式中,重建操作下,在恢复的数据段与不可用的存储设备中存储的不可用的数据段相匹配时,数据重建模块将恢复的数据段存储到替换存储设备。不可用的存储设备是N个存储设备中的一个。重建操作是为了将数据段重新存储到替换存储设备中,以匹配之前存储在不可用的存储设备中的数据段。如果匹配的数据段处于奇偶校验-镜像存储设备中,则重建操作中可以根据奇偶校验-镜像存储设备中存储的匹配的数据段恢复恢复的数据段。
如果恢复的数据段不在一个或多个奇偶校验-镜像存储设备中,则可以从包含不可用数据段的拷贝的镜像存储设备中恢复数据段。镜像存储设备是存储N个数据段拷贝的一个或多个存储设备的集中的一个存储设备。如果恢复的数据段不位于一个或多个奇偶校验-镜像存储设备或镜像存储设备中,则可以从重新生成的数据段中恢复数据段,所述重新生成的数据段根据一个或多个奇偶校验数据段和N个数据段中可用的数据段生成。
在一种实施方式中,奇偶校验重建操作中,奇偶校验重建模块在替换存储设备中的恢复的奇偶校验数据段。恢复的奇偶校验数据段与不可用的奇偶校验-镜像存储设备中存储的不可用的奇偶校验数据段相匹配。不可用的奇偶校验-镜像存储设备为一个或多个奇偶校验-镜像存储设备中的一个。奇偶校验重建操作用于将奇偶校验数据段重新存储到替换的存储设备中,以匹配之前在不可用的奇偶校验-镜像存储设备中存储的奇偶校验数据段。
重建操作中,利用存储在第二存储设备集的奇偶校验-镜像存储设备中的奇偶校验数据段重新生成恢复的奇偶校验数据段,所述第二存储设备集存储条带的镜像拷贝。如果N个存储设备中的N个数据段可用,则利用N个存储设备的一个中存储的N个数据段,重新生成恢复的奇偶校验数据段。如果N个存储设备中的N个数据段的一个或多个不可用并且第二存储设备集中的匹配奇偶校验数据段也不可用,则利用存储N个数据段拷贝的第二存储设备集中的一个或多个存储设备,重新生成恢复的奇偶校验数据段。无论可用的数据段和不匹配的奇偶校验数据段在一个或多个存储设备的集中的位置如何,都可以利用可用的数据段和不匹配的奇偶校验数据段重新生成恢复的奇偶校验数据段。
在另一种实施方式中,N个存储设备包括N个固态存储设备,每一个都具有固态控制器。在另一种实施方式中,在存储设备集的存储设备、客户端、第三方RAID管理设备的一个中进行下述操作中的至少一个:接收数据存储请求、计算条带形状和向N个存储设备写入N个数据段、向奇偶校验-镜像存储设备写入N个数据段集以及计算奇偶校验数据段。
另一装置可用于更新渐进RAID群组的数据。所述装置可以包括更新接收模块、更新复制模块和奇偶校验更新模块。更新接收模块接收更新的数据段,其中更新的数据段对应于现有条带的现有数据段。条带包括分为一个或多个条带的文件中的数据或对象中的数据,其中每个条带包括N个数据段以及一个或多个奇偶校验数据段。N个数据段存储在分配给条带的存储设备集的存储设备中,奇偶校验数据段中的每一个都由条带的N个数据段生成,并且都存储在分配给条带的一个或多个奇偶校验-镜像存储设备中。
存储设备集包括一个或多个奇偶校验-镜像存储设备,现有的条带包括N个现有数据段以及一个或多个现有奇偶校验数据段。更新复制模块将更新的数据段复制到存储对应的现有数据段的存储设备,还复制到对应于现有条带的一个或多个奇偶校验-镜像存储设备。奇偶校验更新模块响应存储整合操作,计算用于现有条带的一个或多个奇偶校验-镜像存储设备的一个或多个更新的奇偶校验数据段。存储整合操作用于利用更新的一个或多个奇偶校验数据段,恢复一个或多个奇偶校验-镜像存储设备中的至少一个存储空间和数据。
所述装置的一种实施方式中,根据现有的奇偶校验数据段、更新的数据段和现有的数据段计算更新的奇偶校验数据段。在另一种实施方式中,读取现有的数据段以生成更新的奇偶校验数据段之前,现有的数据段保持不动,响应存储现有数据段的N个存储设备中的存储设备对更新的数据段的拷贝的接收,将现有的数据段复制到数据-镜像存储设备,以及/或者响应存储现有的数据段的N个存储设备中的存储设备的存储整合操作,将现有的数据段复制到数据-镜像存储设备。
在另一种实施方式中,根据现有奇偶校验数据段、更新的数据段和德耳塔(delta)数据段计算更新的奇偶校验数据段,其中德耳塔数据段由更新数据段和现有数据段之差生成。在再一种实施方式中,读取德耳塔数据段以生成更新的奇偶校验数据段之前,德耳塔数据段存储在存储现有数据段的存储设备中,而后对存储现有数据段的存储设备对更新的数据段的拷贝的接收做出响应,将德耳塔数据段复制到数据-镜像存储设备,并且/或者对存储现有数据段的存储设备的存储整合操作做出响应,将德耳塔数据段复制到数据-镜像存储设备。在一种实施方式中,根据更新接收模块和更新复制模块的操作自主进行存储整合操作。
本发明的系统还表现为可靠地、高性能地存储数据。所述系统包括分配到条带的存储设备集。所述存储设备的集包含N个存储设备和除N个存储设备以外的一个或多个奇偶校验-镜像存储设备。所述系统还包括存储请求接收模块、条带化模块、奇偶校验-镜像模块和奇偶校验级数模块。
存储请求接收模块接收数据存储请求。所述数据包括文件的数据或对象的数据。条带化模块计算数据的条带形状。条带形状包括一个或多个条带,每个条带包括N个数据段的集,并将条带的N个数据段写入N个存储设备,其中,N个数据段的每一个都写入所述存储设备集的不同存储设备中。奇偶校验-镜像模块将条带的N个数据段的集写入一个或多个奇偶校验-镜像存储设备中的每一个。
奇偶校验级数模块响应存储整合操作,为条带计算一个或多个奇偶校验数据段。根据存储在奇偶校验-镜像存储设备中的一个或多个N个数据段计算所述一个或多个奇偶校验数据段。奇偶校验级数模块还向一个或多个奇偶校验-镜像存储设备的每一个中存储奇偶校验数据段,其中,存储整合操作根据存储接收模块、条带化模块和奇偶校验镜像模块的存储操作自主进行。存储整合操作用于恢复一个或多个奇偶校验-镜像存储设备中的至少一个存储空间和数据。
系统实质上还包括与装置有关的上述模块和实施方式。在一种实施方式中,系统包括一个或多个服务器,所述服务器包括N个存储设备和一个或多个奇偶校验-镜像存储设备。另一种实施方式中,所述系统包括一个或多个服务器中的一个或多个客户端,其中存储接收模块接收来自一个或多个客户端中的至少一个的请求。
本发明的方法还表现为可靠地、高性能地存储数据。公开的实施方式中的方法实质上包括执行(与上述装置和系统的操作相关的)上述功能的必要步骤。在一种实施方式中,所述方法包括接收数据存储请求。所述数据包括文件的数据或对象的数据。所述方法包括计算数据的条带形状,其中所述条带形状包括一个或多个条带,每个条带包括N个数据段的集。所述方法包括将N个数据段写入N个存储设备,其中N个数据段中的每一个都写入分配给条带的存储设备集中的不同存储设备。
所述方法包括将条带的N个数据段写入存储设备集中的一个或多个奇偶校验-镜像存储设备。所述一个或多个奇偶校验-镜像存储设备是除N个存储设备以外的存储设备。所述方法包括响应存储整合操作计算条带的奇偶校验数据段和在奇偶校验-镜像存储设备中存储奇偶校验数据段。根据奇偶校验-镜像存储设备中存储的N个数据段计算奇偶校验数据段。存储整合操作在接收存储N个数据段的请求后自主进行。所述方法包括将N个数据段写入N个存储设备或将N个数据段写入一个或多个奇偶校验-镜像存储设备。存储整合操作用于恢复奇偶校验-镜像存储设备中的至少一个存储空间和数据。
本发明的另一种方法还表现为可靠地、高性能地存储数据。所述方法包括接收更新数据段。更新数据段对应于现有条带的现有数据段。条带包括分为一个或多个条带的文件或对象的数据。每个条带包括N个数据段和一个奇偶校验数据段。N个数据段存储在分配给条带的存储装置集的存储装置中。根据条带的N个数据段生成每个奇偶校验数据段并且将所述奇偶校验数据段存储在分配给条带的一个或多个奇偶校验-镜像存储设备内。存储设备集包括一个或多个奇偶校验-镜像存储设备。现有条带包括N个现有数据段和一个或多个现有奇偶校验数据段。
所述方法包括将更新的数据段复制到存储对应的现有数据段的存储装置中以及复制到对应于现有条带的一个或多个奇偶校验存储设备中。所述方法包括响应存储整合操作,为现有条带的一个或多个奇偶校验-镜像存储设备计算一个或多个更新的奇偶校验数据段。存储整合操作利用一个或多个更新的奇偶校验数据段恢复一个或多个奇偶校验-镜像存储设备中的至少一个存储空间和数据。
本说明书全文所提到的特征、优点或者类似措辞并不意味着可在本发明包含在本发明的任一单独的实施方式中的情况下实现所有的特征和优点。当然,涉及特征和优点的措辞被理解为意味着:与实施方式一起描述的特定的特征、优点或者特点包括在本发明的至少一种实施方式中。因此,在本说明书全文中,关于特征、优点和类似措辞的讨论可(但未必)涉及同一实施方式。
此外,描述的本发明的特征、优点和特点可采用任何合适的方式与一个或多个实施方式结合。相关领域的技术人员可意识到本发明可在不具备特定实施方式的一个或多个具体特征或优点的情况下被实施。在其他例子中,可意识到附加特征和优点出现在某些实施方式中,而不是在本发明的所有实施方式中都出现。
通过下面的说明和附加的权利要求,本发明的这些特征和优点将变得更加充分的显而易见,或者可以通过按下文所阐述的实施本发明的方法而获悉。
附图说明
为了使本发明的优点更加容易理解,会参考附图中示出的特定实施方式给出上面简要描述的本发明的更具体的说明。在理解到这些附图仅描述了本发明的一般实施方式并且并不因此认为本发明限于此范围的情况下,将通过使用附图并结合更多的具体特征和细节描述和解释本发明,附图中:
图1A是示意性框图,示出了根据本发明的用于固态存储设备内的数据管理的系统的一种实施方式;
图1B是示意性框图,示出了根据本发明的用于存储设备内的对象管理的系统的一种实施方式;
图1C是示意性框图,示出了根据本发明的用于服务器内的存储区域网络的系统的一种实施方式;
图2A是示意性框图,示出了根据本发明的用于存储设备内的对象管理的装置的一种实施方式;
图2B是示意性框图,示出了根据本发明的固态存储设备内的固态存储设备控制器的一种实施方式;
图3是示意性框图,示出了根据本发明的固态存储控制器的一种实施方式,所述固态存储控制器具有写入数据管道和读取数据管道;
图4A是示意性框图,示出了根据本发明的用于固态存储控制器内的内存库交错控制器的一种实施方式;
图4B是示意性框图,示出了根据本发明的用于固态存储控制器内的内存库交错控制器的一种替代实施方式;
图5A是示意性流程图,示出了根据本发明的在固态存储设备内采用数据管道管理数据的方法的一种实施方式;
图5B是示意性流程图,示出了根据本发明的用于服务器内SAN的方法的一种实施方式;
图6是示意性流程图,示出了根据本发明的在固态存储设备内采用数据管道管理数据的方法的另一种实施方式;
图7是示意性流程图,示出了根据本发明的在固态存储设备内采用内存库交错管理数据的方法的一种实施方式;
图8是示意性框图,示出了根据本发明的用于固态存储设备内用于垃圾收集的装置的一种实施方式;
图9是示意性流程图,示出了根据本发明的用于固态存储设备内的垃圾收集的方法的一种实施方式;
图10是示意性框图,示出了根据本发明的用于渐进RAID的系统的一种实施方式;
图11是示意性框图,示出了根据本发明的用于渐进RAID的装置的一种实施方式;
图12是示意性框图,示出了根据本发明的采用渐进RAID更新数据段的装置的一种实施方式;
图13是示意性流程图,示出了根据本发明的采用渐进RAID过程管理数据的方法的一种实施方式;以及
图14是示意性流程图,示出了根据本发明的采用渐进RAID过程更新数据段的方法的一种实施方式。
具体实施方式
为了更显著地强调功能性单元运行的独立性,在本说明书中描述的许多功能性单元已被标示为模块。例如,模块可作为硬件电路来实施,所述硬件电路包括自定义VLSI电路、门阵列或成品半导体(例如逻辑芯片、晶体管或其他分立元件)。模块也可在可编程硬件设备(如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备或类似设备)内实施。
模块还可在由不同类型的处理器运行的软件中实施。例如,可执行代码的识别模块可以包括一个或多个计算机指令物理块或逻辑块,所述计算机指令被作为对象、程序或函数来组织。然而,识别模块的可执行文件不必在物理上位于一起,但是可包括存储在不同位置的不同命令,当这些命令在逻辑上连接在一起时,所述命令包括所述模块并实现所述模块的指定目标。
当然,可执行代码的模块可以为一个或许多指令,并且甚至可以分布在若干不同的代码段中、分布在不同的程序中并可分布在多个存储设备中。类似地,可以在此在模块内识别并示出运算数据,并且可以以任何合适的形式体现所述运算数据并在任意合适类型的数据结构中组织所述运算数据。所述运算数据可作为单数据集收集,或者可以分布在不同的位置(包括不同的存储设备),并且可在系统或网络中至少部分地仅作为电信号存在。当模块或模块的部分在软件中实施时,软件部分被存储在一个或多个计算机可读媒体上。
本说明书全文所提到的“一种实施方式”、“实施方式”或类似的措辞意味着与实施方式一起描述的特定的特征、结构或特点包括在本发明的至少一种实施方式中。因此,在本说明书全文中,短语“在一种实施方式中”、“在实施方式中”及类似措辞的出现可(但未必)涉及同一实施方式。
提及信号承载媒介可采取任何能够生成信号、导致信号生成或者导致在数字处理设备上执行机器可读命令程序的形式。信号承载媒介可通过下述设备体现:传输线、光盘、数字视频光盘、磁带、伯努利驱动器、磁盘、穿孔卡、闪存、集成电路或其他数字处理装置存储设备。
此外,描述的本发明的特征、结构或特点可以以任何合适的方式合并在一种或多种实施方式中。在下文的说明中,提供了大量的具体细节以全面理解本发明的实施方式,所述具体细节比如编程、软件模块、用户选择、网络事务、数据库查询、数据库结构、硬件模块、硬件电路、硬件芯片等等的实例。然而,相关技术领域的技术人员可认识到:本发明在可在不具备一个或多个具体实施方式的具体细节的情况下被实施,或者本发明可结合其他方法、组件、材料等实施。在其他例子中,并没有显示或描述公知的结构、材料或操作以使本发明变得清晰。
所附的示意性流程图大体上是作为逻辑流程图来列举的。就这点而言,描述的顺序和标记的步骤是本方法的一种实施方式的指示性说明。可设想其他在功能上、逻辑上或效果上与图示方法的一个或多个步骤(或其中部分)相同的步骤和方法。此外,使用的格式和符号被用于解释方法的逻辑步骤并被理解为不限制本方法的范围。尽管在流程图中可使用不同的箭头类型和线条类型,但这些箭头类型和线条类型被理解为不限制相应方法的范围。的确,一些箭头或其他连接器可用于仅表示方法的逻辑流程。例如,箭头可表示描述的方法的列举的步骤之间的未指明间期的等待或监测时期。此外,特定方法的步骤的顺序可或可不严格依照所示的对应步骤的顺序。
固态存储系统
图1A是示意性框图,示出了根据本发明的用于在固态存储设备内的数据管理的系统100的一种实施方式。系统100包括固态存储设备102、固态存储控制器104、写入数据管道106、读取数据管道108、固态存储器110、计算机112、客户端114和计算机网络116,这些装置描述如下。
系统100包括至少一个固态存储设备102。在另一种实施方式中,系统100包括两个或更多个固态存储设备102,每个固态存储设备102可包括非易失性的、固态的存储器110,所述非易失性的、固态的存储器例如纳米随机存取存储器(“纳米RAM”或者“NRAM”)、磁电阻式RAM(“MRAM”)、动态RAM(“DRAM”)、相变RAM(“PRAM”)闪存等等。结合图2和图3更详细地描述了固态存储设备102。固态存储设备102被描述成位于通过计算机网络116与客户端114相连的计算机112内。在一种实施方式中,固态存储设备102位于计算机112内部并且采用系统总线连接,所述系统总线例如外围组件互连扩展(express)(“PCI-e”)总线、串行高级技术附件(“串行ATA”)总线或类似总线。在另一种实施方式吧,固态存储设备102位于计算机112外部,并且通过通用串行总线(“USB”)、电气与电子工程师协会(“IEEE”)1394总线(“火线”)或类似总线连接。在其他实施方式中,固态存储设备102采用下述方式与计算机112相连接:外围组件互连(“PCI”)express总线、外部电或光总线扩展或者总线网络解决方案,所述总线网络解决方案例如无限带宽或PCI express高级交换(“PCIe-AS”)或类似技术。
在不同的实施方式中,固态存储设备102可以是双列直插式内存模块(“DIMM”)、子卡或微型模块的形式。在另一种实施方式中,固态存储设备102是位于机架式刀片内的元件。在另一种实施方式中,固态存储设备102包含在直接集成到高级集成装置(如主板、笔记本电脑、图形处理器)的封装内。在另一种实施方式中,包括固态存储设备102的单独元件直接集成到高级集成装置上而不经过中间封装。
固态存储设备102包括一个或多个固态存储控制器104,每个固态存储控制器104可包括写入数据管道106和读取数据管道108,而且,每个固态存储控制器104还包括固态存储器110,这将在下文中结合图2和图3详细说明。
系统100包括一台或多台连接到固态存储设备102的计算机112。计算机112可以是主机、服务器、存储区域网络(“SAN”)的存储控制器、工作站、个人计算机、笔记本电脑、手持式计算机、超级计算机、计算机集群、网络交换机、路由器或设备、数据库或存储设备、数据采集或数据采集系统、诊断系统、测试系统、机器人、便携式电子设备、无线设备或类似设备。在另一种实施方式中,计算机112可以是客户端,并且固态存储设备102自主运行以应答发送自计算机112的数据请求。在这种实施方式中,计算机112和固态存储设备102可采用下列方式连接:计算机网络、系统总线或其他适于在计算机112和自主固态存储设备102之间连接的通信手段。
在一种实施方式中,系统100包括一个或多个客户端114,所述一个或多个客户端114通过一个或多个计算机网络116连接到一台或多台计算机112。客户端114可以是主机、服务器、SAN的存储控制器、工作站、个人计算机、便携式计算机、手持式计算机、超型计算机、计算机集群、网络交换机、路由器或设备、数据库或存储设备、数据采集或数据采集系统、诊断系统、测试系统、机器人、便携式电子设备、无线设备或类似设备。计算机网络116可包括因特网、广域网(“WAN”)、城域网(“MAN”)、局域网(“LAN”)、令牌环网、无线网络、光纤通道网络、SAN、网络附属存储(“NAS”)、ESCON或类似网络、或者是网络的任意组合。计算机网络116还可包括来自IEEE802系列网络技术中的网络,如以太网、令牌环网、WiFi、WiMax及类似网络。
计算机网络116可包括服务器、交换机、路由器、电缆、无线电和其他用于促进计算机112和客户端114的网络连接的设备。在一种实施方式中,系统100包括通过计算机网络116进行对等通信的多台计算机112。在另一种实施方式中,系统100包括通过计算机网络116进行对等通信的多个固态存储设备102。本领域技术人员可认识到其他计算机网络116可包括一个或多个计算机网络116以及相关设备,所述相关设备具有一个或多个客户端114、具有一个或多个固态存储设备102的其他计算机或与一台或多台计算机112相连的一个或多个固态存储设备102之间的单个或冗余连接,所述其他计算机具有一个或多个固态存储设备102。在一种实施方式中,系统100包括两个或更多个通过计算机网络118连接到客户端116的固态存储设备102,而不包括计算机112。
存储控制器管理的对象
图1B是示意性框图,示出了根据本发明的用于在存储设备内的对象管理的系统101的一种实施方式。系统101包括一个或多个存储设备150(每一个存储设备150都具有存储控制器152和一个或多个数据存储设备154)和一个或多个请求设备155。存储设备152联网在一起并与一个或多个请求设备155连接。请求设备155将对象请求发给存储设备150a。对象请求可以是创建对象的请求、向对象写入数据的请求、从对象读取数据的请求、删除对象的请求、检查对象的请求、复制对象的请求及类似请求。本领域技术人员会认识到其他对象请求。
在一种实施方式中,存储控制器152和数据存储设备154是分离的设备。在另一种实施方式中,存储控制器152和数据存储设备154集成到一个存储设备150上。在另一种实施方式中,数据存储设备154为固态存储器110,而存储控制器为固态存储设备控制器202。在其他实施方式中,数据存储设备154可以为硬盘驱动器、光驱动器、磁带存储器或类似存储设备。在另一种实施方式中,存储设备150可包括两个或更多个不同类型的数据存储设备154。
在一种实施方式中,数据存储设备154为固态存储器110,并且被布置为固态存储元件216、218、220的阵列。在另一种实施方式中,固态存储器110被布置在两个或更多个内存库(bank)214a-n内。下文结合图2B更详细的描述了固态存储器110。
存储设备150a-n可联网在一起并且可作为分布式存储设备运行。与请求设备155连接的存储设备150a控制发送到所述分布式存储设备的对象请求。在一种实施方式中,存储设备150和关联的存储控制器152管理对象并对请求设备155来说表现为分布式对象文件系统。在这种情况下,一类分布式对象文件系统的实例是并行对象文件系统。在另一种实施方式中,存储设备150和关联的存储控制器152管理对象并对请求设备155来说表现为分布式对象文件服务器。在这种情况下,一类分布式对象文件服务器的实例是并行对象文件服务器。在这些和其他实施方式中,请求设备155可只管理对象或者与存储设备150结合而参与管理对象,这通常并不将存储设备150的功能限制在为其他客户端114充分管理对象的范围内。在退化情况下,每个分布式存储设备、分布式对象文件系统和分布式对象文件服务器能作为单个设备独立运行。联网的存储设备150a-n可作为分布式存储设备、分布式对象文件系统、分布式对象文件服务器和它们的任意组合运行,所述组合具有一个或多个为一个或多个请求设备155配置的这些功能。例如,存储设备150可配置为:为第一请求设备155a作为分布式存储设备运行,而请求设备155b作为分布式存储设备和分布式对象文件系统为运行。当系统101包括一个存储设备150a时,存储设备150a的存储控制器152a管理对象并对请求设备155来说表现为对象文件系统或对象文件服务器。
在一种实施方式中,其中,存储设备150作为分布式存储设备联网在一起,存储设备150充当由一个或多个分布式存储控制器152管理的独立驱动器冗余阵列(“RAID”)。例如,写入对象数据段的请求导致所述数据段根据RAID级别在数据存储设备154a-n中被条带化为具有奇偶校验条带的条带。这种布置的一个好处是这种对象管理系统可在单独的存储设备150(无论是存储控制器152、数据存储设备154或存储设备150的其他组件)出现故障时继续使用。
当冗余网络用于互连存储设备150和请求设备155时,所述对象管理系统可在出现网络故障的情况下(只要网络中的一个仍在运行)继续使用。具有一个存储设备150a的系统101还可包括多个数据存储设备154a,而存储设备150a的存储控制器152a可作为RAID控制器运行并在存储设备150a的数据存储设备154a间分割数据段,存储设备150a的存储控制器152a可包括根据RAID级别的奇偶校验条带。
在一种实施方式中,其中,一个或多个存储设备150a-n是具有固态存储设备控制器202和固态存储器110的固态存储设备102,固态存储设备102可配置为DIMM配置、子卡、微型模块等,并保留在计算机112内。计算机112可以是服务器或具有固态存储设备102的类似设备,固态存储设备102联网在一起并作为分布式RAID控制器运行。有利地是,存储设备102可采用PCI-e、PCIe-AS、无限带宽或其他高性能总线、交换总线、网络总线或网络连接,并且可提供极致密型、高性能的RAID存储系统,在所述系统中,单独的或分布式固态存储控制器202自主地在固态存储器110a-n间条带化数据段。
在一种实施方式中,请求设备155用于与存储设备150通信的同一网络可被对等存储设备150a使用,以与对等存储设备150b-n通信以实现RAID功能。在另一种实施方式中,可为了RAID的目的而在存储设备150间使用单独的网络。在另一种实施方式中,请求设备155可通过向存储设备150发送冗余请求而参与RAID进程。例如,请求设备155可向第一存储设备150a发送第一对象写入请求,而向第二存储设备150b发送具有相同数据段的第二对象写入请求以实现简单的镜像。
当具有在存储设备102内进行对象处理的能力时,只有存储控制器152具有采用一个RAID级别存储一个数据段或对象的能力,而采用不同的RAID级别或不采用RAID条带化来存储另一数据段或对象。这些多个RAID群组可与存储设备150内的多个分区相关联。可同时在各种RAID群组间支持RAID0、RAID1、RAID5、RAID6和复合RAID类型10、50、60,所述RAID群组包括数据存储设备154a-n。本领域技术人员可认识到还可同时支持的其他RAID类型和配置。
而且,由于存储控制器152像RAID控制器一样自主运行,所述RAID控制器能够执行渐进RAID并能够将在数据存储设备154间条带化的具有一个RAID级别的对象或对象的某些部分转换为另一RAID级别,转换时请求设备155不受影响、不参与或者甚至不探测RAID级别的变化。在优选实施方式中,促进RAID配置从一个级别变为另一级别可在对象或甚至在包基上自主实现,并且可由运行在存储设备150或存储控制器152中的一个上的分布式RAID控制模块初始化。通常,RAID渐进是从高性能和低效率的存储配置(如RAID1)转换为低性能和高存储效率的存储配置(如RAID5),其中,转换是基于读取频率被动态地初始化。但是,可以发现,从RAID5到RAID1的渐进也是可能的。可配置其他用于初始化RAID渐进的进程,或者可由客户端或外部代理(如存储系统管理服务器请求)请求所述进程。本领域技术人员可认识到具有存储控制器152的存储设备102的其他特征和优点,所述存储控制器152自主管理对象。
具有服务器内SAN的固态存储设备
图1C是表示根据本发明的用于服务器内的存储区域网络(“SAN”)的系统103的一种实施方式的示意性框图。所述系统103包括通常配置为服务器(“服务器112”)的计算机112。每个服务器112包括一个或多个存储设备150,其中服务器112与存储设备150都连接到共享网络接口156。每个存储设备150包括存储控制器152和对应的数据存储设备154。系统103包括客户端114、114a、114b,所述客户端位于服务器112的内部或外部。客户端114、114a、114b可以通过一个或多个计算机网络116与每个服务器112和每个存储设备150通信,这与以上所述的内容实质上相同。
存储设备150包括DAS模块158、NAS模块160、存储通信模块162、服务器内SAN模块164、公用接口模块166、代理模块170、虚拟总线模块172、前端RAID模块174、后端RAID模块176,下面将对其进行说明。虽然所示模块158-176位于存储设备150内,但是模块158-176的全部或一部分也可以位于存储设备150内、服务器112内、存储控制器152内或其他位置。
与服务器内SAN一起使用的服务器112是起服务器作用的计算机。服务器112包括至少一个服务器功能(如文件服务器功能),但也可包括其他服务器功能。服务器112可以是服务器群的一部分,也可以为其他服务器114服务。在其他实施方式中,服务器112可以是个人计算机、工作站或容纳存储设备150的其他计算机。服务器112可以访问服务器112中的一个或多个存储设备150,存储设备150作为直接附属存储(“DAS”)、SAN附属存储或网络附属存储(“NAS”)。属于服务器内SAN或NAS一部分的存储控制器150可以位于服务器112内部或外部。
在一种实施方式中,服务器内SAN装置包括DAS模块158,所述DAS模块158将至少一个数据存储设备154的至少一部分配置为DAS设备,所述数据存储设备154由服务器112中的存储控制器152控制,所述DAS设备连接到服务器112以从至少一个客户端114向服务器112传送存储请求。在一种实施方式中,第一数据存储设备154a配置为第一服务器112a的DAS,还被配置为对于第一服务器112a的服务器内SAN存储设备。另一种实施方式中,分割第一数据存储设备154a,一个分区为DAS,另一个分区为服务器内SAN。另一种实施方式中,第一数据存储设备154a中的存储空间的至少一部分配置为第一服务器112a的DAS,第一数据存储设备154a中的存储空间的所述部分还被配置为第一服务器112a的服务器内SAN。
另一种实施方式中,服务器内SAN装置包括NAS模块160,所述NAS模块160将存储控制器152配置为至少一个客户端114的NAS设备,并且从客户端114传送文件请求。存储控制器152还可配置为用于第一服务器112a的服务器内SAN设备。存储设备150可以不依赖容纳存储设备150的服务器112,通过共享网络接口156直接连接到计算机网络116。
在一个基本形式中,用于服务器内SAN的设备包括第一服务器112a内的第一存储控制器152a,其中第一存储控制器152a控制至少一个存储设备154a。第一服务器112a包括网络接口156,所述网络接口156由第一服务器112a和第一存储控制器152a共享。服务器内SAN装置包括存储通信模块162,所述存储通信模块162便于第一存储控制器152a和第一服务器112a外部的至少一个设备之间的通信,使得第一存储控制器152a与外部设备之间的通信不依赖第一服务器112a。存储通信模块162可允许第一存储控制器152a独立地访问网络接口156a,进行外部通信。在一种实施方式中,存储通信模块162访问网络接口156a中的交换机,在第一存储控制器152a和外部设备之间直接进行网络业务。
服务器内SAN装置还包括服务器内SAN模块164,所述模块利用网络协议和/或总线协议传送存储请求。所述服务器内SAN模块164独立于第一服务器112a地传送存储请求,所述存储请求自内部或外部客户端114、114a接收。
在一种实施方式中,第一服务器112a外部的设备是第二存储控制器152b。第二存储控制器152b控制至少一个数据存储设备154b。内部服务器SAN模块164不依赖第一服务器112a,经由网络接口156a在第一存储控制器152a与第二存储控制器152b之间通信,传送存储请求。第二存储控制器152b可以位于第二服务器112b内或在其他设备内。
另一种实施方式中,第一服务器112a外部的设备是客户端114,存储请求由外部客户端114发起,其中第一存储控制器152a配置为SAN的至少一部分,服务器内SAN模块164不依赖第一服务器112a,通过网络接口156a传送存储请求。外部客户端114可以是第二服务器112b,或者也可以位于第二服务器112b外部。一种实施方式中,即使第一服务器112a不可用,服务器内SAN模块164仍可传送来自外部客户端114的存储请求。
另一种实施方式中,发起存储请求的客户端114a在第一服务器112a内,其中第一存储控制器152a配置成SAN的至少一部分,服务器内SAN模块164通过一个或多个网络接口156a以及系统总线传送存储请求。
传统的SAN构造允许访问远离服务器112的存储设备,仿佛存储设备(如直接附加存储器(“DAS”))位于服务器112中一样,因而存储设备表现为块存储设备。通常如SAN一样连接的存储设备需要SAN协议,例如光纤通路、因特网小型计算机系统接口(“iSCSI”)、HyperSCSI、光纤连通性(“FICON”)、以太网高技术配置(“ATA”)等。服务器内SAN包括服务器112内的存储控制器152,但仍然允许存储控制器152a与远程存储控制器152b或与外部客户端114之间采用网络协议和/或总线协议联网。
通常SAN协议是网络协议的一种形式,更多的网络协议正在出现,例如无限带宽,无限带宽允许存储控制器150a和相关的数据存储设备154a被配置成SAN并与外部客户端114或第二存储控制器152b通信。另一种实施方式中,第一存储控制器152a可以采用以太网与外部客户端114或第二存储控制器152b通信。
存储控制器152可以通过总线与内部存储控制器152或客户端114a通信。例如,存储控制器152可以采用PCI-e经由总线通信,PCI-e可以支持PCI扩展输入/输出虚拟化(“PCIe-IOV”)。其他出现的总线协议允许系统总线向外延伸出计算机或服务器112,并且允许存储控制器152a被配置为SAN。一种这样的总线便是PCIe-AS。本发明不限于简单SAN协议,但可以利用现有网络和总线协议传送存储请求。客户端114或外部存储控制器152b形式的外部设备可以通过延伸的系统总线或计算机网络116通信。这里使用的存储请求包括写入数据、读取数据、擦除数据、查询数据等请求,也可以包括对象数据、元数据请求,以及管理请求和数据块请求。
传统的服务器112通常具有根联合体,所述根联合体用于控制对服务器112内的设备的访问。通常服务器112的所述根联合体具有网络接口156,这样服务器112控制经由网络接口156所有通信。但是,服务器内SAN装置的优选实施方式中,存储控制器152能独立地访问网络接口156,因而客户端114可以直接与(形成SAN的)第一服务器112中的一个或多个存储控制器152a通信;或者一个或多个存储控制器152a可以直接与第二存储控制器152b或其他远程存储控制器152联网以形成SAN。在优选实施方式中,远离第一服务器112a的设备可以通过单一的共享网络地址访问第一服务器112a或第一存储控制器152a。在一种实施方式中,服务器内SAN装置包括配置网络接口156的公用接口模块166、存储控制器152和服务器112,从而可采用共享网络地址访问服务器112和存储控制器152。
另一种实施方式中,服务器112包括两个或多个网络接口156。例如,服务器112可以通过网络接口156通信,而存储设备150可以通过另一接口通信。另一实例中,服务器112包括多个存储设备150,每个存储设备都具有网络接口156。本领域技术人员将认识到具有一个或多个存储设备150和一个或多个网络接口156的服务器112的其他配置,其中一个或多个存储设备150独立于服务器112访问网络接口156。本领域技术人员将认识到如何扩展出多种配置以支持网络冗余和提高可行性。
有利地是,服务器内SAN设备大大减少了传统SAN的复杂度和费用。例如,通常的SAN需要服务器112具有外部存储控制器152和相关的数据存储设备154。这就需要托架上有额外的空间,还需要线缆、交换机等类似设备。配置传统SAN所需的线缆、交换设备和其他开销占用了空间,降低了带宽,提高了成本。服务器内SAN装置使存储控制器152和相关的存储设备154能够适应服务器112的形状,从而减少了所需空间,降低了成本。服务器内SAN还可以经由内部和外部高速数据总线,采用相对较快的通信方式进行连接。
在一种实施方式中,存储设备150是固态存储设备102,存储控制器152是固态存储控制器104,数据存储设备154是固态存储器110。所述实施方式的优点在于上述固态存储设备102速度快。此外,固态存储设备102可以在DIMM中配置,DIMM可以方便地装配到服务器112中并且需要的空间很少。
服务器112中的一个或多个内部客户端114a还可以通过服务器网络接口156连接到计算机网络116,通常由服务器112控制客户端的连接。这样做有几个好处。客户端114可以直接本地访问或远程访问存储设备150,可以初始化本地或远程直接存储器存取(“DMA”“RDMA”)的数据,所述数据在客户端114a的内存与存储设备150之间传输。
在另一种实施方式中,服务器112内部或外部的客户端114、114a可以用作经由一个或多个网络116的客户端114的文件服务器,同时采用本地附属存储设备150(如DAS设备)、网络附属存储设备150、(属于服务器内SAN、外部SAN和混合SAN的一部分的)网络附属固态存储器102设备。存储设备150可以同时隶属于DAS、服务器内SAN、SAN、NAS等或隶属于其任何组合。此外,每个存储设备150可以以下述方式分割,即,第一分区使存储设备150可用作DAS,第二分区使存储设备150可用作服务器内SAN的元件,第三分区使存储设备150可用作NAS,第四分区使存储设备150可用作SAN的元件,等等。同样,存储设备150的分区可以与安全和访问控制需求一致。本领域技术人员应当认识到,可以构造并支持任意数目的下述设备的组合和排列,包括存储设备、虚拟存储设备、存储网络、虚拟存储网络、专用存储器、共享存储器、并行文件系统、并行对象文件系统、块存储设备、对象存储设备、存储装置、网络装置等。
此外,通过直接连接到计算机网络116,存储设备150能相互通信并可用作服务器内SAN。服务器112内的客户端114a和通过计算机网络116连接的客户端114可以访问存储设备150(如SAN)。通过将存储设备150移动到服务器112内并提供将存储设备150配置为SAN的性能,服务器112/存储设备150的组合减少了传统SAN中对专用存储控制器、光纤通道网络和其他设备的需求。服务器内SAN系统103的优点在于,使存储设备150能与客户端114和计算机112共享公用资源,如电源、冷却资源、管理资源和物理空间。例如,存储设备150可以填充服务器112的空槽,提供SAN或NAS的性能、可靠性和实用性。本领域技术人员将认识到服务器内SAN系统103的其他特征和优点。
在另一配置中,在单一服务器112a基础结构中配置多个服务器内SAN存储设备150a。在一种实施方式中,服务器112a包括(利用PCI-扩展IOV互连的)一个或多个内部叶片服务器客户端114a,而没有外部网络接口156、外部客户端114、114b或外部存储设备150b。
此外,服务器内SAN存储设备150可以通过一个或多个计算机网络116与计算机112中的等同存储设备150通信(参见图1A),或者不经由计算机112直接连接到计算机网络116,形成具有SAN和服务器内SAN的全部性能的混合SAN。这种灵活性的优点在于简化多种可能的固态存储网络设施之间的延展性和迁移性。本领域技术人员将认识到定位和互连固态控制器104的其他组合、构造、实现方式和结构。
网络接口156a可以通过服务器112a中运行的仅一个代理控制,所述代理中运行的链接建立模块168建立内部客户端114a与存储设备150a/第一存储控制器152a之间的通信路径,所述通信路径经由与外部存储设备150b和客户端114、114b连通的网络接口156a。优选实施方式中,一旦建立通信路径,单个内部存储设备150a与内部客户端114a之间便能建立和管理其命令队列,将命令和数据通过网络接口156单向、直接地传输给外部存储设备150b和客户端114、114b,并通过RDMA独立于代理服务器或代理地控制网络接口156a。在一种实施方式中,链接建立模块168在初始化过程(如开启或硬件初始化)中建立通信链接。
在另一种实施方式中,代理模块170发送命令的至少一部分,所述命令用于通过第一服务器112a传送存储请求,同时在第一存储控制器和外部存储设备之间独立于第一服务器地传送至少与存储请求相关的数据(可能还有其他命令)。另一种实施方式中,代理模块170代表内部存储设备150a和客户端114a发送命令或数据。
在一种实施方式中,第一服务器112a包括第一服务器112a内的一个或多个服务器,还包括虚拟总线模块172,所述虚拟总线模块172允许第一服务器112a中的一个或多个服务器通过不同的虚拟总线独立地访问一个或多个存储控制器152a。所述虚拟总线模块172可以利用高级总线协议(如PCIe-IOV)建立。支持IOV的网络接口156a可允许一个或多个服务器和一个或多个存储控制器独立地控制一个或多个网络接口156a。
在多种实施方式中,服务器内SAN装置允许两个或多个存储设备150配置到一个RAID中。一种实施方式中,服务器内SAN设备包括前端RAID模块174,所述前端RAID模块174将两个或多个存储控制器152配置为RAID。来自客户端114、114a的存储请求包括数据存储请求时,前端RAID模块174通过将数据写入RAID传送存储请求,所述RAID与具体实施的RAID级别一致。第二存储控制器152可以位于第一服务器112a内或第一服务器112a外。前端RAID模块174允许存储控制器152的RAID进程,使存储控制器152对发送存储请求的客户端114、114a可见。可以由指定为主控制器的存储控制器152或由客户端114、114a管理条带化和奇偶校验信息。
另一种实施方式中,服务器内SAN装置包括后端RAID模块176,所述后端RAID模块176配置存储控制器(如RAID)控制的两个或多个数据存储设备154。客户端的存储请求包括数据存储请求时,后端RAID模块176通过将数据写入(与实施的RAID级别一致的)RAID传送存储请求,由客户端114、114a访问配置为RAID的存储设备154,所述客户端114、114a例如由第一存储控制器152控制的单个数据存储设备154。所述RAID的实施允许存储控制器152控制的数据存储设备154的RAID进程,对于访问数据存储设备154的任意客户端114、114a而言,RAID处理都是透明的。在另一种实施方式中,前端RAID和后端RAID都可以实施以构成多级RAID。本领域技术人员将认识到RAID存储设备152的其他方式,所述存储设备152与这里说明的固态存储控制器104和关联固态存储器110一致。
用于存储控制器管理的对象的装置
图2A是示意性框图,示出了根据本发明的用于存储设备内的对象管理的装置200的一种实施方式。装置200包括存储控制器152,所述存储控制器152具有:对象请求接收器模块260、解析模块262、命令执行模块264、对象索引模块266、对象请求排队模块268、具有消息模块270的封包器302、及对象索引重建模块272,上述模块描述如下。
存储控制器152大体上与图1B中的系统102描述的存储控制器152类似,并且可以是图2描述的固态存储设备控制器202。装置200包括对象请求接收器模块260,所述对象请求接收器模块260接收来自一个或多个请求设备155的对象请求。例如,对于存储对象数据请求,存储控制器152在数据存储设备154中以数据包的形式存储数据段,所述数据存储设备154与存储控制器152相连接。所述对象请求通常由存储在或将要被存储在一个或多个对象数据包中的数据段指令存储控制器管理的对象。对象请求可请求存储控制器152创建对象,所述对象随后会通过可利用本地或远程直接内存读取(“DMA”、“RDMA”)转换的稍后的对象请求来填充数据。
在一种实施方式中,对象请求为将对象的全部或一部分写入先前创建的对象的写入请求。在一个实例中,所述写入请求用于对象的数据段。可将所述对象的其他数据段写入存储设备150或者写入其他存储设备152。在另一个实例中,所述写入请求用于整个对象。在另一个实例中,所述对象请求为从由存储控制器152管理的数据段中读取数据。在又一种实施方式中,所述对象请求为删除请求,以删除数据段或对象。
有利地是,存储控制器152能接受不仅仅写新对象或为已存在的对象添加数据的写入请求。例如,由对象请求接收器模块260接收的写入请求可包括:在由存储控制器152存储的数据前添加数据的请求、在已存储的数据中插入数据的请求或者替换数据的一段的请求。由存储控制器152保持的对象索引提供了这些复杂写操作所需要的灵活性,所述写操作在其他存储控制器内不可用,但是目前仅在服务器和其他计算机文件系统内的存储控制器外可用。
装置200包括解析模块262,所述解析模块262将所述对象请求解析为一条或多条命令。通常,解析模块262将所述对象请求解析为一个或多个缓存。例如,所述对象请求中的一条或多条命令可被解析为命令缓存。通常,解析模块262准备对象请求,以使得所述对象请求中的信息可以被存储控制器152理解并执行。本领域技术人员会认识到将对象请求解析为一条或多条命令的解析模块262的其他功能。
装置200包括命令执行模块264,所述命令执行模块264执行从所述对象请求解析出的命令。在一种实施方式中,命令执行模块264执行一条命令。在另一种实施方式中,命令执行模块264执行多条命令。通常,命令执行模块264解释解析自所述对象请求的命令(如写入命令),然后创建、排列并且执行子命令。例如,解析自对象请求的写入命令可指令存储控制器152存储多个数据段。所述对象请求还可包括必要属性(如加密、压缩等)。命令执行模块264可命令存储控制器152压缩所述数据段、加密所述数据段、创建一个或多个数据包并为每个数据包关联包头、使用媒体加密密钥加密所述数据包、添加错误修正码并将所述数据包存储在指定位置。在指定位置存储所述数据包,并且其他子命令还可被分解为其他更低级别的子命令。本领域技术人员会认识到命令执行模块264能执行一条或多条解析自对象请求的命令的其他方法。
装置200包括对象索引模块266,所述对象索引模块266在对象索引中创建对象项,以响应创建对象或存储所述对象数据段的存储控制器152。通常,存储控制器152从所述数据段中创建数据包,并且在存储所述数据段时,所述数据包存储的位置即被指定。同数据段一起接收的或作为对象请求的一部分接收的对象元数据可采用类似方法存储。
对象索引模块266在存储所述数据包和分配所述数据包的物理地址时创建进入对象索引的对象项。所述对象项包括所述对象的逻辑标识符和一个或多个物理地址之间的映射,所述一个或多个物理地址对应于存储控制器152存储一个或多个数据包和任何对象元数据包的位置。在另一种实施方式中,在存储所述对象的数据包之前在所述对象索引中创建项。例如,如果存储控制器152较早地确定存储所述数据包的物理地址,则对象索引模块266可较早地在所述对象索引中创建项。
通常,当对象请求或对象请求组导致对象或数据段被修改时(可能在读修改写操作期间),所述对象索引模块266更新所述对象索引中的项以符合修改的对象。在一种实施方式中,所述对象索引创建新对象并在所述对象索引为所述修改的对象创建新项。通常,当仅有对象的一部分被修改时,所述对象包括修改过的数据包和一些保持不变的数据包。在这种情况下,所述新项包括到未变的数据包(与最初写入它们的位置相同)的映射和到写入新位置的修改后的对象的映射。
在另一种实施方式中,对象请求接收器模块260接收对象请求,所述对象请求包括擦除数据块或其他对象元的命令,存储控制器152可至少存储一个包(如擦除包,所述擦除包具有对象的引用、与对象的关系和擦除的数据块的大小的信息)。此外,这可进一步表明擦除的对象元素被填充为0。因此,擦除对象请求可用于仿真被擦除的实际的内存或存储器,并且,所述实际的内存或存储器实际上具有合适的内存/存储器的一部分,所述合适的内存/存储器实际上以0存储在所述内存/存储器的单元中。
有利地是,创建具有项(所述项表明了数据段和对象元数据之间的映射)的对象索引允许存储控制器152自主的处理和管理对象。这种能力允许在存储设备150中十分灵活地存储数据。一旦创建了对象的索引项,存储控制器152可有效地处理后继关于所述对象的对象请求。
在一种实施方式中,存储控制器152包括对象请求排队模块,所述对象请求排队模块在解析模块262解析之前将一个或多个由对象请求接收器模块260接收到的对象排队。对象请求排队模块268允许在接收对象请求时和在排队所述对象执行时之间的灵活性。
在另一种实施方式中,存储控制器152包括封包器302,所述封包器302根据一个或多个数据段创建一个或多个数据包,其中,数据包的大小适于存储在数据存储设备154内。在下文中结合图3更详细的描述了封包器302。在一种实施方式中,封包器302包括为每个包创建包头的消息模块270。所述包头包括包标识符和包长度。所述包标识符把所述包与对象(为所述对象生成所述包)联系起来。
在一种实施方式中,由于包标识符包含足够的信息以确定对象和在对象内的包含在包内的对象元素之间的关系,因此每个包包括自包含的包标识符。然而,更有效的优选实施方式是在容器中存储包。
容器是一种数据结构,这种数据结构有助于更有效的存储数据包并帮助建立对象和数据包、元数据包和其他与存储在容器内的对象有关的包之间的关系。注意到存储控制器152通常以处理作为对象的一部分接收的对象元数据的类似方式处理数据段。通常,“包”可指包含数据的数据包、包含元数据的元数据包或其他包类型的其他包。对象可存储在一个或多个容器中,并且容器通常包括仅用于一个唯一的对象的包。对象可分布在多个容器之间。容器通常存储在单个逻辑擦除块内(存储部)并且通常不分散在逻辑擦除块间。
在一个实例中,容器可分散在两个或更多个逻辑/虚拟页间。通过将容器与对象关系起来的容器标签确定容器。容器可包含0个到许多个包并且容器内的这些包通常来自一个对象。包可以有许多对象元素类型(包括对象属性元、对象数据元、对象索引元和类似的元素类型)。可以创建包括不止一个对象元类型的混合包。每个包可包含0个到许多个同一类型的元。容器内的每个包通常都包含标识与对象关系的唯一标识符。
每个包与一个容器相关联。在优选实施方式中,容器被限于擦除块,以使得在每个擦除块的起始部分或在擦除块的起始部分附近能发现容器包。这有助于将数据丢失限制在具有损坏的包头的擦除块范围内。在这种实施方式中,如果对象索引不可用并且擦除块内的包头损坏,由于可能没有可靠地机制确定后继包的位置,从损坏的包头到擦除块尾的内容可能会丢失。在另一种实施方式中,更可靠的方法是采用限于页的边界的容器。这种实施方式需要更多包头开销。在另一种实施方式中,容器可流经页面和擦除块边界。这种方法需要较少的包头开销,但是,如果包头损坏,则有可能会丢失更多部分的数据。对这些实施方式来说,使用一些类型的RAID以进一步保证数据完整性是可以预期的。
在一种实施方式中,装置200包括对象索引重建模块272,所述对象索引重建模块272采用来自存储在数据存储设备154中的包头的信息重建所述对象索引中的项。在一种实施方式中,对象索引重建模块272通过读取包头(以确定每个包所属的对象)和序列信息(以确定数据或元数据在对象中所属的位置)来重建所述对象索引的项。对象索引重建模块272采用每个包的物理地址信息和时间戳或序列信息以创建包的物理地址和对象标识符和数据段序列间的映射。对象索引重建模块272使用时间戳或序列信息以再现索引变更的顺序并通常因此重建最近的状态。
在另一种实施方式中,对象索引重建模块272采用包头信息以及容器包信息放置包以识别包的物理位置、对象标识符和每个包的序列号,从而在所述对象索引中重建项。在一种实施方式中,在写入数据包时,擦除块被戳记上时间,或者赋给擦除块序列号,并且擦除块的时间戳或序列信息和来自容器头和包头的信息一起使用以重建对象索引。在另一种实施方式中,当擦除块恢复时,时间戳或序列信息被写入所述擦除块。
当对象索引存储在易失性存储器中时,如果不能重建所述对象索引,错误、失电、或其他导致存储控制器152未存储所述对象索引而停工的因素可能会成为问题。对象索引重建模块272允许所述对象索引存储在具有易失性存储体优点(如快速存取)的易失性存储体中。对象索引重建模块272允许自主地快速重建所述对象索引,而并不需要依靠位于存储设备150外的设备。
在一种实施方式中,易失性存储体中的所述对象索引周期性地存储在数据存储设备154内。在具体的实例中,所述对象索引或“索引元数据”周期性地存储固态存储器110中。在另一种实施方式中,所述索引元数据存储在固态存储器110n(与固态存储器110a-110n-1存储包分离)中。独立于数据和对象元数据管理所述索引元数据,所述数据和对象元数据传送自请求设备155并且由存储控制器152/固态存储控制器202管理。管理和存储与其他来自对象的数据和元数据分离的索引元数据允许有效的数据流,同时存储控制器152/固态存储设备控制器202并不会不必要地处理对象元数据。
在一种实施方式中,其中,由对象请求接收器模块260接收到的对象请求包括写入请求,存储控制器152通过本地或远程直接存储器存取(“DMA”、“RDMA”)操作接收来自请求设备155的内存的一个或多个对象数据段。在优选实例中,存储控制器152在一次或多次DMA或RDMA操作中从请求设备155的内存中读取数据。在另一实例中,请求设备155在一次或多次DMA或RDMA操作中将所述数据段写入存储控制器152。在另一种实施方式中,其中,所述对象请求包括读请求,存储控制器152在一次或多次DMA或RDMA操作中将对象的一个或多个数据段传送给请求设备155的内存。在优选实例中,存储控制器152在一次或多次DMA或RDMA操作中将数据写入请求设备155的内存。在另一实例中,请求设备在一次或多次DMA或RDMA操作中从存储控制器152中读取数据。在另一实施方式中,存储控制器152在一次或多次DMA或RDMA操作中从请求设备155的内存中读取对象命令请求集。在另一实例中,请求设备155在一次或多次DMA或RDMA操作中将对象命令请求集写入存储控制器152。
在一种实施方式中,存储控制器152仿真块存储,并且在请求设备155和存储控制器152之间通信的对象包括一个或多个数据块。在一种实施方式中,请求设备155包括驱动器,以使得存储设备150表现为块存储设备。例如请求设备152可与请求设备155期望数据存储的物理地址一起发送特定大小的一组数据。存储控制器152接收所述数据块,并将与所述数据块一起传送的物理块地址或者将物理块地址的转化形式作为对象标识符。然后,存储控制器152通过随意地封包所述数据块和存储数据块将所述数据块存储为对象或对象的数据段。然后,对象索引模块266利用基于物理块的对象标识符和存储控制器152存储所述数据包的实际物理位置在所述对象索引中创建项,所述数据包包括来自所述数据块的数据。
在另一种实施方式中,存储控制器152通过接收块对象仿真块存储。块对象可包括块结构中的一个或多个数据块。在一种实施方式中,存储控制器152像处理任意其他对象一样处理所述块对象。在另一种实施方式中,对象可代表整个块设备、块设备的分区或块设备的一些其他逻辑子元件或物理子元件,所述块设备包括磁道、扇区、通道及类似设备。值得特别注意的是将块设备RAID组重映射到支持不同RAID构建(如渐进RAID)的对象。本领域技术人员会认识到将传统的或未来的块设备映射到对象的其他方法。
固态存储设备
图2B是示出了根据本发明的位于固态存储设备102内的固态存储设备控制器202的一种实施方式201的示意性框图,所述固态存储设备控制器202包括写入数据管道106和读取数据管道108。固态存储设备控制器202可包括若干固态存储控制器0-N,104a-n,每个固态存储控制器都控制固态存储器110。在描述的实施方式中,示出了两个固态控制器:固态控制器0 104a和固态控制器N 104n,并且它们中的每一个都控制固态存储器110a-n。在描述的实施方式中,固态存储控制器0 104a控制数据通道,以使得附属固态存储器110a存储数据。固态存储控制器N 104n控制与存储的数据关联的索引元数据通道,以使得关联的固态存储器110n存储索引元数据。在替代的实施方式中,固态存储设备控制器202包括具有单个固态存储器110a的单个固态控制器104a。在另一种实施方式中,存在大量的固态存储控制器104a-n和关联的固态存储器110a-n。在一种实施方式中,一个或多个固态控制器104a-104n-1(与它们的关联固态存储器110a-110n-1连接)控制数据,而至少一个固态存储控制器104n(与其关联固态存储器110n连接)控制索引元数据。
在一种实施方式中,至少一个固态控制器104是现场可编程门阵列(“FPGA”)并且控制器功能被编入FPGA。在特定的实施方式中,FPGA是Xilinx公司的FPGA。在另一种实施方式中,固态存储控制器104包括专门设计为固态存储控制器104的组件(如专用集成电路(“ASIC”)或自定义逻辑解决方案)。每个固态存储控制器104通常包括写入数据管道106和读取数据管道108,结合图3进一步描述了这两个管道。在另一种实施方式中,至少一个固态存储控制器104由FPGA、ASIC和自定义逻辑组件的组合组成。
固态存储器
固态存储器110是非易失性固态存储元件216、218、220的阵列,所述阵列布置在内存库214中并且通过双向存储输入输出(I/O)总线210并行访问。在一种实施方式中,存储I/O总线210能够在任何一个时刻进行单向通信。例如,当将数据写入固态存储器110时,不能从固态存储器110中读取数据。在另一种实施方式中,数据可同时双向地流动。然而,双向(如此处针对数据总线使用的)指在同一时间数据仅在一个方向流动的数据通路,但是,当在双向数据总线上流动的数据被阻止时,数据可在所述双向总线上沿相反方向流动。
固态存储元件(如SSS 0.0 216a)通常被配置为芯片(一个或多个小片的封装)或电路板上的小片。正如所描述的那样,固态存储元件(如216a)独立于或半独立于其他固态存储元件(如218a)运行,即使这些元件被一起封装在芯片包、芯片包的堆栈或一些其他封包元件内。正如所描述的,一列固态存储元件216、218、220被指定为内存库214。正如所描述的,可以有“n”个内存库214a-n并且每个内存库可以有“m”个固态存储元件216a-m,218a-m,220a-m,从而在固态存储器110中成为固态存储元件216、218、220的n*m阵列。在一种实施方式中,固态存储器110a在每个内存库214(有8个内存库214)中包括20个固态存储元件216、218、220,并且,固态存储器110n在每个内存库214中(只有一个内存库214)包括两个固态存储元件216、218。在一种实施方式中,每个固态存储元件216、218、220由单层单元(“SLC”)设备组成。在另一种实施方式中,每个固态存储元件216、218、220由多层单元(“MLC”)设备组成。
在一种实施方式中,用于多个内存库的固态存储元件被封包在一起,所述多个内存库共享公用存储I/O总线210a行(如216b、218b、220b)。在一种实施方式中,固态存储元件216、218、220的每个芯片可具有一个或多个小片,而一个或多个芯片垂直堆叠且每个小片可被独立存取。在另一种实施方式中,固态存储元件(如SSS 0.0 216a)的每个小片可具有一个或多个虚拟小片,每个芯片可具有一个或多个小片,而一个或多个小片中的一些或全部垂直堆叠且每个虚拟小片可被独立存取。
在一种实施方式中,每组有四个堆,每堆有两个小片垂直堆叠,从而形成8个存储元件(如SSS 0.0-SSS 0.8)216a-220a,每个存储元件位于分离的内存库214a-n内。在另一种实施方式中,20个存储元件(如SSS 0.0-SSS 20.0)216形成虚拟内存库214a,因此八个虚拟内存库中的每一个都具有20个存储元件(如SSS0.0-SSS20.8)216、218、220。通过存储I/O总线210将数据发送到固态存储器110,并发送到存储元件(SSS 0.0-SSS 0.8)216a、218a、220a的特定组的所有存储元件。存储控制总线212a用于选择特定的内存库(如内存库-0 214a),从而通过连接到所有内存库214的存储I/O总线210接收到的数据仅被写入选定的内存库214a。
在优选实施方式中,存储I/O总线210由一个或多个独立I/O总线(包括210a.a-m,210n.a-m的“IIOBa-m”)组成,其中,每一行内的固态存储元件共享独立I/O总线中的一条,所述独立I/O总线中的一条平行访问每个固态存储元件216、218、220,从而使得同时访问所有的内存库214。例如,存储I/O总线210的一个通道可同时访问每个内存库214a-n的第一固态存储元件216a、218a、220a。存储I/O总线210的第二通道可同时访问每个内存库214a-n的第二固态存储元件216b、218b、220b。固态存储元件216、218、220的每一行都被同时访问。在一种实施方式中,其中,固态存储元件216、218、220是多层的(物理堆叠的),固态存储元件216、218、220的所有物理层被同时访问。正如此处所使用的,“同时”还包括几乎同时的访问,其中,以略有不同的时间间隔访问设备以避免切换噪声。在这种情况下,同时被用于与连续的或系列的访问相区别,其中,命令和/或数据被单独地并相继地发送。
通常,采用存储控制总线212独立地选择内存库214a-n。在一种实施方式中,采用芯片使能或芯片选择来选择内存库214。当芯片选择和芯片使能均可用时,存储控制总线212可选择多层固态存储元件216、218、220中的一层。在其他实施方式中,存储控制总线212使用其他命令来单独地选择多层固态存储元件216、218、220中的一层。还可通过控制和地址信息的结合来选择固态存储元件216、218、220,所述控制和地址信息在存储I/O总线210和存储控制总线212上传输。
在一种实施方式中,每个固态存储元件216、218、220被分割成擦除块,并且每个擦除块被分割成页。典型的页的容量为2000字节(“2kB”)。在一个实例中,固态存储元件(如SSS 0.0)包括两个寄存器并能编程为两页,从而双寄存器固态存储元件216、218、220具有4kB的容量。20个固态存储元件216、218、220的内存库214就会有80kB的页访问容量,同时同一地址流出存储I/O总线210的通道。
在固态存储元件216、218、220的内存库214中的这一组80kB大小的页可称为虚拟页。类似地,内存库214a的每个存储元件216a-m的擦除块可被分组以形成虚拟块。在优选实施方式中,当在固态存储元件216、218、220中接收到擦除命令时,擦除位于固态存储元件216、218、220内的页擦除块。然而,在固态存储元件216、218、220内的擦除块、页、平面层或其他逻辑和物理部分的大小和数量预计会随着技术的进步而变化,可以预期的是,与新配置一致的许多实施例是可能的并与本文的一般描述相一致。
通常,当将包写入固态存储元件216、218、220内的特定位置时,其中,拟将所述包写入特定页内的位置,所述特定页对应于特定内存库的特定元件的特定擦除块的页,在发送所述包之后通过存储I/O总线210发送物理地址。所述物理地址包含足够的信息,以使得固态存储元件216、218、220将所述包导入页内的指定位置。由于存储元件行(如SSS 0.0-SSS 0.N 216a、218a、220a)上的存储元件通过存储I/O总线210a.a内的合适总线同时被访问,为了到达合适的页并将所述数据包写入在存储元件行(SSS 0.0-SSS 0.N 216a、218a、220a)中具有相似地址的页,存储控制总线212同时选择内存库214a(包括具有要将所述数据包写入其内的正确页的固态存储元件SSS 0.0216a)。
类似地,在存储I/O总线210上传输的读命令需要同时在存储控制总线212上传输的命令,以选择单个的内存库214a和内存库214内的合适页。在优选实施方式中,读命令读取整个页,并且由于在内存库214内存在许多并行的固态存储元件216、218、220,读命令读取整个虚拟页。然而,所述读命令可分割为子命令,这将在下文中结合内存库交错进行解释。还可以在写操作中访问虚拟页。
可通过存储I/O总线210发出的擦除块擦除命令以擦除擦除块,所述擦除块具有特定的擦除块地址以擦除特定的擦除块。通常,可通过存储I/O总线210的并行通路发送擦除块擦除命令以擦除虚拟擦除块,每个虚拟擦除块具有特定的擦除块地址以擦除特定的擦除块。同时,通过存储控制总线212选择特定的内存库(如内存库-0214a)以防止擦除所有的内存库(内存库1-N 214b-n)中的具有类似地址的擦除块。还可采用存储I/O总线210和存储控制总线212的结合将其他命令发送到特定位置。本领域技术人员会认识到采用双向存储I/O总线210和存储控制总线212选择特定存储位置的其他方法。
在一种实施方式中,将包顺序地写入固态存储器110。例如,包流到存储元件216的内存库214a的存储写入缓冲器,并且当所述缓冲器饱和时,所述包被编程入指定的虚拟页。然后所述包再次填充所述存储写入缓冲器,并且当所述存储缓冲器再次饱和时,所述包被写入下一虚拟页。这个过程(一个虚拟页接一个虚拟页)通常一直持续到虚拟块被填满时。在另一种实施方式中,当这个过程(一个虚拟擦除块接一个虚拟擦除块)持续时,数据流可继续越过虚拟擦除块边界。
在读、修改、写操作中,在读操作中定位并读取与所述对象关联的数据包。已被修改的修改对象的数据段并不写入读取它们的位置。取而代之,修改的数据段再次被转化为数据包并随后被写入正在被写入的虚拟页中的下一个可用位置。各个数据包的所述对象索引项被修改为指向包含已修改的数据段的包。所述对象索引中用于与同一对象(未被修改)关联的数据包的项(或多个项)会包括指向未被修改的数据包的源位置的指针。因此,如果源对象保持不变(例如保持所述对象的先前版本不变),所述源对象将在所述对象索引中具有指向所有与最初写入的一样的数据包的指针。新对象将在所述对象索引中具有指向一些源数据包的指针和指向正在被写入的虚拟页中的修改的数据包的指针。
在复制操作中,所述对象索引包括用于源对象的项,所述源对象映射到若干存储在固态存储器110中的包。当复制完拷贝时,创建了新对象并在所述对象索引中创建将所述新对象映射到源包的新项。还将所述新对象写入固态存储器110,且所述新对象的地址映射到所述对象索引中的新项。新对象包可用于确定在源对象中的包,所述包被引用以防在未复制的源对象中发生改变并以防对象索引丢失或损坏。
有利地是,顺序地写入包有助于更平滑地使用固态存储器110并允许固态存储设备控制器202监测固态存储器110内的存储热点和不同虚拟页的层使用状况。相继地写入包还可有助于建立强大、高效的垃圾收集系统,这将在下文中详细描述。本领域技术人员会认识到顺序地存储数据包的其他好处。
固态存储设备控制器
在不同的实施方式中,固态存储设备控制器202还可包括数据总线204、局部总线206、缓冲控制器208、缓冲器0-N 222a-n,主控制器224、直接存储器存取(“DMA”)控制器226、存储器控制器228、动态存储器阵列230、静态随机存储器阵列232、管理控制器234、管理总线236、连接系统总线240的网桥238和杂项逻辑块242,这些将在下文中描述。在其他实施方式中,系统总线240与一个或多个网络接口卡(“NIC”)244相连接,这些网络接口卡中的一些可包括远程DMA(“RDMA”)控制器246、一个或多个中央处理器(“CPU”)248、一个或多个外部存储器控制器250和关联的外部存储器阵列252、一个或多个存储控制器254、对等控制器256和专用处理器258,这将在下文描述。连接到系统总线240的组件244-258可位于计算内112内或者可以为其他设备。
通常,固态存储控制器104通过存储I/O总线210与固态存储器110进行数据通信。在典型的实施方式中,固态存储器布置在内存库214内,且每个内存库214包括多个并行访问的存储元件216、218、220,存储I/O总线210是多条总线的阵列,每一条总线用于内存库214内的存储元件216、218、220的每一行。正如此处所使用的,术语“存储I/O总线”可指一条存储I/O总线210或多条独立的数据总线204的阵列。在优选实施方式中,访问存储元件的行(如216、218a、220a)的每条存储I/O总线210可包括在存储元件216、218a、220a的行中访问的存储部(如擦除块)的逻辑-物理映射。如果第一存储部失效、部分失效、不可访问或出现一些其他问题时,这种映射允许映射到存储部的物理地址的逻辑地址重映射到不同的存储部。相对于图3中重映射模块314进一步解释了重映射。
还可通过系统总线240、网桥238、局部总线206、缓冲器22并最终通过数据总线204将数据从请求设备155传送到固态存储控制器104。数据总线204通常连接到一个或多个由缓冲控制器208控制的缓冲器222a-n。缓冲控制器208通常控制数据从局部总线206传递到缓冲器222并通过数据总线204传递到管道输入缓冲器306和输出缓冲器330。为了解决时钟域差异、防止数据冲突等等,缓冲控制器208通常控制在缓冲器222中暂时存储来自请求设备的数据的方式,并控制此后传送给数据总线204(或相反)的方式。缓冲控制器208通常与主控制器224结合使用以协调数据流。当数据到达时,所述数据会到达系统总线240并通过网桥238传递给局部总线206.
通常,数据在主控制器224和缓冲控制器208的控制下从局部总线206传递给一个或多个数据缓冲器222。然后,所述数据通过固态控制器104从缓冲器222流向数据总线204并到达固态存储器110(如NAND闪存或其他存储媒体)。在优选实施方式中,数据与与所述数据一起到达的关联的带外元数据(“对象元数据”)采用一个或多个的数据通道被送达,所述数据通道包括一个或多个固态存储控制器104a-104n-1和关联的固态存储器110a-110n-1,而至少一个通道(固态存储控制器104n、固态存储器110n)用于带内元数据(如索引信息和其他固态存储设备102内部生成的元数据)。
局部总线206通常为双向总线或总线组,所述双向总线或总线组允许数据和命令在固态存储设备控制器202内部的设备间通信,也允许命令和数据在固态存储设备102内部的设备和与系统总线240连接的设备244-258之间通信。网桥238有助于在局部总线206和系统总线240之间的通信。本领域技术人员会认识到其他实施方式,如总线240、206、204和网桥238的环结构或交换式星形配置和功能。
系统总线240通常是计算机、安装有或连接有固态存储设备102的其他设备的总线。在一种实施方式中,系统总线240可以为PCI-e总线、串行高级技术附件(“串行ATA”)总线、并行ATA或类似总线。在另一种实施方式中,系统总线240为外部总线,例如小型计算机系统接口(“SCSI”)、防火墙、光纤通道、USB、PCIe-As或类似总线。固态存储设备102可被封装为适于置于设备内部或被封装为外部连接设备。
固态存储设备控制器202包括在固态存储设备102内控制较高级别功能的主控制器224。在不同的实施方式中,主控制器224通过解释对象请求和其他请求来控制数据流,指导创建索引,所述索引将与数据关联的对象标识符映射到关联的数据(或协调的DMA请求等)的物理地址。主控制器224完全地或部分地控制此处描述的许多功能。
在一种实施方式中,主控制器224采用嵌入式控制器。在另一种实施方式中,主控制器224采用局部存储器,如动态存储器阵列230(动态随机存取存储器“DRAM”)、静态存储器阵列323(静态随机存取存储器“SRAM”)等。在一种实施方式中,采用主控制器224控制局部存储器。在另一实施方式中,主控制器通过存储器控制器228访问局部存储器。在另一种实施方式中,所述主控制器运行Linux服务器并可支持各种常用服务器接口,如万维网、超文本标记语言(“HTML”)等。在另一种实施方式中,主控制器224采用纳米处理器。可采用可编程或标准逻辑或上述控制器类型的任意组合来构建主控制器224。本领域技术人员会认识到主控制器的许多实施方式。
在一种实施方式中,其中,存储设备152/固态存储设备控制器202管理多个数据存储设备/固态存储器110a-n,主控制器224在内部控制器(如固态存储控制器104a-n)之间分配工作负载。例如,主控制器224可分割将要被写入数据存储设备(如固态存储器110a-n)中的对象,使得每个附属的数据存储设备存储所述对象的一部分。这种特征是允许更快地存储和访问对象的性能增强。在一种实施方式中,主控制器224利用FPGA实施。在另一种实施方式中,位于主控制器224内的固件可通过管理总线236、通过网络连接到NIC244的系统总线240或其他连接到系统总线240的设备更新。
在一种实施方式中,管理对象的主控制器224仿真块存储,从而使得计算机102或其他连接到存储设备152/固态存储设备102的设备将存储设备152/固态存储设备102视为块存储设备并将数据发送给存储设备152/固态存储设备120中的特定物理地址。然后,主控制器224分配块并像存储对象一样存储数据块。然后,主控制器224将块和与块一起发送的物理地址映射到由主控制器224确定的实际位置。映射存储在对象索引中。通常,对于块仿真来说,在计算机112、客户端114或其他希望将存储设备152/固态存储设备102当成块存储设备来使用的设备中提供有块设备应用程序接口(“API”)。
在另一种实施方式中,主控制器224与NIC控制器244和嵌入式RDMA控制器246协同运行以提供准时的RDMA数据和命令集传输。NIC控制器244可隐藏在非透明端口后以使得能够使用自定义的驱动器。同样地,客户端114上的驱动器可通过采用标准栈API的并与NIC244结合运行的I/O存储驱动器访问计算机网络118。
在一种实施方式中,主控制器224也是独立驱动器冗余阵列(“RAID”)控制器。当数据存储设备/固态存储设备120与一个或多个其他数据存储设备/固态存储设备120联网时,主控制器224可以是用于单层RAID、多层RAID、渐进RAID等的RAID控制器。主控制器224还允许一些对象存储在RAID阵列内而其他对象不通过RAID存储。在另一种实施方式中,主控制器224可以是分布式RAID控制器元件。在另一种实施方式中,主控制器224可包括许多RAID、分布式RAID和另行描述的其他功能。
在一种实施方式中,主控制器224与单个或多个网络管理器(如交换机)协同运行以建立路由、平衡带宽使用率、故障转移等。在另一种实施方式中,主控制器224与集成专用逻辑器件(通过局部总线206)和关联的驱动器软件协同运行。在另一种实施方式中,主控制器224与附属专用处理器258或逻辑器件(通过外部系统总线240)和关联的驱动器软件协同运行。在另一种实施方式中,主控制器224与远程专用逻辑器件(通过计算机网络118)和关联的驱动器软件协同运行。在另一种实施方式中,主控制器224与局部总线206或附属于硬盘驱动器(“HDD”)存储控制器的外部总线协同运行。
在一种实施方式中,主控制器224与一个或多个存储控制器254通信,其中存储设备/固态存储设备120可表现为通过SCSI总线、因特网SCSI(“iSCSI”)、光纤通道等连接的存储设备。同时,存储设备/固态存储设备120可自主地管理对象并可表现为对象文件系统或分布式对象文件系统。还可通过对等控制器256和/或专用处理器258访问主控制器224。
在另一种实施方式中,主控制器224与自主集成管理控制器协同运行以周期性地验证FPGA码和/或控制器软件、在运行(复位)时验证FPGA码和/或在通电(复位)期间验证控制器软件、支持外部复位请求、支持由于检查包而超时的复位请求,并支持电压、电流、功率、温度及其他环境测量和阈值中断设置。在另一种实施方式中,主控制器224管理垃圾收集以释放擦除块用于再次使用。在另一种实施方式中,主控制器224管理耗损均衡。在另一种实施方式中,主控制器224允许数据存储设备/固态存储设备102被分割成多个虚拟设备并允许基于分区的媒体加密。在又一种实施方式中,主控制器224支持具有高级的、多位的ECC修正的固态存储控制器104。本领域技术人员会认识到位于存储控制器152内(或更具体地说位于固态存储设备102内)的主控制器224的其他特征和功能。
在一种实施方式中,固态存储设备控制器202包括存储器控制器228,所述存储器控制器228控制动态随机存储器阵列230和/或静态随机存储器阵列232。如上所述,存储器控制器228可独立于主控制器224使用或与主控制器224集成使用。存储器控制器228通常控制验证一些存储器类型,如DRAM(动态随机存储器阵列230)和SRAM(静态随机存储器阵列232)。在其他实例中,存储器控制器228还控制其他存储器类型,如电可擦可编程序只读存储器(“EEPROM”)等。在其他实施方式中,存储器控制器228控制两种或更多种存储器类型且存储器控制器228可包括不止一个控制器。通常,存储器控制器228在可行情况下控制尽可能多的SRAM232,并且通过DRAM230补足SRAM232。
在一种实施方式中,所述对象索引存储在存储器230、232中并周期性的被卸载到固态存储器110n或其他非易失性存储器的通道内。本领域技术人员会认识到存储器控制器228、动态存储器阵列230、静态存储器阵列232的其他运用和配置。
在一种实施方式中,固态存储设备控制器202包括DMA控制器226,所述DMA控制器226控制在下列设备之间的DMA操作:存储设备/固态存储设备102、一个或多个外部存储器控制器250、关联的外部存储器阵列252和CPU248。应所述注意到,外部存储器控制器250和外部存储器阵列252之所以被称为外部是因为它们位于存储设备/固态存储设备102的外部。此外,DMA控制器226还可通过NIC244和关联的RDMA控制器246控制请求设备的RDMA操作。DMA和RDMA在下文中有详细说明。
在一种实施方式中,固态存储设备控制器202包括连接到管理总线236的管理控制器234。通常管理控制器234管理存储设备/固态存储设备102的环境指标和状态。管理控制器234可通过管理总线236监测设备温度、风扇转速、电力供应设置等。管理控制器可支持电可擦可编程序只读存储器(“EEPROM”)以存储FPGA码和控制器软件。通常,管理总线236连接到存储设备/固态存储设备102内的不同组件。管理控制器234可通过局部总线206进行警报、中断等的通信或可包括单独的到系统总线240或其他总线的连接。在一种实施方式中,管理总线236为内部集成电路(“I2C”)总线。本领域技术人员会认识到通过管理总线236连接到存储设备/固态存储设备102的组件的管理控制器234的其他功能和运用。
在一种实施方式中,固态存储设备控制器202包括杂项逻辑块242,所述杂项逻辑块242可被定制为专用。通常,当固态设备控制器202或主控制器224被配置为使用FPGA或其他可配置控制器时,可基于特定应用、用户需求、存储需求等而包括定制逻辑。
数据管道
图3是示出了根据本发明的位于固态存储设备102内的固态存储设备控制器104的一种实施方式300的示意性框图,所述固态存储设备控制器具有写入数据管道106和读取数据管道108。实施方式300包括数据总线204、局部总线206和缓冲控制器208,这些设备大体上类似于相对于图2中固态存储设备控制器202描述的设备。所述写入数据管道包括封包器302和纠错码(“ECC”)发生器304。在其他实施方式中,所述写入数据管道包括输入缓冲器306、写入同步缓冲器308、写入程序模块310、压缩模块312、加密模块314、垃圾收集器旁路316(部分位于所述读取数据管道内)、媒体加密模块318和写入缓冲器320。读取数据管道108包括读同步缓冲器328、ECC纠错模块322、解包器324对齐模块326和输出缓冲器330。在另一种实施方式中,读取数据管道108可包括媒体解密模块332、垃圾收集器旁路316的一部分、解密模块334、解压缩模块336和读取程序模块338。固态存储控制器104还可包括控制与状态寄存器340和控制队列342、内存库交错控制器344、同步缓冲器346、存储总线控制器348及多路转换器(“MUX”)350。固态控制器104的组件和关联的写入数据管道106和读取数据管道108描述如下。在其他实施方式中,可采用同步固态存储器110并且可不使用同步缓冲器308、328。
写入数据管道
写入数据管道106包括封包器302,所述封包器直接地或间接地通过另一写入数据管道106的级接收将要被写入固态存储器的数据或元数据段,并创建一个或多个大小适于固态存储器110的包。所述数据或元数据段通常是对象的一部分,但也可包括整个对象。在另一种实施方式中,所述数据段是数据块的一部分,但也可包括整个数据块。通常,对象接收自计算机112、客户端114或其他计算机或设备并被以流向固态存储设备102或计算机112的数据段的形式传送给固态存储设备102。数据段也可被称为另一名称(如数据包裹),本文所提及的数据段包括对象或数据块的全部或一部分。
每个对象被存为一个或多个包。每个对象可具有一个或多个容器包。每个包包含包头。所述包头可包括包头类型字段。类型字段可包括数据、对象属性、元数据、数据段定界符(多包)、对象结构、对象连接及类似物。所述包头还可包括关于包的大小的信息(如包内的数据的字节数)。所述包的长度可由包类型确实。一个实例可能是利用数据包包头的偏移值来确定对象内数据段的位置。本领域技术人员会认识到其他包含在由封包器302添加到数据上的包头内的信息和其他添加到数据包的信息。
每个包包括包头,还可能包括来自所述数据和元数据段的数据。每个包的包头包括用于将包与包所属对象联系起来的相关信息。例如,所述包头可包括对象标识符和偏移值,所述偏移值表明了用于数据包形成的数据段、对象或数据块。所述包头还可包括存储总线控制器348用以存储包的逻辑地址。所述包头还可包括关于包的大小的信息(如包内字节数)。所述包头还可包括序列号,当生建数据段或对象时,所述序列号识别数据段相对于对象内的其他包所属的位置。所述包头可包括包头类型字段。类型字段可包括数据、对象属性、元数据、数据段定界符(多包)、对象结构、对象连接及类似物。本领域技术人员会认识到其他包含在由封包器302加到数据上的包头内的信息和其他添加到数据包的信息。
写入数据管道106包括ECC发生器304,所述ECC发生器为一个或多个接收自封包器302的包生成一个或多个纠错码(“ECC”)。ECC发生器304通常采用纠错算法生成ECC,所述ECC与包一起存储。与包一起存储的ECC通常用于探测和纠正由于传送和存储而引起的错误。在一种实施方式中,包作为长度为N的未编码块流入ECC发生器304。计算并添加长度为S的并发位,并作为长度为N+S的编码块输出。N和S的值依赖于算法的特点,所述算法被选择用于实现特定的性能、效率和鲁棒性指标。在优选实施方式中,在ECC块和包之间并没有固定关系;包可包括不止一个ECC块;ECC块可包括不止一个包;且第一包可在ECC块内的任何位置终止而第二包可始于同一ECC块内的第一包终止的位置。在优选实施方式中,ECC算法不能被动态修改。在优选实施方式中,与数据包一起存储的ECC足够稳健以在两个以上的位内纠正错误。
有利地是,采用允许不止一位的修正或甚至是两位修正的稳健ECC算法允许延长固态存储器110的使用寿命。例如,如果固态存储器110内使用闪存作为存储媒体,闪存在每个擦除周期内可被写入大约100000次不出现错误。这种使用期限可通过稳健ECC算法延长。固态存储设备102板载有ECC发生器304和相应的ECC纠错模块322,固态存储设备102可在其内部纠正错误并具有比采用不甚稳健的ECC算法(如单位错误修正)更长的使用寿命。然而,在其他实施方式中,ECC发生器304可采用不甚稳健的算法并可修正单位或双位错误。在另一种实施方式中,固态存储设备110可包括不甚可靠的存储器以增加容量,所述不甚可靠的存储器例如多级单元(“MLC”)闪存,所述不甚可靠的存储器在没有稳健ECC算法的情况下可以不充分可靠。
在一种实施方式中,写入数据管道包括输入缓冲器306,所述输入缓冲器接收将要被写入固态存储器110的数据段并存储输入的数据段直到写入数据管道106的下一级,例如封包器302(或其他更复杂写入数据管道106的其他级)准备处理下一个数据段。通过使用适当容量的数据缓冲器,输入缓冲器306通常允许写入数据管道106接收和处理数据段之间存在速率差异。输入缓冲器306还允许数据总线204将数据传送给写入数据管道106的速率大于写入数据管道106能支持的速率,从而改进数据总线204运行的效率。通常,当写入数据管道106不包括输入缓冲器306时,缓冲功能在别处(如固态存储设备102)实现,但所述别处位于写入数据管道106外、位于计算机内,例如当使用远程直接存储器读取(“RMDA”)时,如在网络接口卡(“NIC”)内或其他设备上。
在另一种实施方式中,写入数据管道106还包括写入同步缓冲器308,所述写入同步缓冲器308在将包写入固态存储器110之前缓冲接收自ECC发生器304的包。写入同步缓冲器308位于本地时钟域和固态存储时钟域之间的边界上,并且提供缓冲以解决时钟域差异。在其他实施方式中,可采用同步固态存储器110而移除同步缓冲器308、328。
在一种实施方式中,写入数据管道106还包括媒体加密模块318,所述媒体加密模块318直接地或间接地从封包器302接收一个或多个包,并在将包发送给ECC发生器304之前利用对固态存储设备102唯一的加密密钥加密所述一个或多个包。通常,整个包(包括包头)都被加密。在另一种实施方式中,并不加密包头。在本文中,在一种实施方式中,加密密钥被理解为意味着在一种实施方式中,在外部管理的秘密加密密钥,这种密钥将固态存储器110和在需要加密保护的设备集成在一起。媒体加密模块318和相应的媒体解密模块332为存储在固态存储器110中数据提供安全等级。例如,当数据利用媒体加密模块加密时,如果固态存储器110连接到不同的固态存储控制器104、固态存储设备102或计算机112,通常,在不使用同一加密密钥(在将数据写入固态存储器110期间使用)时,如果不经过合理的努力,则不能读取固态存储器110的内容。
在典型的实施方式中,固态存储设备102不将所述加密密钥存储在非易失性存储器中并且不允许从外部访问所述加密密钥。在初始化期间为固态存储控制器104提供加密密钥。固态存储设备102可使用并存储非秘密性加密临时值,所述非秘密性加密临时值与加密密钥结合使用。不同的临时值可与每个包一起存储。为了加强保护,加密算法可利用唯一临时值在多个包之间分割数据段。所述加密密钥可接收自客户端114、计算机112、密钥管理器或其他管理固态存储控制器104使用的加密密钥的设备。在另一种实施方式中,固态存储器110可具有两个或更多个分区,并且固态存储控制器104显得就像有两个或更多个固态存储控制器104,每一个固态存储控制器104在固态存储器110内的单个分区上运行。在这种实施方式中,唯一的媒体加密密钥可与每个分区一起使用。
在另一种实施方式中,写入数据管道106还包括加密模块314,所述加密模块314在将数据段发送给封包器302之前直接地或间接地加密接收自输入缓冲器306的数据或元数据段,利用与数据段一同接收的加密密钥来加密数据段。加密模块314与媒体加密模块318不同,这是由于:加密模块318用以加密数据的加密密钥对存储在固态存储设备102内的数据来说不是共同的并在对象基础上可能不同,并且加密密钥可不与数据段一起接收(如下所述)。例如,加密模块318用以加密数据段的加密密钥可与数据段一起被接收或可作为将对象写入数据段所属位置的命令的一部分被接收。固态存储设备102可在每个与加密密钥结合使用的对象包中使用并存储非秘密性加密临时值。不同的临时值可与每个包一起存储。为了通过加密算法加强保护,可利用唯一临时值在多个包之间分割数据段。在一种实施方式中,媒体加密模块318使用的临时值与加密模块314使用的临时值相同。
加密密钥可接收自客户端114、计算机112、密钥管理器或其他保存用于加密数据段的加密密钥的设备。在一种实施方式中,加密密钥被从固态存储设备102、计算机112、客户端114或其他外部代理中的一个传送到固态存储控制器104,所述外部代理能够执行工业标准方法以安全地传送并保护私有密钥和公共密钥。
在一种实施方式中,加密模块318利用与第一包一起接收的第一加密密钥加密第一包,并利用与第二包一起接收的第二加密密钥加密第二包。在另一种实施方式中,加密模块318利用与第一包一起接收的第一加密密钥加密第一包,而将第二数据包传递给下一级(未经加密)。有利地是,包括在固态存储设备102的写入数据管道106内的加密模块318允许对象接对象或段接段的数据加密,而不需要单独的文件系统或其他外部系统来追踪不同的用于存储相应对象或数据段的加密密钥。每个请求设备155或相关密钥管理器独立地管理加密密钥,所述加密密钥仅用于加密请求设备155发送的对象或数据段。
在另一种实施方式中,写入数据管道106包括压缩模块312,所述压缩模块312在将数据段发送给封包器302之前为元数据段压缩数据。压缩模块312通常利用本领域技术人员熟知的压缩程序来压缩数据或元数据段以减少段占用的的存储空间大小。例如,如果数据段包括一串512个0位,压缩模块312可用表明512个0位的编码来替换这512个0位,其中,所述编码所占的空间比512个0位所占的空间要小得多。
在一种实施方式中,压缩模块312利用第一压缩程序压缩第一段,而输送第二段(未经压缩)。在另一种实施方式中,压缩模块312利用第一压缩程序压缩第一段并利用第二压缩程序压缩第二段。在固态存储设备102内具有这种灵活性是有利的,以便客户端或其他将数据写入固态存储设备102内的设备中每一个都可指定压缩程序或以便一个设备指定压缩程序而另一个设备指定无压缩。还可根据每个对象类型或对象类基础的默认设置来选择压缩程序。例如,特定对象的第一对象可以能够废除默认压缩程序设置,同一对象类和对象类型的第二对象可采用默认压缩程序,而同一对象类和对象类型的第三对象可不压缩。
在一种实施方式中,写入数据管道106包括垃圾收集器旁路316,所述垃圾收集器旁路316接收来自读取数据管道的108(在垃圾收集系统中作为数据旁路的一部分)的数据段。垃圾收集系统通常标记不再有效的包,不再有效的原因通常是由于包被标记为删除或包已被修改且修改过的数据存储在不同的位置。在某一时刻,垃圾收集系统确定存储器的某个区域可被恢复。之所以确定某个区域可被恢复可能是由于:缺乏可用的存储空间、标记为无效的的数据百分比达到阈值、有效数据的合并、存储器的所述区域错误检出率达到阈值或基于数据分布提高性能等。垃圾收集算法可考虑大量的因素以确定何时存储器的区域将要被恢复。
一旦存储器的区域被标记为恢复,所述区域内的有效包通常必须被重新存放。垃圾收集器旁路316允许将包读入读取数据管道108,并允许然后将包直接传送给写入数据管道106而不会将包路由出固态存储控制器104。在优选实施方式中,垃圾收集器旁路316是运行在固态存储设备102内的自主垃圾收集系统的一部分。这允许固态存储设备102管理数据,从而数据系统地传播到整个固态存储器110以提升性能、数据可靠性并避免过度使用和不充分使用固态存储器110的任何一个位置或区域,并且延长了固态存储器110的使用寿命。
垃圾收集器旁路316协调将数据段插入写入数据管道106而其他数据段由客户端116或其他设备写入。在描送的实施方式中,垃圾收集器旁路316位于写入数据管道106内的封包器302之前、读取数据管道内的解包器314之后,但也可位于写入和读取数据管道106、118内的其他位置。可在清洗写入数据管道106期间使用垃圾收集器旁路316,以填充虚拟页的剩余部分,从而提升固态存储器110内的存储效率并因此减少垃圾收集的频率。
在一种实施方式中,写入数据管道106包括写入缓冲器320,所述写入缓冲器320为了高效的写操作而缓冲数据。通常,写入缓冲器320包括用于包的足够容量,以填充固态存储器110内的至少一个虚拟页。这允许写操作将数据的整个页没有中断地发送给固态存储器110。通过选择写入数据管道106的写入缓冲器320的容量并将读取数据管道108内的缓冲器的容量选为同样大小容量或比固态存储器110内存储写入缓冲器的容量大,由于单个写入命令可被设计为将数据的整个虚拟页发送给固态存储器110,从而以单条命令替代多条命令,写入和读取数据的效率更高。
当填充写入缓冲器320时,固态存储器110可用于其他读操作。这是有利的,原因是:当将数据写入存储写入缓冲器时和注入数据缓冲器的数据失速时,具有更小容量的写入缓冲器的或不具有写入缓冲器的其他固态设备可绑定固态存储器。读操作会被拦截直到整个存储写入缓冲器被填充或被编程。用于不具写入缓冲器或具有小容量的写入缓冲器的系统的另一种方法是清洗未满的存储写入缓冲器以使得能进行读操作。同样地,由于需要多写入/编程周期来填充页,因此这种方法的效率低下。
对于描述的具有容量比虚拟页容量大的写入缓冲器320的实施方式,单个的写入命令(包括大量子命令)的后续命令可以是单个程序命令,以将来自每个固态存储元件216、218、220中的存储写入缓冲器的数据页传递给每个固态存储元件216、218、220中的指定页。这种技术带来的好处是:减少了部分页编程,众所周知,这降低了数据的可靠性和稳定性并在当缓冲器填充时,为读命令和其他命令释放了目标内存库。
在一种实施方式中,写入缓冲器320为交替缓冲器,其中,所述交替缓冲器的一侧被填充,然后当所述交替缓冲器的另一侧被填充时,所述交替缓冲器的一侧被指定为在适当的时间传送数据。在另一种实施方式中,写入缓冲器320包括先进先出(“FIFO”)寄存器,所述FIFO寄存器的容量比数据段虚拟页的容量大。本领域技术人员会认识到允许在将数据写入固态存储器110之前存储数据虚拟页的其他写入缓冲器320配置。
在另一种实施方式中,写入缓冲器320的容量比虚拟页小,从而少于一页的信息可被写入固态存储器110内的存储写入缓冲器。在这种实施方式中,为了防止写入数据管道106的失速阻止读操作,采用需要从一个位置移动到另一个位置的垃圾收集系统将数据排队,这个过程是垃圾收集进程的一部分。为了防止写入数据管道106中的数据失速,可通过垃圾收集器旁路316将所述数据供应给写入缓冲器320并然后将所述数据供应给固态存储器110中的存储写入缓冲器,从而在编程所述数据之前填充虚拟页的页面。这样,写入数据管道106中的数据失速不会使读取自固态存储设备102的数据失速。
在另一种实施方式中,写入数据管道106包括写入程序模块310,所述写入程序模块310具有写入数据管道106内的一个或多个用户可定义的功能。写入程序模块310允许用户自定义写入数据管道106。用户可基于特定数据请求或应用自定义写入数据管道106。当固态存储控制器104为FPGA时,用户可相对轻松地编程具有自定义命令和功能的写入数据管道106。用户还可利用写入程序模块310以使ASIC包括自定义功能,然而自定义ASIC可能比使用FPGA时更困难。写入程序模块310可包括缓冲器和旁路机制,以允许第一数据段在写入程序模块310中执行,而第二数据段通过写入数据管道106可继续传送。在另一种实施方式中,写入程序模块310可包括能通过软件编程的处理器内核。
应注意,写入程序模块310被示为位于输入缓冲器306和压缩模块312之间,然而写入程序模块310可位于写入数据管道106内的任何位置,并且可分布在不同的级302-320之间。此外,在不同的、已编程的且独立运行的级302-320之间可分布有多个写入程序模块310。此外,级302-320的顺序可以改变。本领域技术人员会认识到基于特定用户需求的级302-320的顺序的可行改变。
读取数据管道
读取数据管道108包括ECC纠错模块322,所述ECC纠错模块322通过使用与请求包中的每个ECC块一起存储的ECC来确定接收自固态存储器110的请求包的ECC块中是否存在错误。然后,如果存在任何错误并且所述错误可使用ECC修正,则ECC纠错模块322修正请求包中的任何错误。例如,如果ECC能够探测6位的错误但只能修正3位的错误,那么ECC纠错模块322修正具有3位错误的请求包ECC块。ECC纠错模块322通过把出错的位改变为正确的1或0状态来修正出错的位,从而请求数据包与其被写入固态存储器110并且为包生成ECC时一致。
如果ECC纠错模块322确定请求包包含了比ECC能修正的位数多的出错位,则ECC纠错模块322不能修正请求包毁坏的ECC块的错误并发送中断。在一种实施方式中,ECC纠错模块322发送中断以及指示请求包出错的消息。所述消息可包括指出ECC纠错模块322不能修正错误或ECC纠错模块322没有能力修正错误的信息。在另一种实施方式中,ECC纠错模块322与所述中断和/或消息一起发送请求包中毁坏的ECC块。
在优选实施方式中,由主控制器224读取、修正无法被ECC纠错模块322修正的请求包中毁坏的ECC块或毁坏的ECC块的一部分,并将其返回ECC纠错模块322,由读取数据管道108进行进一步处理。在一种实施方式中,请求包中毁坏的ECC块或毁坏的ECC块的一部分被发送给请求数据的设备。请求设备155可修正所述ECC块或用另一拷贝替换数据(如备份或镜像拷贝),然后可使用请求数据包的替换的数据或将所述替换的数据返回给读取数据管道108。请求设备155可使用出错请求包中的包头信息以识别替换毁坏请求包或替换包所属的对象所需的数据。在另一种优选实施方式中,固态存储控制器104采用一些类型的RAID存储数据并能够恢复毁坏的数据。在另一种实施方式中,ECC纠错模块322发送中断和/或消息,并且接收设备停止与请求数据包关联的读操作。本领域技术人员会认识到ECC纠错模块322确定请求包的一个或多个ECC块为毁坏的且ECC纠错模块322不能修正错误后采取的其他选择和操作。
读取数据管道108包括解包器324,所述解包器324直接地或间接地接收来自ECC修正模块322的请求包ECC块,并检查和删除一个或多个包头。解包器324可通过检查包头内的包标识符、数据长度、数据位置等验证包头。在一种实施方式中,所述包头包括散列码,所述散列码可用于验证传递给读取数据管道108的包为请求包。解包器324还从请求包中删除由封包器302添加的包头。解包器324可被指定为不对某些包起作用而将这些包未经修改地向前传送。一个实例可以是容器标签,当对象索引重建模块272需要包头信息时,所述容器标签在重建进程期间被请求。另外的实例包括传送不同类型的包(预定在固态存储设备102内使用)。在另一种实施方式中,解包器324操作可以依赖于包的类型。
读取数据管道326包括对齐模块326,所述对齐模块326接收来自解包器324的数据并删除多余的数据。在一种实施方式中,发送给固态存储器110的读命令恢复数据包。请求数据的设备可不需要恢复的数据包内的所有数据,并且对齐模块326删除多余的数据。如果恢复页内的所有数据都是请求的数据,对齐模块326不删除任何数据。
对齐模块326在数据段传输到下一级之前以与请求数据段的设备兼容的形式按对象的数据段重新格式化数据。通常,由于数据由读取数据管道108处理,数据段或包的大小在不同级间改变。对齐模块326使用接收到的数据以将数据格式化为适于发送给请求设备155的数据段,所述数据段还适于连接在一起以形成响应。例如,来自第一数据包的一部分的数据可与来自第二数据包的一部分的数据结合。如果数据段比由请求设备请求的数据大,对齐模块326可丢弃不需要的数据。
在一种实施方式中,读取数据管道108包括读取同步缓冲器328,所述读取同步缓冲器328在读取数据管道108处理之前缓冲一个或多个读取自固态存储器110的请求包。读取同步缓冲器328位于固态存储时钟域和本地总线时钟域之间的边界上并提供缓冲以解决时钟域差异。
在另一种实施方式中,读取数据管道108包括输出缓冲器330,所述输出缓冲器330接收来自对齐模块326的请求包并在数据包传送到所述请求设备前存储所述包。输出缓冲器330解决当从读取数据管道108接收数据段时和当将数据段传送给固态存储控制器104的其他部分或传送给请求设备时之间的差异。输出缓冲器330还允许数据总线以比读取数据管道108能够支持的速率高的速率接收来自读取数据管道108的数据,以提升数据总线204运行的效率。
在一种实施方式中,读取数据管道108包括媒体解密模块332,所述媒体解密模块332接收一个或多个来自ECC纠错模块322的加密过的请求包并在将一个或多个所述请求包发送给解包器324之前利用对于固态存储设备102唯一的加密密钥解密一个或多个所述请求包。通常,媒体解密模块332用以解密数据的加密密钥与媒体加密模块318使用的加密密钥一致。在另一种实施方式中,固态存储器110可具有两个或更多个分区且固态存储控制器104表现得好像有两个或更多个固态存储控制器104(每个都在固态存储器110内的单独分区内运行)一样。在这种实施方式中,可对每个分区使用唯一的媒体加密密钥。
在另一种实施方式中,读取数据管道108包括解密模块334,所述解密模块334在将数据段发送给输出缓冲器330之前解密由解包器324格式化的所述数据段。采用与读请求一起接收的加密密钥解密所述数据段,所述读请求初始化恢复由读取同步缓冲器328接收的请求包。解密模块334可利用与用于第一包的读请求一起接收的加密密钥解密第一包,然后可利用不同的加密密钥解密第二包或可将第二包未经解密地传送给读取数据管道108的下一级。通常,解密模块334使用与媒体解密模块332用以解密请求数据包的加密密钥不同的加密密钥解密数据段。当包与非秘密性加密临时值一起存储时,所述临时值与加密密钥一起使用以解密数据包。加密密钥可接收自客户端114、计算机112、密钥管理器或管理固态存储控制器104使用的加密密钥的其他设备。
在另一种实施方式中,读取数据管道108包括解压缩模块336,所述解压缩模块336解压缩由解包器324格式化的数据段。在优选实施方式中,解压缩模块336使用存储在包头和容器标签中的一个或两个中的压缩信息以选择补充程序,压缩模块312使用所述补充程序来压缩数据。在另一种实施方式中,解压缩模块336所使用的解压缩程序由请求解压缩的数据段确定。在另一种实施方式中,解压缩模块336根据每个对象类型或对象类基础的默认设置选择解压缩程序。第一对象的第一包可以能够废除默认解压缩程序设置,具有相对的对象类和对象类型的第二对象的第二包可采用默认解压缩程序,而具有相同的对象类和对象类型的第三对象的第三包可不经过解压缩。
在另一种实施方式中,读取数据管道108包括读取程序模块338,所述读取程序模块338包括一个或多个在读取数据管道108内的用户可定义功能。读取程序模块338具有与写入程序模块310类似的特点并允许用户提供自定义功能给读取数据管道108。读取程序模块338可位于图3中所示的位置、可位于读取数据管道108内的其他位置、或者可包括读取数据管道108内多个位置的多个部分。此外,在读取数据管道108内的多个不同位置可有多个独立运行的读取程序模块338。本领域技术人员会认识到读取数据管道108内的读取程序模块338的其他形式。正如写入数据管道,读取数据管道108的级可重新排序,本领域技术人员会认识到读取数据管道108内的级的其他排列顺序。
固态存储控制器104包括控制和状态寄存器340和相应的控制队列342。控制和状态寄存器340和控制队列342有助于控制并按顺序排列与在写入和读取数据管道106、108内处理的数据相关联的命令和子命令。例如,封包器302中的数据段可具有一个或多个在与ECC发生器关联的控制队列342内的相应控制命令或指令。当数据段被封包时,可在封包器302内执行一些指令或命令中。当从数据段建立的、最新形成的数据包被传送给下一级时,其他命令或指令可通过控制和状态寄存器340直接传送给下一个控制队列342。
可同时将命令和指令加载到控制队列342上以将包转发给写入数据管道106,同时,由于每个管道级要执行各自的包,因此每个管道级读取合适的命令或指令。类似地,可同时将命令和指令加载到控制队列342上以从读取数据管道108请求包,而且,由于每个管道级要执行各自的包,因此每个管道级读取合适的命令或指示。本领域技术人员会认识到控制和状态寄存器340和控制队列342的其他特征和功能。
固态存储控制器104和/或固态存储设备102还可包括内存库交错控制器344、同步缓冲器346、存储总线控制器348及多路转换器(“MUX”)350,这些设备相对于图4A和图4B描述。
内存库交错
图4A是根据本发明的位于固态存储控制器104内的内存库交错控制器344一种实施方式400的示意性框图。内存库交错控制器344连接到控制和状态寄存器340并通过MUX350、存储总线控制器348和同步缓冲器346连接到存储I/O总线210和存储控制总线212上,这在下文中有所描述。内存库交错控制器包括读取代理402、写入代理404、擦除代理406、管理代理408、读取队列410a-n、写入队列412a-n、擦除队列414a-n、用于固态存储器110中的内存库214的管理队列416a-n、内存库控制器418a-n、总线仲裁器420和状态MUX422,这些设备在下文中描述。存储总线控制器348包括具有重映射模块430的映射模块424、状态捕捉模块426和NAND总线控制器438,这些设备在下文中描述。
内存库交错控制器344将一条或多条命令送往内存库交错控制器344中的两个或更多个队列,并在固态存储器110的内存库214之间协调存储在队列中的命令的执行,以使得第一类型的命令在一个内存库241a上执行而第二类型的命令在第二内存库214b上执行。所述一条或多条命令按命令类型分别送入队列中。固态存储器110的每个内存库214在内存库交错控制器344内具有相应的队列集,且每个队列集包括每个命令类型的队列。
内存库交错控制器344在固态存储器110的内存库214之间协调存储在队列中的命令的执行。例如,第一类型的命令在在一个内存库241a上执行而第二类型的命令在第二内存库214b上执行。通常,命令类型和队列类型包括读取和写入命令和队列410、412,但是还可包括存储媒介指定的其他命令和队列。例如,在图4A所描述的实施方式中,擦除和管理队列414、416被包括在其中且适于闪存、NRAM、MRAM、DRAM、PRAM等。
对于其他类型的固态存储器110,可包括其他类型的命令和相应的队列而不脱离本发明的范围。FPGA固态存储控制器104的灵活性质允许存储媒介的灵活性。如果将闪存换成另一种固态存储类型,可改变内存库交错控制器344、存储总线控制器348和MUX350以适应媒介类型而不显著地影响数据管道106、108和其他固态存储控制器104运行。
在图4A所描述的实施方式中,对每个内存库214来说,内存库交错控制器344包括:用于从固态存储器110读取数据的读取队列410、用于将命令写入固态存储器110的写入队列412、用于擦除固态存储器中的擦除块的擦除队列414、用于管理命令的管理队列416。内存库交错控制器344还包括相应的读取、写入、擦除和管理代理402、404、406、408。在另一种实施方式中,控制和状态寄存器340和控制队列342或类似元件在没有内存库交错控制器344的情况为了发送给固态存储器110的内存库214的数据而将命令排队。
在一种实施方式中,代理402、404、406、408将预定用于特定内存库214a的合适类型的命令送到内存库214a的修正队列。例如,读取代理402可接收用于内存库-1 214b的读命令并将所述读命令送到内存库-1读取队列410b。写入代理404可接收将数据写入固态存储器110的内存库-0 214a的写入命令并然后会将所述写入命令发送给内存库-0写入队列412a。类似地,擦除代理406可接收擦除命令以擦除内存库-1 214b中的擦除块并然后会将所述擦除命令传送给内存库-1擦除队列414b。管理代理408通常接收管理命令、状态请求及其类似消息,如复位命令或读取内存库214(如内存库-0 214a)的配置寄存器的请求。管理代理408将所述管理命令发送给内存库-0管理队列416a。
代理402、404、406、408通常还监测队列410、412、414、416的状态并当队列402、404、406、408满、接近满、丧失功能时,发送状态、中断或其他消息。在一种实施方式中,代理402、404、406、408接收命令并生成相应的子命令。在一种实施方式中,代理402、404、406、408通过控制和状态寄存器340接收命令并生成相应的子命令,所述子命令被转发给队列410、412、414、416。本领域技术人员会认识到代理402、404、406、408的其他功能。
队列410、412、414、416通常接收命令并存储所述命令直到所述命令被要求传送给固态存储器内存库214。在典型的实施方式中,队列410、412、414、416是先进先出(“FIFO”)寄存器或以FIFO运行的类似组件。在另一种实施方式中,队列410、412、414、416按与数据、重要性或其他标准相匹配的顺序来存储命令。
内存库控制器418通常接收来自队列410、412、414、416的命令并生成合适的子命令。例如,内存库-0写入队列412a可接收将数据包的页写入内存库-0 214a的命令。内存库-0控制器418a可在合适的时间接收写入命令并可为每个存储在写入缓冲器320中的数据包生成一个或多个写入子命令(将要被写入内存库-0 214a的页中)。例如,内存库-0控制器418a可生成验证内存库-0214a和固态存储阵列216状态的命令、选择写入一个或多个数据包的合适位置的命令、清除位于固态存储阵列216内的输入缓冲器的命令、将一个或多个数据包传送所述输入缓冲器的命令、将输入缓冲器放到选定位置中的命令、检验数据被正确编程的命令,并且如果发生程序故障,则一次或多次地中断主控制器、重试写入同一物理地址并重试写入不同的物理地址。此外,与实例中的写入命令一起,存储总线控制器348会将一条或多条命令乘以每条存储I/O总线210a-n从而翻倍,而所述命令的逻辑地址映射到用于存储I/O总线210a的第一物理地址,并映射到用于存储I/O总线210a的第二物理地址,下面将详细描述。
通常,总线仲裁器420选自内存库控制器418并从内存库控制器418的输出队列提取子命令,并且将这些子命令以最优化内存库214性能的序列形式发给存储总线控制器348。在另一种实施方式中,总线仲裁器420可响应高级中断并修改普通选择标准。在另一种实施方式中,主控制器224可通过控制和状态寄存器340控制总线仲裁器420。本领域技术人员会认识到总线控制器420可控制和交错从内存库控制器418传送到固态存储器110的命令序列。
通常,总线仲裁器420协调来自内存库控制器418适当的命令和命令类型所需的相应数据的选择,并将所述命令和数据发送给存储总线控制器348。总线仲裁器420通常还将命令发送给存储控制总线212以选择合适的内存库214。对于闪存或其他具有异步、双向串行的存储I/O总线210的固态存储器110而言,一次只能传送一条命令(控制信息)或数据集。例如,当将写入命令或数据通过存储I/O总线210传送给固态存储器110时,读取命令、读取的数据、擦除命令、管理命令或其他状态命令不能在存储I/O总线210上传输。例如,当从存储I/O总线210读取数据时,不能向固态存储器110写入数据。
例如,在内存库-0的写操作期间,总线仲裁器420选择在其队列顶部具有写入命令或一系列写入子命令的内存库-0控制器418a,所述一系列写入子命令使得存储总线控制器348执行后继的序列。总线仲裁器420将写入命令转发给存储总线控制器348,所述存储总线控制器348通过下列方式建立了写入命令:通过存储控制总线212选择内存库-0 214a、发送清除与内存库-0 214a关联的固态存储元件110的输入缓冲器的命令、发送验证与内存库-0 214a关联的固态存储元件216、218、220的状态的命令。然后,存储总线控制器348通过包含了物理地址存储I/O总线210传送写入命令,所述物理地址如同映射自逻辑擦除块地址一样包括用于每个单独的物理擦除固态存储元件216a-m的逻辑擦除块地址。然后,存储总线控制器348通过多路转换器350将写入缓冲器经写入同步缓冲器多路多路转换到存储I/O总线210并使写入数据流向合适的页。当所述页写满时,然后,存储总线控制器348促使与内存库-0 214a关联的固态存储元件216a-m将输入缓冲器编入固态存储元件216a-m的内存单元。最终,存储总线控制器348验证状态以确保所述页被正确编程。
读操作与上文的写操作实例类似。在读操作期间,通常,总线仲裁器420或内存库交错控制器344的其他组件接收数据和相应的状态信息并将数据发送给读取数据管道108,同时将状态信息发送给控制和状态寄存器340。通常,从总线仲裁器420传送给存储总线控制器348的读数据命令会促使多路转换器350将读数据通过存储I/O总线210传送给读取数据管道108并通过状态多路转换器422向控制和状态寄存器340发送状态信息。
总线仲裁器420协调不同的命令类型和数据存取模式,使得在任意给定的时间内,在总线上只有合适的命令类型或对应数据。如果总线仲裁器420已选择了写入命令,且写入子命令和对应数据正在被写入固态存储器110,总线仲裁器420不会允许在存储I/O总线210存在其他命令类型。有利地是,总线仲裁器420使用定时信息(如预定的命令执行时间)以及接收到的关于内存库214状态的信息,以协调总线上不同命令的执行,这样做的目标是最小化或消除总线的停工时间。
通过总线仲裁器420的主控制器224通常使用存储在队列410、412、414、416中的命令的预定完成时间以及状态信息,使得在一个内存库214a上执行与命令关联的子命令时,而在其他内存库241b-n上执行其他命令的其他子命令。当内存库214a完全执行完一条命令时,总线仲裁器420将其他命令传给内存库214a。总线仲裁器420还可与协调存储在队列410、412、414、416的命令一起协调不存储在队列410、412、414、416的其他命令。
例如,可发出擦除命令以擦除固态存储器110内的一组擦除块。执行擦除命令可消耗比执行写入或读取命令多10到1000倍的时间,或消耗比执行程序命令多10到100倍的时间。对于N个内存库214,内存库交错控制器可将擦除命令分割为N条命令,每条命令擦除内存库214a的虚拟擦除块。当内存库-0214a执行擦除命令时,总线仲裁器420可选择在其他内存库214b-n上执行的其他命令。总线仲裁器420还可与其他组件(如存储总线控制器348、主控制器224等)一起工作以在总线之间协调命令的执行。利用总线仲裁器420、内存库控制器418、队列410、412、414、416、和内存库交错控制器的代理402、404、406、408协调命令的执行可显著的提升性能(相比于其他没有内存库交错功能的固态存储系统)。
在一种实施方式中,固态控制器104包括一个内存库交错控制器344,所述内存库交错控制器344为固态存储器110的所有存储元件216、218、220提供服务。在另一种实施方式中,固态控制器104内存库包括用于每个存储元件行216a-m、218a-m、220a-m的交错控制器344。例如一个内存库交错控制器344服务存储元件的一行SSS 0.0-SSS 0.N 216a、218a、220a,第二内存库交错控制器344服务存储元件的第二行SSS 1.0-SSS 1.N 216b、218b、220b,等等。
图4B是示出了根据本发明的位于固态存储设备内的内存库交错控制器的一种替代实施方式401的示意性框图。图4B所示实施方式中描述的组件210、212、340、346、348、350、402-430大体上与相对于图4A描述的内存库交错装置400类似,除了下述不同点:每个内存库214包括单独的队列432a-n及用于内存库的(如内存库-0 214a)读取命令、写入命令、擦除命令、管理命令等被传送给内存库214的单独队列432a。在一种实施方式中,队列432是FIFO。在另一种实施方式中,队列432可具有以不同于存储的顺序的顺序从队列432中提取的命令。在另一种可选实施方式(未示出)中,可以将读取代理402、写入代理404、擦除代理406和管理代理408合并到一个代理分配命令中,发送给合适的队列432a-n。
在另一种替代的实施方式(未示出)中,命令存储在单独的队列中,其中,可以以不同于存储的顺序的顺序从队列中提取命令,从而使得内存库交错控制器344在余下的内存库214b-n上执行。本领域技术人员会轻易地认识到其他能够在一个内存库214a上执行命令而在其他内存库214b-n上执行其他命令的队列配置和类型。
特定存储组件
固态存储控制器104包括同步缓冲器346,所述同步缓冲器346从固态存储器110发送和接收的命令和状态消息。同步缓冲器346位于固态存储时钟域和本地总线时钟域之间的边界上,并提供缓冲以解决时钟域差异。同步缓冲器346、写入同步缓冲器308和读取同步缓冲器328可独立地或共同运作以缓冲数据、命令、状态消息等等。在优选实施方式中,同步缓冲器346所处的位置使得跨越时钟域的信号数量最少。本领域技术人员会认识到:时钟域间的同步可任意运行在固态存储设备102的其他位置,以优化设计实施方案的某些方面。
固态存储控制器104包括存储总线控制器348,所述存储总线控制器348解释和翻译用于发送给或读取自固态存储器110的数据的命令并基于固态存储器110的类型接收自固态存储器110的状态消息。例如,存储总线控制器348可针对不同的存储类型、不同性能特点、不同制造商的存储器等而具有不同的定时要求。存储总线控制器348还将控制命令发送给存储控制总线212。
在优选实施方式中,固态存储控制器104包括MUX350,所述MUX350包括多路转换器350a-n的阵列,其中,每个多路转换器用于固态存储阵列110的一行。例如,多路转换器350a与固态存储元件216a、218a、220a关联。MUX350通过存储总线控制器348、同步缓冲器346和内存库交错控制器344将来自写入数据管道106的数据和来自存储总线控制器348的命令经存储I/O总线210路由至固态存储器110,并将来自固态存储器110的数据和状态消息经存储I/O总线210路由至读取数据管道108和控制和状态寄存器340。
在优选实施方式中,固态存储控制器104包括用于固态存储元件的每一行的(如SSS 0.1 216a、SSS 0.2 218a、SSS 0.N 220a)的MUX350。MUX350将来自写入数据管道106的数据和发送给固态存储器110的命令通过存储I/O总线210结合起来,并将需要由读取数据管道108处理的数据从命令中分离出来。存储在写入缓冲器320中的包通过用于固态存储元件的每一行(SSS x.0 toSSS x.N 216、218、220)的写入缓冲器308由写入缓冲器外的总线传给用于固态存储元件的每一行(SSS x.0 to SSS x.N 216、218、220)的MUX350。MUX350从存储I/O总线210接收命令和读取数据。MUX350还将状态消息传给存储总线控制器348。
存储总线控制器348包括映射模块424。映射模块424将擦除块的逻辑地址映射到擦除块的一个或多个物理地址。例如,每个内存库214a具有20个存储元件的阵列(如SSS 0.0至SSS M.0216)的固态存储器110可具有映射到擦除块的20个物理地址的特定擦除块的逻辑地址(每个存储元件有一个物理地址)。由于平行访问存储元件,所以位于存储元件216a、218a、220a的行中的每个存储元件中的同一位置的擦除块会分享物理地址。为了选择一个擦除块(如在存储元件SSS 0.0 216a中)代替行(如在存储元件SSS 0.0、0.1,…0.N 216a、218a、220a中)中的所有擦除块,可选择一个内存库(在这种情况下为内存库-0 214a)。
这种用于擦除块的逻辑到物理的映射是有好处的,这是由于如果一个擦除块已损坏或不可访问,所述映射可改为映射到另一擦除块。当一个元件的擦除块出错时,这种方法减少了失去整个虚拟擦除块的损失。重映射模块430将擦除块的逻辑地址的映射改为虚拟擦除块的一个或多个物理地址(遍布存储元件的阵列)。例如,虚拟擦除块1可映射到存储元件SSS 0.0 216a的擦除块1、映射到存储元件SSS 1.0 216b的擦除块1、…和映射到存储元件M.0216m,虚拟擦除块2可映射到存储元件SSS 0.1 218a的擦除块2、映射到存储元件SSS 1.1 218b的擦除块2、…和映射到存储元件M.1 218m,等等。
如果存储元件SSS 0.0 216a的擦除块1损坏、由于损耗遇到错误或由于一些原因不能被使用,重映射模块可将从逻辑到物理的映射改为指向虚拟擦除块1的擦除块1的逻辑地址的映射。如果存储元件SSS 0.0 216a的空闲擦除块(将其称为擦除块221)可用且当前并未被映射,重映射模块可改变虚拟擦除块1的映射为映射到指向存储元件SSS 0.0 216的擦除块221,而继续指向存储元件SSS 1.0 216b的擦除块1、存储元件SSS 2.0(未示出)的擦除块1、…和指向存储元件M.0216m。映射模块424或重映射模块430可按固定顺序映射擦除块(虚拟擦除块1到存储元件的擦除块1,虚拟擦除块2到存储元件的擦除块2,等等)或可按基于其他一些标准的顺序映射存储元件216、218、220的擦除块。
在一种实施方式中,可按访问时间分组擦除块。按访问时间分组、均衡命令执行的时间(如将数据编入或写入指定擦除块的页)可平均命令补齐,从而使得在虚拟擦除块的擦除块之间执行的命令不会由于最慢的擦除块而被限制。在另一种实施方式中,可按损耗程度、运行状况来分组擦除块。本领域技术人员会认识到当映射或重映射擦除块时需要考虑的其他问题。
在一种实施方式中,存储总线控制器348包括状态捕捉模块426,所述状态捕捉模块426接收来自固态存储器110的状态消息并将所述状态消息发送给状态MUX422。在另一种实施方式中,当固态存储器110为闪存时,存储总线控制器348包括NAND总线控制器428。NANA总线控制器428将命令从读取和写入数据管道106、108的传送给固态存储器110中的正确位置,并根据所述闪存的特点协调命令执行的时间,等等。如果固态存储器110为另一种类型的固态存储器,则将NAND总线控制器428替换为针对存储类型的总线控制器。本领域技术人员会认识到NAND总线控制器428的其他功能。
流程图
图5是根据本发明的在固态存储设备102内采用数据管道管理数据的方法500的一种实施方式的示意性流程图。方法500始于步骤502,输入缓冲器306接收一个或多个将要被写入固态存储器110的数据段(步骤504)。通常来说,所述一个或多个数据段包括对象的至少一部分,但也可以是整个对象。封包器302可创建一个或多个对象指定包以及对象。封包器302为每个包添加包头,所述包头通常包括包的长度和对象内包的序列号。封包器302接收一个或多个存储在输入缓冲器306的数据或元数据段(步骤504),并通过创建一个或多个大小适于固态存储器110的包来封包所述一个或多个数据或元数据段(步骤506),其中,每个包包括一个包头和来自一个或多个段的数据。
通常,第一包包括对象标识符,所述对象标识符确定对象,为了所述对象而创建包。第二包可包括具有信息的包头,所述信息由固态存储设备102用于关联第二包和第一包中确定的对象,所述包头还具有在对象内定位第二包的偏移信息和数据。固态存储设备控制器202管理内存库214和包流向的物理区域。
ECC发生器304接收来自封包器302的包并为数据包生成的ECC(步骤508)。通常,在包和ECC块之间没有固定关系。ECC块可包括一个或多个包。包可包括一个或多个ECC块。包可始于ECC块内的任意位置并可在ECC块内的任意位置结束。包可始于第一ECC块内的任意位置并可在相继的ECC块中的任意位置结束。
写入同步缓冲器308在将ECC块写入固态存储器110之前缓冲分布在对应ECC块中的包(步骤510),然后固态存储控制器104在考虑到时钟域差异的适当的时间写入数据(步骤512),方法500终止于步骤514。写入同步缓冲器308位于本地时钟域和固态存储器110时钟域的边界上。注意到为方便起见,方法500描述了接收一个或多个数据段并写入一个或多个数据包,但通常接收数据段流或组。通常,若干包括完整固态存储器110的虚拟页的ECC块被写入固态存储器110。通常,封包器302接收某个大小的数据段并生成另一大小的包。这必然需要数据或元数据段或数据或元数据段的部分结合起来,以形成将段的所有数据捕捉进包的数据包。
图5B是根据本发明的服务器内SAN的方法的一种实施方式的示意性流程图。方法500开始(步骤552),存储通信模块162使第一存储控制器152a和第一服务器112a外部的至少一个设备之间的通信更容易(步骤554)。第一存储控制器152a和外部装置之间的通信独立于第一服务器112a。第一存储控制器112a位于第一服务器112内,第一存储控制器152a控制至少一个存储设备154a。第一服务器112a包括与第一服务器112a和第一存储控制器152a相连的网络接口156a。服务器内SAN模块164传送存储请求(步骤556),方法501结束于步骤558。服务器内SAN模块利用网络协议和/或总线协议传送存储请求(步骤556)。服务器内SAN模块164独立于第一服务器112a地传送存储请求,由客户端114、114a接收传送的请求(步骤556)。
图6是根据本发明的在固态存储设备102内采用数据管道管理数据的方法600的再一种实施方式的示意性流程图。方法600始于步骤602,输入缓冲器306接收一个或多个将要被写入固态存储器110的数据或元数据段(步骤604)。封包器302为每个包添加包头,所述包头通常包括对象内包的长度。封包器302接收一个或多个存储在输入缓冲器306中的段(步骤604),并通过创建一个或多个大小适于固态存储器110的包来封包所述一个或多个段(步骤606),其中每个包包括包头和来自一个或多个段的数据。
ECC发生器304接收来自封包器302的包并生成一个或多个用于包的ECC块(步骤608)。写入同步缓冲器308在将ECC块写入固态存储器110之前缓冲分布在对应ECC块中的包(步骤610),然后固态存储控制器104在考虑到时钟域差异的合适的时间写入数据(步骤612)。当从固态存储器110请求数据时,包括一个或多个数据包的ECC块被读入读取同步缓冲器328并被缓冲(步骤614)。通过存储I/O总线210接收包的ECC块。由于存储I/O总线210是双向,当读取数据时,写操作、命令操作等被停止。
ECC纠错模块322接收暂存在读取同步缓冲器328中的请求包的ECC块,并在必要时修正每个ECC块中的错误(步骤616)。如果ECC纠错模块322确定在ECC块中存在一个或多个错误并且错误可利用ECC一并修正,ECC纠错模块322修正ECC块中的错误(步骤616)。如果ECC纠错模块322确定探测到的错误不可用ECC修正,则ECC纠错模块322发送中断。
解包器324在ECC纠错模块322修正任何错误之后接收请求包(步骤618)并通过检查和删除每个包的包头解包所述包(步骤618)。对齐模块326接收经过解包的包、删除多余的数据、并采用与请求数据段的设备兼容的形式按对象的数据段重新格式化所述数据(步骤620)。输入缓冲器330接收经过解包的请求包,并在包传送给请求设备之间缓冲包(步骤622),方法600终止于步骤624。
图7是根据本发明的利用内存库交错在固态存储设备102内管理数据的方法700的一种实施方式的示意性流程图。方法700开始(步骤702),内存库交错控制器344将一个或多个命令发送给两个或多个队列410、412、414、416(步骤704)。通常代理402、404、406、408根据命令类型将命令发送给队列410、412、414、416(步骤704)。每个队列410、412、414、416的集包括用于各个命令类型的队列。内存库交错模块344在内存库214中协调执行队列410、412、414、416中存储的命令(步骤706),因而,在第二内存库214b中执行第二类命令时,在第一内存库214a中执行第一类命令。方法700结束(步骤708)。
存储空间恢复
图8是表示根据本发明的固态存储设备102中用于垃圾收集的装置800的一种实施方式的示意性框图。装置800包括顺序存储模块802、存储部选择模块804、数据恢复模块806和存储部恢复模块808,下面说明这些装置。在另一种实施方式中,装置800包括垃圾标记模块810和擦除模块812。
装置800包括顺序存储模块802,所述顺序存储模块802在存储部内的一页中顺序写入数据包。无论包是新的包还是修改过的包,都顺序存储所述包。本实施方式中,修改过的包通过不写入所述包之前存储的位置。在一种实施方式中,顺序存储模块802将包写入存储部的一页中的第一位置,而后写入所述页中的后一位置,再到后一位置、后一位置,直到填充完所述页。顺序存储模块802随后开始填充存储部中的下一页。继续这样做直到填充完存储部。
在一种优选实施方式中,顺序存储模块802开始将包写入内存库(内存库-0 214a)的存储元件(如SSS 0.0至SSS M.0216)的存储写入缓冲器。存储写入缓冲器已满时,固态存储控制器104使得存储写入缓冲器中的数据被编程到入内存库214a的存储元件216中的指定页。而后选择另一内存库(如内存库-1214b),在第一内存库-0编程指定页时,顺序存储模块802开始向内存库214b的存储元件218的存储写入缓冲器中写入包。所述内存库214b的存储写入缓冲器已满时,将存储写入缓冲器的内容编程到每个存储元件218的另一指定页。所述过程效率很高,因为可以在一个内存库214a编程一页的同时,填充另一内存库214b的存储写入缓冲器。
存储部包括固态存储设备102中的固态存储器110的一部分。通常存储部是擦除块。对于闪存来说,擦除块上的擦除操作通过对每个单元充电,将1写入擦除块的每个位。与(从都是1的位置开始的)编程操作相比,这是一个冗长的过程,写入数据时,通过对写为0的单元放电,一些位变为0。但是,固态存储器110不是闪存或具有(擦除周期用时与其他操作(读取或编程)用时相同的)闪存时,不需要擦除存储部。
正如此处所使用的,存储部与擦除块的区域相同但可以被擦除或不被擦除。擦除块在此处使用时,所述擦除块可以是存储元件(如SSS0.0 216a)中指定大小的特定区域,通常包括特定数目的页。“擦除块”与闪存结合使用时,擦除块通常是在写入前被擦除的存储部。“擦除块”与“固态存储器”共同使用时,擦除块可以被擦除或可以不被擦除。正如此处所使用的,擦除块可以包括一个擦除块或一组擦除块,其中擦除块位于存储元件的每一排中(如SSS0.0到SSS M.0216a-n),此处提及的擦除块也可称为虚拟擦除块。提及与虚拟擦除块相关的逻辑结构时,此处擦除块可以被称为逻辑擦除块(“LEB”)。
通常,按照处理顺序依次存储包。在一种实施方式中,使用写入数据管道106时,顺序存储模块802按照包离开写入数据管道106的顺序存储包。所述顺序取决于来自请求设备155的数据段与有效数据的包混合的结果,在以下说明的恢复操作中,从存储部恢复有效数据时从另一存储部读取所述有效数据。恢复重路由,有效数据包到写入数据管道106之间可以包括垃圾收集器旁路316,所述垃圾收集旁路316已在上面结合图3的固态存储控制器104进行说明。
装置800包括选择恢复用存储部的存储部选择模块804。选择恢复用存储部可以是由顺序存储模块802重新使用存储部以写入数据,从而将恢复的存储部加入存储池,或者因确定存储部故障、不可靠、应当更新或其他原因而使存储部暂时或永久地离开存储池后,从存储部中恢复有效数据。在另一种实施方式中,存储部选择模块804通过辨别具有大量无效数据的存储部或擦除块,选择恢复用存储部。
在另一种实施方式中,存储部选择模块804通过辨别损坏较少的存储部或擦除块,选择恢复用存储部。例如,辨别损坏较少的存储部或擦除块可以包括辨别无效数据少、擦除周期短、位错误率低或程序计数少的存储部(缓冲器中的一页数据写入存储部的一页中的次数很少;可以根据何时构成设备、何时最后擦除存储部、其他任意事件以及这些的组合测出程序计数)。存储部选择模块804还可以使用上述或其他参数的任意组合,确定损坏较少的存储部。通过确定损坏较少的存储部,选择恢复用存储部,可以适宜地发现未充分利用、损坏级别可恢复的存储部。
在另一种实施方式中,存储部选择模块804通过辨别损坏较多的存储部或擦除块,选择恢复用存储部。例如,辨别损坏较多的存储部或擦除块可以包括辨别存储周期长、位错误率高、具有非可恢复的ECC块的存储部或程序计数高的存储部。存储部选择模块804还可以利用上述或其他参数的任意组合确定损坏较多的存储部。通过确定损坏较多的存储部,选择恢复用存储部,可以适宜地发现利用过于充分的存储部,可以利用擦除周期(通过更新存储部)恢复所述存储部,或者在无法使用时将存储部退出服务。
装置800包括数据恢复模块806,所述数据恢复模块806从选定的恢复用存储部读取有效数据包,利用(要由顺序存储模块802顺序写入的)其他数据包为有效数据包排队,利用(已由顺序存储模块802写入的)有效数据的新的物理地址更新索引。通常,所述索引是将对象的数据对象标示符映射到物理地址的对象索引,所述物理地址为数据对象得到的包在固态存储器110中存储的物理地址。
在一种实施方式中,装置800包括存储部恢复模块808,所述存储部恢复模块808准备使用或重新使用存储部,并将存储部标记为顺序存储模块802可用的存储部,用以在数据恢复模块806从存储部复制完有效数据后顺序写入数据包。在另一种实施方式中,装置800包括存储部恢复模块808,存储部恢复模块808将选定的恢复用存储部标记为不可用于存储数据。通常,这是由于存储部选择模块804识别损坏较多的存储部或擦除块,因而所述存储部或擦除块不具有进行可靠数据存储的条件。
在一种实施方式中,装置800是固态存储设备102的固态存储设备控制器202。在另一种实施方式中,装置800控制固态存储设备控制器202。在另一种实施方式中,装置800的一部分位于固态存储设备控制器202中。在另一种实施方式中,数据恢复模块806更新的对象索引也位于固态存储设备控制器202中。
在一种实施方式中,存储部是擦除块,装置800包括擦除模块810,所述擦除模块810在数据恢复模块806从选定的擦除块复制有效数据包之后以及在存储部恢复模块808将擦除块标记为可用之前,擦除选定的恢复用的该擦除块。对于擦除操作所用时间比读取或写入操作所用时间长的闪存或其他固态存储器而言,高效地操作需要擦除所述数据块操作在使数据块可用于写入新数据之前进行。内存库214中设置固态存储器110时,可以由擦除模块810在一个内存库执行擦除操作,而其他内存库执行读取、写入或其他操作。
在一种实施方式中,装置800包括垃圾标记模块812,所述垃圾标记模块812对指示数据包无效的操作作出响应,鉴定存储部中的数据包无效。例如,如果删除数据包,垃圾标记模块812可以将所述数据包鉴定为无效。读取-修改-写入操作是将数据包鉴定为无效的另一种方式。在一种实施方式中,垃圾标记模块812通过更新索引鉴定数据包无效。在另一种实施方式中,垃圾标记模块812可以通过存储(指示无效数据包已被删除的)数据包将另一个数据包鉴定为无效。有利在于,固态存储器110中存储的已删除的数据包的信息使对象索引重建模块262或类似模块能够重建具有项的对象索引,所述项指示无效数据包已被删除。
在一种实施方式中,装置800可以用于根据刷新命令填充数据的虚拟页的剩余部分,以便提高整体性能,其中刷新命令阻止数据在写入管道106清空之前流入写入管道106,并且所有的包都永久写入非易失性固态存储器110。这样的优点在于减少了所需垃圾收集量、擦除存储部所用时间和编程虚拟页所需时间。例如,可以在准备仅一个(要写入固态存储器100的虚拟页的)小包时,接收刷新命令。编程几乎为空的所述虚拟页可能会带来对立即恢复浪费的空间的需求,使存储部内的有效数据被不必要地垃圾收集,导致存储部被擦除、恢复并返回有效空间池(用于由顺序存储模块802写入)。
如上所述,对闪存和其他类似的存储器而言,擦除操作需要大量时间,所以将数据包标记为无效比实际擦除无效的数据包效率更高。如在装置800中说明的,允许垃圾收集系统在固态存储器110内自主运行使擦除操作与读取、写入和其他更快的操作分开,因而固态存储设备102运行得比许多其他固态存储系统或数据存储设备快。
图9是表示根据本发明的用于存储器恢复的方法900的一种实施方式的示意性流程图。方法900开始(步骤902),顺序存储模块802将数据包顺序写入存储部(步骤904)。存储部是固态存储设备102中的固态存储器110的一部分。通常,存储部是擦除块。从对象获得数据包并且根据处理顺序依次存储数据包。
存储部选择模块804选择恢复用存储部(步骤906),并且数据恢复模块806从选定的恢复用存储部读取有效数据包(步骤908)。通常有效数据包是尚未标记为擦除或删除或其他无效数据标记的、被认为数据有效或“良好”的数据包。数据恢复模块806利用已排列的其他数据包对有效数据包进行排队,所述其他数据包将由顺序存储模块802顺序写入(步骤910)。数据恢复模块806利用顺序存储模块802写入的有效数据的新的物理地址更新索引(步骤912)。所述索引包括数据包的物理地址到对象标识符的映射。数据包是存储存储在固态存储器110中的数据包,对象标识符与数据包对应。
数据恢复模块806从存储部复制完有效数据后,存储部恢复模块808将选定的恢复用存储部标记为可用于顺序存储模块802顺序写入数据包(步骤914),而后方法900结束(步骤916)。
渐进RAID
图10是表示根据本发明的用于渐进RAID的系统1600的一种实施方式的示意性框图。系统1600包括可由一个或多个客户端114通过计算机网络访问的N个存储设备150和M个奇偶校验-镜像存储设备1602。N个存储设备150和奇偶校验-镜像存储设备1602可以位于一个或多个服务器112中。存储设备150、服务器112、计算机网络116和客户端114实质上与上面说明的相同。奇偶校验-镜像存储设备1602通常类似或等同于N个存储设备150,并且通常指定为用于条带的奇偶校验-镜像存储设备1602。
在一种实施方式中,N个存储设备150和M个奇偶校验-镜像存储设备1602包括在一个服务器112中或可通过一个服务器112访问,也可以利用系统总线联网二者。在另一种实施方式中,N个存储设备150和M个奇偶校验-镜像存储设备1602包括在一个服务器112a-n+m中或可通过一个服务器112a-n +m访问。例如,存储设备150和奇偶校验-镜像存储设备1602可以是与图1C的系统103和图5B的方法105相关的上述服务器内SAN的一部分。
在一种实施方式中,奇偶校验-镜像存储设备1602存储渐进RAID中存储的条带的所有奇偶校验数据段。在另一优选实施方式中,分配给渐进RAID的存储设备集1604的存储设备150被分配为特定条带的奇偶校验-镜像存储设备1602,轮换所述分配以使每个条带的奇偶校验数据段在N+M个存储设备150中轮换。本实施方式的性能优点优于将单个存储设备150分配为每个条带的奇偶校验-镜像存储设备1602。通过轮换奇偶校验数据段,可以分散与计算和存储奇偶校验数据段相关的开销。
在一种实施方式中,存储设备150是固态存储设备102,其中每个固态存储设备102都具有相关的固态存储器110和固态存储控制器104。在另一种实施方式中,每个存储设备150包括固态存储控制器104和相关的固态存储器110,所述固态存储器110作为用于其他成本少、性能低的存储器(如磁带存储器或硬盘驱动器)的缓存。在另一种实施方式中,一个或多个服务器112包括将存储请求发送给渐进RAID的一个或多个客户端114。本领域技术人员应当认识到可以将渐进RAID配置为具有N个存储设备150和一个或多个奇偶校验-镜像存储设备1602构造的其他系统配置。
图11是表示根据本发明的渐进RAID的装置1700的一种实施方式的示意性框图。多个实施方式中,装置1700包括存储请求接收模块1702、条带化模块1704、奇偶校验-镜像模块1706、奇偶校验级数模块1708、奇偶校验交替模块1710、镜像集模块1712、更新模块1714、具有直接客户端响应模块1718的镜像修复模块1716、预先整合模块1720、后整合模块1722、数据重建模块1724和奇偶校验重建模块1726,下面将对这些模块进行说明。模块1702-1726被描述为位于服务器112中,但模块1702-1726的一些或全部功能也可分布于多个服务器112、存储控制器152、存储设备150和客户端114等设备中。
装置1700包括接收数据存储请求的存储请求接收模块1702,其中所述数据是文件的数据或对象的数据。在一种实施方式中,存储请求是对象请求。在另一种实施方式中,存储请求是块存储请求。一种实施方式中的存储请求不包括数据,但包括存储设备150和奇偶校验-镜像存储设备1602使用的命令(从客户端114或其他源DMA或RDMA数据)。在另一种实施方式中,存储请求包括要存储为存储请求的结果的数据。在另一种实施方式中,存储请求包括能使数据存储到存储设备集1604的命令。在另一种实施方式中,存储请求包括多个命令。本领域技术人员将认识到其他存储数据的存储请求对于渐进RAID而言也是合适的。
数据存储在可访问装置1700的位置。在一种实施方式中,随机存取存储器(“RAM”)(如客户端114或服务器使用的RAM)中的数据可用。在另一种实施方式中,数据存储在硬盘驱动器、磁带存储器或其他大容量存储装置中。在一种实施方式中,数据配置为对象或文件。在另一种实施方式中,数据配置为数据块(对象或文件的一部分)。本领域技术人员将认识到数据的其他形式和位置也是存储请求的对象。
装置1700包括计算数据的条带形式的条带化模块1704。条带形式包括一条或多条条带,其中每条条带包括N个数据段的集。通常条带中的数据段的数目取决于多少存储设备150被分配给RAID群组。例如,如果使用了RAID5,则一个存储设备150被分配为奇偶校验-镜像存储设备1602a以存储用于特定条带的奇偶校验数据。如果四个其他存储设备150a、150b、150c、150d都被分配给RAID群组,则除了奇偶校验数据段以外条带还会有四个数据段。条带化模块1704将条带的N个数据段写入N个存储设备150a-n中,因而N个数据段中的每一个都写入分配给条带的存储设备150的集1604中的不同存储设备150a、150b…、150n。本领域技术人员将领会分配给RAID群组用于特定RAID级的存储设备150的多种组合,以及如何产生条带化形状和如何为将数据分为每个条带N个数据段。
装置1700包括奇偶校验-镜像模块1706,所述奇偶校验-镜像模块1706将条带的N个数据段集写入存储设备集1604中的一个或多个奇偶校验-镜像存储设备1602,其中奇偶校验-镜像存储设备1602是除N个存储设备150以外的设备。N个数据段用于之后的奇偶校验数据段的后续计算。奇偶校验-镜像模块1706将N个数据段集复制到奇偶校验-镜像存储设备1602,而不立即计算奇偶校验数据段,复制所需时间小于存储N个数据段所需时间。N个数据段存储到奇偶校验-镜像存储设备1602后,即使N个存储设备150中的一个不可用,N个数据段仍可有效读取或用于修复数据。RAID0的配置中在读取数据方面的优势在于全部N个数据段都可从一个存储设备(如1602a)得到。对于多于一个的奇偶校验-镜像存储设备(如1602a、1602b),奇偶校验-镜像模块1706为奇偶校验-镜像存储设备1602a、1602b的每一个复制N个数据段。
装置1700包括奇偶校验级数模块1708,所述奇偶校验级数模块1708响应存储整合操作为条带计算一个或多个奇偶校验数据段。根据N个数据段计算的一个或多个奇偶校验数据段存储在奇偶校验-镜像存储设备1602内。奇偶校验级数模块1708将奇偶校验数据段存储到一个或多个奇偶校验-镜像存储设备1602中的每一个内。存储整合操作用于恢复一个或多个奇偶校验-镜像存储设备1602的至少一个的至少存储空间和/或数据。例如,存储整合操作可以是(与图8和图9的装置800和方法900相关的)上述固态存储设备102的数据垃圾收集。存储整合操作还可以包括用于硬盘驱动器的碎片整理操作或整合数据以增加存储空间的其他类似操作。此处使用的存储整合操作也可以包括恢复数据的操作,例如在存储设备150不可用时从错误中恢复的操作,或者因其他原因从奇偶校验-镜像存储设备1602读取数据的操作。在另一种实施方式中,奇偶校验-镜像存储设备1602不太忙时,奇偶校验级数模块1708仅计算奇偶校验数据段。
有利地是,奇偶校验-镜像存储设备1602需要更多的存储空间之前或鉴于存储整合操作的其他原因,通过延迟计算和存储条带的奇偶校验数据段,奇偶校验-镜像存储设备1602的N个数据段可用于在存储设备150上读取数据段、恢复数据、重建数据。奇偶校验级数模块1708可以根据存储请求接收模块1702、条带化模块1704或奇偶校验-镜像模块1706的操作以后台操作的方式自主运行。本领域技术人员将认识到(作为渐进RAID操作的一部分的)延迟计算奇偶校验数据段的其他原因。
在一种实施方式中,在存储设备集1604的存储设备150、客户端114和第三方RAID管理设备内实现模块1702-1708的一些或全部功能,包括:接收数据存储请求、计算条带形状并将N个数据段写入N个存储设备、将N个数据段集写入奇偶校验-镜像存储设备、以及计算奇偶校验数据段。第三方RAID管理设备可以是服务器114或其他计算机。
在一种实施方式中,装置1700包括奇偶校验交替模块1710,所述奇偶校验替换模块1710(为每个条带)将存储设备集1604中的存储设备150交替分配为所述条带的一个或多个奇偶校验-镜像存储设备1602。如上所述的关于图10的系统1600,通过轮换条带的奇偶校验-镜像存储设备中使用的存储设备150,多个奇偶校验-数据段的计算工作分散到存储设备集1604的存储设备150中。
另一种实施方式中,存储设备集1604是第一存储设备集,装置1700包括镜像集模块1712,所述镜像集模块1712产生除第一存储设备集1604以外的一个或多个存储设备集,使一个或多个存储设备集中的每一个都包括至少一个关联条带化模块1704,用以将N个数据段写入一个或多个附加存储设备集的每一个的N个存储设备150。在相关实施方式中,一个或多个附加存储设备集的每一个都包括关联奇偶校验-镜像模块1706和奇偶校验级数模块1708,所述关联奇偶校验-镜像模块1706用于存储N个数据段的集,所述奇偶校验级数模块1708用于计算一个或多个奇偶校验数据段。镜像集模块1712生成一个或多个镜像存储设备集时,RAID可以是多重RAID,例如RAID50。本实施方式中,RAID级别可以从(条带化和镜像数据的)RAID10渐进到(计算奇偶校验数据段并对每个存储数据集1604存储的)RAID50或60。
在一种实施方式中,装置1700包括更新模块1714。通常在奇偶校验-镜像存储设备1602的N个数据段没有成为奇偶校验数据段时,使用更新模块1714。更新模块1714接收更新的数据段,其中更新的数据段对应于存储在N个存储设备150中的N个数据段的现有数据段。更新模块1714将更新的数据段复制到存储现有数据段的条带的存储设备150,还复制到条带的一个或多个奇偶校验-镜像存储设备1602。更新模块1714以更新数据段替代N个存储设备150a-n的存储设备150内存储的现有数据段,以更新数据段替代一个或多个奇偶校验-镜像存储设备1602中存储的现有数据段。
在一种实施方式中,替换数据段包括将数据段写入存储设备150,以及为了后续的垃圾收集将对应的数据段标记为无效。与图8和图9相关的上述固态存储器110和垃圾收集装置说明中已说明本实施方式的一个实例。在另一种实施方式中,替换数据段包括以更新的数据段重写覆盖现有数据段。
在一种实施方式中,存储设备集1604是第一存储设备集,装置1700包括镜像修复模块1716,所述镜像修复模块1716在第一存储设备集1604的存储设备150不可用时,恢复第一存储设备集1604的存储设备150中存储的数据段。数据段从包含数据段拷贝的镜像存储设备恢复。镜像存储设备包括存储N个数据段拷贝的一个或多个存储设备150的集中的一个。
在再一实施方式中,镜像修复模块1716响应来自客户端114的读取数据段的读取请求,恢复数据段。在另一相关实施方式中,镜像修复模块1716还包括直接客户端响应模块1718,所述直接客户端响应模块1718从镜像存储设备向客户端114发送请求的数据段。本实施方式中,将请求的数据段复制到客户端114,因而在数据段传送给客户端114之前,客户端114无需等到数据段恢复。
在一种实施方式中,装置1700包括预先整合修复模块1720,所述预先整合修复模块1720响应读取数据段的请求,恢复存储在存储设备集1604的存储设备150中的数据段。本实施方式中,存储设备150不可用,并且奇偶校验级数模块1708在一个或多个奇偶校验-镜像存储设备1602产生一个或多个奇偶校验数据段之前,从奇偶校验-镜像存储设备1602恢复所述数据段。
在另一种实施方式中,装置1700包括后整合修复模块1724,所述后整合修复模块1724恢复存储在存储设备集的存储设备150中的数据段。在一种实施方式中,存储设备150不可用时,在奇偶校验级数模块1708产生一个或多个奇偶校验数据段之后,利用一个或多个奇偶校验镜像存储设备150内存储的一个或多个奇偶校验数据段恢复所述数据段。例如,后整合修复模块1724利用可用的N个存储设备150内的奇偶校验数据段和可用的数据段,重新得到缺失的数据段。
在一种实施方式中,装置1700包括数据重建模块1724,所述数据重建模块1724在重建操作中将恢复的数据段存储到替换存储设备,其中恢复的数据段与存储在不可用的存储设备150的不可用的数据段匹配。不可用的存储设备150是存储设备集1602的N个存储设备150中的一个。通常,重建操作在(存储不可用的数据段的)存储设备150出现故障之后发生。重建操作用于存储替换存储设备中的数据段以匹配预先存储在不可用的存储设备150上的数据段。
重建操作可以从多个源恢复数据段。例如,如果匹配的数据段位于奇偶校验-镜像存储设备1602中,则可以在渐进前便从奇偶校验-镜像存储设备1602中恢复数据段。另一种实例中,可以从含有不可用的数据段拷贝的镜像存储设备中恢复数据段。通常如果恢复的数据段并不在一个或多个奇偶校验-镜像存储设备1602内,则从镜像存储设备中恢复数据段,但即使镜像存储设备中的匹配的数据段可用,仍可以从镜像存储设备中恢复所述数据段。
在另一种实施方式中,如果恢复的数据段不位于奇偶校验-镜像存储设备1604或镜像存储设备中,根据一个或多个奇偶校验数据段和N个数据段中可用的数据段重新生成重生的数据段。通常如果另一个存储设备150中不存在同样格式的数据段,便重新生成缺失的数据段。
在另一种实施方式中,装置1700包括奇偶校验重建模块1726,所述奇偶校验重建模块1726在恢复的奇偶校验数据段与不可用的奇偶校验-镜像存储设备内存储的不可用的奇偶校验数据段匹配时,通过奇偶校验重建操作在替换存储设备上重建恢复的奇偶校验数据段。不可用的奇偶校验存储设备是一个或多个奇偶校验-镜像存储设备1602中的一个。奇偶校验重建操作将奇偶校验数据段重新存储到替换存储设备,以匹配之前存储在不可用的奇偶校验-镜像存储设备中的奇偶校验数据段。
为了在重建操作中重新生成恢复的奇偶校验数据段,用于重建的数据可以来自多个源。在一个实例中,采用存储在(存储条带的镜像拷贝的)第二存储设备150集的奇偶校验-镜像存储设备1602内的奇偶校验数据段恢复恢复的奇偶校验数据段。镜像拷贝可用时,由于不必计算恢复的奇偶校验数据段,所以需要使用镜像奇偶校验数据段。在另一种实施方式中,如果N个存储设备内的N个数据段可用,则根据N个存储设备150中的一个存储的N个数据段重新生成恢复的奇偶校验数据段。通常重建的奇偶校验-镜像存储设备1602发生单一故障时,N个存储设备150内的N个数据段可用。
另一种实施方式中,如果无法从第一存储设备集1604的N个存储设备150得到N个数据段中的一个或多个,并且匹配的奇偶校验数据段在第二存储设备150集不可用,则从(存储N个数据段的拷贝的)第二存储设备150集的一个或多个存储设备150重新生成恢复的奇偶校验数据段。在再一种实施方式中,根据可用的数据段和不匹配的奇偶校验数据段(无论可用的数据段和不匹配的奇偶校验数据段位于一个或多个存储设备150集的什么位置)生成恢复的奇偶校验数据段。
奇偶校验-镜像存储设备在存储设备集1604的存储设备150中交替时,通常一起使用数据重建模块1724和奇偶校验重建模块1726,在重建存储设备150内重建数据段和奇偶校验数据段。第二奇偶校验-镜像存储设备1602b可用时,存储设备集1604的两个存储设备150、1602发生故障后,数据重建模块1724和奇偶校验重建模块1726能重建两个存储设备。奇偶校验-镜像存储设备1602没有继续产生奇偶校验-镜像数据段时,数据段或存储设备150的恢复速度较快,快于升级奇偶校验-镜像存储设备1602的条件下已计算并存储的用于条带的奇偶校验数据段的恢复速度和已删除的用于计算奇偶校验数据段的奇偶校验-镜像存储设备1602内的N个数据段的恢复速度。
图12是表示根据本发明的利用渐进RAID更新数据段的装置1800的一种实施方式的示意性框图。通常装置1800属于RAID群组,其中已升级一个或多个奇偶校验-镜像存储设备,并且包括奇偶校验数据段、不包括用于产生奇偶校验数据段的N个数据段。装置1800包括更新接收模块1802、更新复制模块1804、奇偶校验更新模块1806,下面将对这些模块进行说明。描述的装置1800的模块1802-1806位于服务器112中,但是还可以位于存储设备150、客户端114或这些设备的组合中,或者可以分布在多个设备中。
条带、数据段、存储设备150、存储设备集1604、奇偶校验数据段和一个或多个奇偶校验-镜像存储设备1602实质上等同于如上所述的与图11的装置1700相关的条带。装置1800包括更新接收模块1802,所述更新接收模块1802接收更新的数据段,其中所述更新的数据段对应于现有条带的现有数据段。在另一种实施方式中,更新接收模块1802可以接受多个更新,也可以一并或单独处理更新。
装置1800包括更新复制模块1804,所述更新复制模块1804将更新的数据段复制到存储对应的现有数据段的存储设备150中,还复制到对应现有条带的一个或多个奇偶校验-镜像存储设备1602。在另一种实施方式中,更新复制模块1804将更新的数据段复制到奇偶校验-镜像存储设备1602或复制到存储现有数据段的存储设备150,而后证明更新的数据段的拷贝转送给其他设备1602、150。
装置1800包括奇偶校验更新模块1806,所述奇偶校验更新模块1806响应存储整合操作,为现有条带的一个或多个奇偶校验-镜像存储设备计算一个或多个更新的奇偶校验数据段。存储整合操作同上述与图11的装置1700相关的存储整合操作相同。存储整合操作利用一个或多个更新的奇偶校验数据段,恢复一个或多个奇偶校验-镜像存储设备1602中的至少存储空间和/或数据。通过等待更新一个或多个奇偶校验数据段,将更新推迟到更方便时才进行或推迟到对整合存储空间而言更必要时才进行。
在一种实施方式中,根据现有的奇偶校验数据段、更新的数据段和现有的数据段计算更新的奇偶校验数据段。在一种实施方式中,读取用于生成更新的奇偶校验数据段的现有数据段之前,现有数据段保持不动。本实施方式的一个优点在于,不到必要时可以延缓将现有数据段复制到奇偶校验-镜像存储设备1602或(产生更新的奇偶校验数据段的)其他位置的相关开销。本实施方式的一个缺点在于,如果保留现有数据段的存储设备150发生故障,则在能生成更新的奇偶校验数据段之前,必须恢复现有数据段。
在另一种实施方式中,(存储现有数据段的)N个存储设备150a-n的存储设备150接收到更新的数据段的拷贝时,现有数据段被复制到数据-镜像存储设备1602。在存储整合操作前一直存储现有数据段。在另一种实施方式中,在促使更新的奇偶校验数据段进行计算的存储整合操作发生之前,如果(存储现有数据段的)N个存储设备150a-n的存储设备150的存储整合操作发生,则响应存储设备150的存储整合操作,将现有数据段复制到数据-镜像存储设备1602。后一实施方式更有优势,原因在于在(存储现有数据段的)其他存储设备150或奇偶校验-镜像存储设备1602的存储整合操作提出要求之前,不复制现有数据段。
在一种实施方式中,根据现有的奇偶校验数据段、更新的数据段和德耳塔数据段计算更新的奇偶校验数据段,其中德耳塔数据段为更新的数据段与现有数据段之差。通常,生成德耳塔数据段是更新奇偶校验数据段中的部分方案或中间步骤。生成德耳塔数据段的优点在于,其可压缩性很高,可以在传送前被压缩。
在一种实施方式中,在读取德耳塔数据段以生成更新的奇偶校验数据段之前,德耳塔数据段存储在存储现有数据段的存储设备中。在另一种实施方式中,存储现有数据段的存储设备150接收更新的数据段的拷贝时,德耳塔数据段被复制到数据-镜像存储设备1602。在另一种实施方式中,响应存储现有数据段的存储设备150的存储整合操作,德耳塔数据段被复制到数据-镜像存储设备1602。复制现有数据段时,后一种实施方式更有优势,原因在于,无论是存储现有数据段的存储设备150的存储整合操作更早执行还是促使更新的奇偶校验数据段的计算的另一存储整合操作更早执行,在执行之前,德耳塔数据文件都不会移动。
在多种实施方式中,模块1802、1804、1806的所有的部分操作(也就是接收更新的数据段、复制更新的数据段和计算更新的奇偶校验数据段)都在存储设备集1604的存储设备150、客户端114或第三方RAID管理设备中进行。在另一种实施方式中,存储整合操作根据更新接收模块1802和更新复制模块1804的操作自主进行。
图13是表示根据本发明的利用渐进RAID处理管理数据的方法1900的一种实施方式的示意性流程图。方法1900开始(步骤1902),存储请求接收模块1702接收数据存储请求(步骤1904),其中数据是文件的数据或对象的数据。条带化模块1704计算数据的条带形状并将N个数据段写入N个存储设备150(步骤1906)。条带形状包括一个或多个条带。每个条带包括一个N个数据段集,其中每个数据段集都被写入分配给条带的存储设备集1604的不同存储设备150中。
奇偶校验-进行模块1706将条带的N个数据段集写入存储设备集1604内一个或多个奇偶校验-镜像存储设备1602(步骤1908)。所述一个或多个奇偶校验-镜像存储设备是除N个存储设备150a-n以外的设备。奇偶校验生成模块1708判定是否有即将发生的存储整合操作(步骤1910)。如果奇偶校验生成模块1708判定没有即将发生的存储整合操作,则方法1900返回,继续判定是否有即将发生的存储整合操作(步骤1910)。在另一种实施方式中,存储请求接收模块1702、条带化模块1704和奇偶校验-镜像模块1706继续接收存储请求、计算条带形状和存储数据段。
如果奇偶校验生成模块1708判定有即将发生的存储整合操作(步骤1910),则奇偶校验生成模块1708计算条带的奇偶校验数据段(步骤1912)。根据奇偶校验-镜像存储设备1602中存储的N个数据段计算奇偶校验数据段。奇偶校验生成模块1708存储奇偶校验-镜像存储设备1602中的奇偶校验数据段(步骤1912),方法1900终止(步骤1914)。根据接收存储N个数据段的请求(步骤1904)、将N个数据段写入N个存储设备(步骤1906)或将N个数据段写入一个或多个奇偶校验-镜像存储设备(步骤1908),自主进行存储整合操作。进行存储整合操作以恢复奇偶校验-镜像存储设备1602的至少存储空间或数据。
图14是表示根据本发明的利用渐进RAID处理更新数据段的方法2000的一种实施方式的示意性流程图。方法2000开始(步骤2002),更新接收模块1802接收更新的数据段(步骤2004),其中更新的数据段对应于现有条带的现有数据段。更新复制模块1804将更新的数据段复制到(存储对应的现有数据段的)存储设备150,还将更新的数据段复制到(对应于现有条带的)一个或多个奇偶校验-镜像存储设备1602(步骤2006)。
奇偶校验更新模块1806判定是否有即将发生的存储整合操作(步骤2008)。如果奇偶校验更新模块1806判定没有即将发生的存储整合操作,则奇偶校验更新模块1806等待存储整合操作(步骤2010)。在一种实施方式中,方法2000返回,接收其他更新数据段(步骤2004)并且复制更新的数据段(步骤2006)。如果奇偶校验更新模块1806判定有即将发生的存储整合操作,则奇偶校验更新模块1806计算用于现有条带的奇偶校验-镜像存储设备的一个或多个更新的奇偶校验数据段(步骤2010),方法2000结束(步骤2012)。
本发明可采用其他指定形式实施而不脱离本发明的宗旨或本质特点。描述的实施方式在各个方面被视为仅仅是示例性而不是限制性的。因此,本发明的范围由权利要求确定,而不是由上述说明书确定。在本发明的权利要求的含义和等价范围内的所有改变被包含在本发明的保护范围内。

采用渐进RAID存储数据的装置、系统和方法.pdf_第1页
第1页 / 共98页
采用渐进RAID存储数据的装置、系统和方法.pdf_第2页
第2页 / 共98页
采用渐进RAID存储数据的装置、系统和方法.pdf_第3页
第3页 / 共98页
点击查看更多>>
资源描述

《采用渐进RAID存储数据的装置、系统和方法.pdf》由会员分享,可在线阅读,更多相关《采用渐进RAID存储数据的装置、系统和方法.pdf(98页珍藏版)》请在专利查询网上搜索。

本发明公开了采用渐进RAID进行数据存储的装置、系统和方法。存储请求接收模块(1702)接收数据存储请求。条带化模块(1704)计算数据的条带形状,每个条带包括N个数据段。所述条带化模块(1704)将N个数据段写入N个存储设备(150)。每个数据段写入分配给条带的存储设备集(1604)内的不同存储设备(150)。奇偶校验-镜像模块(1706)将N个数据段集写入存储设备集内的一个或多个奇偶校验-镜像。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1