用于计算机架级别的冷却冗余度的方法 发明背景发明领域 依照本发明的至少一种实施方式大体上涉及用于数据中心管理的系统和方法, 且 更具地, 涉及用于管理数据中心冷却的系统和方法。
相关技术的讨论
为响应信息经济增长的需求, 信息技术网络继续扩散到全球。该增长的一种表现 为集中的网络数据中心。集中的网络数据中心典型地包括各种信息技术设备, 其被并置在 提供网络连通性、 电功率和冷却能力的结构中。 通常, 设备被封装在专用的外壳中, 称为 “机 架” , 其结合这些连通性、 功率和冷却元素。 在一些数据中心配置中, 这些机架被组成行以及 具有热和冷通道的群组以减少与冷却信息技术设备相关的成本。 这些特点使数据中心具有 成本效益的方式以传递由许多软件应用要求的计算能力。
各种过程和软件应用, 诸如中心产品, 可购于罗德岛州的西金斯顿的美国功率转换公司 (APC), 已被发展为在设计和保持数据中心配置的效率和效应中辅 助数据中心人员。这些工具通常通过诸如设计数据中心结构、 在安装之前在数据中心内定 位设备以及在构造和安装被完成之后添加、 重新定位或移除设备的行为来引导数据中心人 员。因此, 常规的工具设置提供数据中心人员标准化的和可预测的设计方法学。
由于冷空气到机架的传递和 / 或来自机架的热机架废气的获取的局部变化, 即使 在使用这类工具仔细设计之后, 几乎通常的情况为一些机架的位置具有过多或过少的冷 却。这不仅是用于主 ( 非故障模式 ) 冷却的情况, 而且也是用于各种冷却故障模式的情况。 为补偿在 ( 主和故障模式 ) 冷却中该机架到机架变化, 设施通常被过度设计 - 通常通过大 幅度的设计, 因为停机的后果为严重的。此冷却设备 ( 主和故障模式 ) 的过度提供导致过 多的资本和操作成本。
发明概述
本发明的实施方式的方面提供用于实时地计算数据中心的每个机架位置的冷却 冗余度的方法。冗余度能够使用传统的 N+1、 N+2 等计数来报告, 其中 N 为需要满足主冷却 负载类型规格的冷却器的数量。冗余度也能够根据冷却可靠性指标 (CRI) 来报告, 其也考 虑在设计中的具体冷却单元的固有可用性。
仍然为其它方面、 实施方式以及这些示例的方面和实施方式的优点在以下详细地 被讨论。 此外, 应理解的是, 前述信息和以下详细的描述仅仅为各种方面和实施方式的说明 性的实例, 且预期提供用于理解要求保护的方面和实施方式的性质和特性的概述或框架。 附图被包括以提供各种方面和实施方式的说明和进一步的理解, 且被并入和组成该说明书 的一部分。 附图与说明书的剩余部分一起作用于解释描述的和要求保护的方面和实施方式 的原理和操作。
附图简述
附图没有被规定为按比例绘制。在附图中, 在各种图中说明的每个相同的或几乎相同的组件由相似的数字代表。为清晰起见, 没有在每个附图中标注每个组件。在附图中 :
图 1 示出了示例性的计算机系统, 根据本发明的各种方面可利用该计算机系统执 行;
图 2 说明了包括实施方式的示例性的分布式系统 ;
图 3 说明了根据实施方式的用于设计数据中心配置的示例性的过程 ;
图 4 描述了根据实施方式的用于设计数据中心配置的另外的示例性的过程 ;
图 5 示出了根据实施方式的用于设计数据中心配置的另外的示例性的过程 ;
图 6 示出了根据实施方式的示例性的界面, 用户可通过该界面向数据中心模型提 供输入 ;
图 7 示出了根据实施方式的示例性的界面, 用户可通过该界面设计数据中心模 型; 以及
图 8 描述了根据编码的实施方式的代表正操作的冷却器和不操作的冷却器的向 量的序列。
详细描述
依照本发明的至少一些实施方式涉及这样的系统和过程, 用户可通过该系统和过 程设计数据中心配置。 这些系统可通过允许用户以各种粒度级别评估数据中心冷却冗余度 来方便该设计活动, 该粒度级别包括群组、 行和机架级别。 设计工具诸如并入到由 APC 提供的常规工具的实时冷却计算器和计算流体动力 学 (CFD) 有利于具有主冷却要求的机架对机架 IT 负载的合适的匹配 ; 然而, 目前, 这里没有 使确定各种冷却故障情景下可用到每个机架的冷却的过程自动化的工具, 如下描述的。数 据中心设计者或操作员得益于并入实施方式的方面的设计工具, 以及因此其不仅表示在每 个机架位置的主冷却性能而且还表示在每个机架位置的冗余度。
目前, 没有在机架级别的冷却冗余度的概念, 尽管在数据中心中, 从一个位置到另 外的位置, 冷却故障模式性能明显地变化。例如, 考虑机架的群组和基于行的冷却器, 其中 几个冷却器被定位在群组的左端附近以及另外的单个冷却器被定位在群组的右端附近。 在 左端的单个冷却器的故障将可能对左端附近的机架的冷却性能不具有影响, 因为在该区域 中的多个冷却器将继续运行 ; 然而, 在右端的单个冷却器的故障将可能导致群组的右端附 近的机架的冷却不足, 因为在该区域中不存在其它冷却器以保护负载。
在一些实施方式中, 模型可包括数据中心的结构组件, 诸如, 在其它结构组件中, 墙体、 屋顶、 地板以及由这些结构组件限定的空间。模型也可包括数据中心设备的代表, 诸 如, 除其它设备外, 定位在模型空间内的冷却消耗者和冷却提供者。 冷却提供者可为数据中 心的任何元素, 其涉及冷空气到其它数据中心设备的生成和分布。 冷却提供者的实例包括, 除其它之外, 计算机室空调 (CRAC)、 计算机室空气处理器 (CRAH) 以及定位于地板或屋顶的 瓷砖。冷却消耗者包括数据中心的任何元素, 其消耗由冷却提供者生成的冷却供应。冷却 消耗者的实例包括, 除其它之外, 网络装置、 服务器和其它信息技术设备。 在数据中心中, 这 些冷却消耗者可被安装在机架中, 虽然这里没有要求。 在至少一种实施方式中, 模型可通过 数据中心设备的代表来计算和显示冷却性能信息, 诸如, 冷却指标。此外, 在至少一种实施 方式中, 模型可计算和显示冗余度信息, 诸如每个机架所容许的冷却设备故障的数量或冷 却可靠性指标 (CRI)。
依照本发明在此公开的方面在它们的应用中不限制为在以下描述中提到的或在 附图中说明的构造的细节和组件的安排。 这些方面能假设其它实施方式以及被实践或以各 种方式被实施。 具体执行方式的示例在此仅仅为了说明的目的而被提供而且不被规定为限 制。 特别地, 结合一种或更多实施方式讨论的行为、 元素以及特征不是要排除任何其它实施 方式中相似的作用。
例如, 根据本发明的一种实施方式, 计算机系统被配置以执行在此描述的任何功 能, 包括但不限于, 配置、 建模以及呈现有关具体数据中心配置的信息。 然而, 这类系统也可 执行其它功能, 诸如, 基于例如工业最佳实践来建议对数据中心配置的改变。另外, 在此描 述的系统可被配置以包括或排除在此描述的任何功能。因此, 本发明不限制为具体功能或 功能的设置。同样, 在此处使用的措辞和术语是为了描述的目的且不应该被视为限制。 “包 括 (including)” 、 “包 括 (comprising)” 、 “具 有 (having)” 、 “包 含 (containing)” 、 “涉 及 (involving)” 及其变化在此的使用意味着包含其后列出的项目及其等价物以及附加的项 目。
计算机系统
依照本发明在此描述的各种方面和功能可被执行为在一个或多个计算机系统上 的硬件或软件。这里存在目前使用的计算机系统的许多实例。这些实例包括, 除其它之外, 网络装置、 个人计算机、 工作站、 大型主机、 网络客户、 服务器、 媒体服务器、 应用服务器、 数 据库服务器和网络服务器。 计算机系统的其它实例可包括移动计算设备, 诸如, 移动电话和 个人数字助理, 以及网络设备, 例如负载均衡器、 路由器和开关。 此外, 依照本发明的方面可 被定位在单个计算机系统上或可被分布在连接到一个或多个通信网络的多个计算机系统 中。
例如, 各种方面和功能可被分布在一个或多个计算机系统中, 其被配置以向一个 或多个客户端计算机提供服务, 或执行全部任务, 作为分布式系统的部分。此外, 各方面可 在客户服务器或多层系统上执行, 其包括分布在执行各种功能的一个或多个服务器系统中 的组件。因此, 本发明不限制于在任何特定的系统或系统的组上执行。此外, 各方面可在软 件、 硬件或固件中, 或其任何组合中实施。因此, 依照本发明的方面可在方法、 行为、 系统、 系统元素和使用各种硬件和软件配置的组件中实施 ; 本发明不限制为任何特定的分布式架 构、 网络, 或通信协议。
图 1 示出了分布式计算机系统 100 的方框图, 其中依照本发明的各种方面和功能 可被实践。分布式计算机系统 100 可包括一个或多个计算机系统。例如, 如说明的, 分布式 计算机系统 100 包括计算机系统 102、 104 和 106。如所示的, 计算机系统 102、 104 和 106 通 过通信网络 108 互连, 以及通过通信网络 108 可交换数据。网络 108 可包括任何通信网络, 计算机系统可通过该通信网络交换数据。为使用网络 108 交换数据, 计算机系统 102、 104 和 106 和网络 108 可使用各种方法、 协议和标准, 其包括, 除其它之外, 令牌环、 以太网、 无线 以太网、 蓝牙、 TCP/IP、 UDP、 Http、 FTP、 SNMP、 SMS、 MMS、 SS7、 Json、 Soap 以及 Corba。为确保 数据传送为安全的, 计算机系统 102、 104 和 106 可使用包括 TSL、 SSL 或 VPN 以及其它安全 技术的各种安全测量来通过网络 108 传输数据。虽然分布式计算机系统 100 说明了三种网 络计算机系统, 但是分布式计算机系统 100 可包括任何数量的计算机系统和计算设备, 其 使用任何媒体和通信协议网络化。依照本发明的各种方面和功能可被实施为在包括图 1 中所示的计算机系统 102 的 一个或多个计算机系统中执行的专用的硬件或软件。如描述的, 计算机系统 102 包括处理 器 110、 存储器 112、 总线 114、 接口 116 和存储 118。 处理器 110 可执行产生操作数据的一系 列指令。 处理器 110 可为市场上可购买的处理器, 诸如, Intel Pentium、 Motorola PowerPC、 SGI MIPS、 Sun UltraSPARC, 或 Hewlett-Packard PA-RISC 处理器, 但可为任何类型的处理 器或控制器, 因为许多其它的处理器和控制器为可用的。处理器 110 通过主线 114 连接到 其它系统元件, 包括一个或多个存储器设备 112。
存储器 112 可用于在计算机系统 102 的操作期间存储程序和数据。因此, 存储器 112 可为相对高性能的、 易失性的、 随机存取存储器, 诸如动态随机存取存储器 (DRAM) 或静 态存储器 (SRAM)。 然而, 存储器 112 可包括用于存储数据的任何设备, 诸如磁盘驱动或其它 非易失性的存储设备。依照本发明的各种实施方式可组织存储器 112 到特殊的, 以及在一 些情况下, 独特的结构以执行在此公开的方面和功能。
计算机系统 102 的组件可由互连的元件诸如总线 114 耦合。总线 114 可包括一 个或多个物理总线, 例如, 集成在相同的机器之内的组件之间的总线, 而且可包括在系统 元件之间耦合的任何通信, 其包括专用的或标准的计算总线技术, 诸如, IDE、 SCSI、 PCI 和 InfiniBand。因此, 总线 114 使通信成为可能, 例如, 在计算机系统 102 的系统组件之间要 被交换的数据和指令。 计算机系统 102 也包括一个或多个接口设备 116, 例如, 输入设备、 输出设备和组 合输入 / 输出设备。接口设备可接收输入或提供输出。更特别地, 输出设备可致使信息用 于外部显示。输入设备可接收来自外部资源的信息。接口设备的实例包括键盘、 鼠标设备、 轨迹球、 扩音器、 触摸屏、 打印设备、 显示屏、 扬声器、 网络接口卡, 等。接口设备允许计算机 系统 102 交换信息和与外部实体通信, 诸如, 用户和其它系统。
存储系统 118 可包括计算机可读和可写非易失性存储媒体, 存储在其中的指令定 义要由处理器执行的程序。存储系统 118 也可包括记录在媒体上或媒体中的信息, 以及该 信息可由程序处理。 更具体地, 信息可被存储在一个或多个数据结构中, 其特别地配置以保 存存储空间或增加数据交换性能。指令可被不断地存储作为解码的信号, 且指令可造成处 理器执行在此描述的任何功能。例如, 媒体可为光盘、 磁盘或闪存, 以及其他。在操作中, 处 理器或一些其它控制器可造成数据从非易失性记录媒体被读到另外的存储器, 诸如存储器 112, 其允许比包括在存储系统 118 中的存储媒体更快的由处理器存取信息。存储器可被定 位在存储系统 118 中或定位在存储器 112 中, 然而, 处理器 110 可操作存储器 112 内的数据, 且然后在处理被完成之后将数据复制到与存储系统 118 相关的媒体。各种组件可管理在媒 体和集成电路存储元件之间的数据移动, 且本发明不限制为此。 此外, 本发明不限制为特定 的存储器系统或存储系统。
虽然计算机系统 102 通过实例的方式被示出作为依照本发明的各种方面和功能 实践所依据的计算机系统的一种类型, 但是本发明的方面不限制为在图 1 中示出的计算机 系统上被执行。依照本发明的各种方面和功能可在一个或多个计算机上被实践, 其具有与 在图 1 中示出的不同的架构或组件。例如, 计算机系统 102 可包括专门编程的、 专用硬件, 诸如例如, 在此公开的适合执行特殊操作的特定用途集成电路 (ASIC)。然而另外的实施方 式可使用运行具有 Motorola PowerPC 处理器的 MAC OS 系统 X 的几个通用计算设备和运行
专属硬件和操作系统的几个专用计算设备执行相同的功能。
计算机系统 102 可为包括操作系统的计算机系统, 其管理包括在计算机系统 102 中的至少一部分硬件元件。通常, 诸如处理器 110 的处理器或控制器执行操作系统, 其可 为可购于 Microsoft 公司的例如基于 Windows 的操作系统, 诸如, Windows NT、 Windows 2000(Windows ME)、 Windows XP 或 Windows Vista 操作系统, 可购于 Apple Computer 公司 的 MAC OS 系统 X 操作系统, 许多基于 Linux 操作系统分销之一, 例如, 可购于 Red Hat 公司 的企业版 Linux 操作系统, 可购于 Sun Microsystems 公司的 Solaris 操作系统, 或可购于 各种来源的 UNIX 操作系统。许多其它操作系统可被使用, 且实施方式不限制为任何特定的 执行。
处理器和操作系统一起定义计算机平台, 对于其以高级别的编程语言的应用程序 可被编写。这些组件应用可为可执行的、 即时的, 例如, C-、 字节码或翻译码, 其在通信网络 上通信, 例如, 使用通信协议的互联网, 例如, TCP/IP。类似地, 依照本发明的方面可使用面 向对象的编程语言执行, 诸如, .Net、 SmallTalk、 Java、 C++、 Ada、 或 C#(C-Sharp)。其它面 向对象的编程语言也可被使用。可选地, 功能的、 脚本的, 或逻辑编程语言可被使用。
此外, 依照本发明的各种方面和功能可在非编程的环境中执行, 例如, 以 HTML、 XML 或其它格式创建的文件, 当在浏览器程序的窗口中查看时, 其致使图解的用户界面的方面 或执行其它功能。 此外, 依照本发明的各种实施方式可被执行作为编程的或非编程的元素, 或其任何组合。例如, 网页可使用 HTML 执行, 虽然从网页内部访问的数据目标可以 C++ 编 写。因此, 本发明不限制为具体的编程语言且任何适合的编程语言也能够被使用。 包含在实施方式内的计算机系统可执行在发明范围外的功能。例如, 系统的方面 可使用存在的商业产品来执行, 诸如, 例如, 数据库管理系统, 诸如可购于华盛顿州的西雅 图的 Microsoft 公司的 SQL 服务器、 来自 Redwood Shores 的 Oracle 的 Oracle 数据库、 CA, 以及来自瑞典乌普萨拉的 MySQLAB 的 MySQL 或集成软件, 诸如来自纽约的 Armonk 的 IBM 的 Web Sphere 中间件。然而, 运行例如 SQL 服务器的计算机系统可能能够支持依照本发明的 方面和用于不在本发明的范围内的各种应用的数据库。
示例性系统架构
图 2 呈现了包括分布式系统 200 的物理和逻辑元件的环境图。如示出的, 分布式 系统 200 依照本发明被专门地配置。关于图 2 叙述的系统结构和内容仅为示例的目的且不 是要将本发明限制为在图 2 中示出的具体结构。如对于本领域的普通的技术人员中的一个 为明显的, 许多不同的系统结构能够在没有偏离本发明的范围的情况下被构造。在图 2 中 呈现的特殊的布置被选择以提升清晰度。
信息可使用任何技术在图 2 中描述的元件、 组件和子系统之间流动。这类技术包 括, 例如, 在网络上经 TCP/IP 传递信息, 在存储器中的模块之间传递信息以及通过编写到 文件、 数据库或一些其它的非易失性存储设备来传递信息。其它技术和协议可在没有偏离 本发明的范围的情况下被使用。
参照图 2, 系统 200 包括用户 202、 设计界面 204、 数据中心设计和管理系统 206、 通 信网络 208 和数据中心数据库 210。 系统 200 可允许用户 202 比如数据中心设计师或其他数 据中心人员与设计界面 204 交互以创建或修改一个或多个数据中心配置的模型。根据一种 实施方式, 设计界面 204 可包括地板编辑器和机架编辑器的方面, 如在 2008 年 5 月 15 日提
交的题为 METHODS AND SYSTEMS FOR MANAGING FACILITY POWER AND COOLING 的专利合作 条约申请号 PCT/US08/63675 中公开的, 其在此以其整体通过引用被并入且以下称为 PCT/ US08/63675。在其它实施方式中, 设计界面 204 可以专用的设施来执行, 其使用户 202 能够 以拖拽的方式设计模型, 该模型包括数据中心的物理布局的代表或其任何子集。该布局可 包括数据中心结构组件的代表以及数据中心设备。设计界面 204 的特征还在以下被讨论的 依照本发明的各种实施方式中可被找到。
如在图 2 中所示, 数据中心设计和管理系统 206 将数据设计界面 204 呈现给用 户 202。根据一种实施方式, 数据中心设计和管理系统 206 可包括如在 PCT/US08/63675 中公开的数据中心设计和管理系统。在该实施方式中, 设计界面 204 可并入包括在 PCT/ US08/63675 中的输入模块、 显示器模块和生成器模块的功能并且可使用数据库模块以存储 和检索数据。
如说明的, 数据中心设计和管理系统 206 可通过网络 208 与数据中心数据库 210 交换信息。该信息可包括要求支持数据中心设计和管理系统 206 的特征和功能的任何信 息。例如, 在一种实施方式中, 数据中心数据库 210 可包括在 PCT/US08/63675 中描述的数 据中心设备数据库中存储的数据的至少一些部分。在另外的实施方式中, 该信息可包括要 求支持设计界面 204 的任何信息, 诸如, 除其它数据之外, 一个或多个数据中心模型配置的 物理布局、 包括在模型配置中的冷却提供者的产生和分布特点、 在模型配置中的冷却消耗 者的消耗特点以及表征由冷却提供者产生的冷空气的量的一个或多个冷却指标, 该冷空气 在由冷却消耗者消耗之前丧失或由冷却消耗者消耗。 在至少一种实施方式中, 数据中心数据库 210 可存储, 作为数据中心模型配置的 物理布局的部分, 组成数据中心的表面的瓷砖, 诸如, 模型空间的地板、 屋顶和墙壁的位置 和特点。 在至少一种实施方式中, 瓷砖可为凸起的地板的部分的地板瓷砖, 然而在另外的实 施方式中, 瓷砖可为吊顶的部分的屋顶瓷砖。存储在数据中心数据库 210 中的瓷砖特点可 包括, 除其它特点外, 瓷砖是否被穿孔、 瓷砖的尺寸和与瓷砖相关的冷却指数, 诸如, 在穿孔 的瓷砖的实例中, 气流速率和穿过其的空气的温度。如在此使用的, 术语 “穿孔的瓷砖” 可 包括设计以允许气流穿过其边界的任何表面。穿孔的瓷砖的实例包括, 除其它标准尺寸的 穿孔的瓷砖外, 定制尺寸的穿孔的瓷砖、 覆盖架和开孔。在一些实施方式中, 该信息为有用 的, 用于通过设计界面 204 提供增强的功能性。
在另外的实施方式中, 数据中心数据库 210 可存储, 作为冷却提供者的生产和分 布特点的一部分, 冷却提供者的类型、 由冷却提供者提供的冷空气的量, 以及由冷却提供者 提供的冷空气的温度。因此, 例如, 数据中心数据库 210 包括 CRAC 单元的特定的类型的记 录, 其被规定以在华氏温度 68 度的温度以 5600cfm 的速率传递气流。除此之外, 数据中心 数据库 210 可存储一个或多个冷却指标, 诸如, 空气室的气流泄漏率, 诸如, 凸起的地板或 吊顶。
数据中心数据库 210 可表现为能够在计算机可读媒体上存储信息的任何逻辑结 构的形式, 其包括, 除其它结构外, 平面文件、 索引文件、 分层数据库、 关系数据库或面向对 象的数据库。数据可使用独特的且外部的关键关系和指数建模。独特的且外部的关键关系 和指数可在各种域和表格之间被建立以确保数据完整性和数据互换性能。
在图 2 中示出的计算机系统, 其包括数据中心设计和管理系统 206、 网络 208 和数
据中心设备数据库 210, 每个可包括一个或多个计算机系统。如以上关于图 1 讨论的, 计算 机系统可具有一个或多个处理器或控制器、 存储器和接口设备。在图 2 中描述的系统 200 的特殊的配置仅被用于说明的目的且本发明的实施方式可在其它环境中被实践。因此, 本 发明不限制为用户或系统的具体数字。
设计界面实施方式
根据各种实施方式, 设计界面 204 可提供用户关于他们如何及何时设计数据中心 冷却系统的高度的灵活性。在这些实施方式中, 用户可在数据中心配置的剩余部分之前设 计整个冷却系统, 可同时与数据中心的其它属性一起设计冷却系统或可在数据中心设计的 其它部分被完成之后设计冷却系统。因此, 设计界面 204 可被用于设计新的数据中心或可 被用于修改存在的数据中心的设计。 用于执行这些设计活动的有用的系统和方法的规划受 设计界面 204 可被建造和组织的独特方式影响。相反地, 在这些设计活动中使用的元件和 执行的活动影响设计界面 204 的该实施方式的属性和能力。
设计界面 204 可通过各种用户界面屏幕和元件提供功能性。图 3 说明了用户界面 300 的实例, 其可被包括在根据一些实施方式的设计界面 204 中。如所示的, 用户界面 300 包括关于地板编辑器和机架编辑器在 PCT/US08/63675 中讨论的许多用户界面元件。这些 元件可在该实施方式中运行, 因为它们利用在 PCT/US08/63675 内公开的地板编辑器和机 架编辑器运行。
在该设计界面的环境中, 实施方式提供用于计算和确保在具体的机架位置的冷却 冗余度的特征。通常地, 不存在具体的机架位置的冷却冗余度的概念。单个冗余度级别通 常地被设定用于整体设施。 在一些情况下, 在设施中的一些机架将具有充足的冗余度, 虽然 其它将不具有。 其它设施可被非常过分地设计以确保在大量的资金和不断的能量成本被消 耗的所有位置的冷却冗余度。 示例性的实施方式提供这样的方法, 通过该方法, 能够计算在 新的或存在的设施中的每个机架位置的冗余度。以此信息, 数据中心设计者和操作员能够 做出涉及 IT 正常运行时间和开支的基于事实的商业决策。例如, 新的设施的设计者能够 最小化冷却器的数量以仅满足要求的冗余度水平, 其在数据中心的不同区域中可能是不同 的, 因此避免与过度供应有关的成本。 作为另外的实例, 数据中心操作者可使用该方法以确 定哪里安装新的服务器以使新的服务器的冷却冗余度要求将被达到且其它在 IT 设备附近 的冷却冗余度将不会受到安装的不利影响。
依照进一步的方面和实施方式, 冷却可靠性指标 (CRI) 能够以除了或代替传统的 N+1 方式冗余度规格的方式被计算。CRI 考虑冷却设备的固有可靠性特点 ( 例如, MTBF、 MTTR) 且能够被用以估算在每个机架位置可达到的充分冷却的时间的实际部分。
计算机架级别的 N+1 冗余度
基于 N+1 方式计算的用于机架和冷却器的群组的冗余度计算能够在任何适合的 数据中心设计工具内被执行。在说明性的实施方式中, 获取指数 (CI), 该指数在 2006 年 1 月 27 日提交的待审的 US 专利申请 S/N11/342,300 中详细地被描述, 其在 2007 年 2 月 15 日被公布为文件 2007-0038414 A1, 其在此以引用的方式并入。总的来说, CI 代表来自数据 中心内关注的位置的废气的百分比, 其由用于该位置的 ( 对于空气从位置排到通道的热通 道位置 ) 冷却器 “获取” , 或来自冷却器的被冷却的空气的百分比, 其由在数据中心内 ( 对于 空气在来自通道的位置被接收的冷通道位置 ) 的一个或多个关注的位置 “获取” 。为了该示例性的实施方式的目的, CI 服务器作为冷却性能度量, 虽然其它度量, 类似机架入口温度, 能够被使用。
使用实时的、 基于 CI 的冷却计算器, 能实质上在每个冷却器故障情景下在房间级 别确定机架冷却性能。在该讨论中, 冷却器故障可为冷却器或任何其它冷却相关设备的故 障, 其使位置的有效冷却减少指定的量。在房间级别确定机架冷却性能意味着考虑在房间 中的任何地方的冷却器故障, 因为它们影响讨论中的机架。体现本发明方面的方法和装置 简单地测试房间的所有冷却器故障情景并且在机架上的充分的冷却仍然被保存期间, 记录 限制数量和类型故障。例如, 如果机架的冷却性能在任何两个在房间中的冷却器 “故障” 的 情况下保持充分 ( 充分冷却性能为在一些最小阈值之上的 CI), 机架在房间级别具有 “N+2” 的冗余度。
CI 仅识别由于气流不足在机架通道不足冷却的情况。能够被选择地应用的充分 冷却性能上的附加约束为所有剩余起作用的冷却器必须具有能够在故障情景下冷却房间 的总的热负载的冷却能力 ; 如果不能, 这类故障可被理解为在所有机架位置的冷却故障。 类 似的附加的、 选择的约束为剩余起作用的冷却器必须具有能够防止由于除了不足空气流的 影响导致机架冷却故障的局部的热点的冷却能力。这些选择的约束能够被应用于除 CI 分 析之外, 或能够在一些情况下, 通过将 CI 和温度信息并入到更多推出的指数中来建立 CI 分 析, 或能够以任何其它适合的方式被应用。 然而, 这些附加的约束代表在当前的设计实践中 的不可能的故障模式。
为节省计算, 用户指定的 “目标冗余度级别” 能够被使用。例如, 如果用户设置 “N+1” 的目标冷却冗余度, 一旦所有单个冷却器故障情景被测试并发现为 “OK” , 则冷却冗余 度被已知为 “N+1” 且多个冷却器故障情景不需要被测试。
根据本发明方面的实施方式对最终用户提供冷却可靠性的估算。 冷却单元的正确 布置可为难以猜测的, 因为甚至微小的调整能够造成在局部和房间气流的大的偏差。 因此, 示例性的工具将估算机架的冷却冗余度。估算的冗余度将为 ‘额外的’ 可用冷却的测量。 该附加的冷却将可能每次允许一个或多个冷却器关闭或故障以及维持全部服务器操作。 因 此, 冗余度可取决于使用的度量而被不同地定义, 如根据在仍然安全地操作设备机架的同 时, 能够在任何组合中被关闭的冷却器的最大数量定义。
冷却冗余度可取决于范围而被不同地定义。 更高级别的房间和群组冗余度能够描 绘概貌, 虽然机架对机架测量能够准确描绘用于改进的区域。
机架冷却冗余度
机架冗余度为工具的基础。在机架级别上, 单元的冷却冗余度为处理冷却单元的 期望的或不期望的关闭或故障的能力的测量。这里有几种情况 :
A.“无覆盖范围” - 当前群组配置不足冷却该机架。
B.“N” - 当前群组配置充分地冷却机架, 但至少一个冷却单元的关闭或故障造成 不足冷却。
C.“N+1” - 机架在当前配置和在任何单个冷却单元关闭或故障情况下被充分地冷 却。
D.“N+j” 其中 j 为大于 1 的整数 - 机架被充分地冷却, 即使 j 个冷却单元的组合 被关闭或故障。群组冷却冗余度
对于整体的群组冷却冗余度, 群组中的所有机架的冗余度被检查以找到具有最小 覆盖范围的机架。该机架的覆盖范围定义整体的群组冗余度。因此, 如果在任何单个冷却 单元关闭的情况下, 所有机架被充分地冷却, 群组具有 N+1 的冗余度。
房间冷却冗余度
类似地, 房间具有对应在房间内的最坏的机架冗余度的冷却冗余度。
冷却冗余度的确定
由于每个其它级别取决于机架冗余度, 所以每个机架被检查, 如在图 3 中说明的。 以其最简单的形式, 对于给定的机架, 该实施方式的方法 300 检查冷却器关闭的每种可能 的组合, 在机架不再被充分地冷却时记录配置 301、 303 和 305。然后, 307, 冗余度被识别为 使机架具有不充分的冷却而无法保持在安全的操作温度的关闭的冷却器的最小数量减一。
方法 300 能够以两种方式中的任一种执行, 如可被期望的。方法 300 能够被执行 用于考虑的每个机架位置, 例如在房间内, 如以上表示的。根据该第一可选方式, 在 302a 处 表示的选择性的决策被执行且在 302b 处表示的选择性的决策被跳过。根据第二可选方式, 在通过以下描述的方法 300 的每个执行期间, 步骤 303 检查每个机架位置的充足的冷却以 及步骤 305 记录检查的每个机架位置的结果。为执行该第二可选方式, 在 302b 处表示的选 择性的决策被执行且在 302a 处表示的选择性的决策被跳过。 在更多的细节中, 如果采用第一可选方式, 方法 300 将对所有机架执行由决策 302a 定义的循环。方法 300 对关闭的冷却器的所有组合执行一系列的检查, 301。在每个检 查期间, 方法首先检查下一个未测试的组合以确定给定的机架是否具有充分的冷却, 303。 检查的组合以及在给定的机架造成的冷却是否将不足被记录, 305, 例如在计算机存储器或 在计算机文件上。 这些检查被重复, 301、 303、 305, 直到关闭的冷却器的所有组合被检测。 最 后, 307, 机架冗余度被识别为其中具有冷却器关闭的最小数量以及其同样具有不足的冷却 的组合中的冷却器关闭的数量减 1。冗余度级别的识别, 307, 能够通过搜索记录的信息、 通 过当数据被创建和记录时分类数据的过程、 通过在数据已被记录后分类数据的过程, 或通 过任何其它适合的过程来进行。
如果采用第二可选方式, 方法 300 进入循环以执行对关闭的冷却器的所有组合的 一系列检查, 301。在每个检查期间, 方法然后进入子循环以测试所有机架, 如由决策 302b 定义的。在子循环内, 方法首先检查下一个未测试的组合以确定给定的机架是否具有充分 的冷却, 303。检查的组合以及在给定的机架造成的冷却是否将不足被记录, 305, 例如在计 算机存储器或在计算机文件上。这些检查被重复, 301、 302b、 303、 305, 直到对于每个机架, 关闭的冷却器的所有组合被检测。最后, 307, 机架冗余度被识别在其中具有冷却器关闭的 最小数量以及其同样具有不足的冷却的组合中的冷却器关闭的数量减 1。冗余度级别的识 别, 307, 能够通过搜索记录的信息、 通过当数据被创建和记录时分类数据的过程、 通过在数 据已被记录后分类数据的过程, 或通过任何其它适合的过程来进行。
列举所有这些组合对于大量的机架和冷却器在计算上是昂贵的, 以及对于列举的 每种组合, 生成的 CI 的代数计算 ( 包括一个或多个代数步骤 ) 被要求。如果 n 为冷却器的 数量, 则这里存在 2n 个组合。例如, 以两个冷却器, 第一冷却器和第二冷却器, 22 = 4 的故 障模式为 : 冷却都不故障、 仅第一冷却器故障、 仅第二冷却器故障, 以及两个冷却器都故障。
因此, 更多的方面保持需要的代数步骤的数量最小, 至少通过使每个机架的列举的组合的 数量最小化。
根据最小化计算负载的一方面, 一旦一个机架被确定具有不足冷却, 则冗余度被 报出如以下。房间级别机架冗余度, 以及确定具有不足冷却的机架的冗余度为在故障点关 闭的冷却器的数量减 1。所有剩余的机架被报告具有相同的或更好的冗余度, 也就是, 相同 的或更大的冗余度值。
如在图 4 中所示的, 根据更多有效方法的实施方式, 400, 组合以固定的顺序被测 试。首先, 具有一个关闭的冷却器的所有配置被测试, 紧接着为所有双冷却器故障配置等。 该逻辑排序确保在机架首先没有被充分冷却时, 对于该机架没有附加的配置需要被测试, 因为一旦机架在给定的冗余度级别下出故障, 则其冗余度级别为已知的。
根据该实施方式的方法 400, 指数 I 从 1 增加到关闭的冷却器的最大可能数量, 401。如果指数小于最大值, 然后, 具有 I 个冷却器关闭的组合被测试以确定是否充分的冷 却对于 I 个冷却器关闭的所有组合为可达到的, 403。测试, 403, 能够类似于方法 300 进行, 修改之处是, 关闭的冷却器的所有组合, 301, 被限制为 I 个关闭的冷却器的所有组合。如果 在测试 403 期间, I 个冷却器的任何组合被发现产生不足冷却, 然后根据标准冗余度符号, 冗余度被识别为 N+(I-1), 405。测试被重复用于每个增加的更大的指数 I 值, 直到最大值, 401。如果最大值被达到, 则冗余度被识别为 N+(I-1) 或更大, 405。 根据方法的实施方式 500, 在图 5 中所示, 用户能够指定冗余度的期望级别。仅有 达到冗余度的规定级别的关闭需要被测试。例如, 如果用户想要 N+1 冗余度, 然后仅仅所有 单个冷却单元关闭需要被测试。设置指数 I, 501, 以及执行测试, 503, 类似于方法 400 的对 应的组成部分 401、 403 继续进行。在该方法 500 中的最大的指数简单地为在期望的测试级 别的关闭的冷却器的数量, 501。 如果任何故障被检测到, 503, 冗余度在测试级别以下, 505 ; 然而, 如果没有故障被检测到, 503, 以及测试级别被达到, 501, 然后冗余度达到或超过测试 水平, 507。
前述方面通常将计算复杂性减少到仅为少量的代数计算器的调用, 特别地如果用 户设置低级别的期望的冗余度。
执行
执行现在以结合示例性的实施方式的方式被描述。执行可包括两个部分 : 在用户 界面建立用户期望的级别的冗余度, 提供用于选择期望的房间性质和工具的输出的目的, 其导致显示产生的房间气流的用户界面的输出查看。
房间性质
根据用户界面的一种实施方式, 冷却性质选择被显示, 如在图 6 中所示。在参数中 用户能够选择的参数为期望的冷却冗余度。紧挨着下拉列表的标签表示 “期望的冷却冗余 度” 以及用户能够从下拉列表选择期望的冷却冗余度级别以被测试。这里的设置不能保证 冗余度, 仅测试到用户指定级别, 如联系图 5 描述的。
对于大部分实际应用来说, 示出的冗余度级别, N、 N+1 和 N+2 为充分的, 但任何级 别能够被指定。选择性地, 基于用户可做出的表示用户需要的任何其它输入来为用户建议 冗余度级别为有用的。N+1 冗余度的级别允许在预防性的维修或单个冷却器故障的情况下 的充分冷却。N+2 级别的冗余度将缓和单个冷却器故障, 例如, 其发生在预防性的维修在另
外的冷却器上被执行时。
气流房间查看
为显示冗余度检查的结果的用户界面的实施方式 700 在图 7 中被示出。
冗余度检查的结果的呈现为保持有效的和整齐的, 以便限制在气流查看上的混 乱。气流房间查看的实例在图 7 中被示出, 其中期望的冗余度为 N+2。界面 700 包括房间布 局 701, 其示出机架 703 的位置以及冷却设备 705, 连同与每个有关的参数。达到期望的冗 余度级别的机架 703 被给出一种显示特点, 诸如实心块颜色, 然而具有小于 N+2 冗余度的机 架被给定不同的、 有区别的显示特点, 例如, 轻微地变灰。达到的冗余度级别也被选择地表 示在每个机架 703 的顶部。
实际的冗余度计算能够选择地不在气流查看上被显示, 而是以鼠标翻转被显示。 然后用户能够进一步检查机架看它们是否被变灰, 特别是在不包括在机架图像自身上的冗 余度数量的实施方式中。
编码
为该工具准备编码在回顾描述时在技术人员的掌握范围内, 主要由用户界面组 件、 数组和功能组成以测试不同的配置并存储结果。
一种实施方式通过开 / 关冷却单元的组合使用以下方法来循环。方法一般足以处 理任何数量的冷却器, 但仍然以特定的顺序测试它们。 如在前提到的, 该定序访问一个关闭 的所有组合, 然后两个关闭的所有组合, 等等。
当寻找下一个组合时, 方法被执行。
算法细节
让冷却器的向量的最左侧单元为 “第一” 单元以及最右侧单元为最初的 “最后” 单 元, 如在图 8 中所示的。
1. 从最右侧单元开始, 检查单元内容并向左移动直到定位第一个零。
a. 如果在向量中不存在零, 801, 将零加载到最左侧单元, 802。
b. 检查由向量代表的冷却器开 (1) 和冷却器关 (0) 的组合是否提供充分的冷却。
2.803, 检查定位了零的单元 802 右边的单元。
a. 如果检查的单元包含 “1” , 将所定位的 “0” 与邻近的 “1” 交换, 有效地移动定位 的零到右侧, 804。
b. 否则, 如果定位的最后位置已被到达, 对剩余的单元执行方法。
现在, 最后=最后 -1。
3. 如果若干个零, 例如, M 个零, 在数组的结尾被分组, 使所有的 “1” 向左, 当前的 (N+M) 冗余度级别的所有关闭被检查。 如果冗余度的下一个级别要被测试, 移动所有 M 个零 到最左侧位置, 在下一个可用单元添加另外的 0, 805, 以及从 1 重复, 以使具有 M+1 次关闭的 配置被测试。
该方法确保在冗余度级别之间的平稳过渡。 其能够在冷却故障一被检测到就被停 止。
计算 CRI
如以上提到的, 也能够使用除了或代替 N+I 类型度量的冷却可靠性指数 (CRI)。 在 该情况下, 用于冷却单位的可用性 ( 正常运行时间的百分比, 例如, 99.999% ; 或可用性概率, 例如, 0.99999) 数据被要求。如果该数据为可用的, 则各种故障模式能够被数字地模拟 以确定在每个机架位置产生的冷却的集合可用性, 以正常运行时间的百分比 (0-100% ) 或 以概率 (0.0-1.0)。
如以上, 每个故障模式被模拟以评价在故障的冷却器的特定组合情况下冷却是否 充分。除此之外, 用于机架位置的充分冷却的可用性的总值, a, 从模拟的冷却器的组合和 它们的单独的可用性来计算。 “在每个机架位置的可用性” 的总值, a, 然后被转换为 CRI 数 字 - 在 0%和 100%之间的值。
该方法比 N+I 类型计算更复杂, 因为实际的冷却器性能被考虑。例如, 如果所有冷 却器为 100%可靠, 则附近的机架的 ( 其具有充分的主冷却以开始 )CRI 将为 100%, 并且在 没有任何冗余的冷却器的情况下达到任何冷却可用性目标是可能的。
虽然许多函数能够以有用的方式建立表示 CRI 的值与机架位置的冷却可用性的 关系, 但是根据机架位置的冷却可用性 a 定义 CRI 的以下函数被发现对于作为冗余度的预 测器来说特别有用 :
该定义提供在可用性 a 的小数位数中 “若干个九” 到在 0 和 1 之间变化的指数的 方便的转换。例如, a = 0.9 为 “一个九” 以及对应的 CRI 值为 0.6。类似地, “三个九” (a = 0.999) 等同于 CRI = 0.8 以及 “五个九” (a = 0.99999) 等同于 CRI = 100%。因此, 在 a = 0.9 到 0.99999 的范围中, 对于可用性的每个 “附加的九” , 0.1 被添加到冷却可靠性指 数。
使用
实施方式的方面可被实践, 例如, 以在任何适合的数据中心设计和管理软件中执 行机架对机架冗余度计算。
在特定的实施方式中, 过程 300、 400 和 500 中的每个描述了行为的一个特定序列。 包括在这些过程中的每个中的行为可通过, 或使用专门配置为如在此讨论的一个或多个计 算机系统来执行。因此, 行为可通过外部实体来实施, 诸如用户或分开的计算机系统, 通过 系统的内部元件或通过内部元件和外部实体的组合来实施。一些行为为选择性的, 且就其 本身而论, 依照一个或多个实施方式可被忽略。此外, 行为的顺序能够被改变, 或其它行为 能够被添加, 而不偏离本发明的范围。在至少一些实施方式中, 行为在一个或多个计算机 系统上具有直接的、 有形的和有用的影响, 诸如, 在数据库中存储数据或向外部实体提供信 息。
对前和后、 左和右、 顶部和底部, 以及上部和下部的任何引用用于描述的方便, 而 不是将本系统和方法或它们的组件限制为任何一个位置的或空间的方位。
在此以单数形式提到的系统和方法的实施方式或元素或行为的任何引用也可包 含包括多个这些元素的实施方式, 以及在此对任何实施方式或元素或行为的复数形式的任
何引用也可包含包括仅单个元素的实施方式。 以单数或复数形式的引用不是要限制目前公 开的系统或方法、 它们的组件、 行为, 或元素。
在此公开的任何实施方式可与任何其它实施方式组合, 以及对 “实施方式” 、 “一些 实施方式” 、 “替代的实施方式” 、 “各种实施方式” 、 “一种实施方式” 、 “至少一种实施方式” 、 “这种和其它实施方式” 或诸如此类的引用不必为互相排斥的并且预期表示结合该实施方 式描述的特殊的特征、 结构或特点可被包括在至少一种实施方式中。如在此使用的这类术 语不必全部涉及相同的实施方式。 任何实施方式可以与在此公开的方面一致的任何方式与 任何其它实施方式组合。对 “或” 的引用可被解释为包括在内的, 以使使用 “或” 描述的任 何术语可表示任何单个的、 多于一个的, 以及描述的术语的全部。
在附图、 详细描述或任何权利要求中的技术特征后面有附图标记的地方, 附图标 记被包括, 用于增加对附图、 详细描述和权利要求的可理解性的唯一的目的。因此, 有附图 标记或没有附图标记不会对任何权利要求元素的范围有任何限制性影响。
现在已经描述了本发明的一些说明性的方面, 对于那些本领域技术人员应为明显 的是, 前述事项仅为说明性的而不是限制性的, 仅以举例的方式被呈现。类似地, 本发明的 方面可被用于实现其它目标, 包括允许用户设计除数据中心以外的设施, 其可受益于有效 的和有效率的冷却系统。例如, 根据一种实施方式, 用户可设计食品备制设施、 食品储存设 施、 生产设施和其它可受益于确保的冷却冗余度级别的设施。许多修改和其它说明性的实 施方式为在本领域的普通技术人员的范围内且被考虑落入本发明的范围内。特别是, 虽然 在此呈现的许多实例包含方法行为或系统元素的具体组合, 但是应理解的是, 那些行为和 那些元素可以其它方式组合以实现相同的目标。