一种集群散热系统及散热方法 【技术领域】
本发明涉及散热技术,尤其涉及一种集群散热系统及散热方法。
背景技术
当前,计算机越来越普及,服务器的应用也越来越广泛,而服务器散热也越来越多的引起了人们的重视。机房散热系统的好坏直接影响到服务器的稳定性,而不必要的散热对能源、企业的预算是一个很大的浪费。
传统的集群散热技术或者对集群散热技术的改进,一般围绕两方面进行考虑,一是让散热系统能够到达尽可能达到的地方,二是改善风等散热介质的循环情况。图1为现有技术中集群系统的散热原理示意图,示出了三台设备以及一套散热系统组成。虽然从前述两方面入手,已经使得散热系统的散热性能得到了较为明显的改善,但集群系统中的每台设备的运行情况不一样,所产生的热量必然会有较大的差异,这样以整个集群系统为对象的散热模式所导致的结果是:
(1)如果粗放式地统一对集群系统加大散热力度,或者停留在集群系统满负荷运行的散热力度下,由于部分设备可能并没有工作在满负荷的运行状态,这样会对散热费用及能源产生很大的浪费;
(2)如果粗放式地统一对集群系统减小散热力度,某些设备的性能就难以得到保证,并且会产生由于散热不良所导致的设备老化甚至宕机等问题。
【发明内容】
本发明所要解决的技术问题是提供一种集群系统的散热系统及散热方法,在保证集群系统散热效果前提下降低散热成本。
为了解决上述技术问题,本发明提供了一种集群散热系统,包括:
设置模块,用于为各设备分别设置散热策略;
采集模块,用于采集所述各设备的温度信息;
控制模块,用于根据所述温度信息及散热策略,为所述各设备针对性地生成散热信号;
散热模块,用于根据所述散热信号对所述各设备分别进行散热。
优选地,该系统进一步包括:
分析模块,用于对所述温度信息进行分析汇总,根据分析结果生成报表;
其中,所述控制模块根据所述报表及散热策略,为所述各设备针对性地生成所述散热信号。
优选地,所述采集模块采集所述各设备高发热部件和/或高耗能部件的温度信息。
优选地,所述高发热部件包括CPU;
所述高耗能部件包括显卡和/或硬盘。
优选地,所述控制模块生成的所述散热信号,携带散热介质的散热能力信息。
为了解决上述技术问题,本发明还提供了一种集群散热方法,包括:
为各设备分别设置散热策略;
采集所述各设备的温度信息;
根据所述温度信息及散热策略,为所述各设备针对性地生成散热信号;
根据所述散热信号对所述各设备分别进行散热。
优选地,采集所述温度信息后,进一步对所述温度信息进行分析汇总,根据分析结果生成报表,然后根据所述报表及散热策略,为所述各设备针对性地生成所述散热信号。
优选地,采集所述温度信息的步骤,包括:
采集所述各设备高发热部件和/或高耗能部件的温度信息。
优选地,所述高发热部件包括CPU;所述高耗能部件包括显卡和/或硬盘。
优选地,所述散热信号,携带散热介质的散热能力信息。
优选地,所述散热介质为气体时,所述散热能力信息包括风量信息;所述散热介质为液体时,所述散热能力信息包括液体温度和流量信息。
与现有技术相比,本发明提供的按需分配的集群散热技术,对不同设备采取不同的散热力度,根据不同设备的散热需求进行针对性的散热,使得机房系统的散热粒度由机房为单位缩小到以单个设备甚至设备中的部件为单位,使得系统的散热做到按需分配,保证了散热的合理性,在有效保障设备正常工作的前提下,节约了能源。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
【附图说明】
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为现有技术中集群系统的散热原理示意图;
图2为本发明系统实施例的组成示意图;
图3为本发明方法实施例的步骤示意图。
【具体实施方式】
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。
需要说明地是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明技术方案的核心思想是针对集群系统中各设备的工作特点,为各设备分别制定散热策略,针对性地对高发热和/或高耗能部件进行重点、有效散热,避免了以整个集群系统为整体的粗放式散热策略而导致的成本居高不下或者无法有效保证散热效果的不足。
图2为本发明系统实施例的组成示意图。如图2所示,本发明散热系统主要包括设置模块210、若干采集模块220、分析模块230、控制模块240以及若干散热模块250,其中:
设置模块210,用于为系统中的各设备分别设置散热策略;
若干采集模块220,均用于采集系统中各设备的温度信息并上报给分析模块230;优选采集各设备高发热部件和/或高耗能部件等等的温度信息,该高发热部件比如为CPU,该高耗能部件比如为显卡和/或硬盘等发热量随运行情况有显著变化的部件;典型地,本模块采用温度传感器,在集群系统的每台设备中安置若干温度传感器,以监控并采集每台设备的高发热部件和/或高耗能部件的温度信息;
分析模块230,与各采集模块220相连,用于对各采集模块220上报的温度信息进行分析汇总,然后根据分析结果生成报表;
控制模块240,与该设置模块210及分析模块230相连,用于根据分析模块230所生成的报表以及设置模块210所设置的散热策略生成散热信号,发送给相应的散热模块250;
若干散热模块250,均与控制模块240相连,用于根据控制模块240发送的散热信号进行工作,对相应的设备进行散热。
上述的分析模块230与控制模块240可以集成在一起,形成一个嵌入式子系统设置在集群控制系统中。实际上,该若干采集模块220采集到温度信息之后,可以直接将温度信息发送给控制模块240,以用于控制模块240根据散热策略生成散热信号。本实施例之所以包含该分析模块230,主要是出于信号传输以及存储的一致性考虑。比如对于包含大量各型设备的大型集群系统,整个集群系统需要采集并传输大量的温度信号,如果各采集模块220分别传输温度信号给控制模块240而不进行汇总分析等处理,必然会导致信息的混杂无张,因此有必要对温度信号进行分析汇总,并根据分析结果生成统一格式的报表,将各设备的温度信息以报表的形式发送给控制模块240,便于数据存储,保证了散热控制的统一高效。
上述控制模块240发送的散热信号中携带散热介质的散热能力信息,比如对于气体对流散热系统(散热介质为气体)而言,该散热能力信息为风量大小的风量信息,对于液体对流散热系统(散热介质为液体)而言,该散热能力信息未液体温度和流量信息,散热模块250根据该散热能力信息进行散热。
本发明技术方案适用于采用气体对流进行散热的集群系统,也适用于采用液体对流技术或其他散热技术进行散热的集群系统。对于既采用气体对流进行散热同时又采用液体对流进行散热的集群系统,上述散热能力信息包括风量信息,以及液体温度和流量信息。
采用气体对流技术进行散热的一个应用实例中,采集模块220(本应用实例中位温度传感器)采集集群系统中某设备的CPU温度,并将所采集到的该CPU的温度值发送给分析模块230;分析模块230将该CPU的温度值与其他采集模块220采集其他设备相关器件的温度值进行汇总分析,生成温度报表发送给控制模块240;控制模块240收到该温度报表后,对于该CPU,根据预设的温度阈值与该CPU的温度值进行比较,建立该CPU的温度值与风扇转速的对应关系,生成携带该对应关系的风扇转速信号并发送给用于为该CPU进行降温的风扇,该风扇根据该风扇转速信号进行工作(调整转速),为该CPU进行散热降温,保证了该CPU能正常工作于安全温度之下。
其中,上述设置模块210所设置的散热策略,包含温度高低与风扇转速之间的对应关系。比如对于某设备而言,根据该散热策略中的温度阈值发现该设备CPU的温度较高时,根据该散热策略,需要加快风扇转速,当根据该散热策略中的温度阈值发现该CPU的温度变低,根据该散热策略,可以适当减小风扇转速。
图3为本散热方法实施例的流程示意图。结合图2所示系统实施例,图3所示的方法实施例主要包括如下步骤:
步骤S310,为系统中各设备分别设置散热策略;
步骤S320,采集各设备的温度信息;
步骤S330,根据温度信息及散热策略,为各设备针对性地生成散热信号;
步骤S340,根据散热信号对各设备分别进行散热。
上述步骤S320中采集该温度信息,可以包括采集该各设备高发热部件和/或高耗能部件的温度信息。其中,该高发热部件包括CPU;该高耗能部件包括显卡和/或硬盘。
上述步骤S320中采集该温度信息后,可以进一步对该温度信息进行分析汇总,并根据分析结果生成报表,然后根据该报表及散热策略,为该设备针对性地生成该散热信号。
上述步骤S330中所生成的该散热信号,可以携带散热介质的散热能力信息。其中,散热介质可以是气体或者液体等,并且,该散热介质为气体时,该散热能力信息包括风量信息;该散热介质为液体时,该散热能力信息包括液体温度和流量信息。
本发明技术方案打破了传统集群系统散热的技术,通过监控并采集集群中各设备的温度信息控制散热量,根据设备温度高低提供不同散热效果。
本发明技术方案对集群系统中各设备的若干部件的温度进行采集和综合分析,为设备的温度信息和散热模块的工作建立一定的对应关系,在温度高时增加风扇转速,反之降低风扇转速。而传统的集群散热技术,一般都是采用统一散热,对整个机房或者集群系统的所有设备统一散热,这样容易造成散热能源的浪费,并且在设备满负荷运行情况下无法得到很好的散热保障,造成计算机部件老化迅速或者系统重启等现象,提高了集群系统维护的易用性及方便性,提高了产品竞争力,同时也到达了节能效果。
本发明技术方案具有预见性,而且不需要用户的参与,即使集群系统中部分设备出现高负载而导致发热大幅增加时,也不会由于未及时散热而出现设备故障等问题。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。另外,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。