集群系统综合调度节能方法及装置技术领域
本发明涉及一种集群系统综合调度节能方法及装置,属于集群计算系统节能技术领域。
背景技术
集群计算系统是一种由互相连接的计算机分机组成的并行或分布式系统,可以作为单独、统一的计算资源来使用。这些集群计算系统(比如大型的云计算系统、超级计算机系统等)的运行设备或分机较多,但是在日常情况下利用率不足,能耗巨大。以天河2号超级计算机为例,其功耗超过20兆瓦,一年仅电费就要1亿元人民币,但是目前的利用率不到50%。而现有集群计算系统通常的节能做法是对整个柜体的全部计算机进行全开和全关来错峰用电,不能有效地针对局部的分机采取灵活的节能手段。
发明内容
本发明的目的是克服上述现有技术的不足,提供一种集群系统综合调度节能方法及装置,结合局部分机的负载压力、运行状况、环境因素以及虚拟化技术,整合分机资源实现有效的节能。
本发明采用的技术方案一方面提供一种集群系统综合调度节能方法,包括如下步骤:
A、获取集群系统中每个分机的负载数据和环境数据以及定期监控分机的运行状况数据,并且记录所述负载数据、环境数据和运行状况数据到一调度表;
B、动态刷新所述调度表,利用调度表中的负载数据且以排序方式确定每一分机的利用率优先级,如果所述调度表中相应分机的环境数据和/或运行状态数据的超过一临界值,则向相应的分机分配超临界标识;
C、按照利用率优先级从高到低的顺序依次向带有超临界标识的并且是低于预设利用率优先级的分机发送调度请求,触发该分机完成当前工作或者完成工作转移操作,然后通过执行器调度处理闲置运行的分机,其中所述调度处理包括对分机进行的开启、关闭、预热或迁移操作。
进一步,所述负载数据包括处理器占用率、运行内存使用率或用户连接数;所述环境数据包括分机所处的机柜区域的温度值;所述运行状况数据包括分机的持续运行时间。
作为本发明方法的进一步改进,在所述步骤B中,分机的利用率优先级的排序方式包括:
处理器占用率平均值更高的分机的利用率优先级高于处理器占用率平均值更低的分机的利用率优先级;运行内存使用率平均值更高的分机的利用率优先级高于运行内存使用率平均值更低的分机的利用率优先级;用户连接数更多的分机的利用率优先级高于用户连接数更少的分机的利用率优先级;运行中的分机的利用率优先级高于关闭的分机的利用率优先级。
作为本发明方法的进一步改进,所述步骤B还包括:根据所述集群系统的整体负荷强度动态调整所述临界值。
优选地,所述步骤B还包括:当集群系统的整体负荷强度超过预设的上限水平时,增大所述临界值;并且当集群系统的整体负荷强度低于预设的下限水平时,减少所述临界值。
作为本发明方法的进一步改进,所述步骤C还包括:当集群系统的整体负荷强度超过预设的上限水平时,开启和预热低于所述的预设利用率优先级的分机;当集群系统的整体负荷强度低于预设的下限水平时,迁移和关闭低于所述的预设利用率优先级的分机。
优选地,所述步骤C还包括:在一部分低于预设利用率优先级或闲置运行的分机中创建虚拟机,用于利用虚拟化技术迁移其他分机的工作以及为其他分机提供开机加速。
优选地,所述步骤C还包括:从高于预设的上限利用率优先级的分机向低于预设的下限利用率优先级或闲置运行的分机中迁移虚拟机。
作为本发明方法的进一步改进,所述方法还包括以下步骤:如果在一机柜区域的分机的环境数据和/或运行状况数据的超出危险临界值,则直接将该机柜区域的全部分机迁移,然后进行关闭。
本发明采用的技术方案一方面提供一种集群系统综合调度节能装置,包括:
监控模块,用于获取集群系统中每个分机的负载数据和环境数据以及定期监控分机的运行状况数据,并且记录所述负载数据、环境数据和运行状况数据到一调度表;
优先级处理模块,用于动态地刷新所述调度表,利用调度表中的负载数据且以排序方式确定每一分机的利用率优先级,如果所述调度表中相应分机的环境数据和/或运行状态数据的超过一临界值,则向相应的分机分配超临界标识;
调度模块,用于按照利用率优先级从高到低的顺序依次向带有超临界标识的并且是低于预设利用率优先级的分机发送调度请求,触发该分机完成当前工作或者完成工作转移操作,然后通过执行器调度处理闲置运行的分机,其中所述调度处理包括对分机进行的开启、关闭、预热或迁移操作,所述负载数据包括处理器占用率、运行内存使用率或用户连接数,所述环境数据包括分机所处的机柜区域的温度值,所述运行状况数据包括分机的持续运行时间。
本发明的有益效果为:有效地针对局部的分机采取灵活的节能手段;结合局部分机的负载压力、运行状况、环境因素以及虚拟化技术,整合分机资源实现综合节能;可以为集群计算机系统提供分机智能错峰关闭、开机预热家属、过热耗电保护等功能,实现了灵活的节能减排方案。
附图说明
图1所示为根据本发明实施例的方法步骤框图;
图2所示为根据本发明实施例的装置框图;
图3所示为根据本发明实施例的示例性框图;
图4所示为本发明另一优选实施例的示例性框图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
图1和2所示为根据本发明一实施例的示例性原理框图。在一个实施例中,根据本发明的方法包括如下步骤:A、获取集群系统中每个分机的负载数据和环境数据以及定期监控分机的运行状况数据,并且记录所述负载数据、环境数据和运行状况数据到一调度表;B、动态刷新所述调度表,利用调度表中的负载数据且以排序方式确定每一分机的利用率优先级,如果所述调度表中相应分机的环境数据和/或运行状态数据的超过一临界值,则向相应的分机分配超临界标识;C、按照利用率优先级从高到低的顺序依次向带有超临界标识的并且是低于预设利用率优先级的分机发送调度请求,触发该分机完成当前工作或者完成工作转移操作,然后通过执行器调度处理闲置运行的分机,其中所述调度处理包括对分机进行的开启、关闭、预热或迁移操作。在一个实施例中,在步骤A中,所述负载数据包括处理器占用率、运行内存使用率或用户连接数,所述环境数据包括分机所处的机柜区域的温度值,所述运行状况数据包括分机的持续运行时间。在一个实施例中,在所述步骤B中,分机的利用率优先级的排序方式包括:处理器占用率平均值更高的分机的利用率优先级高于处理器占用率平均值更低的分机的利用率优先级;运行内存使用率平均值更高的分机的利用率优先级高于运行内存使用率平均值更低的分机的利用率优先级;用户连接数更多的分机的利用率优先级高于用户连接数更少的分机的利用率优先级;运行中的分机的利用率优先级高于关闭的分机的利用率优先级。优选地,所述步骤B还包括根据所述集群系统的整体负荷强度动态调整所述临界值,例如当集群系统的整体负荷强度超过预设的上限水平时,增大所述临界值,以及,当集群系统的整体负荷强度低于预设的下限水平时,减少所述临界值。在一个实施例中,所述步骤C还包括:当集群系统的整体负荷强度超过预设的上限水平时,开启和预热低于所述的预设利用率优先级的分机;当集群系统的整体负荷强度低于预设的下限水平时,迁移和关闭低于所述的预设利用率优先级的分机。在另一个实施例中,所述步骤C还包括:在一部分低于预设利用率优先级或闲置运行的分机中创建虚拟机,用于利用虚拟化技术迁移其他分机的工作以及为其他分机提供开机加速。优选地,所述步骤C还包括:从高于预设的上限利用率优先级的分机向低于预设的下限利用率优先级或闲置运行的分机中迁移虚拟机。作为一个可选的实施例,根据本发明的方法,还包括步骤:如果在一机柜区域的分机的环境数据和/或运行状况数据的超出危险临界值,则直接将该机柜区域的全部分机迁移,然后进行关闭。
在一些实施例中,根据本发明的集群系统综合调度节能装置包括用于储存应用程序存储器和处理器,其中所述处理器包括:监控模块,用于获取集群系统中每个分机的负载数据和环境数据以及定期监控分机的运行状况数据,并且记录所述负载数据、环境数据和运行状况数据到一调度表;优先级处理模块,用于动态地刷新所述调度表,利用调度表中的负载数据且以排序方式确定每一分机的利用率优先级,如果所述调度表中相应分机的环境数据和/或运行状态数据的超过一临界值,则向相应的分机分配超临界标识;调度模块,用于按照利用率优先级从高到低的顺序依次向带有超临界标识的并且是低于预设利用率优先级的分机发送调度请求,触发该分机完成当前工作或者完成工作转移操作,然后通过执行器调度处理闲置运行的分机,其中所述调度处理包括对分机进行的开启、关闭、预热或迁移操作。
图3所示为根据本发明一优选实施例,其中,用户群接入和使用集群系统。集群系统包括多个物理和/或虚拟的分机,所述多个分机可以共享同一个硬盘资源池以实现数据共享,方便多个分机之间的数据备份和迁移,避免分机在开启、关闭、预热或迁移时出现数据丢失。优选地,所述分机可以是包含物理CPU和物理内存的设备,还可以是包含虚拟CPU和虚拟内存的虚拟设备;硬件资源池包括一个或多个计算机可读介质(比如,机械或固态硬盘、光盘、磁盘)及其阵列,硬件资源池中的硬件设备可以24小时运行。在本实施例中,综合调度节能装置接收集群系统中各个分机的负载和运行状态信息包,所述负载数据包括CPU占用率、内存使用率或用户连接数;然后通过上述实施例所述的调度表的方式,综合考虑各个分机的CPU占用率、内存使用率或用户连接数的情况,设置合理的阈值来评判每一分机的利用率优先级。例如,如果检测到分机1的用户数量接近峰值上限,同时CPU的占用率平均值也达到90%,综合调度节能装置从而对该分机分配高利用率优先级;如果检测到分机2的用户数量少,同时CPU的占用率平均值持续小于15%,综合调度节能装置从而对该分机分配低利用率优先级;如果检测到分机3的用户数量为0,同时CPU的占用率平均值持续小于5%,综合调度节能装置从而对该分机分配零利用率优先级;类似地对其他分机分配利用率优先级。在该实例中,综合调度节能装置可以引导分机1的用户或用户群中还没有分配分机的用户接入分机2,然后关闭分机3,实现节能。在一个实施例中,可以利用虚拟化技术,将其它分机迁移到网络通信质量更好的闲置的分机3,通过分机资源整合,提升分机3的利用率。在另一个实施例中,当突然出现峰值用户群接入的情况下所述群集系统,需要预热多个分机,当前的空闲分机3可以临时虚拟出多个临时分机用于接纳该用户群,待新分机完成预热后,可以将临时分机迁移到对应的新分机。
图4所示为本发明另一优选实施例的示例性框图,其中所述综合调度节能装置包括:处理器、调度器、存储器和传输接口。处理器和调度器可以集成到同一硬件,调度器可以协助处理器,用于对执行硬件进行底层控制。在本实施例中,集群系统中的分机按照多个机柜区域来排布和定位,执行硬件可以通过电气线路控制各个机柜区域中的分机的开启、关闭和预热。多个区域的分机可以共享同一硬盘资源池。基于图3的实施例,本实施例的综合调度节能装置接收各个分机的环境状态信息,其包括分机自身的工作温度和分机的持续运行时间,还接收机柜区域的整体温度值。在本实施例中,综合调度节能装置可以综合考虑整个机柜区域的分机的整体利用率,对整个区域的分机进行开启、预热和迁移。优选地,如果机柜区域的分机的环境温度和/或运行时长的超出危险临界值,则直接将该机柜区域的全部分机进行迁移,然后执行关闭操作。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。