《一种刀片服务器主备管理模块备份及更新方法.pdf》由会员分享,可在线阅读,更多相关《一种刀片服务器主备管理模块备份及更新方法.pdf(10页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103473152 A(43)申请公布日 2013.12.25CN103473152A*CN103473152A*(21)申请号 201310438789.4(22)申请日 2013.09.25G06F 11/14(2006.01)(71)申请人浪潮电子信息产业股份有限公司地址 250014 山东省济南市高新区舜雅路1036号(72)发明人陈刚(54) 发明名称一种刀片服务器主备管理模块备份及更新方法(57) 摘要本发明提出一种刀片服务器主备管理模块备份及更新方法,可实现主备管理模块的冗余备份及固件更新。冗余备份主要是以主管理模块为主,在主管理模块失效时从管理模块可以。
2、接管系统监控管理权,一旦主管理模块恢复,则从管理模块释放控制权,由主管理模块重新获得管理权。固件更新方法通过在刀片模块启动NAT服务,建立NAT网络映射表的方式,将固件镜像通过网络主管理模块传输到从管理模块,可实现大容量固件镜像下,主备管理模块统一更新的需求。本方法特别适合于不影响用户正常服务器使用条件下的,主备管理模块固件镜像更新的需求,同时抢占的冗余策略可满足用户对硬件成本设计的考虑。(51)Int.Cl.权利要求书1页 说明书4页 附图4页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书4页 附图4页(10)申请公布号 CN 103473152 ACN 10。
3、3473152 A1/1页21.一种刀片服务器主备管理模块备份及更新方法, 其特征在于包括:1)刀片服务器主备管理模块间与其他模块的连接方式;2)刀片服务器主备管理模块的冗余备份方法;3)刀片服务器主备管理模块的更新方法,其中:1)刀片服务器主备管理模块间与其他模块的连接方式中,主备管理模块的SMC单元间通过串口心跳信号链接,并且与刀片计算模块的BMC单元通过以太网总线方式链接;2)刀片服务器主备管理模块的冗余备份方法中,冗余备份机制是抢占式的,备管理模块作为主管理模块的备份模块,备管理模块在主管理模块失效时接管刀片服务器的监控管理工作,一旦主管理模块恢复,备管理模块则让出系统的监控管理权;3。
4、)刀片服务器主备管理模块的更新方法中,更新方法是固件镜像的更新方法,需要更新的固件是管理模块的SMC单元,更新方法对于主备管理模块是不同的,其中:1)主管理模块固件更新包括上传文件、启动更新流程;2)备管理模块固件更新的前提是主管理模块和至少一个刀片模块在位,通过刀片中转机制,由主管理模块镜像文件传送到备管理模块后,再启动更新流程;3)主管理模块通过串口获取备管理模块的固件更新进度。2.根据权利要求1所述的方法,其特征在于连接方式是管理模块的SMC单元通过网络交换芯片与多个刀片模块的BMC单元实现链接。3.根据权利要求1所述的方法,其特征在于,连接方式是主备管理模块的SMC单元间通过串口形式链。
5、接,并有特定的通信协议。4.根据权利要求1所述方法,其特征在于,抢占式备份机制是主备管理模块对外提供硬件接口,备管理模块是主管理模块的子集。5.根据权利要求1所述的方法,其特征在于,固件更新流程包括:更新模式、文件校验、启动更新、更新后校验、退出更新环节。6.根据权利要求1所述的方法,其特征在于刀片中转机制包括:1)刀片模块上建立主备管理模块的NAT网络映射表;2)主管理模块向备管理模块发送固件更新指令;3)备管理模块访问在位号数最小的刀片获取NAT网络映射表;4)备管理模块获得主管理模块的映射网络地址; 5)备管理模块向网络地址发送获取固件镜像指令;6)主管理模块响应备管理模块请求,并发送镜。
6、像到备管理模块;7)备管理模块接收后启动固件更新流程。7.根据权利要求1所述的方法,其特征在于,串口通信协议使用特定的通信格式获取对方在位信息、发送及接收控制指令及获取对方更新进度及更新状态。8.根据权利要求7所述的方法,其特征在于,更新状态异常时,可安全退出更新流程,并反馈异常状态给用户提示。权 利 要 求 书CN 103473152 A1/4页3一种刀片服务器主备管理模块备份及更新方法技术领域0001 本发明涉及计算机服务器技术领域,具体地说是一种刀片服务器主备管理模块备份及更新方法。背景技术0002 片服务器以其高计算密度、优化部署、资源共享和便于集中管理的特点被大量应用在高性能计算和云。
7、计算服务领域中,它已成为服务器发展的主要方向。0003 刀片服务器系统通常由多个刀片模块,电源及风扇模块、管理模块等组成。监控管理系统是服务器正常工作的保障,主要分为带内监控管理系统和带外监控管理系统。其中,带外监控管理系统无论服务器是否开机都可以对服务器各关键指标进行监控管理,应用十分广泛,其主要是在刀片模块板级监控管理单元(BMC)及管理模块系统级监控管理单元(SMC)来实现的。SMC单元作为刀片服务器集中管理中心模块,对刀片服务器乃至服务器集群进行实时的监控管理。由于模块功能集中且重要,因此,通常将SMC单元设计成完全备份的形式。但实际中备SMC单元往往扮演是临时取代主SMC的角色,这样。
8、完全备份的设计形式无论是设计成本还是实际作用上都有待改进。同时,随着监控管理的需求增加,需要不定期的对SMC的固件程序进行更新升级。目前,更新方法主要由三种:一、通过离线方式利用专用工具更新,此方法实施时需要关闭服务器电源,这样会严重影响用户对服务器的正常使用;二、通过WEB Browser方式分别登录到模块更新,此方法实施时需用户人为的将系统控制权到需要更新的模块后再实施,同样会严重影响用户对服务器的正常使用;三、通过WEB Browser方式登录到统一模块更新,通过主备管理模块间串口信号传输固件镜像,但通常镜像都比较大,在串口上传输不仅传输速率慢,而且常常出现通信断路的问题;因此,如何能在。
9、既节约成本、提高备份模块使用度的前提下实现主备管理模块的冗余,又能在不影响用户正常使用服务器的前提下,主备管理模块通过统一的方式进行高效的更新就成了亟需解决的问题。发明内容0004 针对刀片服务器管理模块主备冗余及固件更新中,如何准确地实现管理模块主备冗余切换,并实现通过主管理模块实现备管理模块的固件更新,本发明提出了一种刀片服务器主备管理模块备份及更新方法。0005 本发明的目的是按以下方式实现的,包括:1)刀片服务器主备管理模块间与其他模块的连接方式;2)刀片服务器主备管理模块的冗余备份方法;3)刀片服务器主备管理模块的更新方法,其中:1)刀片服务器主备管理模块间与其他模块的连接方式中,主。
10、备管理模块的SMC单元间通过串口心跳信号链接,并且与刀片计算模块的BMC单元通过以太网总线方式链接;2)刀片服务器主备管理模块的冗余备份方法中,冗余备份机制是抢占式的,备管理模块作为主管理模块的备份模块,备管理模块在主管理模块失效时接管刀片服务器的监控管说 明 书CN 103473152 A2/4页4理工作,一旦主管理模块恢复,备管理模块则让出系统的监控管理权;3)刀片服务器主备管理模块的更新方法中,更新方法是固件镜像的更新方法,需要更新的固件是管理模块的SMC单元,更新方法对于主备管理模块是不同的,其中:1)主管理模块固件更新包括上传文件、启动更新流程;2)备管理模块固件更新的前提是主管理模。
11、块和至少一个刀片模块在位,通过刀片中转机制,由主管理模块镜像文件传送到备管理模块后,再启动更新流程;3)主管理模块通过串口获取备管理模块的固件更新进度;所述的连接方式是管理模块的SMC单元通过网络交换芯片与多个刀片模块的BMC单元实现链接。0006 所述的连接方式是主备管理模块的SMC单元间通过串口形式链接,并有特定的通信协议。0007 所述的抢占式备份机制是主备管理模块对外提供硬件接口,备管理模块是主管理模块的子集。0008 所述的固件更新流程包括:更新模式、文件校验、启动更新、更新后校验、退出更新环节。0009 所述的刀片中转机制包括:1)刀片模块上建立主备管理模块的NAT网络映射表;2)。
12、主管理模块向备管理模块发送固件更新指令;3)备管理模块访问在位号数最小的刀片获取NAT网络映射表;4)备管理模块获得主管理模块的映射网络地址; 5)备管理模块向网络地址发送获取固件镜像指令;6)主管理模块响应备管理模块请求,并发送镜像到备管理模块;7)备管理模块接收后启动固件更新流程。0010 串口通信协议使用特定的通信格式获取对方在位信息、发送及接收控制指令、及获取对方更新进度及更新状态。0011 更新状态异常时,可安全退出更新流程,并反馈异常状态给用户提示。0012 本发明的有益效果是:利用本实施例的刀片服务器主备管理模块备份及更新方法,不仅可以完成主备管理模块冗余备份,提高服务器监控管理。
13、系统高度容错性,而且可以在不影响用户刀片节点正常工作的情况下,通过登录统一模块完成主备管理模块的更新。除此之外,本发明也涉及固件更新的可用性设计,基于网络的NAT网络映射表,可以避免由于固件镜像文件导致串口传输数据时的失效风险,并大幅提高数据传输速率,增强了系统的可用性。附图说明0013 图1是根据本发明的刀片服务器组成及各模块物理连接图;图2是根据本发明的刀片服务器主管理模块冗余备份图;图3是根据本发明的刀片服务器主管理模块固件更新流程图;图4是根据本发明的刀片服务器备管理模块固件更新流程图。说 明 书CN 103473152 A3/4页5具体实施方式0014 以下结合附图对本发明的实施例进。
14、行说明,应当理解,以此所描述的实施例仅用于说明和理解本发明,并不用于限定本发明。0015 图1:是根据本发明的刀片服务器组成及各模块物理连接图。如图1所示,刀片服务器包含一定数量计算刀片模块(包含BMC单元),本实例中计算刀片模块数量为二十刀片,主管理模块和备管理模块(包含SMC单元),若干电源和风扇等。0016 图2是根据本发明的刀片服务器的主备管理模块冗余备份图,如图2所示,具体冗余备份过程描述如下:步骤1:当刀片服务系统主管理模块失效时,备管理模块获得系统控制权,完成初始化配置;步骤2:当刀片服务系统主管理模块恢复时,这种恢复可能是更换模块或主管理模块重启完成等动作,主管理模块会从备管理。
15、模块获得系统当前同步配置文件,重启备管理模块,获得系统控制权。0017 图3是根据本发明的刀片服务器主管理模块固件更新流程图,具体固件更新流程描述如下:步骤1:以Web browser方式登录刀片服务器监控管理系统,进入管理模块页面,点击主SMC固件更新按钮,系统进入更新模式;步骤2:上传目标固件更新文件到管理模块的SMC单元;步骤3:对上传文件进行完整性校验,如果失败则提示用户退出更新模式,重新启动管理模块;步骤4:如果步骤3上传成功,则启动更新;步骤5:按块将固件信息写入Flash中;步骤6:写入完成后再将此块信息读出并进行校验;步骤7:如果校验失败,退出更新模式,重新启动;步骤8:如果校。
16、验成功,则判断是否是最后的要写入的数据;步骤9:如果全部块都更新完成,则整体校验写入的固件信息;步骤9:如果为完成全部块更新,则从步骤6开始重复操作;步骤10:如果校验整体校验失败,退出更新模式,重新启动;步骤11:如果校验整体校验成功,则提示用户此次更新完成,重新启动。0018 图4是根据本发明的刀片服务器备管理模块固件更新流程图,备管理模块固件更新流程包括:流程A:备SMC单元通过刀片模块的NAT映射表获取主SMC单元网络配置,具体过程描述如下:步骤1:以Web browser方式登录刀片服务器监控管理系统,进入管理模块页面,点击备SMC固件更新按钮,系统进入更新模式;步骤2:上传目标固件。
17、更新文件到管理模块的SMC模块;步骤3:主SMC模块通过串口发送启动更新指令到备SMC模块;步骤4:主SMC单元通过LAN获取刀片在位信息;步骤5:主SMC获取选定在位号最小的刀片,启动NAT服务,并获得NAT网络映射文件;说 明 书CN 103473152 A4/4页6步骤6:主SMC发送指令到备SMC,通知其映射后的网络地址信息;步骤7:备SMC由刀片模块的NAT服务网络中转,从主SMC处获取需要更新的固件镜像;步骤8:备SMC通过串口回复主SMC,准备完成可启动更新;步骤9:主SMC通知备SMC进入更新模式;流程B:备SMC单元启动更新流程,此流程与主SMC单元更新流程类似。0019 利。
18、用本实施例的刀片服务器主备管理模块备份及更新方法,不仅可以完成主备管理模块冗余备份,提高服务器监控管理系统高度容错性,而且可以在不影响用户刀片节点正常工作的情况下,通过登录统一模块完成主备管理模块的更新。0020 除此之外,本发明也涉及固件更新的可用性设计,基于网络的NAT网络映射表,可以避免由于固件镜像文件导致串口传输数据时的失效风险,并大幅提高数据传输速率,增强了系统的可用性。0021 以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。说 明 书CN 103473152 A1/4页7图1说 明 书 附 图CN 103473152 A2/4页8图2说 明 书 附 图CN 103473152 A3/4页9图3说 明 书 附 图CN 103473152 A4/4页10图4说 明 书 附 图CN 103473152 A10。