《一种内存ECC报错报警机制.pdf》由会员分享,可在线阅读,更多相关《一种内存ECC报错报警机制.pdf(5页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103092739 A(43)申请公布日 2013.05.08CN103092739A*CN103092739A*(21)申请号 201310018800.1(22)申请日 2013.01.18G06F 11/32(2006.01)(71)申请人浪潮电子信息产业股份有限公司地址 250014 山东省济南市高新区舜雅路1036号(72)发明人张燕群 李博乐(54) 发明名称一种内存ECC报错报警机制(57) 摘要本发明提供一种内存ECC报错报警机制,属于计算机技术,包括IntelBoxboro-EX平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发EC。
2、C纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。该一种内存ECC报错报警机制和现有技术相比,有助于及时排除故障,确保系统健康状态。(51)Int.Cl.权利要求书1页 说明书2页 附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书2页 附图1页(10)申请公布号 CN 103092739 ACN 103092739 A1/1页21.一种内存ECC报错报警机制,其特征在于:包括Intel Boxboro-EX。
3、平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发ECC纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。2.根据权利要求1所述的一种内存ECC报错报警机制,其特征在于:所述通过BIOS评估报错时系统故障风险等级的详细步骤为:BIOS设置一个报错计数器,同时设置一个报错数量的阀值N,记录在一个固定时间周期T内ECC报错次数,如果在时间T内报错数量n未达到阀值N,即nN,BIOS通知BMC只如实记录报错信息,并不触发报警;如果在时。
4、间如果在时间T内报错数量n超过阀值N,即nN, BIOS会将报错信息传送到BMC,并通知BMC在记录报错信息的同时,触发报警提醒用户系统已经出现故障,以便用户及时维护。3.根据权利要求2所述的一种内存ECC报错报警机制,其特征在于:所述时间周期T内报错数量n未达到阀值N时,BIOS通知BMC如实记录报错信息后将计数器清零并重新开始计数。权 利 要 求 书CN 103092739 A1/2页3一种内存 ECC 报错报警机制技术领域0001 本发明涉及计算机技术领域,具体的说是一种对内存报错的风险等级评估、方便系统维护的内存ECC报错报警机制。背景技术0002 现行对内存ECC报错的报警机制是不区。
5、分ECC报错的风险等级,只要出现ECC报错,BMC即刻触发报警,这种状况下会给客户造成不良印象,并增加服务器的维护压力。偶尔发生的报错,内存自身能够完成纠错,对整个系统的影响可以忽略不计,针对这一类的报错,对整个系统来说,风险等级极低,可以不必触发报警;对在一段时间内大量出现ECC报错的情况,可能是系统某个部件已经运行在高风险状态,继续运行可能会对系统的稳定性影响较大,这种状态下及时触发报警是很有必要的,有助于及时排除故障,确保系统健康状态。发明内容0003 本发明的技术任务是解决现有技术的不足,提供一种对内存报错的风险等级评估的内存ECC报错报警机制。0004 本发明的技术方案是按以下方式实。
6、现的,该一种内存ECC报错报警机制,包括Intel Boxboro-EX平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发ECC纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。0005 所述通过BIOS评估报错时系统故障风险等级的详细步骤为:BIOS设置一个报错计数器,同时设置一个报错数量的阀值N,记录在一个固定时间周期T内ECC报错次数,如果在时间T内报错数量n未达到阀值N,即nN,BIOS通知BMC只如实记录报错信息,并不。
7、触发报警;如果在时间如果在时间T内报错数量n超过阀值N,即nN, BIOS会将报错信息传送到BMC,并通知BMC在记录报错信息的同时,触发报警提醒用户系统已经出现故障,以便用户及时维护。0006 所述时间周期T内报错数量n未达到阀值N时,BIOS通知BMC如实记录报错信息后将计数器清零并重新开始计数。0007 本发明与现有技术相比所产生的有益效果是:本发明的一种内存ECC报错报警机制通过对内存报错的风险等级评估,对低风险报错只做监控不做报警,对高风险报错在监控同时触发报警,减少系统的维护次数,延长系统运行周期的,有助于及时排除故障,确保系统健康状态。附图说明0008 附图1是本发明的ECC报警。
8、机制实现框图。说 明 书CN 103092739 A2/2页4具体实施方式0009 下面结合附图对本发明的一种内存ECC报错报警机制作以下详细说明。0010 如附图1所示,现提供一种内存ECC报错报警机制,包括Intel Boxboro-EX平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发ECC纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。0011 所述通过BIOS评估报错时系统故障风险等级的详细步骤为:BIOS设置一个报。
9、错计数器,同时设置一个报错数量的阀值N,记录在一个固定时间周期T内ECC报错次数,如果在时间T内报错数量n未达到阀值N,即nN,这说明ECC报错只是偶尔发生,内存完全有能力纠错,这种状况下对系统性能及系统稳定性基本没有影响,风险等级极低,BIOS只会将ECC报错信息发给BMC,BIOS通知BMC只如实记录报错信息,并不触发报警,BIOS会将计数器清零并重新开始计数;如果在时间如果在时间T内报错数量n超过阀值N,即nN, 这说明在一段时间内内存频繁报错,内存能够完成纠错,但是已经对系统性能造成影响,甚至已经出发SDDC或DDDC,或者内存模组已经出现故障,这种状况下,系统已经工作在异常状态,或者系统性能已经降低,继续运行可能会出现死机或者其他不可预见的后果,BIOS会将报错信息传送到BMC,并通知BMC在记录报错信息的同时,触发报警提醒用户系统已经出现故障,以便用户及时维护。说 明 书CN 103092739 A1/1页5图1说 明 书 附 图CN 103092739 A。