一种内存ECC报错报警机制.pdf

上传人:54 文档编号:1553942 上传时间:2018-06-24 格式:PDF 页数:5 大小:563.80KB
返回 下载 相关 举报
摘要
申请专利号:

CN201310018800.1

申请日:

2013.01.18

公开号:

CN103092739A

公开日:

2013.05.08

当前法律状态:

撤回

有效性:

无权

法律详情:

发明专利申请公布后的视为撤回IPC(主分类):G06F 11/32申请公布日:20130508|||实质审查的生效IPC(主分类):G06F 11/32申请日:20130118|||公开

IPC分类号:

G06F11/32

主分类号:

G06F11/32

申请人:

浪潮电子信息产业股份有限公司

发明人:

张燕群; 李博乐

地址:

250014 山东省济南市高新区舜雅路1036号

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明提供一种内存ECC报错报警机制,属于计算机技术,包括IntelBoxboro-EX平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发ECC纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。该一种内存ECC报错报警机制和现有技术相比,有助于及时排除故障,确保系统健康状态。

权利要求书

权利要求书一种内存ECC报错报警机制,其特征在于:包括Intel Boxboro‑EX平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发ECC纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。
根据权利要求1所述的一种内存ECC报错报警机制,其特征在于:所述通过BIOS评估报错时系统故障风险等级的详细步骤为:BIOS设置一个报错计数器,同时设置一个报错数量的阀值N,记录在一个固定时间周期T内ECC报错次数,如果在时间T内报错数量n未达到阀值N,即n<N,BIOS通知BMC只如实记录报错信息,并不触发报警;如果在时间如果在时间T内报错数量n超过阀值N,即n≥N, BIOS会将报错信息传送到BMC,并通知BMC在记录报错信息的同时,触发报警提醒用户系统已经出现故障,以便用户及时维护。
根据权利要求2所述的一种内存ECC报错报警机制,其特征在于:所述时间周期T内报错数量n未达到阀值N时,BIOS通知BMC如实记录报错信息后将计数器清零并重新开始计数。

说明书

说明书一种内存ECC报错报警机制
技术领域
本发明涉及计算机技术领域,具体的说是一种对内存报错的风险等级评估、方便系统维护的内存ECC报错报警机制。
背景技术
现行对内存ECC报错的报警机制是不区分ECC报错的风险等级,只要出现ECC报错,BMC即刻触发报警,这种状况下会给客户造成不良印象,并增加服务器的维护压力。偶尔发生的报错,内存自身能够完成纠错,对整个系统的影响可以忽略不计,针对这一类的报错,对整个系统来说,风险等级极低,可以不必触发报警;对在一段时间内大量出现ECC报错的情况,可能是系统某个部件已经运行在高风险状态,继续运行可能会对系统的稳定性影响较大,这种状态下及时触发报警是很有必要的,有助于及时排除故障,确保系统健康状态。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种对内存报错的风险等级评估的内存ECC报错报警机制。
本发明的技术方案是按以下方式实现的,该一种内存ECC报错报警机制,包括Intel Boxboro‑EX平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发ECC纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。
所述通过BIOS评估报错时系统故障风险等级的详细步骤为:BIOS设置一个报错计数器,同时设置一个报错数量的阀值N,记录在一个固定时间周期T内ECC报错次数,如果在时间T内报错数量n未达到阀值N,即n<N,BIOS通知BMC只如实记录报错信息,并不触发报警;如果在时间如果在时间T内报错数量n超过阀值N,即n≥N, BIOS会将报错信息传送到BMC,并通知BMC在记录报错信息的同时,触发报警提醒用户系统已经出现故障,以便用户及时维护。
所述时间周期T内报错数量n未达到阀值N时,BIOS通知BMC如实记录报错信息后将计数器清零并重新开始计数。
本发明与现有技术相比所产生的有益效果是:
本发明的一种内存ECC报错报警机制通过对内存报错的风险等级评估,对低风险报错只做监控不做报警,对高风险报错在监控同时触发报警,减少系统的维护次数,延长系统运行周期的,有助于及时排除故障,确保系统健康状态。
附图说明
附图1是本发明的ECC报警机制实现框图。
具体实施方式
下面结合附图对本发明的一种内存ECC报错报警机制作以下详细说明。
如附图1所示,现提供一种内存ECC报错报警机制,包括Intel Boxboro‑EX平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发ECC纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。
所述通过BIOS评估报错时系统故障风险等级的详细步骤为:BIOS设置一个报错计数器,同时设置一个报错数量的阀值N,记录在一个固定时间周期T内ECC报错次数,如果在时间T内报错数量n未达到阀值N,即n<N,这说明ECC报错只是偶尔发生,内存完全有能力纠错,这种状况下对系统性能及系统稳定性基本没有影响,风险等级极低,BIOS只会将ECC报错信息发给BMC,BIOS通知BMC只如实记录报错信息,并不触发报警,BIOS会将计数器清零并重新开始计数;如果在时间如果在时间T内报错数量n超过阀值N,即n≥N, 这说明在一段时间内内存频繁报错,内存能够完成纠错,但是已经对系统性能造成影响,甚至已经出发SDDC或DDDC,或者内存模组已经出现故障,这种状况下,系统已经工作在异常状态,或者系统性能已经降低,继续运行可能会出现死机或者其他不可预见的后果,BIOS会将报错信息传送到BMC,并通知BMC在记录报错信息的同时,触发报警提醒用户系统已经出现故障,以便用户及时维护。

一种内存ECC报错报警机制.pdf_第1页
第1页 / 共5页
一种内存ECC报错报警机制.pdf_第2页
第2页 / 共5页
一种内存ECC报错报警机制.pdf_第3页
第3页 / 共5页
点击查看更多>>
资源描述

《一种内存ECC报错报警机制.pdf》由会员分享,可在线阅读,更多相关《一种内存ECC报错报警机制.pdf(5页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103092739 A(43)申请公布日 2013.05.08CN103092739A*CN103092739A*(21)申请号 201310018800.1(22)申请日 2013.01.18G06F 11/32(2006.01)(71)申请人浪潮电子信息产业股份有限公司地址 250014 山东省济南市高新区舜雅路1036号(72)发明人张燕群 李博乐(54) 发明名称一种内存ECC报错报警机制(57) 摘要本发明提供一种内存ECC报错报警机制,属于计算机技术,包括IntelBoxboro-EX平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发EC。

2、C纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。该一种内存ECC报错报警机制和现有技术相比,有助于及时排除故障,确保系统健康状态。(51)Int.Cl.权利要求书1页 说明书2页 附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页 说明书2页 附图1页(10)申请公布号 CN 103092739 ACN 103092739 A1/1页21.一种内存ECC报错报警机制,其特征在于:包括Intel Boxboro-EX。

3、平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发ECC纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。2.根据权利要求1所述的一种内存ECC报错报警机制,其特征在于:所述通过BIOS评估报错时系统故障风险等级的详细步骤为:BIOS设置一个报错计数器,同时设置一个报错数量的阀值N,记录在一个固定时间周期T内ECC报错次数,如果在时间T内报错数量n未达到阀值N,即nN,BIOS通知BMC只如实记录报错信息,并不触发报警;如果在时。

4、间如果在时间T内报错数量n超过阀值N,即nN, BIOS会将报错信息传送到BMC,并通知BMC在记录报错信息的同时,触发报警提醒用户系统已经出现故障,以便用户及时维护。3.根据权利要求2所述的一种内存ECC报错报警机制,其特征在于:所述时间周期T内报错数量n未达到阀值N时,BIOS通知BMC如实记录报错信息后将计数器清零并重新开始计数。权 利 要 求 书CN 103092739 A1/2页3一种内存 ECC 报错报警机制技术领域0001 本发明涉及计算机技术领域,具体的说是一种对内存报错的风险等级评估、方便系统维护的内存ECC报错报警机制。背景技术0002 现行对内存ECC报错的报警机制是不区。

5、分ECC报错的风险等级,只要出现ECC报错,BMC即刻触发报警,这种状况下会给客户造成不良印象,并增加服务器的维护压力。偶尔发生的报错,内存自身能够完成纠错,对整个系统的影响可以忽略不计,针对这一类的报错,对整个系统来说,风险等级极低,可以不必触发报警;对在一段时间内大量出现ECC报错的情况,可能是系统某个部件已经运行在高风险状态,继续运行可能会对系统的稳定性影响较大,这种状态下及时触发报警是很有必要的,有助于及时排除故障,确保系统健康状态。发明内容0003 本发明的技术任务是解决现有技术的不足,提供一种对内存报错的风险等级评估的内存ECC报错报警机制。0004 本发明的技术方案是按以下方式实。

6、现的,该一种内存ECC报错报警机制,包括Intel Boxboro-EX平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发ECC纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。0005 所述通过BIOS评估报错时系统故障风险等级的详细步骤为:BIOS设置一个报错计数器,同时设置一个报错数量的阀值N,记录在一个固定时间周期T内ECC报错次数,如果在时间T内报错数量n未达到阀值N,即nN,BIOS通知BMC只如实记录报错信息,并不。

7、触发报警;如果在时间如果在时间T内报错数量n超过阀值N,即nN, BIOS会将报错信息传送到BMC,并通知BMC在记录报错信息的同时,触发报警提醒用户系统已经出现故障,以便用户及时维护。0006 所述时间周期T内报错数量n未达到阀值N时,BIOS通知BMC如实记录报错信息后将计数器清零并重新开始计数。0007 本发明与现有技术相比所产生的有益效果是:本发明的一种内存ECC报错报警机制通过对内存报错的风险等级评估,对低风险报错只做监控不做报警,对高风险报错在监控同时触发报警,减少系统的维护次数,延长系统运行周期的,有助于及时排除故障,确保系统健康状态。附图说明0008 附图1是本发明的ECC报警。

8、机制实现框图。说 明 书CN 103092739 A2/2页4具体实施方式0009 下面结合附图对本发明的一种内存ECC报错报警机制作以下详细说明。0010 如附图1所示,现提供一种内存ECC报错报警机制,包括Intel Boxboro-EX平台服务器,其具体实现步骤为:服务器在高负载运行时,内存出现错误触发ECC纠错机制,通过BIOS设置一个计数器记录一定时间内的报错次数,来评估报错时系统故障的风险等级:低风险等级时,记录报错信息,不触发报警;高风险等级时,记录报错信息的同时,触发报警,提醒用户及时维护系统。0011 所述通过BIOS评估报错时系统故障风险等级的详细步骤为:BIOS设置一个报。

9、错计数器,同时设置一个报错数量的阀值N,记录在一个固定时间周期T内ECC报错次数,如果在时间T内报错数量n未达到阀值N,即nN,这说明ECC报错只是偶尔发生,内存完全有能力纠错,这种状况下对系统性能及系统稳定性基本没有影响,风险等级极低,BIOS只会将ECC报错信息发给BMC,BIOS通知BMC只如实记录报错信息,并不触发报警,BIOS会将计数器清零并重新开始计数;如果在时间如果在时间T内报错数量n超过阀值N,即nN, 这说明在一段时间内内存频繁报错,内存能够完成纠错,但是已经对系统性能造成影响,甚至已经出发SDDC或DDDC,或者内存模组已经出现故障,这种状况下,系统已经工作在异常状态,或者系统性能已经降低,继续运行可能会出现死机或者其他不可预见的后果,BIOS会将报错信息传送到BMC,并通知BMC在记录报错信息的同时,触发报警提醒用户系统已经出现故障,以便用户及时维护。说 明 书CN 103092739 A1/1页5图1说 明 书 附 图CN 103092739 A。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1