一种排查多路众核服务器CPU故障的方法.pdf

上传人:32 文档编号:628368 上传时间:2018-02-27 格式:PDF 页数:10 大小:405.71KB
返回 下载 相关 举报
摘要
申请专利号:

CN201410379159.9

申请日:

2014.08.04

公开号:

CN104102566A

公开日:

2014.10.15

当前法律状态:

公开

有效性:

审中

法律详情:

公开

IPC分类号:

G06F11/22

主分类号:

G06F11/22

申请人:

浪潮电子信息产业股份有限公司

发明人:

杜彦魁; 郑辉; 陈良华

地址:

250101 山东省济南市高新区舜雅路1036号

优先权:

专利代理机构:

代理人:

PDF下载: PDF下载
内容摘要

本发明提供一种排查多路众核服务器CPU故障的方法,其特点在于通过对linux系统下自带的mcelog记录文件以及cpuinfo文件解析,将mcelog中记录的故障的逻辑cpu解析到物理cpu,然后通过对调故障cpu位置,同时对cpu及内存大压力测试来定位其故障。本发明的一种排查多路众核服务器CPU故障的方法和现有技术相比,可以及时、快速的发现cpu的故障问题,本发明还具有设计合理、结构简单、易于加工、使用方便等特点,因而,具有很好的使用价值。

权利要求书

1.  一种排查多路众核服务器CPU故障的方法,其特征在于通过对linux系统下自带的mcelog记录文件以及cpuinfo文件解析,将mcelog中记录的故障的逻辑cpu解析到物理cpu,然后通过对调故障cpu位置,同时对cpu及内存大压力测试来定位其故障。

2.
  根据权利要求1所述的一种排查多路众核服务器CPU故障的方法,其特征在于购买TS850满配服务器,其配置为8颗物理cpu,每颗cpu为8核心,不开超线程技术的情况下,其逻辑cpu达到64核之众;
应用中出现死机故障,同时/var/log/mcelog出现报错信息,但mcelog记录的cpu为逻辑cpu,其与物理cpu对于关系并不是按序对应;
linpack可以使用intel MKL数学库中标准编译出来的测试程序,通过设定相应参数可以让所有cpu核心的使用率达到100%,同时使物理内存的利用率达到95%以上,cpu与内存之间进行频繁通讯;这种压力测试不是memtest配合单纯cpu压力测试所能达到的效果,cpu与内存之间的通讯更加紧密;
(1)mcelog报错介绍:
(2)在Linux系统下,打开/proc/cpuinfo文件,文件中显示如下信息:
通过mcelog记录报错显示是CPU 0 BANK 0出错,查找cpuinfo文件,可以确定,报错CPU的逻辑号为processor:0,逻辑号0对应的physical id为1,可以定位报错的CPU物理号为CPU1;
(3)更换物理1号cpu,对调1号与0号cpu故障,进行linpack压力测试:
使用Intel MKL软件中自带的脚本进行测试,所以要保证MKL的正确安装
使用Intel MPI软件运行测试,所以保证Intel MPI软件的正确安装,且初始化节点MPD环境;
以root用户编译 linpack 
cd /opt/intel/Compiler/11.1/072/mkl/benchmarks/mp_linpack 
make arch=em64t 
编译完成后 
cd /opt/intel/Compiler/11.1/072/mkl/benchmarks/mp_linpack/bin/em64t  
在此可以看到 HPL.dat 和 xhpl 2 个文件,其中 HPL.dat  为配置文件,xhpl 为可执行程序;
a启动MPD环境:
cd  /root 
vi  mpd.hosts             //编辑主机列表文件,包含所有参加计算的节点主机名
mpdboot –n #number    //#number表示启动机器数目,不大于mpd.hosts文件所列节点数
mpdtrace               //查看当前启动节点,正常情况会将所有启动节点名打印出来
b进入执行脚本所在目录:
cd  /opt/intel/mkl/10.1.2.024/benchmarks/mp_linpack/bin_intel/em64t
c编辑配置文件HPL_serial.dat:
其中的6行为需要修改的参数,分别表示以下含义:
2               # of problems sizes (N)            //有几组N,即需要解几组方程
1000 2000        Ns                             //矩阵N的规模,即矩阵的阶数
1               # of NBs                          //有几组NB,即有几种分块方式
168              NBs                                 //NB值即表示分块大小为多少
1                   Ps                   
4                   Qs                                  //二位处理器网格(P×Q)
d编辑脚本文件runme_em64t:
修改文件中一句mpiexec -np 64 ./xhpl_em64t | tee -a xhpl_em64t_outputs.txt
中的-np 后面的值,应该等于P×Q;
e执行脚本runme_em64t:
./runme_em64t
(4)大压力测试一段时间后如果再出现故障,再次通过解析mcelog记录信息:
由此可以判断出故障随着目前的0号cpu为故障cpu,进行更换处理。

说明书

一种排查多路众核服务器CPU故障的方法
技术领域
本发明涉及计算机技术领域,具体地说是一种排查多路众核服务器CPU故障的方法。
背景技术
目前随着多路服务器的普及,企业级应用中出现了大量如四路服务器、八路众核服务器等多个物理cpu构成的服务器,而cpu与内存之间通讯的故障排查是一项复杂的技术问题。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种排查多路众核服务器CPU故障的方法。
本发明的技术方案是按以下方式实现的,其结构中通过对linux系统下自带的mcelog记录文件以及cpuinfo文件解析,将mcelog中记录的故障的逻辑cpu解析到物理cpu,然后通过对调故障cpu位置,同时对cpu及内存大压力测试来定位其故障。
购买TS850满配服务器,其配置为8颗物理cpu,每颗cpu为8核心,不开超线程技术的情况下,其逻辑cpu达到64核之众;
应用中出现死机故障,同时/var/log/mcelog出现报错信息,但mcelog记录的cpu为逻辑cpu,其与物理cpu对于关系并不是按序对应;
linpack可以使用intel MKL数学库中标准编译出来的测试程序,通过设定相应参数可以让所有cpu核心的使用率达到100%,同时使物理内存的利用率达到95%以上,cpu与内存之间进行频繁通讯;这种压力测试不是memtest配合单纯cpu压力测试所能达到的效果,cpu与内存之间的通讯更加紧密;
(1)mcelog报错介绍:
(2)在Linux系统下,打开/proc/cpuinfo文件,文件中显示如下信息:
通过mcelog记录报错显示是CPU 0 BANK 0出错,查找cpuinfo文件,可以确定,报错CPU的逻辑号为processor:0,逻辑号0对应的physical id为1,可以定位报错的CPU物理号为CPU1;
(3)更换物理1号cpu,对调1号与0号cpu故障,进行linpack压力测试:
l   使用Intel MKL软件中自带的脚本进行测试,所以要保证MKL的正确安装
l   使用Intel MPI软件运行测试,所以保证Intel MPI软件的正确安装,且初始化节点MPD环境;
以root用户编译 linpack 
cd /opt/intel/Compiler/11.1/072/mkl/benchmarks/mp_linpack 
make arch=em64t 
编译完成后 
cd /opt/intel/Compiler/11.1/072/mkl/benchmarks/mp_linpack/bin/em64t  
在此可以看到 HPL.dat 和 xhpl 2 个文件,其中 HPL.dat  为配置文件, xhpl 为可执行程序;
a启动MPD环境:
cd  /root 
vi  mpd.hosts          //编辑主机列表文件,包含所有参加计算的节点主机名
mpdboot –n #number  //#number表示启动机器数目,不大于mpd.hosts文件所列节点数
mpdtrace            //查看当前启动节点,正常情况会将所有启动节点名打印出来
b进入执行脚本所在目录:
cd  /opt/intel/mkl/10.1.2.024/benchmarks/mp_linpack/bin_intel/em64t
c编辑配置文件HPL_serial.dat:
其中的6行为需要修改的参数,分别表示以下含义:
l   2            # of problems sizes (N)   //有几组N,即需要解几组方程
l   1000 2000    Ns                    //矩阵N的规模,即矩阵的阶数
l   1            # of NBs               //有几组NB,即有几种分块方式
l   168          NBs                  //NB值即表示分块大小为多少
l   1            Ps                   
l   4            Qs                   //二位处理器网格(P×Q)
d编辑脚本文件runme_em64t:
修改文件中一句mpiexec -np 64 ./xhpl_em64t | tee -a xhpl_em64t_outputs.txt
中的-np 后面的值,应该等于P×Q;
e执行脚本runme_em64t:
./runme_em64t
(4)大压力测试一段时间后如果再出现故障,再次通过解析mcelog记录信息:
由此可以判断出故障随着目前的0号cpu为故障cpu,进行更换处理。 
本发明的优点是:
本发明的一种排查多路众核服务器CPU故障的方法和现有技术相比,可以及时、快速的发现cpu的故障问题,本发明还具有设计合理、结构简单、易于加工、使用方便等特点,因而,具有很好的使用价值。
附图说明
图1为一种排查多路众核服务器CPU故障的方法的结构示意图。
具体实施方式
下面结合附图对本发明的一种排查多路众核服务器CPU故障的方法作以下详细说明。
如图1所示,本发明的一种排查多路众核服务器CPU故障的方法通过对linux系统下自带的mcelog记录文件以及cpuinfo文件解析,将mcelog中记录的故障的逻辑cpu解析到物理cpu,然后通过对调故障cpu位置,同时对cpu及内存大压力测试来定位其故障。
某企业购买浪潮TS850满配服务器,其配置为8颗物理cpu,每颗cpu为8核心,不开超线程技术的情况下,其逻辑cpu达到64核之众。
应用中出现死机故障,同时/var/log/mcelog出现报错信息,但mcelog记录的cpu为逻辑cpu,其与物理cpu对于关系并不是按序对应。
linpack可以使用intel MKL数学库中标准编译出来的测试程序,通过设定相应参数可以让所有cpu核心的使用率达到100%,同时使物理内存的利用率达到95%以上,cpu与内存之间进行频繁通讯。这种压力测试不是memtest配合单纯cpu压力测试所能达到的效果,cpu与内存之间的通讯更加紧密。
(1)mcelog报错介绍:
以下面这个mcelog报错为例:
MCE 0
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 0 BANK 0 MISC 2 
MCG status:
MCi status:
MCi_MISC register valid
MCA: BUS Level-3 Generic Generic Other-transaction Request-timeout Error
<16:2> BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS 8800004000020e0f MCGSTATUS 0
可以看出cpu0号逻辑cpu出现异常。
(2)在Linux系统下,打开/proc/cpuinfo文件,文件中显示如下信息:
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model     : 47
model name :        Intel(R) Xeon(R) CPU E7- 8837  @ 2.67GHz
stepping  : 2
cpu MHz   : 2666.844
cache size : 24576 KB
physical id  : 1
siblings  : 8
core id   : 0
cpu cores : 8
apicid    : 32
fpu     : yes
fpu_exception : yes
cpuid level  : 11
wp      : yes
flags     : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm syscall nx pdpe1gb rdtscp lm constant_tsc ida nonstop_tsc arat pni monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr sse4_1 sse4_2 popcnt lahf_lm
bogomips  : 5333.68
clflush size : 64
cache_alignment : 64
address sizes : 44 bits physical, 48 bits virtual
power management: [8]
通过mcelog记录报错显示是CPU 0 BANK 0出错,查找cpuinfo文件,可以确定,报错CPU的逻辑号为processor:0,逻辑号0对应的physical id为1,可以定位报错的CPU物理号为CPU1。
(3)、更换物理1号cpu,对调1号与0号cpu故障,进行linpack压力测试:
l   使用Intel MKL软件中自带的脚本进行测试,所以要保证MKL的正确安装
l   使用Intel MPI软件运行测试,所以保证Intel MPI软件的正确安装,且初始化节点MPD环境。
以root用户编译 linpack 
cd /opt/intel/Compiler/11.1/072/mkl/benchmarks/mp_linpack 
make arch=em64t 
编译完成后 
cd /opt/intel/Compiler/11.1/072/mkl/benchmarks/mp_linpack/bin/em64t  
在此可以看到 HPL.dat 和 xhpl 2 个文件,其中 HPL.dat  为配置文件, xhpl 为可执行程序。
a启动MPD环境:
cd  /root 
vi  mpd.hosts          //编辑主机列表文件,包含所有参加计算的节点主机名
文件内容形如:
 mpdboot –n #number  //#number表示启动机器数目,不大于mpd.hosts文件所列节点数
mpdtrace            //查看当前启动节点,正常情况会将所有启动节点名打印出来
b进入执行脚本所在目录:
cd  /opt/intel/mkl/10.1.2.024/benchmarks/mp_linpack/bin_intel/em64t
c编辑配置文件HPL_serial.dat:
l   2            # of problems sizes (N)   //有几组N,即需要解几组方程
l   1000 2000    Ns                    //矩阵N的规模,即矩阵的阶数
【对结果并没有很高的性能要求,一般N值取1或2就行,注意N值为几则对应的Ns就要有几个值;矩阵的规模Ns值参考系统内存设定,一般占用内存的80%左右最佳,例如16G内存的情况下,Ns取值41448,如果为了加快测试速度,可减小Ns值。】
l   1            # of NBs               //有几组NB,即有几种分块方式
l   168          NBs                  //NB值即表示分块大小为多少
【NBs不能太大或太小,一般在32到256之间,此处建议取192 或224】
l   1            Ps                   
l   4            Qs                   //二位处理器网格(P×Q)
【首先规定P×Q=进程数,另外一般P≤Q ,P=2的n次幂 。也就是说,P×Q=核心数,例如有64核心,即可取P为8,Q为64】
d编辑脚本文件runme_em64t:
修改文件中一句mpiexec -np 64 ./xhpl_em64t | tee -a xhpl_em64t_outputs.txt
中的-np 后面的值,应该等于P×Q
e执行脚本runme_em64t:
./runme_em64t。
(4)大压力测试一段时间后如果再出现故障,再次通过解析mcelog记录信息:
MCE 1
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 22 BANK 0 MISC 2 
MCG status:
MCi status:
MCi_MISC register valid
MCA: BUS Level-3 Generic Generic Other-transaction Request-timeout Error
<16:2> BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS 8800004000020e0f MCGSTATUS 0
可以看出cpu22号逻辑cpu出现异常。
查看cpuinfo信息
processor : 22
vendor_id : GenuineIntel
cpu family : 6
model     : 47
model name :        Intel(R) Xeon(R) CPU E7- 8837  @ 2.67GHz
stepping  : 2
cpu MHz   : 2666.844
cache size : 24576 KB
physical id  : 0
siblings  : 8
core id   : 0
cpu cores : 8
apicid    : 32
fpu     : yes
fpu_exception : yes
cpuid level  : 11
wp      : yes
flags     : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm syscall nx pdpe1gb rdtscp lm constant_tsc ida nonstop_tsc arat pni monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr sse4_1 sse4_2 popcnt lahf_lm
bogomips  : 5333.68
clflush size : 64
cache_alignment : 64
address sizes : 44 bits physical, 48 bits virtual
power management: [8]
由此可以判断出故障随着目前的0号cpu为故障cpu,进行更换处理。
本发明的一种排查多路众核服务器CPU故障的方法其加工制作非常简单方便,按照说明书附图所示即可加工。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

一种排查多路众核服务器CPU故障的方法.pdf_第1页
第1页 / 共10页
一种排查多路众核服务器CPU故障的方法.pdf_第2页
第2页 / 共10页
一种排查多路众核服务器CPU故障的方法.pdf_第3页
第3页 / 共10页
点击查看更多>>
资源描述

《一种排查多路众核服务器CPU故障的方法.pdf》由会员分享,可在线阅读,更多相关《一种排查多路众核服务器CPU故障的方法.pdf(10页珍藏版)》请在专利查询网上搜索。

1、10申请公布号CN104102566A43申请公布日20141015CN104102566A21申请号201410379159922申请日20140804G06F11/2220060171申请人浪潮电子信息产业股份有限公司地址250101山东省济南市高新区舜雅路1036号72发明人杜彦魁郑辉陈良华54发明名称一种排查多路众核服务器CPU故障的方法57摘要本发明提供一种排查多路众核服务器CPU故障的方法,其特点在于通过对LINUX系统下自带的MCELOG记录文件以及CPUINFO文件解析,将MCELOG中记录的故障的逻辑CPU解析到物理CPU,然后通过对调故障CPU位置,同时对CPU及内存大压力。

2、测试来定位其故障。本发明的一种排查多路众核服务器CPU故障的方法和现有技术相比,可以及时、快速的发现CPU的故障问题,本发明还具有设计合理、结构简单、易于加工、使用方便等特点,因而,具有很好的使用价值。51INTCL权利要求书2页说明书6页附图1页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书6页附图1页10申请公布号CN104102566ACN104102566A1/2页21一种排查多路众核服务器CPU故障的方法,其特征在于通过对LINUX系统下自带的MCELOG记录文件以及CPUINFO文件解析,将MCELOG中记录的故障的逻辑CPU解析到物理CPU,然后通过对调故障。

3、CPU位置,同时对CPU及内存大压力测试来定位其故障。2根据权利要求1所述的一种排查多路众核服务器CPU故障的方法,其特征在于购买TS850满配服务器,其配置为8颗物理CPU,每颗CPU为8核心,不开超线程技术的情况下,其逻辑CPU达到64核之众;应用中出现死机故障,同时/VAR/LOG/MCELOG出现报错信息,但MCELOG记录的CPU为逻辑CPU,其与物理CPU对于关系并不是按序对应;LINPACK可以使用INTELMKL数学库中标准编译出来的测试程序,通过设定相应参数可以让所有CPU核心的使用率达到100,同时使物理内存的利用率达到95以上,CPU与内存之间进行频繁通讯;这种压力测试不。

4、是MEMTEST配合单纯CPU压力测试所能达到的效果,CPU与内存之间的通讯更加紧密;(1)MCELOG报错介绍(2)在LINUX系统下,打开/PROC/CPUINFO文件,文件中显示如下信息通过MCELOG记录报错显示是CPU0BANK0出错,查找CPUINFO文件,可以确定,报错CPU的逻辑号为PROCESSOR0,逻辑号0对应的PHYSICALID为1,可以定位报错的CPU物理号为CPU1;(3)更换物理1号CPU,对调1号与0号CPU故障,进行LINPACK压力测试使用INTELMKL软件中自带的脚本进行测试,所以要保证MKL的正确安装使用INTELMPI软件运行测试,所以保证INTE。

5、LMPI软件的正确安装,且初始化节点MPD环境;以ROOT用户编译LINPACKCD/OPT/INTEL/COMPILER/111/072/MKL/BENCHMARKS/MP_LINPACKMAKEARCHEM64T编译完成后CD/OPT/INTEL/COMPILER/111/072/MKL/BENCHMARKS/MP_LINPACK/BIN/EM64T在此可以看到HPLDAT和XHPL2个文件,其中HPLDAT为配置文件,XHPL为可执行程序;A启动MPD环境CD/ROOTVIMPDHOSTS/编辑主机列表文件,包含所有参加计算的节点主机名MPDBOOTNNUMBER/NUMBER表示启动机。

6、器数目,不大于MPDHOSTS文件所列节点数MPDTRACE/查看当前启动节点,正常情况会将所有启动节点名打印出来B进入执行脚本所在目录CD/OPT/INTEL/MKL/1012024/BENCHMARKS/MP_LINPACK/BIN_INTEL/EM64TC编辑配置文件HPL_SERIALDAT其中的6行为需要修改的参数,分别表示以下含义权利要求书CN104102566A2/2页32OFPROBLEMSSIZESN/有几组N,即需要解几组方程10002000NS/矩阵N的规模,即矩阵的阶数1OFNBS/有几组NB,即有几种分块方式168NBS/NB值即表示分块大小为多少1PS4QS/二位处。

7、理器网格(PQ)D编辑脚本文件RUNME_EM64T修改文件中一句MPIEXECNP64/XHPL_EM64T|TEEAXHPL_EM64T_OUTPUTSTXT中的NP后面的值,应该等于PQ;E执行脚本RUNME_EM64T/RUNME_EM64T(4)大压力测试一段时间后如果再出现故障,再次通过解析MCELOG记录信息由此可以判断出故障随着目前的0号CPU为故障CPU,进行更换处理。权利要求书CN104102566A1/6页4一种排查多路众核服务器CPU故障的方法技术领域0001本发明涉及计算机技术领域,具体地说是一种排查多路众核服务器CPU故障的方法。背景技术0002目前随着多路服务器的。

8、普及,企业级应用中出现了大量如四路服务器、八路众核服务器等多个物理CPU构成的服务器,而CPU与内存之间通讯的故障排查是一项复杂的技术问题。发明内容0003本发明的目的是克服现有技术中存在的不足,提供一种排查多路众核服务器CPU故障的方法。0004本发明的技术方案是按以下方式实现的,其结构中通过对LINUX系统下自带的MCELOG记录文件以及CPUINFO文件解析,将MCELOG中记录的故障的逻辑CPU解析到物理CPU,然后通过对调故障CPU位置,同时对CPU及内存大压力测试来定位其故障。0005购买TS850满配服务器,其配置为8颗物理CPU,每颗CPU为8核心,不开超线程技术的情况下,其逻。

9、辑CPU达到64核之众;应用中出现死机故障,同时/VAR/LOG/MCELOG出现报错信息,但MCELOG记录的CPU为逻辑CPU,其与物理CPU对于关系并不是按序对应;LINPACK可以使用INTELMKL数学库中标准编译出来的测试程序,通过设定相应参数可以让所有CPU核心的使用率达到100,同时使物理内存的利用率达到95以上,CPU与内存之间进行频繁通讯;这种压力测试不是MEMTEST配合单纯CPU压力测试所能达到的效果,CPU与内存之间的通讯更加紧密;(1)MCELOG报错介绍(2)在LINUX系统下,打开/PROC/CPUINFO文件,文件中显示如下信息通过MCELOG记录报错显示是C。

10、PU0BANK0出错,查找CPUINFO文件,可以确定,报错CPU的逻辑号为PROCESSOR0,逻辑号0对应的PHYSICALID为1,可以定位报错的CPU物理号为CPU1;(3)更换物理1号CPU,对调1号与0号CPU故障,进行LINPACK压力测试L使用INTELMKL软件中自带的脚本进行测试,所以要保证MKL的正确安装L使用INTELMPI软件运行测试,所以保证INTELMPI软件的正确安装,且初始化节点MPD环境;以ROOT用户编译LINPACKCD/OPT/INTEL/COMPILER/111/072/MKL/BENCHMARKS/MP_LINPACKMAKEARCHEM64T编译。

11、完成后说明书CN104102566A2/6页5CD/OPT/INTEL/COMPILER/111/072/MKL/BENCHMARKS/MP_LINPACK/BIN/EM64T在此可以看到HPLDAT和XHPL2个文件,其中HPLDAT为配置文件,XHPL为可执行程序;A启动MPD环境CD/ROOTVIMPDHOSTS/编辑主机列表文件,包含所有参加计算的节点主机名MPDBOOTNNUMBER/NUMBER表示启动机器数目,不大于MPDHOSTS文件所列节点数MPDTRACE/查看当前启动节点,正常情况会将所有启动节点名打印出来B进入执行脚本所在目录CD/OPT/INTEL/MKL/10120。

12、24/BENCHMARKS/MP_LINPACK/BIN_INTEL/EM64TC编辑配置文件HPL_SERIALDAT其中的6行为需要修改的参数,分别表示以下含义L2OFPROBLEMSSIZESN/有几组N,即需要解几组方程L10002000NS/矩阵N的规模,即矩阵的阶数L1OFNBS/有几组NB,即有几种分块方式L168NBS/NB值即表示分块大小为多少L1PSL4QS/二位处理器网格(PQ)D编辑脚本文件RUNME_EM64T修改文件中一句MPIEXECNP64/XHPL_EM64T|TEEAXHPL_EM64T_OUTPUTSTXT中的NP后面的值,应该等于PQ;E执行脚本RUNM。

13、E_EM64T/RUNME_EM64T(4)大压力测试一段时间后如果再出现故障,再次通过解析MCELOG记录信息由此可以判断出故障随着目前的0号CPU为故障CPU,进行更换处理。0006本发明的优点是本发明的一种排查多路众核服务器CPU故障的方法和现有技术相比,可以及时、快速的发现CPU的故障问题,本发明还具有设计合理、结构简单、易于加工、使用方便等特点,因而,具有很好的使用价值。附图说明0007图1为一种排查多路众核服务器CPU故障的方法的结构示意图。具体实施方式0008下面结合附图对本发明的一种排查多路众核服务器CPU故障的方法作以下详细说明。0009如图1所示,本发明的一种排查多路众核服。

14、务器CPU故障的方法通过对LINUX系统下自带的MCELOG记录文件以及CPUINFO文件解析,将MCELOG中记录的故障的逻辑CPU解说明书CN104102566A3/6页6析到物理CPU,然后通过对调故障CPU位置,同时对CPU及内存大压力测试来定位其故障。0010某企业购买浪潮TS850满配服务器,其配置为8颗物理CPU,每颗CPU为8核心,不开超线程技术的情况下,其逻辑CPU达到64核之众。0011应用中出现死机故障,同时/VAR/LOG/MCELOG出现报错信息,但MCELOG记录的CPU为逻辑CPU,其与物理CPU对于关系并不是按序对应。0012LINPACK可以使用INTELMK。

15、L数学库中标准编译出来的测试程序,通过设定相应参数可以让所有CPU核心的使用率达到100,同时使物理内存的利用率达到95以上,CPU与内存之间进行频繁通讯。这种压力测试不是MEMTEST配合单纯CPU压力测试所能达到的效果,CPU与内存之间的通讯更加紧密。0013(1)MCELOG报错介绍以下面这个MCELOG报错为例MCE0HARDWAREERRORTHISISNOTASOFTWAREPROBLEMPLEASECONTACTYOURHARDWAREVENDORCPU0BANK0MISC2MCGSTATUSMCISTATUSMCI_MISCREGISTERVALIDMCABUSLEVEL3GE。

16、NERICGENERICOTHERTRANSACTIONREQUESTTIMEOUTERRORBQ_DCU_READ_TYPEBQ_ERR_HARD_TYPEBQ_ERR_HARD_TYPETIMEOUTBINITROBTIMEOUTNOMICROINSTRUCTIONRETIREDFORSOMETIMESTATUS8800004000020E0FMCGSTATUS0可以看出CPU0号逻辑CPU出现异常。0014(2)在LINUX系统下,打开/PROC/CPUINFO文件,文件中显示如下信息PROCESSOR0VENDOR_IDGENUINEINTELCPUFAMILY6MODEL47MODE。

17、LNAMEINTELRXEONRCPUE78837267GHZSTEPPING2CPUMHZ2666844CACHESIZE24576KBPHYSICALID1SIBLINGS8COREID0CPUCORES8APICID32FPUYESFPU_EXCEPTIONYES说明书CN104102566A4/6页7CPUIDLEVEL11WPYESFLAGSFPUVMEDEPSETSCMSRPAEMCECX8APICSEPMTRRPGEMCACMOVPATPSE36CLFLUSHDTSACPIMMXFXSRSSESSE2SSHTTMSYSCALLNXPDPE1GBRDTSCPLMCONSTANT_T。

18、SCIDANONSTOP_TSCARATPNIMONITORDS_CPLVMXSMXESTTM2SSSE3CX16XTPRSSE4_1SSE4_2POPCNTLAHF_LMBOGOMIPS533368CLFLUSHSIZE64CACHE_ALIGNMENT64ADDRESSSIZES44BITSPHYSICAL,48BITSVIRTUALPOWERMANAGEMENT8通过MCELOG记录报错显示是CPU0BANK0出错,查找CPUINFO文件,可以确定,报错CPU的逻辑号为PROCESSOR0,逻辑号0对应的PHYSICALID为1,可以定位报错的CPU物理号为CPU1。0015(3)、更换。

19、物理1号CPU,对调1号与0号CPU故障,进行LINPACK压力测试L使用INTELMKL软件中自带的脚本进行测试,所以要保证MKL的正确安装L使用INTELMPI软件运行测试,所以保证INTELMPI软件的正确安装,且初始化节点MPD环境。0016以ROOT用户编译LINPACKCD/OPT/INTEL/COMPILER/111/072/MKL/BENCHMARKS/MP_LINPACKMAKEARCHEM64T编译完成后CD/OPT/INTEL/COMPILER/111/072/MKL/BENCHMARKS/MP_LINPACK/BIN/EM64T在此可以看到HPLDAT和XHPL2个文件。

20、,其中HPLDAT为配置文件,XHPL为可执行程序。0017A启动MPD环境CD/ROOTVIMPDHOSTS/编辑主机列表文件,包含所有参加计算的节点主机名文件内容形如MPDBOOTNNUMBER/NUMBER表示启动机器数目,不大于MPDHOSTS文件所列节点数MPDTRACE/查看当前启动节点,正常情况会将所有启动节点名打印出来B进入执行脚本所在目录CD/OPT/INTEL/MKL/1012024/BENCHMARKS/MP_LINPACK/BIN_INTEL/EM64TC编辑配置文件HPL_SERIALDATL2OFPROBLEMSSIZESN/有几组N,即需要解几组方程L100020。

21、00NS/矩阵N的规模,即矩阵的阶数【对结果并没有很高的性能要求,一般N值取1或2就行,注意N值为几则对应的NS就要有几个值;矩阵的规模NS值参考系统内存设定,一般占用内存的80左右最佳,例如16G说明书CN104102566A5/6页8内存的情况下,NS取值41448,如果为了加快测试速度,可减小NS值。】L1OFNBS/有几组NB,即有几种分块方式L168NBS/NB值即表示分块大小为多少【NBS不能太大或太小,一般在32到256之间,此处建议取192或224】L1PSL4QS/二位处理器网格(PQ)【首先规定PQ进程数,另外一般PQ,P2的N次幂。也就是说,PQ核心数,例如有64核心,即。

22、可取P为8,Q为64】D编辑脚本文件RUNME_EM64T修改文件中一句MPIEXECNP64/XHPL_EM64T|TEEAXHPL_EM64T_OUTPUTSTXT中的NP后面的值,应该等于PQE执行脚本RUNME_EM64T/RUNME_EM64T。0018(4)大压力测试一段时间后如果再出现故障,再次通过解析MCELOG记录信息MCE1HARDWAREERRORTHISISNOTASOFTWAREPROBLEMPLEASECONTACTYOURHARDWAREVENDORCPU22BANK0MISC2MCGSTATUSMCISTATUSMCI_MISCREGISTERVALIDMCAB。

23、USLEVEL3GENERICGENERICOTHERTRANSACTIONREQUESTTIMEOUTERRORBQ_DCU_READ_TYPEBQ_ERR_HARD_TYPEBQ_ERR_HARD_TYPETIMEOUTBINITROBTIMEOUTNOMICROINSTRUCTIONRETIREDFORSOMETIMESTATUS8800004000020E0FMCGSTATUS0可以看出CPU22号逻辑CPU出现异常。0019查看CPUINFO信息PROCESSOR22VENDOR_IDGENUINEINTELCPUFAMILY6MODEL47MODELNAMEINTELRXEONRC。

24、PUE78837267GHZSTEPPING2CPUMHZ2666844CACHESIZE24576KBPHYSICALID0SIBLINGS8COREID0CPUCORES8说明书CN104102566A6/6页9APICID32FPUYESFPU_EXCEPTIONYESCPUIDLEVEL11WPYESFLAGSFPUVMEDEPSETSCMSRPAEMCECX8APICSEPMTRRPGEMCACMOVPATPSE36CLFLUSHDTSACPIMMXFXSRSSESSE2SSHTTMSYSCALLNXPDPE1GBRDTSCPLMCONSTANT_TSCIDANONSTOP_TSCA。

25、RATPNIMONITORDS_CPLVMXSMXESTTM2SSSE3CX16XTPRSSE4_1SSE4_2POPCNTLAHF_LMBOGOMIPS533368CLFLUSHSIZE64CACHE_ALIGNMENT64ADDRESSSIZES44BITSPHYSICAL,48BITSVIRTUALPOWERMANAGEMENT8由此可以判断出故障随着目前的0号CPU为故障CPU,进行更换处理。0020本发明的一种排查多路众核服务器CPU故障的方法其加工制作非常简单方便,按照说明书附图所示即可加工。0021除说明书所述的技术特征外,均为本专业技术人员的已知技术。说明书CN104102566A1/1页10图1说明书附图CN104102566A10。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1