一种分布式计算机系统故障处理流程.pdf

上传人:大师****2 文档编号:6167491 上传时间:2019-05-16 格式:PDF 页数:7 大小:1.53MB
返回 下载 相关 举报
摘要
申请专利号:

CN201310638727.8

申请日:

2013.11.29

公开号:

CN103605581A

公开日:

2014.02.26

当前法律状态:

授权

有效性:

有权

法律详情:

授权|||实质审查的生效IPC(主分类):G06F 11/07申请日:20131129|||公开

IPC分类号:

G06F11/07; G06F11/00

主分类号:

G06F11/07

申请人:

中国航空工业集团公司第六三一研究所

发明人:

李成文; 牛文生; 孙靖国; 李鹏; 王明; 何小亚; 刘宇; 余松涛; 陈国; 湛文韬; 高杨; 杨涛

地址:

710119 陕西省西安市锦业二路15号

优先权:

专利代理机构:

西安智邦专利商标代理有限公司 61211

代理人:

杨引雪

PDF下载: PDF下载
内容摘要

本发明提供一种分布式计算机系统故障处理流程,主要用于对分布计算机系统的故障分级别进行处理,不同级别不同故障类型采取相应处理措施,保证系统故障全面有效地处理,提高系统运行可靠性。该分布式计算机系统故障处理流程包括:1]对分布式计算机系统的故障进行分类;2]系统发生故障后由系统故障检测机制进行检测,过滤较小故障,处理其他故障,无法处理的故障则发送上级处理,严重故障人工处理。本发明分级别进行故障处理,可以降低故障处理复杂度,保证各种故障能够得到有效地处理,保证高优先级的任务能够可靠运行。

权利要求书

权利要求书
1.  一种分布式计算机系统故障处理流程,其特征在于,包括以下步骤: 
1]对分布式计算机系统的故障按照进程级、分区级、模块级、系统级四个层次级别进行分类; 
2]系统发生故障后由系统故障检测机制进行检测,将检测到的故障报给操作系统的健康监控HM服务,健康监控HM服务对故障进行过滤,若是瞬时故障或影响较小的故障则直接忽略,否则把确认后的故障交给故障管理FM进行分类别处理;本级别处理不了的故障上报上一级健康监控HM服务处理,顶层故障交给系统配置管理CM进行处理。 

2.  根据权利要求1所述的分布式计算机系统故障处理流程,其特征在于:所述步骤2中故障管理FM进行分类别处理具体是: 

2.  1]进程级故障处理:对分区内的任务故障由分区内的故障处理程序直接处理,以进程为单位实现进程的恢复、隔离或重构; 

2.  2]分区级故障处理:由健康管理监控服务进行处理,或报告给模块级处理; 

2.  3]模块级故障处理:由系统容错重构机制处理,实现故障模块的隔离; 

2.  4]系统级故障处理:由系统定义的容错重构机制处理,重构策略在蓝图中事先已定义好,根据影响范围大小,非常严重故障由人工干预。

3.  根据权利要求1或2所述的分布式计算机系统故障处理流程,其特征在于:所述步骤1中进程级故障包括:软截至期失败、硬截止期失效、应用错误、数值错误、非法请求、栈溢出、存储器违规、APEX内部错和PORT内部错。 

4.  根据权利要求1或2所述的分布式计算机系统故障处理流程,其特征在于:所述步骤1中分区级故障包括:分区溢出、分区模式设置错和系统时钟丢失。 

5.  根据权利要求1或2所述的分布式计算机系统故障处理流程,其特征在于:所述步骤1中模块级故障包括:硬件故障、电源失败和内核错误。 

6.  根据权利要求1或2所述的分布式计算机系统故障处理流程,其特征在于:所述步骤1中系统级故障包括:配置错误、初始化错、生命消息错误、 SMBP错、SMOS错和CM报告的远程模块错误。 

说明书

说明书一种分布式计算机系统故障处理流程
技术领域
本发明涉及一种分布式计算机系统故障处理流程,属于嵌入式计算机系统设计技术领域。
背景技术
分布式计算机系统是采用统一标准模块、统一数据通讯网络、多层次的软硬件结构,是一种十分复杂而可靠性要求很高的计算机系统。这种复杂计算机系统故障出现情况也是十分复杂,因此需要设计一种故障处理流程全面有效地处理各种各样的故障,即使系统出现了故障也能保证系统任务可靠运行或保证系统高优先级任务运行。
发明内容
本发明提供一种分布式计算机系统故障处理流程,主要用于对分布计算机系统的故障分级别进行处理,不同级别不同故障类型采取相应处理措施,保证系统故障全面有效地处理,提高系统运行可靠性。
本发明的具体技术解决方案如下:
该分布式计算机系统故障处理流程包括以下步骤:
1]对分布式计算机系统的故障按照进程级、分区级、模块级、系统级四个层次级别进行分类;
2]系统发生故障后由系统故障检测机制进行检测,将检测到的故障报给操作系统的健康监控HM服务,健康监控HM服务对故障进行过滤,若是瞬时故障或影响很小的故障则忽略掉,否则把确认了的故障交给故障管理FM进行分类别处理;本级别处理不了的故障上报上一级健康监控HM服务处理,顶层故障交给系统配置管理CM进行处理。
上述分类别处理具体是:
2.1]进程级故障处理:对分区内的任务故障由分区内的故障处理程序直接处理,以进程为单位实现进程的恢复、隔离或重构;
2.2]分区级故障处理:由健康管理监控服务进行处理,或报告给模块级处 理;
2.3]模块级故障处理:由系统容错重构机制处理,实现故障模块的隔离;
2.4]系统级故障处理:由系统定义的容错重构机制处理,重构策略在蓝图中事先已定义好,根据影响范围大小,非常严重故障由人工干预;
上述步骤1中进程级故障包括:软截至期失败、硬截止期失效、应用错误、数值错误、非法请求、栈溢出、存储器违规、APEX内部错和PORT内部错。
上述步骤1中分区级故障包括:分区溢出、分区模式设置错和系统时钟丢失。
上述步骤1中模块级故障包括:硬件故障、电源失败和内核错误。
上述步骤1中系统级故障包括:配置错误、初始化错、生命消息错误、SMBP错、SMOS错和CM报告的远程模块错误。
本发明的优点是:
1)整个系统故障按照进程级、分区级、模块级、系统级四个层次级别进行故障处理,可以降低故障处理复杂度;
2)本级健康监控服务不能处理的故障则报上一级的健康监控服务进行处理,保证各种故障能够得到有效地处理;
3)顶层不能处理故障,则依据系统配置进行系统重构,保证高优先级的任务能够可靠运行。
附图说明
图1为本发明分布式计算机系统故障处理流程图。
具体实施方式
本发明提供一种故障处理流程,按照进程级、分区级、模块级、系统级四个层次级别的故障分别进行处理。各级故障被诊断确认后由操作系统的健康监控服务根据错误代码调相应的错误处理程序进行处理。如果本级健康监控服务不能处理的故障则报上一级的健康监控服务进行处理,到了系统层仍然不能处理的故障则根据系统配置进行系统重构,对不能处理的故障进行隔离,保证高优先级的任务能够可靠运行。
如图1所示,分布式计算机系统故障处理流程具体实施方式如下:
a.对分布式计算机系统各种各样的故障进行分类,按照进程级、分区级、模块级、系统级四个层次级别的设计故障处理程序,不同级别不同类别故障处理措施表1;
b.进程级故障处理,对分区内的任务故障,由分区内的故障处理程序直接处理,以进程为单位实现进程的恢复、隔离或重构;
c.分区级故障处理,由健康管理监控服务进行处理,也可报告给模块级处理;
d.模块级故障处理,由系统容错重构机制处理,可实现故障模块的隔离;
e.系统级故障处理,是最顶级的故障处理,由系统定义的容错重构机制处理,重构策略在蓝图中事先已定义好,根据影响范围大小,非常严重故障可以由飞行员干预;
f.各级故障出现后,由系统故障检测机制进行检测,将检测到的故障报给操作系统的健康监控HM服务,健康监控HM服务对故障进行过滤,如果是瞬时故障或影响很小的故障则忽略掉,否则把确认了的故障交给故障管理FM进行分类别处理。本级别处理不了的故障上报上一级健康监控HM服务处理,顶层故障交给系统配置管理CM进行处理。
表1故障分级别分类别处理措施

一种分布式计算机系统故障处理流程.pdf_第1页
第1页 / 共7页
一种分布式计算机系统故障处理流程.pdf_第2页
第2页 / 共7页
一种分布式计算机系统故障处理流程.pdf_第3页
第3页 / 共7页
点击查看更多>>
资源描述

《一种分布式计算机系统故障处理流程.pdf》由会员分享,可在线阅读,更多相关《一种分布式计算机系统故障处理流程.pdf(7页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 103605581 A (43)申请公布日 2014.02.26 CN 103605581 A (21)申请号 201310638727.8 (22)申请日 2013.11.29 G06F 11/07(2006.01) G06F 11/00(2006.01) (71)申请人 中国航空工业集团公司第六三一研 究所 地址 710119 陕西省西安市锦业二路 15 号 (72)发明人 李成文 牛文生 孙靖国 李鹏 王明 何小亚 刘宇 余松涛 陈国 湛文韬 高杨 杨涛 (74)专利代理机构 西安智邦专利商标代理有限 公司 61211 代理人 杨引雪 (54) 发明名称 一种分。

2、布式计算机系统故障处理流程 (57) 摘要 本发明提供一种分布式计算机系统故障处理 流程, 主要用于对分布计算机系统的故障分级别 进行处理, 不同级别不同故障类型采取相应处理 措施, 保证系统故障全面有效地处理, 提高系统运 行可靠性。该分布式计算机系统故障处理流程包 括 : 1 对分布式计算机系统的故障进行分类 ; 2 系统发生故障后由系统故障检测机制进行检测, 过滤较小故障, 处理其他故障, 无法处理的故障则 发送上级处理, 严重故障人工处理。 本发明分级别 进行故障处理, 可以降低故障处理复杂度, 保证各 种故障能够得到有效地处理, 保证高优先级的任 务能够可靠运行。 (51)Int.C。

3、l. 权利要求书 1 页 说明书 4 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书4页 附图1页 (10)申请公布号 CN 103605581 A CN 103605581 A 1/1 页 2 1. 一种分布式计算机系统故障处理流程, 其特征在于, 包括以下步骤 : 1 对分布式计算机系统的故障按照进程级、 分区级、 模块级、 系统级四个层次级别进行 分类 ; 2 系统发生故障后由系统故障检测机制进行检测, 将检测到的故障报给操作系统的健 康监控HM服务, 健康监控HM服务对故障进行过滤, 若是瞬时故障或影响较小的故障则直接 忽略, 否则。

4、把确认后的故障交给故障管理 FM 进行分类别处理 ; 本级别处理不了的故障上报 上一级健康监控 HM 服务处理, 顶层故障交给系统配置管理 CM 进行处理。 2. 根据权利要求 1 所述的分布式计算机系统故障处理流程, 其特征在于 : 所述步骤 2 中故障管理 FM 进行分类别处理具体是 : 2.1 进程级故障处理 : 对分区内的任务故障由分区内的故障处理程序直接处理, 以进 程为单位实现进程的恢复、 隔离或重构 ; 2.2 分区级故障处理 : 由健康管理监控服务进行处理, 或报告给模块级处理 ; 2.3 模块级故障处理 : 由系统容错重构机制处理, 实现故障模块的隔离 ; 2.4 系统级故障。

5、处理 : 由系统定义的容错重构机制处理, 重构策略在蓝图中事先已定 义好, 根据影响范围大小, 非常严重故障由人工干预。 3. 根据权利要求 1 或 2 所述的分布式计算机系统故障处理流程, 其特征在于 : 所述步 骤 1 中进程级故障包括 : 软截至期失败、 硬截止期失效、 应用错误、 数值错误、 非法请求、 栈 溢出、 存储器违规、 APEX 内部错和 PORT 内部错。 4. 根据权利要求 1 或 2 所述的分布式计算机系统故障处理流程, 其特征在于 : 所述步 骤 1 中分区级故障包括 : 分区溢出、 分区模式设置错和系统时钟丢失。 5. 根据权利要求 1 或 2 所述的分布式计算机系。

6、统故障处理流程, 其特征在于 : 所述步 骤 1 中模块级故障包括 : 硬件故障、 电源失败和内核错误。 6. 根据权利要求 1 或 2 所述的分布式计算机系统故障处理流程, 其特征在于 : 所述步 骤1中系统级故障包括 : 配置错误、 初始化错、 生命消息错误、 SMBP错、 SMOS错和CM报告的 远程模块错误。 权 利 要 求 书 CN 103605581 A 2 1/4 页 3 一种分布式计算机系统故障处理流程 技术领域 0001 本发明涉及一种分布式计算机系统故障处理流程, 属于嵌入式计算机系统设计技 术领域。 背景技术 0002 分布式计算机系统是采用统一标准模块、 统一数据通讯网。

7、络、 多层次的软硬件结 构, 是一种十分复杂而可靠性要求很高的计算机系统。这种复杂计算机系统故障出现情况 也是十分复杂, 因此需要设计一种故障处理流程全面有效地处理各种各样的故障, 即使系 统出现了故障也能保证系统任务可靠运行或保证系统高优先级任务运行。 发明内容 0003 本发明提供一种分布式计算机系统故障处理流程, 主要用于对分布计算机系统的 故障分级别进行处理, 不同级别不同故障类型采取相应处理措施, 保证系统故障全面有效 地处理, 提高系统运行可靠性。 0004 本发明的具体技术解决方案如下 : 0005 该分布式计算机系统故障处理流程包括以下步骤 : 0006 1 对分布式计算机系统。

8、的故障按照进程级、 分区级、 模块级、 系统级四个层次级别 进行分类 ; 0007 2 系统发生故障后由系统故障检测机制进行检测, 将检测到的故障报给操作系统 的健康监控HM服务, 健康监控HM服务对故障进行过滤, 若是瞬时故障或影响很小的故障则 忽略掉, 否则把确认了的故障交给故障管理 FM 进行分类别处理 ; 本级别处理不了的故障上 报上一级健康监控 HM 服务处理, 顶层故障交给系统配置管理 CM 进行处理。 0008 上述分类别处理具体是 : 0009 2.1 进程级故障处理 : 对分区内的任务故障由分区内的故障处理程序直接处理, 以进程为单位实现进程的恢复、 隔离或重构 ; 0010。

9、 2.2 分区级故障处理 : 由健康管理监控服务进行处理, 或报告给模块级处理 ; 0011 2.3 模块级故障处理 : 由系统容错重构机制处理, 实现故障模块的隔离 ; 0012 2.4 系统级故障处理 : 由系统定义的容错重构机制处理, 重构策略在蓝图中事先 已定义好, 根据影响范围大小, 非常严重故障由人工干预 ; 0013 上述步骤 1 中进程级故障包括 : 软截至期失败、 硬截止期失效、 应用错误、 数值错 误、 非法请求、 栈溢出、 存储器违规、 APEX 内部错和 PORT 内部错。 0014 上述步骤 1 中分区级故障包括 : 分区溢出、 分区模式设置错和系统时钟丢失。 001。

10、5 上述步骤 1 中模块级故障包括 : 硬件故障、 电源失败和内核错误。 0016 上述步骤 1 中系统级故障包括 : 配置错误、 初始化错、 生命消息错误、 SMBP 错、 SMOS 错和 CM 报告的远程模块错误。 0017 本发明的优点是 : 说 明 书 CN 103605581 A 3 2/4 页 4 0018 1) 整个系统故障按照进程级、 分区级、 模块级、 系统级四个层次级别进行故障处 理, 可以降低故障处理复杂度 ; 0019 2) 本级健康监控服务不能处理的故障则报上一级的健康监控服务进行处理, 保证 各种故障能够得到有效地处理 ; 0020 3) 顶层不能处理故障, 则依据。

11、系统配置进行系统重构, 保证高优先级的任务能够 可靠运行。 附图说明 0021 图 1 为本发明分布式计算机系统故障处理流程图。 具体实施方式 0022 本发明提供一种故障处理流程, 按照进程级、 分区级、 模块级、 系统级四个层次级 别的故障分别进行处理。 各级故障被诊断确认后由操作系统的健康监控服务根据错误代码 调相应的错误处理程序进行处理。 如果本级健康监控服务不能处理的故障则报上一级的健 康监控服务进行处理, 到了系统层仍然不能处理的故障则根据系统配置进行系统重构, 对 不能处理的故障进行隔离, 保证高优先级的任务能够可靠运行。 0023 如图 1 所示, 分布式计算机系统故障处理流程。

12、具体实施方式如下 : 0024 a. 对分布式计算机系统各种各样的故障进行分类, 按照进程级、 分区级、 模块级、 系统级四个层次级别的设计故障处理程序, 不同级别不同类别故障处理措施表 1 ; 0025 b. 进程级故障处理, 对分区内的任务故障, 由分区内的故障处理程序直接处理, 以 进程为单位实现进程的恢复、 隔离或重构 ; 0026 c. 分区级故障处理, 由健康管理监控服务进行处理, 也可报告给模块级处理 ; 0027 d. 模块级故障处理, 由系统容错重构机制处理, 可实现故障模块的隔离 ; 0028 e. 系统级故障处理, 是最顶级的故障处理, 由系统定义的容错重构机制处理, 重。

13、构 策略在蓝图中事先已定义好, 根据影响范围大小, 非常严重故障可以由飞行员干预 ; 0029 f. 各级故障出现后, 由系统故障检测机制进行检测, 将检测到的故障报给操作系 统的健康监控HM服务, 健康监控HM服务对故障进行过滤, 如果是瞬时故障或影响很小的故 障则忽略掉, 否则把确认了的故障交给故障管理 FM 进行分类别处理。本级别处理不了的故 障上报上一级健康监控 HM 服务处理, 顶层故障交给系统配置管理 CM 进行处理。 0030 表 1 故障分级别分类别处理措施 0031 说 明 书 CN 103605581 A 4 3/4 页 5 0032 说 明 书 CN 103605581 A 5 4/4 页 6 说 明 书 CN 103605581 A 6 1/1 页 7 图 1 说 明 书 附 图 CN 103605581 A 7 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1