冗余系统以及冗余系统管理方法.pdf

上传人:柴****2 文档编号:6337246 上传时间:2019-06-02 格式:PDF 页数:22 大小:1.16MB
返回 下载 相关 举报
摘要
申请专利号:

CN201480052995.4

申请日:

2014.01.10

公开号:

CN105579973A

公开日:

2016.05.11

当前法律状态:

终止

有效性:

无权

法律详情:

专利权的视为放弃IPC(主分类):G06F 11/16放弃生效日:20180907|||实质审查的生效IPC(主分类):G06F 11/16申请日:20140110|||公开

IPC分类号:

G06F11/16; G06F1/26; G06F1/28; G06F11/18; G06F11/20; G06F11/30

主分类号:

G06F11/16

申请人:

株式会社日立制作所

发明人:

小俣和彦; 冈本信孝; 秦泉寺贵文

地址:

日本东京都

优先权:

专利代理机构:

北京银龙知识产权代理有限公司 11243

代理人:

范胜杰;曹鑫

PDF下载: PDF下载
内容摘要

对冗余系统中的故障检测结构进行冗余化,能够准确地检测故障发生,可靠地进行必要的系统切换动作。在冗余系统(10)中,被冗余化的各计算机(150、180)的电源机构(200)具备:运算装置(204),其监视针对该电源机构(200)的存储装置(201)的、来自其他装置(300)或该计算机(150、180)的其他机构(112)的预定信息的写入处理,在该写入处理不是与预定规则对应的处理的情况下,执行电源装置(230)的电源停止或重置动作,在执行该动作后,对上述各计算机中(150、180)另一方的计算机执行恢复动作的指示。

权利要求书

1.一种冗余系统,其特征在于,
被冗余化的各计算机的电源机构具备:运算装置,其监视针对该电源机构
的存储装置的、来自其他装置或相应计算机的其他机构的预定信息的写入处
理,在上述写入处理不是与预定规则对应的处理的情况下,执行电源的停止或
重置动作,在执行该动作后,对上述各计算机中另一方的计算机执行恢复动作
的指示。
2.根据权利要求1所述的冗余系统,其特征在于,
上述被冗余化的各计算机具备:运算装置,其对上述电源机构的存储装置
以预定间隔重复执行上述写入处理。
3.根据权利要求2所述的冗余系统,其特征在于,
上述被冗余化的各计算机的运算装置,作为上述写入处理,每隔预定时间
对上述电源机构的存储装置写入当前时刻信息,
上述电源机构的运算装置每隔预定时间读取被写入处理到该电源机构的
存储装置的上述当前时刻信息,在预定时间以上没有更新上述当前时刻信息的
情况下,执行电源的停止或重置动作,在执行该动作后,对上述各计算机中另
一方的计算机执行恢复动作的指示。
4.根据权利要求3所述的冗余系统,其特征在于,
上述被冗余化的各计算机的运算装置根据检测到预定现象的发生,重新启
动上述写入处理的执行功能。
5.根据权利要求1所述的冗余系统,其特征在于,
该冗余系统还包括监视用计算机,
该监视用计算机具备:
通信装置,其与上述被冗余化的各计算机进行通信;以及
运算装置,其对上述各计算机以预定间隔重复发送针对上述电源机构的存
储装置的、与上述预定规则对应的上述预定信息的写入请求,
上述被冗余化的各计算机的运算装置在每次接受来自上述监视用计算机
的上述写入请求时,对上述电源机构的存储装置写入该写入请求所示的预定信
息。
6.根据权利要求5所述的冗余系统,其特征在于,
上述监视用计算机的运算装置向上述各计算机发送每隔预定时间对上述
电源机构的存储装置写入当前时刻信息的请求,作为上述写入请求,
上述被冗余化的各计算机的运算装置在每次接受来自上述监视用计算机
的上述写入请求时,对上述电源机构的存储装置写入该写入请求所示的当前时
刻信息。
7.根据权利要求6所述的冗余系统,其特征在于,
上述监视用计算机的运算装置根据检测到预定现象的发生,重新启动上述
写入请求的执行功能。
8.一种冗余系统管理方法,其特征在于,
被冗余化的各计算机的电源机构监视针对该电源机构的存储装置的、来自
其他装置或相应计算机的其他机构的预定信息的写入处理,在上述写入处理不
是与预定规则对应的处理的情况下,执行电源的停止或重置动作,在执行该动
作后,对上述各计算机中另一方的计算机执行恢复动作的指示。

说明书

冗余系统以及冗余系统管理方法

技术领域

本发明涉及一种冗余系统以及冗余系统管理方法。

背景技术

通常,例如金融机关的基础系统等不容许轻易的系统故障的关键任务的系
统为群集结构即冗余系统(redundantsystem)。在这样的冗余系统中进行如下
的运用:现用系统和待机系统的各装置相互进行监视,根据检测到与现用系统
相关的异常,将待机系统切换为现用系统。

作为上述那样的冗余系统的监视、运用技术,例如提出了如下的技术。即,
客户终端执行如下过程的技术(参照专利文献1)等:访问被二重化的网络管
理系统来取得监视系统切换的监视程序的过程;启动所取得的监视程序的过
程;通过所启动的监视程序定期性地访问被二重化的网络管理系统,根据其应
答检测出切换了网络管理系统的过程。

现有技术文献

专利文献

专利文献1:日本特开2005-4404号公报

发明内容

发明要解决的课题

当前,确实通过现用系统和待机系统实现了系统的冗余化,但另一方面,
承担异常检测和伴随该异常检测的系统切换的机构没有被冗余化。因此,若在
相应机构中发生异常,则无法进行冗余系统中的异常检测动作,还有可能发生
不产生系统切换动作的契机本身而直接停止服务的情况。也就是说,异常检测
和系统切换的机构为单一故障点,有可能根本上破坏由现用系统和待机系统构
成的系统冗余化的效果。

因此,本发明的目的是提供一种对冗余系统中的故障检测结构进行冗余
化,能够准确地检测故障发生,可靠地执行必要的系统切换动作的技术。

用于解决课题的手段

解决上述课题的本发明的冗余系统的特征在于,被冗余化的各计算机的电
源机构具备:运算装置,其监视针对该电源机构的存储装置的、来自其他装置
或相应计算机的其他机构的预定信息的写入处理,在上述写入处理不是与预定
规则对应的处理的情况下,执行电源的停止或重置动作,在执行该动作后,对
上述各计算机中另一方的计算机执行恢复动作的指示。另外,在上述的各计算
机中当然也具备在冗余系统中以往所具备的基于聚类软件的相互监视功能(以
下相同)。

此外,本发明的冗余系统管理方法的特征在于,被冗余化的各计算机的电
源机构监视针对该电源机构的存储装置的、来自其他装置或相应计算机的其他
机构的预定信息的写入处理,在上述写入处理不是与预定规则对应的处理的情
况下,执行电源的停止或重置动作,在执行该动作后,对上述各计算机中另一
方的计算机执行恢复动作的指示。

发明效果

根据本发明,除了在冗余系统中以往具备的基于聚类软件的相互监视功能
外,还具备电源机构中的监视功能,由此对冗余系统中的故障检测结构进行冗
余化,能够准确地检测故障发生,可靠地执行必要的系统切换动作。

附图说明

图1是表示第1实施方式的包含冗余系统的网络结构例的图。

图2是表示第1实施方式的服务器的结构例的图。

图3是表示第1实施方式的电源机构的结构例的图。

图4是表示第1实施方式的监视表的结构例的图。

图5是表示第1实施方式的冗余系统管理方法的处理步骤例1的流程图。

图6是表示第1实施方式的冗余系统管理方法的处理步骤例2的流程图。

图7是表示第2实施方式的包含冗余系统的网络结构例的图。

图8是表示第2实施方式的监视用计算机的结构例的图。

图9是表示第2实施方式的服务器的结构例的图。

图10是表示第2实施方式的冗余系统管理方法的处理步骤例1的流程图。

图11是表示第2实施方式的冗余系统管理方法的处理步骤例2的流程图。

具体实施方式

以下,使用附图详细地说明本发明的实施方式。图1是表示第1实施方式
的包含冗余系统10的网络结构例的图。图1所示的冗余系统10是对故障检测
结构进行冗余来准确地检测故障的发生,能够可靠地执行必要的系统切换动作
的计算机系统。

作为在此设想的冗余系统10的一例,设想在金融机关中运用的基础系统。
当然,作为冗余系统10并不限于金融机关中的系统,也可以设想其他业界的
各种服务器系统(构成群集,形成冗余系统)。

这样的冗余系统10包括通常执行业务处理的现用系统服务器150、在该
现用系统服务器150中发生异常时代替该现用系统服务器150的待机系统服务
器180。这些现用系统服务器150和待机系统服务器180经由网络20可通信
地连接,通过已有的聚类软件构成冗余系统。此外,这些现用系统服务器150
和待机系统服务器180分别附带用于供给运行用电源的电源机构200。该电源
机构200通过用于进行预定电压的电源供给或通信的连接器与作为电源供给
对象的现用系统服务器150和待机系统服务器180连接,但是成为与这些服务
器装置不同结构的硬件。

接着,说明构成冗余系统10的现用系统服务器150和待机系统服务器180
的硬件结构。以下,在不需要特别区分的情况下,将现用系统服务器150和待
机系统服务器180统称为服务器100。图2是表示第1实施方式的服务器100
的结构例的图。

构成冗余系统10的服务器100具备:存储装置101,其由硬盘驱动器等
适当的非易失性存储装置构成;存储器104,其由RAM等易失性存储装置构
成;CPU等运算装置105,其启动被存储装置101保持的OS(OperatingSystem,
操作系统)102,读出等并执行适当的程序103来进行装置本身的统一控制,
并且进行各种判定、运算以及控制处理;通信装置106,其与网络20连接,
承担与其他装置的通信处理;以及可移动介质的读取驱动器107。

另外,在存储装置101内存储有用于实现作为构成冗余系统10的服务器
100的必要功能的OS102和程序103。作为该程序103,包含业务程序110、
群集监视程序111以及生存通知程序112。其中,业务程序110例如是用于执
行与金融机关的预定业务对应的处理的程序。此外,群集监视程序111是用于
执行现用系统以及待机系统的服务器之间的相互异常监视的已有程序,被包含
在已有的聚类软件中。此外,生存通知程序112是用于执行针对电源机构200
的存储装置201的预定信息的写入处理的程序。

在该情况下,服务器100的运算装置105执行上述的群集监视程序111,
由此实现群集监视功能。群集监视功能常驻于现用系统服务器150和待机系统
服务器180各自中,实现以往的心跳(heartbeat)等在服务器之间相互进行死
活监视的动作。

此外,服务器100的运算装置105执行上述的生存通知程序112,由此实
现生存通知功能。生存通知功能常驻于现用系统服务器150和待机系统服务器
180各自中,例如实现以一定时间间隔通过OS102的时钟功能等得到当前时刻
信息即时间戳作为预定信息,并将其经由内部信号线30对电源机构200发送
的动作。

另外,服务器100的OS102和预定程序监视上述的生存通知程序112的
生存通知功能的运行状况,在检测出在生存通知功能中发生了变慢或停止之类
的某种不良现象的情况下,只要在预定时间内重新执行生存通知程序112来重
新启动生存通知功能即可。通过进行这样的运用,能够使产生了不良的生存通
知功能迅速恢复,迅速地重新开始写入处理。能够准确地避免尽管在形成冗余
系统10的服务器100的本来功能(基于OS102或业务程序110的功能等)自
身中没有发生不良,却根据仅由上述的写入处理功能的不良导致的故障检出而
执行系统切换的情况。

接着,上述的服务器100即现用系统服务器150和待机系统服务器180
各自附带,供给运行电源的电源机构200的硬件结构如以下所示。图3是表示
第1实施方式的电源机构200的结构例的图。

该电源机构200具备:电源装置230,其由作为计算机的电源单元而一般
具备的变压器或保险丝、冷却扇、散热片等构成;以及电源控制装置240,其
进行该电源装置230的开关控制。

其中,电源装置230成为通过预定电缆与上述服务器100中的主板上的连
接器、存储装置101或可移动介质的读取驱动器107的连接器连接,并向它们
供给预定电压的直流的装置。另外,在上述电缆中的1根线中始终流过微弱的
待机电流,作为将WOL(Wake-upOnLAN,局域网开机)的信号等来自电源
供给对象的服务器100的芯片组侧的控制信号传递给电源控制装置240的信号
线发挥作用。在本实施例中,将该线设为内部信号线30。

此外,电源控制装置240由具备预定处理器的系统管理用控制器即BMC
(BaseboardManagementController,基板管理控制器)构成。通常该BMC具
备如下功能:始终监视电源装置230中的供给电压或冷却扇的转速、包含服务
器100的CPU(运算装置105)的各种部件的温度等各种现象,并通知给OS102。
该BMC即电源控制装置240,即使在服务器本体处于电源断开状态下,只要
商用电源等适当的电源与电源装置230连接则被供给电力,继续运行。也就是
说,电源控制装置240成为独立于作为电源供给对象的服务器100中的OS102
等上位软件的结构。

上述作为BMC的电源控制装置240具备:存储装置201,其由ROM等
适当的非易失性存储装置构成;存储器203,其由RAM等易失性存储装置构
成;作为处理器的运算装置204,其将存储装置201所保持的程序202读出到
存储器203等并执行,来统一控制装置本身,并且进行各种判定、运算以及控
制处理;以及通信装置205,其经由上述的内部信号线30与作为电源供给对
象的服务器100的芯片组连接,在与服务器100的OS102之间进行通信。

在这样的电源机构200的存储装置201内存储有用于实现作为电源机构
200的必要功能的程序202和监视表225。其中,作为程序202,包含表监视
程序210和电源控制程序211。表监视程序210是用于进行如下处理的程序:
进行将从上述的服务器100中的生存通知功能经由内部通信线30发送过来的
预定信息,例如时间戳写入到监视表225中的写入处理,每次执行该写入处理
时重复进行重置预定定时器的动作,并且重复判断监视表225中的信息更新是
否在一定时间内。此外,电源控制程序211是接受来自表监视程序210的通知,
执行针对电源装置230的电源断开或重置动作,执行该动作后,对待机系统服
务器180进行恢复动作的指示的程序。该电源控制程序211中的电源断开或重
置功能与一般的BMC中的电源控制功能相同。

电源控制装置240的运算装置204执行上述的表监视程序210,由此实现
表监视功能。此外,电源控制装置240的运算装置204执行上述的电源控制程
序211,由此实现电源控制功能。

在该情况下,表监视功能常驻于电源机构200中,例如在从服务器100
的生存通知功能发送来的是时间戳的情况下,在每次经由内部信号线30接收
该时间戳时将其写入到监视表225中并持续更新,并且在每次更新时间戳时启
动定时器来监视监视表225中的时间戳的更新是否在一定时间内,基于应持续
一定时间内的时间戳更新的规则来执行判定。通过该判定,在检测到在一定时
间内未进行上述的时间戳更新的时间点的情况下,表监视功能识别出从服务器
100即OS102侧的写入处理停滞,针对上述的电源控制功能,指示电源装置
230的电源断开或重置。

另外,作为在上述的写入处理中向监视表225写入的信息,如图4所示那
样列举了时间戳的例子,但除此之外还可以采用不随写入处理机会而变化的特
定的固定值,或针对每次写入处理机会增加的数值等与适当的规则对应的各种
值。

在从上述的生存通知功能接收不随写入处理机会而变化的特定的固定值
(例:1),并将该固定值写入到监视表225中的情况下,表监视功能在每次
进行固定值的写入时,在预定时间内以其他预定值(例:0)进行重写更新。
表监视功能在每次进行该重写更新时启动定时器,执行基于应在一定时间内执
行重写更新的规则的判定,在检测到在一定时间内没有进行上述的重写更新的
时间点的情况下,识别出从服务器100即OS102侧的写入处理停滞,针对上
述的电源控制功能指示电源装置230的电源断开或重置。

此外,对监视表225写入针对每个写入处理机会而增加的数值的情况下,
表监视功能在每次进行从上述的生存通知功能接收到的数值的写入时启动定
时器,执行基于应在一定时间内执行进一步增加的数值的写入的规则的判定,
在检测到在一定时间内没有进行上述的数值的写入的时间点的情况下,识别出
从服务器100即OS102侧的写入处理停滞,针对上述的电源控制功能指示电
源装置230的电源断开或重置。

另外,也可以将基于上述的表监视程序210的表监视功能和监视表225
的组合视为所谓的看门狗定时器(WatchDogTimer)。

以下,根据附图说明本实施方式中的冗余系统管理方法的实际步骤。通过
构成冗余系统10的上述的服务器100和电源机构200各自执行的程序来实现
以下说明的冗余系统管理方法所对应的各种动作。并且,各程序由用于进行以
下说明的各种动作的代码构成。

图5是表示本实施方式的冗余系统管理方法的处理步骤例1的流程图。在
此,冗余系统10中的现用系统服务器150正在通过业务程序110持续执行金
融机关的预定业务处理,并且该现用系统服务器150和待机系统服务器180
处于通过基于上述的群集监视程序111的群集监视功能相互进行基于现有的
心跳(heartbeat)的死活监视的状况。此外,与基于该群集监视功能的现有的
死活监视平行地,常驻于现用系统服务器150和待机系统服务器180的上述的
生存通知功能经由内部信号线30每隔一定时间对电源机构200发送时间戳。

在这样的情况下,现用系统服务器150将由常驻于自身的生存通知功能产
生的时间戳的值从该现用系统服务器150的主板上的连接器经由内部信号线
30发送给电源机构200中的电源控制装置240(s100)。

另一方面,电源机构200中的电源控制装置240进行将从上述的现用系统
服务器150的生存通知功能发送来的时间戳写入到存储装置201的监视表225
中的写入处理(s101),并且通过表监视程序210的表监视功能检测到向监视
表225的时间戳的写入处理定时,根据该检测,对在预定时间到时的计时器进
行重置,开始经时测量(s102)。

启动了上述的计时器的状态下的电源控制装置240通过上述的表监视功
能,在计时器到时为止的预定时间内,对监视表225中的时间戳的下个写入处
理即更新现象进行监视(s103)。在该到时为止的监视中,从生存通知功能发
送新的时间戳而更新了监视表225中的时间戳的情况下(s104:是),电源控
制装置240根据该时间戳更新,使处理返回到步骤s102,重置上述计时器来
重新开始经时测量。

另一方面,在该到时为止的监视中,无法从生存通知功能接收新的时间戳,
没有更新监视表225中的时间戳的情况下(s104:否),电源控制装置240的
表监视功能识别为在现用系统服务器150即OS102中发生了无法发出时间戳
的某种故障,针对电源控制程序211的电源控制功能指示电源装置230电源断
开或重置(s105)。接收到该电源断开或重置的指示的电源控制功能,使电源
装置230电源断开或重置(s106)。该使电源装置230电源断开或重置的动作
与现有的电源控制动作相同。

电源控制装置240通过电源控制功能检测到上述的电源装置230中的电源
断开或重置的动作完成,经由内部信号线30和网络20执行针对待机系统服务
器180的恢复动作的指示(s107)。接受该指示的待机系统服务器180按照与
以往同样的步骤,从现用系统服务器150迅速接管业务处理,作为新的现用系
统而开始运行。

另外,即使与上述的对监视表225中的时间戳更新进行监视的动作流程不
同地,通过现有的群集监视功能进行的死活监视检测到异常发生的情况下,也
与步骤s107同样地,待机系统服务器180代替现用系统服务器150执行作为
新的现用系统而运行的动作流程。该处理与以往相同,因此省略说明。不管如
何,较早检测到异常发生的动作流程执行直到待机系统服务器180进行恢复动
作为止的处理。

此外,在现用系统服务器150和待机系统服务器180中的OS102等的本
来功能以及将其实现的硬件中没有异常,仅在生存通知程序112的生存通知功
能中发生了不良的情况下,若不特别地进行对应动作,则无法执行上述的时间
戳的发送、伴随该发送的监视表225中的时间戳更新,而执行无意义的恢复动
作。

因此,如图6的流程图所示,现用系统服务器150和待机系统服务器180
的OS102和预定程序始终监视上述生存通知程序112的生存通知功能的运行
状况(s200),在生存通知功能中检测到发生了变慢或停止等某种不良现象的
情况下(s201:是),在预定时间内重新执行生存通知程序112来重新启动生
存通知功能(s202)。假定与上述步骤s100~s107的处理平行地执行该一连串
的处理。

通过进行这样的运用,能够迅速地恢复产生了不良的生存通知功能,来迅
速地重新开始时间戳的发行和监视表225中的时间戳更新的处理。

接着,如图7的示例所示,说明与第1实施方式不同的、由能够经由网络
20与现用系统服务器150和待机系统服务器180通信的监视用计算机300实
现生存通知功能的第2实施方式。

在该情况下,监视用计算机300的硬件结构如以下所示。图8是表示第2
实施方式的监视用计算机300的结构例的图。监视用计算机300具备:存储装
置301,其由硬盘驱动器等适当的非易失性存储装置构成;存储器304,其由
RAM等易失性存储装置构成;CPU等运算装置305,其启动被存储装置301
保持的OS(OperatingSystem,操作系统)302,读出等并执行适当的程序303
来进行装置本身的统一控制,并且进行各种判定、运算以及控制处理;以及通
信装置106,其与网络20连接,承担与服务器100的通信处理。

另外,包括生存通知程序310作为上述的程序303。该生存通知程序310
是向现用系统服务器150和待机系统服务器180以预定间隔重复发送针对上述
的电源机构200中的监视表225的时间戳的写入请求的程序。

在该情况下,监视用计算机300的运算装置305执行上述的生存通知程序
310,由此实现生存通知功能。生存通知功能常驻于监视用计算机300,例如
实现以一定时间间隔从OS102的时钟功能等得到当前时刻信息即时间戳作为
预定信息,并将其经由网络20对现用系统服务器150和待机系统服务器180
发送的动作。

这样的系统结构中的现用系统服务器150和待机系统服务器180在每次接
收来自监视用计算机300的写入请求时,将该写入请求转发给电源机构200。
通过现用系统服务器150和待机系统服务器180中的转发程序113来执行该写
入请求的转发处理。第2实施方式中的现用系统服务器150和待机系统服务器
180即服务器100的硬件结构如图9所示,但除了保持该转发程序113,而不
保持生存通知程序112的结构以外与第1实施方式相同。

此外,与第1实施方式同样地,监视用计算机300的OS302和预定程序
监视上述的生存通知程序310的生存通知功能的运行状况,在检测出在生存通
知功能中发生了变慢或停止之类的某种不良现象的情况下,只要在预定时间内
重新执行生存通知程序310来重新启动生存通知功能即可。通过进行这样的运
用,能够使产生了不良的生存通知功能迅速恢复,迅速地重新开始写入处理。

另一方面,第2实施方式中的电源机构200的硬件结构与第1实施方式中
的结构相同,因此省略说明。

接着,对该第2实施方式中的冗余系统管理方法进行说明。图10是表示
第2实施方式中的冗余系统管理方法的处理步骤例1的流程图。在此,冗余系
统10中的现用系统服务器150正在通过业务程序110持续执行金融机关的预
定业务处理,并且该现用系统服务器150和待机系统服务器180处于通过基于
上述的群集监视程序111的群集监视功能相互进行基于以往的心跳(heartbeat)
的死活监视的状况。此外,与基于该群集监视功能的现有的死活监视平行地,
常驻于监视用计算机300的上述的生存通知功能经由网络20每隔一定时间对
现用系统服务器150发送上述的写入请求。

在这样的状况下,监视用计算机300将常驻于自身的生存通知功能产生的
时间戳的值使用通信装置306经由网络20发送给现用系统服务器150(s300)。

另一方面,现用系统服务器150从监视用计算机300接收写入请求,将该
写入请求通过上述的转发程序113的转发功能从该现用系统服务器150的主板
上的连接器经由内部信号线30转发给电源机构200中的电源控制装置240
(s301)。

电源机构200中的电源控制装置240接收从上述的现用系统服务器150
的转发功能发送来的写入请求,将该写入请求表示的时间戳写入处理到存储装
置201的监视表225中(s302),并且通过表监视程序210的表监视功能检测
到向监视表225的时间戳的写入处理定时,根据该检测,对在预定时间到时的
计时器进行重置,开始经时测量(s303)。

启动了上述的计时器的状态下的电源控制装置240通过上述的表监视功
能,在计时器到时为止的预定时间内对监视表225中的时间戳的下个写入处理
即更新现象进行监视(s304)。在该到时为止的监视中,从转发功能发送新的
时间戳而更新了监视表225中的时间戳的情况下(s305:是),电源控制装置
240根据该时间戳更新,使处理返回到步骤s303,重置上述的计时器来重新开
始经时测量。

另一方面,在该到时为止的监视中,无法从转发功能发送新的时间戳,没
有更新监视表225中的时间戳的情况下(s305:否),电源控制装置240的表
监视功能识别为在现用系统服务器150即OS102中发生了无法转发来自监视
用计算机300的写入请求的某种故障,针对电源控制程序211的电源控制功能
指示电源装置230的电源断开或重置(s306)。接收到该电源断开或重置的指
示的电源控制功能,使电源装置230电源断开或重置(s307)。该使电源装置
230电源断开或重置的动作与现有的电源控制动作相同。

电源控制装置240通过电源控制功能检测到上述电源装置230中的电源断
开或重置动作完成,经由内部信号线30和网络20执行针对待机系统服务器
180的恢复动作的指示(s308)。接受该指示的待机系统服务器180按照与以
往同样的步骤,从现用系统服务器150迅速接管业务处理,作为新的现用系统
而开始运行。

此外,在现用系统服务器150和待机系统服务器180中的OS102等的本
来功能以及将其实现的硬件中没有异常,仅在转发程序113的转发功能中发生
了不良的情况下,若不特别地进行对应动作,则无法执行包含上述时间戳的写
入请求的转发、伴随该转发的监视表225中的时间戳更新,执行无意义的恢复
动作。

因此,如图11的流程所示,监视用计算机300的OS302和预定程序始终
监视上述生存通知程序310的生存通知功能的运行状况(s400),在生存通知
功能中检测到发生了变慢或停止等某种不良现象的情况下(s401:是),在预
定时间内重新执行生存通知程序310来重新启动生存通知功能(s402)。假定
与上述步骤s300~s308的处理平行地执行该一连串的处理。

通过进行这样的运用,能够迅速地恢复产生了不良的生存通知功能,来迅
速地重新开始时间戳的发行、包含该发行的写入请求的发送以及伴随写入请求
的监视表225中的时间戳更新的处理。

以上,具体说明了用于实施本发明的最佳的方式等,但本发明并不局限于
此,在不脱离其宗旨的范围内可进行各种变更。

根据这样的本实施方式,除了在冗余系统中以往具备的基于聚类软件的相
互监视功能外,还具备电源机构中的监视功能,由此能够使冗余系统中的故障
检测结构冗余化,准确地检测故障发生,进而能够可靠地执行必要的系统切换
动作。

根据本说明书的记载,至少能够明确如下情况。即,在本实施方式的冗余
系统中,上述冗余化的各计算机也可以具备针对上述电源机构的存储装置以预
定间隔重复执行上述写入处理的运算装置。

据此,以一定频度执行针对电源机构的存储装置的写入处理,能够迅速地
检测出该写入处理的中断现象等,作为与预定规则不对应的现象。

此外,在本实施方式的冗余系统中,也可以如下:上述被冗余化的各计算
机的运算装置,作为上述写入处理而每隔预定时间对上述电源机构的存储装置
写入当前时刻信息,上述电源机构的运算装置每隔预定时间读取向该电源机构
的存储装置写入的上述当前时刻信息,在预定时间以上没有更新上述当前时刻
信息的情况下,执行电源的停止或重置动作,在执行该动作后,对上述各计算
机中另一方的计算机执行恢复动作的指示。

据此,判定电源机构的存储装置中的当前时刻信息即时间戳的更新是否在
一定时间内,由此能够简便且可靠地检测出该计算机处于无法执行上述写入处
理的某种异常状态。

此外,在本实施方式的冗余系统中,上述被冗余化的各计算机的运算装置
也可以根据检测到预定现象的发生,重新启动上述写入处理的执行功能。

据此,能够与进行上述的写入处理的功能(通过生存通知程序实现的功能)
本身发生了某种不良的情况对应地重新启动该功能,迅速地重新开始写入处
理。因此,能够避免尽管在形成冗余系统的计算机本身没有发生不良,根据仅
由上述的写入处理功能的不良导致的故障检测执行系统切换的情况。

此外,在本实施方式的冗余系统中,还包括监视用计算机,上述监视用计
算机具备:通信装置,其与上述被冗余化的各计算机进行通信;以及运算装置,
其对上述各计算机以预定间隔重复发送针对上述电源机构的存储装置的与上
述预定规则对应的上述预定信息的写入请求,上述被冗余化的各计算机的运算
装置在每次接受来自上述监视用计算机的上述写入请求时,对上述电源机构的
存储装置写入该写入请求所表示的预定信息。

据此,从与形成冗余系统的现用系统和待机系统的各计算机完全独立的装
置即监视用计算机,进行与上述的写入处理对应的请求,与现用系统和待机系
统中的生存通知程序自身的破坏、停止这类现象无关地容易维持故障检测功
能。

此外,在本实施方式的冗余系统中,作为上述写入请求,上述监视用计算
机的运算装置向上述各计算机发送每隔预定时间对上述电源机构的存储装置
写入当前时刻信息的请求,上述被冗余化的各计算机的运算装置每次接受来自
上述监视用计算机的上述写入请求时,将该写入请求所示的当前时刻信息写入
到上述电源机构的存储装置。

据此,判定电源机构的存储装置中的当前时刻信息即时间戳的更新是否在
一定时间内,由此能够简便且可靠地检测出该计算机处于无法执行与上述来自
监视用计算机的写入请求对应的写入处理的某种异常状态。

此外,在本实施方式的冗余系统中,上述监视用计算机的运算装置也可以
根据检测到预定现象的发生,重新启动上述写入处理的执行功能。

据此,能够与进行上述的写入请求的功能(通过生存通知程序实现的功能)
自身发生了某种不良的情况对应地重新启动该功能,迅速地重新开始写入处
理。因此,能够避免尽管在形成冗余系统计算机本身没有发生不良,然而根据
检测到由监视用计算机的不良导致的故障而执行系统切换的情况。

符号说明

10冗余系统

20网络

30内部信号线

100服务器(计算机)

101存储装置

102OS(操作系统)

103程序

104存储器

105运算装置

106通信装置

107驱动器

110业务程序

111群集监视程序

112生存通知程序

113转发程序

150现用系统服务器

180待机系统服务器

200电源机构

201存储装置

202程序

203存储器

204运算装置

205通信装置

210表监视程序

211电源控制程序

225监视表

230电源装置

240电源控制装置

300监视用计算机

301存储装置

302OS(操作系统)

303程序

304存储器

305运算装置

306通信装置

310生存通知程序

冗余系统以及冗余系统管理方法.pdf_第1页
第1页 / 共22页
冗余系统以及冗余系统管理方法.pdf_第2页
第2页 / 共22页
冗余系统以及冗余系统管理方法.pdf_第3页
第3页 / 共22页
点击查看更多>>
资源描述

《冗余系统以及冗余系统管理方法.pdf》由会员分享,可在线阅读,更多相关《冗余系统以及冗余系统管理方法.pdf(22页珍藏版)》请在专利查询网上搜索。

对冗余系统中的故障检测结构进行冗余化,能够准确地检测故障发生,可靠地进行必要的系统切换动作。在冗余系统(10)中,被冗余化的各计算机(150、180)的电源机构(200)具备:运算装置(204),其监视针对该电源机构(200)的存储装置(201)的、来自其他装置(300)或该计算机(150、180)的其他机构(112)的预定信息的写入处理,在该写入处理不是与预定规则对应的处理的情况下,执行电源装置。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1