用于恢复故障单元的方法及恢复系统 本发明涉及一种用于恢复故障单元的方法,包括以下步骤:确定恢复期间的预定数量和在恢复期间进行的恢复作用的最大次数;使故障单元退出操作,恢复这一单元,如果已经进行的试验表示该单元状态良好,则使该单元重新进入操作,并设定被恢复的单元处于监视下的恢复期间的时间,借以在恢复期间内,如果所进行的恢复作用的数目不超过在该期间内的预定的最大数目则使被监视地单元被恢复。本发明还涉及用于恢复故障单元的恢复系统,其中包括:恢复装置,用于试验故障单元的操作,并且如果所进行的试验表明该单元状态良好,则恢复该单元,恢复作用计数器,用于计数对该单元进行的恢复作用的次数,借以设置恢复装置监视该单元的操作,并且如果需要,则再次恢复故障单元,并改变恢复作用计数的值,如果恢复作用计数器尚未达到预定的门限值。
这里的术语“恢复”指的是试验故障单元的操作,然后,如果按照已进行的试验,该单元状态良好,则使其返回操作。如果试验表明,该单元不能被恢复,则使其保持在不操作状态下,直到由维修人员进行处理。
本发明与自动维护系统紧密相关,例如在电话交换系统中,其中维护系统连续地监视在系统中包括的单元的操作。如果维护系统检查出一个单元有故障,则立即向恢复系统发出报警。然后恢复系统则使故障单元退出操作,如果故障单元有备份,则用另一个同类的单元替换。在故障单元没有备份的情况下,系统的操作(例如电源交换)则被中断,直到故障单元被修好或用另一个单元替代为止。
一旦恢复系统使故障单元退出操作,它就通过预定的试验程序检查故障单元的功能。如果试验表明,故障单元状态良好,则恢复系统自动地使该单元返回操作(至少在该单元没有备份的情况下)。在其它情况下,即如果试验表明该单元有故障,则使该单元永远退出操作,直到维修人员处理这一情况。
上述的现有技术中恢复系统的缺点在于,在单元中发生的故障是这种类型的故障,以致使恢复系统不能根据进行的试验检查出的情况下,它不必要地使系统加载。在这种情况下,恢复系统重复地指示该装置状态良好,并在试验之后使其返回操作。接着,维护系统在一旦被恢复的单元被返回操作之后,便又立即再检查故障,并向恢复系统发出新的报警。这样,该单元便以不受控制的方式前后“摆动”,从而对维护系统和恢复系统带来不必要的负担。
本发明的目的在于解决上述问题,并提供一种用于恢复单元的方法和恢复系统,使得能够减少上述的摆动,因而避免维护系统的不必要的负担。这些目的利用本发明的方法实现,其特征在于,在所述方法中,确定每个恢复期间的长度,借以在恢复期间结束时,如果在已结束的恢复期间内该单元至少被恢复过一次,并且结束的恢复期间不是最后确定的恢复期间,则把单元设定在监视之下监视一个新的恢复期间,并且在最后确定的恢复期间结束之后,该单元不再被恢复。
本发明还涉及一种可以应用本发明的方法的恢复系统。本发明的系统的特征在于还包括:用于测量恢复期间的计时器装置;用于计数恢复期间的恢复期间计数器;借以使恢复装置被设置用来在第一恢复作用之后初始化计时器装置,恢复期间计数器和恢复作用计数器为预定的初始值,并且当计时器装置达到预定的门限值时,恢复装置被用于:
改变恢复期间计数器的值,如果恢复作用计数器的值偏离其初始值并且恢复期间计数器尚未达到预定的门限值时,则把计时器装置和恢复作用计数器初始化为与恢复期间计数器的新值相应的初始值,
如果恢复作用计数器的值相应于其初始值,则使单元退出监视,以及
如果恢复作用计数器的值偏离结束的恢复期间的初始值并且恢复期间计数器达到预定的门限值,则阻止单元的恢复。
本发明根据的构思是,当被恢复的单元被设置在监视之下时,使在预定长度的恢复期间内进行的恢复作用的数量限制为预定的值,因而可以减少故障单元的摆动和维护系统以及恢复系统的不需要的加载。
本发明的恢复系统的最显著的优点在于有效地减少故障单元的摆动(即从有源状态转移到无源状态),并节约维护系统的资源,并能使维护人员通过用另一个单元替换故障单元可在任何时候人工地处理这一情况,例如在恢复系统自动地恢复新的单元并检查其已经操作之后(不用检查实际上是另一个单元的问题)。
在本发明的最佳实施例中,连续恢复期间的数量被限制为预定的值,并且恢复期间的长度和恢复作用的数量在每个恢复期间开始时被同时增加,这导致实现具有高效率的滤波条件的恢复系统。换句话说,每当从一个恢复期间转移到另一个时,恢复作用之间的时间被增加,结果,从单元的第一恢复作用已经通过更多的时间,通过恢复测量,使得加于系统上的负载较小。这样,使得系统在非常长的干扰期间之后,(即恢复期间的总的持续时间是相当长的),有足够的时间用于恢复。通过只改变设定的门限值,系统操作是可以十分容易地改变系统的滤波条件。
本发明的系统和方法的最佳实施例从所附的从属权利要求2-3和5-7中可以看出。下面结合附图详细说明本发明,其中:
图1表示本发明的方法的第一最佳实施例的流程图,
图2是本发明的恢复系统的第一最佳实施例的方块图,以及
图3说明当利用图2的恢复系统时摆动单元的行为。
图1表示本发明的方法的第一最佳实施例的流程图。在块A中,收到某一单元的报警。在块B中,为定位故障对故障单元进行预定试验。如果已经进行的试验表明,该单元状态良好,则它将被恢复,被恢复的单元被设置在监视之下。为进行这一步骤,把恢复期间计数器C1设置为预定的初值C10(最好=1)。
在图1中的块C,恢复作用计数器C2和计时器T被初始化为相应于恢复期间计数器C1的值的初始值C2=C20,T=T0。例如这些初始值如下:
C1的值 T0 C20
1 15(分) 1
2 30 2
3 60 4
4 120 7
在块D中,被恢复的单元被监视。如果单元再次故障,即收到其新的报警,则程序从块D经过块E转到块F。在块F中,检查恢复作用计数计C2是否已经达到被给定的门限值C2R(最好为0),即对于有关的恢复期间确定的所有的恢复作用是否已全部使用。如果是,则程序返回块D。如果仍然有可利用的恢复作用,则程序转到块G,在那里单元被再恢复(如果可能按照试验),然后,恢复作用计数器C2的值减少1。从块G程序返回块D,进一步监视单元的操作。
当计时器T达到为其设定的值TR(最好为0分)时,即进行的恢复期间终止时,程序经过块H到达块I。在块I中,检查计数器C2的值是否相当于对其给定的初始值C20,如果是,则表示在全部的恢复期间内单元一直没有恢复,即它一直无故障地操作。在这种情况下程序转移到块K,结束对单元的监视。
然而,如果计数器C2的值在块I中不相应于其初始值C20,则程序转向块J,检查恢复期间计数器C1是否达到预定的门限值C1R(最好为4)。如果是,则表示结束的恢复期间是最后一个恢复期间,并且程序转化块L,确定单元的恢复是否为“永久性”的,即直到维护人员处理这一情况。
然而,如果在块J中检测恢复期间计数器C1已经达到门限值C1R,则程序移向块M,在其中恢复期间计数器C1的值加1。此后,程序返回块C,在其中恢复作用计数器C2和计时器初始化为相应于恢复期间计数器C1的新的值,此后如上述开始一个新的恢复期间。
图2表示本发明的恢复系统的第一最佳实施例的方块图。图2表示的恢复系统以图1的流程图表示的方式操作。图2表示例如可以是电话交换机的一部分的单元了。
单元3的操作由操作与维护单元(DMU)1控制与监视。当操作与维护单元1检测到单元3中的故障时,则立即通知恢复系统。然后包括在恢复系统中的恢复单元2在收到单元的报警之后立即使故障单元停止操作。一旦故障单元停止操作,恢复单元2就指示单元3进入试验状态,并启动对试验单元3的单元诊断,从而定位故障。如果试验表明单元3是故障的,则恢复单元2使其永远退出操作,直到维护人员处理。在另外情况下,即如果根据试验故障单元被证明状态良好,则恢复单元2自动地使单元3返回操作,同时初始化计时器T,恢复期间计数器C1和恢复作用计数器C2到预定的初始值T0,C10和C2。这些初始值例如可以是:T0=15(分),C10=1,C20=1。
在图2所示的情况下,设置恢复单元2用来在每个新的恢复期间开始时使恢复期间计数器C1的值加1。计时器T用来通过减少其数值测量恢复期间的进行,设置恢复单元用来维持恢复作用计数器C2,使得计数器的值每当单元3被恢复时减1。
一旦单元3在第一次已被恢复,则恢复单元2就开始监视单元3的操作。如果操作与维护系统1反复地向恢复系统提供单元3的报警(如果是不能被恢复单元通过试验检测的故障,这是可能的),则恢复单元2将不自动地恢复单元3,而是首先检查在有关的恢复期间内预定的恢复作用的数量是否已经完成,即恢复作用计数器C2是否已经达到预定门限值C2R(最好为0)。只有在此检查之后,恢复单元2才启动对单元3的诊断,并如果可能使其恢复。在恢复作用之后,恢复单元2改变恢复作用计数器C2的值,使其减1。
当计时器T达到预定的门限值TR时(最好=0分),恢复单元2检查恢复期间计数器C1和恢复作用计数器C2的值,并且:
如果C2=C20,则恢复单元使单元退出监视(单元正常操作),以及
如果C1=C1R且C2≠C20,则恢复单元“永久地”切断单元3的恢复程序,直到维护人员进行处理。
通过使用在持续时间上多个不同的恢复期间,并通过限制在一个期间内的恢复作用的数量,可以实现一种恢复系统,它能够管理一个摆动单元,使对操作和维护单元所加的负载最小。
如果恢复系统用于监视几个单元,则对每一单元使用单独的恢复期间计数器和恢复作用计数器。在这种情况下,图2表示的计时器最好用专用单元计数器代替,而对所有被监视的单元用一个公用计时器。公用计时器则不断地测量某个持续的间隔,例如15分钟,此后专用单元计数器每当计时器表示某一期间结束时被更新。换句话说,如果恢复期间例如45分钟是要对某个单元进行测量的,则该单元的单元专用计数器被给予值3,在此之后,单元专用计数器的值每当计时器指示15分钟的期间已通过时被减1,直到单元专用计数器达到0值为止,这表示恢复期间已经结束。
图3说明当使用图2所示的恢复系统时摆动单元3的行为。图3表示在头三个恢复期间单元3的行为。在图3所示曲线的下降沿,由于检测到单元的故障,恢复系统使其停止操作,相应地,在上升沿,单元被恢复并返回操作。在恢复期间1-3期间要被完成的恢复作用由图3中的箭头标出。
在图3所示的情况下,单元具有不能由恢复系统进行的试验检测的一类故障,因此,恢复系统重复地尝试使单元恢复。因为在每个恢复程序之后,故障不能从单元中消除,所以操作与维护单元反复地向恢复系统给出有关单元的新的报警,这使得该单元在操作和不操作的状态之间“摆动”。
由图3可见,在第一恢复作用之后,恢复单元2(图2所示的)启动计时器T用来测量第一恢复作用。然而,紧接第一恢复作用,单元立即再次“故障”,因此它几乎立即停止操作。因为恢复系统不能检测这种故障,在第一恢复期间开始之后,它立即再次恢复单元。不过,如图3所示,单元仍未处于良好状态,再次故障。然而,在第一恢复期间内,恢复作用的数量被限制为1,而后该单元将处于不操作状态,直到恢复期间结束。第一恢复期间的长度是15分钟。这样,单元保持不操作状态直到第二恢复期间开始,在此期间,单元被恢复两次,但它仍然不操作,并反复再次出现故障,单元再次保持为不操作状态直到第二恢复期间结束,借以使其在第三恢复期间内被再恢复4次。因为仍然不操作,所以在第三恢复期间之后的期间内第4恢复期间(图中未示出)为120分钟。在第4恢复期间内该单元被恢复7次。
第四期间结束时,单元仍然保持不操作状态,并且恢复尝试被中断,直到维护人员处理。然而,如果在第三恢复期间进行的恢复之后单元保持为操作状态,因而在第四恢复期间不必使其恢复,则单元被检查出是处于操作状态并结束监视。如果曾经退出监视状态的单元后来再次发生故障,则单元的恢复将从第一恢复期的开头开始。
应该理解,以上的说明和附图是用来说明本发明。恢复期间的长度和数量以及在此期间进行的恢复作用的数量可以改变。本领域的技术人员不脱离权利要求中的构思可以作出各种改变和改型。