用于恢复故障单元的方法及恢复系统.pdf

摘要
申请专利号：	CN95195256.0	申请日：	1995.08.22
公开号：	CN1158672A	公开日：	1997.09.03
当前法律状态：	终止	有效性：	无权
法律详情：	未缴年费专利权终止IPC(主分类):H02H 3/07申请日:19950822授权公告日:19991201终止日期:20090922\|\|\|授权\|\|\|\|\|\|公开
IPC分类号：	H02H3/07	主分类号：	H02H3/07
申请人：	诺基亚电信公司;
发明人：	阿尔蒂·海里南; 朱斯·萨波拉; 帕卡·海沃南
地址：	芬兰埃斯波
优先权：	1994.08.23 FI 943874
专利代理机构：	中国国际贸易促进委员会专利商标事务所	代理人：	杨晓光
PDF下载：	PDF下载

内容摘要

本发明涉及一种用于恢复故障单元的方法，包括如下步骤：使故障单元退出操作，恢复该单元，如果所进行的试验表示它状态良好，则使该单元返回操作。为了阻止单元的“摆动”和对系统的不必要的负载，确定恢复期间的预定数目，每个恢复期间的长度以及在每个恢复期间内要被进行的恢复作用的最大次数。在恢复期间内，把被恢复的单元设定在监视之下，借以在需要时，如果在恢复期间已进行的恢复作用的次数没有达到对该期间确定的最大数目，使被监视的单元再次恢复。在恢复期间结束时，如果该单元在结束的恢复期间内已经恢复过至少一次，并且如果结束的恢复期间不是最后确定的恢复期间，该单元被设置为被监视一个新的恢复期间，在最后的恢复期间结束之后，单元不再被恢复。本发明还涉及一种恢复方法。

权利要求书

1：一种用于恢复故障单元的方法，包括以下步骤：确定预定的恢复期间的数量和在恢复期间内被进行的恢复作用的最大次数，使故障单元停止操作，恢复所述单元，如果已进行的试验表示该单元的状态良好，则使该单元返回操作，以及设置被恢复的单元处于监视之下，在恢复期间的时间内进行监视，借以如果需要，只要在恢复期间内所进行的恢复作用的数量不超出在该期间内预定的最大数量，则使被监视的单元再恢复，其特征在于，在所述方法中，确定每个恢复期间的长度，借以在恢复期间结束时，只要单元在结束的恢复期间内已被恢复过至少一次，并且结束的恢复期间不是最后确定的恢复期间，则在一新的恢复期间的持续时间内，把单元置于监视之下，以及在最后确定的恢复期间结束之后，单元不再被恢复。
2：如权利要求1所述的方法，其特征在于，第一恢复期间被确定为是持续时间最短的期间，并且所有随后的恢复期间被确定为是持续时间比前一恢复期间长的恢复期间。
3：如权利要求1或2所述的方法，其特征在于，恢复作用的最低的最大数量对于第一恢复期间被确定，并且等于或大于前一恢复期间的恢复作用的最大数量的恢复作用的最大数对于后面的恢复期间被确定。
4：一种用于恢复故障单元(3)的恢复系统，包括：恢复装置(2)，用于试验故障单元(3)的操作，如果已经进行的试验表明它状态良好，则恢复该单元，恢复作用计数器(C2)，用于对为该单元所进行的恢复作用的数量计数，借以使恢复装置(2)被设置用来监视单元的操作，并如果需要，再恢复故障单元(3)，并且如果恢复作用计数器(C2)尚未达到预定的门限值(C2 R )，则改变恢复作用计数器的值，其特征在于，还包括：用于测量恢复期间的计时器装置(T)；用于计数恢复期间的恢复期间计数器(C1)，借以使恢复装置(2) 被设置用来在第一恢复作用之后初始化计时器装置(T)，恢复期间计数器(C1)和恢复作用计数器(C2)为预定的初始值(C1 0 ，C2 0 ，T 0 )，以及当计时器装置(T)达到预定的门限值(T R )时，恢复装置用于：如果恢复作用计数器(C2)的值偏离其初始值(C2 0 )并且恢复期间计数器(C1)尚未达到预定的门限值(C1 R )，则改变恢复期间计数器 (C1)的值并把计时器装置(T)和恢复作用计数器(C2)初始化为相应于恢复期间计数器的新值的初始值，如果恢复作用计数器(C2)的值相应于其初始值(C2 0 )，则使单元 (3)退出监视，并且如果恢复作用计数器(C2)的值偏离终止的恢复期间的初始值 (C2 0 )，并且恢复期间计数器(C1)达到预定的门限值(C1 R )，则阻止单元(3)在将来的恢复。
5：如权利要求4所述的恢复系统，其特征在于，如果恢复作用计数器 (C2)的值偏离其初始值(C2)，并且当计时器装置(T)达到门限值 (T R )时，恢复期间计数器(C1)尚未达到门限值(C1 R )，则恢复装置(3)把恢复作用计数器(C2)初始化为一个初始值(C2 0 )，它等于或大于结束的恢复期间的初始值，借以使恢复装置(3)被设置用来通过使恢复作用计数器(C2)在每个恢复期间发生恢复作用时使其减1来改变恢复作用计数器(C2)的值，直到恢复作用计数器(C2)达到门限值 (C2 R )为止。
6：如权利要求4或5所述的恢复系统，其特征在于，如果恢复作用计数器(C2)的值偏离其初始值(C2 0 )并且恢复期间计数器(C1)当计时器装置(T)达到门限值(T R )时尚未达到门限值(C1 R )，则恢复装置(3)把计时器装置(T)初始化为一个初始值(T 0 )，它等于或大于结束的恢复期间的初始值，借以使计时器装置(T)被设置用来通过以预定间隔减少它的值来测量恢复期间，直到它达到门限值(T R )为止。
7：如权利要求4-6中任何一个所述的恢复系统，其特征在于计时装置(T)包括：测量固定的持续时间的间隔的计时器，以及响应所述计时器的计数器，所述计数器的值响应一个固定持续时间的期间的结束而改变，直到计数器达到预定的门限值为止。

说明书

用于恢复故障单元的方法及恢复系统
    本发明涉及一种用于恢复故障单元的方法，包括以下步骤：确定恢复期间的预定数量和在恢复期间进行的恢复作用的最大次数；使故障单元退出操作，恢复这一单元，如果已经进行的试验表示该单元状态良好，则使该单元重新进入操作，并设定被恢复的单元处于监视下的恢复期间的时间，借以在恢复期间内，如果所进行的恢复作用的数目不超过在该期间内的预定的最大数目则使被监视地单元被恢复。本发明还涉及用于恢复故障单元的恢复系统，其中包括：恢复装置，用于试验故障单元的操作，并且如果所进行的试验表明该单元状态良好，则恢复该单元，恢复作用计数器，用于计数对该单元进行的恢复作用的次数，借以设置恢复装置监视该单元的操作，并且如果需要，则再次恢复故障单元，并改变恢复作用计数的值，如果恢复作用计数器尚未达到预定的门限值。

    这里的术语“恢复”指的是试验故障单元的操作，然后，如果按照已进行的试验，该单元状态良好，则使其返回操作。如果试验表明，该单元不能被恢复，则使其保持在不操作状态下，直到由维修人员进行处理。

    本发明与自动维护系统紧密相关，例如在电话交换系统中，其中维护系统连续地监视在系统中包括的单元的操作。如果维护系统检查出一个单元有故障，则立即向恢复系统发出报警。然后恢复系统则使故障单元退出操作，如果故障单元有备份，则用另一个同类的单元替换。在故障单元没有备份的情况下，系统的操作(例如电源交换)则被中断，直到故障单元被修好或用另一个单元替代为止。

    一旦恢复系统使故障单元退出操作，它就通过预定的试验程序检查故障单元的功能。如果试验表明，故障单元状态良好，则恢复系统自动地使该单元返回操作(至少在该单元没有备份的情况下)。在其它情况下，即如果试验表明该单元有故障，则使该单元永远退出操作，直到维修人员处理这一情况。

    上述的现有技术中恢复系统的缺点在于，在单元中发生的故障是这种类型的故障，以致使恢复系统不能根据进行的试验检查出的情况下，它不必要地使系统加载。在这种情况下，恢复系统重复地指示该装置状态良好，并在试验之后使其返回操作。接着，维护系统在一旦被恢复的单元被返回操作之后，便又立即再检查故障，并向恢复系统发出新的报警。这样，该单元便以不受控制的方式前后“摆动”，从而对维护系统和恢复系统带来不必要的负担。

    本发明的目的在于解决上述问题，并提供一种用于恢复单元的方法和恢复系统，使得能够减少上述的摆动，因而避免维护系统的不必要的负担。这些目的利用本发明的方法实现，其特征在于，在所述方法中，确定每个恢复期间的长度，借以在恢复期间结束时，如果在已结束的恢复期间内该单元至少被恢复过一次，并且结束的恢复期间不是最后确定的恢复期间，则把单元设定在监视之下监视一个新的恢复期间，并且在最后确定的恢复期间结束之后，该单元不再被恢复。

    本发明还涉及一种可以应用本发明的方法的恢复系统。本发明的系统的特征在于还包括：用于测量恢复期间的计时器装置；用于计数恢复期间的恢复期间计数器；借以使恢复装置被设置用来在第一恢复作用之后初始化计时器装置，恢复期间计数器和恢复作用计数器为预定的初始值，并且当计时器装置达到预定的门限值时，恢复装置被用于：

    改变恢复期间计数器的值，如果恢复作用计数器的值偏离其初始值并且恢复期间计数器尚未达到预定的门限值时，则把计时器装置和恢复作用计数器初始化为与恢复期间计数器的新值相应的初始值，

    如果恢复作用计数器的值相应于其初始值，则使单元退出监视，以及

    如果恢复作用计数器的值偏离结束的恢复期间的初始值并且恢复期间计数器达到预定的门限值，则阻止单元的恢复。

    本发明根据的构思是，当被恢复的单元被设置在监视之下时，使在预定长度的恢复期间内进行的恢复作用的数量限制为预定的值，因而可以减少故障单元的摆动和维护系统以及恢复系统的不需要的加载。

    本发明的恢复系统的最显著的优点在于有效地减少故障单元的摆动(即从有源状态转移到无源状态)，并节约维护系统的资源，并能使维护人员通过用另一个单元替换故障单元可在任何时候人工地处理这一情况，例如在恢复系统自动地恢复新的单元并检查其已经操作之后(不用检查实际上是另一个单元的问题)。

    在本发明的最佳实施例中，连续恢复期间的数量被限制为预定的值，并且恢复期间的长度和恢复作用的数量在每个恢复期间开始时被同时增加，这导致实现具有高效率的滤波条件的恢复系统。换句话说，每当从一个恢复期间转移到另一个时，恢复作用之间的时间被增加，结果，从单元的第一恢复作用已经通过更多的时间，通过恢复测量，使得加于系统上的负载较小。这样，使得系统在非常长的干扰期间之后，(即恢复期间的总的持续时间是相当长的)，有足够的时间用于恢复。通过只改变设定的门限值，系统操作是可以十分容易地改变系统的滤波条件。

    本发明的系统和方法的最佳实施例从所附的从属权利要求2-3和5-7中可以看出。下面结合附图详细说明本发明，其中：

    图1表示本发明的方法的第一最佳实施例的流程图，

    图2是本发明的恢复系统的第一最佳实施例的方块图，以及

    图3说明当利用图2的恢复系统时摆动单元的行为。

    图1表示本发明的方法的第一最佳实施例的流程图。在块A中，收到某一单元的报警。在块B中，为定位故障对故障单元进行预定试验。如果已经进行的试验表明，该单元状态良好，则它将被恢复，被恢复的单元被设置在监视之下。为进行这一步骤，把恢复期间计数器C1设置为预定的初值C10(最好＝1)。

    在图1中的块C，恢复作用计数器C2和计时器T被初始化为相应于恢复期间计数器C1的值的初始值C2＝C20，T＝T0。例如这些初始值如下：

    C1的值    T0     C20

    1        15(分)    1

    2        30        2

    3        60        4

    4      120      7

    在块D中，被恢复的单元被监视。如果单元再次故障，即收到其新的报警，则程序从块D经过块E转到块F。在块F中，检查恢复作用计数计C2是否已经达到被给定的门限值C2R(最好为0)，即对于有关的恢复期间确定的所有的恢复作用是否已全部使用。如果是，则程序返回块D。如果仍然有可利用的恢复作用，则程序转到块G，在那里单元被再恢复(如果可能按照试验)，然后，恢复作用计数器C2的值减少1。从块G程序返回块D，进一步监视单元的操作。

    当计时器T达到为其设定的值TR(最好为0分)时，即进行的恢复期间终止时，程序经过块H到达块I。在块I中，检查计数器C2的值是否相当于对其给定的初始值C20，如果是，则表示在全部的恢复期间内单元一直没有恢复，即它一直无故障地操作。在这种情况下程序转移到块K，结束对单元的监视。

    然而，如果计数器C2的值在块I中不相应于其初始值C20，则程序转向块J，检查恢复期间计数器C1是否达到预定的门限值C1R(最好为4)。如果是，则表示结束的恢复期间是最后一个恢复期间，并且程序转化块L，确定单元的恢复是否为“永久性”的，即直到维护人员处理这一情况。

    然而，如果在块J中检测恢复期间计数器C1已经达到门限值C1R，则程序移向块M，在其中恢复期间计数器C1的值加1。此后，程序返回块C，在其中恢复作用计数器C2和计时器初始化为相应于恢复期间计数器C1的新的值，此后如上述开始一个新的恢复期间。

    图2表示本发明的恢复系统的第一最佳实施例的方块图。图2表示的恢复系统以图1的流程图表示的方式操作。图2表示例如可以是电话交换机的一部分的单元了。

    单元3的操作由操作与维护单元(DMU)1控制与监视。当操作与维护单元1检测到单元3中的故障时，则立即通知恢复系统。然后包括在恢复系统中的恢复单元2在收到单元的报警之后立即使故障单元停止操作。一旦故障单元停止操作，恢复单元2就指示单元3进入试验状态，并启动对试验单元3的单元诊断，从而定位故障。如果试验表明单元3是故障的，则恢复单元2使其永远退出操作，直到维护人员处理。在另外情况下，即如果根据试验故障单元被证明状态良好，则恢复单元2自动地使单元3返回操作，同时初始化计时器T，恢复期间计数器C1和恢复作用计数器C2到预定的初始值T0，C10和C2。这些初始值例如可以是：T0＝15(分)，C10＝1，C20＝1。

    在图2所示的情况下，设置恢复单元2用来在每个新的恢复期间开始时使恢复期间计数器C1的值加1。计时器T用来通过减少其数值测量恢复期间的进行，设置恢复单元用来维持恢复作用计数器C2，使得计数器的值每当单元3被恢复时减1。

    一旦单元3在第一次已被恢复，则恢复单元2就开始监视单元3的操作。如果操作与维护系统1反复地向恢复系统提供单元3的报警(如果是不能被恢复单元通过试验检测的故障，这是可能的)，则恢复单元2将不自动地恢复单元3，而是首先检查在有关的恢复期间内预定的恢复作用的数量是否已经完成，即恢复作用计数器C2是否已经达到预定门限值C2R(最好为0)。只有在此检查之后，恢复单元2才启动对单元3的诊断，并如果可能使其恢复。在恢复作用之后，恢复单元2改变恢复作用计数器C2的值，使其减1。

    当计时器T达到预定的门限值TR时(最好＝0分)，恢复单元2检查恢复期间计数器C1和恢复作用计数器C2的值，并且：

    如果C2＝C20，则恢复单元使单元退出监视(单元正常操作)，以及

    如果C1＝C1R且C2≠C20，则恢复单元“永久地”切断单元3的恢复程序，直到维护人员进行处理。

    通过使用在持续时间上多个不同的恢复期间，并通过限制在一个期间内的恢复作用的数量，可以实现一种恢复系统，它能够管理一个摆动单元，使对操作和维护单元所加的负载最小。

    如果恢复系统用于监视几个单元，则对每一单元使用单独的恢复期间计数器和恢复作用计数器。在这种情况下，图2表示的计时器最好用专用单元计数器代替，而对所有被监视的单元用一个公用计时器。公用计时器则不断地测量某个持续的间隔，例如15分钟，此后专用单元计数器每当计时器表示某一期间结束时被更新。换句话说，如果恢复期间例如45分钟是要对某个单元进行测量的，则该单元的单元专用计数器被给予值3，在此之后，单元专用计数器的值每当计时器指示15分钟的期间已通过时被减1，直到单元专用计数器达到0值为止，这表示恢复期间已经结束。

    图3说明当使用图2所示的恢复系统时摆动单元3的行为。图3表示在头三个恢复期间单元3的行为。在图3所示曲线的下降沿，由于检测到单元的故障，恢复系统使其停止操作，相应地，在上升沿，单元被恢复并返回操作。在恢复期间1-3期间要被完成的恢复作用由图3中的箭头标出。

    在图3所示的情况下，单元具有不能由恢复系统进行的试验检测的一类故障，因此，恢复系统重复地尝试使单元恢复。因为在每个恢复程序之后，故障不能从单元中消除，所以操作与维护单元反复地向恢复系统给出有关单元的新的报警，这使得该单元在操作和不操作的状态之间“摆动”。

    由图3可见，在第一恢复作用之后，恢复单元2(图2所示的)启动计时器T用来测量第一恢复作用。然而，紧接第一恢复作用，单元立即再次“故障”，因此它几乎立即停止操作。因为恢复系统不能检测这种故障，在第一恢复期间开始之后，它立即再次恢复单元。不过，如图3所示，单元仍未处于良好状态，再次故障。然而，在第一恢复期间内，恢复作用的数量被限制为1，而后该单元将处于不操作状态，直到恢复期间结束。第一恢复期间的长度是15分钟。这样，单元保持不操作状态直到第二恢复期间开始，在此期间，单元被恢复两次，但它仍然不操作，并反复再次出现故障，单元再次保持为不操作状态直到第二恢复期间结束，借以使其在第三恢复期间内被再恢复4次。因为仍然不操作，所以在第三恢复期间之后的期间内第4恢复期间(图中未示出)为120分钟。在第4恢复期间内该单元被恢复7次。

    第四期间结束时，单元仍然保持不操作状态，并且恢复尝试被中断，直到维护人员处理。然而，如果在第三恢复期间进行的恢复之后单元保持为操作状态，因而在第四恢复期间不必使其恢复，则单元被检查出是处于操作状态并结束监视。如果曾经退出监视状态的单元后来再次发生故障，则单元的恢复将从第一恢复期的开头开始。

    应该理解，以上的说明和附图是用来说明本发明。恢复期间的长度和数量以及在此期间进行的恢复作用的数量可以改变。本领域的技术人员不脱离权利要求中的构思可以作出各种改变和改型。