本发明涉及数据处理领域。特别是本发明提供在计算机系统的服务网络中的一个计算机系统上阻止问题的发生。 下面的专利申请是共同指定的,这些申请与本申请具有同一申请日,并且彼此是相关联的:
在计算机系统的服务网络中自动插入一个计算机系统
计算机系统的可变服务网络
在计算机系统的服务网络中的一个计算机系统上的跟踪问题的解答
服务中级和主机数据处理系统是数据处理工业的主要部分,制造厂家或大公司雇用来进行维修和服务的工作人员可能与进行销售或制造新系统的人员具有相同数量,服务需要由服务代理、部件编目,软件以及物理装置组成的扩大网络,令人遗憾的是,数据处理系统的服务在很大程度上依赖于人的体力和脑力劳动。
A.M.Bentley等人的美国专利4,654,852向数据处理系统的更自动化维修方面跨出了一步,该专利允许操作人员运行存储在系统内地确定问题的过程(PDPs),PDPs本身能确定在系统内有什么部件并对这些部件进行测试,采用以前测试的结果确定一下步运行哪一个PDPs,这些PDPs也能请求操作人员进行操作,例如设制控制、切断电榄连接以及重新启动程序,PDPs从信息形式将问题的解答通知操作人员以建议采取某一行动或将某些服务代理召集起来。
一个中心服务数据处理系统已经建立起来了,例如IBM的“RETAIN”网络已实行了许多年,某一用户能电告国际通用机构将他系统上的问题与一服务代理(一个用户工程师(CE)或产品供应部)联系起来,代理通过询问用户他的系统有什么症状,系统上装有什么硬件和软件来试图诊断系统的问题,当用户回答上述问题时,服务代理将某些关键字输入一个终端,当代理认为他已经明确了问题的特性后,他就访问存储在中心系统的一个或多个问题管理数据库,采用关键字作为检索依据,对数据库的每次访问都需要一个或多个关键字,对问题的解答的描述中包含了这些关键字。
专利申请169,516,申请人是Calvert等人,申请日为1988年3月17日,由本申请的受托人所拥有,该篇专利揭示了一个计算机系统,该系统能发现问题,并向中心服务系统发送一个服务请求,中心服务系统接收服务请求并查询一个数据库看该问题的解决方法是否已知,如果已知,解答信息被自动传送到计算机系统。
Calvert等人的上述专利申请代表了计算机系统服务领域的一个重大进展,然而,Calvert等人的计算机系统请求服务只能将服务请求送到一个中心服务系统,此外,如果中心服务系统在其数据库中找不到确定的解答,它必需通知一辅助中心,在该中心需要人进一步查询问题的解答,因此中心服务系统只能自动确定请求服务的计算机系统可能遭遇的问题的一个子集并为此服务而进一步查询,考虑到现今的大多数计算机系统包含由许多不同厂家制造的硬件和软件,这一问题变得更为严重,此外,计算机系统在硬件和软件结构和性能上可能根本不同,一个中心服务系统不可能对向其请求服务的可能是成千上百的计算机系统所遇到的各种不同问题都提供完满的服务,Calvert等人的计算机还缺乏有效跟踪问题解答的能力或请求(或接收)阻止问题发生的能力。
本发明的主要目的是以有效的方式为一计算机系统解决服务问题。
本发明的另一目的是使一计算机系统服务网络能有效地解决问题。
本发明的另一目的是允许服务网络中计算机系统请求阻止由服务提供者带来的问题。
本发明的再一个目的是在服务网络中允许服务提供者执行与服务请求有关的予防。
这些和其它目的由下面所揭示的服务网络得以实现。
一个服务网络由多个计算机系统连接在一起,一个计算机系统既可能是一个“服务请求者”(SR),也可能是一个“服务提供者”(SP),或者是两者的混合,即一“服务提供者/请求者”(SR/R)。
服务网络中的计算机有能力执行或请求问题的防止。一个SP(或与SP作用相同的一个SP/R)能够进行检查以观察是否具有有关问题的解答,即它所提供的一个或多个SP(或与SP作用相同的SP/R)是否发现或报告该问题。如果是,则它将带有一个或多个软件部分、微代码部分、硬件部分命令和/或文本指令的解答信息分配给该SR。另外,一个SP(或一个与SP作用相同的SP/R)能够请求涉及与来自一个SP(或一个与SP作用相同的SP/R)的支援部分的一个表相关的任何已确知的问题。该SP将任何与支援部分的表相关的确定问题传送给请求SR。
图1A示出了本发明的一个简化的服务网络。
图1B示出了本发明的一个更复杂的服务网络。
图1C示出了本发明的一个示范服务网络。
图1D示出了本发明的一个极复杂的服务网络。
图2A示出了本发明的一个服务请求者的框图。
图2B示出了本发明的一个服务提供者/请求者的框图。
图2C示出了本发明的一个服务提供者的框图。
图3A示出了在本发明的一个问题记录表目中所包含的字段。
图3B示出了在本发明的一个服务请求中所包含的字段。
图3C示出了在本发明的一个解答记录表目中所包含的字段。
图4A示出了在本发明的一个主数据库表目中所包含的字段。
图4B示出了在本发明的一个辅助数据库表目中所包含的字段。
图5A示出了一个服务请求者通过一服务提供者置入到一服务网络中的流程图。
图5B-5H示出了置入过程中屏幕显示示例。
图6A示出了一个服务提供者通过一服务请求者置入到服务网络中的流程。
图6B-6D示出了在置入过程中屏幕显示示例。
图7示出了于图5A和6A中置入过程是如何得到承认的。
图8-12示出了如何检测错误,研究错误以及由或向一服务请求者报告错误。
图13示出了如何将咨询送到一个服务请求者。
图14示出了一个服务请求者如何请求解决其计算机系统的支持成分。
图15示出了一个服务提供者能解决的功能。
图16示出了一个服务提供者如何处理服务请求。
图17示出了一个服务提供者如何处理咨询。
图18示出了一个服务提供者如何为一服务请求者提供阻止问题发生的服务。
图19示出了一个服务请求者如何处理从他接收数据。
图20A-20D示出了一个示范性的问题跟踪显示屏。
图21示出了以图形形式显示在控制台的一示范性的跟踪问题显示。
本发明相关于下述专利和待批准的专利申请,下述各篇被共同指定作为本发明的参考:
Bentley等人的美国专利4,654,852
Calvert等人的专利申请122,293,申请日1987年11月18日(Ca-lvert Ⅰ)
Calvert等人的专利申请169,516,申请日1988年3月17日(Calvert Ⅱ)
内容表:
Ⅰ总述
Ⅱ将一计算机系统置入一服务网络
Ⅲ在一服务网络中解决问题
Ⅳ在一服务网络中跟踪问题
Ⅴ在一服务网络中阻止问题发生
Ⅰ总述
在本专利申请的以后部分,向一个或多个计算机系统请求服务并且不向其它计算机系统提供服务的一个计算机系统将被称之为“服务请求者”或“SR”;向一个或者多个计算机系统提供服务而且也能向一个或者多个计算机系统系统请求服务的计算系统起混合,可变作用,被称之为“服务提供者/请求者”,或“SP/R”;不向任何计算机系统请求服务但向一个或者多个计算机系统提供服务的一个计算机系统被称之为一个“服务提供者”或“SP”。
图1A示出了本发明的一个简化的服务网络,SR110经连线120连接到SP/R130,SP/R130经连线140连接到SP150,在最佳实施例中,SR110,SP/R130以及SP150都是IBM应用系统/400的中型计算机系统,当然也可采用任何其它计算机系统,例如主机计算机或个人计算机,连线120和140通常是电讯线,例如和用专线或公共切换电话网络或其它载体,但也可以是一条直接的连线,例如一根导线或光缆或一本地网络,SR110中包括处理器111,存储器112以及一个或多个终端113,同样,SP/R130包括处理器131,存储器132以及一个或者多个终端133,SP150包括处理器151,存储器152,以及一个或者多个终端153。
图1B示出了本发明的一个更复杂的服务网络,每一SP/R被连到多个SRs,该SP/R对这些SRs起服务提供者的作用,每SP/R也被连到多个SPs,该SP/R对这些SPs起服务请求者作用。
图1C示出了本发明的一个示范性服务网络,假设SR110是Pete′s Catering公司(一个假定的小企业)一个计算机系统,SR110经连线120与SP/R130通讯,SP/R130是Software Fixit Shoppe(一个假定的软件维修公司),Software Fixit Shoppe经连线连接到SP150,SP150是称为Sam′s Spreadsheets的一个虚构的应用软件开发公司Software Fixit Shoppe也被连到SP/R146真正大的计算机公司(Really Big Computer Company)和SP145(Lot′s of Wards Inc),SP/R146进一步被连到SP151,SP/R152和SP153,SP/R152被连到SP/R154和SP155,SP/R154被连到SP156,SP157和SP158。
SR110经连线171被连接到SP/R170,SP/R170也称之为硬件有限商(Hardware Fixit Shoppe)SP/R170进一步被连接到SP175,SP176,SP/R177,SP/R178和SP/R146,SP/R177被进一步连到SP181,SP/R178被进一步连到SP182。
通常Hardware Fixit SHoppe170和Software Fixit Shoppe130也被连接到成百甚至上千个象Pete′s Catering110那样的服务请求者,并能与图1C中所示的更多的SPs或SP/RS相连。
图1C的网络是通过将计算机系统加入到服务网络中的置入过程建立的,一个已在网络中的SP(或起SP作用的SP/R)启动SR(或起SR作用的SP/R)置入到网络,此外,一个SR(或起SR作用的SP/R)能启动一个置入到网络中的请求,如果该请求被启动,它必须被请求的接收者所承认。
一旦示于图1C的网络建立起来以后,Pete′s Catering计算机系统能自动检测各部件(硬件、软件或微指令)的问题,建立描述该问题的服务请求,选择用于解决问题的一个SP/R(或者是Hardware Fixit Shoppe或Software Fixit Shoppe)并将服务请求送到SP/R,该SP/R接收服务请求,证实Pete′s Catering有资格接收服务,并检索解答表目看是否有对问题的解答,如果有,描述问题确定解答的信息伴随着一个或者多个软件,微指令部件,硬件序列和/或原文指令被送到SR,如果相关的SP或SP/R不能确定问题的解答,它就作检索看它所连接的任何其它SPs或SP/Rs中是否能获得该问题的解答,如果能,它就将服务请求送到这一SP或SP/R,这个过程一直持续到问题的确定解答找到为止。
例如,假定Pete′s计算机系统已发现了其扩展应用程序的一个部份(也被叫做一个字段可替代单元FRU,可替代单元RU,模块或目标)的一个问题,它确定维修该部分的相关者是Software Fixit Shoppe,因此它就建立了一个服务请求并将该请求送到Software Fixit Shoppe,Software Fixit Shoppe中的计算机系统证实Pete′s Catering有资格接受服务,并检索解答表看是否有该问题的解答,如果找不到解答,那么就检索它所连接的任何其它SPs或SP/RS,看是否有支持解答,Software Fixit Shoppe的计算机系统发现Sam′s Spreadsheets对扩展应用部分问题有支持解答,故它将服务请求送到Sam公司,Sam公司中的计算机系统接收请求,检索其解答表目寻找解答并找到答案,它将解答信息送回到software Fixit Shoppe,后者又将其送回到Pete公司,然后Sam公司的解答信息被存储在Software Fixit Shoppe的解答表目中,在问题解答各信息中也包含了一个替代软件部份,用于替代产生问题的扩展程序中的那部分。
Sam公司的解答信息被存储在Software Fixit Shoppe的解答表目中,这意味着如果由Software Fixit Shoppe所支持的另一服务请求者就同一问题向Software Fixit Shoppe发送一个服务请求时,Software Fixit Shoppe能直接给请求者传送一个确定的解答,而不必进一步向Sam′s Spreadsheets请求服务。
问题解答的状况由图1C的支持网络中的计算机系统监视,每一SR,SP/R和SP包含一个问题表目以跟踪每一问题的状态,问题可能具有断开(OPEN),准备(READY),准备好(PREPARED),传送(SENT),已应答(ANSWERD)已确定(FIXED),已检查(VERIFIED)和闭合(CLOSED)等状态,在每一计算机系统中存储器的问题的表目使得网络的状态很容易得到监视,该监视活动可以由用户通过一系列屏幕或通过将网络或网络中的一部份的图象表示以图的形式显示在与网络中的一个计算机系统相关的控制台上来加以询问,例如,在Software Fixit Shoppe中的一个控制台(由网络操作者使用的特殊终端能图象化显示它所支持的所有SRs,当从Pete′s Catering接收到服务请求时,代表Pete公司的图象闪动并变化颜色以指示已接收到服务请求,当服务请求被进一步送到Sam′s Spreadsheets时,图象显示再次变化,同样从Sam公司接收到解答信息和当信息送回到Pete公司时,图象显示也发生变化。
一个系统也能向其它计算机系统传送一个咨询,从通知它们对某些问题没有支持解答。
在本发明的服务网络中的计算机系统也具有执行或请求阻止问题发生的能力,一个SP/或起SP作用的SP/R能检查所支持的一个或多个SRs(或起SR作用的SP/R)中还没有发现或报告的问题是否有解答,如果有,它就将解答信息与一个或多个软件部分,微指令部分,硬件种类和/或原文指令一起传送到SRs,此外,一个SR(或起SR作用的SP/R)能就已有解答的问题向一个SP(或起SP作用的SP/R)要求一系列解答支持部分的表,SP将问题的解答与一系列支持部分的表一起传送到请求者SR。
例如,假设Software Fixit Shoppe在接收到Sam′s关于Spreadsheet程序中的出错软件部分定位后,希望对它所支持的具有该Spreadsheet程序但还没有报告或发现问题的其它SRs实施阻止问题发生手段,它确定究竟是那些SRs有该问题并将解答信息与替换软件部分一起传送到那些SRs。
图10示出了本发明的一个极复杂的服务网络,计算机系统能分几个层次装置,SRs可向一个或多个SPs和/或SP/RS请求服务,SP/RS能支持一个或多个SRs,反过来又能向一个或多个SPs和/或SP/RS请求服务,SPs能支持一个或多个SRs或SP/RS,一对SP/RS可以相互请求服务。
图2A详细示出了图1A中的服务请求者110,图2A中的可执行部件由处理器111运行,处理器111中带有流程图中所示的程序。
操作系统程序210可以是任意形式的,但最好是传统的具有能同时执行多个程序的那种,如操作系统/400,一个资源管理(RM)程序220保持来自VPD表221中的必需的产品数据(VPD)信息,VPD表221标识硬件部分(型号,模块,序列号)和软件部分(产品号,释放层质,安装的PTFS),某些这种数据实际是由RAS管理器241收集,PM程序中还保持了一个布局表列222描述SR的部件的连接关系。
具有任何传统形式的应用程序230由操作系统(OS)210在任何传统管理技术例如一个工作排队(没示出)下执行,操作系统在bringup(IPL)时间运行RM程序220,作为应用程序230中的一个工作。
一套服务实用程序包括本发明中所用的大部分元件。
SR的子程序系统都具有驻留事件驱动可靠性和可服务性(RAS)实用程序,能检测在其子系统的操作过程中所出现的任何错误,例如,在一磁盘子系统中(如图1中的112)的I/O处理器可能具有实用程序240,每当I/O处理器发出由于出错而导致的中断时,该240接中断过程运行;该实用程序240也可作为可通知服务来运行,当操作产生一已知的无效结果,过时,不能启动,在总线上产生阻塞等等时,错误就出现了,一可靠性和可服务性(RAS)管理器241在用户系统运行时由实用程序的事件驱动,RAS管理器241最好是用微指令按事件驱动工作来执行,而不是在OS220控制在工作水平运行,由RAS收集的原始出错数据保持在出错表目242中,其中某些数据随后被传送到问题表目243,由每一出错所收集的数据记录为出错表目中的一个条目,出错表目的每一条中的字段包括:
-系统表目识别号,识别该出错表目的条目的唯一关键识别。
-故障统计(例如找到正确的磁道柱面之前一个查找错误发生了多少时间?)
-当错误发生时所包含的部件(从VPD表中看)的结构。
-由特别的RAS的应用程序所提供的设备状态,例如寄存器内容或状态位
-标识错误类型的参考码
问题表目243包括一些条目,每一条目对应所遇到的一个问题(注意“错误”不同于“问题”)问题表目的条目包括下列字段:
-整个网络中唯一的问题识别符
-状态信息
-机器信息(型号、序列、模块、变化层次,网络ID和控制点)
-初始或故障点FRU目录,用于描述发生概率
-隔离的FRU目录,用于描述发生概率
-最后或确定FRU目录,用于描述发生概率
-症状串(编码参考号)
-解答信息(当回答时被填入)
-发端系统标识符(网络ID和控制点)
-系统标识符被接收(网络ID和控制点)
-发送至系统标识符(网络ID和控制点)
-所发生的问题解答活动的运行记录以及准实施该活动。
一个问题表目可能有8个状态;在条目初始建立后“打开”(open),在所有可应用的PDPs246完成执行后“准备”(ready),当所有关的服务请求249被存储后“准备好”(prepared),当服务请求249将其传送到中央服务系统时“传送”(sent),当从一个SP或SP/R接收到解答信息“回答”(answered),在解答应用后“确定”(fixed),在SR鉴定解答信息解决了问题后“鉴定”(verified)在解答问题所有活动结束后“关闭”(closed)。
问题表目的条目的字段示于图3A。
再参看图2A,“FRU”一词的字面意义是“字段替代单元”,是指设备来替代故障部分的系统中的最小部分,在工业中具有共同的应用,在本发明的内容中,该问题被扩展为表示一个问题解决的最小单元,该单元可以是该问题通常意义下的硬件部分,也可以是软件部分,如一程序模块,或目标,或指示所采取的解决问题的活动信息,例如,可指示操作人员重置某些开关或召集载波通讯代理。
初始的FRU目录是由检测问题的RAS实用程序240推测有故障的部分的目录,该目录由该RAS实用程序所写的错误表目条目中导出;查出故障FRU目录包括被PDPs246推测的部份;由PAR程序244执行的任一PDP可将一个或者多个FRU号写入到问题表目中的查出问题目录字段服务提供者不断修改查出隔离的FRU目录以产生一个指明被推测部分的最终FRU目录,这三个目录的每个中的FRU编码号通过提供该目录的程序按故障概率的递减序列编号,在目录中的每一项还有一显概率号估计其成为故障单元的概率,这些号也是由每一部分的设计者所提供的,问题表目的条目中的不同字段是在不同时间写出的,一些字段的一个以上的条目可写到一个单一条目中。
联系数据库201包含与用户相联系的信息,例如用户名和地址,就系统问题进行联络的一个或多个人的名字和电话号码,最佳语言原文指令,等等。
问题研究和解答(PAR)程序244包括用于研究由RAS管理器接收的问题并输入到错误表目中的常规程序,当RAS管理器241在错误表目中制造一个新的条目时,PAR程序244可能一但不必总是一在问题表目243中产生一个新的条目,系统表目标识符,标识故障的参考代码,以及错误表目中的一些结构数据被传送到问题表目条目中,PAR程序还响应问题表目中的参考码在一些问题确定步骤中进行选择,简而言之,PAR从问题表目诊断字段读出编码参考号;并从问题表目中读出故障单元码,然后选择一个特别的PDP246并执行该步骤,所选择的PDP可能进一步询问问题表目中的别外字段,任意询问用户系统的操作人员有关更进一步的信息(通过图1终端113的显示装置)或任意地显示指令让操作人员实现某些不能自动完成的行动,例如安置控制或接上电缆。
用户可理解的问题解答(UPPR)程序247,允许SP的操作人员在即使RAS管理器还没有检测到任何错误时产生一个问题表条目,这可由显示屏或操纵台245来完成,该245询问操作人员有关信息并接收其输入,UPPR程序响应操作人员的数据某行某些PDPs246,并要求操作人员采取某些行动,它建立一个诊断串以及由PDP结果和操作人员的信息中所包含部件的表,在某些情况下,为此目的而执行的一个PDP可以解决问题,这时就不需建立条目了。
系统支持设施(SSF)程序248将所选择的问题条目转换成为一服务请求249,将其传送到一个SP或SP/R,例如图1中的SP/R130,并安排SR端与SP/R的对话,SSF248也用于请求置入一服务网络,请求阻止问题发生,跟踪问题的状态以及用于过程咨询。
参看图3B,服务请求249当-SR请求解决一已知问题具有图3B1的形式,当-SR请求对一部分阻止问题发生时具有图3B2的形式,对此在本文第Ⅴ部份有更详细的解释,一个服务请求249具有下列字段:
-问题标识符
-用户数据(名字、电话号码、联系人地址,用户语言)
-被检测并被报告问题的机器的机器信息(型号、序列号、样机,变化水平、网络标识符、控制点)
-目标标识符(任选的一网络标识符,服务请求指向服务提供者的控制点)
如果问题已知的
-问题数据(问题表目号,数据发生的时间、程序、症状串、再现标志)
-初始和查出故障FRU代码(字段的部分号或用户可替代硬件和/或软件部分,估计这些部分会导致问题的概率,描述问题信息的关键号)
-原文问题描述(如果是自动的,该部分空缺)
如果是阻止问题发生:
-阻止问题发生型号标识符
-成分标识符
设置再现标志指示同一部分在某一时间(如30天)内原来已报告过一问题,以及在该时间期间内原来出现过相同的症状;程序码是由操作人员或系统指定的确信问题有多严重。
症状串是从问题检测结果和随后的问题研究中重新组成的一个序列代码。
再参看图2A,解答表目202保持对SR110的结构变化的跟踪,如图3C所示,解答表目202具有下列字段:
-网络ID(标识符)和控制点
-成分标识符
-版本/发行级次
-解答信息(标识一个或多个硬件,软件或微指令部件)
-解答状态(为上面每一部件标识)
-症状串
-必要条件(指示解答是否要传送执行阻止问题发生请求)
再参看图2A,支持数据库203保持跟踪看那个SP或SP/R是与提供SRs的计算机系统的成分相关的,如图4B所示,支持数据库203具有下述字段:
-成分标识符
-SP或SP/R的网络标识符
-控制点
-自动设置信息
-阻止问题发生信息
图2A的SR110经过线275与SP/R或SP通讯。
图2C示出了本发明的SP150的框图。
问题控制程序295安排与SR或SP/R的对话,处理置入和阻止问题发生请求,跟踪问题的状态以及处理咨询,问题控制程序295由处理器131和150执行,该处理器具有下面流程所示的合适的编程,问题控制程序295访问问题记录261、解答记录262和联系数据库263,上述的261、262、263中每个都具有与对图2C的SR110进行讨论的相同的格式,但包含关于由SP150所支持的所有SPs和SP/Rs的信息,问题控制程序295经连线275与其它SP/Rs和/或SRs通信,问题控制程序经过连线285通知服务人员有关问题但不能作出解答,SP150也有控制台缓冲器264用于控制在控制台上存在的信息,在Ⅳ个分将作介绍。
SP150还有权利数据库270,权利数据库270跟踪查看那些SRs或SP/RS有资格接收,权利数据库270在图4A更详细示出,它包含下列字段:
-委托人描述数据(如图5E所示)
-系统型号
-系统序列号
-网络ID
-控制点(唯一标识SR或SP/R)
-权利使用的标识符目录
图2B示出了本发明SP/R130的一个框图,SP/R结合了SR110(已讲座)的部件和SP150(也已讨论)的部件,注意问题表目261,解答表目265和联系数据库263包括关于SP/R130所支持的所有SRs和SP/Rs的信息,问题表目243,解答记录202和联系数据库201仅仅包括关于SP/R130的信息。
Ⅱ将一计算机系统置入一服务网络
图5A示出了一个服务请求者通过一服务提供者置入到一服务网络中的流程图,该流程图由SP/R130或SP150(图1)的处理器131或151和问题控制程序295(图2B和2C执行),例如,假设我们的服务网络作为SP/R的Software Fixit Soppe向称之为Joe′s Oeli,Willie′s Wigets和Lotty′s Scissor(图10C)的SRs提供服务,Software Fixit Soppe打算将Pete′s Catering作为一个SR置入到服务网络,程序块601检测看SP属性是否需要定义或变化,为此,目录以及随后的流程简单起见,“SR”将同时代表一个SR和一个起SR作用的SP/R,“SP”将同时代表一个SP和一个起SP作用的SP/R。
如果程序块601得到肯定的回答,立即促使SP的操作人员改变信息属性,如图5B所示,图5B的属性信息是SP所持的所有SRs的错误信息-如图5E所示,为指定特定SRs,在一例接着一例的基础上来进行这么做是过份的。
程序块610询问操作人员是否打算与服务请求者一起工作,如果是,程序块611显示主菜单,如图5C所示,主菜单显示Joe′s Delt,Willie′s Wigets和Letty′s Scissors已经作为SRs置入网络中了,操作人员选择方案1将Pete′s Catering加入,因而对程序块620作肯定回答,并显示于图5D-5H的屏幕,操作人员输入图5D中关于Pete′s的用户信息,改变图5E的任一错误属性,并加入Pete′s接受服务所需的成分目录(图5F),“成分”定义为硬件,软件或微指令的一个可替代单元或可替代单元组,对硬件而言,成分可以是一完整的键盘或“Y”键本身;对软件而言,成分可以是一完整应用程序,操作或本身可能是其它程序的组合的某种类型程序,成份也可认为是程序很小的一部分,例如一个目标或模块或任何较大的部分,前面提及的CalvertⅡ专利申请示出了一个软件包结构,其中一个程序由几个分层安置的可替代单元(RU)层所组成,成分可以是从OCG层的一个RU到SFG层的RU以及设在OCG层上的相关RUS至AG层上的一个RU和分层结构中在它下面的所有RUS图5G允许操作人员从一列可用但目前没采用的成分中选择要采用的成分。图5H允许操作人员指定那种语言与有资格服务的每一成分相关,并结合起来。
一旦所有必需的信息被输入到这些屏幕中后,程序块622(图5A)在权利数据库270中记录一权利表目,程序块623将置入请求送到SR,控制流返回到程序块610,该程序块检查是否还有其它要处理的SRs,如果没有,程序在块625结束。
图6A示出个一服务提供者通过一服务请求者置入到一服务网络的流程图,该流程由SR110或SP/R130(图1)的处理器111或131,由SSF248(图2B和2C)执行。参看我们的服务网络,Pete′s Catering现在具有来自Saftware Fixit Soppe的对其操作系统,扩展程序,字处理器,方法数据库和微指令的支持,但需要某部门提供对其硬件成分的支持,因此,Pete希望请求将Hardware Fixit Soppe作为一个服务提供者置入到网络中,程序块615询问操作人员是否打算处理SPs,如果是,程序块652显示主菜单,如图6B所示,主菜单示出Software Fixit Soppe已经作为一个SP置入网络中了,Pete选择方案Ⅰ加入一个SP,并对程序块660作肯定的回答,程序块661通过示于图6C和图6D的显示屏提示操作人员有关信息,图6C1提示操作人员关于SP的联系信息,图6C2提示操作人员关于服务属性,图6D提示操作人员支持所请求的成分目录。
当必要的信息被提供后,程序块662在支持数据库203中产生一个表目,该表目指示已经请求了支持但还没有同意;程序块663将置入请求传送到SP,置入请求中包含请求的成分目录以及关于SR的标识信息。
注意,一个SP/R可能支持某一成分,即使该成分没有被装配或即使该成分在SP/R系统中存在,一个SP/R可能有一个或多个向其请求支持的SRs,服务所请求的成分可能被装配在一个或者多个SR系统而不是在置入请求中请求该成分服务的SP/R系统。
图7示出的示于图5A和图6A的置入过程是如何得到认可的,该流程由SR110、SP/R130或SP150(图1)的处理器111,113或151,由SSF248或问题控制程序295(图2)执行,程序块710检测看是否有要处理的置入请求,如果有,程序块721询问该请求是否被认可,这通常通过手动操作向一操作人员传送一条信息请求批准成分目录,也可通过检测权利数据库中已经输入到图5A的程序块622的信息(在一SP认可一SP的请求情况下,或通过检测支持数据库中已经输入到图6A的程序块622的信息(在一SR认可SP的将其置入的请求的情况下)自动实现。例如,一个SP可能在其权利数据库中已经准备了一个表目包含关于一特定SR和一成分目录的所有信息,但置入状态为“没有置入”,如果是这样在,从该SR接收的置入请求可被自动认可,从而表目的状态改变为“已置入”。
对那些已被认可的成份,程序块722修改权利数库270或支持数据库203,并在程序块730向SR或SP传送回一发效响应,SR或SP接收到该生效响应并修改其支持或权利数据库以指示置入请求已被认可。
对那些没有认可的成分,在程序块731传送一拒绝响应,SR或SP接收拒绝响应,修改其支持或权利数据库以指示对那些成分的支持已遭拒绝。
图1C的示例服务网络如其余部分也按上面讨论的相同方式建立。
Ⅲ在一分级服务网络中解决问题
图8-12示出了如何检测错误,决定错误以及或者由一服务请求者报告错误或者由一服务提供者向一服务请求者远程报告错误。这些流程图由SR110和SP/R130(图1A)的处理器111和131、由成分资源管理器220、UPPR实用程序247、PAR实用程序244,SSF248,RAS实用程序240、RAS管理器241和PDPs241(图2A和2B)执行,为讨论方便起见,如果执行远程问题检测和确定,认为SP150具有图2B所示的SP/R130的元件。
程序块801如果得到肯定回答,通过调用图9的子程序900在一本地系统寻找错误,现在参看图9,OS210使用RM程序220,采用RAS管理器241在程序块310收集数据。如在上面所提及的专利申请中所述,系统110的硬件和软件成分在其内部包含“必要产品数据”(VPD),该VPD可以读出以识别其部件号,工程变化级,程序编码级,等等。这一数据包含系统总体和/或某一成份的类型号,模型号和序列号,RM程序从每一成分中读出VPD信息,将其存储在VPD表中,该表与系统资源管理(Skm)数据库或描述元件如何连接的布局目录一起存储,这一数据从一传统的结构程序(没有示出)中导出,该程序在SR系统重点或扩展时被执行。
操作系统210随后跟随一传统的作业排队320以执行系统任务,某些系统任务可以队列中的其它任务同时运行,当每一任务被执行时,OS210保护一环境记录322,用它描述正在运行的任务和系统的状态。
此时如虚线302所示,RAS实用程序240(图2)可在其系统子集内运行,每当在一个成分中出现错误情况时,程序块330使适当的RAS实用程序在程序块331执行,当实用程序通过读出状态位,实行测试等等确定错误的性质,在程序块332内在错误记录中写入一个表目,错误记录表已结合图2作了描述,旧错误记录表中导出的FRU目录是具有附带概率的一系列代码,附带概率指相关的FRU(即硬件或软件成分,或指示进行某一活动的一信息码)确定导致错误的概率,然后回到程序块330中写入了错误记录表的实用程序的控制,每当一实用程序在错误记录中写入了一个表目时,事件驱动RAS管理器241在程序块333执行。
如果错误重大(不能由系统的子集所更正的错误),块334在问题记录中产生一新的表17,并在该记录中写入结合图2已描述过的数据,包括由错误记录中得到的初始FRU目录,由于还没进行诊断或其它研究,这个初始FRU目录通常比写入到问题记录中的隔离开FRU目录要长,程序块335随后存取一信息(采用系统中的传统语言选择程序)并将其在终端113(图1)显示给系统操作人员,在程序块930子程序返回到图8的程序块810,如果找到了错误,块810得到肯定的回答,并调用图10的子程序1000,现在参看图10,程序块1001检测看问题是由系统或是由用户报告的,如果是由用户报告的,该子程序响应由用户在终端113输入的一个指令直接进入,否则,它通过图8中被肯定回答的程序块810进入。
如果如系统观测到的问题,控制进到程序块410,在该程序块,PAR程序244根据所选择(或第一个)问题的初始目录中的代码选择一特别的PD步骤246,所选择的PD步骤246在程序块420执行,PDPs与系统结构数据有联系,它们能使其它PDPs执行,如420块中所示。一个PDP的结果是指定一个FRU和一故障概率的一个或多个代码,PDPs是采用由测试的结果和/或操作人员输入来控制的判定树的诊断过程。
程序块424将由所选择的PD步骤所作的测试结果写入到问题记录表目,更详细地说,问题记录表目的隔离FRU目录字段接收代表很可能出故障的FRUs的参考码以及要表示最后要执行的PDP的特征和出口点。程序块425将与问题相关的某些VPD代码号入问题记录表目,此时,问题记录表目的状态改变为“准备”(ready)。
程序块430通过从隔离FRU目录中选择最可能发生的故障。对其重新组成并接收指示PDP特性和出口点的代码,从而将问题记录表目中的隔离FRU目录转变为症状串;程序块431包含或者来自图2的联系数据库201或者来自操作人员的用户信息,该操作人员应决定是否过份使用了数据库信息,这一用户信息包括在用户哪边进行联系人的姓名和电话号码,也包含问题的严重程度码,这个码由操作人员任意规定以指示解决该问题的急迫程序。操作人员也可任意写出该问题的正文描述将其包括在该点的服务请求中。程序块440然后将实际服务请求根据结合图2描述并示于图3B的格式写入到问题记录表目(如果请求来自UPPR过程而不是来自PAR,那从FRU目录是一系列的关键字形式,而不是数字参考代码),此时,问题记录表目的状态是“准备好”。
即使一个SR本身并没发现任何问题,操作人员可认为确定该SR存在问题,如果发生这种情况,操作人员通过其终端(图1A)的另一命令或功能键选择用户察觉问题解答(UPPR)过程。
在这种情况下,程序块450选择并显示,操纵台从操作人员处请求某一信息:程序块452接收输入数据并以关键字方式对操作人员的响应格式化,并将其写入到该问题新产生的问题记录表目的隔离PRU目录字段的一个症状串中;程序块453检测在UPPR过程中出现的任何系统问题。如果检测到一个问题,控制自动转移到PAR过程执行程序块420,如果没有检测到错误,控制由程序块453到程序块454,看该问题是否已很好地被隔离了,如果没有,控制回到程序块450,根据原来屏幕响应所产生的关键字选择另一屏幕,由程序块450所显示屏幕可能请求某些活动,询问有关系统的问题。并显示咨询信息,当程序块454确定问题已被很好隔离时、控制进行到程序块430,并且过程如前面一样继续进行。
程序块460确定是否现在传送服务请求,如果问题检测和确定过程直到此时一直是自动的,程序块460通常是肯定的回答,然而,在当前问题记录表目中标识的问题在这时已被解决这是完全可能的,即,由操作人员响应初始或隔离FRU目录的信息所采取的一个或多个行动在用户系统已解决了故障,故而操作人员将过程引到程序块1010退出。如果操作人员决定通过研究额外的问题并在随后时间将其全部传送或通过直接通话告之到一个CE或产品支援代理人继续进行,操作人员也可退出。在那种情况下,服务请求保持在存储器中,具有一个设置到“准备好”状态的状态标志,指示该请求准备传送到服务系统,如果他选择继续进行问题解答,或者问题已被自动检测到并打算自动传送,程序块462将服务请求传送到支援数据库280中作为推测为出故障的成份的支援来标识SP或SPs中,通常仅有一个SP支援一个成分,但也可能为一特殊成分需要从许多不同的SPs中接受支援,程序块465修改问题记录中的表目指示问题具有“传送”状态,子程序在程序块1010返回到图8的程序块820。
程序块820确定一个SP/R是否打算进行远程问题检测并确定它所支援的一个SR,如果是,在SP/R控制台(这是图1的终端133或153中提供给网络操作人员而特定的一个)与SR远程连接并允许一个SR计算机系统。当操作人员必须给定一个用户标识符和对SR系统进行访问的通行字使能对SR系统进行存取,一旦连接在SP的操作人员启动示于图11和1250子程序以进行远程问题检测和确定。
图11和12与图9和10极其相似,但有如下改动。
程序块1260(图12)指示在SR是否有一操作人员可执行任务,如果没有,在块1261的操纵合被修改以消去在SR需要一操作人员的任务,在程序块1220执行的PDP内,确定在SR是否存在一个操作人员,如果没有,在PDP的操纵台(如果有的话)也被修改,在SR缺少操作人员可能导致已完成的问题的隔离数变小,如果检测到一个问题,程序块1270从通常用于准备一服务请求的SR提取信息以检索其解答记录找到一个确定(有效地跳到图16A的程序块1611,因为不需要服务请求)如果找不到一个确定,SP/R变为一个服务请求者,就程序块1275中的问题为SR准备一服务请求。SP/R将服务请求传送到指示为在程序块1280的SP/R的支持数据库中作为这一成分支援的SP(s),子程序在块1290返回到图8的块830,图8的剩下部分将在第Ⅳ和Ⅴ部分进行讨论。
在最佳实施例中,需要进行远程问题检测和确定的对话期是在APPN网络中的一个APPC对活期(LU6.2)当然其它类型的已知连接,例如租用,开关或公共数据网络也可采用。
图15示出了可由一服务提供者执行的功能,该流程由SP/R130或SP150(图1A)的处理器131或151和问题控制程序295(图2B和2C)执行,块1501检查看是否有要处理的任何服务请求,如果有,调用图16的子程序1600,块1601检查看是否有要处理的服务请求,如有,块1602检查其权利数据库,看传送服务请求的SR是否有资格接受对怀疑有故障的成份的服务,如果是,一错误信息被传送到块1605的SR并且控制回到块1601等待更多的服务请求,如果块1602得到肯定回答,块1603检查看该服务请求是否原先已从该SR接收过,如果是,块1605将错误信息传送到SR,如果不是,块1610在其问题记录中产生一个表目指示已接收到一个服务请求:块1615修改SP的控制台,块1611检索解答纪录265寻找问题的可能解答,解答记录262中包含对硬件,软件和微码成份有关的问题的解答。
块1620检查看配对数是否超出在置入过程中所规定的临界值(图5B),如果是,在SP的支援人员经连线SP被通告问题从而可进行适当的人力干预,如果不是,块1630询问是否没发现配对物,如果没有找到配对物,块1631检测看是否有另外的SP支持这一成分,如果a)服务请求中包含一个指定网络标识符和一特定服务提供者的控制点的目的标识符或b)支援数据库指示另一SP支援该成分,则另一SP支援这一成分,如果不是,块1625检测看该服务请求是否是一阻止问题发生请求(在第Ⅴ部分将对此作更详细的讨论),如果是,向SR发送回一条信息说明对没报告的问题没有找到确定解答,如果不是,在块1621向SP处的支援人员通告问题,如果块1631得到肯定回答,块1640经连线275将服务请求传送到支援SP或SP(s),然后块1645向SR传送一条信息指示服务请求已送到一SP,块1646修改SP中的问题记录状态为“发送”,并修改SP中的操纵台,控制流返回到1601等等要处理的更多的服务请求。
如果块1630得到否定回答,则在解答记录中发现了易管理的配对个数,块1633在SP的问题记录中存储指定当前问题解答的解答信息,解答信息可能包含一种或多种下述类型的信息:
-给SR处的操作人员指示,要求其采取某些行动以解决问题(即重置控制,重新进接电榄,传呼通讯载波服务代理)。
-列部件号,指定由用户或由一服务代理设置的硬件成分。
-用于解决软件或微码问题的一列软件或微码成分。
块1651将“已回答”状态加入到SP中问题记录中的表目中,通过在置入过程中检测输入到联系数据库中信息,块1655检测看解答信息是否自动传送,如果是,块1657请求SR将其解答记录的当前复制传送到SP,虽然SP的解答记录中包含SP所察觉的来自SR的数据,但有可能SP的解答记录中并没有包含大部最新信息,如果SR从另一SP接收解答信息或者如果SR接收不在网络中的另一源的部件时,这种情况就可能发生。
块1660将从SR发送的解答记录与其自身的解答记录进行比较,看SR是否已经接收到所有的解答信息,如果是,原先发送的解答信息不能解决问题,故而块1656通知在SP的支援人员以及SR,如果不是,块1662为SP调配硬件,向SP发送替代软件成分和/或发送在SR中还没有的微码成分。块1663将所有的解答信息与问题标识符传送到SR,块1666更新SP处的操纵台,最后控制流返回到块1601等待处理其它服务请求,子程序在块1699返回到图15的块1502。
图19示出SR的系统支援设施在其接收到在块1662和1663传送来的信息时所采取的步骤,块1920从SP接收解答信息并将表目存储在与问题标识符相关的问题记录和解答记录中,块1920检查其问题记录看所传送的问题标识符及其解答信息是否相关于从另一SR接收的一个服务请求,如果是,解答信息传送到传送该请求的SR,块1925将问题记录的表目状态改变为“已回答”,SR在1930块接收硬件,软件和/或微代码成分,并在块1935修改解答记录中的解答状态字段,指示硬件,软件和/或微指令已经接收到了。该成分(如果有的话)进一步传送到请求支援的SR。
块1950询问该解答是否要装入计算机系统,块1950可以立即执行或几小时或甚至几天或几星期后执行,在作该决定时可能需要人为的干预,或者基于在置入处理过程中输入到支援数据库中自动装置字段的信息自动作出决定,例如,Software Fixit Soppe可以决定由Really Computer Company所支援的成份自动装置所有解答,但不为由Sam′s Spreadsheets所支持的成份服务。
如果块1950得到肯定回答,块1955将解答应用到系统,块1960通过加入“确定”状态修改问题记录中的表目,块1960也通过加入“应用”状态修改解答记录中的表目。
块1970询问题答是否受到检验,当系统已被测试并且启动服务请求的问题已不再存在时,该块得到肯定的回答。检验过程可通过重新启动图9的问题检验流程来自动进行,或者通过人为干预进行。因此,块1970可以立即执行或延迟后执行,如果块1970得到肯定回答,块1975修改问题记录加入“已检查”状态,块1980通告SP问题已检验,从而SP能修改问题记录,当与问题相关的所有活动完成后,块1985将状态修改为“关闭”。
Ⅳ在服务网中跟踪问题
每当一个新状态加入到问题记录表目中或当一个服务请求被发送和接收时,服务网络中的多数问题都能被跟踪,一个SP将能跟踪所有以该方式向其请求支援的问题,然而,在SRs上发生的还没有接收到支援请求的问题通常不为SP所知,采用“咨询”来提供该附加信息,咨询可被服务网络中的任一系统用来向服务网络中的一个或多次其它系统通告在服务网络的另一系统中所发生的问题。
因此,咨询可以用于补充经服务网络接收的关于服务网络中其它系统的状态信息。
再参看图8,块830检查看是否有咨询要发送,如果是,调用图13的子程序1300。
块1303建立一条咨询信息,咨询信息包含成分标识符,关于问题的原文和/或编码信息以及确定咨询发送者的信息,块1304将咨询信息送到适当的SP(s)或SR(s),这可通过检查支援数据库203和/或权利数据库270看哪个SP,SP(s),SR或SR(s)支援或授权接收关于特定成分标识符的咨询,换言之,成份标识符字段可能包含特殊的广播数据,指示该咨询应该发送到在支援数据库和/或权利数据库中的所有的SPs或SRs,在块1320子程序返回到图8的块840,块840和子程序1400将在第Ⅴ部分进行讨论。
现参看图15,块1502询问是否有咨询要处理,如果是,调用图17的子程序1700,块1701检查看是否有咨询要处理,如果有,块1770修改操纵台指示所接收的咨询特性,在块1790子程序返回到图15的块1503,图15的块1503和1800将在第Ⅴ部分讨论,注意子程序1700也归SR(如果SR有一操纵台的话)中的SSF248执行。
通过使用咨询和服务请求并结合存储在问题记录,解答记录,在服务网络的各个系统中的联系数据库中的信息,可获得大量用于研究和监控的信息作为示例,让我们假设Pete′s Catering的我们的朋友Pete正在使用他的方法数据库但找不到他最喜爱的肉面包制造方法,他利用示于图10的流程隔离一用户报告的问题并在块440写入一个服务请求,块460确定支援解决方法数据库问题的SP是Software Fixit Soppe,因此服务请求被传送到那,Software Fixit Soppe执行图16的流程在其解答记录中找到问题的解答-肉面包制造方法本身,一个软件成分,它将解答信息和肉面包制造方法送到Pete′s Catering并修改它的问题记录,Pete接收到方法和解答信息并修改其问题记录和解答记录。
在Pete′s Catering处的系统支援设施248有能力从它的问题记录中送取信息并及时向操作人员显示在某点某问题的状态,当肉面包制造方法相关的问题得到解答后,在Pete′s处显示给操作人员的屏幕示例示于图20A和20B,图20C和20D示出向Software Fixit Soppe处操作人员显示同样问题状态的屏幕示例。
反过来,在Software Fixit Shoppe处的一个操纵台可被用于显像监控整个服务网络或其一部分的状态,图21示出了当从Pete′s Catering接收到一服务请求后,在Software Fixit Shoppe处的操纵台可能显现的情况。操作人员希望看到的网络中的每一SR和SP都显示在屏幕上,网络中的各个计算机系统最好是用图象显示出来,通过表示计算机系统的图象变化来反应网络中该系统的状态,图21示出了连接到Pete′s Catering的一根实线,该Pete′s Catering用虚线方框表示,这一表示象征已经从Pete′s接收到一个服务请求但是还没有作出回答。Joe′s Deli和Lefty′s Scissors示出由实线连到实线方框,这表示Joe′s和Lefty′s计算机系统目前运转正常。Willie′s Wights由实线连接到由园点组成的方框,这表示很早由Willie所报告的问题已由Software Fixit Soppe作了回答。
在Software Fixit Soppe处的操纵台还显示其中一个SP,即Sam Spreadsheets是由星所组成的方框代表的,这表示刚刚从Sam′s接收了一个咨询,操作人员可接在一功能键显示关于咨询的附加信息。在操纵台上对系统状态的选择是由设计人员或操作人员所作的设计选择,如果操纵台提供颜色和其它一些特征,图象就可以改变颜色,闪烁、变亮或变暗或其它变化以指示状态的变化,例如,一“红色闪动图象可代表一服务请求已被接收但没有应答。
Ⅴ在一服务网络中阻止问题发生
A、服务请求者启动
如上所述,一个SR可通过请求与一系列支援成份相关的对问题的确定来从事阻止问题发生活动。如图8所示,块840询问对所支持的程序是否要求确定,如果是,调用图14子程序1400,块1401定义所需的阻止问题发生请求的类型,阻止问题发生活动可在置入时间进行,这时SR需要接收对所有它请求SP支援的成分的确定,阻止问题发生活动也可以同时对一特定成分阶断性地进行。例如,Pete′s Catering可能决定,它希望对其Spreadsheet程序的变化连续修改,因此,在每月的每一天,由Pete′s系统自动产生一个请求,请求对Spreadsheet程序阻止问题发生,也可以SR的一个操作人员的请求下对一个或多个所选择的成份阻止问题发生,用于确定所需的阻止问题发生请求的类型信息存储在支援数据库203。
再参看图14,块1410询问是否有一成份要求阻止问题发生,如果有,块1414从联系数据库得到用户信息,块1420写入示于图3B的服务请求。图3B的服务请求包含指示这一服务请求是对一特定成份标识符阻止问题发生请求的字段,这些字段替代与一服务请求相关的症状串和FRU目录字段,所述服务请求当存在一已知问题(如示于图3B1的问题)时产生,块1450询问服务请求是否现在发送,如果是,块1460通过过程支援数据库确定哪一个SP(s)支援与服务请求相关的成份并将服务请求传送到那个SP,无论发生那种情况,控制流都返回到块1410,当块1410确定阻止问题发生的所有请求都满足后,子程序在块1490返回到图8中的块890。
服务请求由SP接收并通过执行图16的流程进行处理,如上所述。
B、服务提供者启动
一个服务提供者也能在它所支援的任何服务请求者上从事阻止问题发生活动。SP检查看它所支持的一个或多个SRs中存在但还没有报告或发现问题是否有解答,这示于图15,图15的块1503询问SP是否打算从事阻止问题发生活动,如果是,调用图18的子程序1800,块1802检索权利数据库270看一个SR被授权什么成分接受确定,块1805检索解答记录寻找在请求字段具有信息的所有确定,该信息指示这一解答可响应由SP所启动的阻止问题发生请求而被传送,可能需要将阻止问题发生的确定限止到由SR所报告的那几个问题的确定(从而有一“检查”状态)以避免对不起作用的确定的不必要的传送。
块1807请求SR将其解答的当前复制传送给SP,虽然SP的解答记录中包含SP所意识到的来自SR的数据,但有可能SP的解答记录中不包含最近的信息,这种情况在如果SR从另一SP接收解答信息或如果SR从不在网络中的另一源接收一成份时发生。
块1810将从SR发送的解答记录与其自身的解答记录进行比较,从录找SR没观察到或没报告的解答(在SR记录中不存在),块1820看是否有没报告的问题需要解决。
如果有,块1850调配给SR的硬件,向SR发送软件成分,微码成分和/或原文指示。块1860向SR发送解答信息,块1870修改SP的解答记录,问题记录和操纵台,并返回块1820等待更多的阻止问题发生活动。当块1820得到否定回答时,子程序在块1890返回到图15的块1590,当SR接收到解答信息时,如前所述,它执行图19的流程。
虽然本发明是相关于最佳实施例进行描述的,但本领域的普通技术人员确知在不脱离本发明精神范围和教导下,可在细节上作多种变化,因此,所揭示的内容仅仅限制于下面的权利要求所指定的范围。