一种强实时计算机集群动态调度系统技术领域
本发明设计航天发射应用领域涉及到的大中型强实时、高可靠性
的数据处理系统,具体是一种强实时计算机集群动态调度系统。
背景技术
在实时性、可靠性和安全性要求高的信息处理应用系统,至少需
要符合三个要素保障:一是整个系统的设计均能体现出较高的冗余能
力,在信息处理系统中的任何一个节点均需保证无任何单点故障,若
一个信息处理系统由于设计的缺陷产生单点故障,则对整个系统都是
致命性地并随时都有可能由于单点故障的缺陷影响到了整个系统的正
常运行;二是提升整个系统的运行效率和应急水平,对一个大中型信
息系统运行是否高效及应急水平是否体现出“及时、精准”的目标,
关键在于系统建立什么样的模型和采用什么样的技术路线;三是提高
整个信息处理应用系统的自动化和管理水平,采用由分散式监控手段
过渡到集中式监控,立体式地收集系统运行状态信息、告警信息。采
用自动和人工辅助相结合的方式,极大提高信息处理系统的自动化水
平。针对上述应用需求,设计了一种强实时计算机集群动态调度策略,
分别从软硬件体系结构模型,动态软双工的设计,作业动态分配策略
设计及在双工切换过程中“轻量级”的资源开销保证了系统的强实时
性、安全性及高可靠性等特点。
发明内容
针对现有技术的不足,提出了一种强实时性、高可靠性、安全性要
求比较高的强实时计算机集群动态调度系统。本发明的技术方案如下:一
种强实时计算机集群动态调度系统,其包括:硬件体系结构模型及软件体
系结构模型;其中硬件体系结构模型包括三层硬件体系模型及三层网
络模型,所述软件体系结构模型包括调度管理操控终端层,调度管理
层及调度代理层;
所述硬件体系结构模型:用于构建动态调度的硬件支撑平台,包括
三层硬件体系模型和三层网络模型,三层硬件体系模型的第一层为调
度管理控制终端层:用于对计算机管理服务器层进行终端控制;第二
层为调度管理服务器层:用于对计算机集群层发起的服务进行管理调
度;第三层为计算机集群层,包括若干台服务器;
所述三层网络模型包括调度管理终端接入层、调度管理汇聚层及
调度代理核心层,其中调度代理核心层与三层硬件体系模型的计算机
集群层通过交换机相连接,所述调度管理服务器层通过交换机与调度
管理汇聚层相连接,所述调度管理终端接入层通过交换机与调度管理
控制终端层相连接;
所述软件体系结构模型包括三层软件模型:调度管理操控终端层,
调度管理层及调度代理层;其中调度管理操控终端:主要负责对服务
的申请,服务的启动,软硬件资源的系统监视,软双工的动态切换,
服务器集群中运行作业即进程的操控,业务流程的控制,信息系统的
应急措施及服务的释放;调度管理层:主要负责对服务器集群的在线
工作状态检测,对服务器集群之间动态软双工的分配,对运行在服务
器集群内的作业即进程分配策略,调度管理服务器之间的数据及状态
的同步,操作命令、服务器集群软硬件资源统计及回证的转发;调度
代理层主要负责对服务器集群中运行的作业即进程之间命令的执行及
回证的交互,收集集群内部系统软硬件资源运行状态,收集作业运行
状态,网络注册及报文的转发,作业之间的信息交互。
进一步的,所述调度管理控制终端层由两台调度管理控制终端组
成,且两台调度管理控制终端互为热备;所述调度管理服务器层由两
台基于对服务器集群进行管理的调度管理服务器组成,且两台服务器
互为热备。
进一步的,所述调度代理核心层与计算机集群层通过交换机相连
接的台数为两台,且互为热备份;所述调度管理服务器层通过交换机
与调度管理汇聚层相连接的交换机台数为两台且互为热备份,所述调
度管理终端接入层通过交换机与调度管理控制终端层相连接的交换机
台数为两台且互为热备份。
进一步的,所述计算机集群层的若干台服务器中的每台服务器所在
的独立网卡接入一台交换机,单独成网构成小型局域网。
进一步的,所述软件体系结构模型的调度管理操控终端层与调度管
理层之间通过TCP协议点对点进行通信,调度管理层和调度代理之间
通过UDP协议任意源组播进行通信。
进一步的,所述计算机集群层的服务器集群中,对于相同的业务作
业即进程均要求采用动态双软工法,即相同的业务作业即进程存在于
主机和副机两台服务器中,任何一台服务器的软硬件出现故障时,系
统均会执行自动和人工两种结合的方式进行双工切换,。
进一步的,所述动态双软工法具体为:
假定某一个信息处理应用系统服务器集群有m台在线服务器,在
集群中运行有n个作业,分配的原则是要求每一个作业必须在两台服
务器运行,如果集群服务器个数为奇数,那么第m台服务器以单机状
态存在,作为系统的冗余空闲服务器,如果n<=m/2,至少要求每个作
业能独立在两个服务器中运行,如果n>m/2,根据作业的安全等级,
把安全级别低为D级的作业进行组合到一起运行在互为热备份的服务
器中,把安全级别为A级、B级、C级且对软硬件资源要求高的作业
单独运行在互为热备份的服务器中。
本发明的优点及有益效果如下:
硬件结构模型设计为三层服务器模型,网络结构模型也是设计为
三层模型。每一层操控终端、调度管理服务器、交换机都是热备份,
网卡接入交换机方式采用双网卡虚拟技术。每一个系统节点均无单点
故障,每一节点体现了冗余设计。
软件模型按照三层结构进行划分,每一层无单点故障,层与层之
间分工明确,调度管理操控终端层与调度管理层之
间通过TCP协议点对点进行通信,调度管理层和调度代理之间通过
UDP协议任意源组播进行通信。层与层之间增加了信息的回证机制,
保证了命令与报文传输的安全性和可靠性。
在服务器集群中,对于相同的业务作业(进程)均要求存在于主
机和副机两台服务器中,任何一台服务器的软硬件出现故障时,系统
均会执行自动和人工两种结合的方式进行双工切换,保证了系统的可
靠性。
作业(进程)在服务器集群中的分配策略能够保证每一个作业(进
程)均能运行在任意两台互为热备份的服务器中,保证了作业运行的
稳定性和可靠性。
本发明适用于对实时性,可靠性,安全性及对系统冗余设计能力要求较高
的数据处理系统。以航天发射场数据处理中心系统建设为原型进行说明其效果,
服务器集群共有10台中型数据处理服务器,运行共有5个数据处理配置项和一
个代理部件组成,每一台数据处理服务器静态部署的软件完全一样,软件的运
行和分配根据服务器是否为在线状态作为依据,针对5个作业在1至10台服务
器中组成的集群中进行分配。每两台服务器可以任意组成双工,增强其系统的
实时性和可靠性。
附图说明
图1是本发明提供优选实施例实时服务器集群调度策略硬件体系结构模型
图;
图2实时服务器集群调度策略软件模型图;
图3实时服务器集群调度策略的作业分配策略流程图;
图4实时服务器集群调度策略软双工切换流程图。
具体实施方式
以下结合附图,对本发明作进一步说明:
本发明的目的是对计算机集群动态调度策略涉及到的软硬件体
系结构模型,动态软双工,作业动态分配模型及实时性的保障等技术
问题进行论述。对强实时性、高可靠性、安全性要求比较高的信息系
统,很有借鉴和参考意义。尤其是对于像航天发射应用领域涉及到的
大中型强实时、高可靠性的数据处理系统,更符合现实需求,其主要
内容:
1、实时计算机集群动态调度软硬件模型设计
(1)硬件体系结构模型
①三层硬件体系模型
三层硬件体系模型:第一层由两台调度管理控制终端组成,两台
操控终端互为热备;第二层由两台基于对服务器集群进行管理的调度
管理服务器组成,两台服务器互为热备;第三层为计算机集群,由多
台台服务器构成。(图1)
②三层体系的网络模型
网络模型:三层网络体系模型,分别为调度管理终端接入层、调
度管理汇聚层及调度代理核心层。两台调度管理终端接入由两台互为
热备份的接入层交换机,两台调度管理服务器接入由两台互为热备份
的汇聚层交换机,计算机集群中的每一台服务器接入由两台互为热备
份的核心层交换机。另外对服务器集群中的每一台服务器用独立网卡
接入一台交换机,单独成网构成局域网,主要用于双工心跳信息交换
使用。其中,每台终端和服务器接入交换机都是采用双网卡绑定技术。
③此方法的效果
硬件结构模型设计为三层服务器模型,网络结构模型也是设计为
三层模型。每一层操控终端、调度管理服务器、交换机都是热备份,
网卡接入交换机方式采用双网卡虚拟技术。每一个系统节点均无单点
故障,每一节点体现了冗余设计。
(2)软件体系结构模型
①三层软件模型
三层软件模型:调度管理操控终端层,调度管理层及调度代理层。
(图2)
调度管理操控终端主要负责服务的申请,服务的启动,软硬件资
源的系统监视,软双工的动态切换,服务器集群运行作业(进程)的
操控,业务流程的控制,信息处理系统的应急及服务的释放等功能。
调度管理层主要负责对服务器集群在线工作状态的检
测,对服务器集群之间动态软双工的分配,对运行在服务器
集群内作业(进程)运行的分配策略,调度管理服务器之间数据及状
态的同步,操作命令、服务器集群内所有软硬件资源的统计及回证的
转发等功能。
调度代理层主要负责对服务器集群中运行的作业(进程)之间命
令的执行及回证的返回,收集服务器集群内部的系统软硬件资源运行
状态,收集作业(进程)运行状态,网络注册及报文的转发,作业(进
程)之间的信息交互(共享内存、管道、信号、消息等)。
(3)模型的特点
软件模型按照三层结构进行划分,每一层无单点故障,层与层之
间分工明确,调度管理操控终端层与调度管理层之
间通过TCP协议点对点进行通信,调度管理层和调度代理之间通过
UDP协议任意源组播进行通信。层与层之间增加了信息的回证机制,
保证了命令与报文传输的安全性和可靠性。
2、动态调度策略设计
(1)动态软双工设计
动态软双工是实现实时计算机集群动态调度的最基本的单元,是
信息处理系统计算机集群运行稳定性的基础保障。
①实现原理
动态软双工主要针对在服务器集群中随机地指定两台服务器形成
双工。服务器集群在运行过程中,每台服务器均
能获得以“主机,备机,单机及脱机”等状态。主机和备机之间的状
态信息通过局域网络进行周期性地交互心跳信息。主备机之间的切换
主要通过系统的自动切换和人工切换两种形式。
(2)作业的动态分配策略模型设计
“作业”就是运行在服务器中的应用软件,作业在服务器集群中
分配的均衡化是提高服务器运行的效能和稳定性的关键。
①实现原理
假定某一个信息处理应用系统服务器集群有m台在线服务器,在
集群中运行有n个作业(进程),分配的原则是要求每一个作业(进程)
必须在两台服务器运行(如果集群服务器个数为奇数,那么第m台服
务器以单机状态存在,作为系统的冗余空闲服务器)。如果n<=m/2,
至少要求每个作业能独立在两个服务器中运行。如果n>m/2,可根据
作业(进程)规模的大小,把业务规模对软硬件资源要求小的作业进
行组合到一起运行在互为热备份的服务器中,把业务规模大且对软硬
件资源要求高的作业(进程)单独运行在互为热备份的服务器中。
(3)计算机集群动态调度实时性保障问题
实时性的保障主要体现在双工切换策略上的创新,动态
软双工切换时间在100us之内,主副机状态就可以得到了状
态的改变。对于基于tcp流协议,在调度管理操控终端层、调度管理
层、代理层之间的命令、报文、回证等内容收发采用数据驱动策略,
时延不超过2ms。上述指标保证了动态调度的强实时性。
(4)动态调度策略的特点
在服务器集群中,对于相同的业务作业(进程)均要求存在于主
机和副机两台服务器中,任何一台服务器的软硬件出现故障时,系统
均会执行自动和人工两种结合的方式进行双工切换,保证了系统的可
靠性。
作业(进程)在服务器集群中的分配策略能够保证每一个作业(进
程)均能运行在任意两台互为热备份的服务器中,保证了作业运行的
稳定性和可靠性。
对强实时,可靠性要求比较高的大中型信息处理系统,依据图1模型集成
硬件系统。图2按照调度管理操控终端层,调度管理层及代理层三层软件体系
进行设计。在服务器集群中对作业的分配按照图3对若干作业进行均衡分配。
信息系统的实时及可靠性依据图4进行软双工切换,只需要轻量级的系统开销
进行实时性保障。
依据图1、图2、图3、图4进行硬件环境集成和软件体系结构的设计,在
服务器集群中实现了对作业的分配策略及动态软双工的实现。该系统圆满完成
了测控设备的校飞、CZ-7合练、CZ-5合练、探月工程三期返回飞行试验任务、
风云二号、北斗专项试验卫星等多项重大任务,系统的安全性、稳定性、高可
靠性得到了检验。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范
围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或
修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。