任务处理方法及装置.pdf

上传人:Y94****206 文档编号:1521346 上传时间:2018-06-20 格式:PDF 页数:18 大小:1.24MB
返回 下载 相关 举报
摘要
申请专利号:

CN201410006581.X

申请日:

2014.01.07

公开号:

CN104767778A

公开日:

2015.07.08

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):H04L 29/08申请日:20140107|||公开

IPC分类号:

H04L29/08; G06F15/16

主分类号:

H04L29/08

申请人:

中兴通讯股份有限公司

发明人:

刘忱

地址:

518057广东省深圳市南山区科技南路55号

优先权:

专利代理机构:

北京康信知识产权代理有限责任公司11240

代理人:

梁丽超; 韩建伟

PDF下载: PDF下载
内容摘要

本发明公开了任务处理方法及装置,其中,该方法包括:规划该集群中的节点的连通路径,其中,所述集群是至少根据任务确定的用于执行所述任务的集群,所述集群包括多个节点;将该连通路径的信息发送给该集群中的承担交换功能的节点以构建该集群网络,其中,该承担交换功能的节点是该多个节点中的用于根据接收到的该连通路径的信息转发数据的节点。通过本发明解决了网络、存储资源的不合理划分造成计算集群系统的稳定性和效率不高的问题,提高了网络资源的利用率。

权利要求书

权利要求书1.  一种任务处理方法,其特征在于包括:规划所述集群中的节点的连通路径,其中,所述集群是至少根据任务确定的用于执行所述任务的集群,所述集群包括多个节点;将所述连通路径的信息发送给所述集群中的承担交换功能的节点以构建所述集群网络,其中,所述承担交换功能的节点是所述多个节点中的用于根据接收到的所述连通路径的信息转发数据的节点。2.  根据权利要求1所述的方法,其特征在于,至少根据任务确定执行所述任务的集群包括:至少根据所述任务以及网络的负荷确定执行所述任务的集群。3.  根据权利要求1所述的方法,其特征在于,在构建所述集群网络之后,所述方法还包括:根据所述集群的情况变化重新规划所述集群中的节点的连通路径;将重新规划的连通路径的信息发送给所述集群中的承担交换功能的节点。4.  根据权利要求3所述的方法,其特征在于,在根据所述集群的情况变化重新规划所述集群中的节点的连通路径之后,所述方法还包括:发送撤销原连通路径的信息的指示,其中,所述承担交换功能的节点根据所述指示对于撤销的原连通路径的信息匹配的报文进行缓存,在接收到重新规划的连通路径的信息之后,重新开启缓存报文的转发;所述承担交换功能的节点在未收到重新规划的连通路径的信息的情况下,删除缓存的报文或者上报未收到重新规划的连通路径的信息。5.  根据权利要求3所述的方法,其特征在于,根据所述集群的情况变化重新规划所述集群中的节点的连通路径包括以下至少之一:确定所述集群中的节点的负荷,并将所述集群的节点的负荷作为权值重新规划所述集群中的节点的连通路径;根据所述集群中的节点的负荷确定需要下电或者上电的一个或者多个节点;根据下电或者上电之后的所述集群中的节点重新规划连通路径。6.  根据权利要求1所述的方法,其特征在于,所述方法还包括:所述承担交换功能的节点确定自身的网络负荷超过阈值,则根据任务的优先级进行流量控制。7.  根据权利要求1至6中任一项所述的方法,其特征在于,所述集群中的节点包括以下类型的至少之一:多个计算节点、多个存储节点、多个计存节点、多个交换节点,其中,所述计算节点用于执行运算功能,或者,用于执行运算功能和承担交换功能;所述存储节点用于执行数据存储功能;所述计存节点用于执行运算功能和数据存储功能,或者,用于执行运算功能、数据存储功能和承担交换功能。8.  根据权利要求7中所述的方法,其特征在于,所述计存节点通过智能网卡和/或虚拟交换机实现所述交换节点的功能。9.  根据权利要求1至8中任一项所述的方法,其特征在于,所述连通路径的信息通过流表的方式发送。10.  根据权利要求9中所述的方法,其特征在于,所述方法还包括:在任务完成后,对所述流表控制的网络资源进行回收。11.  一种任务处理装置,其特征在于包括:规划模块,用于规划所述集群中的节点的连通路径,其中,所述集群是至少根据任务确定的用于执行所述任务的集群,所述集群包括多个节点;发送模块,用于将所述连通路径的信息发送给所述集群中的承担交换功能的节点以构建所述集群网络,其中,所述承担交换功能的节点是所述多个节点中的用于根据接收到的所述连通路径的信息转发数据的节点。12.  根据权利要求11所述的装置,其特征在于,所述规划模块用于至少根据所述任务以及网络的负荷确定执行所述任务的集群。13.  根据权利要求11所述的装置,其特征在于,所述规划模块,还用于根据所述集群的情况变化重新规划所述集群中的节点的连通路径;所述发送模块,还用于将重新规划的连通路径的信息发送给所述集群中的承担交换功能的节点。14.  根据权利要求13所述的装置,其特征在于,所述发送模块还用于发送撤销原连通路径的信息的指示,其中,所述承担交换功能的节点根据所述指示对于撤销的原连通路径的信息匹配的报文进行缓存,在接收到重新规划的连通路径的信息之后,重新开启缓存报文的转发;以及所述承担交换功能的节点在未收到重新规划的连通路径的信息的情况下,删除缓存的报文或者上报未收到重新规划的连通路径的信息。15.  根据权利要求13所述的装置,其特征在于,所述规划模块还用于确定所述集群中的节点的负荷,并将所述集群的节点的负荷作为权值重新规划所述集群中的节点的连通路径;所述规划模块还用于根据所述集群中的节点的负荷确定需要下电或者上电的一个或者多个节点;根据下电或者上电之后的所述集群中的节点重新规划连通路径。16.  根据权利要求11所述的装置,其特征在于,包括:所述承担交换功能的节点用于在确定自身的网络负荷超过阈值时,则根据任务的优先级进行流量控制。17.  根据权利要求11至16中任一项所述的装置,其特征在于,所述集群中的节点包括以下类型的至少之一:多个计算节点、多个存储节点、多个计存节点、多个交换节点,其中,所述计算节点用于执行运算功能,或者,用于执行运算功能和承担交换功能;所述存储节点用于执行数据存储功能;所述计存节点用于执行运算功能和数据存储功能,或者,用于执行运算功能、数据存储功能和承担交换功能。18.  根据权利要求17中所述的装置,其特征在于,所述计存节点通过智能网卡和/或虚拟交换机实现所述交换节点的功能。19.  根据权利要求11至18中任一项所述的装置,其特征在于,所述连通路径的信息通过流表的方式发送。20.  根据权利要求19中所述的装置,其特征在于,所述装置还包括:回收模块,用于在任务完成后,对所述流表控制的网络资源进行回收。

说明书

说明书任务处理方法及装置
技术领域
本发明涉及通信领域,具体而言,涉及任务处理方法及装置。
背景技术
随着信息时代的发展,出现了越来越多的计算难题,如流体动力学、碰撞模拟、地震处理、图形比对、金融建模、天气模拟以及复杂的价格建模都需要大量计算资源。相关技术中的高性能计算(HPC)方案,都是采用大规模集群实现科学计算,其主要考虑增强单节点性能、增加系统中节点数量以及提高计算任务的并行化程度来追求性能提升。
相关技术中,高性能集群的内部集群计算软件只针对单个节点能力调度,没有考虑网络资源限制对高性能计算的实际影响。这种实际组网条件下,不同计算任务之间,不同用户之间,稍有不慎即形成网络带宽的无序恶性竞争,形成瓶颈。
在相关技术中,现有的高性能计算,对内部网络和数据存储的没有要求。但是在实际应用中,高性能计算系统性能无法达到要求往往不是由于计算资源的限制,而是由于网络、存储资源的不合理划分形成的访问瓶颈。例如在节点数量众多,内部通过多级网络互联的复杂条件下,面对系统中因为用户操作原因经常出现的突发大流量的磁盘和网络操作,并不能很好的适应网络资源实际情况的变化,很大程度影响了高性能计算集群系统的稳定性和效率。
针对相关技术中,由于网络、存储资源的不合理划分造成计算集群系统的稳定性和效率不高的问题,目前尚未提出有效的解决方案。
发明内容
本发明提供了一种任务处理方法及装置,以至少解决网络、存储资源的不合理划分造成计算集群系统的稳定性和效率不高的问题。
根据本发明的一个方面,提供了一种任务处理方法,包括:规划所述集群中的节点的连通路径,其中,所述集群是至少根据任务确定的用于执行所述任务的集群,所述集群包括多个节点;将所述连通路径的信息发送给所述集群中的承担交换功能的节点以构建所述集群网络,其中,所述承担交换功能的节点是所述多个节点中的用于根据接收到的所述连通路径的信息转发数据的节点。
优选地,至少根据任务确定执行所述任务的集群包括:至少根据所述任务以及网络的负荷确定执行所述任务的集群。
优选地,在构建所述集群网络之后,所述方法还包括:根据所述集群的情况变化重新规 划所述集群中的节点的连通路径;将重新规划的连通路径的信息发送给所述集群中的承担交换功能的节点。
优选地,在根据所述集群的情况变化重新规划所述集群中的节点的连通路径之后,所述方法还包括:发送撤销原连通路径的信息的指示,其中,所述承担交换功能的节点根据所述指示对于撤销的原连通路径的信息匹配的报文进行缓存,在接收到重新规划的连通路径的信息之后,重新开启缓存报文的转发;所述承担交换功能的节点在未收到重新规划的连通路径的信息的情况下,删除缓存的报文或者上报未收到重新规划的连通路径的信息。
优选地,根据所述集群的情况变化重新规划所述集群中的节点的连通路径包括以下至少之一:确定所述集群中的节点的负荷,并将所述集群的节点的负荷作为权值重新规划所述集群中的节点的连通路径;根据所述集群中的节点的负荷确定需要下电或者上电的一个或者多个节点;根据下电或者上电之后的所述集群中的节点重新规划连通路径。
优选地,所述承担交换功能的节点确定自身的网络负荷超过阈值,则根据任务的优先级进行流量控制。
优选地,所述集群中的节点包括以下类型的至少之一:多个计算节点、多个存储节点、多个计存节点、多个交换节点,其中,所述计算节点用于执行运算功能,或者,用于执行运算功能和承担交换功能;所述存储节点用于执行数据存储功能,所述计存节点用于执行用于执行运算功能和数据存储功能,或者,用于执行运算功能、数据存储功能和承担交换功能。
优选的,所述计存节点通过智能网卡和/或虚拟交换机实现所述交换节点的功能。
优选地,所述连通路径的信息通过流表的方式发送。
优选地,所述方法还包括:在任务完成后,对所述流表控制的网络资源进行回收。
根据本发明的另一个方面,还提供了一种任务处理装置,其特征在于包括:规划模块,用于规划所述集群中的节点的连通路径,其中,所述集群是至少根据任务确定的用于执行所述任务的集群,所述集群包括多个节点;发送模块,用于将所述连通路径的信息发送给所述集群中的承担交换功能的节点以构建所述集群网络,其中,所述承担交换功能的节点是所述多个节点中的用于根据接收到的所述连通路径的信息转发数据的节点。
优选地,所述规划模块用于至少根据所述任务以及网络的负荷确定执行所述任务的集群。
优选地,所述规划模块,还用于根据所述集群的情况变化重新规划所述集群中的节点的连通路径;所述发送模块,还用于将重新规划的连通路径的信息发送给所述集群中的承担交换功能的节点。
优选地,所述发送模块还用于发送撤销原连通路径的信息的指示,其中,所述承担交换功能的节点根据所述指示对于撤销的原连通路径的信息匹配的报文进行缓存,在接收到重新规划的连通路径的信息之后,重新开启缓存报文的转发;以及所述承担交换功能的节点在未收到重新规划的连通路径的信息的情况下,删除缓存的报文或者上报未收到重新规划的连通路径的信息。
优选地,所述规划模块还用于确定所述集群中的节点的负荷,并将所述集群的节点的负荷作为权值重新规划所述集群中的节点的连通路径;所述规划模块还用于根据所述集群中的节点的负荷确定需要下电或者上电的一个或者多个节点;根据下电或者上电之后的所述集群中的节点重新规划连通路径。
优选地,所述承担交换功能的节点用于在确定自身的网络负荷超过阈值时,则根据任务的优先级进行流量控制。
优选地,所述集群中的节点包括以下类型的至少之一:多个计算节点、多个存储节点、多个计存节点、多个交换节点,其中,所述计算节点用于执行运算功能,或者,用于执行运算功能和承担交换功能;所述存储节点用于执行数据存储功能;所述计存节点用于执行用于执行运算功能和数据存储功能,或者,用于执行运算功能、数据存储功能和承担交换功能。
优选地,所述承担交换功能的节点独立于所述集群中的其他类型的节点,和/或,所述承担交换功能的节点的功能由所述集群中的其他类型的节点来实现。
优选的,所述计存节点通过智能网卡和/或虚拟交换机实现所述交换节点的功能。
优选地,所述连通路径的信息通过流表的方式发送。
优选地,所述装置还包括:回收模块,用于在任务完成后,对所述流表控制的网络资源进行回收。
通过本发明,采用规划该集群中的节点的连通路径,其中,所述集群是至少根据任务确定的用于执行所述任务的集群,所述集群包括多个节点;将该连通路径的信息发送给该集群中的承担交换功能的节点以构建该集群网络,其中,该承担交换功能的节点是该多个节点中的用于根据接收到的该连通路径的信息转发数据的节点,解决了网络、存储资源的不合理划分造成计算集群系统的稳定性和效率不高的问题,提高了网络资源的利用率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的任务处理方法的流程图;
图2是根据本发明实施例的任务处理装置的结构框图一;
图3是根据本发明实施例的任务处理装置的结构框图二;
图4是根据本发明优选实施例的应用SDN技术的高性能计算集群的网络结构示意图;
图5是根据本发明优选实施例的智能网卡数据转发的示意图;
图6是根据本发明优选实施例的网络资源QOS访问的流程图;
图7是根据本发明优选实施例的实现负荷均衡的流程图;
图8是根据本发明优选实施例的实现节能降耗的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
在本实施例中,提供了一种任务处理方法,图1是根据本发明实施例的任务处理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,规划集群中的节点的连通路径,其中,该集群是至少根据任务确定的用于执行任务的集群,该集群包括多个节点;
步骤S104,将连通路径的信息发送给集群中的承担交换功能的节点以构建集群网络,其中,该承担交换功能的节点是多个节点中的用于根据接收到的该连通路径的信息转发数据的节点。
通过上述步骤,可以根据任务的需要来构建集群并规划连通路径,将连通路径的信息发送给集群中的承担交换功能的节点以构建该集群网络,由于建立起的集群是与执行的任务相对应的,该集群网络的建立是均衡高效的,相对于相关技术中的并没有针对任务来规划集群的做法,其可以解决网络、存储资源的不合理划分造成计算集群系统的稳定性和效率不高的问题,从而提高了网络资源的利用率。
在本实施例中,对于执行不同的业务,可以根据当前网络实际连接状况和负荷强度来建立相应的集群,优选的,根据完成该任务所需要的节点确定执行该任务的集群可以包括:至少根据该任务以及网络的负荷确定执行该任务的集群。
在本实施例中,还可以动态的对连通路径进行调整,例如,可以根据集群的变化情况重新规划该集群中的节点的连通路径,其中,该集群的情况可以包括以下至少之一:集群的整体负荷情况变化、一个或多个该承担交换功能的节点的负荷超过阈值、该集群中的节点的增加或者减少,并将重新规划的连通路径的信息发送给该集群中的承担交换功能的节点。例如,如果一个承担交换功能的节点的负荷超过阈值,则可以考虑在该集群中增加承担交换功能的节点,在增加承担交换功能的节点之后,重新规划连通路径。又例如,如果计算节点的负担比较轻,或者有些计算节点甚至处于空闲,此时就可以将这些节点从该集群中删除,删除之后可以重新规划连通路径。
优选的,根据集群的情况变化重新规划该集群中的节点的连通路径可以包括以下至少之一:确定该集群中的节点的负荷,并将该集群的节点的负荷作为权值重新规划该集群中的节点的连通路径,根据该集群中的节点的负荷确定需要下电或者上电的一个或者多个节点;根据下电或者上电之后的该集群中的节点重新规划连通路径。
对于某个或者某些承担交换功能的节点,其可以属于多个不同任务对应的集群,此时这个承担交换功能的节点的负荷可能会超过自身的负荷,在一个优选实施例中,承担交换功能的节点可以确定自身的网络负荷是否超过阈值,则根据任务的优先级进行流量控制。
在本实施例的集群中,节点按照功能的不同可以包括如下分类:计算节点、存储节点、计存节点,交换节点,优选地,上述集群中的节点包括以下至少之一:多个计算节点、多个 存储节点、多个计存节点、多个交换节点,其中,该计算节点用于执行运算功能,或者,用于执行运算功能和承担交换功能;该存储节点用于执行数据存储功能;该计存节点用于执行用于执行运算功能和数据存储功能,或者,用于执行运算功能、数据存储功能和承担交换功能。
在本实施例中,计存节点通过智能网卡和/或虚拟交换机实现交换节点的功能。
上述实施例中,连通路径的信息可以通过流表的方式发送,在任务完成后,对流表控制的网络资源进行回收。
在本实施例中,还提供了一种任务处理装置,该任务处理装置用于实现上述的方法,在上述实施例及优选实施方式中已经进行过说明的,在此不再赘述。需要说明的是,下述装置中的模块的名称并不构成对该模块的实际限定,例如,确定模块可以表述为“用于至少根据任务确定执行该任务的集群的模块”,以下的模块均可以在处理器中实现,例如,确定模块可以表述为“一种处理器,用于至少根据任务确定执行该任务的集群”,或者,“一种处理器,包括确定模块”等。
图2是根据本发明实施例的任务处理装置的结构框图一,如图2所示,该装置包括:规划模块22和发送模块24,下面对该结构进行说明。
规划模块22,用于规划集群中的节点的连通路径,其中,该集群是至少根据任务确定的用于执行任务的集群,该集群包括多个节点;
发送模块24,用于将连通路径的信息发送给集群中的承担交换功能的节点以构建该集群网络,其中,该承担交换功能的节点是该多个节点中的用于根据接收到的该连通路径的信息转发数据的节点。
通过上述装置,可以根据任务的需要来构建集群并规划连通路径,将连通路径的信息发送给集群中的承担交换功能的节点以构建该集群网络,由于建立起的集群是与执行的任务相对应的,因此集群网络运行是均衡高效的,相对于相关技术中的并没有针对任务来规划集群的做法,其可以解决网络、存储资源的不合理划分造成计算集群系统的稳定性和效率不高的问题,从而提高了网络资源的利用率。
本实施例中,规划模块22还可以用于至少根据该任务以及网络的负荷确定执行该任务的集群。
本实施例中,规划模块22,还可以用于根据该集群的情况变化重新规划该集群中的节点的连通路径,该发送模块24,还用于将重新规划的连通路径的信息发送给该集群中的承担交换功能的节点。
本实施例中,发送模块24还可以用于发送撤销原连通路径的信息的指示,其中,该承担交换功能的节点根据该指示对于撤销的原连通路径的信息匹配的报文进行缓存,在接收到重新规划的连通路径的信息之后,重新开启缓存报文的转发,以及该承担交换功能的节点在未收到重新规划的连通路径的信息的情况下,删除缓存的报文或者上报未收到重新规划的连通路径的信息。
本实施例中,该规划模块22还可以用于确定该集群中的节点的负荷,并将该集群的节点的负荷作为权值重新规划该集群中的节点的连通路径,该规划模块22还用于根据该集群中的节点的负荷确定需要下电或者上电的一个或者多个节点,根据下电或者上电之后的该集群中的节点重新规划连通路径。
图3是根据本发明实施例的任务处理装置的结构框图二,如图3所示,该装置包括:规划模块22、发送模块24和回收模块32,其中,规划模块22、发送模块24和上述图2中的规划模块22、发送模块24功能作用相同,在此不再说明,下面对该装置进行说明。
回收模块32,用于在任务完成后,对流表控制的网络资源进行回收。
下面结合优选实施例和实施方式进行说明。
在本优选实施例中,涉及到软件定义网络(Software Defined Network,简称为SDN),SDN是由美国斯坦福大学clean slate研究组提出的一种新型网络创新架构,其核心技术OF(OpenFlow)控制器通过将网络设备控制面与数据面分离开来,从而实现了网络流量的灵活控制,为核心网络及应用的创新提供了良好的平台。SDN由软件控制和硬件数据通道组成。软件控制包括管理(CLI,SNMP)以及路由协议(OSPF,ISIS,BGP)等。数据通道包括针对每个包的查询、交换和缓存。如果将网络中所有的网络设备视为被管理的资源,那么参考操作系统的原理,可以抽象出一个网络操作系统(Network OS)的概念—这个网络操作系统一方面抽象了底层网络设备的具体细节,同时还为上层应用提供了统一的管理视图和编程接口。这样,基于网络操作系统这个平台,用户可以开发各种应用程序,通过软件来定义逻辑上的网络拓扑,以满足对网络资源的不同需求,而无需关心底层网络的物理拓扑结构。
本优选实施例利用了SDN技术,根据高性能集群资源管理和存储系统元数据管理完成本次计算任务实际所需的节点名单和网络实际负荷,为不同用户、计算任务确定独立的子计算集群,再由SDN控制器根据该集群构成单元规划实际网络路径连同,并通过流表形式分发到各个网络节点,并在实际任务完成时对所有流表控制下的网络资源进行回收。实现用户网络动态规划、网络和存储访问负荷均衡、自动节能降耗等功能。提高系统资源的利用效率,减少不必要的资源占用,解决系统中网络和存储资源访问划分不均,以及访问冲突时时延较大的问题。
本优选实施例应用SDN的高性能集群计算系统可以通过如下三部分来进行构建,具体内容如下:
第一部分,部署高性能集群计算系统;
第二部分,应用SDN技术提供集群管理和集群存储服务功能;
第三部分,基于应用SDN技术的高性能集群系统,支持网络资源QOS、负荷均衡、节能降耗等应用功能扩展设计和实现。
在部署高性能集群计算系统的第一部分中,本优选实施例的高性能集群计算系统将系统节点分为接入节点、服务节点、计存节点、计算节点和交换节点。其中,该计存节点是直接连接存储设备提供存储服务功能的节点,可以避免昂贵的专用存储设备和存储网络,提供支持异构存储的分布式存储服务,当然条件允许也可以直接挂接专用存储设备。交换节点可以 包括SDN交换机、或者专用的智能网卡,交换接点是被SDN控制器直接控制的数据转发设备。交换节点可以是单独的设备,也可以是其他节点中的实现的功能。
服务节点上负责接入用户管理、集群资源管理、计算任务调度、分布式存储和SDN控制器(也可以称为OF控制器)等功能。
计存节点同时承担计算和存储功能,可以驻留虚拟交换机、普通虚拟网桥,也可以使用智能网卡作为硬件加速技术,用于在网络边缘隔离或者连通相应的存储网络以及计算网络。
交换节点是应用SDN技术的中间交换机节点,在SDN控制与转发分离的设计架构中专门实现数据转发功能。依据前述服务节点上SDN控制器下发的流表,计算节点专职承担计算任务,可以部署GPU子卡作为计算加速功能。
服务节点和计存节点上驻留分布式文件系统或对象存储服务服务,其后端接专用存储设备或自身构成的云存储集群,构成存储网络。高性能计算的输入输出信息、计算过程和计算结果等信息都存放在该存储系统中。存储网络可以采用部署专用网络,以便于和管理网络隔离,也可以采用统一网络实现。
计算网络和存储网络物理上基本分离。当然这种划分并不绝对,在网络条件限制的情况下,例如,没有配置专门的管理网络,存储网络也可以承担少量的管理控制流量(外部用户操作维护、对外输入输出等对外接口功能等)。但高性能计算中主要的节点的交互、中间结果同步和输出都必须集中在子计算集群的计算网络中。
在应用SDN技术提供集群管理和集群存储服务功能的第二部分中,应用SDN技术提供集群管理和集群存储服务功能。SDN技术包括控制器和交换机。其中SDN交换机可以采用三种形式,物理交换、虚拟交换和智能网卡交换。物理交换为硬件SDN交换机,虚拟交换为服务器内部软件模拟的交换机,可以为服务器上各个虚拟机提供交换功能。智能网卡是在网卡上运行一个处理器,报文接收后直接进行网络协议处理后再提交到服务器内各个虚拟机进行业务处理或者不经服务器处理直接转发到其它节点的设备,SDN控制器通过流表下发的方式管理和控制各个交换机的转发功能。
使用SDN控制器,和分布式文件系统元数据服务,集群资源管理服务一起协同处理。其中文件系统元数据服务和集群资源管理服务确定子集群内所有节点名单和业务关系,下发给SDN控制器。SDN控制器实现网络资源调度功能,按照业务关系制定网络路径,减少不必要的网络流量开销和设备支出,避免形成网络环路、实现动态网络状态监测、实现负荷均衡。
SDN控制器通过流表集对多个有功能联系的交换机进行管理。流表集是针对于一个上层功能请求,控制器制定的所有交换机流表的集合,流表集需要按照事务的处理方式,全部统一加载或全部统一卸载。以事务编号序列维护流表集,一个事务编号对应相应的流表集,上层请求实现功能,生成的流表集事务编号,必须由上层自己维护,以支持必要的新增、变动、删除功能。控制器上每条流表需要记录其对应的流表集编号。
集群资源管理,服务节点分发计算任务时,由资源管理控制规划一个子计算集群,确定节点名单,构成高性能计算系统内部独立的二层网络。计算完成后,删除相关流表集。根据需要,集群资源管理会为子计算分配单独的存储,并构建单独的存储网络。可以根据流量监 控实现弹性网络资源管理,网络负荷高、或某个中间交换节点、中间交换机负荷高时,重新规划转发路径,部署转发流表。
分布式文件系统,访问中确定和响应客户端文件服务请求时,通过控制器动态设置流表,实现规划网络路径的连通,记录相关的流表集事务编号。文件客户端卸载时,删除相关的流表集。集群资源管理分配资源时,根据用户输入信息由元数据服务分析确定存储数据所在的节点。预先确定,元数据服务需要首先分析用户信息或存储路径,如果该存储数据已经存在则返回该存储数据所在的节点,如果不存在则需要元数据服务动态分配存储节点。
在基于应用SDN技术的高性能集群系统,支持网络资源QOS、负荷均衡、节能降耗等应用功能扩展设计和实现第三部分中,控制器调度模块通过资源预约、划分优先级的方式,对不同用户的计算、存储网络资源进行分配,甚至对同一用户的计算、存储资源实现细粒度的资源划分。在SDN控制器下发流表时,将端口、流表相关配额限制一并下发。
资源管理新增节点、元数据访问增加服务,交换上报统计出现端口拥塞。上述情况下,控制器立即启动重调度流程,分析当前网络状况,对中间交换出现的访问热点进行分析,将部分经由的网络访问路径移至其它负荷相对空闲的中间交换。
资源管理发现系统中所有节点负荷长期处于空闲或低负荷状态时,启动节能降耗功能,让空闲的计算节点下电,并重新规划变动涉及的网络路径。具体流程是,锁定即将下电的节点,不为其分配新计算任务;流表及时处理节点端口预删除,不再为该节点所在交换端口分配新的流表功能。等待其上的计算任务完成后,启动下电或休眠流程。影响原先网络路径通信的,由交换机上报MISS事件触发流表重新生成,并更新其流表集记录。
资源管理发现系统过负荷超过一定时间,并且存在空闲下电或休眠的节点,启动回转流程,先确定最合适上电的节点,上电完成后加入资源管理,按高性能计算集群内的新增资源管理方式重新运行。
本优选实施例是使用SDN方法分离计算和存储流量,使用智能网卡以及SDN交换机替代传统交换机。网络功能并不再是传统网络功能那样事先确定好转发路由,而是由资源管理和文件元数据服务将确定需要增加的节点名单通告给SDN控制器,由控制器根据当前网络实际连接状况和负荷强度动态确定转发路径,避免网络局部拥塞和热点出现。同时根据需要调整不均衡的网络状况。目的是将集群内的不同类型的计算、存储请求的网络流量分隔、统一规划转发路径并动态均衡,提高系统内网络资源最大利用率。
图4是根据本发明优选实施例的应用SDN技术的高性能计算集群的网络结构示意图,如图4所示,本优选实施例中的高性能集群计算系统将系统节点分为接入节点、服务节点、计存节点、计算节点。图4中没有具体标示出交换节点,该交换节点可以是单独的节点连接在其他节点之间,也可以是其他节点内容实现的交换功能。
计存节点是直接连接存储设备提供存储服务功能的节点,可以避免昂贵的专用存储设备和存储网络,提供支持异构的分布式存储服务,当然条件允许也可以直接挂接专用存储设备。交换节点包括SDN交换机,以及专用的智能网卡,由SDN控制器直接控制的数据转发设备。
服务节点上负责接入用户管理、集群资源管理、计算任务调度、分布式存储和SDN控制器等功能。SDN控制器控制系统内所有SDN交换机,包括硬件交换、虚拟交换和智能网卡交换,并且对集群资源管理和存储元数据服务提供接口。
计存节点同时承担计算和存储功能,所以需要同时接入计算网络和存储网络。因此驻留虚拟交换机、普通虚拟网桥,也可以使用智能网卡作为硬件加速技术,用于在网络边缘隔离或者连通相应的存储网络以及计算网络。服务节点和计存节点上驻留分布式文件系统或对象存储服务服务,其后端接专用存储设备或自身构成的云存储集群,构成存储网络。高性能计算的输入输出信息、计算过程和计算结果等信息都存放在该存储系统中。存储网络可以采用部署专用网络,以便于和管理网络隔离,也可以采用统一网络实现。
交换节点是应用SDN技术的中间交换机节点,在SDN控制与转发分离的设计架构中专门实现数据转发功能。依据前述服务节点上SDN控制器下发的流表承担数据转发工作。
计算节点专职承担计算任务,可以部署GPU子卡作为计算加速功能。
在该高性能计算系统中,集群管理和集群存储服务功能采用SDN技术实现网络。现有的SDN技术包括控制器和交换机。其中SDN交换机可以采用三种形式,物理交换、虚拟交换和智能网卡交换。智能网卡是在网卡上运行一个处理器,报文接收后直接进行网络协议处理后再提交到服务器内各个虚拟机进行业务处理或者不经服务器处理直接转发到其它节点的设备,SDN控制器通过流表下发的方式管理和控制各个交换机的转发功能。
SDN控制器通过流表集对多个有功能联系的交换机进行管理。针对于一个上层功能请求,控制器制定的所有交换机流表的集合称为流表集。流表集需要按照事务的处理方式,全部统一加载或全部统一卸载。以事务编号序列维护流表集,一个事务编号对应相应的流表集,上层请求实现功能,生成的流表集事务编号,必须由上层自己维护,以支持必要的新增、变动、删除功能。控制器上每条流表需要记录其对应的流表集编号。
优选的,集群资源管理中的应用,指服务节点分发计算任务时,由资源管理控制规划一个子计算集群,确定节点名单,构成高性能计算系统内部独立的二层网络。计算完成后,删除相关流表集。根据需要,集群资源管理会为子计算分配单独的存储,并构建单独的存储网络。可以根据流量监控实现弹性网络资源管理,网络负荷高、或某个中间交换节点、中间交换机负荷高时,重新规划转发路径,部署转发流表。
优选的,分布式文件系统中的应用,主要分为访问中确定和预先确定两种方式。访问中确定,响应客户端文件服务请求时,通过控制器动态设置流表,实现规划网络路径的连通,记录相关的流表集事务编号。文件客户端卸载时,删除相关的流表集。集群资源管理分配资源时,根据用户输入信息由元数据服务分析确定存储数据所在的节点。预先确定,元数据服务需要首先分析用户信息或存储路径,如果该存储数据已经存在则返回该存储数据所在的节点,如果不存在则需要元数据服务动态分配存储节点。
SDN交换三种形式,物理交换、虚拟交换和智能网卡交换,物理形态不同,但功能基本相同。以智能网卡为例描述,智能网卡的控制和转发功能,图5是根据本发明优选实施例的智能网卡数据转发的示意图,如图5所示,智能网卡具备多个物理网口,在SDN控制器通过安全通道下发的流表(Flow Table)作用下完成数据转发功能。业务数据接收后在智能网卡上 进行SDN交换的流表转发处理,完成后依据处理结果转发到本地或其它网络节点。例如文件访问请求,元数据服务通过控制器下发的流表处理策略中包含该文件访问请求的具体节点位置和交换端口对应关系,本地交换流表处理后依据节点位置和路径规划,将该文件请求转发到本地或其它节点端口。
基于该高性能计算系统,可以提供更丰富的应用功能。在SDN控制器的作用下,可以对系统提供如下功能支持:
其一,支持网络资源QOS访问。控制器通过资源预约、划分优先级的方式,对不同用户的计算、存储网络资源进行分配,甚至对同一用户的计算、存储资源实现细粒度的资源划分。在SDN控制器下发流表时,将端口限制一并下发。通过合理的网络调度方式,减少访问不均衡和访问异常。限制和减少恶意用户或异常用户对于整个网络资源的影响,把单个用户造成错误限制在合理的范围之内。
图6是根据本发明优选实施例的网络资源QOS访问的流程图,如图6所示,该流程图包括如下步骤。
步骤S602,用户申请计算、存储资源时选择配置网络资源,预约资源带宽和优先级;
步骤S604,控制器完成网络连通路径规划,下发流表后,将资源QOS配置下发到转发路径上的各个中间交换单元(包括物理交换机和虚拟交换、智能网卡交换);步骤S604中实现控制器完成网络连通路径规划,与上述图1步骤102,规划所述集群中的节点的连通路径的功能和作用相同。
步骤S606,各个交换单元(交换单元也可以称为交换节点)对于资源预约的端口或者流表项,进行相应的实时流量监控;
步骤S608,交换单元对于网络负荷超过本地转发能力的,优先对于低优先级和无配额或者超过配额的端口或者流表项进行流控,并上报控制器作后续处理。
其二,控制器动态切换访问路径实现负荷均衡。当系统中出现资源管理新增节点、元数据访问增加服务,交换上报统计中出现持续端口拥塞等情况时,控制器立即启动重调度流程。分析当前网络状况,对中间交换出现的访问热点进行分析,将部分经由的网络访问路径移至其它负荷相对空闲的中间交换。
图7是根据本发明优选实施例的实现负荷均衡的流程图,如图7所示,该流程图包括如下步骤。
步骤S702,控制器启动网络资源重调度流程;
步骤S704,控制器根据收集的网络状况信息,按照当前剩余网络资源的情况,对出现忙闲不均的访问热点的链路,加入实际网络负荷的权重,重新计算最合适的转发路径;
步骤S702和步骤S704,重新计算最合适的转发路径,与上述图1步骤102,规划所述集群中的节点的连通路径的功能和作用相同。
步骤S706,确定需要更改的转发路径流表集,以事务方式,先撤消原来的流表集,然后 重新下发新的流表集;
步骤S708,交换单元对于更改中撤消的流表,需要对原流表匹配报文进行本地缓存,如果后续有新的流表下发则重新开启缓存报文转发,否则等待一段时间上报控制器或者直接删除报文缓存,丢弃报文。
其三,支持节能降耗功能。资源管理发现系统中所有节点负荷长期处于空闲或低负荷状态时,启动节能降耗功能,让空闲的计算节点下电,并重新规划变动涉及的网络路径。具体流程是,锁定即将下电的节点,不为其分配新计算任务;流表及时处理节点端口预删除,不再为该节点所在交换端口分配新的流表功能。等待其上的计算任务完成后,启动下电或休眠流程。影响原先网络路径通信的,由交换机上报MISS事件触发流表重新生成,并更新其流表集记录。
图8是根据本发明优选实施例的实现节能降耗的流程图,如图8所示,该流程图包括如下步骤。
步骤S802,系统启动节能降耗调度流程;
步骤S804,系统资源管理计算当前系统负荷,确定需要下电的节点名单,交给控制器执行。同时在资源管理中将这些节点标记为预删除,不再分配新的计算任务;
步骤S806,控制器确定本次下电影响需要更改的转发路径流表集,同样首先进行预删除,不再承担新的转发流表,还需要根据预删除后的网络状况重新计算转发路径流表集;
步骤S808,控制器以事务方式,对受本次下电影响的所有网络链路,先撤消原来的流表集,然后重新下发新的流表集;
步骤S810,控制器通告资源管理,开始节点下电。注意按照计算节点、计存节点和交换节点的顺序,确保一类节点完成现承担功能、下电完成后再启动第二类节点下电,防止网络中断形成系统孤岛。
资源管理发现系统过负荷超过一定时间,并且存在空闲下电或休眠的节点,启动回转流程,先确定最合适上电的节点,上电完成后加入资源管理,按高性能计算集群内的增加资源管理方式重新运行。
本优选实施例使用SDN方法分离计算和存储网络,实现用户网络动态规划、网络和存储访问负荷均衡、自动节能降耗等功能。提高系统资源的利用效率,减少不必要的资源占用,解决系统中网络和存储资源访问划分不均,以及访问冲突时时延较大的问题。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员 来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

任务处理方法及装置.pdf_第1页
第1页 / 共18页
任务处理方法及装置.pdf_第2页
第2页 / 共18页
任务处理方法及装置.pdf_第3页
第3页 / 共18页
点击查看更多>>
资源描述

《任务处理方法及装置.pdf》由会员分享,可在线阅读,更多相关《任务处理方法及装置.pdf(18页珍藏版)》请在专利查询网上搜索。

本发明公开了任务处理方法及装置,其中,该方法包括:规划该集群中的节点的连通路径,其中,所述集群是至少根据任务确定的用于执行所述任务的集群,所述集群包括多个节点;将该连通路径的信息发送给该集群中的承担交换功能的节点以构建该集群网络,其中,该承担交换功能的节点是该多个节点中的用于根据接收到的该连通路径的信息转发数据的节点。通过本发明解决了网络、存储资源的不合理划分造成计算集群系统的稳定性和效率不高的问。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1