《并行计算中作业全局任务信息传递方法.pdf》由会员分享,可在线阅读,更多相关《并行计算中作业全局任务信息传递方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102932410 A (43)申请公布日 2013.02.13 CN 102932410 A *CN102932410A* (21)申请号 201210359945.3 (22)申请日 2012.09.24 H04L 29/08(2006.01) G06F 9/455(2006.01) (71)申请人 无锡江南计算技术研究所 地址 214083 江苏省无锡市滨湖区军东新村 030 号 (72)发明人 宋长明 张宏宇 李伟东 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 骆苏华 (54) 发明名称 并行计算中作业全局任务信息传递方法 (57。
2、) 摘要 一种并行计算中作业全局任务信息传递方 法, 包括 : 根据所述并行计算中作业的规模, 确定 所需中间层的资源 ; 所述中间层至少为一层 ; 作 业总控将所述作业全局任务信息采用一对多的方 式传递至中间层的资源, 并经由所述中间层的资 源将所述作业全局任务信息传递至计算节点 ; 其 中, 所述中间层的资源的数量小于所述计算节点 的数量。 本发明减少了全局任务信息传递时间, 提 高了大规模作业启动的效率, 有效缓解了网络压 力。 (51)Int.Cl. 权利要求书 2 页 说明书 5 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书。
3、 5 页 附图 4 页 1/2 页 2 1. 一种并行计算中作业全局任务信息传递方法, 其特征在于, 包括 : 根据所述并行计算中作业的规模, 确定所需中间层的资源 ; 所述中间层至少为一层 ; 作业总控将所述作业全局任务信息采用一对多的方式传递至中间层的资源, 并经由所 述中间层的资源将所述作业全局任务信息传递至计算节点 ; 其中, 所述中间层的资源的数量小于所述计算节点的数量。 2. 如权利要求 1 所述的并行计算中作业全局任务信息传递方法, 其特征在于 : 所述经由所述中间层的资源将所述作业全局任务信息传递至计算节点的过程中, 各层 中间层之间的传递采用一对多的传递方式, 最底层中间层的。
4、资源将所述作业全局任务信息 向所述计算节点进行一对多的传递。 3. 如权利要求 1 或 2 所述的任一种并行计算中作业全局任务信息传递方法, 其特征在 于, 所述一对多的数量比为 1:3501:400。 4. 如权利要求 1 所述的并行计算中作业全局任务信息传递方法, 其特征在于, 包括 : 所述中间层的资源包括物理机、 物理机上的虚拟机中的一种或多种。 5. 如权利要求 4 所述的并行计算中作业全局任务信息传递方法, 其特征在于 : 在由作业总控至计算节点的传递路径中, 所述虚拟机只能向计算节点传递所述作业全 局任务信息 ; 所述物理机能向物理机、 虚拟机或者计算节点中的一种或多种传递所述作。
5、业 全局任务信息。 6. 如权利要求 4 所述的并行计算中作业全局任务信息传递方法, 其特征在于 : 所述中间层的资源为虚拟机时, 对从属于同一物理机的多个虚拟机, 只向其中一个虚 拟机传递所述作业全局任务信息 ; 已得到所述作业全局任务信息的虚拟机以内存拷贝的方式向从属于同一物理机的其 他虚拟机提供所述作业全局任务信息。 7. 如权利要求 6 所述的并行计算中作业全局任务信息传递方法, 其特征在于 : 向从属于同一物理机的多个虚拟机中编号最小的虚拟机传递所述作业全局任务信息。 8. 如权利要求 7 所述的并行计算中作业全局任务信息传递方法, 其特征在于 : 在向所述编号最小的虚拟机网络传递作。
6、业全局任务信息的同时, 还向所述编号最小的 虚拟机传递从属于同一物理机的虚拟机信息链表 ; 所述编号最小的虚拟机根据所述虚拟机信息链表中的编号, 向与所述编号对应的虚拟 机提供所述作业全局任务信息。 9. 如权利要求 6 所述的并行计算中作业全局任务信息传递方法, 其特征在于 : 从属于同一物理机的虚拟机数量不超过 8 个。 10. 如权利要求 4 所述的并行计算中作业全局任务信息传递方法, 其特征在于, 当所述 中间层的资源为虚拟机时, 还包括 : 根据所述并行计算中作业规模及物理机的负载情况, 计算所需的虚拟机数量 ; 依据动态自适应算法选择最优的虚拟机。 11. 如权利要求 1 所述的并。
7、行计算中作业全局任务信息传递方法, 其特征在于, 还包 括 : 在作业总控传递所述作业全局任务信息之前, 对所述作业全局任务信息进行压缩 ; 权 利 要 求 书 CN 102932410 A 2 2/2 页 3 在计算节点接收所述作业全局任务信息之后, 对所述作业全局任务信息进行解压缩。 权 利 要 求 书 CN 102932410 A 3 1/5 页 4 并行计算中作业全局任务信息传递方法 技术领域 0001 本发明涉及网络通信领域, 尤其涉及一种并行计算中作业全局任务信息传递方 法。 背景技术 0002 在并行计算中, 需要将作业全局任务信息传递部署到所有运行课题任务的计算节 点上。作为启。
8、动作业过程中占用时间较多的部分, 全局作业任务信息传递部署的快慢将直 接影响整道作业的启动时间与效率。 0003 当前主流作业管理系统中, 主要通过单层次一对多的方式, 直接在作业总控将作 业任务信息传递到所有计算节点。当系统计算节点规模巨大时, 在这种方式中由于存在一 对多单点瓶颈, 作业总控点的带宽制约了信息传递的效率, 导致作业启动时间长、 效率差。 为了提高作业启动的效率, 减少全局任务信息传递时间, 需要其他有效的技术手段来解决 网络压力问题。 发明内容 0004 本发明所要解决的技术问题是减少全局任务信息传递时间, 提高大规模作业启动 的效率, 有效缓解网络压力。 0005 为了解。
9、决上述问题, 本发明提供了一种并行计算中作业全局任务信息传递方法, 包括 : 0006 根据所述并行计算中作业的规模, 确定所需中间层的资源 ; 所述中间层至少为一 层 ; 0007 作业总控将所述作业全局任务信息采用一对多的方式传递至中间层的资源, 并经 由所述中间层的资源将所述作业全局任务信息传递至计算节点 ; 0008 其中, 所述中间层的资源的数量小于所述计算节点的数量。 0009 可选的, 所述经由所述中间层的资源将所述作业全局任务信息传递至计算节点的 过程中, 各层中间层之间的传递采用一对多的传递方式, 最底层中间层的资源将所述作业 全局任务信息向所述计算节点进行一对多的传递。 0。
10、010 可选的, 所述一对多的数量比为 1:3501:400。 0011 可选的, 所述中间层的资源包括物理机、 物理机上的虚拟机中的一种或多种。 0012 可选的, 在由作业总控至计算节点的传递路径中, 所述虚拟机只能向计算节点传 递所述作业全局任务信息 ; 所述物理机能向物理机、 虚拟机或者计算节点中的一种或多种 传递所述作业全局任务信息。 0013 可选的, 所述中间层的资源为虚拟机时, 对从属于同一物理机的多个虚拟机, 只向 其中一个虚拟机传递所述作业全局任务信息 ; 0014 已得到所述作业全局任务信息的虚拟机以内存拷贝的方式向从属于同一物理机 的其他虚拟机提供所述作业全局任务信息。。
11、 说 明 书 CN 102932410 A 4 2/5 页 5 0015 可选的, 向从属于同一物理机的多个虚拟机中编号最小的虚拟机传递所述作业全 局任务信息。 0016 可选的, 在向所述编号最小的虚拟机网络传递作业全局任务信息的同时, 还向所 述编号最小的虚拟机传递从属于同一物理机的虚拟机信息链表 ; 0017 所述编号最小的虚拟机根据所述虚拟机信息链表中的编号, 向与所述编号对应的 虚拟机提供所述作业全局任务信息。 0018 可选的, 从属于同一物理机的虚拟机数量不超过 8 个。 0019 可选的, 当所述中间层的资源为虚拟机时, 还包括 : 0020 根据所述并行计算中作业规模及物理机。
12、的负载情况, 计算所需的虚拟机数量 ; 0021 依据动态自适应算法选择最优的虚拟机。 0022 可选的, 还包括 : 0023 在作业总控传递所述作业全局任务信息之前, 对所述作业全局任务信息进行压 缩 ; 0024 在计算节点接收所述作业全局任务信息之后, 对所述作业全局任务信息进行解压 缩。 0025 与现有技术相比, 本发明的技术方案具有以下优点 : 0026 1、 在作业总控与运行课题任务的计算节点之间增加中间层, 作业总控仅需向中间 层进行作业全局任务信息的传递, 再由中间层向计算节点传递作业全局任务信息, 有效缓 解了作业总控点的传输瓶颈问题, 从而减少全局任务信息传递时间, 提。
13、高作业启动的效率, 有效缓解网络压力。 0027 2、 可选方案中, 采用虚拟管理资源作为中间层进行作业全局任务信息的传递, 进 一步减少了实际物理传输量, 从而进一步缓解了单点传送瓶颈问题 ; 并且利用虚拟机内存 拷贝技术提高传输速率, 可有效提高任务部署效率, 减少信息传递时间。 0028 3、 可选方案中, 在作业总控向中间层传递作业全局任务信息之前对作业全局任务 信息进行了压缩, 进一步减少了网络数据传输量, 从而进一步缓解单点网络传输压力, 提高 了作业启动的效率。 附图说明 0029 图 1 为本发明的并行计算中作业全局任务信息传递方法一具体实施方式的流程 图 ; 0030 图 2。
14、 为本发明的并行计算中作业全局任务信息传递方法另一具体实施方式的流 程图 ; 0031 图 3 为本发明的并行计算中作业全局任务信息传递方法第一实施例的过程示意 图 ; 0032 图 4 为本发明的并行计算中作业全局任务信息传递方法第二实施例的过程示意 图 ; 0033 图 5 为本发明的并行计算中作业全局任务信息传递方法第三实施例的过程示意 图。 说 明 书 CN 102932410 A 5 3/5 页 6 具体实施方式 0034 在下面的描述中阐述了很多具体细节以便于充分理解本发明。 但是本发明能够以 很多不同于在此描述的其它方式来实施, 本领域技术人员可以在不违背本发明内涵的情况 下做类。
15、似推广, 因此本发明不受下面公开的具体实施的限制。 0035 其次, 本发明利用示意图进行详细描述, 在详述本发明实施例时, 为便于说明, 所 述示意图只是实例, 其在此不应限制本发明保护的范围。 0036 为了解决背景技术中的技术问题, 本发明提供了一种并行计算中作业全局任务信 息传递方法。图 1 为本发明的并行计算中作业全局任务信息传递方法一具体实施方式的流 程图。如图 1 所示, 本具体实施方式包括以下步骤 : 0037 执行步骤 S11, 根据并行计算中作业的规模, 确定所需中间层的资源 ; 中间层至少 为一层 ; 0038 执行步骤 S12, 作业总控将作业全局任务信息采用一对多的方。
16、式传递至中间层的 资源, 并经由中间层的资源将作业全局任务信息传递至计算节点 ; 中间层的资源的数量小 于计算节点的数量。 0039 具体地, 作业总控按照步骤 S11 中确定的最上层的中间层的资源, 将作业全局任 务信息以一对多的方式传递至最上层的中间层的资源。然后各层中间层之间按照步骤 S11 中确定的各层中间层的资源, 依次由上层往下层以一对多的方式传递作业全局任务信息, 直至最底层中间层的资源将作业全局任务信息向计算节点进行一对多的传递。 0040 需要说明的是, 若一对多的比例过低, 则在作业总控这一层向下传递的数据流减 少得不够明显, 相应地, 全局任务信息的传递时间减少得有限, 。
17、作业启动速度及网络传输压 力只能得到部分改善。 若一对多的比例过高, 则需要增添的物理机较多, 成本开销及管理开 销较大, 性价比较低。因此, 兼顾传递效率及开销的双重考虑, 优选地, 一对多的数量比在 1:3501:400 之间。 0041 所述中间层的资源既可以是实际上的物理机, 也可以是物理机上的虚拟机。需要 说明的是, 若从属于同一物理机的虚拟机数量过低, 则通过增加虚拟机以减少实际物理上 的网络数据传输、 提高作业全局任务信息传递效率的效果不明显。若从属于同一物理机的 虚拟机数量过高, 则对物理机的机器性能要求较高, 且对虚拟机的管理开销较大。因此, 优 选地, 从属于同一物理机的虚。
18、拟机数量不超过 8 个。 0042 同时, 需要说明的是, 在由作业总控至计算节点的传递路径中, 虚拟机只能向计算 节点传递作业全局任务信息, 也就是说所述虚拟机总是位于最底层中间层的资源。而物理 机则能向物理机、 虚拟机或者计算节点传递作业全局任务信息, 即 : 存在多层中间层的资源 的情况下, 上层中间层的资源为物理机。 0043 由于从属于同一物理机的多个虚拟机虽然在运行过程中互相独立, 但在实质上共 享同一物理机的内存资源。 因此, 当中间层的资源为虚拟机时, 对从属于同一物理机的多个 虚拟机, 只需向其中一个虚拟机传递作业全局任务信息。再由已得到作业全局任务信息的 虚拟机以内存拷贝的。
19、方式向从属于同一物理机的其他虚拟机提供作业全局任务信息。 通过 这样的方式, 只要传输一遍作业全局任务信息, 就能供从属于同一物理机上的多个虚拟机 共同使用, 进一步减少了网络传输数据量, 从而提高全局任务信息传递效率, 减少作业启动 所需的时间。 说 明 书 CN 102932410 A 6 4/5 页 7 0044 具体地, 物理机是通过唯一的编号, 实现对从属于同一物理机上的多个虚拟机的 管理的。 因此, 可选择从属于同一物理机的多个虚拟机中编号最小的虚拟机, 向其实际传递 作业全局任务信息。同时, 将从属于同一物理机的虚拟机信息链表也传递给编号最小的虚 拟机。编号最小的虚拟机根据虚拟机。
20、信息链表中的编号, 可获悉从属于同一物理机的其他 虚拟机的信息, 从而向这些虚拟器提供作业全局任务信息。 0045 图 2 为本发明的并行计算中作业全局任务信息传递方法另一具体实施方式的流 程图。如图 2 所示, 本具体实施方式包括以下步骤 : 0046 执行步骤 S21, 根据并行计算中作业的规模, 确定所需中间层的资源 ; 中间层至少 为一层 ; 0047 执行步骤 S22, 根据并行计算中作业规模及物理机的负载情况, 计算所需的虚拟机 数量 ; 0048 执行步骤 S23, 依据动态自适应算法选择最优的虚拟机 ; 0049 执行步骤 S24, 对作业全局任务信息进行压缩 ; 0050 执。
21、行步骤 S25, 作业总控将作业全局任务信息采用一对多的方式传递至中间层的 资源, 并经由中间层的资源将作业全局任务信息传递至计算节点 ; 中间层的资源的数量小 于计算节点的数量 ; 0051 执行步骤 S26, 对作业全局任务信息进行解压缩。 0052 与前一具体实施方式相同的部分, 此处不再赘述。 与前一具体实施方式不同的是, 本具体实施方式中间层的资源包含虚拟机, 因此本具体实施方式中包括根据并行计算中作 业规模及物理机的负载情况, 计算所需的虚拟机数量以及依据动态自适应算法选择最优的 虚拟机的步骤。 0053 需要说明的是, 现有技术中已有多种根据作业规模和物理机负载情况计算合适的 虚。
22、拟机数量的算法, 亦已有多种动态自适应选择最优的虚拟机的算法, 本发明对此不做具 体限定, 本领域技术人员可根据实际情况自由选择。 0054 同时, 为了进一步减少网络传输量、 缓解网络压力, 本具体实施方式在作业总控传 递所述作业全局任务信息之前, 对作业全局任务信息进行了压缩, 并在计算节点接收所述 作业全局任务信息之后, 对作业全局任务信息进行了解压缩。现有技术中亦有多种压缩及 解压缩算法, 本发明对此不做具体限定, 本领域技术人员可根据实际情况自由选择。 0055 下面结合附图和具体实施例对本发明的技术方案做进一步说明。 0056 图 3 为本发明的并行计算中作业全局任务信息传递方法第。
23、一实施例的过程示意 图。如图 3 所示, 本实施例中包含 1 层中间层, 该中间层的资源全部由物理机构成。由于作 业总控通过中间层的物理机以一对多的方式传递作业全局任务信息, 因此, 所述物理机的 数量远小于计算节点的数量。因此, 现有技术中作业总控向计算节点单层间一对多传输完 毕后才能启动作业, 而现在作业总控仅需向中间层的物理机传输作业全局任务信息, 网络 数据传输量大大减少, 有效缓解了作业总控点的网络传输压力, 有效提高任务部署效率。 0057 图 4 为本发明的并行计算中作业全局任务信息传递方法第二实施例的过程示意 图。本实施例中包含 1 层中间层, 但与第一实施例不同的是, 本实施。
24、例中的中间层资源既包 括物理机, 也包括虚拟机。如图 4 所示, 作业总控仅需向从属于同一物理机上的多个虚拟机 的其中一个传递作业全局任务信息。 由已得到作业全局任务信息的虚拟机以内存拷贝的方 说 明 书 CN 102932410 A 7 5/5 页 8 式向从属于同一物理机的其他虚拟机提供作业全局任务信息。因此, 作业总控向中间层的 资源传递的网络数据量进一步减少, 从而提高传输效率, 减少作业任务的启动时间。 0058 图 5 为本发明的并行计算中作业全局任务信息传递方法第三实施例的过程示意 图。本实施例中包含 2 层中间层, 2 层中间层的资源包括物理机和物理机上的虚拟机。通过 设置多层。
25、的中间层, 可进一步减少作业总控向中间层的资源传递的网络数据量, 从而提高 任务启动效率。如图 5 所示, 在由作业总控至计算节点的传递路径中, 虚拟机直接向计算节 点传递作业全局任务信息, 而当中间层的资源为一物理机上, 可在其下层继续设置物理机 或者物理机上的虚拟机, 或者直接由该物理机向计算节点传递作业全局任务信息。 0059 需要说明的是, 通过以上的实施方式的描述, 本领域的技术人员可以清楚地了解 到本发明的部分或全部可借助软件并结合必需的通用硬件平台来实现。基于这样的理解, 本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现 出来, 该计算机软件产品可包括。
26、其上存储有机器可执行指令的一个或多个机器可读介质, 这些指令在由诸如计算机、 计算机网络或其他电子设备等一个或多个机器执行时可使得该 一个或多个机器根据本发明的实施例来执行操作。机器可读介质可包括, 但不限于, 软盘、 光盘、 CD-ROM(紧致盘 - 只读存储器) 、 磁光盘、 ROM(只读存储器) 、 RAM(随机存取存储器) 、 EPROM(可擦除可编程只读存储器) 、 EEPROM(电可擦除可编程只读存储器) 、 磁卡或光卡、 闪 存、 或适于存储机器可执行指令的其他类型的介质机器可读介质。 0060 本发明可用于众多通用或专用的计算系统环境或配置中。 例如 : 个人计算机、 服务 器。
27、计算机、 手持设备或便携式设备、 平板型设备、 多处理器系统、 基于微处理器的系统、 置顶 盒、 可编程的消费电子设备、 网络 PC、 小型计算机、 大型计算机、 包括以上任何系统或设备的 分布式计算环境等。 0061 本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述, 例如程序 模块。 一般地, 程序模块包括执行特定任务或实现特定抽象数据类型的例程、 程序、 对象、 组 件、 数据结构等等。也可以在分布式计算环境中实践本申请, 在这些分布式计算环境中, 由 通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中, 程序模块可以 位于包括存储设备在内的本地和远程计算机存储。
28、介质中。 0062 本发明虽然已以较佳实施例公开如上, 但其并不是用来限定本发明, 任何本领域 技术人员在不脱离本发明的精神和范围内, 都可以利用上述揭示的方法和技术内容对本发 明技术方案做出可能的变动和修改, 因此, 凡是未脱离本发明技术方案的内容, 依据本发明 的技术实质对以上实施例所作的任何简单修改、 等同变化及修饰, 均属于本发明技术方案 的保护范围。 说 明 书 CN 102932410 A 8 1/4 页 9 图 1 说 明 书 附 图 CN 102932410 A 9 2/4 页 10 图 2 说 明 书 附 图 CN 102932410 A 10 3/4 页 11 图 3 图 4 说 明 书 附 图 CN 102932410 A 11 4/4 页 12 图 5 说 明 书 附 图 CN 102932410 A 12 。