一种网络中板卡的温度监测方法及温度监测系统.pdf

上传人:r5 文档编号:4753628 上传时间:2018-11-06 格式:PDF 页数:9 大小:1.28MB
返回 下载 相关 举报
摘要
申请专利号:

CN201210311701.8

申请日:

2012.08.28

公开号:

CN102811145A

公开日:

2012.12.05

当前法律状态:

授权

有效性:

有权

法律详情:

著录事项变更IPC(主分类):H04L 12/26变更事项:发明人变更前:赵振伟 王卫钢 陈进变更后:历军 赵振伟 王卫钢 陈进|||授权|||实质审查的生效IPC(主分类):H04L 12/26申请日:20120828|||著录事项变更IPC(主分类):H04L 12/26变更事项:申请人变更前:曙光信息产业(北京)有限公司变更后:曙光信息产业(北京)有限公司变更事项:地址变更前:100193 北京市海淀区中关村软件园曙光大厦变更后:100193 北京市海淀区东北旺西路8号院36号楼|||公开

IPC分类号:

H04L12/26; H04L12/02

主分类号:

H04L12/26

申请人:

曙光信息产业(北京)有限公司

发明人:

赵振伟; 王卫钢; 陈进

地址:

100193 北京市海淀区中关村软件园曙光大厦

优先权:

专利代理机构:

北京德恒律治知识产权代理有限公司 11409

代理人:

章社杲;孙征

PDF下载: PDF下载
内容摘要

本发明公开的网络中板卡的温度监测方法,包括:具有无限带宽Infiniband板卡的网络设备将携带有网络设备的标识号温度数据信息发送给温度采集下位机,其中温度数据信息是Infiniband板卡的温度数据信息,所述标识号是网络设备在网络中的标识号;温度采集下位机将从各具有Infiniband板卡的网络设备接收到的携带有网络设备的标识号的温度数据信息发送给温度服务器;温度服务器接收携带有网络设备的标识号的温度数据信息,并根据网络设备的标识号将该网络设备的温度数据与预设置的温度阈值比较,在比较出该网络设备的温度数据超过所述温度阈值时,产生该网络设备温度过热的提示。本发明还公开了温度监测系统。采用本发明,可以对网络中的具有Infiniband板卡的网络设备进行温度监测。

权利要求书

1: 一种网络中板卡的温度监测方法, 包括 : 具有无限带宽 Infiniband 板卡的网络设备将携带有所述网络设备的标识号的温度数 据信息发送给温度采集下位机, 其中所述温度数据信息是所述 Infiniband 板卡的温度数 据信息, 所述标识号是所述网络设备在所述网络中的标识号 ; 所述温度采集下位机将从一个或多个具有 Infiniband 板卡的网络设备接收到的携带 有网络设备的标识号的温度数据信息发送给温度服务器 ; 所述温度服务器根据接收到的温度数据信息中的网络设备的标识号将该网络设备的 温度数据与预设置的相应温度阈值比较, 在比较出该网络设备的温度数据超过所述温度阈 值时, 产生该网络设备温度过热的提示。2: 根据权利要求 1 所述的温度监测方法, 其特征在于 : 所述网络设备装载有包括温度数据模块的 Infiniband 板卡驱动程序中, 所述温度数 据模块抓取该网络设备中的 Infiniband 板卡的温度数据, 其中每一网络设备的温度数据 模块结合网络设备的标识号抓取温度数据。3: 根据权利要求 2 所述的温度监测方法, 其特征在于 : 所述温度数据模块是 mget_temp 工具, 所述 mget_temp 工具能够实时抓取 Infiniband 板卡的当前温度数据。4: 根据权利要求 3 所述的温度监测方法, 其特征在于, 所述温度监测方法还包括 : 所述温度服务器将接收到的携带有网络设备的标识号的温度数据信息进行分类并存 储。5: 根据权利要求 3 所述的温度监测方法, 其特征在于, 所述温度服务器在比较出网络 设备的温度数据超过预设置的温度阈值时, 根据控制规则对该网络设备进行相应的控制。6: 一种温度监测系统, 包括温度采集下位机和温度服务器, 其中 : 所述温度采集下位机用于从一个或多个具有无限带宽 Infiniband 板卡的网络设备接 收携带有网络设备的标识号的温度数据信息, 并发送给温度服务器, 其中所述温度数据信 息是所述 Infiniband 板卡的温度数据信息, 所述标识号是所述网络设备在所述网络中的 标识号 ; 所述温度服务器用于接收携带有网络设备的标识号的温度数据信息, 并根据网络设备 的标识号将该网络设备的温度数据与预设置的相应温度阈值比较, 在比较出该网络设备的 温度数据超过所述温度阈值时, 产生该网络设备温度过热的提示。7: 根据权利要求 6 所述的温度监测系统, 其特征在于, 所述温度监测系统还包括 : 设置在 Infiniband 板卡驱动程序中的温度数据模块, 其中所述 Infiniband 板卡驱动 程序装载在网络设备上, 所述温度数据模块用于抓取所述网络设备中的 Infiniband 板卡 的温度数据, 其中所述温度数据模块结合所述网络设备的标识号抓取温度数据 ; 所述网络设备将携带有网络设备的标识号的温度数据信息发送给温度采集下位机。8: 根据权利要求 7 所述的温度监测系统, 其特征在于, 所述温度数据模块是 mget_temp 工具, 所述 mget_temp 工具能够实时抓取 Infiniband 板卡的当前温度数据。9: 根据权利要求 8 所述的温度监测系统, 其特征在于 : 所述温度服务器还用于将接收到的携带有网络设备的标识号的温度数据信息进行分 类并存储。 210: 根据权利要求 8 所述的温度监测系统, 其特征在于 : 所述温度服务器还用于在比较出网络设备的温度数据超过预设置的温度阈值时, 根据 控制规则对该网络设备进行相应的控制。

说明书


一种网络中板卡的温度监测方法及温度监测系统

    技术领域 本发明涉及计算机技术领域, 更具体地, 涉及一种网络中板卡的温度监测方法及 温度监测系统。
     背景技术 无线带宽 Infiniband 技术是一种开放标准的高带宽、 高速网络互联技术, 广泛应 用于服务器与服务器 ( 比如复制, 分布式工作等 ), 服务器和存储设备 ( 比如存储区域网络 SAN 和直接存储附件 ) 以及服务器和网络之间 ( 比如 LAN、 WAN 和因特网 ) 的通信。目前服 务器领域 Infiniband 技术的数据速率已经发展到 QDR(Quad Data Rate, 4 倍数据倍率 ) 和 FDR(Fourteen Data Rate, 14 倍数据倍率 ), 分别为每端口 40Gbps 和 56Gbps。
     对于这些高速的 Infiniband 网卡、 交换机等, 网络通信中每个节点是否正常运行 跟服务器及交换机的散热情况有很大的关系, 如果散热不良, 则芯片无法正常工作, 可能会 使网络工作异常甚至瘫痪, 因此监控 Infiniband 板卡的温度非常重要, 这对于板卡的故障 原因分析定位等也有很大的帮助。
     目前服务器领域, 有的没有温度监测模块来监测 Infiniband 网卡及交换机的温 度, 也有的是在 Infiniband 板卡上安装了温度传感器, 然后将温度传感器测得的温度信息 通过系统管理总线 (System Management Bus, SMBus) 传递到管理模块, 由管理模块来监控 子卡端的温度。
     然而, 通过 SMBus 获得板卡温度的方法只用于刀片或机架服务器的子卡端, 对于 与子卡通过 Infiniband 网络连接的交换机无法使用, 因为交换机只通过 Infiniband 网络 跟各个子卡对应的主机通道适配器 (Host Channel Adapter, HCA) 卡建立连接。而且, 这种 温度监测方法只能针对单独的服务器进行监测, 并不能监测整个网络中的 Infiniband 服 务器和 / 或 Infiniband 交换机的温度。此外, 现有通过安装温度传感器来进行温度监测方 法只能测出安装位置周围的温度, 并不能准确测量出主芯片的内部温度。 而且, 目前服务器 的管理模块没有做到可以查询、 分析 Infiniband 板卡温度历史数据及趋势的功能。
     发明内容
     为解决现有技术存在的问题, 本发明提供了网络中板卡的温度监测方法和温度监 测系统, 使得对网络中的具有 Infiniband 板卡的网络设备都进行温度监测。
     根据本发明的一方面, 提供了一种网络中板卡的温度监测方法, 包括 :
     具有无限带宽 Infiniband 板卡的网络设备将携带有所述网络设备的标识号的温 度数据信息发送给温度采集下位机, 其中所述温度数据信息是所述 Infiniband 板卡的温 度数据信息, 所述标识号是所述网络设备在所述网络中的标识号 ;
     所述温度采集下位机将从一个或多个具有 Infiniband 板卡的网络设备接收到的 携带有网络设备的标识号的温度数据信息发送给温度服务器 ;
     所述温度服务器根据接收到的温度数据信息中的网络设备的标识号将该网络设备的温度数据与预设置的相应温度阈值比较, 在比较出该网络设备的温度数据超过所述温 度阈值时, 产生该网络设备温度过热的提示。
     在可选实施例中, 所述网络设备装载有包括温度数据模块的 Infiniband 板卡驱 动程序中, 所述温度数据模块抓取该网络设备中的 Infiniband 板卡的温度数据, 其中每一 网络设备的温度数据模块结合网络设备的标识号抓取温度数据。
     在可选实施例中, 所述温度数据模块是 mget_temp 工具, 所述 mget_temp 工具能够 实时抓取 Infiniband 板卡的当前温度数据。
     在可选实施例中, 所述温度监测方法还包括 : 所述温度服务器将接收到的携带有 网络设备的标识号的温度数据信息进行分类并存储。
     在可选实施例中, 所述温度服务器在比较出网络设备的温度数据超过预设置的温 度阈值时, 根据控制规则对该网络设备进行相应的控制。
     根据本发明的另一方面, 提供了一种温度监测系统, 包括温度采集下位机和温度 服务器, 其中 :
     所述温度采集下位机用于从一个或多个具有无限带宽 Infiniband 板卡的网络设 备接收携带有网络设备的标识号的温度数据信息, 并发送给温度服务器, 其中所述温度数 据信息是所述 Infiniband 板卡的温度数据信息, 所述标识号是所述网络设备在所述网络 中的标识号 ; 所述温度服务器用于接收携带有网络设备的标识号的温度数据信息, 并根据网络 设备的标识号将该网络设备的温度数据与预设置的相应温度阈值比较, 在比较出该网络设 备的温度数据超过所述温度阈值时, 产生该网络设备温度过热的提示。
     在可选实施例中, 所述温度监测系统还包括 : 设置在 Infiniband 板卡驱动程序中 的温度数据模块, 其中所述 Infiniband 板卡驱动程序装载在网络设备上, 所述温度数据模 块用于抓取所述网络设备中的 Infiniband 板卡的温度数据, 其中所述温度数据模块结合 所述网络设备的标识号抓取温度数据 ; 以及, 所述网络设备将携带有网络设备的标识号的 温度数据信息发送给温度采集下位机。
     在可选实施例中, 所述温度数据模块是 mget_temp 工具, 所述 mget_temp 工具能够 实时抓取 Infiniband 板卡的当前温度数据。
     在可选实施例中, 所述温度服务器还用于将接收到的携带有网络设备的标识号的 温度数据信息进行分类并存储。
     在可选实施例中, 所述温度服务器还用于在比较出网络设备的温度数据超过预设 置的温度阈值时, 根据控制规则对该网络设备进行相应的控制。
     本发明实施例的网络中板卡的温度监测方法和温度监测系统, 通过获取对网 络中的具有 Infiniband 板卡的网络设备的温度信息, 使得可以对网络中的部分或全部 Infinband 网络设备都进行温度监测, 从而可以更有效地管理和运用 Infinband 网络。
     附图说明 图 1 是根据本发明一实施例的对具有 Infiniband 板卡的网络设备进行温度监测 的温度监测系统的结构示意图。
     图 2 是根据本发明一实施例的对具有 Infiniband 板卡的网络设备进行温度监测
     的方法流程图。 具体实施方式
     下面结合附图对本发明进行详细说明。
     图 1 是根据本发明一实施例的对具有 Infiniband 板卡的网络设备进行温度监测 的温度监测系统的结构示意图。
     参考图 1, 温度监测系统包括温度采集下位机 30 和温度服务器 40。温度采集下位 机 30 用于从各网络设备接收携带有网络设备的标识号的温度数据信息, 并发送给温度服 务器。所述网络设备具有 Infiniband 板卡, 并且所述温度数据信息是 Infiniband 板卡的 温度数据信息。在 Infiniband 网络中, 网络设备包括服务器集群中的具有 Infiniband 板 卡的服务器 10 和 Infiniband 交换机 20。
     具体地, 可以是选择服务器集群中的一台服务器作为温度采集下位机 30。温度采 集下位机 30 可以收集整个网络上的部分或全部 Infiniband 板卡的温度信息。
     在可选实施例中, 温度采集下位机 30 在整个网络的实时温度信息抓取完之后将 信息打包, 然后通过 TCP/IP 协议将数据包传输到温度服务器 40。
     温度服务器 40 用于接收携带有网络设备的标识号的温度数据信息, 并根据网络 设备的标识号将该网络设备的温度数据与预设置的温度阈值比较, 在比较出该网络设备的 温度数据超过所述温度阈值时, 产生该网络设备温度过热的提示。
     在可选实施例中, 温度服务器 40 将温度数据包进行分类存储到数据库, 这样使得 温度服务器可以对数据库中的温度数据进行历史查询和分析。
     在一实施例中, 具有 Infiniband 板卡的服务器和 / 或 Infiniband 交换机装载有 Infiniband 板卡驱动程序。驱动程序中设置有温度数据模块, 该温度数据模块用于抓取 网络设备中的 Infiniband 板卡的温度数据, 其中所述温度数据模块结合所述网络设备在 Infiniband 网络中的标识号抓取温度数据。
     网络中, 每个具有 Infiniband 板卡的服务器和 / 或 Infiniband 交换机会有一个 标识号, 该标识号用于该网络设备在网络中的逻辑位置。
     然后, 各网络设备将携带有网络设备的标识号的温度数据信息发送给温度采集下 位机。
     例如, 温度数据模块可以是现有 Infiniband 驱动程序包中的 mget_temp 工具, 该 mget_temp 工具可以结合 Infiniband 网络集群中每个节点的 Lid 号 ( 即网络设备的标识 号 ) 抓取节点的温度数据。由于每个节点的 Lid 号唯一, 因此可以实时抓取网络设备中的 Infiniband 板卡的当前温度数据。
     在可选实施例中, 温度服务器 40 还用于在比较出网络设备的温度数据超过预设 置的温度阈值时, 根据控制规则对该网络设备进行相应的控制。
     在实施例中, 可以对每一网络设备都设置温度阈值。例如温度阈值为 90 度, 如果 某一网络设备的温度数据大于 90 度, 则温度服务器 40 会产生提示信息。温度监测系统可 以通过显示模块来显示提示信息, 也可以通过声音模块进行提示。
     可选地, 温度阈值可以包括第一阈值和第二阈值等。 例如, 当某一网络设备的温度 数据大于第一阈值, 小于第二阈值时, 温度服务器指示对网络设备加大散热能力 ; 而另一网络设备的温度数据大于第二阈值时, 温度服务器对该网络设备发出关机命令, 从而使得该 网络设备停止工作。
     此外, 通过本发明实施例的温度监控系统还可以方便网络或服务器集群维护人员 针对超出温度阈值的网络设备去查找网络出错情况, 从而提高维护效率。
     图 2 是根据本发明一实施例的对具有 Infiniband 板卡的网络设备进行温度监测 的方法流程图。参考图 2, 对网络中的板卡进行温度监测的方法包括 :
     S101, 网络设备将携带有该网络设备的标识号的温度数据信息发送给温度采集下 位机, 其中所述网络设备具有无限带宽 Infiniband 板卡, 并且所述温度数据信息是所述 Infiniband 板卡的温度数据信息 ;
     S102, 温度采集下位机将从一个或多个具有 Infiniband 板卡的网络设备接收到 的携带有网络设备的标识号的温度数据信息发送给温度服务器 ;
     S103, 温度服务器接收温度采集下位机发送得携带有网络设备的标识号的温度数 据信息, 并根据网络设备的标识号将该网络设备的温度数据与预设置的相应温度阈值比 较, 在比较出该网络设备的温度数据超过所述温度阈值时, 产生该网络设备温度过热的提 示。此处, 预设置的相应温度阈值是指对于不同的网络设备可以设置不同的温度阈值。例 如, 对于 Infiniband 服务器和 Infiniband 交换机可以具有不同的温度阈值。 在可选实施例中, 网络设备利用装载的 Infiniband 板卡驱动程序中的温度数据 模块抓取该网络设备中的 Infiniband 板卡的温度数据, 其中所述温度数据模块结合该网 络设备在 Infiniband 网络中的标识号抓取温度数据。
     在一实施例中, 所述温度数据模块是 mget_temp 工具, 所述 mget_temp 工具能够实 时抓取 Infiniband 板卡的当前温度数据。
     在可选实施例中, 所述温度监测方法还包括 : 所述温度服务器将接收到的携带有 网络设备的标识号的温度数据信息进行分类并存储。
     在可选实施例中, 所述温度服务器在比较出网络设备的温度数据超过预设置的温 度阈值时, 根据控制规则对该网络设备进行相应的控制。
     本发明实施例的温度监控系统或温度监控方法可以将各个时间段的整个网络节 点中的 Infiniband 板卡的温度数据都采集并存储下来以供后续分析, 避免了现有技术中 只能实时显示, 无法记录的缺点。通过 mget_temp 工具抓取的温度数据比传统板载温度传 感器测量的方式更接近实际温度。进一步地, 可以对整个网络中的网络设备进行温度监控 和管理, 从而能够提高维护人员对网络的维护管理能力和温度分析能力。例如, 如果监测 到网络设备的温度一直升高, 则需要对机房设备加大散热能力。 又如, 在网络出现异常情况 时, 可以通过温度对比找出是否跟温度过高导致板卡工作不正常有关。
     以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡在本发明的精 神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。
    

一种网络中板卡的温度监测方法及温度监测系统.pdf_第1页
第1页 / 共9页
一种网络中板卡的温度监测方法及温度监测系统.pdf_第2页
第2页 / 共9页
一种网络中板卡的温度监测方法及温度监测系统.pdf_第3页
第3页 / 共9页
点击查看更多>>
资源描述

《一种网络中板卡的温度监测方法及温度监测系统.pdf》由会员分享,可在线阅读,更多相关《一种网络中板卡的温度监测方法及温度监测系统.pdf(9页珍藏版)》请在专利查询网上搜索。

1、(10)申请公布号 CN 102811145 A (43)申请公布日 2012.12.05 CN 102811145 A *CN102811145A* (21)申请号 201210311701.8 (22)申请日 2012.08.28 H04L 12/26(2006.01) H04L 12/02(2006.01) (71)申请人 曙光信息产业 (北京) 有限公司 地址 100193 北京市海淀区中关村软件园曙 光大厦 (72)发明人 赵振伟 王卫钢 陈进 (74)专利代理机构 北京德恒律治知识产权代理 有限公司 11409 代理人 章社杲 孙征 (54) 发明名称 一种网络中板卡的温度监测方法。

2、及温度监测 系统 (57) 摘要 本发明公开的网络中板卡的温度监测方法, 包括 : 具有无限带宽 Infiniband 板卡的网络 设备将携带有网络设备的标识号温度数据信息 发送给温度采集下位机, 其中温度数据信息是 Infiniband 板卡的温度数据信息, 所述标识号是 网络设备在网络中的标识号 ; 温度采集下位机将 从各具有 Infiniband 板卡的网络设备接收到的 携带有网络设备的标识号的温度数据信息发送给 温度服务器 ; 温度服务器接收携带有网络设备的 标识号的温度数据信息, 并根据网络设备的标识 号将该网络设备的温度数据与预设置的温度阈值 比较, 在比较出该网络设备的温度数据超。

3、过所述 温度阈值时, 产生该网络设备温度过热的提示。 本 发明还公开了温度监测系统。 采用本发明, 可以对 网络中的具有 Infiniband 板卡的网络设备进行 温度监测。 (51)Int.Cl. 权利要求书 2 页 说明书 4 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 4 页 附图 2 页 1/2 页 2 1. 一种网络中板卡的温度监测方法, 包括 : 具有无限带宽 Infiniband 板卡的网络设备将携带有所述网络设备的标识号的温度数 据信息发送给温度采集下位机, 其中所述温度数据信息是所述 Infiniband 板卡的温。

4、度数 据信息, 所述标识号是所述网络设备在所述网络中的标识号 ; 所述温度采集下位机将从一个或多个具有 Infiniband 板卡的网络设备接收到的携带 有网络设备的标识号的温度数据信息发送给温度服务器 ; 所述温度服务器根据接收到的温度数据信息中的网络设备的标识号将该网络设备的 温度数据与预设置的相应温度阈值比较, 在比较出该网络设备的温度数据超过所述温度阈 值时, 产生该网络设备温度过热的提示。 2. 根据权利要求 1 所述的温度监测方法, 其特征在于 : 所述网络设备装载有包括温度数据模块的 Infiniband 板卡驱动程序中, 所述温度数 据模块抓取该网络设备中的 Infiniban。

5、d 板卡的温度数据, 其中每一网络设备的温度数据 模块结合网络设备的标识号抓取温度数据。 3. 根据权利要求 2 所述的温度监测方法, 其特征在于 : 所述温度数据模块是 mget_temp 工具, 所述 mget_temp 工具能够实时抓取 Infiniband 板卡的当前温度数据。 4. 根据权利要求 3 所述的温度监测方法, 其特征在于, 所述温度监测方法还包括 : 所述温度服务器将接收到的携带有网络设备的标识号的温度数据信息进行分类并存 储。 5. 根据权利要求 3 所述的温度监测方法, 其特征在于, 所述温度服务器在比较出网络 设备的温度数据超过预设置的温度阈值时, 根据控制规则对该。

6、网络设备进行相应的控制。 6. 一种温度监测系统, 包括温度采集下位机和温度服务器, 其中 : 所述温度采集下位机用于从一个或多个具有无限带宽 Infiniband 板卡的网络设备接 收携带有网络设备的标识号的温度数据信息, 并发送给温度服务器, 其中所述温度数据信 息是所述 Infiniband 板卡的温度数据信息, 所述标识号是所述网络设备在所述网络中的 标识号 ; 所述温度服务器用于接收携带有网络设备的标识号的温度数据信息, 并根据网络设备 的标识号将该网络设备的温度数据与预设置的相应温度阈值比较, 在比较出该网络设备的 温度数据超过所述温度阈值时, 产生该网络设备温度过热的提示。 7.。

7、 根据权利要求 6 所述的温度监测系统, 其特征在于, 所述温度监测系统还包括 : 设置在 Infiniband 板卡驱动程序中的温度数据模块, 其中所述 Infiniband 板卡驱动 程序装载在网络设备上, 所述温度数据模块用于抓取所述网络设备中的 Infiniband 板卡 的温度数据, 其中所述温度数据模块结合所述网络设备的标识号抓取温度数据 ; 所述网络设备将携带有网络设备的标识号的温度数据信息发送给温度采集下位机。 8.根据权利要求7所述的温度监测系统, 其特征在于, 所述温度数据模块是mget_temp 工具, 所述 mget_temp 工具能够实时抓取 Infiniband 板。

8、卡的当前温度数据。 9. 根据权利要求 8 所述的温度监测系统, 其特征在于 : 所述温度服务器还用于将接收到的携带有网络设备的标识号的温度数据信息进行分 类并存储。 权 利 要 求 书 CN 102811145 A 2 2/2 页 3 10. 根据权利要求 8 所述的温度监测系统, 其特征在于 : 所述温度服务器还用于在比较出网络设备的温度数据超过预设置的温度阈值时, 根据 控制规则对该网络设备进行相应的控制。 权 利 要 求 书 CN 102811145 A 3 1/4 页 4 一种网络中板卡的温度监测方法及温度监测系统 技术领域 0001 本发明涉及计算机技术领域, 更具体地, 涉及一种。

9、网络中板卡的温度监测方法及 温度监测系统。 背景技术 0002 无线带宽 Infiniband 技术是一种开放标准的高带宽、 高速网络互联技术, 广泛应 用于服务器与服务器 ( 比如复制, 分布式工作等 ), 服务器和存储设备 ( 比如存储区域网络 SAN 和直接存储附件 ) 以及服务器和网络之间 ( 比如 LAN、 WAN 和因特网 ) 的通信。目前服 务器领域 Infiniband 技术的数据速率已经发展到 QDR(Quad Data Rate, 4 倍数据倍率 ) 和 FDR(Fourteen Data Rate, 14 倍数据倍率 ), 分别为每端口 40Gbps 和 56Gbps。 。

10、0003 对于这些高速的 Infiniband 网卡、 交换机等, 网络通信中每个节点是否正常运行 跟服务器及交换机的散热情况有很大的关系, 如果散热不良, 则芯片无法正常工作, 可能会 使网络工作异常甚至瘫痪, 因此监控 Infiniband 板卡的温度非常重要, 这对于板卡的故障 原因分析定位等也有很大的帮助。 0004 目前服务器领域, 有的没有温度监测模块来监测 Infiniband 网卡及交换机的温 度, 也有的是在 Infiniband 板卡上安装了温度传感器, 然后将温度传感器测得的温度信息 通过系统管理总线 (System Management Bus, SMBus) 传递到管。

11、理模块, 由管理模块来监控 子卡端的温度。 0005 然而, 通过 SMBus 获得板卡温度的方法只用于刀片或机架服务器的子卡端, 对于 与子卡通过 Infiniband 网络连接的交换机无法使用, 因为交换机只通过 Infiniband 网络 跟各个子卡对应的主机通道适配器 (Host Channel Adapter, HCA) 卡建立连接。而且, 这种 温度监测方法只能针对单独的服务器进行监测, 并不能监测整个网络中的 Infiniband 服 务器和 / 或 Infiniband 交换机的温度。此外, 现有通过安装温度传感器来进行温度监测方 法只能测出安装位置周围的温度, 并不能准确测量。

12、出主芯片的内部温度。 而且, 目前服务器 的管理模块没有做到可以查询、 分析 Infiniband 板卡温度历史数据及趋势的功能。 发明内容 0006 为解决现有技术存在的问题, 本发明提供了网络中板卡的温度监测方法和温度监 测系统, 使得对网络中的具有 Infiniband 板卡的网络设备都进行温度监测。 0007 根据本发明的一方面, 提供了一种网络中板卡的温度监测方法, 包括 : 0008 具有无限带宽 Infiniband 板卡的网络设备将携带有所述网络设备的标识号的温 度数据信息发送给温度采集下位机, 其中所述温度数据信息是所述 Infiniband 板卡的温 度数据信息, 所述标识。

13、号是所述网络设备在所述网络中的标识号 ; 0009 所述温度采集下位机将从一个或多个具有 Infiniband 板卡的网络设备接收到的 携带有网络设备的标识号的温度数据信息发送给温度服务器 ; 0010 所述温度服务器根据接收到的温度数据信息中的网络设备的标识号将该网络设 说 明 书 CN 102811145 A 4 2/4 页 5 备的温度数据与预设置的相应温度阈值比较, 在比较出该网络设备的温度数据超过所述温 度阈值时, 产生该网络设备温度过热的提示。 0011 在可选实施例中, 所述网络设备装载有包括温度数据模块的 Infiniband 板卡驱 动程序中, 所述温度数据模块抓取该网络设备。

14、中的 Infiniband 板卡的温度数据, 其中每一 网络设备的温度数据模块结合网络设备的标识号抓取温度数据。 0012 在可选实施例中, 所述温度数据模块是mget_temp工具, 所述mget_temp工具能够 实时抓取 Infiniband 板卡的当前温度数据。 0013 在可选实施例中, 所述温度监测方法还包括 : 所述温度服务器将接收到的携带有 网络设备的标识号的温度数据信息进行分类并存储。 0014 在可选实施例中, 所述温度服务器在比较出网络设备的温度数据超过预设置的温 度阈值时, 根据控制规则对该网络设备进行相应的控制。 0015 根据本发明的另一方面, 提供了一种温度监测系。

15、统, 包括温度采集下位机和温度 服务器, 其中 : 0016 所述温度采集下位机用于从一个或多个具有无限带宽 Infiniband 板卡的网络设 备接收携带有网络设备的标识号的温度数据信息, 并发送给温度服务器, 其中所述温度数 据信息是所述 Infiniband 板卡的温度数据信息, 所述标识号是所述网络设备在所述网络 中的标识号 ; 0017 所述温度服务器用于接收携带有网络设备的标识号的温度数据信息, 并根据网络 设备的标识号将该网络设备的温度数据与预设置的相应温度阈值比较, 在比较出该网络设 备的温度数据超过所述温度阈值时, 产生该网络设备温度过热的提示。 0018 在可选实施例中, 。

16、所述温度监测系统还包括 : 设置在 Infiniband 板卡驱动程序中 的温度数据模块, 其中所述 Infiniband 板卡驱动程序装载在网络设备上, 所述温度数据模 块用于抓取所述网络设备中的 Infiniband 板卡的温度数据, 其中所述温度数据模块结合 所述网络设备的标识号抓取温度数据 ; 以及, 所述网络设备将携带有网络设备的标识号的 温度数据信息发送给温度采集下位机。 0019 在可选实施例中, 所述温度数据模块是mget_temp工具, 所述mget_temp工具能够 实时抓取 Infiniband 板卡的当前温度数据。 0020 在可选实施例中, 所述温度服务器还用于将接收。

17、到的携带有网络设备的标识号的 温度数据信息进行分类并存储。 0021 在可选实施例中, 所述温度服务器还用于在比较出网络设备的温度数据超过预设 置的温度阈值时, 根据控制规则对该网络设备进行相应的控制。 0022 本发明实施例的网络中板卡的温度监测方法和温度监测系统, 通过获取对网 络中的具有 Infiniband 板卡的网络设备的温度信息, 使得可以对网络中的部分或全部 Infinband 网络设备都进行温度监测, 从而可以更有效地管理和运用 Infinband 网络。 附图说明 0023 图 1 是根据本发明一实施例的对具有 Infiniband 板卡的网络设备进行温度监测 的温度监测系统。

18、的结构示意图。 0024 图 2 是根据本发明一实施例的对具有 Infiniband 板卡的网络设备进行温度监测 说 明 书 CN 102811145 A 5 3/4 页 6 的方法流程图。 具体实施方式 0025 下面结合附图对本发明进行详细说明。 0026 图 1 是根据本发明一实施例的对具有 Infiniband 板卡的网络设备进行温度监测 的温度监测系统的结构示意图。 0027 参考图 1, 温度监测系统包括温度采集下位机 30 和温度服务器 40。温度采集下位 机 30 用于从各网络设备接收携带有网络设备的标识号的温度数据信息, 并发送给温度服 务器。所述网络设备具有 Infinib。

19、and 板卡, 并且所述温度数据信息是 Infiniband 板卡的 温度数据信息。在 Infiniband 网络中, 网络设备包括服务器集群中的具有 Infiniband 板 卡的服务器 10 和 Infiniband 交换机 20。 0028 具体地, 可以是选择服务器集群中的一台服务器作为温度采集下位机 30。温度采 集下位机 30 可以收集整个网络上的部分或全部 Infiniband 板卡的温度信息。 0029 在可选实施例中, 温度采集下位机 30 在整个网络的实时温度信息抓取完之后将 信息打包, 然后通过 TCP/IP 协议将数据包传输到温度服务器 40。 0030 温度服务器 4。

20、0 用于接收携带有网络设备的标识号的温度数据信息, 并根据网络 设备的标识号将该网络设备的温度数据与预设置的温度阈值比较, 在比较出该网络设备的 温度数据超过所述温度阈值时, 产生该网络设备温度过热的提示。 0031 在可选实施例中, 温度服务器 40 将温度数据包进行分类存储到数据库, 这样使得 温度服务器可以对数据库中的温度数据进行历史查询和分析。 0032 在一实施例中, 具有 Infiniband 板卡的服务器和 / 或 Infiniband 交换机装载有 Infiniband 板卡驱动程序。驱动程序中设置有温度数据模块, 该温度数据模块用于抓取 网络设备中的 Infiniband 板。

21、卡的温度数据, 其中所述温度数据模块结合所述网络设备在 Infiniband 网络中的标识号抓取温度数据。 0033 网络中, 每个具有 Infiniband 板卡的服务器和 / 或 Infiniband 交换机会有一个 标识号, 该标识号用于该网络设备在网络中的逻辑位置。 0034 然后, 各网络设备将携带有网络设备的标识号的温度数据信息发送给温度采集下 位机。 0035 例如, 温度数据模块可以是现有 Infiniband 驱动程序包中的 mget_temp 工具, 该 mget_temp 工具可以结合 Infiniband 网络集群中每个节点的 Lid 号 ( 即网络设备的标识 号 ) 。

22、抓取节点的温度数据。由于每个节点的 Lid 号唯一, 因此可以实时抓取网络设备中的 Infiniband 板卡的当前温度数据。 0036 在可选实施例中, 温度服务器 40 还用于在比较出网络设备的温度数据超过预设 置的温度阈值时, 根据控制规则对该网络设备进行相应的控制。 0037 在实施例中, 可以对每一网络设备都设置温度阈值。例如温度阈值为 90 度, 如果 某一网络设备的温度数据大于 90 度, 则温度服务器 40 会产生提示信息。温度监测系统可 以通过显示模块来显示提示信息, 也可以通过声音模块进行提示。 0038 可选地, 温度阈值可以包括第一阈值和第二阈值等。 例如, 当某一网络。

23、设备的温度 数据大于第一阈值, 小于第二阈值时, 温度服务器指示对网络设备加大散热能力 ; 而另一网 说 明 书 CN 102811145 A 6 4/4 页 7 络设备的温度数据大于第二阈值时, 温度服务器对该网络设备发出关机命令, 从而使得该 网络设备停止工作。 0039 此外, 通过本发明实施例的温度监控系统还可以方便网络或服务器集群维护人员 针对超出温度阈值的网络设备去查找网络出错情况, 从而提高维护效率。 0040 图 2 是根据本发明一实施例的对具有 Infiniband 板卡的网络设备进行温度监测 的方法流程图。参考图 2, 对网络中的板卡进行温度监测的方法包括 : 0041 S。

24、101, 网络设备将携带有该网络设备的标识号的温度数据信息发送给温度采集下 位机, 其中所述网络设备具有无限带宽 Infiniband 板卡, 并且所述温度数据信息是所述 Infiniband 板卡的温度数据信息 ; 0042 S102, 温度采集下位机将从一个或多个具有 Infiniband 板卡的网络设备接收到 的携带有网络设备的标识号的温度数据信息发送给温度服务器 ; 0043 S103, 温度服务器接收温度采集下位机发送得携带有网络设备的标识号的温度数 据信息, 并根据网络设备的标识号将该网络设备的温度数据与预设置的相应温度阈值比 较, 在比较出该网络设备的温度数据超过所述温度阈值时,。

25、 产生该网络设备温度过热的提 示。此处, 预设置的相应温度阈值是指对于不同的网络设备可以设置不同的温度阈值。例 如, 对于 Infiniband 服务器和 Infiniband 交换机可以具有不同的温度阈值。 0044 在可选实施例中, 网络设备利用装载的 Infiniband 板卡驱动程序中的温度数据 模块抓取该网络设备中的 Infiniband 板卡的温度数据, 其中所述温度数据模块结合该网 络设备在 Infiniband 网络中的标识号抓取温度数据。 0045 在一实施例中, 所述温度数据模块是mget_temp工具, 所述mget_temp工具能够实 时抓取 Infiniband 板卡。

26、的当前温度数据。 0046 在可选实施例中, 所述温度监测方法还包括 : 所述温度服务器将接收到的携带有 网络设备的标识号的温度数据信息进行分类并存储。 0047 在可选实施例中, 所述温度服务器在比较出网络设备的温度数据超过预设置的温 度阈值时, 根据控制规则对该网络设备进行相应的控制。 0048 本发明实施例的温度监控系统或温度监控方法可以将各个时间段的整个网络节 点中的 Infiniband 板卡的温度数据都采集并存储下来以供后续分析, 避免了现有技术中 只能实时显示, 无法记录的缺点。通过 mget_temp 工具抓取的温度数据比传统板载温度传 感器测量的方式更接近实际温度。进一步地,。

27、 可以对整个网络中的网络设备进行温度监控 和管理, 从而能够提高维护人员对网络的维护管理能力和温度分析能力。例如, 如果监测 到网络设备的温度一直升高, 则需要对机房设备加大散热能力。 又如, 在网络出现异常情况 时, 可以通过温度对比找出是否跟温度过高导致板卡工作不正常有关。 0049 以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡在本发明的精 神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 说 明 书 CN 102811145 A 7 1/2 页 8 图 1 说 明 书 附 图 CN 102811145 A 8 2/2 页 9 图 2 说 明 书 附 图 CN 102811145 A 9 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 电学 > 电通信技术


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1