建议安装Infiniband Support包。 dnf groupinstall -y "Infiniband"然后查看端口配型,需要安装mstflint工具dnf install mstflint检查ib的设备的pci地址[root@storage01 [root@storage01 ~]#重启完成后,我们可以用nmtui添加infiniband配置了可以修改成下述配置(注意:IPoIB 设备可在 Datagram 或 Connected 模式中配置。 两者的区别可以参考这里第 6 章 配置 IPoIB Red Hat Enterprise Linux 8 | Red Hat Customer Portal)
此类网络结构的示例包括互联网广域 RDMA 协议 (iWARP) [1]、融合以太网上的 RDMA (RoCE) [2] 和 InfiniBand [2]。 相反,RoCE是InfiniBand贸易协会(ITA)发布的基于以太网的RDMA解决方案,支持可靠和不可靠的传输。InfiniBand 是一种先进的网络协议,具有低延迟和高带宽,常用于商用服务器。 例如,iWARP 和 RoCE 旨在与传统以太网协议兼容,InfiniBand 通过 IP over InfiniBand (IPOIB) 支持传统套接字应用。 此外,图 6 表明,尽管两种操作具有相同的 InfiniBand 路径,但 WRITE 提供的吞吐量高于 READ。 每个客户端发送 8 字节消息请求,其中包含 512 个无信号操作。 图 12 显示了增加客户端数量后的性能。
IB(InfiniBand)和 RDMA(Remote Direct Memory Access)是一种高性能网络技术,通常用于加速数据传输。 如果您看到与`openib`相关的输出,那么程序可能正在使用InfiniBand。 对于Intel MPI,您可以使用`-genv`参数来检查或设置网络后端。 在这些命令中查找与InfiniBand相关的库和头文件。使用系统工具: 当您的MPI程序运行时,使用`lsof`或`netstat`等系统工具观察其网络连接。 nemesis是它的网络模块。 要确定nemesis是否使用了InfiniBand,需要深入查看该nemesis网络模块的配置和使用的具体网络子模块。 nemesis可以与多种网络子模块一起使用,包括但不限于TCP、IB(InfiniBand)、MXM等。 在您的输出中,并没有直接提及是否使用了InfiniBand。
Capability mask: 0x02594868 Port GUID: 0x0002c90300b382a1 Link layer: InfiniBand Capability mask: 0x0259486a Port GUID: 0x0002c90300b382a2 Link layer: InfiniBand 8.x86_64 loc_qperf = 0.4.11 rem_node = storage01 rem_cpu = 20 Cores: Mixed CPUs rem_os = Linux 4.18.0-477.13.1.el8_8.x86_64 rem_qperf = 0.4.11也可以运行TCP带宽和延迟测试[root@storage02 KiB (8,192)tcp_lat: latency = 22.6 us msg_size = 16 KiB (16,384)tcp_lat: latency =
国家:越南行业:信息技术网络类型:InfiniBand网络方案类型:HPC网络案例亮点通过真实使用场景的全面测试,确保出色兼容性和高可用性,显著降低部署风险和运营成本。 借助现场技术支持,快速解决网络问题,并获取针对其数据中心的定制维护建议。建立高带宽、低延迟的InfiniBand网络,提升系统稳定性和性能,促进数字化转型。 在计算网络方面,该公司部署了NVIDIA® QM9790 InfiniBand交换机,并采用800G OSFP InfiniBand光模块,以实现脊交换机、叶交换机与GPU服务器之间的高速连接。 飞速(FS)的NVIDIA® Quantum-2 InfiniBand技术促使其升级为高性能、超低延迟且具备高度可扩展性的网络,充分发挥了RDMA和加速网络内计算等先进技术的优势。 采用高性能的InfiniBand网络进一步推动了公司的数字化转型。*文章来源于飞速(FS)官网
那么,在这篇文章中,我们将对InfiniBand和RoCE进行深入的比较,以帮助您找到适合您的AI数据中心网络架构。 带宽和延迟 InfiniBand和RoCE都提供了极高的带宽和低延迟的网络连接,使数据能够在极短的时间内传输到目的地。然而,InfiniBand在带宽和延迟方面具有轻微的优势。 此外,InfiniBand的延迟通常比RoCE低1-2毫秒。 易用性和可扩展性 RoCE网络架构相对简单,易于部署和维护。它基于标准的以太网协议,因此不需要额外的硬件或软件支持。 InfiniBand也提供了卓越的容错性和可靠性。它使用星型拓扑结构,支持冗余路径和链路聚合,以提高网络的可用性和稳定性。然而,与RoCE相比,InfiniBand的硬件成本和复杂性可能会更高。 另一方面,InfiniBand需要额外的硬件和软件支持,增加了总体拥有成本。 综上所述,无论您选择InfiniBand还是RoCE作为您的AI数据中心网络架构,两者都能满足高性能AI系统的需求。
在众多网络技术中,InfiniBand(IB)凭借其超低延迟、高带宽和硬件级卸载能力,已成为HPC领域的黄金标准。 管理网络:使用1台1GbE以太网交换机,用于操作系统安装、监控和带外管理。存储网络:使用1台10GbE以太网交换机,连接存储节点。此时存储流量不经过InfiniBand网络。2. 部署与配置要点:物理布局:为优化线缆长度,将InfiniBand交换机部署在机架中部位置。网络隔离:InfiniBand网络专门用于计算节点间的高速通信(IPC)和登录节点接入。 存储网络变更:存储节点直接接入InfiniBand网络,以提供更高的存储I/O性能,同时省去独立的10GbE存储网络交换机。管理网络:仍保留1GbE以太网用于带外管理。2. ib_write_bw -a> 170 Gb/s(双向)多对一压力ibstress无丢包,错误计数=0MPI综合IMB-MPI1(Intel MPI Benchmark)Allreduce @ 1KB: < 8μs
InfiniBand的设计目标是为数据中心和企业级网络提供更好的性能和可扩展性。 使用IPoIB技术,可以在InfiniBand网络上实现IP数据包的传输,从而利用InfiniBand的高速和低延迟特性。 InfiniBand子网管理器(SM)(InfiniBand 交换机):InfiniBand子网管理器是一个特殊的InfiniBand适配器,用于管理整个InfiniBand网络。 为此,需要在 InfiniBand 网络中确认 InfiniBand 适配器已启用 IPoIB 功能。 可以使用这些信息来评估网络性能和诊断问题。 在 InfiniBand 网络中使用 iperf3 时,建议使用 RDMA 选项(--rdma)以最大限度地利用 InfiniBand 网络的性能和特性。
尤其是今年以来,以ChatGPT为代表的AI大模型强势崛起,更是让InfiniBand的关注热度大涨。因为,GPT们所使用的网络,就是英伟达公司基于InfiniBand构建的。 InfiniBand的网络架构 InfiniBand的网络拓扑结构示意,如下图所示: InfiniBand是一种基于通道的结构,组成单元主要分为四类: · HCA(Host Channel Adapter 在InfiniBand 网络中,数据同样以数据包(最大4KB)的形式传输,采用的是串行方式。 InfiniBand的协议栈 InfiniBand协议同样采用了分层结构。 可以看出,InfiniBand拥有自己定义的1-4层格式,是一个完整的网络协议。端到端流量控制,是InfiniBand网络数据包发送和接收的基础,可以实现无损网络。 1X链路的实际数据带宽为2.0Gbps(因为采用8b/10b编码)。由于链路是双向的,因此相对于总线的总带宽是4Gbps。
⼀、了解SuperPOD的构建H100/H200算力集群系统中,通常使用可扩展单元(SU),作为一个基本单元进行管理,每个扩展单元包含32台DGX H100/H200服务器,分布在8个机架中,总共256 个GPU,配备8台叶交换机(图1示),分别位于叶交换机机架左、右两侧,使服务器到交换机连接距离最短。 服务器→叶交换机→脊交换机布线(图2示),是构建高带宽、低延迟、可扩展数据中心网络的核心设计思路,使用叶脊(Spine-Leaf)网络架构将设备进行连接,其中服务器与叶交换机同处于一个SU内,连接距离较短 目的都是将每台服务器中相应颜色的接口,连接到相同颜色的叶节点交换机(图4示),图中4台服务器的蓝色接口,将连接到蓝色标识叶交换机的01~04口,单台叶交换机可提供32个端口用于连接服务器,而剩余的32个端口将用于连接脊交换机,8台叶交换机组成的交换机机架
Gartner 终于下场了 最新推出的新兴技术报告 由分析师Anushree Verma撰写 为生成式 AI 网络提供前瞻性的见解 核心观点 对于那些考虑 InfiniBand 的人,Verma写道, 有必要“通过评估基于 InfiniBand 的交换机与基于超以太网的交换机,重新评估网络选择的性能、可靠性、可扩展性和价格。” InfiniBand 鉴于GPU由单一供应商主导,InfiniBand 是生成式 AI 应用中以太网的可行替代方案;然而,InfiniBand网络的价格较高,并且没有开放的生态系统 InfiniBand 但是预计 30% 的生成式 AI 流量将在InfiniBand上运行,目前这一比例还不到 20% Gartner 认为它“具有可扩展性限制,并且需要特殊技能来管理”,这意味着一些网络设计人员会因为难以管理的复杂性避免使用 然而,鉴于此类网络的开放生态系统和可靠性,使用无损以太网或超以太网的融合以太网 (RoCE) 上的远程直接内存访问 (RDMA) 可能被证明是有效的替代方案 到 2028 年,45% 的生成式 AI 流量将在以太网上运行
InfiniBand原生地支持SDN、Overlay和虚拟化等网络技术,是一种开放标准的高带宽、低时延、高可靠的网络互连。 InfiniBand和以太网的区别在于: 以太网使用以网络设备为中心的方法建立路由,主要面向低速网络; InfiniBand在设计之初就致力于解决传统网络的缺陷,用软件定义的方法建立大规模且流量纯净的二层网络 答:InfiniBand和以太网都是网络技术,但有一些主要区别。以太网是一种广泛使用的网络标准,存在已久,而InfiniBand是一种高速网络技术,专门用于提供低延迟和高带宽通信。 答:可以,InfiniBand 和以太网可以在同一网络中共存。许多现代数据中心同时使用这两种技术来优化性能和满足不同的网络需求。 问:以太网有不同类型吗? 以太网是一种广泛使用的成熟网络技术,支持各种仪器和应用。 问:InfiniBand如何提高网络可靠性? 答:InfiniBand提供高带宽和低延迟,有助于提高网络可靠性。
使用 nmcli 重新加载网络配置 nmcli c reload
如图: 图片 今天,这里我们主要讨论其网络层面。HPC 对网络的主要诉求是低时延、零丢包、高带宽。 以往,在这种高性能承载网络的选择上,人们通常会选用IB网络或RoCEv2网络,但InfiniBand(IB)解决方案其实暴露出了很多问题: 厂商垄断:目前只有一家厂商有成熟的IB产品&方案,厂商锁定,方案价格非常昂贵 兼容性低:InfiniBand采用单独的通讯协议,非TCP/IP协议族,无法做到与其他网络设备互通互访 售后服务响应不理想:IB专网运维依赖原厂,故障定位困难,且解决问题时间较长 供货周期长:受各种因素影响 系列低时延交换机HPC组网方案设计: 图片 组网方案 CX564P-N(1:1收敛) CX564P-N(3:1收敛) 64节点 1台 1台 128节点 6台 4台 256节点 12台 8台 再看一组CX-N100G交换机和IB交换机进行相同应用并行计算,运行效率基本一致: 图片 所以说,星融元的HPC网络解决方案完全可以替换IB交换机,且对比传统的IB解决方案,星融元的HPC网络解决网络解决方案具有以下优势
物理机网络配置: 虚拟机网络连接使用NAT模式,物理机网络连接使用Vmnet8。 虚拟机设置里面——网络适配器,网络连接选择NAT模式。 虚拟机菜单栏—编辑—虚拟网络编辑器,选择Vmnet8 NAT模式, 1.在最下面子网设置ip为192.168.66.0 子网掩码255.255.255.0 2.NAT设置里面网关IP为192.168.66.2 物理机网络连接VMNet8 手动设置ip地址 192.168.66.1 子网掩码255.255.255.0 网关和DNS地址为192.168.66.2(即虚拟机NAT的网关地址) 编辑linux网卡eth0 如果上一步配置了DNS这一步可以不配置,直接重启网络即可 如果ping不通百度,就必须设置下面的DNS配置 设置DNS地址,运行命令#vi /etc/resolv.conf 光标移动到空行,按“O” 重启网络服务 CentOS 7命令 : #service network restart 注意: 1.新安装的系统默认网卡ONBOOT=no,都需要更改 2.重启网卡, centos 8不能使用service
一、前言 k8s对Pods之间如何进行组网通信提出了要求,k8s对集群的网络有以下要求: 所有的Pods之间可以在不使用NAT网络地址转换的情况下相互通信 所有的Nodes之间可以在不使用NAT网络地址转换的情况下相互通信 每个Pod自己看到的自己的ip和其他Pod看到的一致 k8s网络模型设计基础原则:每个Pod都拥有一个独立的 IP地址,而且 假定所有 Pod 都在一个可以直接连通的、扁平的网络空间中 。 二、容器和容器之间的网络 ? image.png 在k8s中每个Pod中管理着一组Docker容器,这些Docker容器共享同一个网络命名空间。 对于如何来配置网络,k8s在网络这块自身并没有实现网络规划的具体逻辑,而是制定了一套CNI(Container Network Interface)接口规范,开放给社区来实现。 下面我们看看具体是如何做到的 4.1 netfilter 为了实现负载均衡,k8s依赖linux内建的网络框架-netfilter。
网络、host网络、none网络。 K8s网络模型 K8s术语 K8S 是一个用于容器集群的分布式系统架构。 K8s网络 K8s网络包括CNI、Service、Ingress、DNS 在K8s网络模型中,每个节点上的容器都有自己独立的IP段,节点之间的IP段不能重复,而节点也需要具备路由能力,使从本节点Pod里出来的流量可以根据目的 总结来说,K8s的容器网络重点关注两方面,IP地址分配和路由。 K8s主机内网络模型 K8s采用的是veth pair+bridge的模式,veth pair将容器与主机的网络协议栈连接起来,可以使pod之间通信。
一、背景介绍: 对于K8S里面容器之间的通讯基本上面可以分为三种类型: 1. POD里面不同容器之间的通讯: 因为同一个Pod里面的不同容器之间是共享同一个POD里面的网络资源,所以POD里容器之间的通讯基本上就是IPC之间的通讯方式,这个比较简单,不做详细介绍。 二、基础知识介绍: 网桥(Bridge): 在 Linux 中,能够起到虚拟交换机作用的网络设备,是一个工作在数据链路层(Data Link)的设备,主要功能是根据 MAC 地址学习来将数据包转发到网桥的不同端口 三、通讯过程介绍: 容器1的IP1访问容器2的IP2的交互过程如下所示: 1.在容器1中的路由规则里面查找IP2的地址,发现是是外部网络就会直接走容器1里面的eth0网卡(备注:走网卡的话,就是二层网路 从设备会被“剥夺”调用网络协议栈处理数据包的资格,从而“降级”成为网桥上的一个端口。
Kubernetes; 网络想做统一管理,k8s集群运行在OpenStack VM下, 如何做到更深层面的网络打通,典型的原因有: 1、 VM防arp欺骗,默认OpenStack虚拟机端口都开启了此功能 ;处于OpenStack VM里的k8s集群私有ip就无法扩节点通信,通过配置neutron port的allow_address_pairs可以放行私有ip; 2、Overlay网络损耗,再加上在虚拟机里部署 k8s集群,又跑了一层overlay网络,网络开销又增大了; 可选方案 k8s网络使用underlay网络 对现有应用需大量改造,应用内部大量使用内部service机制来调用其它服务,不兼容旧模型,pod 使用的是underlay网络,性能卓越; k8s网络使用多种cni k8s node运行ipvlan或macvlan+ptp的cni, node节点同时加载两个cni插件,ptp cni的作用是创建一对 适用于OpenStack和k8s集群是独立的环境,相当于由OpenStack接管service和NetworkPolicy,OpenStack实现变复杂; 最终选择k8s网络使用多种cni方案,基于保留