然而,最初的规范将 RoCE 部署限制在单个第 2 层域,因为 RoCE 封装帧没有路由功能。 RoCE消耗的资源比 iWARP 少,支持的特性比 iWARP 多。可以使用普通的以太网交换机,但是需要支持RoCE的网卡。 为什么RoCE是目前主流的RDMA协议? ,用户从以太网切换到RoCE只需要购买支持RoCE的网卡就可以了,其他网络设备都是兼容的。 针对RoCE v1和RoCE v2,以下两点值得注意: RoCE v1(Layer 2)运作在Ehternet Link Layer(Layer 2)所以Ethertype 0x8915,所以正常的Frame 因为 RoCE v2的封包是在 Layer 3上可进行路由,所以有时又会称为Routable RoCE或简称RRoCE。
RoCE的类型 RoCE协议存在RoCEv1和RoCEv2两个版本,这取决于所使用的网络适配器或网卡。 RoCE V1协议在以太层的typeID是0x8915。 RoCE v2:RoCE v2克服了RoCE v1绑定到单个VLAN的限制。 通过改变数据包封装,包括IP和UDP标头,RoCE v2现在可以跨L2和L3网络使用。 ? RoCE v1与RoCE v2数据包格式 如何实现RoCE? 通常,为了实现RoCE,可以安装支持RoCE的网卡或卡驱动程序。所有以太网NIC都需要RoCE网络适配器卡。 关于RoCE的常见问题 ? 下面列出了一些有关RoCE的常见问题。 1.
ROA、ROE、ROIC、ROCE... 这些字母组合是不是容易让你混淆?上周我和一位资深财务总监聊天,她叹了口气说:“刚审完一份报告,分析师把 ROIC 和 ROCE 搞混了,结果结论完全反了!” 这事儿真不少见,在资产分析里,ROA、ROE、ROIC、ROCE 这四个“回报率”指标,经常被弄混,但背后根本不是一回事儿。用错了,轻则闹笑话,重则误导决策! 四、ROCE(已动用资本回报率):看实际用于经营的长期资本赚多少当企业要比较不同地区业务的赚钱能力时,比如联合利华想知道印尼的肥皂厂和英国的冰淇淋厂哪个更赚钱,ROCE 就能派上用场。 ROCE关注的是,实际用于经营的长期资本,能带来多少息税前的回报。 比如:一家药企,中国工厂税率 25%,爱尔兰工厂税率 12%,用 ROCE 比较,就公平多了。3.能帮忙做产能决策如果产线的 ROCE 低于 10%,企业可能就会考虑关掉或者改造。
修改库和驱动程序以提供硬件所需的从 GID 到 MAC 地址的映射 Soft RoCE 驱动程序 Soft RoCE (RXE) - 软件 RoCE 驱动程序 ib_rxe 实现 RDMA 传输并作为内核动词提供程序注册到 用户空间 Soft RoCE 库 (librxe) 为用户应用程序提供了与 Soft RoCE 设备一起运行的能力。 显然,实现此行为是为了适应为每个端口创建 RoCE 设备的 HW-RoCE 设备,因此 RXE 的行为必须与 HW-RoCE 设备相同,并且仅为每个真实设备创建 rxe 设备。 表管理,RoCE GID 基于与 RDMA (RoCE) 设备端口相关的以太网网络设备上配置的 IP 地址。 目前,每个支持 RoCE(ocrdma、mlx4)的低级驱动程序都管理自己的 RoCE 端口 GID 表。
然而,RoCE对网络无损的严苛要求,配置不当会放大拥塞,如 PFC、ECN、Buffer滞留等引发的高延迟、性能下降等,而这些问题统一表现为“GPU通信异常”。而逐项排查的操作相当繁琐。 如何有效采集RoCE网卡状态数据?为解决 RoCE 网络监控运维上的不便,我们新推出了EasyRoCE-NE(RoCE网卡状态采集,NIC Exporter)RoCE网卡状态采集工具。 EasyRoCE 工具集是依托开源、开放的网络架构与技术,为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具,如一键配置RoCE,高精度流量监控等。
在这个充满竞争的领域中,InfiniBand和RDMA over Converged Ethernet(RoCE)无疑是两颗璀璨的明星。 那么,在这篇文章中,我们将对InfiniBand和RoCE进行深入的比较,以帮助您找到适合您的AI数据中心网络架构。 它的带宽高达120Gbps,而RoCE的最大带宽为100Gbps。此外,InfiniBand的延迟通常比RoCE低1-2毫秒。 易用性和可扩展性 RoCE网络架构相对简单,易于部署和维护。 然而,与RoCE相比,InfiniBand的部署成本较高,因为需要额外的硬件和软件支持。 容错性和可靠性 RoCE提供了强大的容错性和可靠性。 然而,与RoCE相比,InfiniBand的硬件成本和复杂性可能会更高。 性价比 虽然InfiniBand在某些方面优于RoCE,但性价比方面RoCE具有明显优势。
目前,RDMA技术主要通过两种方案实现:Infiniband和RoCE(基于RDMA的以太网技术,以下简称为RoCE)。 具体来说,RoCE在链路层和网络层与Infiniband有所不同,但在传输层和RDMA协议方面,RoCE继承了Infiniband的精髓。 以计算机数量计算,IB占比为47.8%,RoCE占比为39%;而以端口带宽总量计算,IB占比为39.2%,RoCE为48.5%。 在网络层,RoCE借助IP的成熟的持续发展,更能适应大规模网络。传输层及以上,RoCE和IB使用同样的协议,没有区别。 RoCE与IB的较量,究竟谁更胜一筹总的来说,RoCE和InfiniBand都由IBTA定义,没有本质的不同。
在上一篇中,我们对RoCE、IB的协议栈层级进行了详细的对比分析,二者本质没有不同,但基于实际应用的考量,RoCE在开放性、成本方面更胜一筹。 而RoCE的拥塞控制机制基于开放协议,可以由不同厂家的网卡和交换机来配合完成。 ECMP RoCE的ECMP数据中心IP网络为了高可靠和可扩展性,通常采用Spine-Leaf等网络架构。 在RoCE网络中,为了进一步细分RDMA操作,可以进一步识别BTH头部中的目的QP信息,从而实施更细粒度的ECMP。 在QoS方面,RoCE可以实现每个优先级的带宽保证,而IB仅能实现高等级的优先转发。在ECMP方面,两者均实现了基于Hash的负载分担。
简介随着互联网, 人工智能等兴起, 跨机通信对带宽和时延都提出了更高的要求, RDMA技术也不断迭代演进, 如: RoCE(RDMA融合以太网)协议, 从RoCEv1 -> RoCEv2, 以及IB协议 , Mellanox的RDMA网卡cx4, cx5, cx6/cx6DX, cx7等, 本文主要基于CX5和CX6DX对RoCE技术进行简介, 一文入门RDMA和RoCE有损及无损关键技术Nvidia : 完成队列元素, 可发音(cookie)RDMA Atomic: 原子操作, 主要用于分布式锁, Redis缓存等场景DCQCN: 数据中心量化拥塞通知ZTR(Zero Touch RoCE)PCP( 计数器, roce_adp_retrans(hw), local_ack_timeot_err(sw,hw)4. HPC场景交换机用ACL隔离, RoCE overlay 容器适用RDMA PF封装, RDMA适用于裸金属3. OVS, TC, offload, fw4.
# 时间 5月19日(周四)19:00 # 主题 RoCE,拿什么来赋能无损网络 # 嘉宾 浪潮网络产品部总经理 刘绍洋 北京邮电大学副教授、博士生导师 张娇 字节跳动网络研发专家 江卓 SDNLAB
RoCE无损网络配置与管理:从手动到自动化RoCE网络要发挥媲美IB的性能,关键在于“无损”配置(Zero Loss)。 # 配置Diffserv mapsonic(config)# diffserv-map type ip-dscp roce-dmapsonic(config-diffservmap-roce-dmap) cos 3 4sonic(config-cmap-roce-cmap)# exit# 配置Policy mapsonic(config)# policy-map roce-pmapsonic(config-pmap-roce-pmap ,让RoCE部署和管理变得前所未有的简单高效:1行命令启用RoCE: 业务级命令行封装,基于最佳实践模板一键完成复杂配置。 开箱即用的可视化监控: 内置RoCE Exporter容器,无缝对接Prometheus/Grafana,实时监控关键RoCE指标(时延、丢包、PFC状态、ECN标记等),网络健康一目了然。
推出了自研的DPU卡 当前DPU卡归类在计算自研 所以应该和阿里神龙MOC卡同样功效 关于DPU的现在和未来 讨论已太多请参阅:DPU&智能网卡 在网络侧 字节跳动引以为豪 就是推出4x200G的RoCE
RoCE网络在数据库一体机场景中崭露头角,IB网络逐渐失宠 数据库一体机是一个集成了硬件和软件的设备,专门为数据库场景设计。 现在,RoCE网络可以提供与InfiniBand网络相当的性能。因此使用RoCE网络替代InfiniBand网络,可以降低成本、提高组网的灵活性和可扩展性,更容易地进行部署和运维。 ---- CX-N系列云交换机可谓是这个场景下所寻找的“梦中情机”,可以帮助用户构建不同规模、灵活、可靠、高品质的低时延RoCE网络,为数据库一体机业务提供卓越的网络服务。 组网与功能测试 RoCE组网测试 前提条件 1. 管理网段流量互通 测试结果 所有测试均通过 数据库一体机功能测试 前提条件 RoCE组网已完成 测试步骤 通过数据库一体机管理平台完成如下步骤: 1. 配置管理计算和存储节点 2.
RoCEv2RoCE(RDMA over Converged Ethernet)协议是一种能在以太网上进行 RDMA(Remote Direct Memory Access 远程内存直接访问)的集群网络通信协议 RoCE网络的负载均衡和流控机制负载均衡技术1、基于流(Flow-based)ECMP(Equal Cost Multi Path)是一种路由技术,用于在IP交换网络中实现负载均衡。 虽然RoCE还是很难应对大象流/老鼠流分布不均的影响,但是各厂家也在做各种努力尝试:WCMP结合前文,ECMP技术将包、Flowlet或整个流均匀的分布到多个路径上,很大程度上忽略了不同路径上的实际负载
DCBX(Data Center Bridging Exchange)协议作为数据中心网络自动化的核心技术,可显著降低运维复杂度与人工配置错误,为RoCE(RDMA over Converged Ethernet DCBX作为现代数据中心网络自动化的关键协议,通过标准化、自动化的配置同步机制,显著提升了RoCE网络的部署效率与可靠性,为AI、HPC等高性能场景提供了坚实基础。
800G AI RoCE 交换机:性能和成本的突破无与伦比的性能:凭借更高的 TGR 和更低的 P90ITL,它提高了推理速度、响应能力和系统吞吐量。
但是RoCE流量和IB流量的统计位置是一样的:/sys/class/infiniband/<device>/ports/<port number>/counters/ 1.1 RoCE模式 RoCE将IB 传输的流量封装到下面两种以太网帧中: RoCE v1 - RoCE v1协议被定义为带有以太网头部的IB帧。 常规的以太网MTU也适用于RoCE帧。 RoCE v2 - RoCE协议的直接扩展使得流量能在3层IP环境下运行。 1.2 RoCE模式参数 对于CX3和CX3Pro设备来说,RoCE模式可以通过使用/etc/modprobe.d/mlx4_core.conf文件中的roce_mode参数来设置。 可用的值有:0(对应于RoCE v1), 2(对应于RoCE v2)。
(config-pmap-roce-pmap )# class roce-cmap sonic(config-pmap-c)# wred roce-ecn sonic(config-pmap-c)# priority-group-buffer diffserv roce-dmap sonic(config-pmap-roce-pmap )# exit # 进入以太网接口视图,绑定策略,将RoCE网络配置在接口上使能 sonic(config 一键启用无损以太网 故障排除或状态检查 AsterNOS 的 Easy RoCE 功能支持 show roce 命令行,用于一站式查看全局或接口视图的RoCE 配置和计数,以及清除所有配置和计数。 # 检查RoCE配置 sonic# show qos roce # 查看特定接口的计数 sonic# show counters qos roce interface 0/0 queue 3 # 清除全部计数 基于 AsterNOS 的开放式架构,还开发了一个容器化部署的 roce_exporter,用于提取设备 RoCE 相关信息,并与 Prometheus 无缝对接以提高网络可见性。