全部指标参考值来自如下命令: root@ucloud-wlcb-gpu-061:/etc/zabbix/externalscripts# /usr/bin/mlnx_perf -i ibs31 -t 10 ib_list = [] for key in Result_str: ib_list += [{'{#IBNAME}':key}] print(json.dumps({ 'data':ib_list},sort_keys=True,indent=4,separators=(',',':'))) def net_traffic_List(ib_name): CMD = ''' /usr/bin/mlnx_perf -i %s -t 10 -c 1 | grep vport_rdma_unicast_bytes | awk -F "=" '{print $2}' ,/usr/bin/python3 /etc/zabbix/externalscripts/ib_network_discovery.py IB_network_discovery UserParameter
RDMA的内存管理(IB内核管理用户态内存) - ib_umem简介从内核模块暴露IB内存接口: ib_umem_get()/ib_umem_release() ,可让低级驱动程序控制何时调用 ib_umem_get 还将这些函数移至 ib_core 模块而不是 ib_uverbs 中,以便使用它们的驱动程序模块不依赖于 ib_uverbs。 region = ib_umem_get -> pin住以及通过DMA映射的用户空间内存, IB/uverbs:将 ib_umem_get()/ib_umem_release() 导出到模块,导出 ib_umem_get RDMA/umem:在 ib_umem_get() 中添加一个调度点,映射小至 64GB 可能需要 10 秒以上,触发 CONFIG_PREEMPT_NONE=y 的内核问题。 实现私有通道操作,并注册网络通知程序 irdma_hwreg_mr(iwdev, iwmr, access) -> 发送cqp命令进行内存注册 irdma_alloc_and_get_cqp_request
然而,随着大模型规模的不断扩大和训练需求的增加,智算网络面临的挑战也日益严峻。网络作为连接计算集群的重要基础设施,其性能直接影响着AI训练的效率和效果。 RoCEv1作为链路协议层,要求通信双方位于同一二层网络内。而RoCEv2 则为网络层协议,它采用以太网网络层和 UDP 传输层,取代了 InfiniBand 的网络层,从而提供了更为优秀的可扩展性。 智算网络中的负载均衡与流量控制AI大模型时代下,数据中心与智算网络,如Spine-Leaf架构,拓扑规整,选路简易。 InfiniBand网络的负载均衡和流控机制InfiniBand网络通过多层次技术协同,实现了高效的数据传输与资源管理。 UFM实现零配置(按端口收费)手工配置、或基于开放网络技术实现的 EasyRoCERoCE还是IB?
用通俗的话讲,把以太网想象成一个快递包裹分发网络(路由寻址);而IB网络,则可以想象成一个地铁轨道交通网络。 IB网络 IB网络 你可以想象成一个地铁轨道交通网络。这是因为IB的底层是基于VCT(Virtual Cut Through)技术。 IB网络是直接然后再在过每个中转站的时候,车屁股还没进站,车头已经向下一站出发了!所以它的延迟才能做到这么低。 并且,也如同轨道交通网络一样,这些中转站(交换机)之所以能做到这么快的让车辆通过,是因为目的地车站是确定且有限的(IB网络的地址数量,称为LID号,是有限的,地址空间65535个),所有列车怎么走在网络开始运行前都提前决定好了 (路由表提前算好),所以在每个中转站的扳道工只需要简单查一下线路图(实现就是个普通的数组查询),“到10号站的车该走n2出口”就行了,而不像快递网络一样去查“xxx区xxx号xxx大厦”该怎么走(实现中用哈希或者
1f:00.0 set LINK_TYPE_P1=2 mstconfig -d 1f:00.0 q 可以查看设备信息,包括设备工作运行的模式(LINK_TYPE_P); 标题:修改服务器IB
按:昨天整理了UALink(vs NVLink)最新进展,作为片上互联技术,其传输效率要求最高;而集群(Pod)间互联技术,同样也存在竞争,即超以太网UE,对标NV的IB网络。 问题意识:AI 与 网络 AI用于网络,还是网络用于AI? • 许多文章/博客讨论了AI如何改变网络基础设施 • ...但你需要什么样的网络基础设施才能拥有足够的AI来改变网络基础设施? 节点间的Scale-Out互联网络,目前有IB/RoCE 方案,超以太网(UE)是基于Ethernet的基础设施; 4. 其他标准网络,如系统中的业务网、存储网、管理网等,通常基于百G内以太网。 网络可视性:通过端到端遥测技术提供增强的网络可视性,有助于更好地监控和管理网络性能。 传统RDMA网络与超以太网比较。 AI基础设施工作负载特征,推导其对高速网络的性能需求。 2. 区分集群网络,划分为:加速计算xPU的Scale-Up网络、节点间的Scale-Out互联网络、其他标准网络,指出每部分网络的特征。
,然后install 和 update 一下就没事了 原文链接:https://stackoverflow.com/questions/28204108/ib-designables-failed-to-update-auto-layout-status-failed-to-load-designables
此外,网络在功耗和总体 TCO 中的占比持续上升,因此对 UEC 网络技术的不大投资将带来快速的投资回报。 这种细粒度的负载平衡可以提高网络利用率并减少尾部延迟。 拥塞处理:大规模人工智能集群和 HPC 网络具有独特的流量模式,特别是在加速卡的网络速度和带宽不断增加的情况下,需要对传统数据中心网络拥塞处理进行重大改进。 AllReduce 和 All-to-All 等基础集合的网络优化对于减少作业完成时间至关重要。为了给这些集合提供最高的网络性能,基于多路径协调的拥塞控制对于指导数据包喷发至关重要。 有损和无损网络:虽然 UET 在有损网络上提供出色的性能,利用多路径和网络遥测辅助下的改进拥塞控制,它也可设计在无损网络上运行。
接上文: RDMA - IB规范卷1 - 传输层(概述-基本传输头-扩展头-功能-保序-包头校验), https://cloud.tencent.com/developer/article/2513460 例如,在某些拥塞的网络结构情况下,当预期 RDMA READ 或 Atomic 响应时,可能会收到 ACK。即使响应数据包中包含的 PSN 与请求方预期的响应 PSN 匹配,也可能发生这种情况。 未完, 下一篇(9.7.8 可靠数据报): https://cloud.tencent.com/developer/article/2516321 参考 IB Spec1.6 卷1第9章
True: 7 conn, addr = server.accept() #阻塞 等待连接 8 print("new conn:",addr) 9 while True: 10 cmd.encode("utf-8")) #发送命令给server端 9 cmd_res_size = client.recv(1024) #接受server端发过来的命令结果信息长度 10 6 while True: 7 conn, addr = server.accept() 8 print("new conn:",addr) 9 while True: 10 6 while True: 7 conn, addr = server.accept() 8 print("new conn:",addr) 9 while True: 10 7 cmd = input(">>:").strip() 8 if len(cmd) == 0: continue 9 if cmd.startswith("get"): 10
网络编程 网络通信协议分层思想 为什么要分层呢? ---- 参考模型 OSI七层模型 物理层、数据链路层、网络层、传输层、会话层、表示层、应用层 TCP/IP参考模型 应用层、传输层(TCP/UDP层)、网络层(IP层)、数据链路层、物理层 我们今天要讲的主要是传输层 在TCP/IP协议中,IP层主要负责网络主机的定位,数据传输的路由,由IP地址可以唯一确定Internet上的一台主机。 而TCP层则提供面向应用的可靠的或非可靠的数据传输机制,这是网络编程的主要对象,一般不需要关心IP层是如何处理数据的。 可靠的传输是要付出代价的,对数据内容正确性的检验必然占用计算机的处理时间和网络的带宽。因此TCP传输的效率不如UDP高。
本文我们将继续分析RoCE和IB在拥塞控制、QoS、ECMP三个关键功能中的性能表现。拥塞控制拥塞控制即用来减少丢包或者拥塞传播,是传输层的主要功能,但需要借助链路层和网络层的帮助。 RoCEv2 的拥塞控制机制RoCEv2通过链路层PFC、网络层ECN、传输层DCQCN三者协同配合,实现更高效的拥塞管理,可见,RoCEv2虽然使用了IB的传输层协议,但在拥塞控制方面有所不同。 在网络层,IB的GRH支持8个bit的Traffic Class字段,用于在跨子网的时候提供不同的优先级,但同样无法保证带宽。 InfiniBand的ECMP在控制平面,IB的路由基于子网管理器,在拓扑发现的基础上实现ECMP,但由于集中式的子网管理器与网络设备分离,可能无法及时感知网络拓扑的变化,进而实现动态的负载均衡。 总结来看,IB具备已验证的高性能和低延时优势,RoCEv2则在互操作性、开放性、成本效益方面更胜一筹,且从市场占比及认可度来看,RoCEv2逐渐比肩IB;但不得不承认的是,RoCE和IB在应对大规模AI
RoCE与IB网络层级对比IB与RoCE协议栈在传输层以上是相同的,在链路层与网络层有所区别:RoCEv1中,以太网替代了IB的链路层(交换机需要支持PFC等流控技术,在物理层保证可靠传输),然而,由于 支持速率从 10GbE到800GbE。IB的物理层则是专有的,采用更传统的NRZ(Non-Return-to-Zero)调制技术和64/66b编码。 支持铜缆和光纤,接口通常为 QSFP、OSFP,支持速率从 10Gbps 到 400Gbps,并可以通过多通道的组合实现更高的总带宽(如 800Gbps)。 但由于两者都达到了100ns级别,而根据UEC的最新定义,在传输RDMA时,端到端性能要求通常为10μs左右,它们的差别不大。网络层RoCE的网络层使用IP,可以是IPv4或IPv6。 在网络层,RoCE借助IP的成熟的持续发展,更能适应大规模网络。传输层及以上,RoCE和IB使用同样的协议,没有区别。
10年前,智能手机还没有广泛普及,Windows 7才刚刚发布,而网络安全更是一个小众的圈子,远非如今媒体记者笔下的常客。 从一个孤岛到一个自行其道的小世界。 网络安全这10年,风雨有过,辉煌有过,曾谷底呆过,也曾见高楼起。一群白帽子,从独行者,侠客,到归于企业麾下或是走出创业的一条路,他们为网络世界的安全而战。 一批网络安全企业,从0到1,见证网络安全走向合规和产业化,而穿插其中的,是这10年来一个个或许你还依稀记得的安全事件…… 2020年,网络安全再启程之际,笔者却想和你,再走一遍这10年。 可以说,这一年,网络安全领域面临的威胁多种多样。 10年归0,2020年网络安全再启程!回顾20世纪的第2个十年,会发现,网络安全的一个个变革,似乎早就在10年间一个个看似普通的日子里埋下了伏笔。 那现在的我们,抽根烟,可以如常地谈起APT,网络战,说起5G的网还行,最近哪个公司又搞出了几亿数据泄露……尽管我们无法预测新的一个10年具体会发生什么,但是,从眼前出发,我们能知道: 大数据发展下,隐私数据安全与合规依然会是网络安全的热门
上面传输的头,Head=Head+length 中的第二个Head,包含 传输者id,当前传输是传输的消息最后一段还是中间,当前传输 是服务器第消息
SAP PM 入门系列17 - IB03 显示设备BOM 1,SAP PM模块里的BOM. material can be created for each piece of equipment or for a group of technical objects. 3, 使用事务代码IB03 BOM usage用4(plant maintenance).输入设备号,工厂代码,bom usage,回车, 看这个设备BOM的header数据, 如下方式可以查到BOM的变更记录, 系统切换到IB80
github.com/CocoaPods/CocoaPods/issues/5334#issuecomment-255831772 arifken **arifken **commented 2016年10
在整个传输过程中,只有在用户层数据是明文的,而网络中的传输数据始终处于加密状态。 HTTPS 也是一个应用层协议. 只是 在 HTTP 协议的基础上引入了一个加密层. 加密方式的定义? 二、HTTPS 工作方案 既然要保证数据安全, 就需要进行 “加密”,网络传输中不再直接传输明文了, 而是加密之后的 “密文”. 由于中间的网络设备没有私钥, 即使截获了数据, 也无法还原出内部的原文, 也就无法获取到对称密钥(真的吗?) 这对密钥对就是用来在网络通信中进行明文加密以及数字签名的。 常见问题 为什么摘要内容在网络传输的时候一定要加密形成签名? MD 5 特性 定长: 不论输入字符串的长度如何,生成的 MD5 值都是固定长度(16 字节或 32 字节)。
Failed to Start on Mac Due to Innnodb Libdata1 Can Not Be Opened in Read Write Mode" date: 2020-05-10T17 /ib_logfile0 can't be opened in read-write mode 背景 昨天重启了macbook之后,今天跑开发, 发现本地mysql连不上, 报错如下 2020-05-10T09 /ib_logfile0 can't be opened in read-write mode. 2020-05-10T09:18:05.510492Z 0 [ERROR] InnoDB: Plugin 2020-05-10T09:18:05.822627Z 0 [ERROR] Aborting 解决方案 进入/usr/local/var/mysql/ 目录, 删除ib_logfile0文件, rm -rf /usr/local/var/mysql/ib_logfile0 重启mysqld搞定 原文链接 https://www.wxhmf.com/posts/mysql-failed-to-start-on-mac-due-to-innnodb-libdata1
ib_logfile0和ib_logfile1被覆盖但是mysql还在正常运行,复现问题记录排查流程,涉及文件系统的一些知识点。 案例中的 ib_logfile[*]由于没有新创建硬链接,所以 i_nlink = 1,加上此时 3306实例处于运行中,需要调用 到 ib_logfile[*]文件,所以 i_count = 1( 当前无其他进程使用到 (7)mxx :hex memory-mapped type number xx. (8)m86:DOS Merge mapped file; (9)mem:memory-mapped file; (10 Xenix lock on part of the file; (9)X:for an SCO OpenServer Xenix lock on the entire file; (10 (stat看不到,删除的只能用lsof看) 所以数据实际是写入被删除的文件中的 3 如何恢复 停写后用文件句柄把数据捞回来,例如上图的ibdata cat /proc/23141/fd/10 > /u01