本文从存储RAID计算切入,讨论在SSD上实现RAID卸载的xPUs 设计(Fig-2/3); NVMe 在计算卸载中发挥重要作用(Fig-4); 通过PoC测试比较了卸载前后的CPU/内存资源使用情况(Fig KIOXIA:RAID 计算卸载优化数据迁移-Fig-6 RAID 卸载前后的基准测试数据 左侧是整个NVMe-oF网络拓扑结构,右侧是基准测试数据。
Fig-6 Checkpoint机制是在训练深度学习模型时定期保存模型状态(参数、优化器状态等)的过程,以便于在中断或崩溃时恢复训练。其IO行为特征主要包括: 1.
SuperMicro:AI存储硬件方案-Fig-6 方案验证 机架视角的集群组网方案 解决方案架构,分为三个层次: 1.
核心要点:GPU从Blob存储层同时访问会驱动高吞吐量 Fig-6 从AI系统存储带宽需求,看HDD和SSD发展现况和机遇: • 当前系统使用SSD能满足训练和Checkpoint的性能读取(但成本较高
Samsung:CXL 内存扩展更新-Fig-6 分层内存的架构示意 • 数据流说明: 1. Computer System(计算机系统)通过 CXL.memory 接口访问数据。 2.
AsteraLabs:CXL内存扩展在推理场景的应用-Fig-6 主要看右侧的图即可, 比较了使用CXL与否的两个测试组,CPU使用率和可支持示例数差异,结论: 单个实例的系统工作负载(约1TB): •
XINNOR:高效RAID存储实践-Fig-6 分布式跨节点EC xiRAID Opus可以作为分布式纠删码部署在多个服务器上。
NVL GPU("NVL" 代表 "NVLink") • 驱动版本535.161.08 • Cuda版本12.4 • 模型(GNN训练) • Illinois Graph Benchmark异质6亿节点 Fig
WD:适配GPU DAS的存储系统设计-Fig-6 适配A100 的 Ingrasys ES2100 存储系统 与H100 的差异是:计算单元使用的是PCIe Gen4 的PLX 交换机,存储节点支持12
MLPerf:AI场景的存储测试标准-Fig-6 队列深度对IO行为的影响 • 队列深度是应用程序或存储层(如文件系统)并行性的结果。
NAND 闪存面临的机遇与挑战-Fig-6 1. 收入趋势分析:NAND闪存行业的收入在2017年和2018年达到高峰,约为60,000至65,000百万美元。
NVIDIA:LLM集群存储IO行为-Fig-6 IO行为特征(区分3个阶段) • 初始化读取阶段 - 仅一次 • 计算阶段 - 迭代GPU处理 • 检查点写入阶段 - 每N次计算迭代 三个关键阶段及其特征
CXL 内存扩展与解耦 MetisX:从CXL内存扩展到近存计算-Fig-6 1.
Fig-6 基于PCIe 扩展CPU计算节点的内存(JBOM) Fig-7 PCIe 布线方案 外部布线覆盖范围的考量(External Cabling Reach Considerations) 1
云服务商视角下的CXL内存-Fig-6 • 大量冷内存可以被放置到一个更慢的内存层中。 • 2:1压缩在各种工作负载下是现实可行的: • 减半了慢速内存层的介质成本。
IOPs 添加原生 NVMe 前端 • 以太网连接的 HDDS 两种方法都会增加解决方案的采购成本,同时启用从企业中消除 SAS(或其他协议) Viking Enterprise:企业存储的分层视角-Fig
超微:下一代存储系统接口设计与实践-Fig-6 Gen5 EDSFF Petascale 平台创新 1.
Fig-6 CSD 推理架构 使用小模型预测 LLM 推理中的权重访问行为 约有 1/3 的高频权重存储在 GPU/NPU 的 DRAM 中。
Solidigm:CSAL 云存储加速层实现与优势-Fig-6 读带宽(Read bandwidth): • CSAL 在大多数测试中显示出更一致的读带宽表现,基本维持在接近或超过 146 MB/s 的水平
,非无限扩展 可大规模横向扩展 基于以太网的可扩展性 应用场景 节点内设备连接(CPU、GPU) 高性能计算(HPC)、GPU集群通信 云计算、数据中心、分布式存储 PCIe 5.0 互联拓扑设计-Fig