Fig-9 思得 根据数据生产流,推荐存储解决方案。 小结 • 认识AI数据流管道,不同环节数据体量和相应读写IO特征(Fig-1); • 企业AI生产基础设施的存储堆栈特征(Fig-2); • 思得基于QLC闪存的AI生产解决方案及其核心优势(Fig-9
RAID6相比RAID5在写入性能上有所降低,但读取性能相当 总结:xiRAID 云存储解决方案 XINNOR:高效RAID存储实践-Fig-9 1.
NVIDIA:LLM集群存储IO行为与鉴权机制-Fig-9 • 检查点大小为4.3 TiB • 检查点由少数节点完成(模型并行)。
MLPerf:AI场景的存储测试标准-Fig-9 队列深度-CosmoFlow • 多模态直方图表明应用程序中存在复杂行为。 • 在低队列深度(QD)的集中表明该应用程序对延迟非常敏感。
Zero推理 (图示推理过程负载分布) • 98%读取 • 2%写入 • DeepSpeedZero首先从磁盘读取模型(读取)到GPU • 在磁盘上更新参数(写入) • 在推理过程中继续从磁盘读取 Fig
WD:适配GPU DAS的存储系统设计-Fig-9 基于NVMe的直接访问协议,EBOF存储系统内部集成了强大的通信系统,在新型数据中心设计中,可省去原架构中独立的存储接入网络。
云服务商视角下的CXL内存-Fig-9 对比三种方案的碳排放量(以 CO2e 为单位): • 完全新 DDR5:碳排放最高。 • DDR5 + 再利用的 DDR4(无压缩):碳排放减少。
超微:下一代存储系统接口设计与实践-Fig-9 X14 Petascale 灵活拓扑(DC-MHS) 副标题:在1U和2U机箱设计中提供平衡的存储和网络带宽 • 左侧:1U/16个E3.S SSD(x4
Fig-9 AECs:PCIe 与 Ethernet 的比较 两者的主要区别: 协议复杂性(Protocol Complexity): PCIe: 协议结构更简单,没有 PCIe 的复杂性。
此层在采用 NVMeoF Everywhere 方案结合后端 SAS HDD 时获益显著 Viking Enterprise:企业存储的分层视角-Fig-9 Flash Options – Tier 3
PCIe 网络 PCIe 5.0 互联拓扑设计-Fig-9 GPU 热插拔复位: 重新配置 GPU 时,需要通过带内或带外的次级总线重置机制来保证系统稳定性。
KIOXIA:使用SSD加速RAG场景落地-Fig-9 后续工作(RAG All in Storage) • KIOXIA 推出了 ROSS(RAG 优化 SSD 解决方案),进一步通过基于磁盘的 ANNS
Fig-9 基于AMD的NVMe构建块配置 平台:Viking Enterprise Slutins (VES) VSS2249R 存储服务器 CPU:每个节点配备AMD EPYC 7702P 64核处理器
NVIDIA:GPU作为数据访问引擎的计算架构设计-Fig-9 瓶颈在于 NVMe 和引脚带宽,而非 GPU 图的上半部分示意GPU直通模式下(BaM)的数据访问路径,经历: GPU中的数据处理 --
要点概览 区分CXL内存扩展和基于Fabric网络互联内存(Fig-1 JBOMs) 内存扩展的基准测试方法 (Fig-4 ) 内存扩展对于AL/ML、大数据计算场景负载的价值(Fig-9/12) 如何理解两种内存扩展的区别
Fig-9 加权NUMA 内存管理策略 图片介绍了“加权 NUMA 交织”这一内存管理策略,该策略旨在优化带宽利用率,尤其适用于包含 CXL 设备的异构内存环境。
Part 2:优化 IU 容量的方案 Fig-9:增加L2P位数来扩容SSD物理容量 图片探讨了增加 L2P 表中每个条目所占位数的影响。 增加位数可以直接扩大固态硬盘可以支持的最大容量。