Fig-2 典型AI集群中的存储,包含以下3个组成部分: 1. GPU服务器-直连存储 • 有限存储(通常为8个U.2插槽) 2. 小结 • 认识AI数据流管道,不同环节数据体量和相应读写IO特征(Fig-1); • 企业AI生产基础设施的存储堆栈特征(Fig-2); • 思得基于QLC闪存的AI生产解决方案及其核心优势(Fig-9
Fig-2 shows the situation that window B is on the top of window A. Fig-2 .......................... ....AAAAAAAAAAAAA......... ....A...........A......... ....A..
要点速览 强化SSD侧的计算能力,构建计算型存储并不是新话题,本文从存储RAID计算切入,讨论在SSD上实现RAID卸载的xPUs 设计(Fig-2/3); NVMe 在计算卸载中发挥重要作用(Fig- KIOXIA:RAID 计算卸载优化数据迁移-Fig-2 数据冗余存在哪些挑战? 奇偶校验计算需要大量内存带宽和 CPU 资源(后面有PoC数据)。
NAND 闪存面临的机遇与挑战-Fig-2 NAND厂商2022-2025 技术路线图。 • TLC三层单元为市场普遍采用,但近些年来市场份额在逐渐减少,2020年超过90%,下降为24年不及80%; • QLC四层单元的市场份额逐渐扩大,从20年不及5%,逐渐扩张到24年20%左右,结合Fig
要点速览 基于PCIe 横向跨节点扩展AI集群的设想(Fig-2) 长距离 PCIe 线缆设计原型、信号处理方法、线缆选型(Fig-7/8/10) Fig-1 AI基础设施扩展挑战 AI模型持续扩展: Fig-2 左图是当前数据中心基于PCIe线缆实现的单机架互联通信,线缆长度不超过3m; 下一代PCIe希望延展到7m,已满足更大集群的互联通信。
SuperMicro:AI存储硬件方案-Fig-2 企业级AI存储方案 Pod 级别的部署(较云厂商规模、性能要求降低) 企业用例,推理与训练的比较 存储需求: • 全 NVMe 或 PB 级别的分层存储
Fig-2 AI训练工作流对应的存储方案定性说明。 Fig-3 图示 AI训练工作流中存储层动态交互过程。
Samsung:CXL 内存扩展更新-Fig-2 重温 CXL 设备的三种形态 • Type1:通过CXL.io和CXL.cache协议构建本地缓存加速卡,单机内存扩展的使用场景受限; • Type2:
WD:HDDs 一直都在-Fig-2 HDD 存储介质技术路标 1.
KV缓存存储了所有先前token的键和值 附加说明: • 一个大小相当于10本小说的输入,需要大约1000K的上下文窗口,并消耗大约1TB的内存 AsteraLabs:CXL内存扩展在推理场景的应用-Fig
XINNOR:高效RAID存储实践-Fig-2 AI训练过程实测GPU使用率和IO读写带宽,材料显示: • 测试数据训练过程持续10分钟左右,GPU饱和利用; • 检查点(Checkpoint)写入阶段
fig-2 focal loss prediction 分析这两者并观察其中的差异,可能是个很好的主意。这将有助于我们对于Focal loss进行直观的了解。
成为最快的RAID引擎 • 团队:大约40人;其中30多人是数学家和来自全球存储OEM厂商的行业人才 • 超过25个全球销售合作伙伴 • 超过100PB的终端客户数据 xiRAID 与 xiSTORE 介绍 Fig RAID+SDS,xiNOOR找准NVMe SSD 存储阵列软件RAID作为切入市场核心技术;并向下组合存储硬件,提供xiSTORE软件定义存储,可扩展的企业存储方案(Fig-2); 2.
MLPerf:AI场景的存储测试标准-Fig-2 关于MLCommons[1] MLCommons 是一个致力于推动机器学习技术标准化和性能提升的开源社区组织。
Fig-2 NVIDIA 加速计算常见的存储案例。
WD:适配GPU DAS的存储系统设计-Fig-2 使用NVIDIA GPUDirect和Western Digital解耦存储技术 左侧:没有GDS的情况下 GPU需通过CPU复杂路径从本地SSD读取机器学习数据
右图显示:2012年到2024年AI模型训练计算能力(PFLOPs)的增长趋势 NVIDIA:LLM集群存储IO行为-Fig-2 训练计算平台( Eos DGX AI 超级计算机的缩小版) • H100
MetisX:从CXL内存扩展到近存计算-Fig-2 Scale-Out 扩展限制 Scale-Out 定律面临海量数据集扩展,因‘数据重力’造成效率下降,需要重新思考 Scale-Up 的可能性。
云服务商视角下的CXL内存-Fig-2 问题: 内存成本的“船锚”效应 • 假设内存约占平台成本的一半 • 内存容量随着 CPU 性能的提高而增加 • 内存成本随着容量增加而增加 魔法般的 CPU(性能翻倍
Viking Enterprise:企业存储的分层视角-Fig-2 企业存储结构 图片右侧展示了一个存储层次结构的金字塔图表: • Tier 0: Flash/CXL(热缓存) • Tier 1: Flash