阅读收获
存储工程师与架构师 :深入理解大模型训练中SSD性能瓶颈的深层原因——混合写入导致的垃圾回收与碎片化,并掌握NVMe FDP(Flexible Data Placement)reclaim group技术如何通过数据物理隔离,从根本上解决这一难题,实现持续稳定的高性能存储。行业分析师与投资者 :识别FDP技术在AI基础设施建设中的战略价值,理解其如何保障大规模AI训练的QoS和TCO,为评估相关存储产品和解决方案提供新的视角。高校研究员与开发者 :通过实验数据验证FDP在抑制写放大因子(WAF)和维持吞吐量方面的显著效果,为设计和优化面向AI工作负载的下一代存储系统提供理论依据与实践指导。QLC SSD用户 :认识到在大容量QLC SSD应用中,精细化I/O路径和写入策略(如reclaim group)对于提升硬盘寿命和性能的决定性作用,避免盲目追求容量而忽视实际可用性。全文概览
大语言模型(LLM)的崛起正以前所未有的速度重塑着人工智能的边界,但在这场技术革新的背后,一个日益凸显的瓶颈正悄然浮现——那就是LLM训练过程中海量检查点(Checkpoint)带来的存储性能挑战。你是否曾疑惑,为何即便配备了最顶级的Gen5 NVMe SSD,训练效率依然难以达到预期?原始硬件的惊人带宽,为何在实际应用中却常常大打折扣?
问题的核心并非硬件速度不足,而在于数据管理策略的缺失。在LLM训练的复杂场景下,不同生命周期的检查点数据与训练数据混合写入,导致固态硬盘(SSD)内部频繁触发垃圾回收(GC)和数据碎片化。这不仅会使SSD性能骤降,吞吐量腰斩,更会加速硬盘寿命的损耗。这种“混合写入”的隐形杀手,正悄然吞噬着宝贵的训练时间。
本文将深入剖析这一深层挑战,并通过一项创新技术——NVMe FDP(Flexible Data Placement)reclaim group,揭示如何从根本上解决SSD性能不一致的顽疾。FDP如何通过智能的数据隔离,确保AI训练获得持续、稳定且可预测的高性能存储体验?它又将如何彻底终结GC风暴,为LLM训练带来质的飞跃?让我们一探究竟。
👉 划线高亮 观点批注
PPT的核心观点是,虽然大语言模型训练因其巨大的检查点(TB级别)而面临严重的性能瓶颈,但真正的挑战并非单纯的硬件速度不足,而是如何在复杂的实际应用场景下持续发挥出高速存储的性能 。
本页内容通过三个层次清晰地阐述了这一观点:
问题的严重性: 首先,通过数据和图表证明,大模型训练中检查点操作耗时占比极高(最高可达43%),是制约训练效率的关键瓶颈。
表面的解决方案: 其次,指出利用现代高速硬件(如Gen5 NVMe SSD)强大的原始带宽,理论上可以将检查点保存时间缩短到分钟以内,看似问题已经解决。
深层次的挑战: 最后,揭示了问题的复杂性——在实际写入过程中,不同生命周期的数据(如训练数据、不同类型的检查点)混合存储,会引发垃圾回收(GC) 和数据碎片化 ,从而导致高速存储性能严重下降,无法持续稳定地提供理论上的高性能。
因此,本页PPT旨在引出一个更先进的存储解决方案或架构的必要性,该方案不仅要快,更要能智能地管理数据布局和生命周期,以规避GC和碎片化等性能陷阱。
市面上不少存储产品现已匹配大容量QLC作为存储介质,但往往没有经过系统优化,直接挂盘使用,导致硬盘寿命快速缩水,消费级存储产品选择QLC还是要多留一点心眼,不能光看容量,图个便宜...
PPT的核心观点是,通过使用NVMe的FDP(Flexible Data Placement) reclaim group技术,可以有效解决因混合数据写入导致的SSD性能不一致问题,从而为AI训练等关键应用提供稳定、可预测的存储性能。
问题的根源: 在SSD上混合写入不同生命周期的数据(如短暂的检查点和长久的数据集)是导致垃圾回收(GC)频繁触发、写入性能剧烈波动的根本原因。
解决方案: FDP reclaim group技术通过在SSD内部实现数据物理隔离 ,允许将检查点这类I/O密集型、生命周期短暂的数据流与其他数据流分开,从而避免了相互间的干扰。
效果验证: “AS-IS”与“TO-BE”的对比图鲜明地展示了该方案的有效性。在没有隔离的情况下,写入性能会从峰值(10 GB/s)暴跌至谷底(2 GB/s);而在采用FDP隔离后,虽然峰值性能可能有所降低(稳定在5 GB/s),但获得了完全一致且可预测的性能 ,这对于保障整体训练时长和系统QoS至关重要。
QLC 大容量SSD的寿命有限,因此必须依靠更精细化的IO路径和写入策略(reclaim group)来改善使用寿命,否则频繁的GC过程会直接影响可用性。
PPT的核心观点是,检查点并非单一类型的数据,其多样化的生命周期是导致SSD在AI训练场景下性能问题的根本原因。
生命周期多样性是内生属性: AI训练本身就决定了检查点具有三种典型类型(Latest, Best, Manual),分别对应短、中、长三种生命周期。这是一个普遍存在的场景,而非特例。
混合写入是性能杀手: 传统存储系统不区分数据生命周期,将所有数据按顺序写入。这种“混合写入”策略导致了SSD内部物理块的严重碎片化。
碎片化触发高昂的GC成本: 当短生命周期数据失效后,留下的“空洞”使得SSD必须执行低效的垃圾回收操作来整理空间。这不仅会严重降低后续的写入性能(如前一张PPT所示),还会增加写放大,缩短SSD的使用寿命。
引出解决方案的必要性: 本页PPT通过深入剖析问题的根源,有力地论证了需要一种能够感知并隔离不同生命周期数据的智能存储方案,从根本上避免碎片化和GC风暴。这为前一页提到的FDP等技术提供了坚实的理论依据。
再次重申:业务层不同场景/保存策略,容易产生混合的IO写入行为,而QLC的应用要尽量规避随机写IO。
PPT的核心是通过一个精心设计的、可复现的实验,用真实数据证明了“混合生命周期检查点写入会导致GC并严重降低存储性能”这一论断。
实验的有效性: 实验巧妙地通过控制文件写入和删除行为,成功模拟了三种不同生命周期的检查点(Latest, Best, Manual)并发写入的真实场景。
问题的可复现性: 在标准的、未使用FDP等优化技术的存储配置下,混合写入模式必然导致了性能问题。这说明这是一个普遍现象,而非偶然。
数据支撑的强有力证明:
WAF的上升 (1.0 -> 1.395) 从SSD底层证实了GC被激活。
吞吐量的骤降 (21.7 -> 9.6 GB/s) 从应用层面证实了GC对性能的灾难性影响。
===
测试结果 (Non-FDP) (在未使用FDP技术下的结果)
关键指标1:WAF (写放大因子)
结果: WAF从测试开始时的1.0上升到了测试结束时的1.395。
解读: WAF是衡量SSD内部GC活动的重要指标。WAF大于1.0意味着SSD内部实际写入的数据量大于主机发送的数据量,多出来的部分就是由GC搬运数据产生的。WAF从1.0上升到1.395,明确地指示了GC活动的存在和强度 。
图表: 左侧的柱状图直观展示了WAF的变化,从开始(Start)的1上升到结束(End)的1.395。
关键指标2:检查点写入速度
结果: 一旦GC开始,检查点的写入速度就急剧下降。
解读: 这直接证明了GC活动对前台应用性能的负面影响。
图表: 右侧的柱状图展示了模型A(Keep Latest)的检查点I/O吞吐量变化。在测试开始时,吞吐量为21.7 GB/s,接近硬件的理论性能。而在测试结束时,吞吐量骤降至9.6 GB/s,性能下降了超过55% 。
改善GC/WAF的日常实践
PPT的核心观点是,FDP技术通过在SSD内部实现数据的物理隔离,从根本上消除了因混合生命周期数据写入所导致的GC和性能下降问题,为AI训练等关键工作负载提供了持续稳定的高性能存储。
FDP是问题的根本解: 与TRIM、OP等缓解措施不同,FDP通过“数据放置感知”主动避免了问题的发生。它将不同生命周期的数据从源头上就分流到不同的物理区域,使得短生命周期数据的删除不会影响到长生命周期数据,从而根除了碎片化的产生。
实现方式灵活: 即使上层应用(如DLIO)不直接支持FDP,也可以通过NVMe命名空间(Namespace) 这一标准化功能与FDP结合,为不同数据流创建隔离的存储池,这为在现有生态中落地FDP提供了可行的路径。
效果显著且量化:
WAF稳定在1.0: 这是最硬核的证据,表明GC被完全抑制。
吞吐量维持峰值: 应用性能得到了完全的保障,实现了可预测的、一致性的高性能(Excellent QoS)。
完整的“问题-分析-验证”闭环: 这张PPT与前面的内容共同构成了一个完整的技术论证故事:提出问题(检查点影响性能)-> 分析根因(混合生命周期导致GC)-> 实验复现问题(Non-FDP测试)-> 提出并验证解决方案(FDP测试) 。整个逻辑链条清晰、证据确凿。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
FDP技术虽然解决了混合写入问题,但在实际大规模部署中,如何与现有的存储栈(如文件系统、块存储层)无缝集成,并确保其管理复杂性不会抵消性能收益? 考虑到QLC SSD在成本和容量上的优势,FDP这类精细化数据管理技术是否会成为未来数据中心存储介质选择的关键考量因素?它将如何影响存储硬件和软件的生态发展? 除了LLM训练,FDP的“数据放置感知”理念还能应用于哪些对存储性能一致性要求极高的场景(如数据库、实时分析)?在这些场景中,FDP的实现方式和挑战会有何不同? 原文标题:Sustaining High-Speed LLM Checkpointing with FDP[1]
Notice :Human's prompt, Datasets by Gemini-3-Pro
#FMS25 #FDP数据灵活放置
---【本文完】---
丰子恺-护生画集-雀巢可俯而窥
👇阅读原文 ,搜索🔍更多历史文章。
https://files.futurememorystorage.com/proceedings/2025/01K5SG9SES96JBV4T0PTNP3S23.pdf ↩