KIOXIA：超高IOPS SSD的需求和设计

数据存储前沿技术

发布于 2025-11-29 18:15:38

3680

阅读收获

掌握GPU显存扩展策略：理解GPUDirect Storage等技术如何利用本地SSD作为GPU HBM的“扩展层”，使AI模型能够处理10倍至100倍大的数据集，有效缓解显存容量瓶颈。
优化AI数据访问性能：学习“近-GPU缓存”和“分层KV缓存”架构，将低效的网络小I/O转化为高效的本地SSD小I/O，显著提升AI训练和LLM推理的数据吞吐与响应速度。
洞察高性能存储介质与接口演进：认识KIOXIA XL-FLASH等低延迟NAND技术和PCIe 5.0到7.0的演进，及其对实现1亿IOPS超高存储性能的决定性作用。

全文概览

在AI浪潮席卷全球的今天，GPU已成为驱动智能未来的核心引擎。然而，随着大模型和复杂AI应用的爆发式增长，我们正面临一个日益严峻的挑战：昂贵的GPU高带宽内存（HBM）容量捉襟见肘，传统存储I/O模式已无法满足GPU饥渴的数据需求。 你的AI训练是否因显存不足而受限？你的LLM推理是否因KV缓存膨胀而性能骤降？

本文将深入探讨高性能SSD如何在AI时代扮演“隐形加速器”的角色，通过一系列创新技术，有效突破GPU显存瓶颈，重塑AI工作负载的数据访问模式。我们将揭示GPU内存扩展、近-GPU缓存以及分层KV缓存等前沿架构，并剖析XL-FLASH等低延迟介质和PCIe总线演进如何共同驱动AI存储性能的飞跃。准备好，一起探索高性能SSD如何解锁AI算力的无限潜力！

👉 划线高亮观点批注

高性能SSD应用场景

GPU内存扩展

“GPU内存扩展” (GPU Memory Extension)，它旨在解决AI应用中GPU显存 (HBM) 容量不足和成本高昂的核心痛点。

核心观点是： 许多AI工作负载（如大型图神经网络、推荐系统）受限于内存容量（Memory-bound），而不是计算能力。

所提出的解决方案是： 利用本地的高速SSD（如NVMe SSD）作为GPU HBM的“扩展层”或“交换空间”。

关键实现技术是“GPU发起的I/O” (GPU-initiated I/O)，例如NVIDIA的GPUDirect Storage。该技术允许GPU绕过CPU，直接对SSD进行高速I/O操作（高达2亿IOPS）。

最终效果是： GPU可以透明地访问一个远大于其物理HBM的扩展内存池（HBM + SSD），从而使其能够处理比以往大10倍到100倍的数据集，极大地扩展了AI模型可处理问题的规模。

新兴AI用例：近-GPU缓存

PPT介绍了一种针对AI工作负载的“近-GPU缓存” (Near-GPU Caching) 架构。

核心观点是： AI应用中常见的大量、小规模、随机的数据读取（Small I/O）通过高速网络从远程数据湖（Data Lake）获取时，效率极低。

所提出的解决方案是： 在计算服务器（GPU附近）部署一个本地SSD作为缓存。其工作流程分为两步：

缓存预热： 由CPU发起，从远程数据湖进行一次性的大型、高效、顺序的数据传输，将所需数据预先加载（pull）到本地SSD缓存中。
服务读取： 当GPU实际需要数据时，CPU从本地SSD上执行小规模、随机的数据读取，并快速将数据喂给GPU的HBM（高带宽内存）进行计算。

这种架构通过将低效的网络小I/O转换为高效的本地SSD小I/O，规避了网络延迟和协议开销，从而显著提升了AI工作负载的数据访问性能。

键值缓存

专门针对生成式AI（大语言模型）推理场景的“键值缓存”（KV Caching）架构。

核心观点： LLM推理的性能瓶颈之一是KV缓存。随着对话或生成文本（上下文）变长，KV缓存会急剧增大，迅速耗尽宝贵的GPU HBM（显存）容量。

所提出的解决方案： 采用一种分层缓存（Hierarchical Caching）机制，使用本地SSD来扩展HBM/DRAM内存缓存。

工作机制（由CPU协调）：

一级缓存（热数据）： HBM/DRAM中存储当前最活跃的KV对。
二级缓存（冷数据）： 当一级缓存满时，将较早的、暂不使用的KV对“卸载”（Offload）到大容量的本地SSD上（如图中红色箭头）。
数据重载（Reload）： 当需要访问被卸载的KV对时，再从SSD将其“加载”（Load）回HBM（如图中绿色箭头）。

核心观点是： 这一性能的巨大飞跃（从300万跃升至1亿IOPS）主要依赖两大技术支柱：

核心存储介质的变革： 从传统的TLC Flash转向KIOXIA自家的XL-FLASH技术（一种高性能、低延迟的NAND闪存）。
I/O接口的演进： 性能的提升与PCIe总线的换代（从5.0到7.0）紧密同步，以提供足够的传输带宽（从14GB/s到50GB/s）。

一个非常关键的细节是： 从2026年开始，实现1000万及1亿IOPS的测试指标从标准的“4K随机读取”切换到了“512B（字节）随机读取”。这表明KIOXIA的XL-FLASH技术专门针对极小I/O（small I/O）和高IOPS密度的场景进行了优化。

关于 XL-FLASH技术

XL-FLASH 之所以能实现如此高的性能，主要依赖于其在NAND架构上的几项关键创新：

基于BiCS FLASH 3D NAND： 它并非像Intel Optane（现已停产）那样采用全新的相变材料（PCM），而是基于铠侠成熟的 BiCS FLASH™ 3D堆叠NAND技术进行深度魔改。这使其能利用现有NAND的庞大制造生态，从而在成本上更具优势。
采用SLC模式（为主）： 第一代XL-FLASH主要使用SLC（Single-Level Cell，1 bit/cell） 模式。SLC的读写速度最快、延迟最低、且耐久度（P/E cycles）最高。第二代技术也引入了MLC（2 bit/cell）以平衡成本和容量。
极高的并行架构（多平面）： 这是它的核心秘密之一。常规NAND闪存可能只有2个或4个平面（Plane），而XL-FLASH采用了16平面架构。这意味着它可以同时并行处理更多的I/O请求，这是其实现超高IOPS的关键。
优化的内部设计： 它对NAND芯片内部的“位线”（Bit Lines）和“字线”（Word Lines）进行了缩短和优化，大幅减少了内部访问的延迟。
小页面尺寸（Page Size）： 它使用较小的4KB页面，这更匹配操作系统和数据库的I/O大小，在处理小文件和随机I/O时效率极高。

低延迟介质是关键

PPT通过数学计算，论证了为什么“低延迟介质”是实现超高IOPS（如1亿IOPS）的“关键”。

核心观点： 实现1亿IOPS的最大瓶颈并非来自接口带宽，而是来自介质本身的物理读取延迟 (tRead)。

论证过程：

目标： 1亿IOPS = 平均每10纳秒交付一个I/O。
TLC的困境： 传统TLC闪存物理延迟高达60,000纳秒。要用它实现10ns的交付目标，SSD控制器必须同时管理一个高达6,000的并发I/O流水线（队列），这在工程上几乎是不可行的。
XL-FLASH的优势： XL-FLASH将物理延迟降低到了5,000纳秒。为了实现10ns的交付目标，控制器需要管理的并发流水线锐减到了500。

为什么这里说工程上是不可行的？

要让一个控制器同时管理 6,000 个并发请求，它需要极其庞大的片上SRAM来存储这6,000个I/O的状态。
在当前技术下，为单个SSD控制器配备如此海量的SRAM是成本极高且极不现实的。

AI时代的GPU彻底颠覆了传统的I/O模式，对存储（SSD）提出了前所未有的并发挑战。

它通过CPU和GPU的对比，论证了GPU在发起I/O方面的三个根本不同：

I/O能力不同： GPU的I/O生成能力（2亿IOPS）远超CPU（5千万IOPS）。
I/O效率不同： GPU生成I/O的内部开销极低（<10%利用率），而CPU开销极高（100%利用率）。
I/O模式不同： GPU的海量并行特性，使其会产生 “数万”级别（Tens of thousands） 的超深I/O队列深度（Queue Depth）。

Note

GPU工作原理特征，就是会产生大量IO，其片上HBM，就是为满足其IO特征而设计，文章提出超大IOPS SSD的设计，有2条路径可以走：