
本文由Shashidhar Joshi和Swapna Yasarapu两位来自微软的负责人共同呈现,着重讨论人工智能模型训练过程中的数据处理、存储需求与优化策略,文末讨论HDD or SSD发展现况与趋势。

Fig-2
AI训练工作流对应的存储方案定性说明。

Fig-3
图示 AI训练工作流中存储层动态交互过程。
AI模型训练前,要完成数据Tokenization/ Vectorization,用什么专用软件来实现?和大数据的ETL过程有什么区别?
AI模型训练中的数据Tokenization和Vectorization通常使用专用的自然语言处理(NLP)库和框架,如:
与大数据的ETL(提取、转换、加载)过程相比,Tokenization和Vectorization主要集中在文本数据的预处理,而ETL则涵盖了更广泛的数据类型和复杂的数据转换过程。ETL通常涉及数据清洗、整合和存储,而Tokenization和Vectorization则是将文本转换为数字格式,以便于模型处理。

Fig-4
训练过程对存储的需求(容量/性能)
阶段 | 数据摄入 | 数据整理 | 训练和检查点 |
|---|---|---|---|
数据增长 | • 数据生成• 数据获取 | • 模型参数代表整理后的数据 | • 模型参数和GPU数量• 检查点频率• 数据保留 |
性能 | • 系统级 Tbps/PB(读/写)• 设备级 Mbps(读/写)• IOPS(读/写)• 延迟 | • 系统级 Tbps/PB(读)• 系统级延迟 ms(读)• 设备级 Mbps(读) | • 系统级 Tbps/PB(读/写)• 系统级延迟 ms• 设备级 Mbps(读/写)• 延迟 |
工作负载 | • 原始数据• 结构化和非结构化数据• 文本、视频、图像等 | • 向量化/结构化• 减少占用空间• 大块数据集 | • 高读写吞吐量• 工作负载随GPU数量扩展 |

Fig-5
AI训练系统中检查点对存储容量和吞吐量的影响,以及相应的存储架构设计。
关键点包括:
核心要点:GPU从Blob存储层同时访问会驱动高吞吐量

Fig-6
从AI系统存储带宽需求,看HDD和SSD发展现况和机遇:

Fig-7
这些需求反映了存储行业的几个重要趋势:
作为运营主要AI训练资源云厂商,”巨硬“对AI应用层系统实践,应该说是富有经验的,从这篇分享中可以总结以下几点: