DeepSeek开源周：这五个项目为何只与两类公司有关？

范赟鹏

发布于 2025-05-30 17:36:11

4320

一、写在前面：AI基础设施的"军备竞赛"

当DeepSeek宣布连续五天开源五个底层项目时，朋友圈里出现了有趣的分化：一类人疯狂转发技术细节，另一类人则默默关闭了页面。这背后折射出一个残酷的现实——AI基础设施的优化，本质上是一场只有少数玩家能参与的"军备竞赛"。

对于绝大多数应用层公司来说，这些开源项目就像高速公路上的收费站：虽然你每天都在使用它们提供的便利，但不需要关心沥青配比或收费系统的算法。真正需要研究它们的，只有两类公司：

云厂商与算力服务商：他们需要将这些技术整合到基础设施中
ToB解决方案商：当甲方要求私有部署时，必须有对应的落地能力

如果你恰好属于这两类公司，那么接下来的内容将为你揭开DeepSeek开源周的技术密码。

二、五天五弹：DeepSeek的"算力榨取术"

2.1 第一天：FlashMLA - 显存的"节流阀"

FlashMLA的全称是"快速多头潜在注意力"，但它的核心作用可以用一句话概括：让老显卡焕发新生。

技术本质：通过动态资源分配优化显存使用
实际效果：在H800集群上实现了3倍显存利用率提升
比喻：就像给老款汽车加装涡轮增压，让原本只能跑120码的车硬是飙到了200码

对于那些囤积了大量旧款GPU的公司来说，FlashMLA堪称"显存救星"。

2.2 第二天：DeepEP - 通信的"智能交通系统"

如果说FlashMLA解决了"地"的问题，那么DeepEP就是在修路：

三大核心技术：

1. NVLink高速通道：单服务器内GPU通信速度提升3倍（158GB/s）
2. RDMA远程直达：跨服务器通信延迟降低至163微秒
3. FP8智能压缩：数据体积压缩3倍，带宽占用率下降60%

实际应用：
- 千亿参数模型训练提速40%
- 推理响应速度提升5倍
- 算力成本降低60%

这个被称为"AI算力焦虑终结者"的通信库，让MoE模型的训练门槛直接腰斩。

2.3 第三天：DeepGEMM - 矩阵运算的"编译器"

作为纯AI领域的底层优化库，DeepGEMM主要解决Transformer模型中最耗时的矩阵运算问题：

技术突破：
- 自研的分块算法提升缓存利用率
- 动态调度机制适配不同硬件架构
效果对比：相比CUDA原生实现，在A100上实现2.3倍性能提升

虽然技术细节晦涩难懂，但对于硬件厂商来说，这相当于拿到了一份"性能优化指南"。

2.4 第四天：DualPipe & EPLB - 并行计算的"交响乐团指挥"

这对组合拳分别解决了两个并行计算的核心问题：

DualPipe：
- 创新的双向流水线并行算法
- 消除传统流水线中的"气泡"现象
- 使计算与通信完全重叠
EPLB：
- 动态负载均衡算法
- 基于冗余专家的任务分配策略
- 跨节点全局负载优化

实际测试显示，这两项技术组合使用可减少11倍计算资源需求，让用1/5硬件实现同等训练效果成为可能。

2.5 第五天：3FS - AI专属的"分布式文件系统"

针对模型训练对存储系统的苛刻要求，3FS进行了三大优化：

SSD带宽榨取：单节点IOPS提升4倍
RDMA网络优化：跨节点数据传输延迟降低70%
冷热数据分层：自动将高频数据迁移至内存

结合DuckDB的单机分析能力，3FS为AI训练构建了端到端的存储解决方案。

三、技术价值：重构AI基础设施的"四梁八柱"

3.1 硬件效率革命

通过FlashMLA和DeepEP的组合，旧款GPU的利用率被提升到了前所未有的高度。某云厂商实测数据显示，使用DeepEP后，H800集群的有效算力相当于H100集群的85%，但成本仅为后者的30%。

3.2 分布式训练范式升级

DualPipe和EPLB的出现，让分布式训练从"粗粒度并行"转向"细粒度协同"。某头部AI公司测试表明，在1024卡规模下，使用这两项技术可使训练效率提升2.8倍。

3.3 存储架构革新

3FS的推出，首次将AI训练的数据吞吐量提升到GB/s级别，为万亿参数模型的训练扫清了存储障碍。

四、行业影响：两类公司的"护城河"

4.1 云厂商的"核武器"

某头部云厂商CTO透露，他们正在将DeepEP集成到自家的AI加速平台中。预计在3个月内，其GPU云服务的性价比将提升40%，这对竞争对手来说堪称降维打击。

4.2 ToB交付的"倚天剑"

某AI解决方案公司CEO表示，DeepGEMM和3FS的组合，让他们在私有部署项目中实现了"三个减半"：

硬件采购成本减半
机房占地面积减半
运维人员数量减半

这些技术正在成为ToB交付的核心竞争力。

五、写在最后：AI基础设施的"暗战"

当OpenAI、Google在模型参数上疯狂内卷时，DeepSeek选择了另一条道路——从底层重构AI计算的效率体系。这种"农村包围城市"的策略，或许才是打破算力垄断的关键。

对于应用层公司来说，关注这些技术的最佳方式，是选择与已经深度整合这些技术的云厂商合作。而对于两类目标公司，现在正是研究这些开源项目的最佳时机——毕竟，在AI基础设施的暗战中，先发优势往往决定了最终的胜负。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2025-02-28，如有侵权请联系 cloudcommunity@tencent.com 删除

开源

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度