4月24日,摩尔线程携手智源众智FlagOS社区,在旗舰级AI训推一体全功能GPU MTT S5000上,率先实现对新一代大模型DeepSeek-V4-Flash的Day-0极速适配,并完成了全量核心算子的深度优化与部署支持。
据悉,为充分发挥MTT S5000在FP8计算上的内核优势,FlagOS对DeepSeek V4模型进行了FP8量化。通过系统级分析,双方技术团队将本次适配的攻坚重点锁定在FP8算子与Sparse Attention算子。针对这两个决定长上下文效率与极致推理性能的关键算子,团队从“编译优化”与“自动调优”两个核心方向取得了重大突破。