Transformers v5 正式发布：MoE 推理速度提升最高11倍

文章来源：企鹅号 - AI可可AI生活

Hugging Face 团队终于发布了 Transformers v5 的首个稳定版本。这次升级带来了几个值得关注的改进。

最亮眼的是 MoE（混合专家）模型的性能提升，达到了6到11倍的加速。有开发者直接吐槽：“如果你把性能提升了2倍，说明你做了聪明的事；如果提升了10倍，说明你之前在做蠢事。”确实，v4 版本对 MoE 模型使用了非常简单的 for 循环处理专家模块，导致计算资源严重闲置。现在团队重写了这部分逻辑，并引入了更通用的自定义 kernel 方案。

Unsloth 团队的人也在评论区透露，他们会在这个基础上继续优化，尤其是 LoRA 训练场景还会有大幅提升。

第二个重要变化是 tokenizer API 的简化。以前那套 slow/fast tokenizer 的区分终于被干掉了，现在 API 更直观，后端选择更明确，性能也更好。

第三是动态权重加载功能。这让模型加载速度更快，而且 MoE 模型现在可以和量化、张量并行、PEFT 等技术配合使用了。有用户反馈说，光是量化缓存这一项就帮他省了6GB显存。

已经有人在生产环境测试了。一位用户把 transformers 升级到 v5，同时把 vllm 从 0.11 升到 0.14.1，单条推理速度提升了50%，40路并发推理速度直接翻倍。

需要提醒的是，v5 对部分内部实现做了重构，不是简单的无缝升级。官方提供了迁移指南，建议大家升级前仔细阅读 release notes 并充分测试。有人反馈在显存紧张的情况下可能遇到 OOM 问题，因为新版本增加了自动缓存预热功能来加速模型加载。

另外要说明的是，这个 transformers 是 Python 库，跟 llama.cpp 是完全独立的项目。如果你用 llama.cpp 跑模型，这次更新不会直接影响你，但长期来看，llama.cpp 可以从 transformers 的实现思路中借鉴优化方案。

reddit.com/r/LocalLLaMA/comments/1qnk7fq/transformers_v5_final_is_out

发表于: 2026-01-272026-01-27 08:11:22
原文链接：https://page.om.qq.com/page/O2AZEV0cPtSQwnl8V6JyHXkQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Transformers v5 正式发布：MoE 推理速度提升最高11倍

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐