首页
学习
活动
专区
圈层
工具
发布

Transformers v5 正式发布:MoE 推理速度提升最高11倍

Hugging Face 团队终于发布了 Transformers v5 的首个稳定版本。这次升级带来了几个值得关注的改进。

最亮眼的是 MoE(混合专家)模型的性能提升,达到了6到11倍的加速。有开发者直接吐槽:“如果你把性能提升了2倍,说明你做了聪明的事;如果提升了10倍,说明你之前在做蠢事。”确实,v4 版本对 MoE 模型使用了非常简单的 for 循环处理专家模块,导致计算资源严重闲置。现在团队重写了这部分逻辑,并引入了更通用的自定义 kernel 方案。

Unsloth 团队的人也在评论区透露,他们会在这个基础上继续优化,尤其是 LoRA 训练场景还会有大幅提升。

第二个重要变化是 tokenizer API 的简化。以前那套 slow/fast tokenizer 的区分终于被干掉了,现在 API 更直观,后端选择更明确,性能也更好。

第三是动态权重加载功能。这让模型加载速度更快,而且 MoE 模型现在可以和量化、张量并行、PEFT 等技术配合使用了。有用户反馈说,光是量化缓存这一项就帮他省了6GB显存。

已经有人在生产环境测试了。一位用户把 transformers 升级到 v5,同时把 vllm 从 0.11 升到 0.14.1,单条推理速度提升了50%,40路并发推理速度直接翻倍。

需要提醒的是,v5 对部分内部实现做了重构,不是简单的无缝升级。官方提供了迁移指南,建议大家升级前仔细阅读 release notes 并充分测试。有人反馈在显存紧张的情况下可能遇到 OOM 问题,因为新版本增加了自动缓存预热功能来加速模型加载。

另外要说明的是,这个 transformers 是 Python 库,跟 llama.cpp 是完全独立的项目。如果你用 llama.cpp 跑模型,这次更新不会直接影响你,但长期来看,llama.cpp 可以从 transformers 的实现思路中借鉴优化方案。

reddit.com/r/LocalLLaMA/comments/1qnk7fq/transformers_v5_final_is_out

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O2AZEV0cPtSQwnl8V6JyHXkQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券