搜索 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

来自专栏深度学习自然语言处理
大模型微调新范式：当LoRA遇见MoE
此外，作者还对专家的专门程度（speciality，即每个任务依赖少数几个特定专家的程度）进行了分析，展示MOV-5微调的770M模型最后一层FFN中各专家路由概率的分布：路由概率的分布，左侧为模型在训练集中见过的任务
3.9K20编辑于 2024-03-02