搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏深度学习自然语言处理
大模型微调新范式：当LoRA遇见MoE
例如，专家个数 n=10 的MoV-10只用3B模型0.32%的参数量，就能达到和全量微调相当的效果，明显优于同等可训练参数量的 IA3 和LORA，而使用0.68%可训练参数的MoV-30（60.61 3B模型的测试结果，只使用0.32%可训练参数的MoV-10的平均accuracy（59.93）接近全量微调（60.06），明显优于使用0.3%可训练参数的原始版本LORA（57.71）。
3.7K20编辑于 2024-03-02
来自专栏机器之心
将混合专家推向极限：只需更新0.32%的参数就能完成模型微调
这是一个非常亮眼的结果，因为 MoV-10 仅更新了全体模型参数中的 0.32%。而如果将 MoV 的专家数增至 15，将 MoLORA 的专家数增至 30，新方法的效果甚至能小幅胜过完全微调方法。
78160编辑于 2023-09-25