例如,专家个数 n=10 的MoV-10只用3B模型0.32%的参数量,就能达到和全量微调相当的效果,明显优于同等可训练参数量的 IA3 和LORA,而使用0.68%可训练参数的MoV-30(60.61 3B模型的测试结果,只使用0.32%可训练参数的MoV-10的平均accuracy(59.93)接近全量微调(60.06),明显优于使用0.3%可训练参数的原始版本LORA(57.71)。
这是一个非常亮眼的结果,因为 MoV-10 仅更新了全体模型参数中的 0.32%。而如果将 MoV 的专家数增至 15,将 MoLORA 的专家数增至 30,新方法的效果甚至能小幅胜过完全微调方法。