首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏深度学习自然语言处理

    大模型微调新范式:当LoRA遇见MoE

    此外,作者还对专家的专门程度(speciality,即每个任务依赖少数几个特定专家的程度)进行了分析,展示MOV-5微调的770M模型最后一层FFN中各专家路由概率的分布: 路由概率的分布,左侧为模型在训练集中见过的任务

    3.9K20编辑于 2024-03-02
领券