首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏NewBeeNLP

    模型压缩与蒸馏!BERT家族的瘦身之路

    优点 6层transformer基本达到了bert-12的性能,并且hidden size更小,实际是比bert-6更小的; 因为有pre-train KD,所以可以拿来当bert 一样直接在下游fine-tuning

    1.1K30发布于 2021-03-03
领券