首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >“伯特模型的微调”指的是什么?

“伯特模型的微调”指的是什么?
EN

Stack Overflow用户
提问于 2021-06-01 05:46:24
回答 1查看 823关注 0票数 1

我无法理解一件事,当它说“伯特的微调”时,它实际上是什么意思:

  1. 我们是不是又用新的数据重新训练了整个模型。
  2. 或者我们只是用新的数据来训练顶级的几个变压器层。
  3. 或者我们正在训练整个模型,但考虑到预先训练的权重作为初始权重。
  4. 或者变压器层上已经没有几层人工神经网络,这仅仅是为了保持变压器重量的冻结而接受训练。

试过谷歌,但我很困惑,如果有人能帮助我这一点。

提前感谢!

EN

回答 1

Stack Overflow用户

发布于 2021-06-01 07:42:09

我记得我读过关于具有类似上下文的Twitter民意测验的文章,而且似乎大多数人倾向于接受您的建议3. (或其变体)作为标准定义。

然而,这显然并不适用于每一项工作,但我认为可以相当安全地说,1.在谈到微调时通常不包括。除非您有大量(标记的)特定于任务的数据,否则这个步骤将被称为预培训模型。

2.4.也可以被认为是微调,但从个人/轶事的经验来看,允许微调过程中所有参数的变化提供了明显更好的结果。根据您的用例,这也是相当简单的实验,因为冻结层是微不足道的库,如Huggingface。

在这两种情况下,我都会认为它们是3.的变体,因为在这些场景中,您隐含地假设我们从预先训练过的权重开始(如果我错了,请纠正我)。

因此,尽我最大的努力来给出一个简明的定义是:

微调是指使用特定任务和标记的数据来训练任意数量的参数/层的步骤,这一步骤来自以前的模型检查点,该检查点通常使用无监督的MLM (蒙面语言建模)对大量文本数据进行培训。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67783283

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档