文章/答案/技术大牛

发布

社区首页 >问答首页 >“伯特模型的微调”指的是什么？

问“伯特模型的微调”指的是什么？
EN

Stack Overflow用户

提问于 2021-06-01 05:46:24

回答 1查看 823关注 0票数 1

我无法理解一件事，当它说“伯特的微调”时，它实际上是什么意思：

我们是不是又用新的数据重新训练了整个模型。
或者我们只是用新的数据来训练顶级的几个变压器层。
或者我们正在训练整个模型，但考虑到预先训练的权重作为初始权重。
或者变压器层上已经没有几层人工神经网络，这仅仅是为了保持变压器重量的冻结而接受训练。

试过谷歌，但我很困惑，如果有人能帮助我这一点。

提前感谢！

nlp

bert-language-model

huggingface-transformers

transformer-model

回答 1

Stack Overflow用户

发布于 2021-06-01 07:42:09

我记得我读过关于具有类似上下文的Twitter民意测验的文章，而且似乎大多数人倾向于接受您的建议3. (或其变体)作为标准定义。

然而，这显然并不适用于每一项工作，但我认为可以相当安全地说，1.在谈到微调时通常不包括。除非您有大量(标记的)特定于任务的数据，否则这个步骤将被称为预培训模型。

2.和4.也可以被认为是微调，但从个人/轶事的经验来看，允许微调过程中所有参数的变化提供了明显更好的结果。根据您的用例，这也是相当简单的实验，因为冻结层是微不足道的库，如Huggingface。

在这两种情况下，我都会认为它们是3.的变体，因为在这些场景中，您隐含地假设我们从预先训练过的权重开始(如果我错了，请纠正我)。

因此，尽我最大的努力来给出一个简明的定义是：

微调是指使用特定任务和标记的数据来训练任意数量的参数/层的步骤，这一步骤来自以前的模型检查点，该检查点通常使用无监督的MLM (蒙面语言建模)对大量文本数据进行培训。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67783283

复制

相似问题

问“伯特模型的微调”指的是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问“伯特模型的微调”指的是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问“伯特模型的微调”指的是什么？
EN