我无法理解一件事,当它说“伯特的微调”时,它实际上是什么意思:
试过谷歌,但我很困惑,如果有人能帮助我这一点。
提前感谢!
发布于 2021-06-01 07:42:09
我记得我读过关于具有类似上下文的Twitter民意测验的文章,而且似乎大多数人倾向于接受您的建议3. (或其变体)作为标准定义。
然而,这显然并不适用于每一项工作,但我认为可以相当安全地说,1.在谈到微调时通常不包括。除非您有大量(标记的)特定于任务的数据,否则这个步骤将被称为预培训模型。
2.和4.也可以被认为是微调,但从个人/轶事的经验来看,允许微调过程中所有参数的变化提供了明显更好的结果。根据您的用例,这也是相当简单的实验,因为冻结层是微不足道的库,如Huggingface。
在这两种情况下,我都会认为它们是3.的变体,因为在这些场景中,您隐含地假设我们从预先训练过的权重开始(如果我错了,请纠正我)。
因此,尽我最大的努力来给出一个简明的定义是:
微调是指使用特定任务和标记的数据来训练任意数量的参数/层的步骤,这一步骤来自以前的模型检查点,该检查点通常使用无监督的MLM (蒙面语言建模)对大量文本数据进行培训。
https://stackoverflow.com/questions/67783283
复制相似问题