在迁移学习期间,我们采用预先训练的网络和一些观察对(输入和标签),并使用这些数据通过反向传播来微调权重。然而,在一次/几次学习期间,根据这篇论文-“语言模型是少次学习”(https://arxiv.org/pdf/2005.14165.pdf),“没有执行梯度更新”。那么在一次/几次学习过程中,像GPT2和GPT3这样的模型发生了什么变化?
发布于 2021-03-03 17:02:58
那么在一次/几次学习期间,像GPT2和GPT3这样的模型发生了什么变化?
模型根本没有变化。该模型不会可保存地学习任何东西。他们所做的是将“训练示例”作为上下文提供给模型,并且模型在此上下文的末尾生成输出。图2.1 (Brown,Tom B.,et al.“语言模型是少之又少的学习者。”(2020)显示了微调、零镜头学习和少镜头学习的输入示例。
如您所见,训练示例是输入的一部分,每次进行预测时都必须给出。因此,模型没有发生任何变化。

Brown,Tom B.等人。“语言模型是少之又少的学习者。”(2020)
发布于 2021-08-04 07:04:34
您可能认为有一些变化,因为模型在几次训练的情况下会返回更好的结果。然而,它是相同的模型,但作为输入具有不同的上下文。GPT-2和GPT-3都是自回归模型,这意味着输出也取决于上下文。更多的例子将意味着更清晰的背景,因此,获得预期结果的机会增加。
https://stackoverflow.com/questions/66451430
复制相似问题