最近的模型,如GPT-3语言模型(Brown等人,2020)和Flamingo视觉语言模型(Alayrac等人,2022年)在上下文中使用很少镜头学习。这些模型能够做出非常精确的预测,即使只提供了“少数”支持示例。见下图( Brown等人,2020年)。

然而,我不清楚这些模型理论上是如何在幕后工作的,以及它们为什么表现得如此出色。其解释似乎是,很少有射击学习有效,因为模型看了任务描述,然后看了支持示例(这是如何完成给定任务的成功例子),然后基于模型对分配任务的理解以及它对任务如何成功完成的示例的理解,它就能够根据提示来理解它应该预测什么。
一般来说,模型在推理时看到的支持示例越多,它的性能就越好(但是在某个点上继续添加支持示例并不会提高性能)。然而,考虑到传统的机器学习模型需要对数千个示例进行培训,一个模型似乎不太可能仅仅基于几个示例就能真正完成任务。
发布于 2023-02-02 16:01:29
我强烈建议您阅读微软最近的纸关于上下文学习的内容。虽然关注的焦点是LLM,但我认为它可以推广到其他模式。
这样做的目的是将模型看作mesa\\_~_
它们近似地表明,该模型在推理时执行隐式梯度下降(从而进行隐式微调)。显然,梯度下降并没有改变模型的权重,但它改变了注意力机制(就像通过修改权重来进行微调一样)。
https://datascience.stackexchange.com/questions/115554
复制相似问题