首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >尽管只有少数几个支持“训练”的例子,但在理论上(在“胡德”下),语境中的很少镜头学习到底是如何工作的呢?

尽管只有少数几个支持“训练”的例子,但在理论上(在“胡德”下),语境中的很少镜头学习到底是如何工作的呢?
EN

Data Science用户
提问于 2022-10-24 23:26:44
回答 1查看 1K关注 0票数 7

最近的模型,如GPT-3语言模型(Brown等人,2020)和Flamingo视觉语言模型(Alayrac等人,2022年)在上下文中使用很少镜头学习。这些模型能够做出非常精确的预测,即使只提供了“少数”支持示例。见下图( Brown等人,2020年)。

然而,我不清楚这些模型理论上是如何在幕后工作的,以及它们为什么表现得如此出色。其解释似乎是,很少有射击学习有效,因为模型看了任务描述,然后看了支持示例(这是如何完成给定任务的成功例子),然后基于模型对分配任务的理解以及它对任务如何成功完成的示例的理解,它就能够根据提示来理解它应该预测什么。

一般来说,模型在推理时看到的支持示例越多,它的性能就越好(但是在某个点上继续添加支持示例并不会提高性能)。然而,考虑到传统的机器学习模型需要对数千个示例进行培训,一个模型似乎不太可能仅仅基于几个示例就能真正完成任务。

我的问题:

  • 我知道这些模型是建立在庞大的预先训练过的语言模型或视觉语言模型的基础上的,这些模型具有数十亿的参数。但是,是否有一个普遍理解的解释,这些模型是如何实际工作(例如,数学直觉),超出我所描述的?
  • 由于这些特定的模型(GPT-3和Flamingo )使用的是“上下文内学习”,我理解这与“元学习”是一样的,难道在这些模型中实际发生的情况是,它们所建立的大量预先训练过的语言和/或视觉模型能够学习许多任务,因此在推理时,模型能够从少数镜头提示中学习到它被要求的新任务,还能够学习在推理时提交给它的图像/文本查询,因为它已经接受了大量可以引用的示例的预训练?
  • 是否有一个普遍接受的解释,为什么这些模型实际上工作这么好?还是这三个问题仍然是ML学者争论的问题?
EN

回答 1

Data Science用户

发布于 2023-02-02 16:01:29

我强烈建议您阅读微软最近的关于上下文学习的内容。虽然关注的焦点是LLM,但我认为它可以推广到其他模式。

这样做的目的是将模型看作mesa\\_~_

它们近似地表明,该模型在推理时执行隐式梯度下降(从而进行隐式微调)。显然,梯度下降并没有改变模型的权重,但它改变了注意力机制(就像通过修改权重来进行微调一样)。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/115554

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档