文章/答案/技术大牛

发布

社区首页 >问答首页 >GPT3语言模型的训练目标

问GPT3语言模型的训练目标
EN

Data Science用户

提问于 2021-04-17 00:14:58

回答 1查看 474关注 0票数 0

在OpenAI的GPT-3第34页，有一句话显示了目标函数的局限性：

我们目前的目标对每一个标记的权重都是相等的，并且缺乏一个概念，即什么是最重要的预测，什么是次要的。

我不确定我是否正确地理解了这一点。根据我的理解，目标函数是在给定当前上下文(即\max L \sim \sum_{i} \log P(x_{i} | x_{<i}) )的情况下，最大限度地利用令牌的日志可能性来预测。虽然我们的目标是预测训练句中出现的每一个令牌，但这些令牌基于人类文稿中的外观有一定的分布，因此在损失优化中，我们实际上并没有给每个令牌分配同等的权重。

对于一个模型来说，什么应该是一个例子，从而得到“什么是重要的，什么是不重要的”概念。这里指的是什么？例如，它是意味着" the“比一个不那么常见的名词更不重要，还是意味着”我们感兴趣的当前任务比我们不感兴趣的场景更重要?“

知道如何理解OpenAI的句子吗？

language-model

gpt

nlp

回答 1

Data Science用户

回答已采纳

发布于 2021-04-17 09:36:29

最好用文章中的更多上下文来理解这一点：

本文所描述的一般方法的一个更基本的限制--扩大任何类似LM的模型，无论是自回归的还是双向的--是它最终可能会遇到(或可能已经遇到)预培训目标的限制。我们目前的目标对每一个标记的权重都是相等的，并且缺乏一个概念，即什么是最重要的预测，什么是次要的。[RRS20]展示了将预测定制到感兴趣的实体的好处。

我认为参考[RRS20]的相关部分是这一段：

最近，Guu等人(2020年年)发现“显着跨度掩蔽”(SSM)预训练目标在开放域问题回答中产生了更好的效果。这种方法首先使用伯特(Devlin等人，2018年年)从维基百科挖掘包含显著跨度(命名实体和日期)的句子。然后，问题回答模型被预先训练，从这些句子中重建蒙面，Guu等人(2020年)假设帮助模型“专注于需要世界知识的问题”。我们使用相同的SSM数据进行实验，目的是继续对T5检查点进行100,000个额外步骤的预培训，然后再为回答问题进行微调。

考虑到这一点，我理解GPT-3论文中的句子意味着在正常语言模型中，每个令牌的预测对于计算损失的重要性是相同的，因为单个令牌损失是以不加权的方式相加在一起的。这与显着的跨度掩蔽方法相反，后者通过基于BERT的预处理来发现对预测很重要的标记。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/93161

复制

相似问题

问GPT3语言模型的训练目标
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问GPT3语言模型的训练目标EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问GPT3语言模型的训练目标
EN