首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >GPT3语言模型的训练目标

GPT3语言模型的训练目标
EN

Data Science用户
提问于 2021-04-17 00:14:58
回答 1查看 474关注 0票数 0

在OpenAI的GPT-3第34页,有一句话显示了目标函数的局限性:

我们目前的目标对每一个标记的权重都是相等的,并且缺乏一个概念,即什么是最重要的预测,什么是次要的。

我不确定我是否正确地理解了这一点。根据我的理解,目标函数是在给定当前上下文(即\max L \sim \sum_{i} \log P(x_{i} | x_{<i}) )的情况下,最大限度地利用令牌的日志可能性来预测。虽然我们的目标是预测训练句中出现的每一个令牌,但这些令牌基于人类文稿中的外观有一定的分布,因此在损失优化中,我们实际上并没有给每个令牌分配同等的权重。

对于一个模型来说,什么应该是一个例子,从而得到“什么是重要的,什么是不重要的”概念。这里指的是什么?例如,它是意味着" the“比一个不那么常见的名词更不重要,还是意味着”我们感兴趣的当前任务比我们不感兴趣的场景更重要?“

知道如何理解OpenAI的句子吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-04-17 09:36:29

最好用文章中的更多上下文来理解这一点:

本文所描述的一般方法的一个更基本的限制--扩大任何类似LM的模型,无论是自回归的还是双向的--是它最终可能会遇到(或可能已经遇到)预培训目标的限制。我们目前的目标对每一个标记的权重都是相等的,并且缺乏一个概念,即什么是最重要的预测,什么是次要的。[RRS20]展示了将预测定制到感兴趣的实体的好处。

我认为参考[RRS20]的相关部分是这一段:

最近,Guu等人(2020年年)发现“显着跨度掩蔽”(SSM)预训练目标在开放域问题回答中产生了更好的效果。这种方法首先使用伯特(Devlin等人,2018年年)从维基百科挖掘包含显著跨度(命名实体和日期)的句子。然后,问题回答模型被预先训练,从这些句子中重建蒙面,Guu等人(2020年)假设帮助模型“专注于需要世界知识的问题”。我们使用相同的SSM数据进行实验,目的是继续对T5检查点进行100,000个额外步骤的预培训,然后再为回答问题进行微调。

考虑到这一点,我理解GPT-3论文中的句子意味着在正常语言模型中,每个令牌的预测对于计算损失的重要性是相同的,因为单个令牌损失是以不加权的方式相加在一起的。这与显着的跨度掩蔽方法相反,后者通过基于BERT的预处理来发现对预测很重要的标记。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/93161

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档