在GPT-2文件中,在第2节,第3页,它说,
由于监督目标与无监督目标相同,但只对序列的子集进行评价,因此无监督目标的全局最小值也是监督目标的全局最小值。
我没有遵循这种推理方式。总结这一点背后的逻辑是什么?
发布于 2022-06-11 16:49:37
这里的基本原则是,如果f是一个带有域D的函数,而S是D的一个子集,那么如果d在D上最大化f,而d恰好在S中,那么d也会使f超过S。
用简单的话来说,“全局最大值也是局部最大值”。
这怎么适用于GPT-2呢?让我们看看GPT-2是如何训练的。
第一步: GPT-2使用无监督的培训,通过检查大量现有文本中的示例来学习下一个字母在一个序列中的分布。此时,它应该能够输出有效的单词,并且能够完成诸如"Hello“到"Hello那里”这样的事情。
第二步: GPT-2在特定任务中使用有监督的培训,例如回答向其提出的具体问题,例如“谁写了”物种起源“这本书?”回答“查尔斯·达尔文”。
问:监督培训的第二步是否撤销了GPT-2在第一步中学到的一般知识?
答:不是,是谁写的“物种起源?查尔斯·达尔文”一书。它本身就是一个有效的英文文本,它来自于网络最初想要学习的同一个发行版。因此,这些有监督的例子是同一领域的元素(有效的英文文本),优化损失函数使这些有监督的示例正确是为了达到优化损失函数以获得无监督示例的正确性的目的。
简单地说,GPT-2所训练的监督问答对或其他特定任务可以使用与无监督的语料库文本相同的基本分布中的示例,因此它们正朝着相同的目标优化,并且具有相同的全局最优性。
注意:由于(过度)训练,您仍然可能意外地以局部最小值结束,使用这些监督的示例,否则您可能不会遇到这些例子。然而,GPT-2在它的领域是革命性的,无论这是否发生在GPT-2上,它仍然从它之前的最先进的状态取得了重大的进步。
https://stackoverflow.com/questions/72580299
复制相似问题