文章/答案/技术大牛

发布

问RoBERTa中的下一句预测
EN

Data Science用户

提问于 2020-06-29 20:55:34

回答 4查看 2.2K关注 0票数 2

我正试着思考下一个句子预测在RoBERTa中的工作方式。根据他们的论文，在第4.2节中，我了解到，在最初的BERT中，他们使用了一对文本片段，其中可能包含多个句子，任务是预测第二个片段是否是第一个句子的直接继承者。罗伯塔的作者研究了另外三种类型的预测--第一种与伯特基本相同，只使用两个片段中的两句话，你仍然可以预测第二句是否是第一句的直接继承者。但是我不明白另外两个目标是什么，我会在下面引用他们的解释：

·完整句子:每个输入都包含从一个或多个文档中连续抽样的完整句子，因此总长度最多为512个标记。输入可以跨越文档边界。当我们到达一个文档的末尾时，我们开始从下一个文档中抽取句子，并在文档之间添加一个额外的分隔符。我们消除NSP损失。

·DOC-句子:输入的构造类似于完整的句子，除非它们不能跨越文档的边界。在文档末尾附近采样的输入可能短于512个令牌，因此在这些情况下我们动态地增加批处理大小，以实现与完整句子相同的总令牌数。我们消除NSP损失。

因此，从我对这两种训练策略的理解来看，他们已经从相邻的文档中抽取了连续的句子，或者至少是相邻文档中的连续句子，而我看不出他们想要预测的是什么--这不可能是它们是否是连续的文本块，因为在我看来，它们的所有训练示例都已经被连续抽样，从而使得这样的任务变得多余。这将是巨大的帮助，如果有人在这个问题上提供一些启示，谢谢提前！

nlp

bert

transformer

回答 4

Data Science用户

发布于 2020-07-01 07:35:30

类似于伯特，他们对负数(即不相邻)样本进行采样，并训练一个分类器来判断句子是否是连续的。

票数 1

Data Science用户

发布于 2021-09-22 07:18:09

以下是RoBERTa为伯特所做的四项修改：

更长时间的训练模式，更大的批次，更多的数据。
删除下一个句子预测目标
长序列训练
动态更改应用于培训数据的掩蔽模式。作者还收集了一个与其他私人使用的数据集具有可比性的大型新数据集()，以便更好地控制培训集的大小效果。

因为NSP在一个任务中混合了两个任务: 1)主题预测和2)一致性预测。RoBERTa在较长的序列上对模型进行训练，通过动态改变掩蔽模式，使得蒙面语言建模变得更加困难，因此第一种建模变得多余。蒙面语言建模任务与主题预测任务重叠。

全文语句与DOC语句的区别在于前者在蒙面语言建模中包含主题预测任务，而另一个则不包含主题预测任务，实验表明主题预测(在蒙面语言建模中)也是不必要的。

票数 1

Data Science用户

发布于 2020-07-02 17:55:22

BERT使用蒙面LM和NSP (下一句预测)任务来训练它们的模型。因此，RoBERTa论文第4.2节的目标之一是评估添加NSP任务的有效性，并将其与仅使用蒙面LM训练进行比较。

为了完整起见，我将简要描述本节中的所有评估。

首先，他们比较了片段对+ NSP和句子对+NSP两种模型，两种模型都使用了蒙面LM +NSP训练，他们发现

使用单个句子会影响下游任务的性能。

也就是说，段对+NSP比句子对+NSP表现更好.

其次，他们删除了NSP任务(因此，他们采取连续句)，并使用仅蒙面LM训练模型。它们通过允许抽样输入语句在一种情况下跨越文档边界而在另一种情况下不跨越文档边界，从而增加一些小的变化。他们报告说

删除NSP丢失匹配或稍微提高下游任务性能

通过对DOC-句和全句与段对+NSP和句子对+NSP的比较.那就是

单个文档(DOC-语句)的性能略好于多个文档的打包序列(完整的句子)。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/76872

复制

相似问题

问RoBERTa中的下一句预测
EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问RoBERTa中的下一句预测EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问RoBERTa中的下一句预测
EN