我想使用领域语料库(情感相关文本)预训练BERT和RoBERTa传销。使用50k~100k单词需要多长时间。由于RoBERTa没有经过训练来预测下一个句子的目标,比BERT少一个训练目标,并且具有更大的小批量和学习率,我假设RoBERTa会快得多?
发布于 2020-02-10 16:49:19
10万字对于训练像BERT或RoBERTa这样的大型模型来说太少了。the RoBERTa paper的主要说法是,BERT实际上训练不足。BERT使用16 GB的文本数据进行训练,而RoBERTa使用160 GB的纯文本数据。
对于您描述的特定于领域的小数据,您可以尝试对现有模型进行微调。在这种情况下,我会选择RoBERTa,因为它似乎经过了更好的预训练,没有下一句话的目标(这是预处理数据的麻烦),它使用SentencePiece进行标记化,这允许无损去标记化。
https://stackoverflow.com/questions/60137162
复制相似问题