文章/答案/技术大牛

发布

社区首页 >问答首页 >BERT语料库微调输入格式

问BERT语料库微调输入格式
EN

Stack Overflow用户

提问于 2020-11-26 15:19:24

回答 1查看 531关注 0票数 0

我想微调伯特在一个特定的语言领域使用以下git：

finetuning/README.md

关于输入格式，它说：

该文件夹中的脚本期望一个文件作为输入，由未标记的文本组成，每行有一个句子，文档之间有一个空行。分句的原因是BERT训练的一部分涉及到下一个句子目标，在这个目标中，模型必须预测两个文本序列是否是来自同一文档的连续文本，并且为了避免任务过于简单，序列之间的分裂点总是在句子的末尾。因此，文件中的换行符对于标记可以分割文本的点是必要的。

这些文件在这方面意味着什么？据我理解，用于微调的.txt文件只包含许多特定于域的文本，每一行只有一个句子。要确定的是，如果我想在特定的语言域中微调BERT，那么使用这个存储库是否是正确的方法？

谢谢你的帮助!

bert-language-model

transformer-model

python

nlp

回答 1

Stack Overflow用户

发布于 2020-11-30 08:12:11

你说的剧本是继续训练的合适剧本。最初的伯特使用下一句预测作为辅助目标。当提供一对句子(由[SEP]标记分隔)时，将嵌入[CLS] (第一个)令牌作为分类器的输入，判断句子是否在连贯的文本中相邻。

这就是空行的意义所在:在文档边界上，句子不能相邻。

然而，下一个句子的目的的贡献是有争议的。例如，RoBERTa认为这是多余的，只使用蒙面语言建模的目标a仍然比原始的BERT获得更好的表示质量。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65024801

复制

相似问题

问BERT语料库微调输入格式
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BERT语料库微调输入格式EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BERT语料库微调输入格式
EN