首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >BERT语料库微调输入格式

BERT语料库微调输入格式
EN

Stack Overflow用户
提问于 2020-11-26 15:19:24
回答 1查看 531关注 0票数 0

我想微调伯特在一个特定的语言领域使用以下git:

finetuning/README.md

关于输入格式,它说:

该文件夹中的脚本期望一个文件作为输入,由未标记的文本组成,每行有一个句子,文档之间有一个空行。分句的原因是BERT训练的一部分涉及到下一个句子目标,在这个目标中,模型必须预测两个文本序列是否是来自同一文档的连续文本,并且为了避免任务过于简单,序列之间的分裂点总是在句子的末尾。因此,文件中的换行符对于标记可以分割文本的点是必要的。

这些文件在这方面意味着什么?据我理解,用于微调的.txt文件只包含许多特定于域的文本,每一行只有一个句子。要确定的是,如果我想在特定的语言域中微调BERT,那么使用这个存储库是否是正确的方法?

谢谢你的帮助!

EN

回答 1

Stack Overflow用户

发布于 2020-11-30 08:12:11

你说的剧本是继续训练的合适剧本。最初的伯特使用下一句预测作为辅助目标。当提供一对句子(由[SEP]标记分隔)时,将嵌入[CLS] (第一个)令牌作为分类器的输入,判断句子是否在连贯的文本中相邻。

这就是空行的意义所在:在文档边界上,句子不能相邻。

然而,下一个句子的目的的贡献是有争议的。例如,RoBERTa认为这是多余的,只使用蒙面语言建模的目标a仍然比原始的BERT获得更好的表示质量。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65024801

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档