我想微调伯特在一个特定的语言领域使用以下git:
关于输入格式,它说:
该文件夹中的脚本期望一个文件作为输入,由未标记的文本组成,每行有一个句子,文档之间有一个空行。分句的原因是BERT训练的一部分涉及到下一个句子目标,在这个目标中,模型必须预测两个文本序列是否是来自同一文档的连续文本,并且为了避免任务过于简单,序列之间的分裂点总是在句子的末尾。因此,文件中的换行符对于标记可以分割文本的点是必要的。
这些文件在这方面意味着什么?据我理解,用于微调的.txt文件只包含许多特定于域的文本,每一行只有一个句子。要确定的是,如果我想在特定的语言域中微调BERT,那么使用这个存储库是否是正确的方法?
谢谢你的帮助!
发布于 2020-11-30 08:12:11
你说的剧本是继续训练的合适剧本。最初的伯特使用下一句预测作为辅助目标。当提供一对句子(由[SEP]标记分隔)时,将嵌入[CLS] (第一个)令牌作为分类器的输入,判断句子是否在连贯的文本中相邻。
这就是空行的意义所在:在文档边界上,句子不能相邻。
然而,下一个句子的目的的贡献是有争议的。例如,RoBERTa认为这是多余的,只使用蒙面语言建模的目标a仍然比原始的BERT获得更好的表示质量。
https://stackoverflow.com/questions/65024801
复制相似问题