问在使用MLM训练SBERT时，我需要训练令牌器吗？
EN

Data Science用户

提问于 2022-10-30 08:32:22

回答 1查看 184关注 0票数 0

我在自己的语料库上使用MLM训练了一个SBERT模型，该模型在某种程度上是特定领域的，使用以下指南：

当我用

tokenizer.save_pretrained(output_dir)

它创建了一组文件。因此，我打开了一个vocab.txt，并试图搜索一些特定领域的词，但我找不到。

发布于 2022-11-03 07:44:26

通常，拼写文件应该有标记(单词片段)而不是单词:是这样的吗？

请记住，您可以选择标记的制作方式:要么是完整的单词，要么是较小的部分。

然后，如果您的词汇表是新的，您需要从头开始训练您的模型，因为令牌是模型的语义引用的基础。

注意:如果你的数据集很小而且变化不大的话，你也可以使用预先训练过的模型获得好的结果。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/115717

复制

相似问题

问在使用MLM训练SBERT时，我需要训练令牌器吗？EN