文章/答案/技术大牛

发布

社区首页 >问答首页 >如果我在我的数据集上训练一个自定义标记器，我仍然能够利用预先训练过的模型权重。

问如果我在我的数据集上训练一个自定义标记器，我仍然能够利用预先训练过的模型权重。
EN

Stack Overflow用户

提问于 2022-10-10 22:27:41

回答 1查看 86关注 0票数 0

这是一份声明，但我不确定它是否正确。我可以详细说明。

我有一个相当大的数据集(23)。我想预先训练罗伯塔基地或XLM基地，所以我的语言模型将更适合用于进一步的下游任务。

我知道我可以对我的数据集运行几个时代，并获得良好的结果。但是，如果我也训练令牌程序生成一个新的词汇表和合并文件呢？我开始训练的模型中的权重仍然会被使用，或者新的标记将需要从头开始进行完整的训练？

我之所以这么问，是因为也许有些层仍然可以提供知识，所以最终的模型将具有两个世界的优势:一个适合我的数据集的令牌器，以及以前训练的权重。

这事儿可以理解?

huggingface-transformers

huggingface-tokenizers

mlmodel

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-10-21 08:10:58

总之不行。

您不能将您自己的预训练标记器用于预先训练的模型。原因是您的令牌器的词汇表和用于预训练模型的令牌器的词汇表不同，稍后您将使用它作为预先训练的模型。因此，在托肯器词汇表中存在的单词片段标记可能不存在于预先训练的模型的词汇表中。

详细的答案可以找到这里，

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74021237

复制

相似问题

问如果我在我的数据集上训练一个自定义标记器，我仍然能够利用预先训练过的模型权重。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如果我在我的数据集上训练一个自定义标记器，我仍然能够利用预先训练过的模型权重。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如果我在我的数据集上训练一个自定义标记器，我仍然能够利用预先训练过的模型权重。
EN