首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在使用MLM训练SBERT时,我需要训练令牌器吗?

在使用MLM训练SBERT时,我需要训练令牌器吗?
EN

Data Science用户
提问于 2022-10-30 08:32:22
回答 1查看 184关注 0票数 0

我在自己的语料库上使用MLM训练了一个SBERT模型,该模型在某种程度上是特定领域的,使用以下指南:

https://ireneli.eu/2021/03/28/deep-learning-19-training-mlm-on-any-pre-trained-bert-models/ https://github.com/huggingface/transformers/blob/main/examples/pytorch/language-modeling/run_mlm.py

当我用

代码语言:javascript
复制
tokenizer.save_pretrained(output_dir)

它创建了一组文件。因此,我打开了一个vocab.txt,并试图搜索一些特定领域的词,但我找不到。

  1. 我需要在我的语料库上训练一个记号器吗?
  2. 如果是,那么我是否需要再次使用MLM对SBERT模型进行再培训?(这将是非常令人失望的,因为我没有GPU,不得不在云中为GPU付费)
  3. 如果我将它与缺少域特定字的原始令牌程序一起使用,那么现在的模型是否毫无用处呢?
EN

回答 1

Data Science用户

发布于 2022-11-03 07:44:26

通常,拼写文件应该有标记(单词片段)而不是单词:是这样的吗?

请记住,您可以选择标记的制作方式:要么是完整的单词,要么是较小的部分。

然后,如果您的词汇表是新的,您需要从头开始训练您的模型,因为令牌是模型的语义引用的基础。

注意:如果你的数据集很小而且变化不大的话,你也可以使用预先训练过的模型获得好的结果。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/115717

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档