我在自己的语料库上使用MLM训练了一个SBERT模型,该模型在某种程度上是特定领域的,使用以下指南:
https://ireneli.eu/2021/03/28/deep-learning-19-training-mlm-on-any-pre-trained-bert-models/ https://github.com/huggingface/transformers/blob/main/examples/pytorch/language-modeling/run_mlm.py
当我用
tokenizer.save_pretrained(output_dir)它创建了一组文件。因此,我打开了一个vocab.txt,并试图搜索一些特定领域的词,但我找不到。
发布于 2022-11-03 07:44:26
通常,拼写文件应该有标记(单词片段)而不是单词:是这样的吗?
请记住,您可以选择标记的制作方式:要么是完整的单词,要么是较小的部分。
然后,如果您的词汇表是新的,您需要从头开始训练您的模型,因为令牌是模型的语义引用的基础。
注意:如果你的数据集很小而且变化不大的话,你也可以使用预先训练过的模型获得好的结果。
https://datascience.stackexchange.com/questions/115717
复制相似问题