首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用我们的自定义数据进一步对bert模型进行预培训,并增加词汇量?

如何使用我们的自定义数据进一步对bert模型进行预培训,并增加词汇量?
EN

Stack Overflow用户
提问于 2020-07-17 06:07:07
回答 1查看 1.8K关注 0票数 1

我正在尝试使用自定义数据进一步对基本bert模型进行预培训。下面的步骤如下:

  1. 从自定义数据中生成单词列表,并将这些单词添加到现有的基本字汇文件中。词汇量从35022增加到35880
  2. 我使用create_pretraining_data.py伯特官方github页面创建了输入数据。
  3. 使用run_pretraining.py进行预训练,但面临不匹配错误:

ValueError:变量的形状/嵌入/word_嵌入:0(35880,128)与检查点读取器的张量bert/embeddings/word_embeddings (30522,128)的形状不匹配。

注意:--我用最新的vocab_size作为35880更改了bert_config文件。

请帮助我理解错误和应该做什么更改,以便我可以预先培训自定义的语音文件。

EN

回答 1

Stack Overflow用户

发布于 2021-11-08 07:55:05

您可以使用run_mlm.py at:https://github.com/huggingface/transformers/tree/master/examples/pytorch/language-modeling进一步使用自己的数据对BERT模型进行预处理。

也请看这个:https://github.com/allenai/dont-stop-pretraining和论文:https://arxiv.org/pdf/2004.10964.pdf的相关思想和术语:领域-自适应的说明和任务自适应的预培训。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62948077

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档