文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用我们的自定义数据进一步对bert模型进行预培训，并增加词汇量？

问如何使用我们的自定义数据进一步对bert模型进行预培训，并增加词汇量？
EN

Stack Overflow用户

提问于 2020-07-17 06:07:07

回答 1查看 1.8K关注 0票数 1

我正在尝试使用自定义数据进一步对基本bert模型进行预培训。下面的步骤如下：

从自定义数据中生成单词列表，并将这些单词添加到现有的基本字汇文件中。词汇量从35022增加到35880。
我使用create_pretraining_data.py从伯特官方github页面创建了输入数据。
使用run_pretraining.py进行预训练，但面临不匹配错误：

ValueError:变量的形状/嵌入/word_嵌入:0(35880,128)与检查点读取器的张量bert/embeddings/word_embeddings (30522,128)的形状不匹配。

注意：--我用最新的vocab_size作为35880更改了bert_config文件。

请帮助我理解错误和应该做什么更改，以便我可以预先培训自定义的语音文件。

python

tensorflow

nlp

pre-trained-model

bert-language-model

回答 1

Stack Overflow用户

发布于 2021-11-08 07:55:05

您可以使用run_mlm.py at：https://github.com/huggingface/transformers/tree/master/examples/pytorch/language-modeling进一步使用自己的数据对BERT模型进行预处理。

也请看这个：https://github.com/allenai/dont-stop-pretraining和论文：https://arxiv.org/pdf/2004.10964.pdf的相关思想和术语:领域-自适应的说明和任务自适应的预培训。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62948077

复制

相似问题

问如何使用我们的自定义数据进一步对bert模型进行预培训，并增加词汇量？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用我们的自定义数据进一步对bert模型进行预培训，并增加词汇量？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用我们的自定义数据进一步对bert模型进行预培训，并增加词汇量？
EN