我正在尝试使用自定义数据进一步对基本bert模型进行预培训。下面的步骤如下:
35022增加到35880。ValueError:变量的形状/嵌入/word_嵌入:0(35880,128)与检查点读取器的张量bert/embeddings/word_embeddings (30522,128)的形状不匹配。
注意:--我用最新的vocab_size作为35880更改了bert_config文件。
请帮助我理解错误和应该做什么更改,以便我可以预先培训自定义的语音文件。
发布于 2021-11-08 07:55:05
您可以使用run_mlm.py at:https://github.com/huggingface/transformers/tree/master/examples/pytorch/language-modeling进一步使用自己的数据对BERT模型进行预处理。
也请看这个:https://github.com/allenai/dont-stop-pretraining和论文:https://arxiv.org/pdf/2004.10964.pdf的相关思想和术语:领域-自适应的说明和任务自适应的预培训。
https://stackoverflow.com/questions/62948077
复制相似问题