我想用一些自己的数据集来训练/微调BERT模型,这些数据集只包含来自特定领域的原始数据,类似于BioBERT。在第一步中,我只想用这些原始数据训练BERT,而不是使用任何特定的NLP任务进行微调。所以,我想要构建一个库,我可以使用它来对特定任务的带注释的训练数据进行微调,例如NER等。这是否可能以我计划的方式实现?
我尝试使用Huggingface的示例脚本:https://github.com/huggingface/transformers/tree/master/examples/language-modeling
我以以下方式使用了run_mlm脚本:
python run_mlm.py \
--model_name_or_path bert-base-uncased\
--train_file /path/to/text_file.txt \
--do_train \
--output_dir /out我得到了一些输出,但是我如何评估结果模型呢?有一些内在的评估方法,我想尝试一下,但我失败了,比如单词相似度或单词类比。
如果你能帮助我的方法,我将非常感激。
发布于 2021-04-01 16:13:56
要评估掩蔽语言模型,有两种策略:
尽管您要求使用一种内在的评估方法,但我还是建议您执行一些微调任务。这可以是GLUE,也可以是NER任务。
https://stackoverflow.com/questions/66841694
复制相似问题