首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Huggingface使用自定义(原始文本)特定领域数据集训练BERT?

如何使用Huggingface使用自定义(原始文本)特定领域数据集训练BERT?
EN

Stack Overflow用户
提问于 2021-03-28 20:59:43
回答 1查看 630关注 0票数 0

我想用一些自己的数据集来训练/微调BERT模型,这些数据集只包含来自特定领域的原始数据,类似于BioBERT。在第一步中,我只想用这些原始数据训练BERT,而不是使用任何特定的NLP任务进行微调。所以,我想要构建一个库,我可以使用它来对特定任务的带注释的训练数据进行微调,例如NER等。这是否可能以我计划的方式实现?

我尝试使用Huggingface的示例脚本:https://github.com/huggingface/transformers/tree/master/examples/language-modeling

我以以下方式使用了run_mlm脚本:

代码语言:javascript
复制
python run_mlm.py \
    --model_name_or_path bert-base-uncased\
    --train_file /path/to/text_file.txt \
    --do_train \
    --output_dir /out

我得到了一些输出,但是我如何评估结果模型呢?有一些内在的评估方法,我想尝试一下,但我失败了,比如单词相似度或单词类比。

如果你能帮助我的方法,我将非常感激。

EN

回答 1

Stack Overflow用户

发布于 2021-04-01 16:13:56

要评估掩蔽语言模型,有两种策略:

  • intrinsic evaluations,您在问题中提到了它。这通常是以困惑作为衡量标准的,并在BERT.
  • extrinsic evaluations等论文中提到:这是对GLUE等基准测试集的微调。

尽管您要求使用一种内在的评估方法,但我还是建议您执行一些微调任务。这可以是GLUE,也可以是NER任务。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66841694

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档