文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用Huggingface使用自定义(原始文本)特定领域数据集训练BERT？

问如何使用Huggingface使用自定义(原始文本)特定领域数据集训练BERT？
EN

Stack Overflow用户

提问于 2021-03-28 20:59:43

回答 1查看 630关注 0票数 0

我想用一些自己的数据集来训练/微调BERT模型，这些数据集只包含来自特定领域的原始数据，类似于BioBERT。在第一步中，我只想用这些原始数据训练BERT，而不是使用任何特定的NLP任务进行微调。所以，我想要构建一个库，我可以使用它来对特定任务的带注释的训练数据进行微调，例如NER等。这是否可能以我计划的方式实现？

我尝试使用Huggingface的示例脚本：https://github.com/huggingface/transformers/tree/master/examples/language-modeling

我以以下方式使用了run_mlm脚本：

python run_mlm.py \
    --model_name_or_path bert-base-uncased\
    --train_file /path/to/text_file.txt \
    --do_train \
    --output_dir /out

我得到了一些输出，但是我如何评估结果模型呢？有一些内在的评估方法，我想尝试一下，但我失败了，比如单词相似度或单词类比。

如果你能帮助我的方法，我将非常感激。

nlp

pytorch

bert-language-model

huggingface-transformers

python

回答 1

Stack Overflow用户

发布于 2021-04-01 16:13:56

要评估掩蔽语言模型，有两种策略：

intrinsic evaluations，您在问题中提到了它。这通常是以困惑作为衡量标准的，并在BERT.
extrinsic evaluations等论文中提到:这是对GLUE等基准测试集的微调。

尽管您要求使用一种内在的评估方法，但我还是建议您执行一些微调任务。这可以是GLUE，也可以是NER任务。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66841694

复制

相似问题

问如何使用Huggingface使用自定义(原始文本)特定领域数据集训练BERT？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Huggingface使用自定义(原始文本)特定领域数据集训练BERT？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Huggingface使用自定义(原始文本)特定领域数据集训练BERT？
EN