首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >陷入数据读取阶段的Huggingface语言建模

陷入数据读取阶段的Huggingface语言建模
EN

Stack Overflow用户
提问于 2020-06-19 18:48:20
回答 1查看 562关注 0票数 0

我有一个大文件(1 GB+),混合了短文本和长文本(格式: wikitext-2),用于微调蒙面语言模型,作为基线模型。我遵守了https://github.com/huggingface/transformers/tree/master/examples/language-modeling的指示。这一过程似乎陷入了"Creating features from dataset file at <file loc>“的阶段。我不知道出了什么问题,是真的卡住了,还是这么大的文件真的要花很长时间?

命令看起来几乎如下所示:

代码语言:javascript
复制
export TRAIN_FILE=/path/to/dataset/my.train.raw
export TEST_FILE=/path/to/dataset/my.test.raw

python run_language_modeling.py \
    --output_dir=local_output_dir \
    --model_type=bert \
    --model_name_or_path=local_bert_dir \
    --do_train \
    --train_data_file=$TRAIN_FILE \
    --do_eval \
    --eval_data_file=$TEST_FILE \
    --mlm

添加:作业在CPU上运行。

EN

回答 1

Stack Overflow用户

发布于 2020-06-21 22:07:44

由于该文件很大,我强烈建议在实际的大型数据上运行它之前,先在玩具数据集中尝试代码。当您调试时,这也会很有帮助。

如果您的系统有多核,请遵循一些多处理策略.看看https://github.com/PyTorchLightning/pytorch-lightning

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62476760

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档