文章/答案/技术大牛

发布

社区首页 >问答首页 >陷入数据读取阶段的Huggingface语言建模

问陷入数据读取阶段的Huggingface语言建模
EN

Stack Overflow用户

提问于 2020-06-19 18:48:20

回答 1查看 562关注 0票数 0

我有一个大文件(1 GB+)，混合了短文本和长文本(格式: wikitext-2)，用于微调蒙面语言模型，作为基线模型。我遵守了https://github.com/huggingface/transformers/tree/master/examples/language-modeling的指示。这一过程似乎陷入了"Creating features from dataset file at <file loc>“的阶段。我不知道出了什么问题，是真的卡住了，还是这么大的文件真的要花很长时间？

命令看起来几乎如下所示：

export TRAIN_FILE=/path/to/dataset/my.train.raw
export TEST_FILE=/path/to/dataset/my.test.raw

python run_language_modeling.py \
    --output_dir=local_output_dir \
    --model_type=bert \
    --model_name_or_path=local_bert_dir \
    --do_train \
    --train_data_file=$TRAIN_FILE \
    --do_eval \
    --eval_data_file=$TEST_FILE \
    --mlm

添加:作业在CPU上运行。

pytorch

huggingface-transformers

deep-learning

nlp

回答 1

Stack Overflow用户

发布于 2020-06-21 22:07:44

由于该文件很大，我强烈建议在实际的大型数据上运行它之前，先在玩具数据集中尝试代码。当您调试时，这也会很有帮助。

如果您的系统有多核，请遵循一些多处理策略.看看https://github.com/PyTorchLightning/pytorch-lightning。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62476760

复制

相似问题

问陷入数据读取阶段的Huggingface语言建模
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问陷入数据读取阶段的Huggingface语言建模EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问陷入数据读取阶段的Huggingface语言建模
EN