首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在训练自定义BERT模型时,create_pretraining_data.py正在向tf_examples.tfrecord写入0条记录

在训练自定义BERT模型时,create_pretraining_data.py正在向tf_examples.tfrecord写入0条记录
EN

Stack Overflow用户
提问于 2020-09-14 22:21:43
回答 1查看 118关注 0票数 0

我正在自己的语料库上编写一个自定义的BERT模型,我使用BertWordPieceTokenizer生成了corpus文件,然后运行以下代码

代码语言:javascript
复制
!python create_pretraining_data.py
--input_file=/content/drive/My Drive/internet_archive_scifi_v3.txt
--output_file=/content/sample_data/tf_examples.tfrecord
--vocab_file=/content/sample_data/sifi_13sep-vocab.txt
--do_lower_case=True
--max_seq_length=128
--max_predictions_per_seq=20
--masked_lm_prob=0.15
--random_seed=12345
--dupe_factor=5

获取输出为:

INFO:tensorflow:*** Reading from input files ***

INFO:tensorflow:*** Writing to output files ***

INFO:tensorflow: /content/sample_data/tf_examples.tfrecord

INFO:tensorflow:Wrote 0 total instances

不确定为什么我在tf_examples.tfrecord中总是得到0个实例,我做错了什么?

我使用的TF version 1.12 FYI..generated词汇文件是290KB。

EN

回答 1

Stack Overflow用户

发布于 2021-06-26 10:37:17

它无法读取输入文件,请使用My\ Drive而不是My Drive

代码语言:javascript
复制
--input_file=/content/drive/My\ Drive/internet_archive_scifi_v3.txt
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63886230

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档