FitBERT是一个有用的软件包,但我对BERT开发掩蔽单词预测有一点怀疑,如下所示:我使用谷歌的脚本(如create_pretraining_data.py,run_pretraining.py,extract_features.py etc..as )使用自定义语料库训练了bert模型,结果我得到了vocab文件,.tfrecord文件,.json文件和检查点文件。
现在如何在你的软件包中使用这些文件来预测给定句子中的掩蔽词??
发布于 2020-10-04 22:03:05
来自tensorflow文档:
TFRecord文件将数据存储为二进制字符串序列。这意味着在将数据写入文件之前,您需要指定数据的结构。Tensorflow为此提供了两个组件: tf.train.Example和tf.train.SequenceExample。您必须将每个数据样本存储在其中一个结构中,然后对其进行序列化,并使用tf.python_io.TFRecordWriter将其写入磁盘。
该document和tensorflow documentation很好地解释了如何使用这些文件类型。
而不是直接通过该库使用FitBERT,您可以按照项目的github上的示例进行操作。
https://stackoverflow.com/questions/64191574
复制相似问题