这个问题适用于那些熟悉GPT或GPT2 OpenAI模型的人。特别是编码任务(字节对编码)。这是我的问题:
我想知道如何创建自己的vocab.bpe文件。
我有一个西班牙语语料库文本,我想使用适合我自己的bpe编码器。我成功地用encoder.json库创建了python,但是我不知道如何获得vocab.bpe文件。我已经检查了gpt-2/src/encoder.py中的代码,但是我没有找到任何提示。有什么帮助或想法吗?
提前谢谢你。
发布于 2019-06-25 12:34:15
查看这里,您可以使用以下命令轻松地创建相同的vocab.bpe:
python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000https://stackoverflow.com/questions/55531061
复制相似问题