首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何创建和安装vocab.bpe文件(GPT和GPT2 OpenAI模型)与我自己的语料库文本?

如何创建和安装vocab.bpe文件(GPT和GPT2 OpenAI模型)与我自己的语料库文本?
EN

Stack Overflow用户
提问于 2019-04-05 08:15:51
回答 2查看 2.2K关注 0票数 6

这个问题适用于那些熟悉GPT或GPT2 OpenAI模型的人。特别是编码任务(字节对编码)。这是我的问题:

我想知道如何创建自己的vocab.bpe文件。

我有一个西班牙语语料库文本,我想使用适合我自己的bpe编码器。我成功地用encoder.json库创建了python,但是我不知道如何获得vocab.bpe文件。我已经检查了gpt-2/src/encoder.py中的代码,但是我没有找到任何提示。有什么帮助或想法吗?

提前谢谢你。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-06-25 12:34:15

查看这里,您可以使用以下命令轻松地创建相同的vocab.bpe:

代码语言:javascript
复制
python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000
票数 4
EN

Stack Overflow用户

发布于 2019-04-06 08:27:46

我还没有使用过GPT2,但是比品姆是一个很好的子词嵌入的起点。根据自述

BPEmb是一个以275种语言为基础的、经过预先训练的子词嵌入的集合,基于字节对编码,并在维基百科上接受训练。它的目的是作为神经模型在自然语言处理中的输入。

我和句式一起在我的一个项目中使用了预先训练过的嵌入,结果证明它非常有用。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55531061

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档