首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在vocab.txt中添加解码为[UNK] bert令牌的令牌

如何在vocab.txt中添加解码为[UNK] bert令牌的令牌
EN

Stack Overflow用户
提问于 2021-05-02 12:57:50
回答 1查看 1.8K关注 0票数 1

我正在解码bert令牌处理器中的令牌,它将UNK作为欧元符号。但是我尝试在##€文件中添加vocab.txt令牌。但它并没有反映在预测结果和以前一样,它又给了UNK。请让我知道,为了解决这个问题,我需要微调的模型,以再次反映预测的变化。直到现在,我一直在避免微调,因为它需要超过10个小时。提前感谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-05-12 22:05:09

使用令牌程序的令牌函数来避免未知令牌:

代码语言:javascript
复制
from transformers import BertTokenizer
t = BertTokenizer.from_pretrained('bert-base-uncased')
print(t.tokenize("This is an example with an emoji ."))
t.add_tokens([''])
print(t.tokenize("This is an example with an emoji ."))

输出:

代码语言:javascript
复制
['this', 'is', 'an', 'example', 'with', 'an', 'em', '##oj', '##i', '[UNK]', '.']
['this', 'is', 'an', 'example', 'with', 'an', 'em', '##oj', '##i', '', '.']

请记住,您还需要调整模型的大小,以便使用嵌入将其引入到新令牌中。

代码语言:javascript
复制
model.resize_token_embeddings(len(t))
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67356666

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档