文章/答案/技术大牛

发布

社区首页 >问答首页 >如何替换BERT标记器特殊标记

问如何替换BERT标记器特殊标记
EN

Stack Overflow用户

提问于 2021-10-27 23:02:07

回答 1查看 165关注 0票数 0

我使用的是AutoTokenizer --> tokenizer1 = AutoTokenizer.from_pretrained("vinai/bertweet-base", normalization=True)，它比bert-base-uncased的分词器更完整。问题是，当我对一些文本进行标记化时，这个标记器有不同的特殊标记：

special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'})>

而bert-base-uncased记号赋予器有以下几个：

tokenizer = BertTokenizer.from_pretrained(PRE_TRAINED_MODEL_NAME, normalization=True)

special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})>

我想替换这些特殊的令牌，以使它们适合bert-base-uncased，这样就不会引发错误。

python

nlp

tokenize

bert-language-model

回答 1

Stack Overflow用户

发布于 2021-10-27 23:14:21

这主要是一个字符串替换问题，但也有一些复杂的问题。第一个集合的"bos_token“和"cls_token”都由<s>表示，"eos_token“和"sep_token”都由</s>表示。您的第二组没有BOS和EOS概念，所以如果我们选择其他选项，您可以使用以下代码：

s = s.replace('<s>','[CLS]')  \
     .replace('</s>','[SEP]')  \
     .replace('<unk>','[UNK]')  \
     .replace('<pad>','[PAD]')  \
     .replace('<mask>','[MASK]')

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69746411

复制

相似问题

问如何替换BERT标记器特殊标记
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何替换BERT标记器特殊标记EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何替换BERT标记器特殊标记
EN