我使用的是AutoTokenizer --> tokenizer1 = AutoTokenizer.from_pretrained("vinai/bertweet-base", normalization=True),它比bert-base-uncased的分词器更完整。问题是,当我对一些文本进行标记化时,这个标记器有不同的特殊标记:
special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'})> 而bert-base-uncased记号赋予器有以下几个:
tokenizer = BertTokenizer.from_pretrained(PRE_TRAINED_MODEL_NAME, normalization=True)special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})>我想替换这些特殊的令牌,以使它们适合bert-base-uncased,这样就不会引发错误。
发布于 2021-10-27 23:14:21
这主要是一个字符串替换问题,但也有一些复杂的问题。第一个集合的"bos_token“和"cls_token”都由<s>表示,"eos_token“和"sep_token”都由</s>表示。您的第二组没有BOS和EOS概念,所以如果我们选择其他选项,您可以使用以下代码:
s = s.replace('<s>','[CLS]') \
.replace('</s>','[SEP]') \
.replace('<unk>','[UNK]') \
.replace('<pad>','[PAD]') \
.replace('<mask>','[MASK]')https://stackoverflow.com/questions/69746411
复制相似问题