是否有办法在T5模型中选择我的自定义词汇表,同时为文本摘要任务进行微调?
我尝试使用一个句子表模型来创建我的自定义令牌器,但是该模型预测了一些令牌,而这些令牌并不存在于我的令牌程序中,因此令牌器将它视为一个未知的令牌。
发布于 2021-04-17 20:15:39
添加少量标记是可以的,但您不能同时使用完全不同的词汇表和微调!预先训练的权重是用预先训练过的词汇来训练的:)如果你改变了词汇表,那么训练的权重就会变得毫无意义和无效!如果你想使用另一个词汇,你必须从头开始训练!例如,要向词汇表添加标记,可以这样做:
tokenizer = BertTokenizer.from_pretrained(model_name)
tokenizer.add_tokens(['new', 'codekali', 'blabla'])
model = Bert.from_pretrained(model_name, return_dict=False)
model.resize_token_embeddings(len(tokenizer))最后一行很重要,因为您需要告诉模型令牌的数量发生了变化。
发布于 2020-06-26 16:30:46
您可以使用Tokenizer.add_tokens()添加新的令牌。更多的细节可以在拥抱脸这里上找到。
https://stackoverflow.com/questions/62519413
复制相似问题