首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >T5模型自定义词汇表

T5模型自定义词汇表
EN

Stack Overflow用户
提问于 2020-06-22 16:45:49
回答 2查看 913关注 0票数 0

是否有办法在T5模型中选择我的自定义词汇表,同时为文本摘要任务进行微调?

我尝试使用一个句子表模型来创建我的自定义令牌器,但是该模型预测了一些令牌,而这些令牌并不存在于我的令牌程序中,因此令牌器将它视为一个未知的令牌。

EN

回答 2

Stack Overflow用户

发布于 2021-04-17 20:15:39

添加少量标记是可以的,但您不能同时使用完全不同的词汇表和微调!预先训练的权重是用预先训练过的词汇来训练的:)如果你改变了词汇表,那么训练的权重就会变得毫无意义和无效!如果你想使用另一个词汇,你必须从头开始训练!例如,要向词汇表添加标记,可以这样做:

代码语言:javascript
复制
tokenizer = BertTokenizer.from_pretrained(model_name)
tokenizer.add_tokens(['new', 'codekali', 'blabla'])
model = Bert.from_pretrained(model_name, return_dict=False)
     
model.resize_token_embeddings(len(tokenizer))

最后一行很重要,因为您需要告诉模型令牌的数量发生了变化。

票数 3
EN

Stack Overflow用户

发布于 2020-06-26 16:30:46

您可以使用Tokenizer.add_tokens()添加新的令牌。更多的细节可以在拥抱脸这里上找到。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62519413

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档