首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >变压器(t5)是如何工作的?

变压器(t5)是如何工作的?
EN

Stack Overflow用户
提问于 2022-04-07 12:00:04
回答 1查看 315关注 0票数 0

我正在使用火把闪电,以细化t5变压器在一个特定的任务。然而,我无法理解这是如何进行的。我总是看到这样的代码:

tokenizer = AutoTokenizer.from_pretrained(hparams.model_name_or_path) model = AutoModelForSeq2SeqLM.from_pretrained(hparams.model_name_or_path)

我不明白制作是如何完成的,它们是冻结整个模型并只训练头部(如果是的话,我如何更改头部),还是使用预先训练过的模型作为权重初始化?我已经找了好几天了。任何链接或帮助都将不胜感激。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-04-08 13:08:38

如果您使用的是PyTorch闪电,那么它不会冻结头部直到您指定它这样做。闪电有一个回调,你可以用它来冻结你的脊骨,只训练头部模块。请参阅主干网细化

除了签出火焰闪存之外,它还允许您为各种文本任务快速构建模型,并使用Transformers库作为主干。您可以使用培训师来指定您想申请培训的类型。

谢谢

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71781813

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档