首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何利用Pytorch训练器API训练带有全词掩蔽的LM模型

如何利用Pytorch训练器API训练带有全词掩蔽的LM模型
EN

Stack Overflow用户
提问于 2022-07-08 08:52:53
回答 1查看 162关注 0票数 0

我正在从零开始通过训练语言模型来考虑微调模型。我有几个与此有关的基本问题:

我想从头到尾用全词掩蔽来训练LM。我不可能找到如何应用这个选项使用培训师。

这是我的数据集和代码:

代码语言:javascript
复制
text=['I am huggingface fan', 'I love huggingface', ....]
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=True, mlm_probability=0.15)

trainer = tr.Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_data
)

trainer.train()

但它并没有考虑到整个词的掩蔽。

我如何使用这个功能来训练LM在整个单词掩蔽上使用Pytorch培训师?

我如何能够训练更大的序列,比模型的最大长度使用毕托教练机?

EN

回答 1

Stack Overflow用户

发布于 2022-07-29 08:15:20

使用培训器,您需要实现自己的数据排序器,例如https://discuss.huggingface.co/t/how-to-use-whole-word-masking-data-collator/15778

对于第二种变体:所有变压器对序列长度都是弹性的,特别是当它们使用相对位置编码(如t5和longt5 )时,如果它们使用正弦位置编码作为传统的变压器,那么它们可以推广到更长的长度,并且由于机器不会产生OOM(OOM)错误,所以可以增加序列长度,最好的变体是使用longt5或longt5中使用的稀疏注意。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72908962

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档