我正在从零开始通过训练语言模型来考虑微调模型。我有几个与此有关的基本问题:
我想从头到尾用全词掩蔽来训练LM。我不可能找到如何应用这个选项使用培训师。
这是我的数据集和代码:
text=['I am huggingface fan', 'I love huggingface', ....]
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=True, mlm_probability=0.15)
trainer = tr.Trainer(
model=model,
args=training_args,
data_collator=data_collator,
train_dataset=train_data
)
trainer.train()但它并没有考虑到整个词的掩蔽。
我如何使用这个功能来训练LM在整个单词掩蔽上使用Pytorch培训师?
我如何能够训练更大的序列,比模型的最大长度使用毕托教练机?
发布于 2022-07-29 08:15:20
使用培训器,您需要实现自己的数据排序器,例如https://discuss.huggingface.co/t/how-to-use-whole-word-masking-data-collator/15778
对于第二种变体:所有变压器对序列长度都是弹性的,特别是当它们使用相对位置编码(如t5和longt5 )时,如果它们使用正弦位置编码作为传统的变压器,那么它们可以推广到更长的长度,并且由于机器不会产生OOM(OOM)错误,所以可以增加序列长度,最好的变体是使用longt5或longt5中使用的稀疏注意。
https://stackoverflow.com/questions/72908962
复制相似问题