我对huggingface的distillBERT工作很感兴趣,通过查看他们的代码(),我发现如果使用roBERTa作为学生模型,他们会冻结位置嵌入,我想知道这是为了什么?def freeze_pos_embeddings(student, args): student.roberta.embeddings.position_embeddings.weight.requires_gradgpt2":
s
我用BERT做了一个模型,对于一个NLI问题,算法运行没有问题,但是,当我想让它适应RoBERTa时,我使用strategy.scope (),它产生了一个我不知道如何解决的错误,我感谢任何指示。must be created in the same distribution strategy scope
ValueError: Variable (<tf.Variable 'tfxlm_roberta_model/roberta/encoder/layer_._0/attentio