文章/答案/技术大牛

发布

社区首页 >问答首页 >"AssertionError:如果未定义填充令牌，则无法处理批处理大小>1“和pad_token = eos_token

问"AssertionError:如果未定义填充令牌，则无法处理批处理大小>1“和pad_token = eos_token
EN

Stack Overflow用户

提问于 2021-06-22 13:19:02

回答 1查看 1.2K关注 0票数 2

我正在努力完善一个预先训练的GPT2 2模型。在应用相应的令牌程序时，我最初得到了错误消息：

使用pad_token，但尚未设置。

因此，我将代码更改为：

GPT2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
GPT2_tokenizer.pad_token = GPT2_tokenizer.eos_token

稍后调用trainer.train()时，最后会出现以下错误：

AssertionError:如果没有定义填充令牌，则无法处理批处理大小>1。

由于我在上面专门定义了pad_token，所以我希望这些错误(或者更确切地说是我对原始错误和这个新错误的修正)是相关的--尽管我可能是错的。这是eos_token和pad_token以某种方式介入的已知问题吗？有简单的解决办法吗？

非常感谢!

neural-network

pytorch

data-science

python

回答 1

Stack Overflow用户

发布于 2021-12-08 16:06:22

我遇到了一个类似的问题，产生了与您所收到的错误消息相同的错误信息。我不能确定您的问题和我的问题是否是由同一个问题引起的，因为我看不到您的全部堆栈跟踪，但是我会发布我的解决方案，以防它可以帮助您或其他人。

您完全正确地解决了您用令牌程序描述的第一个问题，方法是使用提供的代码设置其pad令牌。但是，为了使我的模型正常工作，我还必须设置模型配置的pad_token_id。

# instantiate the configuration for your model, this can be imported from transformers
configuration = GPT2Config()
# set up your tokenizer, just like you described, and set the pad token
GPT2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
GPT2_tokenizer.pad_token = GPT2_tokenizer.eos_token
# instantiate the model
model = GPT2ForSequenceClassification(configuration).from_pretrained(model_name).to(device)
# set the pad token of the model's configuration
model.config.pad_token_id = model.config.eos_token_id

我认为这是因为令牌器和模型函数是分开的，它们都需要知道用于pad令牌的ID。我不知道这是否能解决你的问题(因为这篇文章已经发布了6个月了，反正也没什么关系)，但希望我的答案能帮到别人。

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68084302

复制

相似问题

问"AssertionError:如果未定义填充令牌，则无法处理批处理大小>1“和pad_token = eos_token
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问"AssertionError:如果未定义填充令牌，则无法处理批处理大小>1“和pad_token = eos_tokenEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问"AssertionError:如果未定义填充令牌，则无法处理批处理大小>1“和pad_token = eos_token
EN