我有一个预先训练好的模型,现在正在尝试使用Sagemaker创建一个端点,我的文件夹结构类似于这个"model.tar.gz“:
model
|- config.json
|- pytorch_model.bin
|- special_tokens_map.json
|- spiece.model
|- tokenizer_config.json
|- training_args.bin
code
|- inference.py
| - requirements.txt运行以下脚本以创建终结点:
pytorch_model = PyTorchModel(
model_data='s3://mck-dl-ai-studio/answer_card/answercard.tar.gz',
role=role,
entry_point='inference.py',
framework_version="1.3.1")
predictor = pytorch_model.deploy(instance_type='ml.t2.medium', initial_instance_count=1)调用InvokeEndpoint操作时出错(ModelError):从模型收到服务器错误(500),消息为"No module named 'transformers'“。详情请参见账号xxxxxx中的https://us-west-2.console.aws.amazon.com/cloudwatch/home?region=us-west-2#logEventViewer:group=/aws/sagemaker/Endpoints/pytorch-inference-2020-07-20-16-45-51-564。
我在这里错过的是尝试添加source_dir和py_version,但没有成功
发布于 2020-07-21 23:23:33
除了torch、torchvision和bumpy之外,code/requirements.txt还应该指定您需要的任何第三方库。
发布于 2020-09-24 20:58:00
我也犯过类似的错误。最后,我的model.tar.gz文件夹结构不正确。(model.pth和/code不在我的模型文件夹的根目录中)
正如Yoav Zimmerman在上面所说的,code/requirements.txt可以指定第三方库。这适用于framework_version="1.3.1“。
对我有帮助的是在本地运行sagemaker进行调试。请参阅本教程:aws-sagemaker-pytorch-local-dev-flow
https://stackoverflow.com/questions/63000589
复制相似问题