如何在SageMaker PyTorch TorchServe端点上启用服务器端批处理?似乎找不到这方面的相关文档。
发布于 2022-09-17 07:07:27
在TorchServe本身中,有设置服务器端批处理的两个配置参数。
特征:
batchSize:这是模型需要处理的最大批处理大小( ms )。maxBatchDelay:这是TorchServe等待接收batch_size请求的最大批处理延迟时间。如果TorchServe在这个计时器时间结束之前没有接收到batch_size数量的请求,它就会将收到的任何请求发送给模型处理程序。最近更新了PyTorch SageMaker推理工具包(2021年10月),通过环境变量向用户公开了这些变量:
batchSize由SAGEMAKER_TS_BATCH_SIZE设置maxBatchDelay由SAGEMAKER_TS_MAX_BATCH_DELAY设置总之,一个如何使用SageMaker Python设置服务器端批处理的示例:
from sagemaker.pytorch.model import PyTorchModel
env_variables_dict = {"SAGEMAKER_TS_BATCH_SIZE": "3","SAGEMAKER_TS_MAX_BATCH_DELAY": "100000"}
pytorch_model = PyTorchModel(
model_data=model_artifact,
role=role,
image_uri=image_uri,
source_dir="code",
framework_version='1.9',
entry_point="inference.py",
env=env_variables_dict)还请参阅AWS ML博客文章:
https://stackoverflow.com/questions/73658032
复制相似问题