MMS、TFServing和TorchServe支持服务器端的批处理(相应的请求可以由服务器以异步方式在本地批处理,同时对客户端保持同步批处理1大小的错觉)。如何在SageMaker端点上启用这些特性?
发布于 2022-09-15 18:36:44
对于每个SageMaker容器,可以通过环境变量来控制它们。
对于TorchServe:
from sagemaker.pytorch.model import PyTorchModel
env_variables_dict = {
"SAGEMAKER_TS_BATCH_SIZE": "3",
"SAGEMAKER_TS_MAX_BATCH_DELAY": "100000"
}
pytorch_model = PyTorchModel(
model_data=model_artifact,
role=role,
image_uri=image_uri,
source_dir="code",
framework_version='1.9',
entry_point="inference.py",
env=env_variables_dict
)TFServing批处理文档:https://github.com/aws/sagemaker-tensorflow-serving-container/blob/1bd309b7be5040d5515a3081fd5714e444b2ab91/README.md#enabling-batching
SageMaker目前不支持MMS批处理功能。
https://stackoverflow.com/questions/73653266
复制相似问题