我有N (~50)个不同语言的情感模型,这些模型都是在HggingFace的变压器模型上精调的。每个型号的大小约为2-3 GB .现在,我如何在像GCP这样的云平台中将所有这些情感模型部署为一个可伸缩的服务,从而优化账单,最大限度地提高服务性能(低推理时间或延迟)。
目前,我们正在将每个模型部署为一个单独的服务。对于每个模型,我们遵循以下步骤。
我们对每个模型遵循相同的步骤,并将模型部署为一个专用服务。然而,这个方法在月底花费了我们很多钱。
因此,建议我采用一种更好的方法,以可伸缩的方式部署服务这样的多个模型,以便优化云账单,但性能最大化。
发布于 2023-01-18 00:00:30
有几个想法:
https://datascience.stackexchange.com/questions/117832
复制相似问题