我计划构建一个用于培训和服务NLP分类器的工作流/环境,如下所示:
然而,有几个注意事项:
我已经研究过诸如SageMaker这样的现有产品,但这仅限于每个模型一个API服务。它似乎也是为每秒接收数千个电话的API服务设计的,这对我的需求来说根本不符合成本效益。
因此,我的计划是:
前/后处理包。有一个代码回购,包含分类器管道可能调用的所有预处理或后处理方法(包括训练和预测)。这些方法都包含大量由输入参数决定的逻辑方差。这段代码本身并没有被部署到任何地方。
培训服务。一个高资源的EC2实例,它导入上述的预处理/后处理包,具有指向所有可能数据源的输入连接器,并输出到S3桶。数据科学家将输入一组params和数据源(S),并在这种情况下进行培训。
模型存储输出模型存储在各种S3桶中,基于与数据源和分类器类型相关的组织结构。
API服务。一系列低资源的基于S3的API服务,它们使用配置文件来指定要从桶加载哪些模型。这还需要导入前/后处理包,这样它就可以在预测传入的文档时应用上述方法。
所以,我的问题是:
发布于 2019-07-13 21:06:28
也许考虑一下Amazon,wihch正是为这个用途而设计的。它可以与Amazon (目前只有python2.7 )结合使用。
https://softwareengineering.stackexchange.com/questions/394623
复制相似问题