我目前正在从事一些python机器学习项目,这些项目即将部署到生产中。因此,在我们的团队中,我们有兴趣遵循MLOps原则,以最“正确”的方式这样做。
具体来说,我目前正在研究数据预处理的步骤,以及如何在训练服务倾斜的情况下以健壮的方式实现它。我已经考虑过Tensorflow变换,在经过一次运行定义的预处理步骤之后,生成一个可以在训练后重用的图形工件。尽管使用它的一个缺点是需要坚持Tensorflow数据格式。有什么好的选择吗?
到目前为止,我发现的框架/库中唯一类似的例子是Keras预处理层和sklearn预处理管道。我在很多网站和博客上搜索过,但仍然没有找到类似的讨论。
发布于 2022-01-05 16:54:10
至关重要的是,要尽可能最好地衡量预压所达到的最终结果。
因此,有许多不同的选项取决于数据集和算法/模型。
例如,一些模型需要数据规范化,有些模型需要对数或其他转换来改进最终结果。有时,您可能会丢失可能需要范围不确定的值。有时,可以用异常值替换NA值。分类数据可以转换为二进制值或缩放值。
有大量的数据预处理书籍,但它们主要是用于一般用途。
因此,我建议将重点放在您想要应用的算法/模型上,并相应地调整预压技术。如果您提供了有关算法或模型的更多信息,就可以对相关的预处理技术提供更多的提示。
https://datascience.stackexchange.com/questions/106714
复制相似问题