文章/答案/技术大牛

发布

社区首页 >问答首页 >数据预处理框架/库备选方案

问数据预处理框架/库备选方案
EN

Data Science用户

提问于 2022-01-05 00:36:53

回答 1查看 123关注 0票数 2

我目前正在从事一些python机器学习项目，这些项目即将部署到生产中。因此，在我们的团队中，我们有兴趣遵循MLOps原则，以最“正确”的方式这样做。

具体来说，我目前正在研究数据预处理的步骤，以及如何在训练服务倾斜的情况下以健壮的方式实现它。我已经考虑过Tensorflow变换，在经过一次运行定义的预处理步骤之后，生成一个可以在训练后重用的图形工件。尽管使用它的一个缺点是需要坚持Tensorflow数据格式。有什么好的选择吗？

到目前为止，我发现的框架/库中唯一类似的例子是Keras预处理层和sklearn预处理管道。我在很多网站和博客上搜索过，但仍然没有找到类似的讨论。

python

tensorflow

preprocessing

mlops

machine-learning

回答 1

Data Science用户

回答已采纳

发布于 2022-01-05 16:54:10

至关重要的是，要尽可能最好地衡量预压所达到的最终结果。

因此，有许多不同的选项取决于数据集和算法/模型。

例如，一些模型需要数据规范化，有些模型需要对数或其他转换来改进最终结果。有时，您可能会丢失可能需要范围不确定的值。有时，可以用异常值替换NA值。分类数据可以转换为二进制值或缩放值。

有大量的数据预处理书籍，但它们主要是用于一般用途。

因此，我建议将重点放在您想要应用的算法/模型上，并相应地调整预压技术。如果您提供了有关算法或模型的更多信息，就可以对相关的预处理技术提供更多的提示。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/106714

复制

相似问题

问数据预处理框架/库备选方案
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据预处理框架/库备选方案EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据预处理框架/库备选方案
EN