首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据预处理框架/库备选方案

数据预处理框架/库备选方案
EN

Data Science用户
提问于 2022-01-05 00:36:53
回答 1查看 123关注 0票数 2

我目前正在从事一些python机器学习项目,这些项目即将部署到生产中。因此,在我们的团队中,我们有兴趣遵循MLOps原则,以最“正确”的方式这样做。

具体来说,我目前正在研究数据预处理的步骤,以及如何在训练服务倾斜的情况下以健壮的方式实现它。我已经考虑过Tensorflow变换,在经过一次运行定义的预处理步骤之后,生成一个可以在训练后重用的图形工件。尽管使用它的一个缺点是需要坚持Tensorflow数据格式。有什么好的选择吗?

到目前为止,我发现的框架/库中唯一类似的例子是Keras预处理层和sklearn预处理管道。我在很多网站和博客上搜索过,但仍然没有找到类似的讨论。

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-01-05 16:54:10

至关重要的是,要尽可能最好地衡量预压所达到的最终结果。

因此,有许多不同的选项取决于数据集和算法/模型。

例如,一些模型需要数据规范化,有些模型需要对数或其他转换来改进最终结果。有时,您可能会丢失可能需要范围不确定的值。有时,可以用异常值替换NA值。分类数据可以转换为二进制值或缩放值。

有大量的数据预处理书籍,但它们主要是用于一般用途。

因此,我建议将重点放在您想要应用的算法/模型上,并相应地调整预压技术。如果您提供了有关算法或模型的更多信息,就可以对相关的预处理技术提供更多的提示。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/106714

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档