首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >EDA之前的数据清理和数据转换?

EDA之前的数据清理和数据转换?
EN

Data Science用户
提问于 2018-05-14 11:18:33
回答 2查看 1.9K关注 0票数 0

数据清理、数据转换和探索性数据分析最常见的顺序是什么?

对我来说,做数据清理,然后是EDA,最后是数据转换(分类变量的编码和特性缩放)似乎是最合乎逻辑的。

在EDA之前进行数据转换,似乎使EDA没有那么有用,因为您不能使用EDA。检查以下内容:

年龄在0-18岁之间的乘客有更高的生存机会。

(如果功能缩放已应用于age功能)。

但是再一次,在EDA之后进行数据转换,也就错过了编码分类变量的机会,从而可视化了那些与目标变量之间的相关性。

上述过程的顺序是什么?有命令吗?

EN

回答 2

Data Science用户

发布于 2018-05-14 12:21:18

虽然没有多大帮助,但答案可能是“视情况而定”。

我喜欢一起进行数据清理和一些EDA,因为EDA可以突出显示适当的处理方法来清理数据,例如影响如何处理丢失的值。

我认为数据转换应该在建模之前完成;您是否需要进行任何转换完全取决于您计划使用的技术。

票数 2
EN

Data Science用户

发布于 2018-05-15 14:56:23

我同意“这取决于”--取决于你的目标,数据的性质,以及你和你的团队对数据的了解程度。对于文本数据,清理方法非常清楚,所以我可能会首先进行数据清理。对于大容量的图像数据(癌症筛查、地震学),在数据缩减和特征检测之间有很大的权衡.在这个大容量的领域,我认为你的路径可能不那么清晰--除非你或你的团队知道减少数据和清理数据的方法在过去是有用的。领域知识在为后续分析选择和格式化数据时可能非常重要。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/31634

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档