数据清理、数据转换和探索性数据分析最常见的顺序是什么?
对我来说,做数据清理,然后是EDA,最后是数据转换(分类变量的编码和特性缩放)似乎是最合乎逻辑的。
在EDA之前进行数据转换,似乎使EDA没有那么有用,因为您不能使用EDA。检查以下内容:
年龄在0-18岁之间的乘客有更高的生存机会。
(如果功能缩放已应用于age功能)。
但是再一次,在EDA之后进行数据转换,也就错过了编码分类变量的机会,从而可视化了那些与目标变量之间的相关性。
上述过程的顺序是什么?有命令吗?
发布于 2018-05-14 12:21:18
虽然没有多大帮助,但答案可能是“视情况而定”。
我喜欢一起进行数据清理和一些EDA,因为EDA可以突出显示适当的处理方法来清理数据,例如影响如何处理丢失的值。
我认为数据转换应该在建模之前完成;您是否需要进行任何转换完全取决于您计划使用的技术。
发布于 2018-05-15 14:56:23
我同意“这取决于”--取决于你的目标,数据的性质,以及你和你的团队对数据的了解程度。对于文本数据,清理方法非常清楚,所以我可能会首先进行数据清理。对于大容量的图像数据(癌症筛查、地震学),在数据缩减和特征检测之间有很大的权衡.在这个大容量的领域,我认为你的路径可能不那么清晰--除非你或你的团队知道减少数据和清理数据的方法在过去是有用的。领域知识在为后续分析选择和格式化数据时可能非常重要。
https://datascience.stackexchange.com/questions/31634
复制相似问题