我是新来的。
我想在这样的数据集上执行EDA,这些数据集是我的火车和测试集缺少的特性统计数据:
我的火车上总共有3616条数据线,我的测试集上有905条。我如何决定哪些功能需要“丢弃”,哪些是“人工填充”(以及如何填充--我读了一些关于平均填充的内容等等)。
如果有人也能给我指点说明这个问题的指南,我会很感激的。
谢谢!
发布于 2022-05-15 05:32:18
有许多技术,您可以通过这些技术来填充缺失的值。其中一些是:
1.)用你正确指出的平均、中位或模式代替。
2.)用0这样的常量值替换
3.) KNN输入器
4.) 迭代输入器
要使用哪些数据取决于您拥有的数据类型。或者你可以试试看哪一个给你最好的结果。
干杯!
https://datascience.stackexchange.com/questions/110932
相似问题