首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在缺少功能的数据集上执行EDA

在缺少功能的数据集上执行EDA
EN

Data Science用户
提问于 2022-05-14 12:36:07
回答 1查看 61关注 0票数 0

我是新来的。

我想在这样的数据集上执行EDA,这些数据集是我的火车和测试集缺少的特性统计数据:

  • 列车: Test_0 0 Test_1 31 Test_2 0 Test_3 141 Test_4 0 Test_5 0 Test_6 0 Test_7 0 Test_8 1045 Test_9 0 Test_10 0 Test_11 0 Test_13 0 Test_14 0 Test_14 0 Test_15 2967
  • 测试: Test_0 0 Test_1 7 Test_2 0 Test_3 46 Test_4 0 Test_5 0 Test_6 0 Test_7 0 Test_8 279 Test_9 0 Test_10 0 Test_11 0 Test_12 0 Test_13 0 Test_14 0 Test_15 738 dtype: int64

我的火车上总共有3616条数据线,我的测试集上有905条。我如何决定哪些功能需要“丢弃”,哪些是“人工填充”(以及如何填充--我读了一些关于平均填充的内容等等)。

如果有人也能给我指点说明这个问题的指南,我会很感激的。

谢谢!

EN

回答 1

Data Science用户

发布于 2022-05-15 05:32:18

有许多技术,您可以通过这些技术来填充缺失的值。其中一些是:

1.)用你正确指出的平均、中位或模式代替。

2.)用0这样的常量值替换

3.) KNN输入器

4.) 迭代输入器

要使用哪些数据取决于您拥有的数据类型。或者你可以试试看哪一个给你最好的结果。

干杯!

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/110932

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档