首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我需要在EDA之前处理丢失的值吗?

我需要在EDA之前处理丢失的值吗?
EN

Data Science用户
提问于 2021-01-24 21:55:32
回答 2查看 1.6K关注 0票数 3

我正在处理一个数据集,有一个有趣的列缺少值,但我不想丢弃行(以免丢失其他列的数据)或进行计算(以便不更改数据)。在探索性数据分析期间,我是否可以使用带有缺失值的列的dataframe,并且仅在使用此特定列绘制某项内容时使用不缺少值的幻灯片?

EN

回答 2

Data Science用户

发布于 2021-06-30 07:59:00

我相信您希望与缺少的值一起工作,特别是(X)列,其中列(W,Y,Z)在这些行中有重要的值,不能丢弃或进行计算,特别是为了直观地绘制它们。

是的,考虑到:

  1. 当您只计划绘制其他列(W、Y、Z不包括X列)以直观地查看它们时
  2. 当您只计划在EDA中包括列(X)时,就会有一个python包丢失了,它处理数据可视化所丢失的值。这是python包链接 Click 在此感谢错过youtube演示
票数 1
EN

Data Science用户

发布于 2021-01-24 22:14:16

如果包含缺失值的行数非常小,根据样本大小,我建议将其取消。但是,如果您决定根据不丢失任何信息来保存它们,那么您可以根据涉及空值的特性来做一些事情。

在决定下面的填充方法之前,您应该很好地理解功能列的模式。

  • 可以将空值更改为;。
    • 列的平均值
    • 列的中位数
    • 与上面或下面相同
    • 只是零
    • 列上最重复的值
    • 等。

如果有任何分类功能,您可以按性别这样的特性进行分组,并且可以做与上面相同的事情。例如,如果一个男性有一个NaN高度值,你可以用男性身高的平均值来填充它。

此外,您还可以决定用以下内容来丢弃整个专栏:

  • 检查列与因变量之间的相关性
  • 用PCA检查源数据列的表示级别
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/88427

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档