首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >正确的数据准备步骤顺序?

正确的数据准备步骤顺序?
EN

Data Science用户
提问于 2017-03-16 03:13:47
回答 1查看 995关注 0票数 2

假设您有一个二进制分类问题,以及一个包含20,000条观测和20列的数据集。目标变量非常不平衡,存在缺失值、倾斜分布、离群点等。

我的问题是,在一般意义上,应该执行这些数据预处理步骤的顺序是什么?

填写缺失值,规范化/标准化数据,处理偏斜,处理异常值,平衡目标变量类

EN

回答 1

Data Science用户

发布于 2017-03-16 04:31:43

你问的是一个复杂的问题,取决于你的目标是什么。

如果有缺失的值,它们在列中是否与您正在寻找的结果相关?如果没有的话,他们根本不需要填补,所以秩序不重要。尽管如此,如果一个缺少值的列与您想要的结果相关,那么在进一步分析之前填充丢失的数据集通常是谨慎的。

再一次,离群点需要与你想要确定的东西联系起来。在许多情况下,异常值的存在可以突出结果本身。它可能不会回答您要求的内容,而是让您怀疑数据本身的准确性,或者让您决定将它们包括进来或排除它们。

你需要更具体地了解你想要确定的是什么。然后按照与您相关的顺序处理每个预处理步骤。这种情况在许多不同的情况下都会发生变化,因此很难给出一个明确的答案。

“解决泰坦尼克号数据科学解决方案”的kaggle教程为解决此类问题提供了一个很好的方法,并强化了有时重组工作流任务的概念。

工作流阶段竞争解决方案工作流经历了数据科学解决方案书中描述的七个阶段。

  • 问题或问题的定义。
  • 获取培训和测试数据。
  • 争吵,准备,清理数据。
  • 分析,识别模式,并探索数据。
  • 建模、预测和解决问题。
  • 可视化、报告并提出问题解决步骤和最终解决方案。
  • 提供或提交结果。

工作流指示每个阶段如何跟随另一个阶段的一般顺序。但是,有例外的用例。

  • 我们可以将多个工作流阶段结合起来。我们可以通过可视化数据来进行分析。
  • 比指示的更早地表演一个阶段。我们可以在争吵前后对数据进行分析。
  • 在我们的工作流中多次执行一个阶段。可视化阶段可以多次使用。
  • 完全放弃舞台。我们可能不需要供应阶段来生产或服务,为竞争启用我们的数据集。

卡格尔-泰坦尼克号数据科学解决方案

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/17630

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档