假设您有一个二进制分类问题,以及一个包含20,000条观测和20列的数据集。目标变量非常不平衡,存在缺失值、倾斜分布、离群点等。
我的问题是,在一般意义上,应该执行这些数据预处理步骤的顺序是什么?
填写缺失值,规范化/标准化数据,处理偏斜,处理异常值,平衡目标变量类
发布于 2017-03-16 04:31:43
你问的是一个复杂的问题,取决于你的目标是什么。
如果有缺失的值,它们在列中是否与您正在寻找的结果相关?如果没有的话,他们根本不需要填补,所以秩序不重要。尽管如此,如果一个缺少值的列与您想要的结果相关,那么在进一步分析之前填充丢失的数据集通常是谨慎的。
再一次,离群点需要与你想要确定的东西联系起来。在许多情况下,异常值的存在可以突出结果本身。它可能不会回答您要求的内容,而是让您怀疑数据本身的准确性,或者让您决定将它们包括进来或排除它们。
你需要更具体地了解你想要确定的是什么。然后按照与您相关的顺序处理每个预处理步骤。这种情况在许多不同的情况下都会发生变化,因此很难给出一个明确的答案。
“解决泰坦尼克号数据科学解决方案”的kaggle教程为解决此类问题提供了一个很好的方法,并强化了有时重组工作流任务的概念。
工作流阶段竞争解决方案工作流经历了数据科学解决方案书中描述的七个阶段。
工作流指示每个阶段如何跟随另一个阶段的一般顺序。但是,有例外的用例。
https://datascience.stackexchange.com/questions/17630
复制相似问题