EDA、特征工程和预处理有什么区别?
主要目的是使原始数据适合于建模。在EDA中,我们正在清理数据,预处理也是如此。在有限元中,我们正在进行缩放和估算。
发布于 2021-08-17 12:04:31
EDA(探索性数据分析),顾名思义,是对数据的初步分析。了解分布,了解值的类型及其范围。在进一步分析和理解它的本质之前,它会对数据有一种感觉。理想情况下,这将为您提供在EDA之后所需的预处理类型的概念。
预处理是下一步,然后包括它的步骤,使数据适合您的模型和进一步的分析。在某些情况下,EDA和预处理可能会重叠。
特征工程是从数据中识别和提取特征,了解决策和预测所依据的因素。
发布于 2023-01-10 03:25:35
我想你说的是机器学习应用程序。我想考虑一下在什么时候训练一个模型的区别:
EDA -还没有训练过的模型,只是探索数据集中是否存在潜在的问题(异常值、标签错误的数据、变量/样本之间不想要的相关性等)。
预处理-从原始数据到适合输入到ML模型的格式所需的步骤。对于一个线性/logistic回归模型,这将意味着输入数据需要转换为向量格式(例如。计算缺失值、一次热编码分类变量等)。预处理之后,您可以在数据集上训练模型。
特性工程--现在你已经有了可以训练模型的格式的数据,训练模型,看看会发生什么。然后,开始尝试将数据值转换为更好的表示方式的想法,这样模型就可以更容易地学习输出准确的预测。在这里,您可以在不同转换的数据集上培训您的模型的许多不同版本,目标是通过转换数据值来生成最精确的模型(例如。重新调整数值特性,创建交互术语等)。在特征工程中考虑的转换类型常常受到在检查数据集的EDA阶段所做的发现的启发。
https://datascience.stackexchange.com/questions/100191
复制相似问题