首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >预处理、EDA和特征工程

预处理、EDA和特征工程
EN

Data Science用户
提问于 2021-08-17 11:47:22
回答 2查看 1.7K关注 0票数 0

EDA、特征工程和预处理有什么区别?

主要目的是使原始数据适合于建模。在EDA中,我们正在清理数据,预处理也是如此。在有限元中,我们正在进行缩放和估算。

EN

回答 2

Data Science用户

回答已采纳

发布于 2021-08-17 12:04:31

EDA(探索性数据分析),顾名思义,是对数据的初步分析。了解分布,了解值的类型及其范围。在进一步分析和理解它的本质之前,它会对数据有一种感觉。理想情况下,这将为您提供在EDA之后所需的预处理类型的概念。

预处理是下一步,然后包括它的步骤,使数据适合您的模型和进一步的分析。在某些情况下,EDA和预处理可能会重叠。

特征工程是从数据中识别和提取特征,了解决策和预测所依据的因素。

票数 0
EN

Data Science用户

发布于 2023-01-10 03:25:35

我想你说的是机器学习应用程序。我想考虑一下在什么时候训练一个模型的区别:

EDA -还没有训练过的模型,只是探索数据集中是否存在潜在的问题(异常值、标签错误的数据、变量/样本之间不想要的相关性等)。

预处理-从原始数据到适合输入到ML模型的格式所需的步骤。对于一个线性/logistic回归模型,这将意味着输入数据需要转换为向量格式(例如。计算缺失值、一次热编码分类变量等)。预处理之后,您可以在数据集上训练模型。

特性工程--现在你已经有了可以训练模型的格式的数据,训练模型,看看会发生什么。然后,开始尝试将数据值转换为更好的表示方式的想法,这样模型就可以更容易地学习输出准确的预测。在这里,您可以在不同转换的数据集上培训您的模型的许多不同版本,目标是通过转换数据值来生成最精确的模型(例如。重新调整数值特性,创建交互术语等)。在特征工程中考虑的转换类型常常受到在检查数据集的EDA阶段所做的发现的启发。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/100191

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档