文章/答案/技术大牛

发布

社区首页 >问答首页 >预处理与数据工程与特征工程

问预处理与数据工程与特征工程
EN

Data Science用户

提问于 2023-01-06 14:47:04

回答 1查看 63关注 0票数 0

我有一个非常困难的分类，不同的数据准备方法分为3类预处理，数据工程，功能工程。

一个比较常见的定义将描述为使用领域知识从原始数据创建新特性。(一个 )

预处理通常被描述为“清理数据”。(一个)

但有时，Feature也被描述为包括处理缺失值(B)之类的基本清理技术。

在这个职位中，前处理分为数据工程和特征工程。这里的数据工程实际上只是将数据放入某种模型可识别的形式，而功能工程则是其他一切(即特性缩放)。

feature-engineering

preprocessing

data-engineering

回答 1

Data Science用户

发布于 2023-01-07 06:41:59

我想到了这些术语的区别。假设我们已经将数据存储在数据库中，并希望在数据库上训练一个良好的ML模型。这包括三个步骤：

将数据移动到正确的计算机，在那里模型将得到培训(数据工程)
以正确的方式格式化数据，以便对模型进行培训(数据预处理)
尝试各种数据值的转换，使我们能够训练最好的模型，而不改变模型的超参数或训练算法(Feature )。

当数据集庞大或实时流时，步骤1可能变得复杂，涉及到大量的基础设施工作和数据流水线。步骤2(数据预处理)指的是需要采取的基本步骤，这些步骤甚至需要以与我们的ML模型兼容的输入格式获取数据(例如。前馈神经网络的向量)。在第三步(特征工程)中，将变换应用于数据值(重新标度数值、创建交互术语、编码分类/文本特征等)，试图找到数据的最佳新表示形式，以便在输入模型时使模型易于训练到高精度。

有些人称此过程为ELT (提取、加载、转换)或ETL。但是在这个空间中，通常假设最优的特征转换来获得最好的模型是已知的，目标是在单个管道内尽可能高效地执行步骤1-3，以便快速地从原始数据到训练有素的模型。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/117573

复制

相似问题

问预处理与数据工程与特征工程
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问预处理与数据工程与特征工程EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问预处理与数据工程与特征工程
EN