发布于 2023-01-07 06:41:59
我想到了这些术语的区别。假设我们已经将数据存储在数据库中,并希望在数据库上训练一个良好的ML模型。这包括三个步骤:
当数据集庞大或实时流时,步骤1可能变得复杂,涉及到大量的基础设施工作和数据流水线。步骤2(数据预处理)指的是需要采取的基本步骤,这些步骤甚至需要以与我们的ML模型兼容的输入格式获取数据(例如。前馈神经网络的向量)。在第三步(特征工程)中,将变换应用于数据值(重新标度数值、创建交互术语、编码分类/文本特征等),试图找到数据的最佳新表示形式,以便在输入模型时使模型易于训练到高精度。
有些人称此过程为ELT (提取、加载、转换)或ETL。但是在这个空间中,通常假设最优的特征转换来获得最好的模型是已知的,目标是在单个管道内尽可能高效地执行步骤1-3,以便快速地从原始数据到训练有素的模型。
https://datascience.stackexchange.com/questions/117573
复制相似问题