文章/答案/技术大牛

发布

社区首页 >问答首页 >分裂前的特征工程

问分裂前的特征工程
EN

Data Science用户

提问于 2022-04-10 07:25:44

回答 1查看 360关注 0票数 1

这是一个对原来封闭的帖子(这里)的姐妹贴子。由于数据转换部分是在数据分割后完成的，我想知道这种转换是否与我们如何对数据进行子采样有依赖关系呢？当我们选择不同部分的训练数据时，我们可以得到不同的转换结果。

但我个人认为很难说服自己:数据转换是否应该尽可能地保持不变和可泛化，跨越数据集的不同子样本？

此外，作为测试部分的数据也代表了真实世界的数据。难道我们不应该在分裂之前就对数据进行转换吗?我们能更多地了解“真实世界”中的数据是什么样子吗?我们不浪费数据吗？虽然我同意我们只对训练集进行转换，并在模型评估/训练阶段的预测过程中重新应用相同的训练集，但如果在实际部署过程中，我们对整个数据集进行转换，并对所有数据进行训练，而不是仅仅坚持模型训练阶段的“后分裂转换”，岂不是更好吗？

具体来说，如果我将LabelEncoder()应用于列车上的sklearn，然后在完整的数据集中使用LabelEncoder()的一个新实例，这是合法的吗？

蒂娅。

feature-selection

feature-engineering

features

transformation

回答 1

Data Science用户

发布于 2022-04-12 04:52:45

是的，这是大多数数据科学家在这个行业所做的事情。他们划分他们的火车和测试数据集，以找到最好的模型和什么对他们有用。一旦他们知道哪种模型和预处理适合他们。它们应用相同的预处理，并在整个数据集上使用最佳超视距对模型进行再训练。因此，你在正确的方向上思考，这是在这个行业中经常使用的。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/109845

复制

相似问题

问分裂前的特征工程
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分裂前的特征工程EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分裂前的特征工程
EN