这是一个对原来封闭的帖子(这里)的姐妹贴子。由于数据转换部分是在数据分割后完成的,我想知道这种转换是否与我们如何对数据进行子采样有依赖关系呢?当我们选择不同部分的训练数据时,我们可以得到不同的转换结果。
但我个人认为很难说服自己:数据转换是否应该尽可能地保持不变和可泛化,跨越数据集的不同子样本?
此外,作为测试部分的数据也代表了真实世界的数据。难道我们不应该在分裂之前就对数据进行转换吗?我们能更多地了解“真实世界”中的数据是什么样子吗?我们不浪费数据吗?虽然我同意我们只对训练集进行转换,并在模型评估/训练阶段的预测过程中重新应用相同的训练集,但如果在实际部署过程中,我们对整个数据集进行转换,并对所有数据进行训练,而不是仅仅坚持模型训练阶段的“后分裂转换”,岂不是更好吗?
具体来说,如果我将LabelEncoder()应用于列车上的sklearn,然后在完整的数据集中使用LabelEncoder()的一个新实例,这是合法的吗?
蒂娅。
发布于 2022-04-12 04:52:45
是的,这是大多数数据科学家在这个行业所做的事情。他们划分他们的火车和测试数据集,以找到最好的模型和什么对他们有用。一旦他们知道哪种模型和预处理适合他们。它们应用相同的预处理,并在整个数据集上使用最佳超视距对模型进行再训练。因此,你在正确的方向上思考,这是在这个行业中经常使用的。
https://datascience.stackexchange.com/questions/109845
复制相似问题