我正在努力解决一个与特性缩放相关的概念性问题。
让我们假设我正在构建一个分类器(例如一个NN),并且假设我依赖于我的模型的输入特性的未来缩放。
在这种情况下,我将用它的平均值和它的std来规范训练集,我也会用测试均值和std对测试集做同样的事情。
让我们也假设我成功地建立了我的分类器,我转移到生产,在那里我试图分类新的投入。然而,对于这样的新输入,均值和std是未知的!在对模型进行处理之前,我如何适当地缩放它们?也许我可以用training+testing的平均值和性病。
我真的不知道哪个是正确的练习here....any提示?
谢谢你的帮助!
发布于 2015-03-23 21:48:30
您应该只在培训数据集上应用规范化。您的测试集应该保持完全独立,并且只应在您的最终模型被选择时使用。如果在规范化中使用包含测试集,则可以将其视为使用培训过程中的测试集。这被称为数据窥探。
在以后处理测试集时,应该对训练数据集进行预处理,并使用获得的平均值和std值。注意,测试数据集转换可能是不完美的(它不会有零均值或统一标准偏差),但是可以安全地使用这个测试数据集,因为它没有影响学习过程的任何步骤。
https://datascience.stackexchange.com/questions/5374
复制相似问题