问特征缩放
EN

Data Science用户

提问于 2015-03-23 15:48:18

回答 1查看 435关注 0票数 2

我正在努力解决一个与特性缩放相关的概念性问题。

让我们假设我正在构建一个分类器(例如一个NN)，并且假设我依赖于我的模型的输入特性的未来缩放。

在这种情况下，我将用它的平均值和它的std来规范训练集，我也会用测试均值和std对测试集做同样的事情。

让我们也假设我成功地建立了我的分类器，我转移到生产，在那里我试图分类新的投入。然而，对于这样的新输入，均值和std是未知的！在对模型进行处理之前，我如何适当地缩放它们？也许我可以用training+testing的平均值和性病。

我真的不知道哪个是正确的练习here....any提示？

谢谢你的帮助!

发布于 2015-03-23 21:48:30

您应该只在培训数据集上应用规范化。您的测试集应该保持完全独立，并且只应在您的最终模型被选择时使用。如果在规范化中使用包含测试集，则可以将其视为使用培训过程中的测试集。这被称为数据窥探。

在以后处理测试集时，应该对训练数据集进行预处理，并使用获得的平均值和std值。注意，测试数据集转换可能是不完美的(它不会有零均值或统一标准偏差)，但是可以安全地使用这个测试数据集，因为它没有影响学习过程的任何步骤。

票数 5

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/5374

复制

相似问题

问特征缩放EN