首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >特征缩放

特征缩放
EN

Data Science用户
提问于 2015-03-23 15:48:18
回答 1查看 435关注 0票数 2

我正在努力解决一个与特性缩放相关的概念性问题。

让我们假设我正在构建一个分类器(例如一个NN),并且假设我依赖于我的模型的输入特性的未来缩放。

在这种情况下,我将用它的平均值和它的std来规范训练集,我也会用测试均值和std对测试集做同样的事情。

让我们也假设我成功地建立了我的分类器,我转移到生产,在那里我试图分类新的投入。然而,对于这样的新输入,均值和std是未知的!在对模型进行处理之前,我如何适当地缩放它们?也许我可以用training+testing的平均值和性病。

我真的不知道哪个是正确的练习here....any提示?

谢谢你的帮助!

EN

回答 1

Data Science用户

发布于 2015-03-23 21:48:30

您应该只在培训数据集上应用规范化。您的测试集应该保持完全独立,并且只应在您的最终模型被选择时使用。如果在规范化中使用包含测试集,则可以将其视为使用培训过程中的测试集。这被称为数据窥探。

在以后处理测试集时,应该对训练数据集进行预处理,并使用获得的平均值和std值。注意,测试数据集转换可能是不完美的(它不会有零均值或统一标准偏差),但是可以安全地使用这个测试数据集,因为它没有影响学习过程的任何步骤。

票数 5
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/5374

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档