文章/答案/技术大牛

发布

社区首页 >问答首页 >Sklearn管道:当包括管道缩放时是否存在泄漏/bias？

问Sklearn管道:当包括管道缩放时是否存在泄漏/bias？
EN

Stack Overflow用户

提问于 2020-12-08 04:57:44

回答 1查看 77关注 0票数 0

在机器学习中，将数据分成训练数据和测试数据。

在交叉验证中，将培训数据分为培训集和验证集。

如果需要缩放，则在CV的每一次迭代中，计算不包括验证集的训练集(不是整个训练数据)的均值和标准差，并用于缩放验证集，使缩放部分永远不包括来自验证集的信息。

我的问题是，当我在管道中包括缩放时，在每一次CV迭代中，是从较小的培训集(不包括验证集)或整个培训数据(包括验证集)中计算缩放吗？因为如果它从整个培训数据中计算均值和std，那么这将导致验证集中的估计偏差。

pipeline

scaling

python

machine-learning

scikit-learn

回答 1

Stack Overflow用户

发布于 2020-12-08 05:14:40

我也考虑过这一点，虽然我认为使用完整的数据进行缩放可以将一些信息从培训数据泄漏到验证数据中，但我并不认为这很严重。

一方面，不管怎么说，你洗牌数据，假设所有集合中的分布是相同的，所以你期望均值和标准差是相同的。(当然，这只是理论上的(大数定律)。)

另一方面，即使手段和性传播疾病不同，这种差异也不会显著。

在我的观点中，是的，你可能有一些偏见，但应该是可以忽略不计的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65193318

复制

相似问题

问Sklearn管道:当包括管道缩放时是否存在泄漏/bias？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Sklearn管道:当包括管道缩放时是否存在泄漏/bias？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Sklearn管道:当包括管道缩放时是否存在泄漏/bias？
EN