首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Sklearn管道:当包括管道缩放时是否存在泄漏/bias?

Sklearn管道:当包括管道缩放时是否存在泄漏/bias?
EN

Stack Overflow用户
提问于 2020-12-08 04:57:44
回答 1查看 77关注 0票数 0

在机器学习中,将数据分成训练数据和测试数据。

在交叉验证中,将培训数据分为培训集和验证集。

如果需要缩放,则在CV的每一次迭代中,计算不包括验证集的训练集(不是整个训练数据)的均值和标准差,并用于缩放验证集,使缩放部分永远不包括来自验证集的信息。

我的问题是,当我在管道中包括缩放时,在每一次CV迭代中,是从较小的培训集(不包括验证集)或整个培训数据(包括验证集)中计算缩放吗?因为如果它从整个培训数据中计算均值和std,那么这将导致验证集中的估计偏差。

EN

回答 1

Stack Overflow用户

发布于 2020-12-08 05:14:40

我也考虑过这一点,虽然我认为使用完整的数据进行缩放可以将一些信息从培训数据泄漏到验证数据中,但我并不认为这很严重。

一方面,不管怎么说,你洗牌数据,假设所有集合中的分布是相同的,所以你期望均值和标准差是相同的。(当然,这只是理论上的(大数定律)。)

另一方面,即使手段和性传播疾病不同,这种差异也不会显著。

在我的观点中,是的,你可能有一些偏见,但应该是可以忽略不计的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65193318

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档