在机器学习中,将数据分成训练数据和测试数据。
在交叉验证中,将培训数据分为培训集和验证集。
如果需要缩放,则在CV的每一次迭代中,计算不包括验证集的训练集(不是整个训练数据)的均值和标准差,并用于缩放验证集,使缩放部分永远不包括来自验证集的信息。
我的问题是,当我在管道中包括缩放时,在每一次CV迭代中,是从较小的培训集(不包括验证集)或整个培训数据(包括验证集)中计算缩放吗?因为如果它从整个培训数据中计算均值和std,那么这将导致验证集中的估计偏差。
发布于 2020-12-08 05:14:40
我也考虑过这一点,虽然我认为使用完整的数据进行缩放可以将一些信息从培训数据泄漏到验证数据中,但我并不认为这很严重。
一方面,不管怎么说,你洗牌数据,假设所有集合中的分布是相同的,所以你期望均值和标准差是相同的。(当然,这只是理论上的(大数定律)。)
另一方面,即使手段和性传播疾病不同,这种差异也不会显著。
在我的观点中,是的,你可能有一些偏见,但应该是可以忽略不计的。
https://stackoverflow.com/questions/65193318
复制相似问题