为了节省时间并允许更大的输入数据集,我希望将特征选择步骤移到拆分之前。如果在重复子样本中,在超过X%的情况下选择了一个特性,我将保留它。或者使用非常低的X来删除那些显然永远不会被选中的特性。我读过警告说不要这样做,包括在这个论坛上,因为信息泄露。特征选择:如果在简历拆分之前泄露信息?,但是如果在几乎所有的分离后案例中都会选择这个特性,那么问题在哪里呢?编辑:它确实涉及目标特性。
发布于 2020-06-21 00:45:20
正如您在文章中所解释的,这取决于您如何选择特性:如果它不涉及目标变量,那么它可能是好的。我将假设最常见的情况,即选择依赖于目标变量。这个问题有两部分:
假设您的目标是使用交叉验证,并且功能选择过程在计算上非常昂贵,那么我可以想出两种方法来正确地做到这一点:
https://datascience.stackexchange.com/questions/76363
复制相似问题