我目前正在执行回归建模,其数据集的特征数(p)高于观测值(n)。通常是p = 10000和n = 30。此外,我想测试多种模型并找到最好的。
p = 10000
n = 30
我现在要做的是首先消除这些特性。使用姆尔默()或贵宾()将其从10K降至20-30 .我通过把它放在我的管道顶端来达到这个目的。然后,我将开始测试许多模型。
这种做法是否合理?
发布于 2022-07-11 21:40:35
只要您使用重采样或验证集来确保没有信息泄漏,这是合理的。
我们希望在今年晚些时候有更多的监督过滤器配方功能,但史蒂文的是伟大的。
https://stackoverflow.com/questions/72896969
相似问题