我的情况是,许多模型已经创建,我有他们的交叉验证性能以及测试数据的性能。我需要选择的模型,包括在一个简单的包装集合,最有可能泛化为新的数据。
由于每个个体模型都有很好的泛化机会,并且模型的多样性会产生纠错效应,因此传统的观点认为选择CV性能高、相关性低的模型是可行的。
然而,似乎考虑到大量的模型,偶然拥有高测试AUC的几率并不小,因此选择不相关的模型实际上可能更危险,因为缺乏相关性可能表明他们发现了达到高CV性能的巨大不同的机制,其中一个可能是不正确的/过分合适的。也许更安全的方法实际上是在一定的相关范围内选择模型(例如Pearson或Spearman,在0.7-0.9之间),以保持一定的纠错效果,同时确保机制相当一致(因此,也许是可靠的)。
我一直在寻找这方面的文献,却什么也找不到。我真的很想知道如何处理这个问题,或者阅读什么论文--谢谢!
发布于 2020-08-26 09:26:25
整体学习的一般原则实际上是依赖于学习者个体的多样性,而不是他们的表现。因此,可以包括偶然表现良好的模型(通常是因为它们非常适合),因为如果模型之间存在足够的多样性,那么两个模型不太可能以相同的方式过度适用,也就是说,它们会错误地预测相同的实例。因此,如果大多数模型在一般情况下通过不同的机制表现得相当好,那么对于任何给定的实例,大多数模型都会预测正确的答案,只有少数模型是错误的。
使用相关性较高的学习模型的风险在于克服了集成学习的目的,获得与最佳个体学习者相似的学习成绩。
还要注意的是,如果个别学习者接受过简历测试,过度适应的风险很低。这也是值得检查的表现,在整个CV运行(高方差表示潜在的不稳定性),但即使这也不是那么有用,在我的经验:实际上是学习者的多样性,使整体学习的工作最优。
但是和往常一样,很多事情取决于实际的数据/任务,所以我建议对几种不同的方法进行适当的测试。
发布于 2021-01-15 14:35:43
您可以将模型集成看作一个超参数,然后使用交叉验证来比较不同的模型组合。此策略将其转换为一个经验问题,并为您的特定用例找到最佳解决方案。
https://datascience.stackexchange.com/questions/80801
复制相似问题