文章/答案/技术大牛

发布

社区首页 >问答首页 >从具有高度不确定性的大群模型中选择集合模型

问从具有高度不确定性的大群模型中选择集合模型
EN

Data Science用户

提问于 2020-08-26 03:02:47

回答 2查看 28关注 0票数 1

我的情况是，许多模型已经创建，我有他们的交叉验证性能以及测试数据的性能。我需要选择的模型，包括在一个简单的包装集合，最有可能泛化为新的数据。

由于每个个体模型都有很好的泛化机会，并且模型的多样性会产生纠错效应，因此传统的观点认为选择CV性能高、相关性低的模型是可行的。

然而，似乎考虑到大量的模型，偶然拥有高测试AUC的几率并不小，因此选择不相关的模型实际上可能更危险，因为缺乏相关性可能表明他们发现了达到高CV性能的巨大不同的机制，其中一个可能是不正确的/过分合适的。也许更安全的方法实际上是在一定的相关范围内选择模型(例如Pearson或Spearman，在0.7-0.9之间)，以保持一定的纠错效果，同时确保机制相当一致(因此，也许是可靠的)。

我一直在寻找这方面的文献，却什么也找不到。我真的很想知道如何处理这个问题，或者阅读什么论文--谢谢！

ensemble-modeling

回答 2

Data Science用户

发布于 2020-08-26 09:26:25

整体学习的一般原则实际上是依赖于学习者个体的多样性，而不是他们的表现。因此，可以包括偶然表现良好的模型(通常是因为它们非常适合)，因为如果模型之间存在足够的多样性，那么两个模型不太可能以相同的方式过度适用，也就是说，它们会错误地预测相同的实例。因此，如果大多数模型在一般情况下通过不同的机制表现得相当好，那么对于任何给定的实例，大多数模型都会预测正确的答案，只有少数模型是错误的。

使用相关性较高的学习模型的风险在于克服了集成学习的目的，获得与最佳个体学习者相似的学习成绩。

还要注意的是，如果个别学习者接受过简历测试，过度适应的风险很低。这也是值得检查的表现，在整个CV运行(高方差表示潜在的不稳定性)，但即使这也不是那么有用，在我的经验:实际上是学习者的多样性，使整体学习的工作最优。

但是和往常一样，很多事情取决于实际的数据/任务，所以我建议对几种不同的方法进行适当的测试。

票数 0

Data Science用户

发布于 2021-01-15 14:35:43

您可以将模型集成看作一个超参数，然后使用交叉验证来比较不同的模型组合。此策略将其转换为一个经验问题，并为您的特定用例找到最佳解决方案。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/80801

复制

相似问题

问从具有高度不确定性的大群模型中选择集合模型
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从具有高度不确定性的大群模型中选择集合模型EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从具有高度不确定性的大群模型中选择集合模型
EN