在叠加泛化中,在训练集(即第一层)上训练几种算法,然后使用第二层模型对它们的预测进行叠加。在许多文献中,人们说第一层算法最好是低相关性的。如何计算算法之间的相关性?
发布于 2017-06-27 20:27:51
对于回归任务,关联只是预测值之间的相关性,对于二值分类,则是预测概率之间的相关性。在多类分类中,可以使用R中的hetcor包找到预测因子变量之间的相关性。
发布于 2017-06-27 15:52:11
我不知道有什么简单的比较方法。我已经读过更多的文章,你想要不同类型的算法来减少“群体思考”,所以你会选择支持向量机、神经网络、决策树等等。如果在第二层,他们倾向于一起投票,这意味着他们都因为同样的原因而被愚弄,或者你找到了可预测的数据。
https://datascience.stackexchange.com/questions/19995
复制相似问题