目前,我正在用H2O包做一个随机森林,并且出于演示的目的绘制了一个样本树。每个节点的预测值与该节点所有实例上的正类概率并不完全相同。
只是想知道H2O是如何计算预测值的。我需要一个公式来推导这个预测!我知道随机森林超过了树木预测的平均值。但是如何在每棵树的每个节点上计算这个预测呢?
任何帮助都将不胜感激。
发布于 2019-03-26 22:26:14
参见统计学习元素中的算法15.1:
然后查看在H2O-3中实现模型训练过程的代码:
最后,理解实际生成的模型如何用于产生分数的最好方法是genmodel MOJO实现,您可以在这里找到它(尝试使用java调试器单步执行对score0()的调用):
发布于 2019-03-28 09:21:08
我找到了一个解决方案,它返回训练数据集的确切概率率作为样本树中的预测值。你只需要将你的代码设置如下:h2o.randomforest(sample_rate = 1, calibrate_model = TRUE, and calibration_frame = train )
https://stackoverflow.com/questions/55347180
复制相似问题