随机森林(RF)是由决策树的集合(DT)产生的。通过使用套袋,每个DT被训练成一个不同的数据子集。因此,是否可以通过对新数据增加更多的决策树来实现在线随机森林?
例如,我们有10K样本,训练10DT样本,然后得到1K样本,而不是重新训练完全RF,我们添加了一个新DT。现在用10+1 DT的贝叶斯平均进行预测。
此外,如果我们保留所有以前的数据,新的DT的训练主要是在新的数据,其中挑选一个样本的概率是加权的,取决于已经选择了多少次。
发布于 2014-10-21 02:43:26
有最近关于这个问题的一篇论文 (在线随机森林),来自计算机视觉。这里有一个实现和演示文稿:10个分钟内在线随机森林
https://datascience.stackexchange.com/questions/2314
复制相似问题