我有一个有一百万行的数据集。
当运行一个包含500棵树的随机生存森林时,由于内存问题,在R中使用randomForestSRC包需要很长时间。
那么,我可以运行10个随机存活森林,在相同的数据上有50棵树,每次使用不同的种子,并平均10个随机森林的结果(除以10),这样我就可以得到与500棵树的结果相当相似的结果吗?
发布于 2019-07-09 18:48:18
是的,结果应该是相似的。随机森林就是决策树的集合。以后添加更多树没有问题,只要您对10组50棵树中的每一组使用相同的数据和参数即可。此外,你可以看看随机森林算法的更有效的版本,例如package ranger,它也可以做存活森林,iirc。
https://stackoverflow.com/questions/56905647
复制相似问题