文章/答案/技术大牛

发布

社区首页 >问答首页 >具有大数据的随机森林.树数.观测数

问具有大数据的随机森林.树数.观测数
EN

Data Science用户

提问于 2015-11-02 15:42:45

回答 1查看 1.6K关注 0票数 6

我经常使用随机森林，正则随机森林，引导随机森林，和类似的树模型。

我正在处理的数据的大小已经超出了我使用HPC和并行性所能处理的范围。由于行长(观察)而不是列(特性)，它通常很大。数据也往往不是正态分布的。

我必须在以下两者之间做出选择：

用完整的数据或相对较大的比较样本运行少量的树(即50棵或更少的树)
运行数倍于树数，但相应地缩小了样本大小。

比如，我可以做一些特别的测试，看看我认为哪些测试会更好，但我想知道的是，是否有一个很好的理论(或强有力的实证)推理来指导方法的选择，或者描述所做的权衡？

换句话说，我希望更熟悉这种(类型)算法的数学、统计和理论的人能够提供一些可概括的洞察力。

bigdata

random-forest

回答 1

Data Science用户

回答已采纳

发布于 2016-06-28 18:05:32

我建议将选项#1和#2结合使用。

首先，您可以尝试调优您的超参数，直到您能够在多大程度上减少树数，直到随机森林模型的预测在测试集上开始恶化。

这是因为更改mtry的值，即随机选择的一个新树的特征数，是影响模型准确性的唯一有意义的超参数。因为平均收敛为no。树木的数量增加了，不。可以将树的性能降低到不受影响的程度。因此，您需要迭代并选择一个限制，超过这个限制，极少数树可能无法产生足够强的集合。随机森林需要最好的方法是使用更多的基础学习者，通过平均每棵树的输出来减少方差。

从您的案例中还不清楚您是在使用随机森林进行分类还是使用回归问题。如果这是一个分类问题，并且如果你的数据集在正类和负类的比例上是不平衡的，那么你可以通过对大多数类进行过抽样来缩小训练集的大小，使它更接近1:1的比例。由于您有大量的记录，这种基于类的抽样可以提高准确性，并减少培训的数据大小。

此外，如果您获得了一个性能良好的精调随机森林，那么您还可以评估掉由OOB样本上的算法确定的最不重要的特性。这将减少训练该模型所需的时间。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/8694

复制

相似问题

问具有大数据的随机森林.树数.观测数
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有大数据的随机森林.树数.观测数EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有大数据的随机森林.树数.观测数
EN