文章/答案/技术大牛

发布

社区首页 >问答首页 >在不平衡的数据集中，随机林还是额外树之间的哪一种是最好的？

问在不平衡的数据集中，随机林还是额外树之间的哪一种是最好的？
EN

Data Science用户

提问于 2020-06-21 20:08:29

回答 1查看 157关注 0票数 2

我有一个不平衡的数据集，有3个类，60%的1类，38%的2类和2%的3类。

我不想产生更多的3类的例子，我不能得到更多的3类的例子。

问题是我需要在RandomForest和ExtraTree之间做出选择(这是家庭作业)，并解释为什么我选择其中之一。

所以我选择了随机森林分类器，但我不确定我的假设是否正确。

我选择这样做，因为额外树的分裂是随机的，所以选择3类的例子的概率很低，因为我认为(这是真正的问题)，因为随机比额外的树更高方差，因为高方差可以帮助数据集不平衡。

这两个假设，尤其是最后一个假设，对吗？我选择了正确的随机森林而不是额外的树？

谢谢

machine-learning

class-imbalance

variance

bias

回答 1

Data Science用户

回答已采纳

发布于 2020-06-21 22:56:59

随机森林分类器和额外的树都在每个分割点随机抽取特征，但是由于随机森林是贪婪的，它会试图在每个节点找到最优的分割点，而额外的树会随机地选择分裂点。

我会选择随机森林，因为它更有可能创建一个分裂点来解释这个不平衡的类，而额外的树可能会在数据子集上一次又一次的分裂，而不会因为随机的分裂点而分离出第3类。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/76421

复制

相似问题

问在不平衡的数据集中，随机林还是额外树之间的哪一种是最好的？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在不平衡的数据集中，随机林还是额外树之间的哪一种是最好的？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在不平衡的数据集中，随机林还是额外树之间的哪一种是最好的？
EN