在随机森林方法中,对于每棵树,我们随机选择一组固定大小的变量(特征)。但是,一旦为该特定树冻结了该集合,该树的行为是否与常规决策树算法类似?
我假设随机森林只是生成一堆经典的“决策树”,并将它们的投票推向最终的分类。真的是这样吗?
这是否意味着在树中的每个节点,我们从为该树固定的变量集中随机选择m个变量?还是来自训练数据集的全局变量集?然后从选择的一组变量中,我们启发式地选择一个变量(例如,哪个变量最大化信息增益) --这是一个正确的陈述吗?
发布于 2017-04-30 02:54:06
在随机森林方法中,我们为每棵树随机选择一组固定大小的变量(特征)。但是,一旦这组变量(特征)被冻结,这棵树的行为是否就像常规的决策树算法一样
不是
“我假设随机森林只不过是生成一堆经典的‘决策树’,并对最终分类进行投票。但在许多地方,无论我读到什么描述,似乎都表明了这一点;对于森林中的给定决策树,甚至在每个节点上,我们都会随机选择变量。真的是这样吗?”
是
“这是否意味着在树中的每个节点,我们从为该树固定的变量集中随机选择m个变量?”
这有点令人困惑,这是不是假设有另一个更大的子集为该树保留,其中m可以被挑选?如果不是这个假设,我认为这本质上是在问树是否为每个节点随机选择了相同的特征集,答案是否定的。
在随机森林中,特征的随机化发生在每个节点上。因此,如果总共有100个预测器,则对于树中的每个节点,随机选择10个(比方说)的子集,并评估最佳拆分。请注意,在生长树的整个过程中,每个节点中的树的数量保持不变。
希望这能有所帮助。
https://stackoverflow.com/questions/43288900
复制相似问题