当数据集具有许多相关特征时,我在评论中看到了一条关于决策树S的建议,而不是像神经网络这样的线性模型。因为为了避免多重共线性。一个类似的问题已经提出,但没有得到真正的回答。https://stats.stackexchange.com/questions/137573/do-classification-trees-need-to-consider-the-correlation-between-attributes
我的问题是:我有一个大约30列的数据集。10列与目标/依赖变量有很高的相关性。数据是数字的。我想做一个预测(回归模型)包括所有的变量,如果可能的话?
一个大问题是避免多重共线性。
发布于 2020-07-13 19:38:53
要直接回答你的问题,首先:
当10个特征高度相关时,是否存在决策树回归模型?
是的,当然。但是比决策树更好的是许多决策树(RandomForest,梯度增强(xGBoost )是流行的)。我认为,了解决策树是如何分裂的,以及它们如何自然地处理共线性,会为您提供更好的服务。也许试一下这个视频,遵循逻辑直到第二层分裂,你就可以想象相关变量是如何突然变得不重要了,因为它们是相对于它们上面的分裂的。
是否有科学或数学解释或推荐(使用决策树回归)?
关于为什么共线性对线性模型“坏”的数学解释,可以归结为系数,以及你如何解释它们。副作用之一是,它们会破坏变量的统计意义,同时也会将它们的系数翻转到错误的方向。它通常不会对模型的精度产生很大的影响,但大多数人都想要线性模型,以便能够解释系数(这完全扰乱了共线性)。我建议先读一下这的文章。
您提到的事情之一,include all variables if possible?实际上不是您应该关注的事情。模型的目标是用最少的解释来解释。如果你强迫尽可能多的变量进入模型,那么你可能会被愚弄到认为一个模型是好的,而事实上,如果你要在新的数据上测试它,那就不是了。事实上,有时候更少的变量会给你一个更好的模型。这正是多重共线性对线性模型造成的问题--你不能很好地判断哪些变量是重要的还是不重要的。当相关特征存在时,逐步选择并不能很好地工作。
总的来说,我认为决策树--尤其是随机森林--对你来说是一个好的开始。但请记住,不要仅仅为了模型而强迫所有变量进入模型。用较少的变量和操纵树的结构,如叶片大小和最大深度的实验。和往常一样--在验证数据和保留数据上测试您的模型,这样您就不会过度适应一个模型,并欺骗自己认为它是一个强大的模型。
https://datascience.stackexchange.com/questions/77663
复制相似问题