首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >决策-tree回归以避免回归模型的多重共线性?

决策-tree回归以避免回归模型的多重共线性?
EN

Data Science用户
提问于 2020-07-13 19:05:12
回答 1查看 1.3K关注 0票数 1

当数据集具有许多相关特征时,我在评论中看到了一条关于决策树S的建议,而不是像神经网络这样的线性模型。因为为了避免多重共线性。一个类似的问题已经提出,但没有得到真正的回答。https://stats.stackexchange.com/questions/137573/do-classification-trees-need-to-consider-the-correlation-between-attributes

或者在这里在监督学习中,为什么有相关的特征是不好的?

https://www.quora.com/Is-multicollinearity-a-problem-in-decision-trees#:~:text=Decision%20trees%20follow%20the%20non%20parametric%20approach.&text=Though%20single%20tree%20leads%20to,稳健%20%到%20%20%20共线性%20

我的问题是:我有一个大约30列的数据集。10列与目标/依赖变量有很高的相关性。数据是数字的。我想做一个预测(回归模型)包括所有的变量,如果可能的话?

一个大问题是避免多重共线性。

  • 当10个特征高度相关时,是否存在决策树回归模型?(如果我跟踪链接的答案,但没有很好的解释)。
  • 是否有科学或数学解释或推荐(使用决策树回归)?
EN

回答 1

Data Science用户

回答已采纳

发布于 2020-07-13 19:38:53

要直接回答你的问题,首先:

当10个特征高度相关时,是否存在决策树回归模型?

是的,当然。但是比决策树更好的是许多决策树(RandomForest,梯度增强(xGBoost )是流行的)。我认为,了解决策树是如何分裂的,以及它们如何自然地处理共线性,会为您提供更好的服务。也许试一下这个视频,遵循逻辑直到第二层分裂,你就可以想象相关变量是如何突然变得不重要了,因为它们是相对于它们上面的分裂的。

是否有科学或数学解释或推荐(使用决策树回归)?

关于为什么共线性对线性模型“坏”的数学解释,可以归结为系数,以及你如何解释它们。副作用之一是,它们会破坏变量的统计意义,同时也会将它们的系数翻转到错误的方向。它通常不会对模型的精度产生很大的影响,但大多数人都想要线性模型,以便能够解释系数(这完全扰乱了共线性)。我建议先读一下的文章。

您提到的事情之一,include all variables if possible?实际上不是您应该关注的事情。模型的目标是用最少的解释来解释。如果你强迫尽可能多的变量进入模型,那么你可能会被愚弄到认为一个模型是好的,而事实上,如果你要在新的数据上测试它,那就不是了。事实上,有时候更少的变量会给你一个更好的模型。这正是多重共线性对线性模型造成的问题--你不能很好地判断哪些变量是重要的还是不重要的。当相关特征存在时,逐步选择并不能很好地工作。

总的来说,我认为决策树--尤其是随机森林--对你来说是一个好的开始。但请记住,不要仅仅为了模型而强迫所有变量进入模型。用较少的变量和操纵树的结构,如叶片大小和最大深度的实验。和往常一样--在验证数据和保留数据上测试您的模型,这样您就不会过度适应一个模型,并欺骗自己认为它是一个强大的模型。

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/77663

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档