文章/答案/技术大牛

发布

社区首页 >问答首页 >决策-tree回归以避免回归模型的多重共线性？

问决策-tree回归以避免回归模型的多重共线性？
EN

Data Science用户

提问于 2020-07-13 19:05:12

回答 1查看 1.3K关注 0票数 1

当数据集具有许多相关特征时，我在评论中看到了一条关于决策树S的建议，而不是像神经网络这样的线性模型。因为为了避免多重共线性。一个类似的问题已经提出，但没有得到真正的回答。https://stats.stackexchange.com/questions/137573/do-classification-trees-need-to-consider-the-correlation-between-attributes

或者在这里在监督学习中，为什么有相关的特征是不好的？

https://www.quora.com/Is-multicollinearity-a-problem-in-decision-trees#:~:text=Decision%20trees%20follow%20the%20non%20parametric%20approach.&text=Though%20single%20tree%20leads%20to，稳健%20%到%20%20%20共线性%20。

我的问题是:我有一个大约30列的数据集。10列与目标/依赖变量有很高的相关性。数据是数字的。我想做一个预测(回归模型)包括所有的变量，如果可能的话？

一个大问题是避免多重共线性。

当10个特征高度相关时，是否存在决策树回归模型？(如果我跟踪链接的答案，但没有很好的解释)。
是否有科学或数学解释或推荐(使用决策树回归)？

regression

decision-trees

data-science-model

collinearity

回答 1

Data Science用户

回答已采纳

发布于 2020-07-13 19:38:53

要直接回答你的问题，首先：

当10个特征高度相关时，是否存在决策树回归模型？

是的，当然。但是比决策树更好的是许多决策树(RandomForest，梯度增强(xGBoost )是流行的)。我认为，了解决策树是如何分裂的，以及它们如何自然地处理共线性，会为您提供更好的服务。也许试一下这个视频，遵循逻辑直到第二层分裂，你就可以想象相关变量是如何突然变得不重要了，因为它们是相对于它们上面的分裂的。

是否有科学或数学解释或推荐(使用决策树回归)？

关于为什么共线性对线性模型“坏”的数学解释，可以归结为系数，以及你如何解释它们。副作用之一是，它们会破坏变量的统计意义，同时也会将它们的系数翻转到错误的方向。它通常不会对模型的精度产生很大的影响，但大多数人都想要线性模型，以便能够解释系数(这完全扰乱了共线性)。我建议先读一下这的文章。

您提到的事情之一，include all variables if possible?实际上不是您应该关注的事情。模型的目标是用最少的解释来解释。如果你强迫尽可能多的变量进入模型，那么你可能会被愚弄到认为一个模型是好的，而事实上，如果你要在新的数据上测试它，那就不是了。事实上，有时候更少的变量会给你一个更好的模型。这正是多重共线性对线性模型造成的问题--你不能很好地判断哪些变量是重要的还是不重要的。当相关特征存在时，逐步选择并不能很好地工作。

总的来说，我认为决策树--尤其是随机森林--对你来说是一个好的开始。但请记住，不要仅仅为了模型而强迫所有变量进入模型。用较少的变量和操纵树的结构，如叶片大小和最大深度的实验。和往常一样--在验证数据和保留数据上测试您的模型，这样您就不会过度适应一个模型，并欺骗自己认为它是一个强大的模型。

票数 4

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/77663

复制

相似问题

问决策-tree回归以避免回归模型的多重共线性？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问决策-tree回归以避免回归模型的多重共线性？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问决策-tree回归以避免回归模型的多重共线性？
EN