首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >一次热编码的多重共线性

一次热编码的多重共线性
EN

Stack Overflow用户
提问于 2017-02-14 11:00:05
回答 1查看 4.3K关注 0票数 3

为了防止多重共线性,我们总是需要删除一次热编码的列吗?在这里的解决方案(https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic/comments#138896)中,它提到

@Kevin,您需要删除虚拟变量的一列,以避免多重共线性状态。这是列之间高度相关的状态(自变量);这意味着可以从其他列中预测一个。因此,它是数据中的一种扰动,如果存在于数据中,关于数据的统计结论可能是不可靠的。

在这里的解决方案中,不适合于多重共线性https://www.kaggle.com/sharmasanthosh/allstate-claims-severity/exploratory-study-on-ml-algorithms

我想知道是否必须这样做,或在何种情况下我们才能满足这一需要?

EN

回答 1

Stack Overflow用户

发布于 2017-05-28 01:19:54

如果我必须回答你的问题,"Do we always need to remove a column for one-hot encoding to prevent multicollinearity?",答案是肯定的。

防止多重共线性的常见方法是从模型中去除高度相关的预测因子。如果您有两个或多个具有较高VIF的因素,请从模型中删除一个。由于它们提供了冗余信息,因此去除其中一个相关因素通常不会降低R平方。

或者您可以使用偏最小二乘回归(PLS)或主成分分析,即将预测器的数量减少到一组较小的不相关成分的回归方法。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42224430

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档