文章/答案/技术大牛

发布

社区首页 >问答首页 >在分类问题中什么时候取虚拟变量？

问在分类问题中什么时候取虚拟变量？
EN

Stack Overflow用户

提问于 2017-03-22 06:04:03

回答 1查看 1.2K关注 0票数 0

我正在做一个二进制分类问题，我预测一个客户是否会订阅一个运动(为航空业)。

我的数据集是在客户和活动名称级别，有43个变量正在考虑。

有一些变量是十分之一(1到10)和变量，如教育水平(0到5)。对于教育水平，我们不能说4是2的两倍。我应该如何对待我的变量？

我是否需要将这些变量转换为虚拟变量(0或1)，我正在运行Logistic回归、随机林、Xgboost在R中，如果我将这些变量转换为虚拟变量，如何检查变量的重要性(因子分析是抛出错误)

dummy-variable

classification

random-forest

logistic-regression

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-22 15:31:59

在我看来，你确实需要虚拟变量。如何将educational level转换为以下多个变量：

educational level:1

educational level:2

educational level:3

诸若此类。然后，您可以为每个变量提供虚拟变量。

例如,

educational level:1是:1不:0

educational level:2是:1不:0

然后将你的数据融入物流模型，尝试用“交叉验证”之类的方法重新整理数据。但我不太确定"variable importance"，你的意思是这个变量在统计学上是显着的还是.？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42943877

复制

相似问题

问在分类问题中什么时候取虚拟变量？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在分类问题中什么时候取虚拟变量？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在分类问题中什么时候取虚拟变量？
EN