首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在分类问题中什么时候取虚拟变量?

在分类问题中什么时候取虚拟变量?
EN

Stack Overflow用户
提问于 2017-03-22 06:04:03
回答 1查看 1.2K关注 0票数 0

我正在做一个二进制分类问题,我预测一个客户是否会订阅一个运动(为航空业)。

我的数据集是在客户和活动名称级别,有43个变量正在考虑。

有一些变量是十分之一(1到10)和变量,如教育水平(0到5)。对于教育水平,我们不能说4是2的两倍。我应该如何对待我的变量?

我是否需要将这些变量转换为虚拟变量(0或1),我正在运行Logistic回归、随机林、Xgboost在R中,如果我将这些变量转换为虚拟变量,如何检查变量的重要性(因子分析是抛出错误)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-22 15:31:59

在我看来,你确实需要虚拟变量。如何将educational level转换为以下多个变量:

educational level:1

educational level:2

educational level:3

诸若此类。然后,您可以为每个变量提供虚拟变量。

例如,

educational level:1是:1不:0

educational level:2是:1不:0

然后将你的数据融入物流模型,尝试用“交叉验证”之类的方法重新整理数据。但我不太确定"variable importance",你的意思是这个变量在统计学上是显着的还是.?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42943877

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档