我正在做一个二进制分类问题,我预测一个客户是否会订阅一个运动(为航空业)。
我的数据集是在客户和活动名称级别,有43个变量正在考虑。
有一些变量是十分之一(1到10)和变量,如教育水平(0到5)。对于教育水平,我们不能说4是2的两倍。我应该如何对待我的变量?
我是否需要将这些变量转换为虚拟变量(0或1),我正在运行Logistic回归、随机林、Xgboost在R中,如果我将这些变量转换为虚拟变量,如何检查变量的重要性(因子分析是抛出错误)
发布于 2017-03-22 15:31:59
在我看来,你确实需要虚拟变量。如何将educational level转换为以下多个变量:
educational level:1
educational level:2
educational level:3
诸若此类。然后,您可以为每个变量提供虚拟变量。
例如,
educational level:1是:1不:0
educational level:2是:1不:0
然后将你的数据融入物流模型,尝试用“交叉验证”之类的方法重新整理数据。但我不太确定"variable importance",你的意思是这个变量在统计学上是显着的还是.?
https://stackoverflow.com/questions/42943877
复制相似问题