我正在使用一个分类输出(pass/fail:二进制1或0)和大约200个特性进行预测建模练习。我有大约350 K的训练例子,但我可以增加我的数据集的大小,如果需要。下面是我遇到的几个问题:
我正在处理严重不平衡的类。在这350 K示例中,只有2K被标记为“fail”(即分类输出= 1)。我该怎么解释呢?我知道有几种技术,比如用引导器进行上采样;
2- 我的大部分特征(~ 95%)是分类(例如城市、语言等)。每级不到5-6级。我是否需要将它们转换为特性的每个级别的二进制数据?例如,如果“城市”具有纽约、巴黎和巴塞罗那的三个级别,那么我可以将其转换为三个二进制特性: city_New_york、city_Paris和city_Barcelona;
3-选择模型本身:我正在考虑支持向量机、K-邻域、决策树、随机森林、Logistic回归等几个方面,但我猜想,由于有大量的分类特征,随机森林将适合于这种情况。有什么建议吗?
4-如果我使用随机森林,我是否需要(a)对连续变量进行特性缩放(我猜不是),(b)如上面问题2所解释的那样,将连续变量更改为二进制变量(我猜不是),(c)说明我的严重不平衡类,(d)删除丢失的值。
提前感谢您的回答!
发布于 2015-08-21 00:59:00
对于数值变量,NAs被替换为列中介。对于因素变量,NAs被替换为最频繁的级别(随机中断联系)。如果对象不包含NAs,则将不更改地返回对象。
https://stackoverflow.com/questions/29702890
复制相似问题