文章/答案/技术大牛

发布

社区首页 >问答首页 >使用类别和使用虚拟变量时随机林性能差异的解释

问使用类别和使用虚拟变量时随机林性能差异的解释
EN

Data Science用户

提问于 2021-04-17 14:07:27

回答 1查看 43关注 0票数 1

我有一些手编码的特性，这是一个值“高”、“低”和“正常”的类别。

我自己创建了这个特性，当使用虚拟变量扩展这些特性时，问题性能(分类)显著提高。

既然我在尝试随机森林，我想我把“高，低，正常”改为1，-1，0。

现在同样的模型根本学不到。

我觉得它应该更容易分离。这跟我把正常值降到0有关系吗？

谢谢你的解释帮助我理解了这一点。

feature-selection

random-forest

decision-trees

feature-engineering

classification

回答 1

Data Science用户

回答已采纳

发布于 2021-04-18 09:51:20

它应该有效:变量是序数的，所以使用数值是有意义的。

所以在某个地方有个bug，这里有一些值得注意的建议：

可能是某个类型转换错误:确保变量被解释为数字。
检查模型是否实际使用了变量:如果不使用，则可能存在某种类型错误；如果是，我将研究错误所在:例如，在变量为绝对变量或数字变量的两种情况下，它可能有助于绘制此变量与目标的对应关系。
也许训练集的预处理和测试集的预处理有一些不同:将模型应用到训练集上，如果性能良好，那么测试集的预处理很可能有问题。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/93173

复制

相似问题

问使用类别和使用虚拟变量时随机林性能差异的解释
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用类别和使用虚拟变量时随机林性能差异的解释EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用类别和使用虚拟变量时随机林性能差异的解释
EN