首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用类别和使用虚拟变量时随机林性能差异的解释

使用类别和使用虚拟变量时随机林性能差异的解释
EN

Data Science用户
提问于 2021-04-17 14:07:27
回答 1查看 43关注 0票数 1

我有一些手编码的特性,这是一个值“高”、“低”和“正常”的类别。

我自己创建了这个特性,当使用虚拟变量扩展这些特性时,问题性能(分类)显著提高。

既然我在尝试随机森林,我想我把“高,低,正常”改为1,-1,0。

现在同样的模型根本学不到。

我觉得它应该更容易分离。这跟我把正常值降到0有关系吗?

谢谢你的解释帮助我理解了这一点。

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-04-18 09:51:20

它应该有效:变量是序数的,所以使用数值是有意义的。

所以在某个地方有个bug,这里有一些值得注意的建议:

  • 可能是某个类型转换错误:确保变量被解释为数字。
  • 检查模型是否实际使用了变量:如果不使用,则可能存在某种类型错误;如果是,我将研究错误所在:例如,在变量为绝对变量或数字变量的两种情况下,它可能有助于绘制此变量与目标的对应关系。
  • 也许训练集的预处理和测试集的预处理有一些不同:将模型应用到训练集上,如果性能良好,那么测试集的预处理很可能有问题。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/93173

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档