我有一些手编码的特性,这是一个值“高”、“低”和“正常”的类别。
我自己创建了这个特性,当使用虚拟变量扩展这些特性时,问题性能(分类)显著提高。
既然我在尝试随机森林,我想我把“高,低,正常”改为1,-1,0。
现在同样的模型根本学不到。
我觉得它应该更容易分离。这跟我把正常值降到0有关系吗?
谢谢你的解释帮助我理解了这一点。
发布于 2021-04-18 09:51:20
它应该有效:变量是序数的,所以使用数值是有意义的。
所以在某个地方有个bug,这里有一些值得注意的建议:
https://datascience.stackexchange.com/questions/93173
复制相似问题