我最近一直在使用随机森林回归,我得到了很棒的结果。我在网上读到,你可以用随机森林分类器来处理分类数据,我在谷歌上搜索了一些这方面的例子,但是我找不到非常有用的东西。我看了几篇关于将分类数据编码成数值数据的文章,但我知道,这对于随机森林方法来说不是个好主意。如果您可以实际使用随机森林技术来预测基于分类数据的结果,请共享一些资源(链接、代码等)。我很想测试这个概念。我只是找不到关于这个话题的好教程。我在Python环境中工作。谢谢。
发布于 2020-01-10 10:38:34
对于回归和二进制分类,决策树(因此是RF)实现应该能够处理分类数据。这一思想在CART (1984)的原始论文中提出,它说,通过考虑按平均响应排序的类别,可以找到最佳的分裂,然后将它们作为这样的。你可以找到关于这个问题的解释,这里
对于多类分类,问题要复杂一些。
无论如何,这种方法可能会导致一些过度拟合,因为您实际上使用的是一些目标编码(对于RF来说不应该是太大的问题,对于增强的机器可能更大)。然而,许多实现不允许对分类变量进行自动拆分,因此了解树中编码的最佳方法是很好的。我建议这媒体文章和这博客文章。
最后,有些实现以不同的方式处理分类数据,但效率却很高。我建议看看H2O的实现,它使用了一个很好的二进制方法来进行快速拆分。
https://stackoverflow.com/questions/59672268
复制相似问题