我试图利用随机森林的特征输入来对一个回归问题进行一些经验的特征选择,其中所有的特征都是分类的,而且很多特征都有很多级别(大约在100到1000之间)。假设一个热编码为每个级别创建了一个虚拟变量,那么每个级别的特性导入都是针对每个级别的,而不是每个特性(列)。什么是聚合这些特性重要性的好方法?
我考虑过总结或获得所有级别特性的平均重要性(可能前者会倾向于那些具有更多级别的特性)。在这个问题上有什么参考资料吗?
我们还能做些什么来减少功能的数量?我知道团体套索,找不到任何容易使用的科学知识-学习。
发布于 2017-04-06 12:03:39
这取决于你是如何一个热编码他们。许多自动解决方案都会用模式命名所有已转换的布尔值,这样一个名为“信函”的“字母”变量的值为all,其结果如下:
letter_A,letter_B,letter_C,letter_D .
如果在您计算出特性重要性之后,您已经得到了一个功能数组和相关的权重/重要性,那么我将分析该数组,并可能总结以“字母%”开头的任何内容的特性重要性权重。
https://datascience.stackexchange.com/questions/18141
复制相似问题