文章/答案/技术大牛

发布

社区首页 >问答首页 >回归用高基数分类特征的特征重要性(数值退化变量)

问回归用高基数分类特征的特征重要性(数值退化变量)
EN

Data Science用户

提问于 2017-04-05 18:23:12

回答 1查看 4.4K关注 0票数 12

我试图利用随机森林的特征输入来对一个回归问题进行一些经验的特征选择，其中所有的特征都是分类的，而且很多特征都有很多级别(大约在100到1000之间)。假设一个热编码为每个级别创建了一个虚拟变量，那么每个级别的特性导入都是针对每个级别的，而不是每个特性(列)。什么是聚合这些特性重要性的好方法？

我考虑过总结或获得所有级别特性的平均重要性(可能前者会倾向于那些具有更多级别的特性)。在这个问题上有什么参考资料吗？

我们还能做些什么来减少功能的数量？我知道团体套索，找不到任何容易使用的科学知识-学习。

scikit-learn

feature-selection

random-forest

xgboost

categorical-data

回答 1

Data Science用户

回答已采纳

发布于 2017-04-06 12:03:39

这取决于你是如何一个热编码他们。许多自动解决方案都会用模式命名所有已转换的布尔值，这样一个名为“信函”的“字母”变量的值为all，其结果如下：

letter_A，letter_B，letter_C，letter_D .

如果在您计算出特性重要性之后，您已经得到了一个功能数组和相关的权重/重要性，那么我将分析该数组，并可能总结以“字母%”开头的任何内容的特性重要性权重。

票数 5

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/18141

复制

相似问题

问回归用高基数分类特征的特征重要性(数值退化变量)
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问回归用高基数分类特征的特征重要性(数值退化变量)EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问回归用高基数分类特征的特征重要性(数值退化变量)
EN