首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >特征重要性比

特征重要性比
EN

Data Science用户
提问于 2018-08-31 22:51:53
回答 1查看 121关注 0票数 1

我训练了一个随机森林分类器(sklearn),从而计算了特征的重要性,并对它们进行了排序。这片森林有100个估测员。我的五大特点及其重要性如下:

代码语言:javascript
复制
f1 = 0.91
f2 = 0.04
f3 = 0.013
f4 = 0.007
f5 = 0.004

为了避免过度拟合,我使用交叉验证和学习曲线进行了评估.

我的问题是,f1的重要性似乎比其他特性要高得多。这是否意味着不正确(过分合适?)任何类型的?我是否应该以其他方式进行特性选择,以便更好地推广该模型?

EN

回答 1

Data Science用户

发布于 2018-09-01 06:26:32

实际上,这意味着特性f1的质量非常高。通常,如果您得到的所有特性都具有相同的重要级别,并且该级别很低,您应该感到担心。

了解随机森林具有两个层次的随机性是非常重要的:在数据层和特征层,并且很难过度拟合。

既然你在森林里有这么多的树,我不认为你有过分适合的问题。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/37669

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档