问特征重要性比
EN

Data Science用户

提问于 2018-08-31 22:51:53

回答 1查看 121关注 0票数 1

我训练了一个随机森林分类器(sklearn)，从而计算了特征的重要性，并对它们进行了排序。这片森林有100个估测员。我的五大特点及其重要性如下：

f1 = 0.91
f2 = 0.04
f3 = 0.013
f4 = 0.007
f5 = 0.004

为了避免过度拟合，我使用交叉验证和学习曲线进行了评估.

我的问题是，f1的重要性似乎比其他特性要高得多。这是否意味着不正确(过分合适？)任何类型的？我是否应该以其他方式进行特性选择，以便更好地推广该模型？

发布于 2018-09-01 06:26:32

实际上，这意味着特性f1的质量非常高。通常，如果您得到的所有特性都具有相同的重要级别，并且该级别很低，您应该感到担心。

了解随机森林具有两个层次的随机性是非常重要的:在数据层和特征层，并且很难过度拟合。

既然你在森林里有这么多的树，我不认为你有过分适合的问题。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/37669

复制

相似问题

问特征重要性比EN