我训练了一个随机森林分类器(sklearn),从而计算了特征的重要性,并对它们进行了排序。这片森林有100个估测员。我的五大特点及其重要性如下:
f1 = 0.91
f2 = 0.04
f3 = 0.013
f4 = 0.007
f5 = 0.004为了避免过度拟合,我使用交叉验证和学习曲线进行了评估.
我的问题是,f1的重要性似乎比其他特性要高得多。这是否意味着不正确(过分合适?)任何类型的?我是否应该以其他方式进行特性选择,以便更好地推广该模型?
发布于 2018-09-01 06:26:32
实际上,这意味着特性f1的质量非常高。通常,如果您得到的所有特性都具有相同的重要级别,并且该级别很低,您应该感到担心。
了解随机森林具有两个层次的随机性是非常重要的:在数据层和特征层,并且很难过度拟合。
既然你在森林里有这么多的树,我不认为你有过分适合的问题。
https://datascience.stackexchange.com/questions/37669
复制相似问题