文章/答案/技术大牛

发布

社区首页 >问答首页 >许多低重要的特性表明了什么？

问许多低重要的特性表明了什么？
EN

Data Science用户

提问于 2019-12-17 11:59:41

回答 2查看 401关注 0票数 1

我有一个集中于二进制分类问题的数据集。总共，我的数据集中有大约60个特性。

当我使用Xgboost Feature Importance时，我可以看到前5个特性占到了42%，而其余的50个特性占了40-49 %(每个特性约占1%)，并且remaing 8-10特性具有zero importance或不到1%的重要性。

这是网格搜索后Xgboost的最佳参数列表

op_params = {'alpha': [10],
 'as_pandas': [True],
 'colsample_bytree': [0.5],
 'early_stopping_rounds': [100],
 'learning_rate': [0.04],
 'max_depth': [6],
 'metrics': ['auc'],
 'num_boost_round': [10000],
 'objective': ['reg:logistic'],
 'scale_pos_weight': [3.08],
 'seed': [123],
 'subsample': [0.75]}

由于我有许多低重要性的特性，我是否应该尝试在我的模型中使用它们来增加模型度量？

当我建立的模型只有前5个功能，我能够得到80%的准确性。

我试着去理解利用这些低重要性的特性来进行预测是否有用呢？

下面按降序显示了我的特性重要性

它们真的有帮助吗？

任何见解都会很有帮助

machine-learning

deep-learning

feature-selection

xgboost

feature-extraction

回答 2

Data Science用户

回答已采纳

发布于 2019-12-17 12:27:44

这都是一种权衡。

添加越多不重要的特性，就会得到越多的好处，但你可能会注入更多的复杂性和潜在的过度适应。

奥卡姆斯·拉佐

也要小心使用默认的特性重要性方法。读这个。

票数 1

Data Science用户

发布于 2019-12-17 12:09:40

添加低价值功能可能不会帮助您超越当前的准确性。获得高质量的数据，并将更多的数据添加到数据集中，或者在数据集不收敛的情况下进行更多的训练，可能会帮助您获得更高的精度。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/64982

复制

相似问题

问许多低重要的特性表明了什么？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问许多低重要的特性表明了什么？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问许多低重要的特性表明了什么？
EN