文章/答案/技术大牛

发布

社区首页 >问答首页 >如果结果几乎相同，则选择或多或少的功能。

问如果结果几乎相同，则选择或多或少的功能。
EN

Data Science用户

提问于 2018-09-16 19:31:22

回答 1查看 42关注 0票数 2

我有一个3500个观测数据集，其中70个特征每个都有二进制标签/目标，用于分类目的。

我的目标是得分超过90%的精确度和最高的召回可能为这一精度。

我已经测试了许多算法，到目前为止，随机森林的性能最好。

具体来说，我得到了70个特性：

Auroc: 0.71
精密度: 0.94
召回: 0.18

但是，我通过调用RandomForestClassifier of SkLearn的内置函数D10，以及使用Boruta算法和boruta_py模块，了解了特性的重要性。

我删除了20个最不重要的特性。数字20非常武断，因为即使接下来的10个最不重要的特性在重要性方面也相对接近于这20个最不重要的特性。与其他特征相比，只有前10位最重要的特征在重要性上有显著差异。

有50个特征的结果如下：

Auroc: 0.7
精密度: 0.91
召回: 0.17

Since --我可以用更少的特性获得几乎相同的结果--我应该删除这些特性吗？

还请考虑到，今后我的数据集将扩展到5000次观测。

machine-learning

feature-selection

回答 1

Data Science用户

发布于 2018-09-19 15:08:49

这是非常有关联的。有一条规则，提供所有的数据将产生更好(无偏见)的结果，但不是在任何时候。如果您对数据有任何了解，那么总是建议您删除那些最明显的数据，这并不重要。此外，您还可以使用“P值”之类的其他指标来检查变量的显着性。

由于将来会添加更多的数据，我宁愿等待它，然后删除不重要的变量。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/38348

复制

相似问题

问如果结果几乎相同，则选择或多或少的功能。
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如果结果几乎相同，则选择或多或少的功能。EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如果结果几乎相同，则选择或多或少的功能。
EN