首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如果结果几乎相同,则选择或多或少的功能。

如果结果几乎相同,则选择或多或少的功能。
EN

Data Science用户
提问于 2018-09-16 19:31:22
回答 1查看 42关注 0票数 2

我有一个3500个观测数据集,其中70个特征每个都有二进制标签/目标,用于分类目的。

我的目标是得分超过90%的精确度和最高的召回可能为这一精度。

我已经测试了许多算法,到目前为止,随机森林的性能最好。

具体来说,我得到了70个特性:

  • Auroc: 0.71
  • 精密度: 0.94
  • 召回: 0.18

但是,我通过调用RandomForestClassifier of SkLearn的内置函数D10,以及使用Boruta算法和boruta_py模块,了解了特性的重要性。

我删除了20个最不重要的特性。数字20非常武断,因为即使接下来的10个最不重要的特性在重要性方面也相对接近于这20个最不重要的特性。与其他特征相比,只有前10位最重要的特征在重要性上有显著差异。

有50个特征的结果如下:

  • Auroc: 0.7
  • 精密度: 0.91
  • 召回: 0.17

Since --我可以用更少的特性获得几乎相同的结果--我应该删除这些特性吗?

还请考虑到,今后我的数据集将扩展到5000次观测。

EN

回答 1

Data Science用户

发布于 2018-09-19 15:08:49

这是非常有关联的。有一条规则,提供所有的数据将产生更好(无偏见)的结果,但不是在任何时候。如果您对数据有任何了解,那么总是建议您删除那些最明显的数据,这并不重要。此外,您还可以使用“P值”之类的其他指标来检查变量的显着性。

由于将来会添加更多的数据,我宁愿等待它,然后删除不重要的变量。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/38348

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档