我有一个3500个观测数据集,其中70个特征每个都有二进制标签/目标,用于分类目的。
我的目标是得分超过90%的精确度和最高的召回可能为这一精度。
我已经测试了许多算法,到目前为止,随机森林的性能最好。
具体来说,我得到了70个特性:
但是,我通过调用RandomForestClassifier of SkLearn的内置函数D10,以及使用Boruta算法和boruta_py模块,了解了特性的重要性。
我删除了20个最不重要的特性。数字20非常武断,因为即使接下来的10个最不重要的特性在重要性方面也相对接近于这20个最不重要的特性。与其他特征相比,只有前10位最重要的特征在重要性上有显著差异。
有50个特征的结果如下:
Since --我可以用更少的特性获得几乎相同的结果--我应该删除这些特性吗?
还请考虑到,今后我的数据集将扩展到5000次观测。
发布于 2018-09-19 15:08:49
这是非常有关联的。有一条规则,提供所有的数据将产生更好(无偏见)的结果,但不是在任何时候。如果您对数据有任何了解,那么总是建议您删除那些最明显的数据,这并不重要。此外,您还可以使用“P值”之类的其他指标来检查变量的显着性。
由于将来会添加更多的数据,我宁愿等待它,然后删除不重要的变量。
https://datascience.stackexchange.com/questions/38348
复制相似问题