问大数据集R中Boruta函数的替代方案
EN

Stack Overflow用户

提问于 2017-09-18 17:53:45

回答 1查看 565关注 0票数 0

我有一个包含90,275行和60个变量的数据集。我想对这个数据集进行特征工程。以前，我使用Boruta包下的Boruta()进行功能工程。但是看到数据集的大小，我觉得Boruta()将需要很长时间。你能给我推荐一些替代Boruta的功能工程大数据集吗？

发布于 2018-04-03 20:49:00

通常的答案是，这取决于您的数据格式(变量类型)，因为不同FE/FS算法的输入空间差异很大。

所以，请首先，请提供您的数据框架的结构。

但暂时，我假设您具有以下格式: 1)数值因子、字符、逻辑变量和虚拟变量3)数值变量和因子变量的混合

数值输入: PCA，LDA，anova，Pearson相关性可以帮助你降低维数。由于它是数值型数据，因此运行速度非常快

因子和混合:通过检查模型的重要变量，anova，基于树的解决方案(随机森林，xgboost，立方图)。这些选项也很快，假设你的数据没有太多的级别(例如，具有200个选项的变量“城市”等)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46276407

复制

相似问题

问大数据集R中Boruta函数的替代方案EN