我有一个包含90,275行和60个变量的数据集。我想对这个数据集进行特征工程。以前,我使用Boruta包下的Boruta()进行功能工程。但是看到数据集的大小,我觉得Boruta()将需要很长时间。你能给我推荐一些替代Boruta的功能工程大数据集吗?
发布于 2018-04-03 20:49:00
通常的答案是,这取决于您的数据格式(变量类型),因为不同FE/FS算法的输入空间差异很大。
所以,请首先,请提供您的数据框架的结构。
但暂时,我假设您具有以下格式: 1)数值因子、字符、逻辑变量和虚拟变量3)数值变量和因子变量的混合
数值输入: PCA,LDA,anova,Pearson相关性可以帮助你降低维数。由于它是数值型数据,因此运行速度非常快
因子和混合:通过检查模型的重要变量,anova,基于树的解决方案(随机森林,xgboost,立方图)。这些选项也很快,假设你的数据没有太多的级别(例如,具有200个选项的变量“城市”等)。
https://stackoverflow.com/questions/46276407
复制相似问题