在一项大规模的数据挖掘基准研究中,我比较了9个数据集上的15个算法,最终得出了135个算法/数据集的整体组合。这项研究是用WEKA完成的。
最后分析了特征选择对的影响。我知道,没有完美的特征选择算法,但最优选择取决于部署算法的和应用它的数据集。
虽然问题太大,以寻找最优的特征选择算法为每一个组合,我正在寻找那些被认为是一个良好的性能,总的来说,可以这么说。到目前为止,我发现推荐CFS (基于相关的特征选择)、ReliefF和子集评估(Hall / Holmes,2002)是一个普遍的好选择,同时也从一项调查中得出了这样的建议:像Ranker(例如相关系数)这样简单的方法被证明是有效的(Guyon / Ellissef 2003)。
是否有一个很好的基准研究,说明在实践中使用哪些方法或哪些方法?
发布于 2013-09-18 11:26:57
从文本分类的角度来看,有一种文章是由杨爱塔尔提出的。比较了不同的特征选择算法(卡方、文档频率和信息增益)。
虽然它专注于文本(即文档频率根本不适用于您),但其他人可能会根据您的特性的性质(即二进制或非二进制,始终存在,.)。
我希望这能帮到你。
https://stackoverflow.com/questions/18856775
复制相似问题