这是个新手的问题,所以请你带点盐吃吧。
我是数据挖掘领域的新手,并试图把我的注意力集中在这个话题上。现在,我正在努力完善我现有的模型,以便更好地对实例进行分类。问题是,我的模型大约有480个属性。我确信,并不是所有这些都是相关的,但我很难指出哪些确实重要。
问题是:拥有有效的培训和测试集,人们是否可以使用某种数据挖掘算法来丢弃那些似乎对分类质量没有任何影响的属性?
我在用Weka。
发布于 2013-01-13 13:23:30
注释转换为OP建议的答案:如果您使用weka 3.6.6 -选择模块资源管理器->而不是转到选项卡“选择属性”,选择“属性评估器”和“搜索方法”,您也可以在使用完整数据集或cv集之间进行选择,有关详细信息,请参见http://forums.pentaho.com/showthread.php?68687-Selecting-Attributes-with-Weka或http://weka.wikispaces.com/Performing+attribute+selection。
发布于 2013-01-09 18:38:24
您应该使用一些分类器算法( Weka )进行测试。
基本思想是使用Cross-validation选项,这样您就可以看到哪种算法为您提供了最佳的分类实例值。
我可以给出一个我的训练集的例子,使用Cross-validation选项并选择Folds 10。
如您所见,使用J48分类器,我将拥有:
Correctly Classified Instances 4310 83.2207 %
Incorrectly Classified Instances 869 16.7793 %例如,如果我使用NaiveBayes算法,我将拥有:
Correctly Classified Instances 1996 38.5403 %
Incorrectly Classified Instances 3183 61.4597 %等等,值的不同取决于算法。
因此,测试尽可能多的算法,看看哪种算法给出了最正确分类的实例/时间消耗。
发布于 2013-01-09 17:51:31
阅读关于聚类算法的主题(只是在您的培训集上!)
https://stackoverflow.com/questions/14243322
复制相似问题