首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >提取Weka中的重要属性

提取Weka中的重要属性
EN

Stack Overflow用户
提问于 2013-01-09 17:49:16
回答 4查看 3.6K关注 0票数 4

这是个新手的问题,所以请你带点盐吃吧。

我是数据挖掘领域的新手,并试图把我的注意力集中在这个话题上。现在,我正在努力完善我现有的模型,以便更好地对实例进行分类。问题是,我的模型大约有480个属性。我确信,并不是所有这些都是相关的,但我很难指出哪些确实重要。

问题是:拥有有效的培训和测试集,人们是否可以使用某种数据挖掘算法来丢弃那些似乎对分类质量没有任何影响的属性?

我在用Weka。

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2013-01-13 13:23:30

注释转换为OP建议的答案:如果您使用weka 3.6.6 -选择模块资源管理器->而不是转到选项卡“选择属性”,选择“属性评估器”和“搜索方法”,您也可以在使用完整数据集或cv集之间进行选择,有关详细信息,请参见http://forums.pentaho.com/showthread.php?68687-Selecting-Attributes-with-Wekahttp://weka.wikispaces.com/Performing+attribute+selection

票数 0
EN

Stack Overflow用户

发布于 2013-01-09 18:38:24

您应该使用一些分类器算法( Weka )进行测试。

基本思想是使用Cross-validation选项,这样您就可以看到哪种算法为您提供了最佳的分类实例值。

我可以给出一个我的训练集的例子,使用Cross-validation选项并选择Folds 10。

如您所见,使用J48分类器,我将拥有:

代码语言:javascript
复制
Correctly Classified Instances        4310               83.2207 %
Incorrectly Classified Instances       869               16.7793 %

例如,如果我使用NaiveBayes算法,我将拥有:

代码语言:javascript
复制
Correctly Classified Instances        1996               38.5403 %
Incorrectly Classified Instances      3183               61.4597 %

等等,值的不同取决于算法。

因此,测试尽可能多的算法,看看哪种算法给出了最正确分类的实例/时间消耗。

票数 2
EN

Stack Overflow用户

发布于 2013-01-09 17:51:31

阅读关于聚类算法的主题(只是在您的培训集上!)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14243322

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档