首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Caret包方法= "treebag“

Caret包方法= "treebag“
EN

Stack Overflow用户
提问于 2014-11-07 04:56:37
回答 1查看 3.6K关注 0票数 1

以下是我运行训练函数的输出:

代码语言:javascript
复制
Bagged CART 


1251 samples
  30 predictors
   2 classes: 'N', 'Y' 


No pre-processing
Resampling: Bootstrapped (25 reps) 


Summary of sample sizes: 1247, 1247, 1247, 1247, 1247, 1247, ... 


Resampling results


  Accuracy  Kappa  Accuracy SD  Kappa SD
  0.806     0.572  0.0129       0.0263  

这是我的confusionMatrix

代码语言:javascript
复制
Bootstrapped (25 reps) Confusion Matrix 


(entries are percentages of table totals)

          Reference
Prediction    N       Y
         N    24.8   7.9
         Y    11.5  55.8

在划分数据集- 80%的训练和20%的测试后,我训练模型,然后在我的测试分区上进行“预测”,并获得~65%的准确率。

问题:

代码语言:javascript
复制
(1) Does this mean my model is not very good?
(2) Is 'treebag' the proper method since I only have 2 classes: 'N', 'Y' ?  Would a Logistic Regression method be better?
(3) Finally, my 1251 samples are roughly 67% 'Y' and 33% 'N'.  Could this be "skewing" my training / results?  Do I need a ratio closer to 50 - 50?

任何帮助都将不胜感激!

EN

回答 1

Stack Overflow用户

发布于 2014-11-15 04:43:22

代码和可重现的示例在这里会有所帮助。

假设混淆矩阵来自运行confusionMatrix.train,那么我会说你的模型看起来很好。精度上的差异有点令人费解。我经常看到测试集的结果看起来比重采样的结果差,但是bootstrap在测量性能时可能非常悲观,而在这里它看起来比测试集好得多。尝试不同的训练/测试分割,看看你是否得到了类似的结果(或者尝试重复10倍的CV)。

(a)再说一次,很难说你所发布的内容

(b)该模型非常优秀,没有关于哪种模型更好或更差的一般规则(谷歌“没有免费午餐”定理)

(c)这种不平衡并不是太糟糕,所以我不认为这是一个问题(除非训练和测试集的百分比不同)

最大值

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26789239

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档