首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于重采样的参数整定/模型选择

基于重采样的参数整定/模型选择
EN

Stack Overflow用户
提问于 2016-07-13 15:03:39
回答 1查看 305关注 0票数 0

我一直试图深入了解重采样方法的更多细节,并在1000行的小数据集中实现它们。数据被分成800个训练集和200个验证集。我使用K-折叠交叉验证和重复K-交叉验证来使用训练集训练KNN。根据我的理解,我对结果作了一些解释--但是,我对它们有一定的怀疑(见下面的问题):

结果:10倍Cv

代码语言:javascript
复制
Resampling: Cross-Validated (10 fold) 
Summary of sample sizes: 720, 720, 720, 720, 720, 720, ... 
Resampling results across tuning parameters:

  k  Accuracy  Kappa     
  5  0.6600    0.07010791
  7  0.6775    0.09432414
  9  0.6800    0.07054371

Accuracy was used to select the optimal model using  the largest value.
The final value used for the model was k = 9.

重复10倍,10重复

代码语言:javascript
复制
Resampling results across tuning parameters:

  k  Accuracy  Kappa     
  5  0.670250  0.10436607
  7  0.676875  0.09288219
  9  0.683125  0.08062622

Accuracy was used to select the optimal model using  the largest value.
The final value used for the model was k = 9.

10倍,1000重复

代码语言:javascript
复制
  k  Accuracy   Kappa     
  5  0.6680438  0.09473128
  7  0.6753375  0.08810406
  9  0.6831800  0.07907891

Accuracy was used to select the optimal model using  the largest value.
The final value used for the model was k = 9. 

10倍,2000重复

代码语言:javascript
复制
  k  Accuracy   Kappa     
  5  0.6677981  0.09467347
  7  0.6750369  0.08713170
  9  0.6826894  0.07772184

怀疑

  1. 在选择参数时,K=9是精度最高的最优值。但是,我不明白如何在最终选择参数值时考虑到Kappa
  2. 重复次数必须增加,直到得到稳定的结果,当重复次数从10次增加到1000次时,精度发生变化。但是,对于1000个重复序列和2000个重复序列,结果是相似的。考虑1000次/2000次重复的结果,以稳定业绩评估,是否正确?
  3. 重复号码有什么规则吗?
  4. 最后,我是否应该在完整的训练数据(800行)上训练模型,现在测试验证集的准确性?
EN

回答 1

Stack Overflow用户

发布于 2016-07-17 11:56:07

  1. AccuracyKappa只是不同的分类性能指标。简而言之,它们的不同之处在于,Accuracy 没有考虑到可能的阶级不平衡在计算度量时,有吗?。因此,对于不平衡的类,最好使用Kappa。有了R caret,您就可以通过train::metric参数来做到这一点。
  2. 在运行时,您可以看到类似的不同性能结果的效果,例如10次重复的10 as -这些结果也会略有不同。您应该注意的是分区和重复的分类性能的差异。如果您获得一个小的方差,您可以通过对您的所有数据的培训,您可以得到一个模型,将给您类似(因此稳定)的结果对新的数据。但是,如果您获得了巨大的差异,您可以通过偶然(幸运或不幸)获得一个模型,该模型可以在新数据上给出相当好的或相当糟糕的性能。顺便说一句:预测性能的变化是一些东西,例如R,caret::train会自动给你,所以我建议你使用它。
  3. 参见上面的内容:查看差异并增加重复,直到您可以重复整个过程,并获得类似的平均性能和性能差异。
  4. 是的,简历和重采样方法可以给你提供你的模型在新数据上表现如何的信息。因此,在执行CV、重采样和获取这些信息之后,通常会使用所有数据来训练您在例如应用场景中使用的最终模型(这包括训练和测试分区!)。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38355373

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档