首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分类器的选择

分类器的选择
EN

Data Science用户
提问于 2019-08-02 15:07:49
回答 1查看 65关注 0票数 2

对于我所读到的5x2cvt测试是

Dietterich提出的一种比较两种模型(分类器或回归器)性能的方法,以解决其他方法的缺点,如重放配对t检验和k倍交叉验证配对t检验。

我目前正在用一个不平衡的数据集做一些实验,我用SCUT进行平衡,并训练了一组不同的分类器。问题是有三个不同类可供选择的多类。我正在应用多层感知器、决策树和随机森林,经过10次交叉验证后,结果如下:

多层脉冲加速器: 0.95 acc

决策树: 0.93 acc

随机森林: 0.935 acc

当我应用5x2cvt测试时,我得到了以下结果:

MLP和DT:

T-统计数字4.75

P值0.005

所以,如果我假设在测试中,我的α值为0.05,它拒绝了空假设,即这两种算法在相同的数据库中都表现良好,那么从我得到的p值中,我可以拒绝空假设。这将意味着两种模型的性能都不一样好,所以更好地使用MLP的DT,因为它的更高的准确性。

当我对MLP和RF做同样的操作时,我得到了以下结果:

T-统计: 2.46

P值: 0.055

在这里,我想我可以得出结论,对于当前的数据集使用MLP或RF几乎是一样的,因为我没有拒绝空假设。我在这里的问题是,我是否应该选择射频,即使精度较低?

与DT和RF的比较值如下:

T-统计:-2.49

P值: 0.054

所以我可以拒绝零假设,并说在RF上使用DT是有区别的。

我的结论正确吗?

谢谢

EN

回答 1

Data Science用户

发布于 2019-08-02 18:58:20

看,你的结论似乎是正确的,你的统计结果解释了你的结论,我会说,从统计学上讲,即使P值是0.055,你仍然有一个15 %到25%的错误率,你可能接受了一个错误的零假设,也许你的替代假设是正确的,因此,将统计学知识与数据科学结合起来,我建议您使用catboost(如果您的数据集中有一些分类特性,它将在您开始调优之前给您提供一个强大的基线预测),否则,随机森林在任何一天都是好的,如果您有一个小数据集(例如,您的培训数据中的实例少于1500个),我建议您在MLP上任何一天使用随机森林,因为基于MLP的分类器需要更多的数据来更好地分类,如果您有足够大的数据集,它们往往会偏向于您的训练data.But,如果您有足够大的数据集,您可以实际使用基于MLP的分类器,尝试一些基本特征选择。技术,如RFECV或feature_importanece_功能,您可以使用包含在每个模型后,您训练它。如果在一天结束时,您仍然对使用哪种模型感到困惑,我建议使用所有这些模型,并且您将有一些better.Making,这些决策仅仅基于统计数据是很困难的,因为统计将所有事情都以一种抽象的形式表示,因此它总是容易出现某些错误,因此我总是倾向于将我的数据科学实验与我的统计结果结合起来,然后只对我的results.Also进行总结,而使用统计分析时,很多事情都取决于您的数据集,也就是说,它足够大到足以从中得出有意义的结论吗?什么可能是抽样错误和更多的事情,.Hope,这有帮助。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/56847

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档