文章/答案/技术大牛

发布

社区首页 >问答首页 >分类器的选择

问分类器的选择
EN

Data Science用户

提问于 2019-08-02 15:07:49

回答 1查看 65关注 0票数 2

对于我所读到的5x2cvt测试是

Dietterich提出的一种比较两种模型(分类器或回归器)性能的方法，以解决其他方法的缺点，如重放配对t检验和k倍交叉验证配对t检验。

。

我目前正在用一个不平衡的数据集做一些实验，我用SCUT进行平衡，并训练了一组不同的分类器。问题是有三个不同类可供选择的多类。我正在应用多层感知器、决策树和随机森林，经过10次交叉验证后，结果如下：

多层脉冲加速器: 0.95 acc

决策树: 0.93 acc

随机森林: 0.935 acc

当我应用5x2cvt测试时，我得到了以下结果：

MLP和DT：

T-统计数字4.75

P值0.005

所以，如果我假设在测试中，我的α值为0.05，它拒绝了空假设，即这两种算法在相同的数据库中都表现良好，那么从我得到的p值中，我可以拒绝空假设。这将意味着两种模型的性能都不一样好，所以更好地使用MLP的DT，因为它的更高的准确性。

当我对MLP和RF做同样的操作时，我得到了以下结果：

T-统计: 2.46

P值: 0.055

在这里，我想我可以得出结论，对于当前的数据集使用MLP或RF几乎是一样的，因为我没有拒绝空假设。我在这里的问题是，我是否应该选择射频，即使精度较低？

与DT和RF的比较值如下：

T-统计：-2.49

P值: 0.054

所以我可以拒绝零假设，并说在RF上使用DT是有区别的。

我的结论正确吗？

谢谢

cross-validation

回答 1

Data Science用户

发布于 2019-08-02 18:58:20

看，你的结论似乎是正确的，你的统计结果解释了你的结论，我会说，从统计学上讲，即使P值是0.055，你仍然有一个15 %到25%的错误率，你可能接受了一个错误的零假设，也许你的替代假设是正确的，因此，将统计学知识与数据科学结合起来，我建议您使用catboost(如果您的数据集中有一些分类特性，它将在您开始调优之前给您提供一个强大的基线预测)，否则，随机森林在任何一天都是好的，如果您有一个小数据集(例如，您的培训数据中的实例少于1500个)，我建议您在MLP上任何一天使用随机森林，因为基于MLP的分类器需要更多的数据来更好地分类，如果您有足够大的数据集，它们往往会偏向于您的训练data.But，如果您有足够大的数据集，您可以实际使用基于MLP的分类器，尝试一些基本特征选择。技术，如RFECV或feature_importanece_功能，您可以使用包含在每个模型后，您训练它。如果在一天结束时，您仍然对使用哪种模型感到困惑，我建议使用所有这些模型，并且您将有一些better.Making，这些决策仅仅基于统计数据是很困难的，因为统计将所有事情都以一种抽象的形式表示，因此它总是容易出现某些错误，因此我总是倾向于将我的数据科学实验与我的统计结果结合起来，然后只对我的results.Also进行总结，而使用统计分析时，很多事情都取决于您的数据集，也就是说，它足够大到足以从中得出有意义的结论吗？什么可能是抽样错误和更多的事情，.Hope，这有帮助。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/56847

复制

相似问题

问分类器的选择
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类器的选择EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类器的选择
EN