首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >多个模型在评估过程中存在极大的差异。

多个模型在评估过程中存在极大的差异。
EN

Data Science用户
提问于 2021-10-07 19:57:08
回答 2查看 29关注 0票数 1

我的数据集有大约100 k个条目,6个特征,标签是简单的二进制分类(大约65%的0,35%的0)。

当我在不同的模型上训练数据集时:随机森林模型、决策树模型、额外树模型、k近邻模型、logistic回归模型、sgd模型、稠密神经网络模型等。

  • 树分类器:准确率和精度约为80%。
  • K近邻:精度56%,精度36% .
  • 线性svm: 65%的准确度和0的正数猜测
  • sgd :准确性63%,真阳性2例+假阳性4例

我不明白这种差别有什么区别。有人能解释一下为什么会这样吗?我做错什么了吗?

也找不到答案我的问题,所以请链接,如果有人已经问了。

真的很感激你的帮助!

EN

回答 2

Data Science用户

回答已采纳

发布于 2021-10-08 02:12:55

几点想法:

  • 我要检查的第一件事是其他型号是否合身。您可以通过比较培训集和测试集之间的性能来检查这一点。
  • 另外,k总是预测大多数阶级,这也有点奇怪。只有当任何实例总是更接近多数实例而不是少数群体实例时,才会发生这种情况。在这种情况下,无论是特征还是距离测量都有问题。
  • 100 k实例看起来像一个大型数据集,但是只有6个特性,数据可能包含许多副本和/或接近重复的数据,而这些副本和/或接近重复的数据不会为模型带来任何信息。一般来说,这些特性可能不是很好的指标,尽管在这种情况下,决策树模型也会失败。
  • 树模型的更好的性能指向了特性中不连续的东西(顺便说一句,您没有提到它们是数字的还是绝对的?)决策树,特别是随机森林,可以处理不连续,但就像logistic回归一样,可能会遇到困难。
票数 0
EN

Data Science用户

发布于 2021-10-09 12:04:23

比较模型的一种方法是查看不同的模型学习到的不同的决策边界。不同的决策边界会对评价指标产生影响。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/102911

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档