文章/答案/技术大牛

发布

社区首页 >问答首页 >多个模型在评估过程中存在极大的差异。

问多个模型在评估过程中存在极大的差异。
EN

Data Science用户

提问于 2021-10-07 19:57:08

回答 2查看 29关注 0票数 1

我的数据集有大约100 k个条目，6个特征，标签是简单的二进制分类(大约65%的0，35%的0)。

当我在不同的模型上训练数据集时:随机森林模型、决策树模型、额外树模型、k近邻模型、logistic回归模型、sgd模型、稠密神经网络模型等。

树分类器:准确率和精度约为80%。
K近邻:精度56%，精度36% .
线性svm: 65%的准确度和0的正数猜测
sgd :准确性63%，真阳性2例+假阳性4例

我不明白这种差别有什么区别。有人能解释一下为什么会这样吗？我做错什么了吗？

也找不到答案我的问题，所以请链接，如果有人已经问了。

真的很感激你的帮助！

machine-learning

decision-trees

accuracy

model-evaluations

sgd

回答 2

Data Science用户

回答已采纳

发布于 2021-10-08 02:12:55

几点想法：

我要检查的第一件事是其他型号是否合身。您可以通过比较培训集和测试集之间的性能来检查这一点。
另外，k总是预测大多数阶级，这也有点奇怪。只有当任何实例总是更接近多数实例而不是少数群体实例时，才会发生这种情况。在这种情况下，无论是特征还是距离测量都有问题。
100 k实例看起来像一个大型数据集，但是只有6个特性，数据可能包含许多副本和/或接近重复的数据，而这些副本和/或接近重复的数据不会为模型带来任何信息。一般来说，这些特性可能不是很好的指标，尽管在这种情况下，决策树模型也会失败。
树模型的更好的性能指向了特性中不连续的东西(顺便说一句，您没有提到它们是数字的还是绝对的？)决策树，特别是随机森林，可以处理不连续，但就像logistic回归一样，可能会遇到困难。

票数 0

Data Science用户

发布于 2021-10-09 12:04:23

比较模型的一种方法是查看不同的模型学习到的不同的决策边界。不同的决策边界会对评价指标产生影响。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/102911

复制

相似问题

问多个模型在评估过程中存在极大的差异。
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多个模型在评估过程中存在极大的差异。EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多个模型在评估过程中存在极大的差异。
EN