Random Forest而不是SVM,反之亦然?我知道cross-validation和模型比较是选择模型的一个重要方面,但在这里,我想了解更多关于这两种方法的经验规则和启发式的知识。
有谁能解释一下分类器的微妙之处、优点、弱点以及最适合它们的问题吗?
发布于 2015-08-20 12:15:13
支持向量机模型在稀疏数据上的表现优于一般的树。例如,在文档分类中,您可能拥有数千甚至数万个特征,而在任何给定的文档向量中,只有一小部分特征的值可能大于零。他们之间可能还有其他的不同之处,但这正是我发现的问题所在。
发布于 2017-04-26 21:52:03
它实际上取决于你想要实现什么,你的数据看起来像什么等等。支持向量机一般会在线性依赖关系上表现得更好,否则你需要非线性核,内核的选择可能会改变结果。此外,支持向量机不太容易解释-例如,如果您想解释为什么分类是这样的-它将是非平凡的。决策树具有更好的可解释性,它们工作得更快,如果你有分类/数值变量,那么它是很好的,而且:非线性依赖关系处理得很好(给定N个足够大)。而且他们的训练速度比一般的支持向量机快,但是他们有过度适应的倾向.
我也会尝试Logistic回归--很好的可解释分类器)
总之,经验法则是尝试任何事情,并比较什么给你最好的结果/解释。
发布于 2018-12-20 17:00:14
为了补充已经指出的优点:
从我们需要数百个分类器来解决真实世界的分类问题吗?来看,随机林比SVMs更有可能获得更好的性能。
此外,由于理论上的原因,随机林算法的实现速度通常比非线性支持向量机快得多。事实上,作为@Ianenok,SVM往往不能使用超过10 000个数据点。
然而,众所周知,SVMs在某些特定数据集(图像、微阵列数据.)上表现更好。
因此,再次强调,交叉验证确实是知道哪种方法执行得最好的最佳方法。
来源:随机林与支持向量机
https://datascience.stackexchange.com/questions/6838
复制相似问题