我给出了许多不同种类的蘑菇的记录。这些应该分为食用和有毒两种。分类必须与k近邻(1)和J48一起执行。
两种算法的精度均为99.88%。与我有关的是假阳性率。J48为0.3%,KNN为0%。所以我想说KNN更适合于选择的问题。
然而,我不知道为什么。是否有一个普遍的答案,为什么KNN比J48更适合记录?
第二件事是,我应该使用10倍交叉验证。这是怎么回事?
提前感谢
发布于 2012-01-13 14:48:26
是否有一个普遍的答案,为什么KNN比J48更适合记录?
不是的。这在很大程度上取决于数据集、两种算法的设置以及评估的方式(您确实使用了单独的培训和测试集,不是吗?)
10倍交叉验证意味着:您将数据集拆分为10个大小相等的“折叠”,然后对每个折叠i进行拆分。
取平均准确度。请参阅维基百科或任何关于机器学习的书。
https://stackoverflow.com/questions/8852217
复制相似问题