我开始使用NaiveBayes/Simple分类器进行分类,但是在训练数据时我有一些问题需要理解。我使用的数据集是weather.nominal.arff。

当我使用来自选项的培训测试时,分类器的结果是:
Correctly Classified Instances 13 - 92.8571 %
Incorrectly Classified Instances 1 - 7.1429 %
a b classified as
9 0 a =yes
1 4 b = no我的第一个问题是,我应该从错误的机密事件中了解什么?为何会出现这样的问题呢?哪些属性集合被分类不正确?有办法理解这一点吗?
其次,当我尝试10倍交叉验证,为什么我得到不同(较少)正确分类的实例?
研究结果如下:
Correctly Classified Instances 8 57.1429 %
Incorrectly Classified Instances 6 42.8571 %
a b <-- classified as
7 2 | a = yes
4 1 | b = no发布于 2010-09-06 04:39:55
通过从以下位置选择此选项,可以获得每个实例的单个预测:
更多选择..。>输出预测> PlainText
除评估指标外,还将提供以下内容:
=== Predictions on training set ===
inst# actual predicted error prediction
1 2:no 2:no 0.704
2 2:no 2:no 0.847
3 1:yes 1:yes 0.737
4 1:yes 1:yes 0.554
5 1:yes 1:yes 0.867
6 2:no 1:yes + 0.737
7 1:yes 1:yes 0.913
8 2:no 2:no 0.588
9 1:yes 1:yes 0.786
10 1:yes 1:yes 0.845
11 1:yes 1:yes 0.568
12 1:yes 1:yes 0.667
13 1:yes 1:yes 0.925
14 2:no 2:no 0.652 这表明第六个例子被错误分类了。请注意,即使您对相同的实例进行培训和测试,由于数据中的不一致,也可能出现分类错误(最简单的示例是有两个具有相同特性但具有不同类标签的实例)。
记住,上面的测试方法是有偏见的(它有点作弊,因为它可以看到问题的答案)。因此,我们通常感兴趣的是得到一个更真实的估计模型误差的无形数据。交叉验证就是这样一种技术,它将数据划分成10个分层的褶皱,在一次测试中执行测试,而在另九次上进行训练,最后报告十次测试的平均精度。
https://stackoverflow.com/questions/3648917
复制相似问题