我正在用HOG和KNN开发手语识别系统。我有26个班级,每班180张图片。用HOG进行特征提取后,将数据集分为1/3(67%)和2/3(33%)测试。模型在测试数据集上的识别准确率达到95%。但我并没有低估所产生的混淆矩阵和分类。我认为每堂课的1/3 (33%)应该是60张图像,用于每堂课的测试。结果所生成的混淆矩阵和分类报告共享如下。令人费解的报告。帮帮忙吧。我可以看到TP的65多类图像。

发布于 2021-06-11 16:46:30
这在我看来是完全正常的:您的数据集有26x180=4680实例,所以测试集应该有4680x0.33=1544.4实例。根据分类报告,它包含1545个实例,这与这种计算是一致的。
重要的是要理解,默认情况下,dataset在所有实例之间随机地分为训练和测试集,而不考虑它们的类。这意味着,在测试集中,某些类可能有更多的或略小于33%的实例。这是在分类报告中可以看到的,这不是一个问题。
有时,当类的实例总数非常少时,这可能是一个问题。在这种情况下,应该使用分层抽样来独立地将比例应用于每个类。
https://datascience.stackexchange.com/questions/96504
复制相似问题