我对知识蒸馏了解不多。我有一个问题。 有一个模型显示了99%的性能(10class图像分类)。但我不能使用更大的模型,因为我必须保持推理时间。如果我使用另一个大模型训练知识蒸馏,是否会产生整体效应? -option-或者让我知道是否有比这更好的方法来提高性能。 enter image description here
我正在运行关于知识蒸馏的Keras示例,我的问题是:我可以用来进行预测的结果压缩模型是蒸馏器还是学生模型?在这种情况下,如何添加softmax分类层并使用结果模型运行预测?student on test dataset尽管能够运行这个例子,但我不认为这些信息对我来说是清楚的,我想在看不见的数据上测试模型,因此我想知道,如何从知识蒸馏建立一个模型并进行预测并检查其分类报告?