在部署模型之前,当选择一个概率阈值以最大化F1分数时(基于查准率-召回曲线),应该根据训练数据还是保持数据集来选择阈值?
发布于 2020-07-10 15:21:08
理想情况下,应该在培训集上选择阈值。您的持久战集只是双重确认,无论是什么工作在您的培训集将概括为图像以外的培训集。
这就是为什么像python中的GridSearch和RandomizedSearch这样的超参数调优具有一个cv参数来交叉验证您的训练集的不同折叠,而不是允许根据使用保留集测量的度量来选择最佳参数。
https://datascience.stackexchange.com/questions/77510
复制相似问题