尽管做了/使用过几次,但我仍然对使用验证集进行超参数调优感到有点困惑。
据我所知,我选择一个模型,对训练数据进行训练,对训练数据进行性能评估,然后对验证数据进行超参数整定评估模型性能,然后选择最佳模型并对测试数据进行测试。
为了做到这一点,我基本上需要随机选择一个模型来训练数据。我不明白的是,我不知道哪一种模式在一开始会是最好的。假设我认为神经网络和随机森林可能对我的问题有用。那么,为什么我不开始搜索一个一般的,例如,神经网络体系结构,随机森林体系结构,并从一开始,评估哪一个模型是最好的一小部分数据变化的所有超参数无论如何。
基本上为什么要选择一个基于人的“猜测”来做训练,然后在验证阶段进行超参数调优呢?为什么不“从完全不确定开始”,进行广泛的搜索,从一般的神经网络或随机森林或.评估范围广泛的超参数的性能。建筑,从一开始?
谢谢!
发布于 2022-05-28 14:15:29
使用列车数据集执行超参数调优。验证数据集用于确保您所培训的模型不过分合适。这里的问题是,模型已经“看到”了验证数据集,并且有可能模型对新的/未见的数据没有按预期执行。这就是为什么您需要一个额外的数据集,即测试数据集。
发布于 2022-12-23 09:06:41
在开始时,超参数调优通常是在验证集上进行的,而不是在培训集或一小部分数据上进行的,原因有几个:
简而言之,超参数调优通常是在验证集上进行的,因为它有助于防止过度拟合,减少偏差,并且比其他方法更有效。
https://datascience.stackexchange.com/questions/111372
复制相似问题