如何选择一个自动化系统用于评估经过培训的模型的验证集,以确保每一种新模型至少与以前的模型一样好,或者更好?
让我们说,在这种情况下,我们有一个回归问题,我们可以依赖于一个单一的性能指标,如RMSE。
我正在开发一个程序,自动训练,测试,如果测试通过,每x个新的数据样本/时间部署一个新的深入学习模型。
每一次训练都是在原始数据集(标记数据)和新数据集上进行的,而新数据集是通过对前一个模型的预测来标记的。
这些都是我想出的选择和一些利弊。
备选案文A:
创建一次验证集,始终应用此集
备选方案B:
创建初始验证集,将新培训样本的X%添加到原始集
备选案文C:
创建一个随机验证集,每次培训
备选案文D:
交叉验证
发布于 2018-05-23 13:10:44
我建议选择E: Efron-功“乐观主义”自举。它在精神上类似于交叉验证,但需要像CV那样减少数量级的重复,并且它利用整个数据集。该程序在本参考第6节中进行了描述。
https://datascience.stackexchange.com/questions/32036
复制相似问题