因此,为了更加明确,让我们考虑贷款违约的预测问题。假设我训练和测试了离线的多分类器,并对它们进行了集成。然后我把这个模型交给了生产部门。
但由于人的变化,数据和许多其他因素也会发生变化。我们的模型的性能最终会下降。因此,它需要被新的,更好的模式所取代。
什么是常见的技术,模型稳定性测试,模型性能测试,部署后的度量?如何决定什么时候用较新的型号取代目前的型号?
发布于 2016-12-06 02:40:51
在生产场景中,您更应该考虑的是模型的收入,而A/B测试是必须的。
与您的情况一样,您可以准确地度量您的贷款违约预测模型给您带来了多少钱,或者您的模型可以为您节省多少损失。
此外,你可以检查你的预测的分布是否与你的模型的准确性和稳定性有关的地面真相的分布。
希望这能帮到你,祝你好运- -)
发布于 2016-12-06 01:00:49
在生产中部署这些模型之后,我将监视以下内容:
(1)与用于评估模型性能的标准相同,在某些情况下,它是精确的,或者可以是精确性、召回性、RMSE。我会绘制一个每日时间序列图表,并看到它仍然表现在一个令人满意的阈值之上。在日历中可能有季节性,模型在某些月左右表现良好,而在其他月份则不太好。我会将性能与相同月份的测试/验证集进行比较,以说明季节性。
(2)除了查看模型的性能之外,特别是在使用共享计算资源的情况下,我还建议对数据聚合运行时、模型运行时、模型的成功率在过去一段时间内保持关闭选项卡。
发布于 2016-12-06 06:51:48
当机器学习用于执行特定任务时,这个问题在自动化中非常常见。保证质量永远是必须的。
在生产中对模型进行评估并不是一件容易的事情。原因,为什么?
为了在生产中对模型进行评估,您需要有基本的真实性。这一基本真理是不存在的(如果它是可用的,不需要有模型)。
获取基本真相(例如通过人)并不是一个好的解决方案:
它很贵,
再次,如果您将生成生产中的数据的基本事实,那么就不需要有一个模型。但是,如何在现实中处理这个问题呢?
我最近做了一个预测模型,用来预测车辆(制造,模型),因为我们每年都可能有新的模型,制造,这是一个很好的问题,问一问,我要重复多久一次的训练过程?
ImpThree我用不同的方式回答这个问题:
https://datascience.stackexchange.com/questions/15540
复制相似问题