我的问题是如何在生产中监控RL代理。为了使这个问题更容易讨论,这里有一个用例。请不要关注在实现这样一个代理时遇到的困难,而是关注如何监控它是否仍然做得很好:
假设Amazon使用强化学习优化搜索顺序:
当然,我们可以(应该吗?)让代理随时学习产品的变化,可能是搜索术语/语言的变化。但是我什么时候知道特工学到了一些奇怪的东西/我应该阻止它?
我可以想象以下情况:
有关于它的文献吗?博客帖子?
我知道至少有一个RL出错/监控不太奏效的例子:
发布于 2017-12-09 15:39:27
这是强化学习(以及所有机器学习)中的一个悬而未决的问题。谷歌发表了一篇题为“机器学习:技术债务的高利率信用卡”的论文,讨论了这些系统随着时间的推移可能退化的多种方式。
一种方法是遵循基本的生产工程技术(例如,测试覆盖率和优雅的退出)。
另一种方法是监视数据,如果新的数据在统计上脱离样本,则对代理进行再培训。
https://datascience.stackexchange.com/questions/25439
复制相似问题