首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何监控RL特工?

如何监控RL特工?
EN

Data Science用户
提问于 2017-12-06 08:58:46
回答 1查看 207关注 0票数 4

我的问题是如何在生产中监控RL代理。为了使这个问题更容易讨论,这里有一个用例。请不要关注在实现这样一个代理时遇到的困难,而是关注如何监控它是否仍然做得很好:

假设Amazon使用强化学习优化搜索顺序:

  • 当用户开始搜索时,插曲就开始了。
  • 一集结束后,一个阈值或用户购买的东西。
  • 代理得到的观察是搜索条件以及他必须下订单的20种产品。
  • 如果这20样东西中有一件被买了,他就会得到奖励。

当然,我们可以(应该吗?)让代理随时学习产品的变化,可能是搜索术语/语言的变化。但是我什么时候知道特工学到了一些奇怪的东西/我应该阻止它?

我可以想象以下情况:

  • 基于案例的单个示例
  • 对一些琐碎的搜索和产品有一个基本真理,并检查模型是否正确(在非探索性模式下)
  • 让代理以批处理模式学习(例如,每周只更新一次模型),并对当前模型/新模型进行A/B测试。
  • 衡量平均报酬和设定一个门槛。如果代理的平均奖励低于阈值,则将代理重置为过去的“保存”状态。

有关于它的文献吗?博客帖子?

我知道至少有一个RL出错/监控不太奏效的例子:

EN

回答 1

Data Science用户

发布于 2017-12-09 15:39:27

这是强化学习(以及所有机器学习)中的一个悬而未决的问题。谷歌发表了一篇题为“机器学习:技术债务的高利率信用卡”的论文,讨论了这些系统随着时间的推移可能退化的多种方式。

一种方法是遵循基本的生产工程技术(例如,测试覆盖率和优雅的退出)。

另一种方法是监视数据,如果新的数据在统计上脱离样本,则对代理进行再培训。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/25439

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档