文章/答案/技术大牛

发布

社区首页 >问答首页 >如何监控RL特工？

问如何监控RL特工？
EN

Data Science用户

提问于 2017-12-06 08:58:46

回答 1查看 207关注 0票数 4

我的问题是如何在生产中监控RL代理。为了使这个问题更容易讨论，这里有一个用例。请不要关注在实现这样一个代理时遇到的困难，而是关注如何监控它是否仍然做得很好：

假设Amazon使用强化学习优化搜索顺序：

当用户开始搜索时，插曲就开始了。
一集结束后，一个阈值或用户购买的东西。
代理得到的观察是搜索条件以及他必须下订单的20种产品。
如果这20样东西中有一件被买了，他就会得到奖励。

当然，我们可以(应该吗？)让代理随时学习产品的变化，可能是搜索术语/语言的变化。但是我什么时候知道特工学到了一些奇怪的东西/我应该阻止它？

我可以想象以下情况：

基于案例的单个示例
对一些琐碎的搜索和产品有一个基本真理，并检查模型是否正确(在非探索性模式下)
让代理以批处理模式学习(例如，每周只更新一次模型)，并对当前模型/新模型进行A/B测试。
衡量平均报酬和设定一个门槛。如果代理的平均奖励低于阈值，则将代理重置为过去的“保存”状态。

有关于它的文献吗？博客帖子？

我知道至少有一个RL出错/监控不太奏效的例子：

推特在不到一天的时间内教会微软的AI聊天机器人成为一个种族主义的混蛋 (守护者)

model-evaluations

reinforcement-learning

回答 1

Data Science用户

发布于 2017-12-09 15:39:27

这是强化学习(以及所有机器学习)中的一个悬而未决的问题。谷歌发表了一篇题为“机器学习:技术债务的高利率信用卡”的论文，讨论了这些系统随着时间的推移可能退化的多种方式。

一种方法是遵循基本的生产工程技术(例如，测试覆盖率和优雅的退出)。

另一种方法是监视数据，如果新的数据在统计上脱离样本，则对代理进行再培训。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/25439

复制

相似问题

问如何监控RL特工？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何监控RL特工？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何监控RL特工？
EN