首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Vowpal Wabbit的CMAB框架默认学习者是什么?

Vowpal Wabbit的CMAB框架默认学习者是什么?
EN

Stack Overflow用户
提问于 2020-11-21 07:12:32
回答 1查看 158关注 0票数 0

我正在查看Vowpal Wabbit的文档,了解它是如何学习的。传统的语境Bandits学习F(上下文,行动)=奖励,找到最大回报的行动,并以推荐的形式返回行动。“F”是任何模型,线性,神经网络,xgb,等等。这是通过批处理学到的。即收集100个情境,100个动作,100个奖励,训练ML模型,然后再做一次。

现在,大众汽车表示,它将“所有上下文盗贼问题减少为对成本敏感的多类分类问题”。好的,请读一遍,但是仍然需要一些函数F来最小化这个问题,不是吗?

我已经彻底阅读了这些文档,或者:

  1. 忽略了默认的学习者用于批处理或,
  2. 不明白大众是如何在这个对成本敏感的框架中学习的?

我甚至在pyvwlib中浏览了vw.learn()方法。谢谢你的帮助!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-12-03 16:29:44

忽略了默认的学习者用于批处理或,

大众的默认学习者是关于线性表示的SGD,但这可以使用命令行参数进行修改。

不明白大众是如何在这个对成本敏感的框架中学习的?

在语境强盗学习中,给出了与所采取的行动相关联的学习奖励。在ips模式下,VW通过在未采取的操作和重要性上设置零来将其转换为对每个动作的奖励--对所采取的操作加权奖励。对于计算丢失的数据,它将问题作为一个监督学习问题来处理。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64940685

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档