我正在查看Vowpal Wabbit的文档,了解它是如何学习的。传统的语境Bandits学习F(上下文,行动)=奖励,找到最大回报的行动,并以推荐的形式返回行动。“F”是任何模型,线性,神经网络,xgb,等等。这是通过批处理学到的。即收集100个情境,100个动作,100个奖励,训练ML模型,然后再做一次。
现在,大众汽车表示,它将“所有上下文盗贼问题减少为对成本敏感的多类分类问题”。好的,请读一遍,但是仍然需要一些函数F来最小化这个问题,不是吗?
我已经彻底阅读了这些文档,或者:
我甚至在pyvwlib中浏览了vw.learn()方法。谢谢你的帮助!
发布于 2020-12-03 16:29:44
忽略了默认的学习者用于批处理或,
大众的默认学习者是关于线性表示的SGD,但这可以使用命令行参数进行修改。
不明白大众是如何在这个对成本敏感的框架中学习的?
在语境强盗学习中,给出了与所采取的行动相关联的学习奖励。在ips模式下,VW通过在未采取的操作和重要性上设置零来将其转换为对每个动作的奖励--对所采取的操作加权奖励。对于计算丢失的数据,它将问题作为一个监督学习问题来处理。
https://stackoverflow.com/questions/64940685
复制相似问题