首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Vowpal Wabbit上下文Bandit正确使用

Vowpal Wabbit上下文Bandit正确使用
EN

Stack Overflow用户
提问于 2022-09-09 17:24:52
回答 1查看 106关注 0票数 0

我目前正在使用Vowpal Wabbit包来模拟上下文Bandit。关于图书馆的使用,我有几个问题:

  1. I有多个上下文/类别,其中操作是相交的。例如,假设我有A队、B队和C队的球衣,这些球衣有S、M和L号,根据过去的需求,我想推荐一种尺寸的球衣。

上下文- A组,B组,C组行动- S,M和L

每个上下文都有相同的操作集可供选择。我希望Vowpal Wabbit理解每个上下文是不同的,并为操作空间创建单独的发行版。Vowpal Wabbit正在使用相同的分布/pmf在所有上下文中执行操作。

因此,如果团队A是上下文--经过几次运行后,分布为0.1、0.8、0.1。B组也有相同的发行版0.1、0.8、0.1,尽管大众并未将此视为输入,但理想情况下,我希望它从0.3,0.3,0.33开始。

有什么方法可以利用VW来区分上下文并给它们单独的发行版呢?

我正在用Vowpal Wabbit模拟上下文强盗,设置如下--“--cb_探查_adf-保存_恢复--安静-epsilon 0.1”

  1. I也在想,是否有一种方法可以访问/查看潜在的学习政策?不同的发行版或学习策略存储在哪里?

谢谢

EN

回答 1

Stack Overflow用户

发布于 2022-09-29 18:27:29

为了让大众理解每个上下文是不同的,您需要添加"-q CA“来在上下文特性和操作特性之间进行功能交互。因为你已经和A队一起训练了模型,所以当你为B队训练时,模型的权重已经被更新了,所以它不再是统一随机的了。也许你可以试试加-忽略_线性C和-忽略_线性A?同样好奇的是,为什么你希望B组的动作分布是均匀随机的?

要访问/查看所学习的策略,可以尝试“-readable_model READABLE_MODEL_PATH”。要保存不同的发行版,可以执行"-p PREDICTION_FILE_PATH",保存学习的策略"-f MODEL_PATH“。有关学习政策的更多选择:https://vowpalwabbit.org/docs/vowpal_wabbit/python/latest/command_line_args.html#output-model-options

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73665601

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档