文章/答案/技术大牛

发布

社区首页 >问答首页 >Vowpal Wabbit上下文Bandit正确使用

问Vowpal Wabbit上下文Bandit正确使用
EN

Stack Overflow用户

提问于 2022-09-09 17:24:52

回答 1查看 106关注 0票数 0

我目前正在使用Vowpal Wabbit包来模拟上下文Bandit。关于图书馆的使用，我有几个问题：

I有多个上下文/类别，其中操作是相交的。例如，假设我有A队、B队和C队的球衣，这些球衣有S、M和L号，根据过去的需求，我想推荐一种尺寸的球衣。

上下文- A组，B组，C组行动- S，M和L

每个上下文都有相同的操作集可供选择。我希望Vowpal Wabbit理解每个上下文是不同的，并为操作空间创建单独的发行版。Vowpal Wabbit正在使用相同的分布/pmf在所有上下文中执行操作。

因此，如果团队A是上下文--经过几次运行后，分布为0.1、0.8、0.1。B组也有相同的发行版0.1、0.8、0.1，尽管大众并未将此视为输入，但理想情况下，我希望它从0.3，0.3，0.33开始。

有什么方法可以利用VW来区分上下文并给它们单独的发行版呢？

我正在用Vowpal Wabbit模拟上下文强盗，设置如下--“--cb_探查_adf-保存_恢复--安静-epsilon 0.1”

I也在想，是否有一种方法可以访问/查看潜在的学习政策？不同的发行版或学习策略存储在哪里？

谢谢

python

reinforcement-learning

vowpalwabbit

bandit

回答 1

Stack Overflow用户

发布于 2022-09-29 18:27:29

为了让大众理解每个上下文是不同的，您需要添加"-q CA“来在上下文特性和操作特性之间进行功能交互。因为你已经和A队一起训练了模型，所以当你为B队训练时，模型的权重已经被更新了，所以它不再是统一随机的了。也许你可以试试加-忽略_线性C和-忽略_线性A？同样好奇的是，为什么你希望B组的动作分布是均匀随机的？

要访问/查看所学习的策略，可以尝试“-readable_model READABLE_MODEL_PATH”。要保存不同的发行版，可以执行"-p PREDICTION_FILE_PATH"，保存学习的策略"-f MODEL_PATH“。有关学习政策的更多选择：https://vowpalwabbit.org/docs/vowpal_wabbit/python/latest/command_line_args.html#output-model-options

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73665601

复制

相似问题

问Vowpal Wabbit上下文Bandit正确使用
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Vowpal Wabbit上下文Bandit正确使用EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Vowpal Wabbit上下文Bandit正确使用
EN