我目前正在使用Vowpal Wabbit包来模拟上下文Bandit。关于图书馆的使用,我有几个问题:
上下文- A组,B组,C组行动- S,M和L
每个上下文都有相同的操作集可供选择。我希望Vowpal Wabbit理解每个上下文是不同的,并为操作空间创建单独的发行版。Vowpal Wabbit正在使用相同的分布/pmf在所有上下文中执行操作。
因此,如果团队A是上下文--经过几次运行后,分布为0.1、0.8、0.1。B组也有相同的发行版0.1、0.8、0.1,尽管大众并未将此视为输入,但理想情况下,我希望它从0.3,0.3,0.33开始。
有什么方法可以利用VW来区分上下文并给它们单独的发行版呢?
我正在用Vowpal Wabbit模拟上下文强盗,设置如下--“--cb_探查_adf-保存_恢复--安静-epsilon 0.1”
谢谢
发布于 2022-09-29 18:27:29
为了让大众理解每个上下文是不同的,您需要添加"-q CA“来在上下文特性和操作特性之间进行功能交互。因为你已经和A队一起训练了模型,所以当你为B队训练时,模型的权重已经被更新了,所以它不再是统一随机的了。也许你可以试试加-忽略_线性C和-忽略_线性A?同样好奇的是,为什么你希望B组的动作分布是均匀随机的?
要访问/查看所学习的策略,可以尝试“-readable_model READABLE_MODEL_PATH”。要保存不同的发行版,可以执行"-p PREDICTION_FILE_PATH",保存学习的策略"-f MODEL_PATH“。有关学习政策的更多选择:https://vowpalwabbit.org/docs/vowpal_wabbit/python/latest/command_line_args.html#output-model-options
https://stackoverflow.com/questions/73665601
复制相似问题