问在Vowpal wabbit的上下文强盗中，--cb_探索性选项是否也包括训练最佳预测器(--cb选项)？
EN

Stack Overflow用户

提问于 2022-03-17 05:35:22

回答 1查看 135关注 0票数 1

当我用Vowpal wabbit来对付上下文匪徒时，我的理解是，

我可以使用--cb选项来优化基于已经收集的上下文强盗数据的预测器。-cb获取只用于建立一个预测奖励的模型，并且它不包含任何探索，就是选择奖励(它总是选择最大的奖励)。因此，这就是上面#1的功能。双健壮是--cb的缺省值，您可以使用--cb_type标志指定其他方法。

-cb_探索者选项执行奖励的探索(上面的第2条)。我不确定的是，当我指定--cb_探索者时，它使用了什么方法来预测行为的回报？所有的示例都引用了勘探策略，并且没有指定用于-cb_探测的默认预测策略，

发布于 2022-04-18 14:55:10

如果没有提供勘探策略，默认情况将是贪婪的。您可以看到其他一些替代方案，这里。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71507500

复制

相似问题

问在Vowpal wabbit的上下文强盗中，--cb_探索性选项是否也包括训练最佳预测器(--cb选项)？EN