当我用Vowpal wabbit来对付上下文匪徒时,我的理解是,
我可以使用--cb选项来优化基于已经收集的上下文强盗数据的预测器。-cb获取只用于建立一个预测奖励的模型,并且它不包含任何探索,就是选择奖励(它总是选择最大的奖励)。因此,这就是上面#1的功能。双健壮是--cb的缺省值,您可以使用--cb_type标志指定其他方法。
-cb_探索者选项执行奖励的探索(上面的第2条)。我不确定的是,当我指定--cb_探索者时,它使用了什么方法来预测行为的回报?所有的示例都引用了勘探策略,并且没有指定用于-cb_探测的默认预测策略,
发布于 2022-04-18 14:55:10
如果没有提供勘探策略,默认情况将是贪婪的。您可以看到其他一些替代方案,这里。
https://stackoverflow.com/questions/71507500
复制相似问题