首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Vowpal wabbit的上下文强盗中,--cb_探索性选项是否也包括训练最佳预测器(--cb选项)?

在Vowpal wabbit的上下文强盗中,--cb_探索性选项是否也包括训练最佳预测器(--cb选项)?
EN

Stack Overflow用户
提问于 2022-03-17 05:35:22
回答 1查看 135关注 0票数 1

当我用Vowpal wabbit来对付上下文匪徒时,我的理解是,

  1. 我们可以建立一个预测模型来预测回报。
  2. 然后,我们还可以使用一种探索策略来选择行动(每个行动的回报来自于上面的预测器模型#1 )。

我可以使用--cb选项来优化基于已经收集的上下文强盗数据的预测器。-cb获取只用于建立一个预测奖励的模型,并且它不包含任何探索,就是选择奖励(它总是选择最大的奖励)。因此,这就是上面#1的功能。双健壮是--cb的缺省值,您可以使用--cb_type标志指定其他方法。

-cb_探索者选项执行奖励的探索(上面的第2条)。我不确定的是,当我指定--cb_探索者时,它使用了什么方法来预测行为的回报?所有的示例都引用了勘探策略,并且没有指定用于-cb_探测的默认预测策略,

EN

回答 1

Stack Overflow用户

发布于 2022-04-18 14:55:10

如果没有提供勘探策略,默认情况将是贪婪的。您可以看到其他一些替代方案,这里

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71507500

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档