文章/答案/技术大牛

发布

社区首页 >问答首页 >优化参数的类Bandit算法？

问优化参数的类Bandit算法？
EN

Stack Overflow用户

提问于 2014-07-07 20:43:34

回答 2查看 656关注 0票数 1

我需要一个算法来优化向用户显示消息的一周中的时间，以确保用户单击该消息的最大概率。

当显示消息时，数据库条目将根据日期/时间以及用户单击与否进行更新。目标是最大限度地提高点击率。

在N个离散参数的情况下，我非常习惯使用贝叶斯Bandits (也称为汤普森抽样) (https://github.com/omphalos/bayesian-bandit.js)来进行优化，但我不知道如何将它应用于连续值。

我很清楚标准爬山算法，但我只知道如何在没有统计噪音的情况下应用爬山。有没有一种简单的贝叶斯方法来进行爬山，以优化勘探/开发权衡？

对于附加点，是否有一种方法可以推广到多维，从而同时优化多个参数，以求多维空间中的最优点？

algorithm

machine-learning

mathematical-optimization

bayesian

ab-testing

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-07-08 10:45:10

我建议你把奖励函数看作一个高斯过程，在连续参数存在的情况下，使这个过程更好，更贝叶斯。本质上，您有一个回归问题，其中收益( t )是要对连续t估计的函数，您需要一种选择t的值的策略，它将勘探(具有高后验方差的函数空间的区域)与开发(函数空间的区域具有很高的期望)进行交换。

以前也有关于这方面的工作，例如本论文和作者的其他作品。

票数 2

Stack Overflow用户

发布于 2014-07-08 04:19:29

与贝叶斯土匪密切相关的是贝叶斯混合模型。你可以认为一个贝叶斯强盗是delta函数的一个贝叶斯混合物。这就消除了离散约束。相反，您可以将连续空间上的分布建模为连续值随机变量之和。例如，您可以假设有5个“单击源”，每一个按小时的正态分布(上午8点、9点、.)，标准偏差为15分钟。所以，当你在8:05点点击的时候，你会把它很大程度上归因于早上8点，小到9点，更小一点到10点，依此类推。

一种常用的混合模型估计算法是期望-最大化。您应该能够找到良好的开源实现。请注意，在多元情况下，上述描述(和EM)仍然有效。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24619525

复制

相似问题

问优化参数的类Bandit算法？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问优化参数的类Bandit算法？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问优化参数的类Bandit算法？
EN