首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >优化参数的类Bandit算法?

优化参数的类Bandit算法?
EN

Stack Overflow用户
提问于 2014-07-07 20:43:34
回答 2查看 656关注 0票数 1

我需要一个算法来优化向用户显示消息的一周中的时间,以确保用户单击该消息的最大概率。

当显示消息时,数据库条目将根据日期/时间以及用户单击与否进行更新。目标是最大限度地提高点击率。

在N个离散参数的情况下,我非常习惯使用贝叶斯Bandits (也称为汤普森抽样) (https://github.com/omphalos/bayesian-bandit.js)来进行优化,但我不知道如何将它应用于连续值。

我很清楚标准爬山算法,但我只知道如何在没有统计噪音的情况下应用爬山。有没有一种简单的贝叶斯方法来进行爬山,以优化勘探/开发权衡?

对于附加点,是否有一种方法可以推广到多维,从而同时优化多个参数,以求多维空间中的最优点?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-07-08 10:45:10

我建议你把奖励函数看作一个高斯过程,在连续参数存在的情况下,使这个过程更好,更贝叶斯。本质上,您有一个回归问题,其中收益( t )是要对连续t估计的函数,您需要一种选择t的值的策略,它将勘探(具有高后验方差的函数空间的区域)与开发(函数空间的区域具有很高的期望)进行交换。

以前也有关于这方面的工作,例如本论文和作者的其他作品。

票数 2
EN

Stack Overflow用户

发布于 2014-07-08 04:19:29

与贝叶斯土匪密切相关的是贝叶斯混合模型。你可以认为一个贝叶斯强盗是delta函数的一个贝叶斯混合物。这就消除了离散约束。相反,您可以将连续空间上的分布建模为连续值随机变量之和。例如,您可以假设有5个“单击源”,每一个按小时的正态分布(上午8点、9点、.),标准偏差为15分钟。所以,当你在8:05点点击的时候,你会把它很大程度上归因于早上8点,小到9点,更小一点到10点,依此类推。

一种常用的混合模型估计算法是期望-最大化。您应该能够找到良好的开源实现。请注意,在多元情况下,上述描述(和EM)仍然有效。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24619525

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档