首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何编写一个优化利润和收入的奖励函数?

如何编写一个优化利润和收入的奖励函数?
EN

Data Science用户
提问于 2021-10-16 22:22:28
回答 1查看 143关注 0票数 0

因此,我想为一个强化学习模型编写一个奖励函数,它选择要向客户展示的产品。每种产品都有一定的利润率。

价格较高的产品有较高的利润率,但被购买的可能性较低。价格较低的产品利润率较低,但被购买的可能性较高。

目标是保持平均5%的产品销售利润率,同时最大限度地实现总收入。

写这个奖励函数的最好方法是什么?

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-10-17 15:56:35

您的目标包括两个交互和可能冲突的标准。要完美地解决这个问题,编写一个奖励函数是不可能的。你必须首先决定这两个目标的相对重要性。因为其中一个实际上是一个约束,所以您需要决定应用这个约束的难度。

由于收入很容易衡量,而且已经很自然地表达了这部分优化应该实现的目标,所以你可以从对收入的任意缩放开始,这使得数字对于你的近似器来说很简单--例如,一个神经网络。拥有数千或数百万的数字并不是很好,因为在训练过程中错误值可能真的很大,所以我会根据你所期望的值,试着按某种数量级来衡量奖励的这一部分。

在此之后,您必须决定如何为毛利率添加一些奖励因素。要做到这一点有很多方法,因为给你的约束不是“自然”的,它是一个企业所有者或分析师确定的,它将导致总体可接受的净利润率,这与你所设定的毛利率目标有关,但并不是相同的(这并不出人意料,净利润率是公司的真正目标,但要比每笔销售毛利率要复杂得多)。

我可以想出两个额外的奖励,你可以增加,以代表达到毛利率的目标:

  • 因为它是一种限制,你会想要负回报的销售,导致毛利率低于5%,积极的回报销售,导致毛利率超过5%。你可能可以简化到+1或-1每出售取决于线的哪一边,你目前的保证金。
  • 由于单个销售可能不会将这一平均值移动太多,因此您可能希望在5%的分值上添加第三个奖励,即单个销售的5%以上或以下的金额。因此,例如,以an 104出售的物品,其成本为an 100,将得到-1的奖励。这种选择是“奖励塑造”的一种形式。这可能会适得其反,但要记住,如果短期学习不能引导销售朝着正确的方向发展。

还有其他几种方法,你可以建立一个奖励制度。要记住的关键是,你从不同的来源添加的所有奖励都需要被缩放,以共同工作,表达你的代理人的目标。这是你需要通过尝试和错误建立起来的东西。通过从你的数据中找出一些例子,你可能会对你的体重鼓励的行为有一种感觉。

高权重满足5%的约束可能会由于销售不足而减少收入(因为所有提供的项目都可能更昂贵),低权重的约束可能会使业务整体亏损(因为这使得公司的销售成本超过了较小的利润率所能弥补的间接费用)。然而,对于这一点,没有数学上正确的答案,除非你能将净利润率与净利润之间的关系建模得足够好,从而将其作为目标。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/103203

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档