因此,我想为一个强化学习模型编写一个奖励函数,它选择要向客户展示的产品。每种产品都有一定的利润率。
价格较高的产品有较高的利润率,但被购买的可能性较低。价格较低的产品利润率较低,但被购买的可能性较高。
目标是保持平均5%的产品销售利润率,同时最大限度地实现总收入。
写这个奖励函数的最好方法是什么?
发布于 2021-10-17 15:56:35
您的目标包括两个交互和可能冲突的标准。要完美地解决这个问题,编写一个奖励函数是不可能的。你必须首先决定这两个目标的相对重要性。因为其中一个实际上是一个约束,所以您需要决定应用这个约束的难度。
由于收入很容易衡量,而且已经很自然地表达了这部分优化应该实现的目标,所以你可以从对收入的任意缩放开始,这使得数字对于你的近似器来说很简单--例如,一个神经网络。拥有数千或数百万的数字并不是很好,因为在训练过程中错误值可能真的很大,所以我会根据你所期望的值,试着按某种数量级来衡量奖励的这一部分。
在此之后,您必须决定如何为毛利率添加一些奖励因素。要做到这一点有很多方法,因为给你的约束不是“自然”的,它是一个企业所有者或分析师确定的,它将导致总体可接受的净利润率,这与你所设定的毛利率目标有关,但并不是相同的(这并不出人意料,净利润率是公司的真正目标,但要比每笔销售毛利率要复杂得多)。
我可以想出两个额外的奖励,你可以增加,以代表达到毛利率的目标:
还有其他几种方法,你可以建立一个奖励制度。要记住的关键是,你从不同的来源添加的所有奖励都需要被缩放,以共同工作,表达你的代理人的目标。这是你需要通过尝试和错误建立起来的东西。通过从你的数据中找出一些例子,你可能会对你的体重鼓励的行为有一种感觉。
高权重满足5%的约束可能会由于销售不足而减少收入(因为所有提供的项目都可能更昂贵),低权重的约束可能会使业务整体亏损(因为这使得公司的销售成本超过了较小的利润率所能弥补的间接费用)。然而,对于这一点,没有数学上正确的答案,除非你能将净利润率与净利润之间的关系建模得足够好,从而将其作为目标。
https://datascience.stackexchange.com/questions/103203
复制相似问题