问题陈述:我们被给予一个优化问题,生产中心,源机场,目的地机场,转运站,并最终交付给客户。下面的图片更好地解释了这一点。

目标函数1:最小化成本=库存成本+运输成本+罚款成本+装卸成本
数学解决方案(使用IBM / Docplex):包含该公式的完整python代码(.ipynb文件)出现在此谷歌驱动器链接中。这给出了一个最优解。
问题:是否有任何非数学的,非公式的方法来解决这个问题的陈述?关于强化学习的东西?如果还提供任何实现,它将是锦上添花。
发布于 2022-02-26 17:01:08
为了把这个问题用强化学习(RL)来解决,首先定义一个agent。代理将在环境中尝试不同的策略。结果会带来更高回报的政策将被更频繁地使用。
这个问题相对简单(对于一个RL问题),因为环境可以被建模为一个有向无环图(DAG),具有固定的离散节点集。蛮力策略搜索可能有效。
https://datascience.stackexchange.com/questions/104157
复制相似问题