我知道有基于模型的强化学习。但是所有的方法都假设是MDP。
如果我想对一个系统进行反馈控制(即控制倒立摆),就很容易找到非线性微分方程。我可以以某种方式将这些知识输入RL算法,还是有方法将动态系统转换为MDP?
发布于 2019-06-29 08:23:00
强化学习(RL)完全基于MDP,它的定义本质上是"RL是可以在MDP环境中学习行动选择的算法集合“。
在RL之外,您可以使用直接使用微分方程与控制系统一起工作,而且有些是可解析的。原则上,与RL相比,这些直接解决方案更健壮,不需要学习。然而,它们通常依赖于简单的目标描述--通常是静态控制,以保持一些重要的值(速度、位置、温度)。这是很好的巡航控制在汽车,恒温器和工业过程。对于倒立摆这样的简单环境来说,它也很有用,因为在没有RL的情况下已经解决了几十年。
分析性的非RL方法远比RL这样的尝试性统计学习者更值得信赖.但它们在描述环境的目标和复杂性方面是有限的。它们在山地汽车环境级别开始失败,正确的操作可能是在向目标状态移动之前进一步移动目标状态。当然,山区汽车仍然可以完全用相对简单的微分方程来描述。
如果在目标太复杂而无法解析求解的环境中,有一个动态系统的方程,那么您可以很容易地转换成离散的MDP形式:使用这些方程来模拟环境,选择一个离散的时间步骤进行行动选择。还有一些RL方法可以与连续控制和可变时间步骤一起工作,这些方法也将从这种模型中受益。您可以使用这样的模型在模拟环境中学习,或者使用它来帮助在实际环境中进行规划(或者在模拟环境中有一个学习+规划算法)。
如果你是从微分方程开始,那么你通常会把它们转换成某种非微分形式,以便应用它们。如果您能够完全解析地这样做--例如,将a\frac{d^2x}{dt} + b\frac{dx}{dt} +c = 0形式中的某些内容更改为某些x = \alpha e^{\beta t}\text{sin}(\gamma t) --那么这将做出最精确的预测和模拟。否则,您可以使用几种近似方法将微分方程解析为预测当前状态下一个状态的东西。
https://datascience.stackexchange.com/questions/54721
复制相似问题