RL是基于MDP的。但MDP还有其他有用的变体,如半MDP(可变时间)、POMDP (部分可观测状态)等。
一些工业问题似乎更适合SMDP和/或POMDP。例如,优化维护,维护事件之间的时间是可变的。而且,某些设备的状态可能无法直接测量--因此我们有“部分可观测”状态。
如果我决定使用一种无模型算法,比如DDPG或PPO,我认为它的理论是基于MDP的--我是否包含在状态或模型定义上?它会产生一个效率较低的代理吗?
当然,我可能没有选择,因为创造一个准确的环境是不可能的。但只是想弄明白。
感谢你的想法。
发布于 2022-09-12 13:23:14
经典代理的性能在很大程度上取决于观察结果是否接近环境的真实状态。状态有时被定义为我们需要知道的一切,以便在时间上对动力学进行建模。因此,用所提供的信息推断环境的动态越近,性能就越好。
在RL中一个常见的案例是Atari。在那里,一个观察(像素图像)将不足以取得任何进展。但是,如果你将连续的图像叠加在一起,那么这就可以为为DQN这样的MDP开发的代理提供足够的信息,以学习像击出、太空入侵者或乒乓这样的游戏。现在,对于需要内存的游戏来说,这是不够的,比如Montezuma的“复仇”,它被认为是一个POMDP。
要解决部分可观测性问题,一般的想法是使用递归神经网络(通常是LSTM或GRU),而不是在参与者和评论家中使用前馈网络,以便在需要时为agent提供额外的上下文以做出正确的决策。使用LSTM,加上附加的实现技巧,可以在所有Atari游戏中提供强大的结果(参见R2D2)。此外,在DOTA2中,具有(巨大) LSTM的PPO也能够达到超人的性能,参见OpenAI五。
举个机器人技术应用于现实世界的例子。假设我们知道所有关节的位置和速度。然而,这些信息在实践中仍然是片面的,因为我们忽略了其他因素(如摩擦力、风速、地形)。然而,它的性能仍然能够执行体面。如果我们只有这些位置,那么我们就可以用LSTM推断出速度,并使它工作。如果我们能接触到一家联营公司的信息,那很可能是行不通的。
https://datascience.stackexchange.com/questions/114289
复制相似问题