我正在研究一个具有t=1,...,40周期的有限时间决策问题。在每个时间步t中,当智能体处于状态S(t)∈s(t)时,(唯一的)智能体必须选择一个动作A(t)∈a(t)。在状态s(t)中选择的动作a(t)影响到下面的状态s(t+1)的转换。因此存在一个有限时间的马尔可夫决策问题。
在我的例子中,以下条件成立: A(t)=A和S(t)=S,而A的大小是6000000,S的大小是10^8。此外,转移函数是随机的。
由于我对蒙特卡洛树搜索( MCTS )的理论比较陌生,所以我问自己:MCTS对于我的问题是不是合适的方法(特别是考虑到A和S的大小以及随机转移函数?)
我已经读过很多关于MCTS的论文(例如,渐进式加宽和双重渐进式加宽,听起来很有希望),但也许有人可以告诉我他将MCTS应用于类似问题的经验,或者关于这个问题的适当方法(具有大的状态/动作空间和随机转移函数)。
发布于 2019-01-13 01:27:25
由于每个状态有600万个随机动作,我认为任何类型的模拟都不会在没有本质上永远运行的情况下现实地区分这些动作。
然而,100个MM状态并不是很多,您可以将所有这些状态的值存储在不到1‘t的内存中,而像值迭代或策略迭代这样的东西可以更快地解决这个问题。
https://stackoverflow.com/questions/54106742
复制相似问题