我想试用Python中的强化学习。但我想为我自己的国家和奖励创造一个定制的环境。
可能我想使用时间序列数据在这(但不像股票)。我想让我的系统按照时间来学习行为,给出一个环境。
所以我首先要做一个定制的环境,有人能帮我吗?
发布于 2019-02-21 10:43:02
OpenAI健身房环境注册过程可以在健身房文档这里中找到。
您还可以查看这示例、自定义环境和这堆栈溢出问题,以获得更多信息。
如果你想让代理人了解w.r.t。时间,然后包括时间步骤作为一个变量在您的状态。然后,您的代理将能够区分两个不同的状态不同的时间步骤。
https://stackoverflow.com/questions/54800340
相似问题