首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >强化学习:易于学习的状态表示

强化学习:易于学习的状态表示
EN

Data Science用户
提问于 2018-10-02 06:59:32
回答 1查看 378关注 0票数 3

我创建了一个简单的OpenAI健身房环境,它包括:

  • 一个范围为x和y的连续二维世界
  • 一只在世界上以恒定的速度缓慢地随机移动的兔子
  • 由特工控制的“狼”。狼以恒定的速度移动。
  • 这些行动是
  • 这个州是。轴承是弧度的。所有的值都是浮点数。
  • 抓到兔子的奖励是30 (捕获意味着代理人离兔子足够近)。-每个时间步骤0.1,但不捕捉兔子。
  • 最大时间步骤260

我在解决这个环境上有困难。即使经过长时间的训练,在这方面训练的特工的得分也只略好于随机代理人。我尝试过深度Q-学习(与经验回放,目标网络)加强(有和没有基线)和PPO。

从概念上讲,这个问题很简单。经纪人只需要学会转向兔子。然而,我意识到状态表示可能会使问题更加困难,因为六个变量中只有一个直接受代理控制,其中三个(兔子状态)是完全随机的。

状态表示通常会影响问题的难度吗?这是一个糟糕的州代表吗?如何设计状态有经验法则吗?重新制定州会有帮助吗?去吗?

环境源代码这里

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-10-03 21:05:19

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/39052

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档