首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Q-没有奖励网格的学习

Q-没有奖励网格的学习
EN

Stack Overflow用户
提问于 2018-06-04 05:05:56
回答 1查看 183关注 0票数 0

我正在做一个项目,我试图在C#(特别是团结)中实现Q-学习。我有一辆车,它需要沿着网格路径行驶,如:示例 -绿色是目标(+奖励),灰色和非网格是障碍物(-reward),蓝色是汽车。我一直在看一些关于如何实现这个(大部分是伪代码)的例子/指南,但是他们似乎知道一个预定义的网格(一个奖励网格),我不知道如何在我的场景中实现它。

我的车有三种状态&动作:

  • 州:左车道行驶,中间车道行驶,右车道行驶。
  • 动作:上下移动一个,上下移动一个,向上移动一个

我试图遵循这样的原则:http://mnemstudio.org/path-finding-q-learning-tutorial.htm并将其应用到我的系统中--但我不知道如何进行适应。这难道不需要我的q矩阵更大,因为每个细胞都是一个独立的状态吗?让我说我的轨道是16个细胞长,有3个车道,这是否意味着我应该有一个48个州*3个行动网格?

编辑:为了简化我的帖子,我正在挣扎的是如何连接我的环境和我的q-矩阵,所以我可以根据我的代理在我的系统中的行为来修改我的q-矩阵值。

EN

回答 1

Stack Overflow用户

发布于 2018-06-04 09:43:05

通常,在基于网格的环境中,如您的汽车示例,每个单元格对应于不同的状态。因此,您的环境可能有您描述的三个操作(向上和左移动一个,向上和右边移动一个,向上移动一个),但是肯定没有三个状态。

正如您在问题的最后部分所指出的,如果您的轨道是16个单元格长和3个车道,则您的环境应该使用16 * 3 = 48状态建模。因此,你的Q矩阵大小应该是48x3.

有了这个设置,您可以很容易地映射您的代理状态(在轨道中的汽车位置)与Q矩阵。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50673689

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档