首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >运算条件算法?

运算条件算法?
EN

Stack Overflow用户
提问于 2012-11-25 04:58:54
回答 1查看 605关注 0票数 1

为智能体实现实时操作条件反射(有监督的奖励/基于惩罚的学习)的最佳方法是什么?我应该使用神经网络(以及哪种类型)?还是别的什么?

我希望特工能够接受训练,像狗一样听从命令。这些命令将以触摸屏上的手势形式出现。我希望智能体能够被训练为遵循一条路径(在连续的2D空间中),根据命令进行行为更改(由FSM状态转换建模),并执行操作序列。

智能体将处于模拟的物理环境中。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-11-25 05:52:25

对于你的问题,Reinforcement Learning是一个很好的机器学习算法。

基本强化学习模型包括:

  • a set of S S(你有一个以某种方式离散化的2d空间,这是狗的当前位置,如果你想做连续的2D空间,你可能需要一个神经网络作为值函数映射器。)
  • a set of A (你提到狗执行动作序列,例如,移动,旋转)状态之间转换的
  • 规则(您的狗的位置转换可以由有限状态机建模)
  • 规则确定转换的标量立即奖励r (当到达目标位置时,您可能希望给狗一个大的奖励,而在描述智能体观察的中间milestones)
  • rules也欢迎小奖励。(狗的视图可能有限,例如,只有4或8个相邻的单元格可见,下图是显示狗的当前位置P和狗可见的4个相邻单元格的示例。)

要找到最佳策略,可以从无模型技术-- q-learning开始。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13545543

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档