为智能体实现实时操作条件反射(有监督的奖励/基于惩罚的学习)的最佳方法是什么?我应该使用神经网络(以及哪种类型)?还是别的什么?
我希望特工能够接受训练,像狗一样听从命令。这些命令将以触摸屏上的手势形式出现。我希望智能体能够被训练为遵循一条路径(在连续的2D空间中),根据命令进行行为更改(由FSM状态转换建模),并执行操作序列。
智能体将处于模拟的物理环境中。
发布于 2012-11-25 05:52:25
对于你的问题,Reinforcement Learning是一个很好的机器学习算法。
基本强化学习模型包括:
S S(你有一个以某种方式离散化的2d空间,这是狗的当前位置,如果你想做连续的2D空间,你可能需要一个神经网络作为值函数映射器。)A (你提到狗执行动作序列,例如,移动,旋转)状态之间转换的r (当到达目标位置时,您可能希望给狗一个大的奖励,而在描述智能体观察的中间milestones)P和狗可见的4个相邻单元格的示例。)

要找到最佳策略,可以从无模型技术-- q-learning开始。
https://stackoverflow.com/questions/13545543
复制相似问题