我正在为一个简单的任务实现Q学习,这涉及到机器人在连续坐标系中移动到目标位置。每一集都有一个固定的长度,并且奖励是稀疏的:对于剧集的最终过渡,只有一个奖励,奖励是机器人和目标之间最终距离的函数。
我的问题是问题状态,其中两个事件重叠。如果我将我的过渡存储在重放缓冲区中,并对A集的过渡进行采样,则该动作的目标Q值将等于discount_factor x max_q(
我正在尝试基于我在网上找到的an implementation,在gym-minigrid环境中创建一个Q-learner。该实现工作得很好,但它使用了正常的Open AI Gym环境,该环境可以访问一些不存在的变量,或者不像健身房-迷你网格库那样以相同的方式呈现。例如,在"Taxi-v3“环境中,我可以使用env.s获取当前状态,并使用env.observation_space.n获取状态空间,但这两种方法在健身房-迷你网格中都不可用。 这对我来说尤其具有挑战性,因为我不能简单地执行new_state, reward, done, info = env.step(action)并使