人们如何处理不同州的法律诉讼不同的问题?在我的案例中,总共有大约10个操作,法律操作不重叠,这意味着在某些州,相同的3个州始终是合法的,而这些州在其他类型的州中永远不是合法的。
我也有兴趣看看,如果法律诉讼重叠,解决方案是否会有所不同。
对于Q学习(我的网络为我提供了状态/动作对的值),我想也许我可以在构造目标值时小心选择哪个Q值。(即我在法律诉讼中选择了最大值,而不是选择最大值...)
对于策略梯度类型的方法,我不太确定合适的设置是什么。在计算损失时,是否可以只遮罩输出层?
发布于 2020-08-12 11:06:02
最近两年有两个密切相关的作品:
1布迪勒,克雷格等人。“使用随机动作集进行规划和学习。”arXiv预印本:1805.02363(2018年)。
2 Chandak,Yash等人。“当所有操作并非总是可用时,强化学习。”AAAI。2020年。
发布于 2018-05-11 04:08:49
目前,这个问题似乎还没有一个普遍而直接的答案。也许是因为这不是一个问题?
您为legal actions选择最佳Q值的建议实际上是处理此问题的建议方法之一。对于策略梯度方法,您可以通过屏蔽非法操作并适当增加其他操作的概率来实现类似的结果。
另一种方法是对选择非法行为给予负面奖励-或者忽略选择,不对环境进行任何改变,返回与以前相同的奖励。对于我的一个个人经验(Q学习方法),我选择了后者,代理学习了他必须学习的东西,但他经常将非法操作用作“无操作”操作。这对我来说真的不是问题,但负面奖励可能会消除这种行为。
正如您所看到的,当操作“重叠”时,这些解决方案不会改变或不同。
回答你在评论中提出的问题--我不相信你可以在不学习合法/非法行为规则的情况下训练代理。例如,这需要为每一组法律行动建立独立的网络,这听起来不是最好的想法(特别是如果有很多可能的法律行动组)。
但是,学习这些规则很难吗?
你必须自己回答一些问题-是条件,这使得行为是非法的,难以表达/表达?它当然是与环境有关的,但我想说的是,在大多数情况下,表达并不是那么难,代理只是在培训中学习它们。如果很难,您的环境是否提供了关于状态的足够信息?
发布于 2018-04-25 17:29:28
不确定我是否正确理解了您的问题,但如果您的意思是在某些状态下某些操作是不可能的,那么您只需将其反映在奖励函数中(大的负值)。如果不清楚非法行为会导致什么状态,你甚至可以决定结束这一集。然后,代理应该知道这些操作在特定状态下是不可取的。
在探索模式下,智能体仍可能选择采取非法操作。然而,在开发模式下,它应该避免它们。
https://stackoverflow.com/questions/50012295
复制相似问题