我正在训练一个神经网络(前馈,Tanh隐藏层),它接收状态作为输入,并将动作作为输出。我遵循策略梯度强化学习的强化算法.
然而,我需要我的控制行动是有限度的(假设从0-5)。目前,我这样做的方法是使用乙状结肠输出函数并将输出乘以5。虽然我的算法性能中等,但我发现对输出使用这种“边界方案”存在以下缺点:
我知道回归(因此我猜是强化学习)线性输出是最好的,虽然乙状结肠有一个线性部分,我担心网络无法正确地捕捉到这种线性输出行为,或者它捕捉它的速度太慢(因为它的最佳性能是用于分类,因此使输出极化)。
我想知道还有什么其他的选择,也许还有一些启发。
发布于 2018-08-05 10:50:34
你考虑过使用nn.ReLU6()吗?这是经过校正的线性单元的有界版本,其输出定义为
out = min( max(x, 0), 6)https://stackoverflow.com/questions/51693567
复制相似问题