关于最大策略优化算法的原始论文
https://arxiv.org/pdf/1707.06347.pdf
在方程(4)中,作者使用了一个用KL[]表示的运算。不幸的是,他们从来没有给出它的定义。
KL[]
我的问题是:
KL[]操作代表什么?
发布于 2019-12-07 07:09:54
也许是KL发散
用KL散度比较两种概率分布的差异。
https://stackoverflow.com/questions/59223646
相似问题