正如您在图像中看到的,MCT零神经网络使用损失函数,该函数使用AlphaGo概率和值作为地面实况标签。我正在尝试理解神经网络的输出是否被视为对数(例如实数)或原始概率(0,1)。在损失函数中,MCTS概率(我确信它位于0,1)是向量乘以NN概率的对数。这是损失中的一个负项,但是关于两个向量的相似性,这个项的大小表明了什么?为什么更大的值表示更多的相似性?
发布于 2017-11-06 22:11:49
正如here解释的那样,它被证明是交叉熵损失的蒙特卡洛估计。
https://stackoverflow.com/questions/47138694
复制相似问题