在张量流Github存储库中,在文件attentionwrapper.py中定义了hardmax操作符。在文档中,已经提到了tf.contrib.seq2seq.hardmax
我想知道为hardmax操作符提供这种功能背后的理论基础是什么。从表面上看,谷歌搜索在过去几周并没有让我对这个概念有具体的理解。
发布于 2018-11-19 03:05:38
当你别无选择,只能非概率地做出决定时,就会使用Hardmax。例如,当您使用一个模型来生成一个神经结构,就像在神经模块网络中一样,您必须做出一个离散的选择。为了使这个可训练(因为这将是不可微的,因为你的状态),你可以使用强化(在RL中的一个算法)通过策略梯度训练和估计这个损失贡献通过蒙特卡罗抽样。神经模块网络是一种基于seq2seq的神经网络结构。我相信有许多例子,但这是一个立竿见影的想法。
https://stackoverflow.com/questions/53367724
复制相似问题