我正在尝试在tensorflow中创建一个不属于回归类别分类的神经网络。它可能更接近强化学习。
我已经制作了一个带有几个ReLU隐藏层的网络,它以3个元素的softmax输出层结束。每个样本的目标向量都是做出某种选择的奖励(惩罚可以是负的,中性可以是0)(其中有3个)。这个想法是最大化所有样本的总和奖励。
给定一个样本输入,该样本输入映射到具有目标模型e,f的模型输出M=a,b,c;该特定样本的损失将是M*Y',或者简称为-tf.matmul( Y=d,Y,transpose_b=True)。然而,当处理产生矩阵而不是向量的批处理时,我不知所措(嘿)如何以TensorFlow优化器可以使用的方式将其表示为成本函数。简单地使用上面的示例代码将产生一个无意义的批量大小^2大小的矩阵。
我该怎么做呢?
https://stackoverflow.com/questions/38221468
复制相似问题