我对tf.keras.layers.LSTM中的activation kwarg的理解与对任何其他层的理解是一样的(例如:Dense)。但下面的玩具示例将会失败。
from tensorflow.keras import Sequential
from tensorflow.keras.layers import LSTM
from numpy.random import uniform
m = Sequential([
LSTM(5, activation='softmax')
])
m.compile(
optimizer='adam',
loss='sparse_categorical_crossentropy'
)
x = uniform(size=(10, 5, 3))
y_pred = m.predict(x)
assert all(y_pred.sum(axis=1) == 1), 'Predictions are not a valid categorical distribution'这将失败。y_pred.sum(axis=1)将是0到1之间的随机浮点数的向量,它们的总和不是1。例如:
[0.5083836, 0.50286007, 0.504391, 0.5309103, 0.5131448, 0.53934443, 0.5301699, 0.49676484, 0.51985925, 0.5021868]LSTM似乎不能在这里应用有效的softmax。这是设计好的吗?我只是不理解LSTMCell的基本原理
当然,我可以通过附加tf.keras.layers.Softmax()来实现一个合适的softmax发行版,但我很好奇为什么这是必要的。
发布于 2020-07-13 06:41:53
正如@joelthchao在GitHub上所说的那样,它并不等于1,因为这里的激活直接应用于每个隐藏的单元
https://stackoverflow.com/questions/62856237
复制相似问题