大家好,我正试图用CNN + Dense + CTC来解决TIMIT任务
基本上这就是我的模型:
1)一些ConvLayers2D。
2)形状转换
3)稠密
4)反恐委员会
因此,转变是:
在CNN之后,我得到了一个形状输出(Batch_size,number_of_feature_maps,41,sequence_length) 41是Mel滤波器组/能量。
我将它转到(Batch_size,sequence_length,41*number_of_feature_maps)以获得一个3的模糊值,其中包括:

注意到sequence_length是None,因为每个mini_batch都不同,所以我们有(None,None,X)之类的东西
然后我试了两件事,这是密码:

和

我基本上不了解这两种方法的行为。第一种使用TimeDistributed时,损失和音素误差率降低。问题是第二种方法也起作用了!稠密层对(无,无,X)张量起什么作用?
谢谢!
发布于 2018-03-11 20:00:05
退房:Keras LSTM dense layer multidimensional input
在keras <2.0的情况下:您需要使用TimeDistributed包装器,以便将它以元素的方式应用于序列。在Keras2.0的情况下:在默认情况下,按元素的方向应用密集层。
https://stackoverflow.com/questions/49224124
复制相似问题