有多个例子如何构建Tensorflow模型来从图像中识别猫和狗。现在假设我有与每张图片相关联的音频,并训练单独的网络来通过声音识别猫和狗。
我想将这两个网络的预测反馈到另一个层中,以组合结果并提高最终预测成功率。
我的模型应该是什么样子的?
发布于 2019-02-17 05:29:39
创建两个神经网络,在给定图像-音频对的情况下,将每个值输入到相应的网络中。
在卷积步骤或您想要使用的任何东西之后,像处理普通CNN一样继续进行,在将数据传递到FNN之前的最后一步中,当您展平数据时,对音频NN的输出执行相同的操作。
因此,举个例子,如果图像的输出为1(展平的),形状为2048,音频4096只需添加这两个形状,并使FNN的第一层具有这些形状的和= 6144。
https://stackoverflow.com/questions/54727766
复制相似问题