我想问一个问题,关于在视频上的动作检测与建议帧。我使用了时态3D ConvNet在视频上的动作识别。成功地训练了它,并能识别视频上的动作。
当我进行推理时,我只从视频中收集了20帧,并将其反馈给模型,并给出了结果。关键是不同视频上的事件大小不同。其中一些覆盖了90%的帧,但也有一些可能覆盖10%。让我们以两个物体碰撞为例,它可以在不同的尺度上发生,我想要检测到这个动作。
我已经看过文件和博客,人们的建议是,找不到本地化问题的解决方案,所以动作识别模型得到了正确的框架。
因此,对于总结来说,我们的想法是得到一个可能在任何尺度上发生碰撞的物体,然后将其中的20帧提供给3D convnet来做出判断。
你有什么建议吗?也许有人能解释我的做法?
发布于 2019-03-29 00:24:00
这是我的模型CNN+LSTM,所以目前正在努力改进它。
video = Input(shape=(None, 224,224,3))
cnn_base = VGG16(input_shape=(224,224,3),
weights="imagenet",
include_top=False)
cnn_out = GlobalAveragePooling2D()(cnn_base.output)
cnn = Model(inputs=cnn_base.input, outputs=cnn_out)
cnn.trainable = False
encoded_frames = TimeDistributed(cnn)(video)
encoded_sequence = LSTM(32, dropout=0.5, W_regularizer=l2(0.01), recurrent_dropout=0.5)(encoded_frames)
hidden_layer = Dense(units=64, activation="relu")(encoded_sequence)
dropout = Dropout(0.2)(hidden_layer)
outputs = Dense(5, activation="softmax")(dropout)
model = Model([video], outputs)https://stackoverflow.com/questions/55312545
复制相似问题