首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >多目标动作识别与定位

多目标动作识别与定位
EN

Stack Overflow用户
提问于 2019-03-23 09:57:19
回答 1查看 107关注 0票数 0

我想问一个问题,关于在视频上的动作检测与建议帧。我使用了时态3D ConvNet在视频上的动作识别。成功地训练了它,并能识别视频上的动作。

当我进行推理时,我只从视频中收集了20帧,并将其反馈给模型,并给出了结果。关键是不同视频上的事件大小不同。其中一些覆盖了90%的帧,但也有一些可能覆盖10%。让我们以两个物体碰撞为例,它可以在不同的尺度上发生,我想要检测到这个动作。

  • 如何为模型提供准确的位置,以进行行动识别,如果它可以发生在不同的规模,不同的对象?想到的是使用Yolo来收集感兴趣的区域,并在每次3D convnet时提供所收集的帧。但是如果有很多物体,速度就会很慢。怎么处理?
  • 是否有任何行动识别的端到端解决方案与行动识别网络的目标位置建议?

我已经看过文件和博客,人们的建议是,找不到本地化问题的解决方案,所以动作识别模型得到了正确的框架。

因此,对于总结来说,我们的想法是得到一个可能在任何尺度上发生碰撞的物体,然后将其中的20帧提供给3D convnet来做出判断。

你有什么建议吗?也许有人能解释我的做法?

EN

回答 1

Stack Overflow用户

发布于 2019-03-29 00:24:00

这是我的模型CNN+LSTM,所以目前正在努力改进它。

代码语言:javascript
复制
    video = Input(shape=(None, 224,224,3))
cnn_base = VGG16(input_shape=(224,224,3),
                weights="imagenet",
                include_top=False)
cnn_out = GlobalAveragePooling2D()(cnn_base.output)
cnn = Model(inputs=cnn_base.input, outputs=cnn_out)
cnn.trainable = False
encoded_frames = TimeDistributed(cnn)(video)
encoded_sequence = LSTM(32, dropout=0.5, W_regularizer=l2(0.01), recurrent_dropout=0.5)(encoded_frames)
hidden_layer = Dense(units=64, activation="relu")(encoded_sequence)
dropout = Dropout(0.2)(hidden_layer)
outputs = Dense(5, activation="softmax")(dropout)
model = Model([video], outputs)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55312545

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档