我正在开始一个项目,任务是识别人脸的微表情。然而,我制定的第一个任务是在10秒的视频中获得与预测表达式关系最大的关键帧。例如,扬起眉毛可能代表惊讶,但提升活动可能只在10帧内发生,而10帧代表惊讶的微表情。任何指南或研究论文,你可以指导我将是非常有帮助的。我计划使用某种形式的3D-CNN,但我也欢迎更有效的方法来做到这一点,因为3D CNN的计算成本相当高。
发布于 2020-11-14 00:44:08
这将被归入“行动认可”。我认为它应该能够处理您的需求。您不需要查找关键帧。
Torch-vision有一些预先训练好的模型,你可以直接在pytorch中使用,或者你可以用非常少的数据对它们进行微调。在此Link中查找“视频分类”模型。
我建议使用R(2+1)D (paper Link)
它能够识别运动动作、手势动作和手语。
https://stackoverflow.com/questions/64821728
复制相似问题