首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >图像分析与视频分析的算法区别

图像分析与视频分析的算法区别
EN

Data Science用户
提问于 2015-08-12 15:11:36
回答 1查看 3.7K关注 0票数 7

分析视频和图像是否有算法上的区别,比如说,如果我想要目标识别的话?还是我只需要像图像一样分析视频的每一帧?

例如,与视频相比,在单个图像中检测对象很容易,因为时间维度被添加到视频中。此外,在视频中,在每一帧中,物体很可能是移动的,这使得帧在运动.那么如何处理视频中的时间因素和“运动”部分呢?这些都是我在视频中想象的问题,如果你能在上面加上你自己的想法,那就太好了。谢谢

EN

回答 1

Data Science用户

发布于 2015-08-17 05:18:34

这是一个巨大的主题,所以我将给你一个高层次的概述和一些更多信息的指针。

是的,确实有处理视频的方法,这与处理单个静止图像的方法不同。

在最简单的层次上,它可以在每个帧上运行一个对象检测器,如HoG (或滑动窗口convnet),然后一些方法将相邻帧中的附近检测分配给相同的对象,并丢弃那些似乎没有时间连续性的检测。该领域的许多算法似乎将单个帧视为查看整个序列的构建块,其中来自相邻帧的数据可能被组合、聚合和/或用于消除当前帧的歧义。

另一种方法是首先估计帧间的目标运动(使用光流、相位相关、金字塔块匹配或另一种方法),然后将在计算运动后配置的多个帧的区域视为同一个对象。这是非常强大的,但限制了运动估计的准确性。

在新的研究中,在寻找物体所在的位置(检测)和物体如何移动(跟踪)之间存在一个来回的关系,每项任务都可以帮助另一个任务,例如(Kalal,2010年)或(Andriluka,2008年),以至于算法的两个部分不再是可分离的。Kalal的TLD算法是最近著名的一个版本。

也有一些算法直接工作在时空域(有时只是时间域)。一个纯粹的时间的例子将是探测车辆的轮辐的周期性变化。

一些经常研究的模型问题是:

  • 人,车辆或其他物体检测和跟踪整个视频序列。例如,使用加州理工学院行人数据集或其他标准基准测试。
  • 手势识别,无论是为游戏,用户界面,或有时手语识别。通常使用深度数据,例如Kinect视频。
  • 活动识别,例如行走和站立。由于这个问题的性质,在这里看到纯时空算法就更常见了,例如(Sadanand和Corso,2012年)。
  • 同时定位和映射(SLAM)。这个问题通常出现在机器人技术中,主要是从移动的单个摄像机(或立体或深度视频)的视频中建立环境的三维模型;通常假设环境是静态的。这通常是通过运行某种特征检测器,如SIFT或SURF,在连续帧中匹配特征,然后从特征所隐含的相对三维运动中构建点云。

以下是更多的参考资料:

沙阿,穆巴拉克,拉梅什贾恩,编辑。基于运动的识别。第9卷. Springer Science & Business Media,2013年。

特克马修。“手势识别”,计算机视觉:参考指南 (2014年):346-349。

Rosenfeld,Azriel,Doermann和Daniel DeMenthon编辑。视频挖掘。第6卷. Springer Science & Business Media,2013年。

Kalal、Zdenek、Krystian Mikolajczyk和Jiri Matas。"跟踪-学习-检测。“模式分析与机器智能,IEEE 34.7 (2012年):1409-1422。

M.Andriluka,S.Roth,B.Schiele。人-跟踪-通过检测和人-检测-通过跟踪。2008年计算机视觉和模式识别(CVPR)

Sreemanananth和Jason J. Corso。“行动银行:活动在视频中的高级代表.”2012年计算机视觉和模式识别(CVPR)

票数 8
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/6775

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档