我正在处理HOG描述符,除了检测窗口的融合之外,我几乎已经完成了大部分部分。
到目前为止,我所做的是:我构建了图像的尺度空间金字塔,对于每个尺度上的每个图像,我移动检测窗口(64x128)并检测人类。在每个图像中,一个人被不止一个窗口检测到。
因此,问题是如何将所有这些窗口(假设一个人)融合到一个窗口中。Dalal建议人们应该使用健壮的mod检测算法,例如mean-shift。但是,我有多个刻度。为了做到这一点,我应该首先估计在尺度空间的较低级别中找到的检测窗口的真实位置吗?
任何帮助都是非常感谢的。提前谢谢。
发布于 2011-05-13 20:19:14
我的解释是,mean shift实际上会给你你所建议的东西。
本质上,您首先基于检测器输出的强度估计最粗略尺度上的人的位置的概率分布。这为您提供了一个可靠的模式估计。
然后,您可以使用围绕最大值或模式的更精细的比例进行迭代优化。
例如,这个想法与金字塔LK跟踪中使用的非常相似。您还可以进行集成处理和/或粒子过滤器。
https://stackoverflow.com/questions/5895926
复制相似问题