我正在尝试同时分析音频和视觉特征。我的音频语音特征是使用隐马尔可夫模型工具包以100fps采样的mel频率倒谱系数。我的视觉特征来自我构建的嘴唇跟踪程序,采样速度为29.97fps。
我知道我需要插入我的视觉特征,以便采样率也是100fps,但我找不到一个很好的解释或在线教程如何做到这一点。我发现的大多数帮助来自语音识别社区,他们代表读者假设有插值知识,即大多数人用一个简单的“插值视觉特征,以便采样率等于100fps”来覆盖这一步骤。
有人能给我指出正确的方向吗?
万分感谢
发布于 2011-09-22 23:25:27
由于人脸运动在视频捕获之前不会进行低通滤波,因此大多数经典的DSP插值方法可能不适用。你也可以尝试对特征向量进行线性插值,从一组时间点到另一组不同的时间点。只需选择最接近的两个视频帧,并进行插值,以获得更多的数据点之间。如果面部跟踪算法测量面部运动中的加速度,也可以尝试样条线插值。
https://stackoverflow.com/questions/7511811
复制相似问题