我正在使用IBM Watson转录我们已有的视频库。我目前正在对它的有效性和准确性进行初步研究。
有问题的视频有很好的音质,根据Watson的文档,我应该使用宽带模型来转录它们。
然而,我同时使用窄带和宽带进行了测试,我发现窄带总是稍微好一点,或者在某些情况下好很多(高达10%)。
还有没有人做过类似的测试?这与文档相反,所以我有点不愿意继续使用Narrowband做任何事情,但我可能必须基于结果。
我使用ffmpeg将视频转换为音频文件发送到Watson,音频文件显示48 the的采样率,这再次意味着我应该使用宽带并获得更好的效果。
希望外面的人也做过类似的研究,并能提供帮助。
提前谢谢。
发布于 2017-06-23 03:18:10
你知道音频的原始采样率是多少吗?也许它最初是以8k的速度录制的,然后进行了上采样。如果是这样的话,原始的较低频率将会丢失,而正确的模型将是窄带模型。你可以在语谱图中看到这一点,例如使用audacity (https://github.com/audacity/audacity)。
另一种解释是,窄带系统使用的语言模型可以更好地预测视频中的n-gram。我建议与Watson支持团队共享您的音频文件以获得更深入的了解(您可以转到Bluemix门户网站,然后单击“支持”)。
https://stackoverflow.com/questions/44664293
复制相似问题