首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Watson speech-to-text:窄带比宽带效果更好?

Watson speech-to-text:窄带比宽带效果更好?
EN

Stack Overflow用户
提问于 2017-06-21 06:59:13
回答 1查看 610关注 0票数 1

我正在使用IBM Watson转录我们已有的视频库。我目前正在对它的有效性和准确性进行初步研究。

有问题的视频有很好的音质,根据Watson的文档,我应该使用宽带模型来转录它们。

然而,我同时使用窄带和宽带进行了测试,我发现窄带总是稍微好一点,或者在某些情况下好很多(高达10%)。

还有没有人做过类似的测试?这与文档相反,所以我有点不愿意继续使用Narrowband做任何事情,但我可能必须基于结果。

我使用ffmpeg将视频转换为音频文件发送到Watson,音频文件显示48 the的采样率,这再次意味着我应该使用宽带并获得更好的效果。

希望外面的人也做过类似的研究,并能提供帮助。

提前谢谢。

EN

回答 1

Stack Overflow用户

发布于 2017-06-23 03:18:10

你知道音频的原始采样率是多少吗?也许它最初是以8k的速度录制的,然后进行了上采样。如果是这样的话,原始的较低频率将会丢失,而正确的模型将是窄带模型。你可以在语谱图中看到这一点,例如使用audacity (https://github.com/audacity/audacity)。

另一种解释是,窄带系统使用的语言模型可以更好地预测视频中的n-gram。我建议与Watson支持团队共享您的音频文件以获得更深入的了解(您可以转到Bluemix门户网站,然后单击“支持”)。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44664293

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档