据我所知,沃森对文本的演讲在某种程度上是为口语对话和1到2位发言者校准的。我也知道它能比WAV和OGG更好地处理FLAC。
我想知道如何改进算法识别,从声学上讲。
我是说,增加音量有帮助吗?或者用压缩过滤器?降噪?
什么样的预处理可以帮助这项服务?
发布于 2017-07-31 13:51:54
提高基本模型(非常精确但也非常通用)的准确性的最佳方法是使用沃森STT定制服务:https://www.ibm.com/watson/developercloud/doc/speech-to-text/custom.html。这将使您能够创建一个定制模型,定制您的领域的具体情况。如果你的领域不是很好地匹配那些捕捉到的基础模型,那么你可以期待一个很大的提高识别精度。
“我也知道它能比WAV和OGG更好地处理FLAC”,但事实并非如此。沃森STT服务提供了对flac、wav、ogg和其他格式的完全支持(请参阅本文档的本节:https://www.ibm.com/watson/developercloud/doc/speech-to-text/input.html#formats)。
https://stackoverflow.com/questions/45383521
复制相似问题