问基于语音ASR的机器学习
EN

Stack Overflow用户

提问于 2019-02-21 14:40:59

回答 1查看 87关注 0票数 0

将语音转换为文本的自动语音识别技术已经有了很多的研究。这些工具正在使用深度学习来做到这一点。

我发现它的工作方式是基于英语的。如果是单词" Phonics“的音频，它们将是Foniks，但最接近的英文单词是Phonics。

Google API可以为我们提供ASR，为我们提供最终结果。有没有什么工具或开放源码可以给我们语音呢？例如"ˈfəʊnɪks“而不是"Phonics”

谢谢。

回答已采纳

发布于 2019-02-21 19:58:37

有几个用于ASR的开源工具。Kaldi、CMU Sphinx和HTK是最受欢迎的，也是最有文档记录的。如果您想将DNNs用于ASR，那么Kaldi可能是最好的。

但是，识别结果的形式取决于您的词汇量。如果你希望有一个单词ˈfəʊnɪks而不是Phonics，你必须在词汇表中定义它。例如：

!SIL sil
<UNK> spn
eight ey t
five f ay v
...
f_ey_ow_n_i_k_s f ey ow n i k s
....

使用Unicode符号表示word是不可能的(据我所知)，所以我用X-SAMPA符号代替了它们。

请关注this tutorial进行深入解释。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54800767

复制

相似问题

问基于语音ASR的机器学习EN