将语音转换为文本的自动语音识别技术已经有了很多的研究。这些工具正在使用深度学习来做到这一点。
我发现它的工作方式是基于英语的。如果是单词" Phonics“的音频,它们将是Foniks,但最接近的英文单词是Phonics。
Google API可以为我们提供ASR,为我们提供最终结果。有没有什么工具或开放源码可以给我们语音呢?例如"ˈfəʊnɪks“而不是"Phonics”
谢谢。
发布于 2019-02-21 19:58:37
有几个用于ASR的开源工具。Kaldi、CMU Sphinx和HTK是最受欢迎的,也是最有文档记录的。如果您想将DNNs用于ASR,那么Kaldi可能是最好的。
但是,识别结果的形式取决于您的词汇量。如果你希望有一个单词ˈfəʊnɪks而不是Phonics,你必须在词汇表中定义它。例如:
!SIL sil
<UNK> spn
eight ey t
five f ay v
...
f_ey_ow_n_i_k_s f ey ow n i k s
....使用Unicode符号表示word是不可能的(据我所知),所以我用X-SAMPA符号代替了它们。
请关注this tutorial进行深入解释。
https://stackoverflow.com/questions/54800767
复制相似问题