正如人们能够使用各种语音到文本的“听写”工具将口语转换成相应的文本一样,我想知道是否有类似的工具将口语转换成相应的SSML。也就是说,除了与任何语调、韵律、停顿/中断、拐点等相关的SSML标记外,它还将提供文本.出现在演讲者的声音里。
发布于 2018-07-13 04:11:02
我致力于构建语音应用程序。在我最近做的一个项目中,我们需要文本听起来完全正确,包括所有相关的语调、韵律、停顿/中断、拐弯等等。在广泛的研究中,我们发现,让文本听起来像被一个真实的人说出来的唯一方法,要么使用SSML (仍然不完美),要么使用已录制好的mp3。
如果你想让真实的人感觉到一个项目,最好的执行方法就是利用一个人。我建议您录制mp3 (由专业人员录制的/get),而不是尝试从声音中获取SSML。
我们使用SSML的确切原因是计算机无法理解人类语音的相关语调、韵律、停顿/中断、拐点等。
如果您的目标是获得SSML,那么最好的方法是将文本转换为SSML。为此,我建议在这里偷看一下:
据我们所知,这是2018年7月中旬。如果任何人有更多的信息,请感觉添加到这个答案。
希望这有帮助:3
https://stackoverflow.com/questions/46108940
复制相似问题