问wavenet的输入是什么？
EN

Stack Overflow用户

提问于 2019-12-09 14:25:34

回答 1查看 671关注 0票数 3

我正在尝试实现TTS。我刚刚读到了有关wavenet的内容，但是，我对局部条件作用感到困惑。原始论文here，解释了为局部条件作用添加时间序列，this article解释说，为局部条件作用添加mel频谱图特征是很好的。如我们所知，Wavenet是一种生成模型，并且在经过调节时采用原始音频输入来生成高音频输出，

我的问题是，上述mel频谱图特征是作为输入传递的原始音频或其他音频。

其次，为了实现TTS，音频输入将由其他TTS系统生成，这些系统的输出质量将通过wavenet提高，我这样想对吗？

请帮帮忙，这是非常需要的。

谢谢

text-to-speech

回答 1

Stack Overflow用户

发布于 2019-12-14 06:54:10

Mel功能是由实际的TTS模块从文本(例如tacotron2)创建的，然后运行声码器模块(Wavenet)来创建语音。

最好尝试像Nvidia/tacotron2 +nvidia/ like这样的现有实现。Waveglow比wavenet更好，速度更快。Wavenet非常慢。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59243551

复制

相似问题

问wavenet的输入是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问wavenet的输入是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问wavenet的输入是什么？
EN