我正在尝试实现TTS。我刚刚读到了有关wavenet的内容,但是,我对局部条件作用感到困惑。原始论文here,解释了为局部条件作用添加时间序列,this article解释说,为局部条件作用添加mel频谱图特征是很好的。如我们所知,Wavenet是一种生成模型,并且在经过调节时采用原始音频输入来生成高音频输出,
我的问题是,上述mel频谱图特征是作为输入传递的原始音频或其他音频。
其次,为了实现TTS,音频输入将由其他TTS系统生成,这些系统的输出质量将通过wavenet提高,我这样想对吗?
请帮帮忙,这是非常需要的。
谢谢
发布于 2019-12-14 06:54:10
Mel功能是由实际的TTS模块从文本(例如tacotron2)创建的,然后运行声码器模块(Wavenet)来创建语音。
最好尝试像Nvidia/tacotron2 +nvidia/ like这样的现有实现。Waveglow比wavenet更好,速度更快。Wavenet非常慢。
https://stackoverflow.com/questions/59243551
复制相似问题