首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >wavenet的输入是什么?

wavenet的输入是什么?
EN

Stack Overflow用户
提问于 2019-12-09 14:25:34
回答 1查看 671关注 0票数 3

我正在尝试实现TTS。我刚刚读到了有关wavenet的内容,但是,我对局部条件作用感到困惑。原始论文here,解释了为局部条件作用添加时间序列,this article解释说,为局部条件作用添加mel频谱图特征是很好的。如我们所知,Wavenet是一种生成模型,并且在经过调节时采用原始音频输入来生成高音频输出,

我的问题是,上述mel频谱图特征是作为输入传递的原始音频或其他音频。

其次,为了实现TTS,音频输入将由其他TTS系统生成,这些系统的输出质量将通过wavenet提高,我这样想对吗?

请帮帮忙,这是非常需要的。

谢谢

EN

回答 1

Stack Overflow用户

发布于 2019-12-14 06:54:10

Mel功能是由实际的TTS模块从文本(例如tacotron2)创建的,然后运行声码器模块(Wavenet)来创建语音。

最好尝试像Nvidia/tacotron2 +nvidia/ like这样的现有实现。Waveglow比wavenet更好,速度更快。Wavenet非常慢。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59243551

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档