这类任务有时被称为“风格转移”，即保持内容不变(口语)，但通过风格改变表达(prosody，它们是如何说出来的)。要搜索的关键字有语音风格转移、语音风格转移、音频风格转移、语音翻译、语音克隆、韵律转移。这是凯尔·卡斯特纳的explanation of some of the approaches，他是这一领域的实践者。

良好的言语风格迁移是一项相当艰巨的任务，在过去的几年里已经有很多关于这方面的研究论文。许多使用神经网络的语音风格转换系统是文本到语音(TTS) /语音合成模型的改编，例如Tacotron、Tacotron 2或Wavenet。

Github上有许多神经语音风格转换论文的开源实现，但其中许多都需要进行大量的设置(下载数据集、模型、格式化输入等)。最受欢迎的替代方案之一是Real Time Voice Cloning，它应该能够克隆5秒的音频。另一个例子是https://sforaidl.github.io/Neural-Voice-Cloning-With-Few-Samples/

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65034832

复制

相似问题

问使用librosa将语音A转换为语音B
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用librosa将语音A转换为语音BEN