我是librosa和voice/sound分析的新手。我已经在SO和google上搜索了这个直接的问题,但没有得到一个可以理解的答案。
假设有两个声音A和B。我想要将voice A转换为voice B。
考虑到这两种声音,有没有可能在A上做一些听起来像B的事情?
发布于 2020-11-28 16:58:01
这类任务有时被称为“风格转移”,即保持内容不变(口语),但通过风格改变表达(prosody,它们是如何说出来的)。要搜索的关键字有语音风格转移、语音风格转移、音频风格转移、语音翻译、语音克隆、韵律转移。这是凯尔·卡斯特纳的explanation of some of the approaches,他是这一领域的实践者。
良好的言语风格迁移是一项相当艰巨的任务,在过去的几年里已经有很多关于这方面的研究论文。许多使用神经网络的语音风格转换系统是文本到语音(TTS) /语音合成模型的改编,例如Tacotron、Tacotron 2或Wavenet。
Github上有许多神经语音风格转换论文的开源实现,但其中许多都需要进行大量的设置(下载数据集、模型、格式化输入等)。最受欢迎的替代方案之一是Real Time Voice Cloning,它应该能够克隆5秒的音频。另一个例子是https://sforaidl.github.io/Neural-Voice-Cloning-With-Few-Samples/
https://stackoverflow.com/questions/65034832
复制相似问题