我需要至少3/4个不同的tts声音,但不幸的是我只有一个声音。
这是因为我只有一个意大利神经声音(Diego),其他都是标准声音,质量要差得多。
最终的目标是创建一个至少3/4人的画外音,我不能使用一些确切的声音。
出于这个原因,我喜欢创造一些由我唯一的一种神经声音开始的变体,它给人的印象是其他人的声音,所有这些看起来都不自然。
实际上我有Adobe Audition,Audacity,Ircam Trax,ffmpeg,除此之外,我可以使用带有API的SSML (在这个例子中是microsoft Azure)。
我不知道它的效果是什么,在什么程度上使用它而不损害声音。
简而言之,我会问,使用我现有的软件或其他软件做什么是最好的方法,如果我能得到更好的结果。
谢谢!
发布于 2021-03-01 12:09:41
你用的是什么语言?如果你使用英语,我相信你可以找到超过3-4个神经声音。有en-US,en-GB,en-CA,en-AU神经声音,听起来都很自然。
您还可以使用SSML调整音高,使声音听起来不同。
如果您想创建不同的声音,请尝试使用您的语音数据(或您的声音天赋)的customvoice.ai。
或者,你正在寻找的特殊“差异”是什么?
https://stackoverflow.com/questions/66406761
复制相似问题