文章/答案/技术大牛

发布

社区首页 >问答首页 >计算机科学专业的学生-要求一些机器学习指导(声音克隆)

问计算机科学专业的学生-要求一些机器学习指导(声音克隆)
EN

Data Science用户

提问于 2020-04-06 16:06:14

回答 1查看 82关注 0票数 1

我已经为我的第二学期选择了我的大纲主题。

我想制作一个文字到语言的程序，用游戏人物的声音说话。

我曾在课堂上学习机器，但没有涉及音频或文本对语音的内容。

我知道我承担的项目有多大，但这正是我所需要的。

我根本不知道从哪里开始，因为外面有太多的信息了。在其他编程领域，我通常很擅长查找信息，但我对ML还不太了解(加上在线使用的关键字相互矛盾)。

我不知道该看什么工具。我该从哪里开始？

我有68.871个音频文件，总共大约76小时的音频。这些文件有不同的长度，从每秒开始，到49分钟结束。我自己并没有听到所有的声音，但我很确定所有的声音都是完全干净的。

(我知道我可能无法用68.871个文件来喂养任何型号，这些文件可能都有不同的长度，所以我认为我必须选择一个更小的样本，长度更相等)。

我想使用这些文件作为音频样本，这样一个模型就可以学习如何像这个字符说话。

任何向正确方向的推进都将是非常感谢的。

neural-network

deep-learning

dataset

training

machine-learning

回答 1

Data Science用户

发布于 2020-04-06 16:36:34

试着研究现有的文本到语音/语音合成。这个链接列出此域中的多个不同的模型/方法。当我试图查看这个领域中最先进的(SOTA)方法时，我发现了这个GitHub页面，在这个页面上可以找到很多关于音频和语音的论文。一个非常好的(SOTA)模型/体系结构似乎是塔科创2/WaveNet。希望这对你的项目有帮助。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/71852

复制

相似问题

问计算机科学专业的学生-要求一些机器学习指导(声音克隆)
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问计算机科学专业的学生-要求一些机器学习指导(声音克隆)EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问计算机科学专业的学生-要求一些机器学习指导(声音克隆)
EN