首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >计算机科学专业的学生-要求一些机器学习指导(声音克隆)

计算机科学专业的学生-要求一些机器学习指导(声音克隆)
EN

Data Science用户
提问于 2020-04-06 16:06:14
回答 1查看 82关注 0票数 1

我已经为我的第二学期选择了我的大纲主题。

我想制作一个文字到语言的程序,用游戏人物的声音说话。

我曾在课堂上学习机器,但没有涉及音频或文本对语音的内容。

我知道我承担的项目有多大,但这正是我所需要的。

我根本不知道从哪里开始,因为外面有太多的信息了。在其他编程领域,我通常很擅长查找信息,但我对ML还不太了解(加上在线使用的关键字相互矛盾)。

我不知道该看什么工具。我该从哪里开始?

我有68.871个音频文件,总共大约76小时的音频。这些文件有不同的长度,从每秒开始,到49分钟结束。我自己并没有听到所有的声音,但我很确定所有的声音都是完全干净的。

(我知道我可能无法用68.871个文件来喂养任何型号,这些文件可能都有不同的长度,所以我认为我必须选择一个更小的样本,长度更相等)。

我想使用这些文件作为音频样本,这样一个模型就可以学习如何像这个字符说话。

任何向正确方向的推进都将是非常感谢的。

EN

回答 1

Data Science用户

发布于 2020-04-06 16:36:34

试着研究现有的文本到语音/语音合成。这个链接列出此域中的多个不同的模型/方法。当我试图查看这个领域中最先进的(SOTA)方法时,我发现了这个GitHub页面,在这个页面上可以找到很多关于音频和语音的论文。一个非常好的(SOTA)模型/体系结构似乎是塔科创2/WaveNet。希望这对你的项目有帮助。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/71852

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档