我已经为我的第二学期选择了我的大纲主题。
我想制作一个文字到语言的程序,用游戏人物的声音说话。
我曾在课堂上学习机器,但没有涉及音频或文本对语音的内容。
我知道我承担的项目有多大,但这正是我所需要的。
我根本不知道从哪里开始,因为外面有太多的信息了。在其他编程领域,我通常很擅长查找信息,但我对ML还不太了解(加上在线使用的关键字相互矛盾)。
我不知道该看什么工具。我该从哪里开始?
我有68.871个音频文件,总共大约76小时的音频。这些文件有不同的长度,从每秒开始,到49分钟结束。我自己并没有听到所有的声音,但我很确定所有的声音都是完全干净的。
(我知道我可能无法用68.871个文件来喂养任何型号,这些文件可能都有不同的长度,所以我认为我必须选择一个更小的样本,长度更相等)。
我想使用这些文件作为音频样本,这样一个模型就可以学习如何像这个字符说话。
任何向正确方向的推进都将是非常感谢的。
https://datascience.stackexchange.com/questions/71852
复制相似问题