一个受过训练的声音模型是什么样子?这就是:
我知道实现中可能有一些变化,所以来自学术文献或成功实现的任何流行示例都将是很棒的。
发布于 2017-01-04 14:48:10
发布于 2017-01-04 18:44:26
什么是典型的数据结构,编码一个有用的指纹某人的声音?
现代方法是以因子向量为基础的,称为I向量.I-向量是由100-400元素组成的实向量.它很好地描述了演讲者的特点。
您可以从教程了解更多关于i向量的信息。
最初I-向量是用GMM模型提取的,目前最先进的是DNN检测器.
如何将语音样本与评估模型进行比较,以确定是否匹配?
将I-矢量与它们之间的余弦距离进行比较.
我知道实现中可能有一些变化,所以来自学术文献或成功实现的任何流行示例都将是很棒的。
有很多实现,您可以从卡尔迪中获得最好的结果
https://stackoverflow.com/questions/41465663
复制相似问题