文章/答案/技术大牛

发布

社区首页 >问答首页 >使用什么数据结构来编码经过训练的语音模型？

问使用什么数据结构来编码经过训练的语音模型？
EN

Stack Overflow用户

提问于 2017-01-04 14:01:11

回答 2查看 178关注 0票数 1

一个受过训练的声音模型是什么样子？这就是：

什么是典型的数据结构，编码一个有用的指纹某人的声音？
如何将语音样本与评估模型进行比较，以确定是否匹配？

我知道实现中可能有一些变化，所以来自学术文献或成功实现的任何流行示例都将是很棒的。

machine-learning

voice-recognition

回答 2

Stack Overflow用户

发布于 2017-01-04 14:48:10

创建person模型的：

有趣的是，在语音生物识别方面，你对某人的声音有很长的记录。

然后将记录分割成毫秒的小部分，然后提取这些部分的特性。最广泛的特征是Mel频率倒谱系数(MFCC)：

倒谱

一旦有了数据集(许多小部分语音的MFCC )，就可以对语音进行建模，使用高斯混合模型(GMMs)这样的算法获得MFCC的概率密度分布：

模型

预测

想象一下，你现在有几个人的声音模型。

当您有一个新的语音记录a，您需要再次分割新的语音记录，并提取MFCC。

然后你就可以得到新样本属于每个模型的概率。

如果概率高于阈值，则有匹配。

票数 2

Stack Overflow用户

发布于 2017-01-04 18:44:26

什么是典型的数据结构，编码一个有用的指纹某人的声音？

现代方法是以因子向量为基础的，称为I向量.I-向量是由100-400元素组成的实向量.它很好地描述了演讲者的特点。

您可以从教程了解更多关于i向量的信息。

最初I-向量是用GMM模型提取的，目前最先进的是DNN检测器.

如何将语音样本与评估模型进行比较，以确定是否匹配？

将I-矢量与它们之间的余弦距离进行比较.

我知道实现中可能有一些变化，所以来自学术文献或成功实现的任何流行示例都将是很棒的。

有很多实现，您可以从卡尔迪中获得最好的结果

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41465663

复制

相似问题

问使用什么数据结构来编码经过训练的语音模型？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用什么数据结构来编码经过训练的语音模型？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用什么数据结构来编码经过训练的语音模型？
EN