首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用什么数据结构来编码经过训练的语音模型?

使用什么数据结构来编码经过训练的语音模型?
EN

Stack Overflow用户
提问于 2017-01-04 14:01:11
回答 2查看 178关注 0票数 1

一个受过训练的声音模型是什么样子?这就是:

  • 什么是典型的数据结构,编码一个有用的指纹某人的声音?
  • 如何将语音样本与评估模型进行比较,以确定是否匹配?

我知道实现中可能有一些变化,所以来自学术文献或成功实现的任何流行示例都将是很棒的。

EN

回答 2

Stack Overflow用户

发布于 2017-01-04 14:48:10

创建person模型的

有趣的是,在语音生物识别方面,你对某人的声音有很长的记录。

然后将记录分割成毫秒的小部分,然后提取这些部分的特性。最广泛的特征是Mel频率倒谱系数(MFCC):

倒谱

一旦有了数据集(许多小部分语音的MFCC ),就可以对语音进行建模,使用高斯混合模型(GMMs)这样的算法获得MFCC的概率密度分布:

模型

预测

想象一下,你现在有几个人的声音模型。

当您有一个新的语音记录a,您需要再次分割新的语音记录,并提取MFCC。

然后你就可以得到新样本属于每个模型的概率。

如果概率高于阈值,则有匹配。

票数 2
EN

Stack Overflow用户

发布于 2017-01-04 18:44:26

什么是典型的数据结构,编码一个有用的指纹某人的声音?

现代方法是以因子向量为基础的,称为I向量.I-向量是由100-400元素组成的实向量.它很好地描述了演讲者的特点。

您可以从教程了解更多关于i向量的信息。

最初I-向量是用GMM模型提取的,目前最先进的是DNN检测器.

如何将语音样本与评估模型进行比较,以确定是否匹配?

将I-矢量与它们之间的余弦距离进行比较.

我知道实现中可能有一些变化,所以来自学术文献或成功实现的任何流行示例都将是很棒的。

有很多实现,您可以从卡尔迪中获得最好的结果

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41465663

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档