首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >理解神经网络与隐马尔可夫模型的关系

理解神经网络与隐马尔可夫模型的关系
EN

Stack Overflow用户
提问于 2018-01-11 17:00:53
回答 1查看 160关注 0票数 0

本文介绍了基于神经网络、高斯混合模型和隐马尔可夫模型的语音识别技术。在我的研究中,我看到了GeorgeE.Dahl,董宇等人的论文“大词汇语音识别的上下文相关的预训练深层神经网络”。我认为我理解大部分提出的想法,但我仍然对一些细节有困难。如果有人能启发我,我会非常感激的。

据我所知,这一程序包括三个要素:

  1. 输入音频流被分割成10 of的帧,并由MFCC进行处理,后者输出一个特征向量。
  2. 神经网络得到特征向量作为输入,并对特征进行处理,使得每个帧(电话)都能被区分,或者在上下文中给出电话的表示。
  3. HMM是一个状态模型,在这个模型中,每个状态都代表一个三部电话。每一种状态都有一些改变为其他状态的概率。现在,DNN的输出层产生了一个特征向量,它告诉当前状态它接下来必须更改到哪一种状态。

我没有得到的:输出层的特性如何映射到状态的概率。首先,HMM是如何创建的?我从哪里能得到所有关于可能发生的信息?

我不需要理解每一个细节,基本的概念对我的目的是足够的。我只需要保证,我对这个过程的基本想法是正确的。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-11 22:55:01

在我的研究中,我看到了GeorgeE.Dahl,董宇等人的论文“大词汇语音识别的上下文相关的预训练深层神经网络”。我认为我理解大部分提出的想法,但我仍然对一些细节有困难。

最好读一本教科书,而不是一篇研究论文。

这样,每一个帧(电话)都是可以区分的,或者更确切地说,是在上下文中给出电话的表示。

这句话没有明确的意思,这意味着你自己不太确定。DNN采用帧特征,生成状态概率。

嗯,HMM是一个状态模型,在这个模型中,每个州代表一个三部电话。

不需要三通电话。通常有绑定三音器,这意味着几个三音器对应于某种状态。

现在,DNN的输出层生成一个特征向量。

不,DNN为当前帧生成状态概率,它不生成特征向量。

这告诉当前状态,它必须改变的状态下。

不,基于当前状态和DNN概率的HMM Viterbi算法选择下一个状态。仅靠DNN不能决定下一个状态。

我不明白的是:输出层(DNN)的特性如何映射到状态的概率。

输出层产生概率。它说这个帧中的电话A是概率0.9的可能,而这个帧中的电话B是概率0.1的可能。

首先,HMM是如何创建的?

与不使用HMM的端到端系统不同,在DNN初始化之前,HMM通常使用HMM/GMM系统和Baum-Welch算法进行训练。所以你首先用Baum训练GMM/HMM,然后训练DNN来改进GMM。

我从哪里能得到所有关于可能发生的信息?

很难理解你的最后一个问题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48212322

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档