文章/答案/技术大牛

发布

社区首页 >问答首页 >理解神经网络与隐马尔可夫模型的关系

问理解神经网络与隐马尔可夫模型的关系
EN

Stack Overflow用户

提问于 2018-01-11 17:00:53

回答 1查看 160关注 0票数 0

本文介绍了基于神经网络、高斯混合模型和隐马尔可夫模型的语音识别技术。在我的研究中，我看到了GeorgeE.Dahl，董宇等人的论文“大词汇语音识别的上下文相关的预训练深层神经网络”。我认为我理解大部分提出的想法，但我仍然对一些细节有困难。如果有人能启发我，我会非常感激的。

据我所知，这一程序包括三个要素：

输入音频流被分割成10 of的帧，并由MFCC进行处理，后者输出一个特征向量。
神经网络得到特征向量作为输入，并对特征进行处理，使得每个帧(电话)都能被区分，或者在上下文中给出电话的表示。
HMM是一个状态模型，在这个模型中，每个状态都代表一个三部电话。每一种状态都有一些改变为其他状态的概率。现在，DNN的输出层产生了一个特征向量，它告诉当前状态它接下来必须更改到哪一种状态。

我没有得到的：输出层的特性如何映射到状态的概率。首先，HMM是如何创建的？我从哪里能得到所有关于可能发生的信息？

我不需要理解每一个细节，基本的概念对我的目的是足够的。我只需要保证，我对这个过程的基本想法是正确的。

neural-network

speech-recognition

hidden-markov-models

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-11 22:55:01

在我的研究中，我看到了GeorgeE.Dahl，董宇等人的论文“大词汇语音识别的上下文相关的预训练深层神经网络”。我认为我理解大部分提出的想法，但我仍然对一些细节有困难。

最好读一本教科书，而不是一篇研究论文。

这样，每一个帧(电话)都是可以区分的，或者更确切地说，是在上下文中给出电话的表示。

这句话没有明确的意思，这意味着你自己不太确定。DNN采用帧特征，生成状态概率。

嗯，HMM是一个状态模型，在这个模型中，每个州代表一个三部电话。

不需要三通电话。通常有绑定三音器，这意味着几个三音器对应于某种状态。

现在，DNN的输出层生成一个特征向量。

不，DNN为当前帧生成状态概率，它不生成特征向量。

这告诉当前状态，它必须改变的状态下。

不，基于当前状态和DNN概率的HMM Viterbi算法选择下一个状态。仅靠DNN不能决定下一个状态。

我不明白的是:输出层(DNN)的特性如何映射到状态的概率。

输出层产生概率。它说这个帧中的电话A是概率0.9的可能，而这个帧中的电话B是概率0.1的可能。

首先，HMM是如何创建的？

与不使用HMM的端到端系统不同，在DNN初始化之前，HMM通常使用HMM/GMM系统和Baum-Welch算法进行训练。所以你首先用Baum训练GMM/HMM，然后训练DNN来改进GMM。

我从哪里能得到所有关于可能发生的信息？

很难理解你的最后一个问题。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48212322

复制

相似问题

问理解神经网络与隐马尔可夫模型的关系
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问理解神经网络与隐马尔可夫模型的关系EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问理解神经网络与隐马尔可夫模型的关系
EN