本文介绍了基于神经网络、高斯混合模型和隐马尔可夫模型的语音识别技术。在我的研究中,我看到了GeorgeE.Dahl,董宇等人的论文“大词汇语音识别的上下文相关的预训练深层神经网络”。我认为我理解大部分提出的想法,但我仍然对一些细节有困难。如果有人能启发我,我会非常感激的。
据我所知,这一程序包括三个要素:
我没有得到的:输出层的特性如何映射到状态的概率。首先,HMM是如何创建的?我从哪里能得到所有关于可能发生的信息?
我不需要理解每一个细节,基本的概念对我的目的是足够的。我只需要保证,我对这个过程的基本想法是正确的。
发布于 2018-01-11 22:55:01
在我的研究中,我看到了GeorgeE.Dahl,董宇等人的论文“大词汇语音识别的上下文相关的预训练深层神经网络”。我认为我理解大部分提出的想法,但我仍然对一些细节有困难。
最好读一本教科书,而不是一篇研究论文。
这样,每一个帧(电话)都是可以区分的,或者更确切地说,是在上下文中给出电话的表示。
这句话没有明确的意思,这意味着你自己不太确定。DNN采用帧特征,生成状态概率。
嗯,HMM是一个状态模型,在这个模型中,每个州代表一个三部电话。
不需要三通电话。通常有绑定三音器,这意味着几个三音器对应于某种状态。
现在,DNN的输出层生成一个特征向量。
不,DNN为当前帧生成状态概率,它不生成特征向量。
这告诉当前状态,它必须改变的状态下。
不,基于当前状态和DNN概率的HMM Viterbi算法选择下一个状态。仅靠DNN不能决定下一个状态。
我不明白的是:输出层(DNN)的特性如何映射到状态的概率。
输出层产生概率。它说这个帧中的电话A是概率0.9的可能,而这个帧中的电话B是概率0.1的可能。
首先,HMM是如何创建的?
与不使用HMM的端到端系统不同,在DNN初始化之前,HMM通常使用HMM/GMM系统和Baum-Welch算法进行训练。所以你首先用Baum训练GMM/HMM,然后训练DNN来改进GMM。
我从哪里能得到所有关于可能发生的信息?
很难理解你的最后一个问题。
https://stackoverflow.com/questions/48212322
复制相似问题