本文引入了多状态时延神经网络(MS)。
哈夫纳,帕特里克和怀贝尔,亚历克斯:用于连续语音识别的多状态时延网络。“神经信息处理系统的进展”,1992年。
它们是TDNNs的扩展。TDNNs是一种用于语音自动识别(ASR)的卷积神经网络。
MS的目标似乎是摆脱ASR中的混合方法,在ASR中,需要动态编程/ HMMs对音频流进行分块,然后使用神经网络来识别音素。不知何故,MS-TDNNs似乎也做了分割。
我不明白怎么回事。有人能给我解释一下吗?
(相关的附带问题: MS-TDNNs是经常性网络吗?“多状态”这个名字到底是从哪里来的?)
发布于 2016-02-09 14:22:41
所以我想大家都知道,MS有两个部分:一个传统的TDNN,它计算每个帧的状态概率,在它上面有一个感知器,将几个帧的状态连接到一个单词上。后面的部分是进行分割。它的连接不是训练,而是用来运行BP和训练TDNN。
分割是通过其他一些算法获得的(我不太记得,但有点像动态时间扭曲)。在常规的DNN混合系统中,DNN被单独训练以预测每个帧的正确状态。错误函数是在帧级上计算的!
这不是最优的,因为我们不太关心每一种状态是否正确,而是最后的文本。按世界水平计算。TDNNs试图通过这个额外的层来解决这个问题,该层允许将基于单词级别的错误传递给BP。这与当今称为序列训练的方法非常相似。
如果您对不需要HMMs的RNN和ASR系统感兴趣,我建议您查看CTC目标,它确实可以自动学习对齐。
发布于 2018-11-13 18:14:26
不,MS-TDNNs不做分割.你仍然需要一个“搜索”算法,它给你最好的候选词(S)和切分。搜索是由DTW完成的,通常以N克为指导。
我从我的一份文件里找到了这张照片--我得去找它。
https://datascience.stackexchange.com/questions/10147
复制相似问题