首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >TDNNs是如何工作的?

TDNNs是如何工作的?
EN

Data Science用户
提问于 2016-02-09 08:10:30
回答 2查看 272关注 0票数 3

本文引入了多状态时延神经网络(MS)。

哈夫纳,帕特里克和怀贝尔,亚历克斯:用于连续语音识别的多状态时延网络。“神经信息处理系统的进展”,1992年。

它们是TDNNs的扩展。TDNNs是一种用于语音自动识别(ASR)的卷积神经网络。

MS的目标似乎是摆脱ASR中的混合方法,在ASR中,需要动态编程/ HMMs对音频流进行分块,然后使用神经网络来识别音素。不知何故,MS-TDNNs似乎也做了分割。

我不明白怎么回事。有人能给我解释一下吗?

(相关的附带问题: MS-TDNNs是经常性网络吗?“多状态”这个名字到底是从哪里来的?)

EN

回答 2

Data Science用户

发布于 2016-02-09 14:22:41

所以我想大家都知道,MS有两个部分:一个传统的TDNN,它计算每个帧的状态概率,在它上面有一个感知器,将几个帧的状态连接到一个单词上。后面的部分是进行分割。它的连接不是训练,而是用来运行BP和训练TDNN。

分割是通过其他一些算法获得的(我不太记得,但有点像动态时间扭曲)。在常规的DNN混合系统中,DNN被单独训练以预测每个帧的正确状态。错误函数是在帧级上计算的!

这不是最优的,因为我们不太关心每一种状态是否正确,而是最后的文本。按世界水平计算。TDNNs试图通过这个额外的层来解决这个问题,该层允许将基于单词级别的错误传递给BP。这与当今称为序列训练的方法非常相似。

和MS-TDNN都不是递归网络.

如果您对不需要HMMs的RNN和ASR系统感兴趣,我建议您查看CTC目标,它确实可以自动学习对齐。

票数 2
EN

Data Science用户

发布于 2018-11-13 18:14:26

不,MS-TDNNs不做分割.你仍然需要一个“搜索”算法,它给你最好的候选词(S)和切分。搜索是由DTW完成的,通常以N克为指导。

我从我的一份文件里找到了这张照片--我得去找它。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/10147

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档