我想问您,我们如何有效地重新训练一个经过训练的seq2seq模型,以删除/减轻特定的观测错误输出。我将给出一个关于语音合成的例子,但是任何来自不同领域的想法,比如机器翻译和语音识别,使用seq2seq模型都是很好的选择。
我通过注意力模型学习了seq2seq的基础知识,特别是在语音合成方面,比如塔科创-2。使用一个经过良好训练的分布式模型向我展示了我们的计算机是如何自然地与seq2seq (端到端)模型对话的(您可以听一些音频示例这里)。但是,模型仍然无法正确地阅读一些单词,例如,它无法以多种方式阅读“əˈbā”,如əˈbī和əˈbē。
原因很明显,因为在我们的数据集(LJ演讲)中,“服从”这个词出现得太少了,在225,715个单词中只有三次出现,而且模型没有成功。
那么,我们如何重新训练模型以克服错误呢?添加包含“服从”发音的额外音频片段听起来不太实际,但重复使用这三个音频剪辑有过度拟合的危险。而且,我认为我们使用了一个训练有素的模型,“简单地多训练”并不是一个有效的解决方案。
现在,这是seq2seq模型的缺点之一,讨论不多。该模型成功地简化了传统模型的管道,如语音合成,用单一神经网络代替了声学模型和文本分析前端等。但我们完全失去了模型的可控性。要让系统以特定的方式读取是不可能的。
同样,如果您在任何字段中使用seq2seq模型并得到一个不受欢迎的输出,那么如何解决这个问题?对于这个问题,是否有一种数据科学的解决办法,或者可能是一种尖端的神经网络机制来获得更多的seq2seq模型的可控性?
谢谢。
发布于 2018-06-21 08:09:50
我在论文的第3.2节(深层声音3)中找到了我自己问题的答案。因此,他们对音素模型和基于字符的模型都进行了训练,主要使用音素输入,但如果单词不能转换成音素表示,则使用基于字符的模型。
https://stackoverflow.com/questions/50657546
复制相似问题