我想在汽车环境中通过语音分离来提高语音识别的准确性。要处理的声音是一个挑战,因为噪音、广播音乐和其他扬声器的声音可能总是混合在一起。
所以我想把声音分成两部分,一部分是我的声音,另一部分是定义的一般噪声。为此,我使用HTK训练了一个依赖于说话者的GMM模块(仅限于我的语音),然后使用FASST分离语音。你觉得这样行得通吗?
发布于 2016-07-15 22:40:43
对于NMF,我会使用openblissart。另一个好主意是记录在立体声,如果你还没有这样做。
你可以通过切换到DNN模型而不是HMM和Kaldi来获得最大的改进,这比你可以从任何源分离中获得的要多得多。有了DNN,你也可以做多风格训练,它的表现甚至会比噪声分离更好。您可以在Kaldi源中检查CHIME实验设置,以了解如何训练抗噪识别器。
https://stackoverflow.com/questions/38395223
复制相似问题