我按照tutorial https://cmusphinx.github.io/wiki/tutorialam/为我的越南语训练了一个新的声学模型。简单地说,我记录了从0到9的数字来进行训练,并使用这些经过训练的数据进行测试。因此,准确率应该是预期的100%。然而,它只有20%左右(只识别2和3)。我已经重新录制了很多次,但它没有改变。我可以确保我做的所有要求,如16k采样率,16位深度,...
有人能给我一些解释和改进我的模型的方法吗?谢谢你们
发布于 2019-05-15 15:11:45
训练数据是不够的。根据tutorial的说法,你需要:
用于单个扬声器的命令和控制的录音小时
您可以从https://github.com/undertheseanlp/automatic_speech_recognition获取越南数据
https://stackoverflow.com/questions/56141577
复制相似问题