假设我有音频和该音频的明文文本,我如何使用语音识别以编程方式从这两个字幕生成字幕?
这与YouTube在编辑视频时在其字幕/字幕页面上提供的功能非常相似。
有什么API可以做到这一点?它的一些挑战是什么?
我精通Java/C#,但这是语言不可知的。
发布于 2012-07-04 01:38:47
这称为时间戳或对齐。CMUSphinx项目有一个专门的工具可以做到这一点。您可以从subversion中查看它。
http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/branches/long-audio-aligner/
有关用法的一些信息,请参阅
http://cmusphinx.sourceforge.net/?s=long+audio+aligner
https://stackoverflow.com/questions/11278863
复制相似问题