我正在做自动字幕生成项目。我的方法是1.音频提取(使用ffmpeg完成) 2.语音到文本(可以使用sphinx 4完成,但不是很准确) 3.字幕生成。(这里我需要帮助)
假设有一个音频文件,其中一个人在读一个句子。如何在C、C++或java程序中知道演讲的开始和结束时间
我们需要在字幕文件中的特定行的开始和结束时间。那么,这里如何检索谈话开始和结束的时间?
有什么想法吗?
有没有可能用声学公式来做。
发布于 2015-08-25 21:35:58
我知道已经很晚了。但我已经使用sphinx4做到了这一点。您不需要音频的开始时间。Sphinx4将为每个识别出的单词提供时间。你可以用它。This研究论文很有帮助。
https://stackoverflow.com/questions/15480172
复制相似问题