文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在OpenAI的Whisper ASR中获得字级时间戳？

问如何在OpenAI的Whisper ASR中获得字级时间戳？
EN

Stack Overflow用户

提问于 2022-09-23 02:15:26

回答 1查看 2.2K关注 0票数 4

我使用OpenAI的低语 python来进行语音识别。我怎样才能得到文字级的时间戳？

使用OpenAI的低语进行转录(在Ubuntu20.04 x64 LTS上使用Nvidia GeForce RTX 3090进行测试)：

conda create -y --name whisperpy39 python==3.9
conda activate whisperpy39
pip install git+https://github.com/openai/whisper.git 
sudo apt update && sudo apt install ffmpeg
whisper recording.wav
whisper recording.wav --model large

如果使用Nvidia GeForce RTX 3090，请在conda activate whisperpy39之后添加以下内容

pip install -f https://download.pytorch.org/whl/torch_stable.html
conda install pytorch==1.10.1 torchvision torchaudio cudatoolkit=11.0 -c pytorch

python

timestamp

speech-recognition

openai

openai-whisper

回答 1

Stack Overflow用户

发布于 2022-09-23 16:29:23

https://openai.com/blog/whisper/只提到“短语级时间戳”，我由此推断，如果不添加更多代码，就无法获得字级时间戳。

来自一位低语作家

不直接支持获取字级时间戳，但可以使用时间戳标记的预测分布或交叉注意权重。

https://github.com/jianfch/stable-ts (麻省理工学院许可证)：

该脚本修改了Whisper模型的方法，以获得每个单词的预测时间戳标记，而不需要添加推断。它还将时间戳稳定到单词级别，以确保编年史。

请注意：

不清楚这些字级的时间戳有多精确。
字幕有时不同步。

另一种选择:使用一些字级强制对齐程序。例如，拉赫斯 (Apache-2.0许可证)具有综合化和Wav2vec强制对齐：

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73822353

复制

相似问题

问如何在OpenAI的Whisper ASR中获得字级时间戳？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在OpenAI的Whisper ASR中获得字级时间戳？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在OpenAI的Whisper ASR中获得字级时间戳？
EN