首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在OpenAI的Whisper ASR中获得字级时间戳?

如何在OpenAI的Whisper ASR中获得字级时间戳?
EN

Stack Overflow用户
提问于 2022-09-23 02:15:26
回答 1查看 2.2K关注 0票数 4

我使用OpenAI的低语 python来进行语音识别。我怎样才能得到文字级的时间戳?

使用OpenAI的低语进行转录(在Ubuntu20.04 x64 LTS上使用Nvidia GeForce RTX 3090进行测试):

代码语言:javascript
复制
conda create -y --name whisperpy39 python==3.9
conda activate whisperpy39
pip install git+https://github.com/openai/whisper.git 
sudo apt update && sudo apt install ffmpeg
whisper recording.wav
whisper recording.wav --model large

如果使用Nvidia GeForce RTX 3090,请在conda activate whisperpy39之后添加以下内容

代码语言:javascript
复制
pip install -f https://download.pytorch.org/whl/torch_stable.html
conda install pytorch==1.10.1 torchvision torchaudio cudatoolkit=11.0 -c pytorch
EN

回答 1

Stack Overflow用户

发布于 2022-09-23 16:29:23

https://openai.com/blog/whisper/只提到“短语级时间戳”,我由此推断,如果不添加更多代码,就无法获得字级时间戳。

来自一位低语作家

不直接支持获取字级时间戳,但可以使用时间戳标记的预测分布或交叉注意权重。

https://github.com/jianfch/stable-ts (麻省理工学院许可证):

该脚本修改了Whisper模型的方法,以获得每个单词的预测时间戳标记,而不需要添加推断。它还将时间戳稳定到单词级别,以确保编年史。

请注意:

另一种选择:使用一些字级强制对齐程序。例如,拉赫斯 (Apache-2.0许可证)具有综合化和Wav2vec强制对齐:

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73822353

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档