首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我怎样才能给OpenAI的Whisper ASR一些提示短语呢?

我怎样才能给OpenAI的Whisper ASR一些提示短语呢?
EN

Stack Overflow用户
提问于 2022-09-24 00:04:01
回答 1查看 728关注 0票数 1

我使用OpenAI的低语 python来进行语音识别。我如何给出一些提示短语,因为它可以与其他一些ASR,如谷歌

使用OpenAI的低语进行转录(在Ubuntu20.04 x64 LTS上使用Nvidia GeForce RTX 3090进行测试):

代码语言:javascript
复制
conda create -y --name whisperpy39 python==3.9
conda activate whisperpy39
pip install git+https://github.com/openai/whisper.git 
sudo apt update && sudo apt install ffmpeg
whisper recording.wav
whisper recording.wav --model large

如果使用Nvidia GeForce RTX 3090,请在conda activate whisperpy39之后添加以下内容

代码语言:javascript
复制
pip install -f https://download.pytorch.org/whl/torch_stable.html
conda install pytorch==1.10.1 torchvision torchaudio cudatoolkit=11.0 -c pytorch
EN

回答 1

Stack Overflow用户

发布于 2022-09-24 17:30:44

暗示短语/助推语的两个潜在位置:

  1. https://github.com/openai/whisper/blob/15ab54826343c27cfaf44ce31e9c8fb63d0aa775/whisper/decoding.py#L87-L88:在prompt中添加提示短语(而不是在prefix中:参见prompt vs. prefix上的讨论。有一个新的 --initial_prompt选项,因为承诺2037b65: 小声audio.mp3
  2. https://github.com/openai/whisper/blob/15ab54826343c27cfaf44ce31e9c8fb63d0aa775/whisper/decoding.py#L302:更改代码以增加包含提示短语的序列的可能性,例如:: 目前,除了像上面这样给出initial_prompt之外,没有其他接口;您可以使用逻辑偏置黑一些东西,这有效地提高了某些令牌的预测概率。班级就是为了支持这一点而设计的。

我不知道会有多高的效率。此外,当提示词不在字典中时,可能会出现一个潜在的问题,在这种情况下,需要在字典中添加提示词,这可能很困难。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73833916

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档