我使用OpenAI的低语 python来进行语音识别。我如何给出一些提示短语,因为它可以与其他一些ASR,如谷歌
使用OpenAI的低语进行转录(在Ubuntu20.04 x64 LTS上使用Nvidia GeForce RTX 3090进行测试):
conda create -y --name whisperpy39 python==3.9
conda activate whisperpy39
pip install git+https://github.com/openai/whisper.git
sudo apt update && sudo apt install ffmpeg
whisper recording.wav
whisper recording.wav --model large如果使用Nvidia GeForce RTX 3090,请在conda activate whisperpy39之后添加以下内容
pip install -f https://download.pytorch.org/whl/torch_stable.html
conda install pytorch==1.10.1 torchvision torchaudio cudatoolkit=11.0 -c pytorch发布于 2022-09-24 17:30:44
暗示短语/助推语的两个潜在位置:
prompt中添加提示短语(而不是在prefix中:参见prompt vs. prefix上的讨论。有一个新的 --initial_prompt选项,因为承诺2037b65:
小声audio.mp3initial_prompt之外,没有其他接口;您可以使用逻辑偏置黑一些东西,这有效地提高了某些令牌的预测概率。班级就是为了支持这一点而设计的。我不知道会有多高的效率。此外,当提示词不在字典中时,可能会出现一个潜在的问题,在这种情况下,需要在字典中添加提示词,这可能很困难。
https://stackoverflow.com/questions/73833916
复制相似问题