搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏CSDN博客
微调Whisper模型和加速推理
本项目主要的目的是为了对Whisper模型使用Lora进行微调，目前开源了好几个模型，具体可以在openai查看，下面列出了常用的几个模型。 finetune.py：微调模型。 merge_lora.py：合并Whisper和Lora的模型。 evaluation.py：评估使用微调后的模型或者Whisper原模型。微调完成之后会有两个模型，第一个是Whisper基础模型，第二个是Lora模型，需要把这两个模型合并之后才能之后的操作。第二个--model_path指定的是合并后的模型路径，同时也支持直接使用Whisper原模型，例如直接指定openai/whisper-large-v2。其他更多的参数请查看这个程序。如下命令，--model参数指定的是合并后的模型路径，同时也支持直接使用Whisper原模型，例如直接指定openai/whisper-large-v2。
3K30编辑于 2023-04-30
来自专栏CSDN博客
微调Whisper语音识别模型和加速推理
本项目主要的目的是为了对Whisper模型使用Lora进行微调，目前开源了好几个模型，具体可以在openai查看，下面列出了常用的几个模型。 finetune.py：微调模型。merge_lora.py：合并Whisper和Lora的模型。evaluation.py：评估使用微调后的模型或者Whisper原模型。 infer_tfs.py：使用transformers直接调用微调后的模型或者Whisper原模型预测，只适合推理短音频。，第一个是Whisper基础模型，第二个是Lora模型，需要把这两个模型合并之后才能之后的操作。如下命令，--model参数指定的是合并后的模型路径，同时也支持直接使用Whisper原模型，例如直接指定openai/whisper-large-v2。
5.1K20编辑于 2023-06-04
来自专栏数据库与编程
带小朋友体验语音识别大模型：Whisper
它们使用了一种叫做“语音识别大模型”的魔法工具。这个大模型可以理解各种各样的声音，就像是小朋友们可以听懂不同的朋友说的话一样。 ('cuda:0') print('正在使用的设备:', device, file=sys.stderr) print('Whisper已经被安装请执行下一个单元') 四、模型选择这里选择的是 Whisper 语音模型非常准确的识别出了我们的语音内容。 Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。它是通过收集来自多个数据源的多语言、多任务的数据进行训练的。模型的训练过程非常复杂，需要大量的计算资源和时间。但是，一旦训练完成，模型可以在各种不同的应用场景中提供高质量的语音识别结果。
2K31编辑于 2023-09-01
来自专栏分享学习
语音转字幕：Whisper模型的功能和使用
使用方法模型下载模型下载地址：https://huggingface.co/ggerganov/whisper.cpp large-v1模型比较大，但是会更准确一些。功能：多语言支持：Whisper模型支持99种不同语言的转录，这意味着无论音频是用哪种语言录制的，模型都能够将其识别并转录为文本。鲁棒性：Whisper模型对于口音、背景噪音和技术语言具有很好的鲁棒性，这意味着在各种不同的环境和条件下，模型都能够保持较高的识别准确率。使用：开源与免费：与DALLE-2和GPT-3等其他OpenAI模型不同，Whisper是一个免费的开源模型。用户可以自由地使用和修改模型，以满足自己的需求。模型架构：Whisper模型采用了一种简单的端到端方法，利用Transformer模型的编码器-解码器结构。
5.2K00编辑于 2024-05-25
来自专栏张善友的专栏
OpenAI的离线音频转文本模型 Whisper 的.NET封装项目
Whisper系统所提供的自动语音辨识（Automatic Speech Recognition，ASR）模型是被训练来运行语音辨识与翻译任务的，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文语言模型文件：https://huggingface.co/ggerganov/whisper.cpp 或者 https://github.com/ggerganov/whisper.cpp ggml- 这么好的一个模型在.NET 社区有很多封装的项目: 跨平台 Whisper.net: https://github.com/sandrohanea/whisper.net Windows 平台的Whisper ：运行起来，从Hugging Face 下载模型，选择转化的语言、音频路径、文本类型、文本保存位置，运行一段时间后，打开后就可以看到文本内容了实测medium模型：20min音频，大致耗时20~30min 还可以很容易将这个模型集成到自己开发的系统里。
1.6K10编辑于 2023-04-28
来自专栏信数据得永生
Whisper 整体架构图
Whisper Whisper 整体模型。
93420编辑于 2023-10-23
来自专栏人工智能极简应用
【机器学习】Whisper：开源语音转文本（speech-to-text）大模型实战
一、引言上一篇对ChatTTS文本转语音模型原理和实战进行了讲解，第6次拿到了热榜第一。今天，分享其对称功能（语音转文本）模型：Whisper。二、Whisper 模型原理 2.1 模型架构 Whisper是一个典型的transformer Encoder-Decoder结构，针对语音和文本分别进行多任务（Multitask）处理。仅用通俗易懂的语言描述了下Whisper的原理，如果想更深入的了解，请参考OpenAI官方Whisper论文。三、Whisper 模型实战 3.1 环境安装本文基于HuggingFace的transfomers库，采用pipeline方式进行极简单的模型实用实战，具体的pipeline以及其他transformers 首先简要概述了Whisper的模型原理，然后基于transformers的pipeline库2行代码实现了Whisper模型推理，希望可以帮助到大家。码字不易，如果喜欢期待您的关注+3连+投票。
7.4K20编辑于 2024-08-13
来自专栏python前行者
whisper(音转文)使用教程
下载模型： Whisper提供了多种大小的模型，您可以根据需要下载。 /large-v2.pt 模型文件通常保存在~/.cache/whisper/目录下。 Whisper 是一个基于 CTranslate2 的 OpenAI Whisper 模型的重新实现。它是一个快速推理引擎，用于 Transformer 模型，相比 OpenAI 的 Whisper 模型，速度提升了 4 倍。 faster_whisper import WhisperModel model_size = "large-v3" # 选择模型大小，这里使用的是较大的模型版本 device = "cuda"
1.8K11编辑于 2024-11-24
Whisper 语音转文字免费软件！Whisper v0.2 超详细下载安装教程
Whisper v0.2 靠 Faster Whisper 模型优化，就算你电脑是普通办公本（只有 CPU），处理 10 分钟音频也就等 1-2 分钟，比手动打字快太多。第 2 步：解压 Whisper 安装包1.回到桌面，找到刚下的 Whisper 压缩包；2.右键点击压缩包，选 “解压到当前文件夹”（不用改路径，自动生成带 Whisper 图标的文件夹）；3.打开文件夹，找到后缀 “.exe” 的 Whisper 主程序（图标有 Whisper 字样，很好认）。 ------ | ------------ | ------------------------ || 模型选择 | medium | Whisper 已集成，不用额外下载，日常够用 | Whisper正式转文字步骤1.加音频：打开 Whisper v0.2，点 “选择文件”，找到要转的音频（支持 WAV、MP3，比如手机传电脑的录音），点 “打开”；2.查设置：确认模型是 “medium
2.1K01编辑于 2025-09-04
来自专栏华仔的技术笔记
Swarm和Whisper是什么鬼？
以太坊的智能合约smart contract实现了分布式逻辑，以太坊的Swarm实现了分布式存储，以太坊的Whisper实现了分布式消息，Whisper将实现智能合约间的消息互通，届时可以实现功能更加复杂的 whisper whisper是一种信息检索协议，它允许节点间直接以一种安全的形式互发信息，并对第三方组织窥探者隐藏发送者和接收者的信息。这是不依赖于一个中心服务器的通讯管理。你可能没怎么听到过 Whisper，不过它也是在以太坊生态系统中一项有趣的技术。它是 Dapps 之间交互的通信协议。你可以在这里看到关于它的更多内容: https://github.com/ethereum/wiki/wiki/Whisper
2.8K30发布于 2018-07-04
来自专栏崔哥的专栏
openai whisper 语音识别，语音翻译
简介 Whisper 是openai开源的一个通用的语音识别模型，同时支持把各种语言的音频翻译为成英文（音频->文本）。安装 apt install ffmpeg pip install -U openai-whisper 使用指令 whisper video.mp4 whisper audio.flac audio.mp3 audio.wav --model medium whisper japanese.wav --language Japanese whisper chinese.mp4 --language Chinese --task translate whisper --help 代码中使用，以下是Python示例 import whisper model = whisper.load_model("base") 除了支持Whisper，还支持faster-whisper；faster-whisper据说能够实现比 Whisper更快的转录功能，同时显存占用也比较小。
4.5K11编辑于 2024-03-08
来自专栏大模型应用
大模型应用：语音转文本（ASR）实践：OpenAI Whisper精准转录解析.21
Whisper模型特征Whisper 是 OpenAI 开源的 ASR 大模型，新手只需记住 3 个核心特点：端到端设计：无需手动处理音频特征（比如传统 ASR 要做的 MFCC 特征提取），直接输入音频就能输出文本 Whisper模型分类Whisper 提供 5 种预训练模型尺寸，新手可简单理解为 “模型越大，越准但越慢、占内存越多”，各尺寸的基础属性如下（新手重点看 “适用场景”）：tiny 尺寸：参数量为 39M Whisper与传统ASR的差异维度传统 ASR（如 MFCC+HMM）Whisper 大模型语言支持需单独训练单语言模型原生支持 99 种语言，无需额外适配噪声鲁棒性噪声场景 WER 飙升至 30%+ # 2.1 加载模型：选择base尺寸 # load_model是Whisper的核心函数，参数传模型尺寸 model = whisper.load_model("base") 模型选择：根据需求选择合适的语音识别模型：开源模型：Whisper、商用API、多语言/单语言模型选择3.
1.2K21编辑于 2026-02-18
来自专栏最新Python入门基础合集
基于OpenAI Whisper AI模型自动生成视频字幕：全面解析与实战指南
幸运的是，随着人工智能技术的飞速发展，特别是OpenAI Whisper模型的推出，我们有了更加高效、智能的解决方案。一、OpenAI Whisper模型简介 OpenAI Whisper是一款先进的语音识别模型，它利用深度学习技术，将语音信号转换为文本。二、技术原理与架构 Whisper模型的核心架构采用了编码器-解码器的Transformer模型，这是一种端到端的语音识别方法。模型进行语音识别 def recognize_speech(audio_path): # 加载Whisper模型 model = whisper.load_model("medium") 以下是一些建议：选择合适的模型：根据实际需求选择合适的Whisper模型。例如，对于长视频或需要高精度识别的场景，可以选择较大的模型（如"large"），但会消耗更多的计算资源。
2.5K10编辑于 2024-12-28
来自专栏小轻论坛
高效音频转文本工具Whisper
大家好，我是站长可乐，今天给大家推荐的是音频转文本工具——Whisper，Whisper是由OpenAI开发的一个自动语音识别(ASR)开源系统。 OpenAI的技术文档介绍了如何基于Whisper模型调用语言转文本API来实现语言转写或将语言翻译成英文的功能。 Speech-to-text API 介绍文档 https://platform.openai.com/docs/guides/speech-to-text 这里我们先在下载好Whisper模型（下载地址请见文末）：加载好模型，界面就是这样，请设置识别的语言。下载地址给大家准备了下载地址和模型下载地址，关注本站公众号【小轻论坛】回复关键词“ Whisper ”即可获取下载。
1.3K10编辑于 2024-09-30
来自专栏AI进修生
最佳语音识别 Whisper-large-v3-turbo 上线，速度更快（本地安装 + Whisper-web）
尽管近年来出现了许多音频和多模态模型，但Whisper 仍是生产级自动语音识别（ASR）的首选。 Whisper 模型有两种风格：纯英语和多语言。纯英语模型接受英语语音识别任务的训练。多语言模型同时进行多语言语音识别和语音翻译训练。对于语音识别，该模型会预测与音频相同语言的转录。对于语音翻译，该模型会预测转录为与音频不同的语言。 Whisper 检查点有五种不同型号尺寸的配置。最小的四种语言有纯英语和多语言版本。最大的检查站仅支持多种语言。下表总结了检查点：新推出的 Whisper Turbo 模型是 OpenAI 开发的，经过约 500 万小时的标记数据训练，具有出色的泛化能力。现在启动 Jupyter Notebook Jupyter Notebook 启动后，我们导入所有库，然后获取模型，我们选择 Whisper 大型版本 3 Turbo，然后下载模型并将其放入我们的 CUDA
9.2K11编辑于 2024-12-02
来自专栏AI进修生
3个新模型+1个新网站，语音识别比Whisper更强！
新的 SOTA Speech2Text 模型（明显优于 Whisper 3），而新的文本转语音模型，允许提示个性和情感。在 FLEURS 测试里，两个 transcribe 模型的错误率比 Whisper 低多了。图里比的就是 "词错误率" (WER)，WER 越低，模型转录就越准确，性能就越好。看柱状图，颜色深的柱子是 OpenAI 新模型，浅色的是其他模型，柱子越矮越好。上：与自己模型对比；下：与市面其他模型对比结果很明显，无论是和 Whisper v2/v3 比，还是和 Gemini、scribe-v1、nova-2 & nova-3 这些模型比，gpt-4o-transcribe 三款模型定价如下：不少网友表示。这次价格良心，跟之前的 Whisper 差不多，mini 版更便宜。
61310编辑于 2025-03-21
来自专栏人工智能极简应用
【机器学习】FFmpeg+Whisper：二阶段法视频理解（video-to-text）大模型实战
上一篇对Whisper原理和实战进行了讲解，第7次拿到了热榜第一。今天，我们在Whisper的基础上，引入ffmpeg工具对视频的音频进行抽取，再使用Whisper将音频转为文本，通过二阶段法实现视频内容的理解。 install ffmpeg 3.2 Whisper模型下载这里与上一篇一样，还是采用transformers的pipeline，首先创建conda环境以及安装transformers 创建并激活conda pip install transformers -i https://mirrors.cloud.tencent.com/pypi/simple 基于transformers的pipeline会自动进行模型下载 ") text_dict = transcriber(speech_file) return text_dict 这里采用pipeline完成openai/whisper-medium的模型下载以及实例化
1.1K10编辑于 2024-08-13
基于faster whisper实时语音识别语音转文本
语音识别转文本相信很多人都用过，不管是手机自带，还是腾讯视频都附带有此功能，今天简单说下： faster whisper地址： https://github.com/SYSTRAN/faster-whisper target=https%3A//github.com/SYSTRAN/faster-whisper 实现功能：从麦克风获取声音进行实时语音识别转文本代码仅仅用了40多行即可实现实时语音转文本功能 fwm.start() while True: time.sleep(0.2) 视频演示地址： https://www.bilibili.com/video/BV1fQ4y1j7wb/ 模块： fast_whisper
49710编辑于 2025-12-16
来自专栏Dotnet Dancer
【.NET】使用Whisper.net实现录音转文本
废话不多说，直接上手，以下正文： 1、新建一个控制台项目，引用CommandLineParser和Whisper.net 2、新建Options实体类，用于提供使用模型的一些参数 public class /// [Option('g', "ggml", Required = false, HelpText = "根据模型类型，验证是否存在模型文件，在线模型文件参考：模型地址： https://huggingface.co/sandrohanea/whisper.net/tree/main/classic 4、验证模型文件不存在，则下载 if ( language); } processor.DetectLanguage(samples, speedUp: true) 的speedUp说明：当speedUp为true时，使用whisper_pcm_to_mel_phase_vocoder_with_state 当speedUp为false时，使用whisper_pcm_to_mel_with_state方法进行处理。这个方法可能是一个更传统或基本的方法来从PCM数据转换到Mel频谱。
83310编辑于 2024-08-13
基于faster whisper实时语音识别语音转文本
介绍： Faster-Whisper是一个基于OpenAI的Whisper模型的高效实现。它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎，优化了内存使用效率。同时，Faster-Whisper还改进了原始的Whisper模型结构，包括减少模型的层数、减少参数量、简化模型结构等，从而减少了计算量和内存消耗，提高了推理速度。此外，Faster-Whisper还改进了推理算法、优化计算过程、减少冗余计算等，以提高模型的运行效率。 Faster-Whisper项目包括一个web网页版本和一个命令行版本，同时项目内部已经整合了VAD算法。 faster whisper地址： https://github.com/SYSTRAN/faster-whisper 实现功能：从麦克风获取声音进行实时语音识别转文本代码仅仅用了40多行即可实现实时语音转文本功能
1.4K11编辑于 2025-07-20

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

微调Whisper模型和加速推理

微调Whisper语音识别模型和加速推理

带小朋友体验语音识别大模型：Whisper

语音转字幕：Whisper模型的功能和使用

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

Whisper 整体架构图

【机器学习】Whisper：开源语音转文本（speech-to-text）大模型实战

whisper(音转文)使用教程

Whisper 语音转文字免费软件！Whisper v0.2 超详细下载安装教程

Swarm和Whisper是什么鬼？

openai whisper 语音识别，语音翻译

大模型应用：语音转文本（ASR）实践：OpenAI Whisper精准转录解析.21

基于OpenAI Whisper AI模型自动生成视频字幕：全面解析与实战指南

高效音频转文本工具Whisper

最佳语音识别 Whisper-large-v3-turbo 上线，速度更快（本地安装 + Whisper-web）

3个新模型+1个新网站，语音识别比Whisper更强！

【机器学习】FFmpeg+Whisper：二阶段法视频理解（video-to-text）大模型实战

基于faster whisper实时语音识别语音转文本

【.NET】使用Whisper.net实现录音转文本

基于faster whisper实时语音识别语音转文本

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐