

大家好,如果你正在寻找一款适用于会议的转录 API,可以考虑使用 Recall.ai[1],这是一款支持 Zoom、Google Meet、Microsoft Teams 等会议平台的 API。Recall.ai 通过提取会议平台中的发言者数据和独立音频流,进行发言者分离(diarization),从而实现 100% 精准的发言者分离,并能够显示实际发言者的姓名。
这是一款功能强大的开源视频翻译、音频转录和语音合成工具,专门用于无缝地将视频从一种语言转换为另一种语言,并提供配音和字幕。
•完全自动化的视频/音频翻译:智能识别并转录音频/视频中的声音,生成源语言字幕,翻译成目标语言,进行配音,最后将新音频和字幕与原视频合并——一气呵成。•语音转录/音频与视频转字幕:批量转录视频或音频文件中的人声,生成具有精准时间码的 SRT 字幕文件。•语音合成/文本转语音(TTS):利用多种先进的 TTS 渠道,为您的文本或 SRT 字幕文件生成高质量、自然的配音。•SRT 字幕翻译:支持批量翻译 SRT 字幕文件,保留原始时间戳和格式,并提供多种双语字幕风格。•实时语音转文字:支持实时麦克风监控,将语音实时转换为文本。
在开始使用之前,请确保您了解此软件的核心工作机制:
首先,将音频或视频中的人声转换为字幕文件( 语音识别通道)。接着,将字幕文件翻译成目标语言(翻译通道)。然后,使用翻译后的字幕生成音频(配音通道)。最后,将字幕、音频和原始视频嵌入并对齐,完成视频翻译过程(视频合成)。
•支持的内容: 任何包含人声的音频或视频,无论是否嵌入字幕。•不支持的内容: 仅包含背景音乐和硬编码字幕,但没有人声的音频或视频。本软件无法直接从视频帧中提取硬编码的字幕。
•点击下载预打包版本[2],将其解压到不包含空格的目录,然后双击 sp.exe。•解压到英文路径,确保路径中不包含空格。解压后,双击 sp.exe(如果遇到权限问题,右键以管理员身份运行)。
注意: 使用前必须解压文件。请勿直接从压缩包内运行,也不要在解压后将 sp.exe 文件移动到其他位置。
1.MacOS/Linux 的前提条件
MacOS:执行以下命令来安装所需的库:
brew install libsndfile
brew install ffmpeg
brew install gitLinux: 使用以下命令安装 ffmpeg:
sudo yum install -y ffmpeg # 对于基于 Red Hat 的系统
或者:
apt-get install ffmpeg # 对于基于 Debian 的系统2.建一个文件夹,文件夹名称中不要包含空格。在该文件夹中打开终端,并执行以下命令:
git clone https://github.com/jianchang512/pyvideotranscd pyvideotrans3.运行 uv sync安装所需的模块。根据您的网络连接情况,这可能需要几分钟到十多分钟的时间。
4 . 运行 uv run sp.py 启动软件界面。
1.默认情况下,软件使用 ctranslate2 版本 4.x,这仅支持 CUDA 12.x。如果您的 CUDA 版本低于 12 并且无法升级,请执行以下命令来卸载 ctranslate2 并重新安装兼容版本:
uv remove ctranslate2uv add ctranslate2==3.24.0请访问 https://pyvideotrans.com

好了,今天的分享就到这里了,我们下期见~~~
https://github.com/jianchang512/pyvideotrans?tab=readme-ov-file[1] Recall.ai: https://www.recall.ai/product/meeting-transcription-api?utm_source=github&utm_medium=sponsorship&utm_campaign=jianchang512-pyvideotrans
[2] 点击下载预打包版本: https://github.com/jianchang512/pyvideotrans/releases
[3] 官方安装指南: https://docs.astral.sh/uv/getting-started/installation/