搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏开源服务指南
英语学习项目：简单易懂、内容丰富 | 开源日报 No.298
://github.com/snakers4/silero-vad Stars: 3.3k License: MIT picture silero-vad 是一个预训练的企业级语音活动检测器。通用性强：silero-vad 在包含 6000 多种语言的大型语料库上进行了训练，并且在不同领域、具有各种背景噪声和质量水平的音频上表现良好。采样率灵活：silero-vad 支持 8000 Hz 和 16000 Hz 的采样率。高度可移植：silero-vad 利用围绕 PyTorch 和 ONNX 构建的丰富生态系统，在支持这些运行时的任何地方都可以运行。无附加条件：silero-vad 以宽松许可证（MIT）发布，没有任何附加条件。没有遥测、没有密钥、没有注册、没有内置到期、没有密钥或供应商锁定。
1.3K10编辑于 2024-07-11
来自专栏云上修行
提取音频中的人声: 简明指南
本文将深入探讨利用先进的Silero Voice Activity Detector (VAD)模型，如何实现从音频文件中获得清晰人声片段的目标，进而揭示这一技术在实际应用中的巨大潜力。 Silero VAD概述Silero VAD是一个预训练的企业级语音活动检测器，以其卓越的精确度、高速处理能力、轻量级架构以及高度的通用性和便携性而著称。极高的便携性：得益于PyTorch和ONNX的生态系统，可以在任何支持这些运行时的地方使用Silero VAD。在本示例中，我们使用silero-vad模型（声学事件检测的一种），该模型能够识别音频流中的语音活动。silero-vad是基于深度学习的模型，它可以高效地在各种背景噪声中识别人声。未来，随着技术进步，Silero VAD以及相关的音频处理技术将进一步推动智能语音分析领域的革新。
3.6K20编辑于 2024-03-18
来自专栏翩翩白衣少年
TEN VAD 开源：低延迟、高准确率，提升「语音 Agent」上限就靠它!
TEN VAD的计算复杂度也远低于Silero VAD。 2、高性能与目前常用的 WebRTC VAD 和 Silero VAD 相比，在公开的 TEN VAD 测试集上（来自多场景、逐帧人工标注），TEN VAD 展示出了更优的效果。 3、低延迟在延迟方面，TEN VAD能够快速检测语音到非语音的转换，而Silero VAD则存在数百毫秒的延迟。他之前使用的是业内知名的 Silero VAD，但遇到一个痛点：在日语环境下，Silero 经常会在句子还没说完时就判定为静音，导致字幕被截断，体验很差。
38510编辑于 2026-03-16
来自专栏云上修行
Smart Turn v3.1 实战入门
VAD 语音检测（Silero VAD）对每个块调用 Silero VAD ONNX 模型，输出当前块为“语音”的概率，并与阈值 VAD_THRESHOLD 比较，得到布尔值 is_speech。 ONNX 模型文件本项目中已包含：silero_vad.onnx：Silero VAD 模型 smart-turn-v3.1.onnx：Smart Turn v3.1 ONNX 权重其中 VAD ONNX 模型 ---ONNX_MODEL_URL = ( "https://github.com/snakers4/silero-vad/raw/master/src/silero_vad/data /silero_vad.onnx")ONNX_MODEL_PATH = "silero_vad.onnx"MODEL_RESET_STATES_TIME = 5.0class SileroVAD: """Silero VAD ONNX 封装类，适用于 16 kHz 单声道，块大小为 512。"""
70410编辑于 2025-12-07
来自专栏云上修行
从噪声中找回清晰: 探索声音处理的未来
Silero VAD：基于PyTorch的高准确率方案，适合精细化音频环境。NVIDIA VAD：通过CUDA加速，为服务器提供了快速高效的检测能力。通用实时通信（WebRTC 优化） AEC: WebRTC AEC3 → NS: NVIDIA RNNoise → VAD: Silero VAD在保持延迟低的同时取得非常优异的音质表现，适用于个人电脑和移动端
1.1K00编辑于 2025-04-19
来自专栏翩翩白衣少年
19.9K Star！这个 GitHub 高赞 Whisper 优化项目，性能提升 4 倍，显存砍半！
1、内置 Silero VAD（自动静音过滤）官方 Whisper 有个著名的 Bug：遇到长时间的静音，模型会“产生幻觉”，开始胡言乱语（比如重复输出无意义的词）。 faster-whisper 内置了 Silero VAD (Voice Activity Detection) 模型。
60310编辑于 2026-03-16
来自专栏张善友的专栏
语音处理开源项目 EchoSharp
EchoSharp.Onnx.SileroVad：使用Silero VAD的语音活动检测组件，准确识别语音段，优化音频处理管道。
67000编辑于 2025-02-04
开源神器WhisperLiveKit：本地部署+实时语音转写，会议纪要15分钟搞定
内置Silero VAD语音活动检测算法，可智能过滤键盘敲击、环境噪音，咖啡厅、开放办公区等复杂环境下，仍能精准捕捉有效发言内容。
1.4K11编辑于 2026-01-22
31.3K star！开源免费本地AI神器，一键部署多模态大模型！
企业级扩展能力分布式推理：支持P2P网络构建AI集群联邦学习：多节点协同训练模型实时API：毫秒级响应请求语音活性检测：集成Silero-VAD技术技术架构解析技术组件功能说明优势特性Go语言核心提供REST
2.5K10编辑于 2025-03-31
Handy-完全本地的语音识别工具
）2.在快捷键激活期间说话3.松开按键后，Handy 使用 Whisper 进行语音处理4.转写后的文本会直接粘贴到你当前使用的应用中整个流程完全在本地完成： •使用 VAD（语音活动检测），基于 Silero
38710编辑于 2026-03-13
语音AI Agent编排框架！Pipecat斩获10K+ Star，60+集成开箱即用，亚秒级对话延迟接近真人反应速度！
my-voice-agentcd my-voice-agentStep 2：安装 Pipecat 和需要的集成插件uv add "pipecat-ai[daily,openai,deepgram,cartesia,silero
44610编辑于 2026-03-06
首个基于LLM的开源音频大模型！阶跃星辰重磅开源Step-Audio-EditX：P声音如此简单！
三元组被定义为 (文本, 源音频, 裁剪后音频)，其中对应包含静音片段的源音频，而指的是根据 Silero-VAD 产生的时间戳，通过提取和拼接语音片段生成的处理后版本。
56610编辑于 2025-11-17
来自专栏机器之心
语音领域的「ImageNet时刻」为何迟迟不来？
作者：Alexander Veysov 机器之心编译参与：NeuR 目前在计算机视觉领域已经有了一个普遍认识，那就是 ImageNet 预训练对于下游任务的有效性，来自 silero.ai 的俄国数据科学家
69530发布于 2020-05-26

英语学习项目：简单易懂、内容丰富 | 开源日报 No.298

提取音频中的人声: 简明指南

TEN VAD 开源：低延迟、高准确率，提升「语音 Agent」上限就靠它!

Smart Turn v3.1 实战入门

从噪声中找回清晰: 探索声音处理的未来

19.9K Star！这个 GitHub 高赞 Whisper 优化项目，性能提升 4 倍，显存砍半！

语音处理开源项目 EchoSharp

开源神器WhisperLiveKit：本地部署+实时语音转写，会议纪要15分钟搞定

31.3K star！开源免费本地AI神器，一键部署多模态大模型！

Handy-完全本地的语音识别工具

语音AI Agent编排框架！Pipecat斩获10K+ Star，60+集成开箱即用，亚秒级对话延迟接近真人反应速度！

首个基于LLM的开源音频大模型！阶跃星辰重磅开源Step-Audio-EditX：P声音如此简单！

语音领域的「ImageNet时刻」为何迟迟不来？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

英语学习项目：简单易懂、内容丰富 | 开源日报 No.298

提取音频中的人声: 简明指南

TEN VAD 开源：低延迟、高准确率，提升「语音 Agent」上限就靠它!

Smart Turn v3.1 实战入门

从噪声中找回清晰: 探索声音处理的未来

19.9K Star！这个 GitHub 高赞 Whisper 优化项目，性能提升 4 倍，显存砍半！

语音处理 开源项目 EchoSharp

开源神器WhisperLiveKit：本地部署+实时语音转写，会议纪要15分钟搞定

31.3K star！开源免费本地AI神器，一键部署多模态大模型！

Handy-完全本地的语音识别工具

语音AI Agent编排框架！Pipecat斩获10K+ Star，60+集成开箱即用，亚秒级对话延迟接近真人反应速度！

首个基于LLM的开源音频大模型！阶跃星辰重磅开源Step-Audio-EditX：P声音如此简单！

语音领域的「ImageNet时刻」为何迟迟不来？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

语音处理开源项目 EchoSharp