首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏开源服务指南

    英语学习项目:简单易懂、内容丰富 | 开源日报 No.298

    ://github.com/snakers4/silero-vad Stars: 3.3k License: MIT picture silero-vad 是一个预训练的企业级语音活动检测器。 通用性强:silero-vad 在包含 6000 多种语言的大型语料库上进行了训练,并且在不同领域、具有各种背景噪声和质量水平的音频上表现良好。 采样率灵活:silero-vad 支持 8000 Hz 和 16000 Hz 的采样率。 高度可移植:silero-vad 利用围绕 PyTorch 和 ONNX 构建的丰富生态系统,在支持这些运行时的任何地方都可以运行。 无附加条件:silero-vad 以宽松许可证(MIT)发布,没有任何附加条件。没有遥测、没有密钥、没有注册、没有内置到期、没有密钥或供应商锁定。

    1.3K10编辑于 2024-07-11
  • 来自专栏云上修行

    提取音频中的人声: 简明指南

    本文将深入探讨利用先进的Silero Voice Activity Detector (VAD)模型,如何实现从音频文件中获得清晰人声片段的目标,进而揭示这一技术在实际应用中的巨大潜力。 Silero VAD概述Silero VAD是一个预训练的企业级语音活动检测器,以其卓越的精确度、高速处理能力、轻量级架构以及高度的通用性和便携性而著称。 极高的便携性:得益于PyTorch和ONNX的生态系统,可以在任何支持这些运行时的地方使用Silero VAD。 在本示例中,我们使用silero-vad模型(声学事件检测的一种),该模型能够识别音频流中的语音活动。silero-vad是基于深度学习的模型,它可以高效地在各种背景噪声中识别人声。 未来,随着技术进步,Silero VAD以及相关的音频处理技术将进一步推动智能语音分析领域的革新。

    3.6K20编辑于 2024-03-18
  • 来自专栏翩翩白衣少年

    TEN VAD 开源:低延迟、高准确率,提升「语音 Agent」上限就靠它!

    TEN VAD的计算复杂度也远低于Silero VAD。 2、高性能 与目前常用的 WebRTC VAD 和 Silero VAD 相比,在公开的 TEN VAD 测试集上(来自多场景、逐帧人工标注),TEN VAD 展示出了更优的效果。 3、低延迟 在延迟方面,TEN VAD能够快速检测语音到非语音的转换,而Silero VAD则存在数百毫秒的延迟。 他之前使用的是业内知名的 Silero VAD,但遇到一个痛点:在日语环境下,Silero 经常会在句子还没说完时就判定为静音,导致字幕被截断,体验很差。

    38510编辑于 2026-03-16
  • 来自专栏云上修行

    Smart Turn v3.1 实战入门

    VAD 语音检测(Silero VAD)对每个块调用 Silero VAD ONNX 模型,输出当前块为“语音”的概率,并与阈值 VAD_THRESHOLD 比较,得到布尔值 is_speech。 ONNX 模型文件本项目中已包含:silero_vad.onnx:Silero VAD 模型 smart-turn-v3.1.onnx:Smart Turn v3.1 ONNX 权重 其中 VAD ONNX 模型 ---ONNX_MODEL_URL = ( "https://github.com/snakers4/silero-vad/raw/master/src/silero_vad/data /silero_vad.onnx")ONNX_MODEL_PATH = "silero_vad.onnx"MODEL_RESET_STATES_TIME = 5.0class SileroVAD: """Silero VAD ONNX 封装类,适用于 16 kHz 单声道,块大小为 512。"""

    70410编辑于 2025-12-07
  • 来自专栏云上修行

    从噪声中找回清晰: 探索声音处理的未来

    Silero VAD:基于PyTorch的高准确率方案,适合精细化音频环境。NVIDIA VAD:通过CUDA加速,为服务器提供了快速高效的检测能力。 通用实时通信(WebRTC 优化) AEC: WebRTC AEC3 → NS: NVIDIA RNNoise → VAD: Silero VAD在保持延迟低的同时取得非常优异的音质表现,适用于个人电脑和移动端

    1.1K00编辑于 2025-04-19
  • 来自专栏翩翩白衣少年

    19.9K Star!这个 GitHub 高赞 Whisper 优化项目,性能提升 4 倍,显存砍半!

    1、内置 Silero VAD(自动静音过滤) 官方 Whisper 有个著名的 Bug:遇到长时间的静音,模型会“产生幻觉”,开始胡言乱语(比如重复输出无意义的词)。 faster-whisper 内置了 Silero VAD (Voice Activity Detection) 模型。

    60310编辑于 2026-03-16
  • 来自专栏张善友的专栏

    语音处理 开源项目 EchoSharp

    EchoSharp.Onnx.SileroVad:使用Silero VAD的语音活动检测组件,准确识别语音段,优化音频处理管道。

    67000编辑于 2025-02-04
  • 开源神器WhisperLiveKit:本地部署+实时语音转写,会议纪要15分钟搞定

    内置Silero VAD语音活动检测算法,可智能过滤键盘敲击、环境噪音,咖啡厅、开放办公区等复杂环境下,仍能精准捕捉有效发言内容。

    1.4K11编辑于 2026-01-22
  • 31.3K star!开源免费本地AI神器,一键部署多模态大模型!

    企业级扩展能力分布式推理:支持P2P网络构建AI集群联邦学习:多节点协同训练模型实时API:毫秒级响应请求语音活性检测:集成Silero-VAD技术技术架构解析技术组件功能说明优势特性Go语言核心提供REST

    2.5K10编辑于 2025-03-31
  • Handy-完全本地的语音识别工具

    )2.在快捷键激活期间说话3.松开按键后,Handy 使用 Whisper 进行语音处理4.转写后的文本会直接粘贴到你当前使用的应用中 整个流程完全在本地完成: •使用 VAD(语音活动检测),基于 Silero

    38710编辑于 2026-03-13
  • 语音AI Agent编排框架!Pipecat斩获10K+ Star,60+集成开箱即用,亚秒级对话延迟接近真人反应速度!

    my-voice-agentcd my-voice-agentStep 2:安装 Pipecat 和需要的集成插件uv add "pipecat-ai[daily,openai,deepgram,cartesia,silero

    44610编辑于 2026-03-06
  • 首个基于LLM的开源音频大模型!阶跃星辰重磅开源Step-Audio-EditX:P声音如此简单!

    三元组被定义为 (文本, 源音频, 裁剪后音频),其中 对应包含静音片段的源音频,而 指的是根据 Silero-VAD 产生的时间戳,通过提取和拼接语音片段生成的处理后版本。

    56610编辑于 2025-11-17
  • 来自专栏机器之心

    语音领域的「ImageNet时刻」为何迟迟不来?

    作者:Alexander Veysov 机器之心编译 参与:NeuR 目前在计算机视觉领域已经有了一个普遍认识,那就是 ImageNet 预训练对于下游任务的有效性,来自 silero.ai 的俄国数据科学家

    69530发布于 2020-05-26
领券