首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏贾维斯Echo的博客

    AI超强语音转文本SenseVoice,本地化部署教程!

    模型介绍 SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测 多语言识别: 采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型。 高效推理: SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。 SenseVoice在线预览链接 SenseVoice 在线预览:https://www.modelscope.cn/studios/iic/SenseVoice 本地化部署 这里使用autodl 机器学习平台 然后克隆项目,输入如下命令: git clone https://github.com/FunAudioLLM/SenseVoice.git 如果提示网络超时等,输入如下命令,完了重新拉取代码就好。 然后回到终端,进入SenseVoice目录。 cd SenseVoice/ 创建虚拟环境 # 创建一个名为venv 的虚拟环境。 python -m venv venv 接着激活虚拟环境。

    8.9K12编辑于 2024-09-05
  • 来自专栏算法一只狗

    “3秒克隆周杰伦声音”?普通人也能玩转AI换声,太疯了!

    它无需任何样本即可完成声音克隆,框架主要包含CosyVoice和SenseVoice两个项目:SenseVoice:提供高精度多语言语音识别、情感识别和音频事件检测功能,支持超过50种语言,并实现极低延迟 此外,利用SenseVoice-Large和Paraformer生成伪标签,通过强制对齐模型进一步精炼数据,以确保数据的准确性和标点符号精度。

    2K01编辑于 2025-05-07
  • 每周AI论文速递(240708-240712)

    其核心包括两个创新模型:SenseVoice,用于多语言语音识别、情感识别及音频事件检测;以及 CosyVoice,能够生成多语言、可控音色、说话风格和说话者身份的自然语音。 SenseVoice-Small 为 5 种语言提供极低延迟的自动语音识别(ASR),而 SenseVoice-Large 支持超过 50 种语言的高精度 ASR。 与 SenseVoice 和 CosyVoice 相关的模型已在 Modelscope 和 Huggingface 上开源,相应的训练、推理和微调代码也已在 GitHub 发布。

    19800编辑于 2025-04-08
  • 来自专栏机器之心

    小红书语音识别新突破!开源FireRedASR,中文效果新SOTA

    FireRedASR 也比 Qwen-Audio、SenseVoice、Whisper、Paraformer 取得了更优的 CER。

    1.7K10编辑于 2025-02-10
  • 硬刚谷歌Veo3!快手Klear统一多任务音视频联合生成:创新单塔架构,口型语音完美同步

    数据工程:开发了一套自动化管道,包括视频/音频质量过滤、场景分割、人声/非人声分类以及多模型协作的稠密标注(使用 Whisper, SenseVoice, Qwen2.5-Omni 等工具)。 使用 Whisper-Large-v3、SenseVoice 和 Qwen2.5-Omni 进行转录,使用 Qwen2.5-Omni 和 Gemini 2.5-Pro 进行音频字幕,并使用视频专家模型进行详细视频标签

    29410编辑于 2026-01-13
  • 来自专栏Nicky's blog

    LazyLLM测评 | 基于LazyLLM Agent大模型搭建聊天机器人

    例如,多模态场景中,可通过Switch将用户输入(文本/图片/音频)路由到对应模型(LLM聊天、InternVL图文问答、SenseVoice语音识别)。

    27910编辑于 2025-12-17
  • 来自专栏AI研思录

    万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅

    常见的语音识别库有:SenseVoice、Whisper等 从语音识别结果到回答文本的生成(LLM) 这里我们不再赘述NLP中的意图识别等环节了,统一介绍最新称霸江湖的NLP技术大模型。

    4.2K23编辑于 2025-02-20
领券