首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >微软又上大分!刚刚开源一款 0.5B 轻量级实时 TTS 模型,还能边想边说!

微软又上大分!刚刚开源一款 0.5B 轻量级实时 TTS 模型,还能边想边说!

作者头像
开源星探
发布2026-03-16 20:22:36
发布2026-03-16 20:22:36
2550
举报
文章被收录于专栏:翩翩白衣少年翩翩白衣少年

如果说 2024 年我们解决了大模型「脑子」聪明不聪明的问题,那么 2025 年,我们正在疯狂解决 AI「嘴巴」利不利索的问题。

大家平时用各种 AI 助手语音模式时,你问了一个问题,对面沉默了 2-3 秒(虽然他在思考),然后突然给你念一段完美的稿子。

这种体验虽然准确,但不像真人。

真人是怎么说话的? 真人在脑子里组织语言的同时,嘴巴就已经开始动了。我们会有停顿、有语气、甚至会边想边说。

「实时流式对话」才是 AI 语音的终极形态。

就在这两天,微软低调地开源了一款名为 VibeVoice-Realtime-0.5B 的轻量级 TTS 模型。

别看它只有 0.5B 参数,它却做到了目前市面上大多数巨型模型做不到的事:文本还在往外蹦,它的声音就已经开口说了。

300 毫秒就能说话,边输入边朗读,长文不卡顿,还能多人自然对话。

主要特点
  • 真正的实时发声:首包延迟仅约 300ms。
  • 交错窗口架构:一边说话一边续写音频。
  • 多角色自然对话:支持最多 4 个角色自然对话。
  • 情绪识别表达:虽然小体量,但是也支持情绪识别与表达。
  • 上下文记忆:10 分钟保持语气不乱,最长可到 90 分钟。
  • 中英文支持:中文支持也有,只是当前版本中文比英文差一点。
快速入手

VibeVoice-Realtime-0.5B 是微软 VibeVoice 语音模型系列下最新成果,都是百分百 Python 代码开源。

具体安装步骤如下:

1、克隆 VibeVoice 仓库

代码语言:javascript
复制
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

2、安装项目依赖

代码语言:javascript
复制
pip install -e

3、下载模型

代码语言:javascript
复制
from huggingface_hub import snapshot_download
snapshot_download("microsoft/VibeVoice-Realtime-0.5B", local_dir="/content/models/VibeVoice-Realtime-0.5B")

4、启动 VibeVoice 实时演示

代码语言:javascript
复制
import subprocess, re, time, threading

srv = subprocess.Popen(
    "python /content/VibeVoice/demo/vibevoice_realtime_demo.py --model_path /content/models/VibeVoice-Realtime-0.5B --port 8000",
    shell=True, stdout=subprocess.PIPE, stderr=subprocess.STDOUT, text=True, bufsize=, universal_newlines=True,
)
cf = subprocess.Popen(
    "./cloudflared tunnel --url http://localhost:8000 --no-autoupdate",
    shell=True, stdout=subprocess.PIPE, stderr=subprocess.STDOUT, text=True, bufsize=, universal_newlines=True,
)

public_url = None
server_ready = False
url_pattern  = re.compile(r"(https://[a-z0-9-]+\.trycloudflare\.com)")

def read_srv():
    global server_ready
    for ln in srv.stdout:
        print(ln.strip())
        if "Uvicorn running on" in ln:
            server_ready = True

def read_cf():
    global public_url
    for ln in cf.stdout:
        m = url_pattern.search(ln)
        if m:
            public_url = m.group()
            break

threading.Thread(target=read_srv, daemon=True).start()
threading.Thread(target=read_cf,  daemon=True).start()


while True:
    if server_ready and public_url:
        print(f"✅ Public URL: {public_url}\n");
        public_url = None
    time.sleep(0.25)

当然如果需要在线体验,推荐下面这个方式:

HF 在线DEMO:

https://huggingface.co/spaces/anycoderapps/VibeVoice-Realtime-0.5B

性能表现

微软在其论文中展示了多项测试结果。

下面是其中两项代表性指标:

  • • “WER”越低代表语音更清晰、识别正确;
  • • “Speaker Similarity”越高代表声音听起来更像原声。

这说明该模型在准确性和自然度上都达到了非常高的水准。

应用场景
  • AI 智能助手:像 Siri,但更快、更聪明。
  • 会议助手:边听边说、几乎零延迟。
  • 播客自动生成:4 个角色自动对聊。
  • 游戏 NPC:实时对话 + 情绪表达 + 低延迟。
  • 视频配音:无需等待整段生成,直接实时生成音轨。
  • 客服机器人:不需要云端 TTS,延迟极低。
写在最后

VibeVoice-Realtime 最大的意义是:它第一次让开源模型真正具备「说话速度」和「自然程度」接近人类的实时语音能力。

如果你需要你的项目中接入延迟低、声音自然、多角色、支持情绪、长文本连续、模型轻量可部署的实时语音模型。

VibeVoice-Realtime-0.5B 是目前最值得尝试的选择之一。

项目主页:https://microsoft.github.io/VibeVoice

GitHub:https://github.com/microsoft/VibeVoice

模型地址:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 开源星探 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 主要特点
  • 快速入手
  • 性能表现
  • 应用场景
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档