搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏云上修行
TS-VAD与Personal VAD：目标说话人语音活动检测技术深度分析报告
概述本报告对目标说话人语音活动检测（Target-Speaker Voice Activity Detection, TS-VAD）和个性化语音活动检测（Personalized Voice Activity 第一部分：TS-VAD技术分析一、技术背景与问题定义1.1 传统说话人日志的局限性传统说话人日志系统采用级联架构：语音活动检测(VAD) → 分段 → 说话人特征提取 → 聚类 → 重分段核心缺陷：单说话人假设：每个音频段只能分配一个说话人标签重叠语音处理能力弱：聚类方法无法处理多人同时说话性能瓶颈：CHiME-6数据集上DER（Diarization Error Rate）高达60%以上1.2 TS-VAD 的创新思想TS-VAD将说话人日志问题转化为多标签分类问题：给定N个说话人的声学特征（如i-vector）对每一帧预测N个说话人的语音活动状态天然支持重叠语音场景核心优势：传统方法TS-VAD单说话人假设多说话人并行预测聚类依赖距离度量神经网络端到端学习重叠语音需后处理原生支持重叠优势：视觉信息完全不受其他说话人干扰无需额外的说话人注册过程支持实时跟踪四、TS-VAD与Personal VAD的关系4.1 技术统一视角TS-VAD = 多个Personal VAD并行 + 联合建模共同点
10410编辑于 2026-03-19
来自专栏arXiv每日学术速递
金融/语音/音频处理学术速递[9.7]
我们的系统包括一个语音活动检测（VAD）模型、一个说话人嵌入模型、两个具有不同相似性度量的基于聚类的说话人日记系统，两种不同的重叠语音检测（OSD）模型和一种目标说话人语音活动检测（TS-VAD）模型。 different overlapped speech detection (OSD) models, and a target-speaker voice activity detection (TS-VAD 我们的系统包括一个语音活动检测（VAD）模型、一个说话人嵌入模型、两个具有不同相似性度量的基于聚类的说话人日记系统，两种不同的重叠语音检测（OSD）模型和一种目标说话人语音活动检测（TS-VAD）模型。 different overlapped speech detection (OSD) models, and a target-speaker voice activity detection (TS-VAD
67020发布于 2021-09-16

TS-VAD与Personal VAD：目标说话人语音活动检测技术深度分析报告

金融/语音/音频处理学术速递[9.7]

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐