概述本报告对目标说话人语音活动检测(Target-Speaker Voice Activity Detection, TS-VAD)和个性化语音活动检测(Personalized Voice Activity 第一部分:TS-VAD技术分析一、技术背景与问题定义1.1 传统说话人日志的局限性传统说话人日志系统采用级联架构:语音活动检测(VAD) → 分段 → 说话人特征提取 → 聚类 → 重分段核心缺陷:单说话人假设 :每个音频段只能分配一个说话人标签重叠语音处理能力弱:聚类方法无法处理多人同时说话性能瓶颈:CHiME-6数据集上DER(Diarization Error Rate)高达60%以上1.2 TS-VAD 的创新思想TS-VAD将说话人日志问题转化为多标签分类问题:给定N个说话人的声学特征(如i-vector)对每一帧预测N个说话人的语音活动状态天然支持重叠语音场景核心优势:传统方法TS-VAD单说话人假设多说话人并行预测聚类依赖距离度量神经网络端到端学习重叠语音需后处理原生支持重叠 优势:视觉信息完全不受其他说话人干扰无需额外的说话人注册过程支持实时跟踪四、TS-VAD与Personal VAD的关系4.1 技术统一视角TS-VAD = 多个Personal VAD并行 + 联合建模共同点
我们的系统包括一个语音活动检测(VAD)模型、一个说话人嵌入模型、两个具有不同相似性度量的基于聚类的说话人日记系统,两种不同的重叠语音检测(OSD)模型和一种目标说话人语音活动检测(TS-VAD)模型。 different overlapped speech detection (OSD) models, and a target-speaker voice activity detection (TS-VAD 我们的系统包括一个语音活动检测(VAD)模型、一个说话人嵌入模型、两个具有不同相似性度量的基于聚类的说话人日记系统,两种不同的重叠语音检测(OSD)模型和一种目标说话人语音活动检测(TS-VAD)模型。 different overlapped speech detection (OSD) models, and a target-speaker voice activity detection (TS-VAD