TS-VAD与Personal VAD：目标说话人语音活动检测技术深度分析报告

原创

buzzfrog

发布于 2026-03-19 10:39:01

1040

概述

本报告对目标说话人语音活动检测（Target-Speaker Voice Activity Detection, TS-VAD）和个性化语音活动检测（Personalized Voice Activity Detection, Personal VAD/PVAD）领域的奠基性工作和最新SOTA方法进行全面深度分析。这两项技术是说话人日志（Speaker Diarization）领域的关键突破，为解决高度重叠语音场景下的"谁在何时说话"问题提供了全新的技术范式。

第一部分：TS-VAD技术分析

一、技术背景与问题定义

1.1 传统说话人日志的局限性

传统说话人日志系统采用级联架构：

语音活动检测(VAD) → 分段 → 说话人特征提取 → 聚类 → 重分段

核心缺陷：

单说话人假设：每个音频段只能分配一个说话人标签
重叠语音处理能力弱：聚类方法无法处理多人同时说话
性能瓶颈：CHiME-6数据集上DER（Diarization Error Rate）高达60%以上

1.2 TS-VAD的创新思想

TS-VAD将说话人日志问题转化为多标签分类问题：

给定N个说话人的声学特征（如i-vector）
对每一帧预测N个说话人的语音活动状态
天然支持重叠语音场景

核心优势：

传统方法	TS-VAD
单说话人假设	多说话人并行预测
聚类依赖距离度量	神经网络端到端学习
重叠语音需后处理	原生支持重叠
DER ~60% (CHiME-6)	DER ~33% (CHiME-6)

二、奠基性工作：TS-VAD (Medennikov et al., 2020)

2.1 论文基本信息

标题: Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario
arXiv ID: 2005.07272
机构: STC-innovations Ltd, ITMO University
发表场合: CHiME-6 Challenge

2.2 核心贡献

贡献1：TS-VAD架构设计

模型由三个核心模块组成：

输入层：MFCC/Fbank特征 + 说话人i-vectors
    ↓
编码器：CNN提取帧级嵌入
    ↓
独立说话人检测(ISD)：BLSTM处理每个说话人独立特征
    ↓
联合说话人检测(JSD)：BLSTM建模跨说话人和跨时间信息
    ↓
输出层：N个二分类头，预测每个说话人的帧级活动

数学表达：

设输入特征为$X \in \mathbb{R}^{T \times F}$（T帧，F维特征），说话人profile为$P \in \mathbb{R}^{N \times S}$（N个说话人，S维i-vector），则：

$$H^{(0)} = \text{CNN}(X) \in \mathbb{R}^{T \times D}$$

对于第$i$个说话人：

$$Hi^{(ISD)} = \text{BLSTM}{ISD}(H^{(0)}; p_i)$$

联合处理：

$$H^{(JSD)} = \text{BLSTM}_{JSD}(H_1^{(ISD)}; H_2^{(ISD)}; ...; H_N^{(ISD)})$$

输出：

$$\hat{y}_i(t) = \sigma(W_i \cdot H^{(JSD)}(t) + b_i)$$

贡献2：迭代i-vector估计策略

由于真实场景中没有预先知道的说话人profile，论文提出迭代估计方法：

使用强聚类系统获得初始说话人分段
提取初始i-vectors
TS-VAD预测更精确的活动
更新i-vectors
迭代直至收敛

贡献3：多通道扩展

使用注意力机制融合多通道信息：

$$H^{(mc)} = \sum_{c=1}^{C} \alpha_c H^{(c)}$$

$$\alphac = \frac{\exp(w^T H^{(c)})}{\sum{c'}\exp(w^T H^{(c')})}$$

2.3 实验结果

在CHiME-6数据集上：

系统	Dev DER	Eval DER
x-vector基线	62.1%	64.8%
BUT (DIHARD II最佳)	~60%	~60%
TS-VAD	33.0%	36.0%

改进幅度：超过30%绝对DER降低

三、关键技术改进

3.1 未知说话人数处理 (He et al., 2021, arXiv:2108.03342)

问题： 原始TS-VAD需要固定（已知）说话人数量

解决方案：

说话人数量估计
- 使用初始日志系统估计说话人数量$\hat{N}$
- TS-VAD输出节点数$N$设为训练集最大值
输出掩码策略
- 若$\hat{N} = N$：直接使用
- 若$\hat{N} < N$：$\hat{N}$个节点分配真实说话人，其余分配虚拟说话人
- 若$\hat{N} > N$：选择非重叠说话时长最长的$N$个说话人
融合初始化
- 结合聚类系统和区域提案网络(RPN)的互补优势
- 加权平均帧级决策获得更优初始化

实验结果（LibriCSS）：

方法	0L	0S	OV10	OV20	OV30	OV40
VBx基线	5.6	6.7	11.3	16.8	23.4	32.3
TS-VAD	3.7	4.8	6.9	10.1	14.2	20.8

注：OVxx表示xx%重叠率

3.2 Transformer架构 (Wang et al., 2022, arXiv:2208.13085)

问题： 原始BLSTM架构的JSD模块通过拼接处理所有说话人，限制了说话人数量灵活性

解决方案：Transformer跨说话人建模

输入张量：T × S × F (时间 × 说话人 × 特征)
    ↓
交替应用：
  - S轴Transformer（无位置编码）→ 说话人顺序不变
  - T轴Transformer/BLSTM → 时序建模
    ↓
输出：每个说话人的语音活动概率

关键设计：

S轴Transformer不使用位置编码，确保输出对说话人profile输入顺序不变
T轴可选Transformer或BLSTM

与EEND-EDA的融合：

将EEND-EDA的点积匹配模块替换为Transformer-based TS-VAD：

系统	VoxConverse DER	CALLHOME DER
EEND-EDA	5.18%	12.01%
EEND-EDA + TS-VAD	4.57%	11.18%

3.3 音视频融合：MIMO-TSVAD (Cheng & Li, 2025, arXiv:2401.08052)

问题： 纯音频TS-VAD在高度重叠场景仍有局限；视频信息天然容忍重叠但存在遮挡问题

解决方案：多输入多输出框架

支持四种输入组合：
1. X_a vs E_spk  (音频特征 + 说话人嵌入) → 纯音频模式
2. X_v vs E_lip  (视频特征 + 嘴唇嵌入) → 纯视频模式
3. X_a + X_v vs E_lip              → 音视频混合
4. X_a + X_v vs E_spk + E_lip      → 完全融合模式

架构创新：序列到序列设计

# 编码器
H = Encoder(X_audio, X_video)  # 多模态编码

# 解码器（支持多任务）
activities = Decoder(H, E_spk, E_lip)  # 说话人/嘴唇嵌入引导

# 灵活输出分辨率
# 输入长度T → 输出长度T' (可调节)

处理模态缺失：

训练时随机丢弃模态，增强鲁棒性
推理时自动适应可用模态组合

实验结果：

数据集	基线DER	MIMO-TSVAD DER	改进
VoxConverse	5.25%	4.18%	20.4%
DIHARD-III	12.6%	10.10%	19.8%
MISP 2022	11.2%	8.15%	27.2%

四、最新SOTA方法对比

方法	核心创新	说话人数	重叠处理	DER (典型数据集)
TS-VAD (2020)	奠基架构	固定	✓	CHiME-6: 36%
TS-VAD++ (2021)	未知说话人数	灵活	✓	LibriCSS: 20.8%
Trans-TSVAD (2022)	Transformer	任意	✓	VoxConverse: 4.57%
MIMO-TSVAD (2025)	音视频融合	任意	✓✓	VoxConverse: 4.18%

第二部分：Personal VAD技术分析

一、技术背景与问题定义

1.1 标准VAD vs Personal VAD

特性	标准VAD	Personal VAD
目标	检测所有语音	仅检测目标说话人语音
输入	音频	音频 + 目标说话人嵌入
应用	通用语音处理	个性化语音助手、会议系统
挑战	噪声鲁棒性	说话人区分 + 噪声鲁棒性

1.2 Personal VAD的应用场景

智能语音助手：仅响应用户语音，忽略背景他人
会议转录系统：区分目标说话人与其他参会者
助听器/耳机：增强目标说话人语音
安全系统：基于声纹的语音激活

二、奠基性工作：Enrollment-less Personal VAD (Makishima et al., 2021)

2.1 论文基本信息

标题: Enrollment-less training for personalized voice activity detection
arXiv ID: 2106.12132
机构: NTT Corporation

2.2 核心问题

传统PVAD训练需要enrollment-full数据：

每个说话人需要多条语音用于训练
需要说话人标签
数据准备成本高昂

大量标准VAD数据集（如VoiceActivity）缺乏说话人标签，无法直接用于PVAD训练。

2.3 核心创新：无注册训练（Enrollment-less Training）

核心思想：

训练时，将同一条语音同时用作输入和注册语音，通过数据增强创造差异。

方法流程：

训练阶段：
输入语音 X → 特征提取
    ├─→ 直接作为输入特征
    └─→ 通过Enrollment Augmentation → 目标说话人嵌入

推理阶段：
输入语音 X → 特征提取
注册语音 Y → 特征提取 → 目标说话人嵌入

Enrollment Augmentation技术：

$$\tilde{e} = \text{Dropout}(\text{SpecAugment}(e))$$

其中$e$是从输入语音提取的说话人嵌入。

关键设计原则：

保持说话人身份不变
创造嵌入空间的多样性
模拟真实注册语音与输入语音的差异

2.4 实验验证

嵌入相似度分析：

方法	同一说话人余弦相似度	不同说话人余弦相似度
无增强	1.0（完全相同）	-
SpecAugment	0.82	0.31
Dropout	0.88	0.28
SpecAugment + Dropout	0.76	0.29

性能对比：

训练方式	数据类型	测试AUC
传统方法	Enrollment-full	0.892
无注册训练	Enrollment-less	0.918

2.5 数学公式

PVAD条件概率：

$$P(qt|x_1, ..., x_t, Y, \theta) = F(x_1, ..., x_t, Y; \theta){q_t}$$

其中：

$q_t \in {0, 1}$：目标说话人是否在第t帧说话
$x_t$：第t帧特征
$Y$：注册语音
$\theta$：模型参数

损失函数：

$$L{CE}^P = -\frac{1}{|D_P|} \sum{(X, Y, q) \in D_P} \sum_t \log P(q_t|x_1, ..., x_t, Y, \theta_P)$$

三、关键技术进展

3.1 骨传导麦克风Personal VAD (Schilk et al., 2023)

问题： 传统空气传导麦克风在嘈杂环境中难以区分说话人

解决方案：骨传导麦克风 + TinyML

技术路线：

骨传导麦克风 → 特征提取(MFCC) → RNN模型 → 语音活动检测

硬件平台：

Ambiq Apollo 4 Blue SoC
MEMS骨传导麦克风

性能指标：

指标	数值
延迟	12.8ms
准确率	95%
功耗	2.64mW
每次推理能耗	14μJ
电池续航(32mAh)	43小时

技术优势：

骨传导天然隔绝外部噪声
低功耗适合可穿戴设备
无需说话人注册数据

3.2 MIMO-TSVAD中的音视频Personal VAD

在MIMO-TSVAD框架中，Personal VAD可以通过嘴唇轨迹实现：

嘴唇嵌入提取：

$$E{lip} = \text{LipEncoder}(V{lip})$$

其中$V_{lip}$是目标说话人的嘴唇视频轨迹。

优势：

视觉信息完全不受其他说话人干扰
无需额外的说话人注册过程
支持实时跟踪

四、TS-VAD与Personal VAD的关系

4.1 技术统一视角

TS-VAD = 多个Personal VAD并行 + 联合建模

共同点：

都需要目标说话人的声学/视觉特征
都进行帧级二分类
都使用神经网络端到端学习

区别：

特性	Personal VAD	TS-VAD
说话人数	1（目标说话人）	N（所有参与者）
输出	单一二分类	N个二分类
联合建模	无	有（跨说话人相关性）
典型应用	语音助手	会议日志

4.2 技术演进路径

Personal VAD (单说话人)
    ↓ 扩展
TS-VAD (固定N说话人)
    ↓ 改进
TS-VAD++ (灵活N说话人)
    ↓ 融合
MIMO-TSVAD (音视频 + 模态缺失鲁棒)

第三部分：方法论深度分析

一、模型架构对比

1.1 编码器设计

音频编码器：

方法	架构	特点
原始TS-VAD	CNN + BLSTM	逐帧特征提取 + 时序建模
Trans-TSVAD	Transformer	并行计算，全局注意力
MIMO-TSVAD	多模态Transformer	跨模态注意力融合

视频编码器（MIMO-TSVAD）：

嘴唇帧序列 → 3D-CNN → 时序Transformer → 视觉嵌入

1.2 说话人嵌入提取

i-vector（传统方法）：

$$i = T^{-1} \cdot F(x)$$

其中$T$是总变化矩阵，$F(x)$是充分统计量。

d-vector / x-vector（深度方法）：

$$e = \text{DNN}_{spk}(x)$$

嘴唇嵌入（视觉方法）：

$$e{lip} = \text{LipNet}(V{lip})$$

1.3 融合机制

早期融合（原始TS-VAD）：

$$H = E{audio}; E{spk}$$

注意力融合（多通道）：

$$H = \sum_c \alpha_c H_c$$

跨模态Transformer（MIMO-TSVAD）：

# 跨模态注意力
Q = W_q(E_audio)
K = W_k(E_video)
V = W_v(E_video)
cross_attn = softmax(QK^T / sqrt(d)) V

二、损失函数设计

2.1 二元交叉熵（基础）

$$L{BCE} = -\frac{1}{T} \sum{t=1}^{T} y_t \log \hat{y}_t + (1-y_t)\log(1-\hat{y}_t)$$

2.2 排列不变训练（多说话人）

$$L{PIT} = \min{\pi \in \Pi} \sum{i=1}^{N} L{BCE}(y_{\pi(i)}, \hat{y}_i)$$

其中$\Pi$是所有排列的集合。

2.3 说话人存在损失（EEND-EDA）

$$L{exist} = -\frac{1}{N+1} \sum{n=1}^{N+1} e_n \log \hat{e}_n + (1-e_n)\log(1-\hat{e}_n)$$

其中$e_n$表示第n个attractor是否存在。

三、训练策略

3.1 数据增强

音频增强：

SpecAugment：时间扭曲、频率掩蔽、时间掩蔽
噪声添加：MUSAN、RIR混响
房间脉冲响应卷积

视频增强：

随机裁剪、水平翻转
时间抖动
模态随机丢弃（MIMO-TSVAD）

3.2 迭代训练（TS-VAD特有）

for iteration in range(max_iter):
    # Step 1: 提取说话人嵌入
    embeddings = extract_ivectors(initial_diarization)
    
    # Step 2: TS-VAD预测
    activities = TS_VAD(audio, embeddings)
    
    # Step 3: 更新分段
    diarization = activities_to_segments(activities)
    
    # Step 4: 更新嵌入
    embeddings = extract_ivectors(diarization)
    
    # 检查收敛
    if converged:
        break

3.3 无注册训练（Personal VAD）

def enrollment_less_training(utterance):
    # 从同一语音提取嵌入
    enrollment_embed = speaker_encoder(utterance)
    
    # Enrollment Augmentation
    augmented_embed = spec_augment(enrollment_embed)
    augmented_embed = dropout(augmented_embed)
    
    # PVAD预测
    input_feat = feature_extractor(utterance)
    prediction = PVAD(input_feat, augmented_embed)
    
    return prediction

第四部分：实验基准与性能分析

一、主要数据集

数据集	类型	时长	说话人数	特点
CHiME-6	晚餐聚会	33h	4/会话	高重叠、多通道
DIHARD-III	多场景	47h	变化	高难度基准
VoxConverse	视频/访谈	216h	变化	开源标准
LibriCSS	模拟会议	10h	0-8	可控重叠
CALLHOME	电话通话	20h	2-7	经典基准

二、性能指标

2.1 日志错误率（DER）

$$DER = \frac{FA + MISS + SPKERR}{TOTAL}$$

其中：

FA：误检语音时长
MISS：漏检语音时长
SPKERR：说话人错误时长
TOTAL：总语音时长（含重叠）

2.2 覆盖错误率（CER，音视频数据集）

$$CER = \frac{FP{frame} + FN{frame}}{N_{frame}}$$

三、SOTA性能对比

3.1 音频TS-VAD

方法	CHiME-6	DIHARD-III	VoxConverse
VBx基线	64.8%	23.4%	7.2%
EEND-EDA	-	15.8%	5.18%
TS-VAD	36.0%	14.2%	5.8%
Trans-TSVAD	-	12.1%	4.57%

3.2 音视频融合

方法	VoxConverse	DIHARD-III	MISP 2022
纯音频	5.25%	12.6%	11.2%
纯视频	8.3%	18.4%	14.6%
MIMO-TSVAD	4.18%	10.10%	8.15%

第五部分：应用场景与未来方向

一、实际应用

1.1 会议转录系统

多通道音频 → 初始日志 → TS-VAD → 精确分段 → ASR → 转录

商业产品： Microsoft Teams、Zoom、Otter.ai

1.2 智能音箱/耳机

麦克风阵列 → VAD → Personal VAD → 关键词检测 → 语音助手

挑战： 低功耗、实时性、无注册用户适应

1.3 助听器增强

骨传导Personal VAD + 目标语音提取 → 增强目标说话人

1.4 视频内容分析

音视频TS-VAD → 说话人标注 → 字幕生成、内容检索

二、开放问题与未来方向

2.1 计算效率

问题： TS-VAD需要迭代和初始系统，计算开销大

方向：

轻量化架构设计
知识蒸馏
流式推理

2.2 长音频处理

问题： Transformer复杂度O(T²)，长音频内存消耗大

方向：

分块处理
线性注意力机制
状态空间模型

2.3 说话人数上限

问题： 理论上说话人数越多，性能越差

方向：

动态输出维度
层次化说话人建模

2.4 跨模态对齐

问题： 音视频特征空间不对齐

方向：

对比学习预训练
跨模态知识蒸馏

2.5 无监督/半监督学习

问题： 标注数据成本高

方向：

自监督说话人表征学习
无监督TS-VAD

第六部分：总结

技术里程碑

年份	里程碑	核心贡献
2020	TS-VAD诞生	将日志转化为多标签分类，突破重叠语音瓶颈
2021	未知说话人数	解决实际应用中说话人数未知的限制
2021	无注册PVAD训练	使PVAD可利用大规模无标签数据
2022	Transformer TS-VAD	提升模型性能，处理任意说话人数
2023	骨传导PVAD	实现毫瓦级功耗的Personal VAD
2025	音视频MIMO-TSVAD	统一框架处理多模态输入和模态缺失

核心洞察

范式转变：从"分段-聚类"到"端到端预测"，TS-VAD代表了说话人日志的根本性方法创新
联合建模的价值：跨说话人相关性建模是处理重叠语音的关键
多模态互补：音频容忍噪声，视频容忍重叠，融合实现最优性能
实用性考量：说话人数灵活性、模态缺失鲁棒性、低功耗设计是实际部署的关键

对ASD领域的启发

TS-VAD的思想与活跃说话人检测（ASD）高度相关：

都需要判断特定说话人的语音活动
都面临多说话人重叠挑战
都可受益于音视频融合

未来研究方向：将TS-VAD框架与ASD任务更紧密结合，实现端到端的多说话人活跃说话人检测。

参考文献

奠基论文

Medennikov et al., "Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario", arXiv:2005.07272, 2020
Makishima et al., "Enrollment-less training for personalized voice activity detection", arXiv:2106.12132, 2021

关键改进

He et al., "Target-speaker Voice Activity Detection with Improved I-Vector Estimation for Unknown Number of Speaker", arXiv:2108.03342, 2021
Wang et al., "Target Speaker Voice Activity Detection with Transformers and Its Integration with End-to-End Neural Diarization", arXiv:2208.13085, 2022
He et al., "The USTC-XIMALAYA System for the ICASSP 2022 M2MeT Challenge", arXiv:2202.04855, 2022