首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >TS-VAD与Personal VAD:目标说话人语音活动检测技术深度分析报告

TS-VAD与Personal VAD:目标说话人语音活动检测技术深度分析报告

原创
作者头像
buzzfrog
发布2026-03-19 10:39:01
发布2026-03-19 10:39:01
1040
举报
文章被收录于专栏:云上修行云上修行

概述

本报告对目标说话人语音活动检测(Target-Speaker Voice Activity Detection, TS-VAD)和个性化语音活动检测(Personalized Voice Activity Detection, Personal VAD/PVAD)领域的奠基性工作和最新SOTA方法进行全面深度分析。这两项技术是说话人日志(Speaker Diarization)领域的关键突破,为解决高度重叠语音场景下的"谁在何时说话"问题提供了全新的技术范式。


第一部分:TS-VAD技术分析

一、技术背景与问题定义

1.1 传统说话人日志的局限性

传统说话人日志系统采用级联架构:

代码语言:txt
复制
语音活动检测(VAD) → 分段 → 说话人特征提取 → 聚类 → 重分段

核心缺陷:

  • 单说话人假设:每个音频段只能分配一个说话人标签
  • 重叠语音处理能力弱:聚类方法无法处理多人同时说话
  • 性能瓶颈:CHiME-6数据集上DER(Diarization Error Rate)高达60%以上

1.2 TS-VAD的创新思想

TS-VAD将说话人日志问题转化为多标签分类问题

  • 给定N个说话人的声学特征(如i-vector)
  • 对每一帧预测N个说话人的语音活动状态
  • 天然支持重叠语音场景

核心优势:

传统方法

TS-VAD

单说话人假设

多说话人并行预测

聚类依赖距离度量

神经网络端到端学习

重叠语音需后处理

原生支持重叠

DER ~60% (CHiME-6)

DER ~33% (CHiME-6)


二、奠基性工作:TS-VAD (Medennikov et al., 2020)

2.1 论文基本信息

  • 标题: Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario
  • arXiv ID: 2005.07272
  • 机构: STC-innovations Ltd, ITMO University
  • 发表场合: CHiME-6 Challenge

2.2 核心贡献

贡献1:TS-VAD架构设计

模型由三个核心模块组成:

代码语言:txt
复制
输入层:MFCC/Fbank特征 + 说话人i-vectors
    ↓
编码器:CNN提取帧级嵌入
    ↓
独立说话人检测(ISD):BLSTM处理每个说话人独立特征
    ↓
联合说话人检测(JSD):BLSTM建模跨说话人和跨时间信息
    ↓
输出层:N个二分类头,预测每个说话人的帧级活动

数学表达:

设输入特征为$X \in \mathbb{R}^{T \times F}$(T帧,F维特征),说话人profile为$P \in \mathbb{R}^{N \times S}$(N个说话人,S维i-vector),则:

$$H^{(0)} = \text{CNN}(X) \in \mathbb{R}^{T \times D}$$

对于第$i$个说话人:

$$Hi^{(ISD)} = \text{BLSTM}{ISD}(H^{(0)}; p_i)$$

联合处理:

$$H^{(JSD)} = \text{BLSTM}_{JSD}(H_1^{(ISD)}; H_2^{(ISD)}; ...; H_N^{(ISD)})$$

输出:

$$\hat{y}_i(t) = \sigma(W_i \cdot H^{(JSD)}(t) + b_i)$$

贡献2:迭代i-vector估计策略

由于真实场景中没有预先知道的说话人profile,论文提出迭代估计方法:

  1. 使用强聚类系统获得初始说话人分段
  2. 提取初始i-vectors
  3. TS-VAD预测更精确的活动
  4. 更新i-vectors
  5. 迭代直至收敛

贡献3:多通道扩展

使用注意力机制融合多通道信息:

$$H^{(mc)} = \sum_{c=1}^{C} \alpha_c H^{(c)}$$

$$\alphac = \frac{\exp(w^T H^{(c)})}{\sum{c'}\exp(w^T H^{(c')})}$$

2.3 实验结果

在CHiME-6数据集上:

系统

Dev DER

Eval DER

x-vector基线

62.1%

64.8%

BUT (DIHARD II最佳)

~60%

~60%

TS-VAD

33.0%

36.0%

改进幅度:超过30%绝对DER降低


三、关键技术改进

3.1 未知说话人数处理 (He et al., 2021, arXiv:2108.03342)

问题: 原始TS-VAD需要固定(已知)说话人数量

解决方案:

  1. 说话人数量估计
    • 使用初始日志系统估计说话人数量$\hat{N}$
    • TS-VAD输出节点数$N$设为训练集最大值
  2. 输出掩码策略
    • 若$\hat{N} = N$:直接使用
    • 若$\hat{N} < N$:$\hat{N}$个节点分配真实说话人,其余分配虚拟说话人
    • 若$\hat{N} > N$:选择非重叠说话时长最长的$N$个说话人
  3. 融合初始化
    • 结合聚类系统和区域提案网络(RPN)的互补优势
    • 加权平均帧级决策获得更优初始化

实验结果(LibriCSS):

方法

0L

0S

OV10

OV20

OV30

OV40

VBx基线

5.6

6.7

11.3

16.8

23.4

32.3

TS-VAD

3.7

4.8

6.9

10.1

14.2

20.8

注:OVxx表示xx%重叠率

3.2 Transformer架构 (Wang et al., 2022, arXiv:2208.13085)

问题: 原始BLSTM架构的JSD模块通过拼接处理所有说话人,限制了说话人数量灵活性

解决方案:Transformer跨说话人建模

代码语言:txt
复制
输入张量:T × S × F (时间 × 说话人 × 特征)
    ↓
交替应用:
  - S轴Transformer(无位置编码)→ 说话人顺序不变
  - T轴Transformer/BLSTM → 时序建模
    ↓
输出:每个说话人的语音活动概率

关键设计:

  • S轴Transformer不使用位置编码,确保输出对说话人profile输入顺序不变
  • T轴可选Transformer或BLSTM

与EEND-EDA的融合:

将EEND-EDA的点积匹配模块替换为Transformer-based TS-VAD:

系统

VoxConverse DER

CALLHOME DER

EEND-EDA

5.18%

12.01%

EEND-EDA + TS-VAD

4.57%

11.18%

3.3 音视频融合:MIMO-TSVAD (Cheng & Li, 2025, arXiv:2401.08052)

问题: 纯音频TS-VAD在高度重叠场景仍有局限;视频信息天然容忍重叠但存在遮挡问题

解决方案:多输入多输出框架

代码语言:txt
复制
支持四种输入组合:
1. X_a vs E_spk  (音频特征 + 说话人嵌入) → 纯音频模式
2. X_v vs E_lip  (视频特征 + 嘴唇嵌入) → 纯视频模式
3. X_a + X_v vs E_lip              → 音视频混合
4. X_a + X_v vs E_spk + E_lip      → 完全融合模式

架构创新:序列到序列设计

代码语言:python
复制
# 编码器
H = Encoder(X_audio, X_video)  # 多模态编码

# 解码器(支持多任务)
activities = Decoder(H, E_spk, E_lip)  # 说话人/嘴唇嵌入引导

# 灵活输出分辨率
# 输入长度T → 输出长度T' (可调节)

处理模态缺失:

  • 训练时随机丢弃模态,增强鲁棒性
  • 推理时自动适应可用模态组合

实验结果:

数据集

基线DER

MIMO-TSVAD DER

改进

VoxConverse

5.25%

4.18%

20.4%

DIHARD-III

12.6%

10.10%

19.8%

MISP 2022

11.2%

8.15%

27.2%


四、最新SOTA方法对比

方法

核心创新

说话人数

重叠处理

DER (典型数据集)

TS-VAD (2020)

奠基架构

固定

CHiME-6: 36%

TS-VAD++ (2021)

未知说话人数

灵活

LibriCSS: 20.8%

Trans-TSVAD (2022)

Transformer

任意

VoxConverse: 4.57%

MIMO-TSVAD (2025)

音视频融合

任意

✓✓

VoxConverse: 4.18%


第二部分:Personal VAD技术分析

一、技术背景与问题定义

1.1 标准VAD vs Personal VAD

特性

标准VAD

Personal VAD

目标

检测所有语音

仅检测目标说话人语音

输入

音频

音频 + 目标说话人嵌入

应用

通用语音处理

个性化语音助手、会议系统

挑战

噪声鲁棒性

说话人区分 + 噪声鲁棒性

1.2 Personal VAD的应用场景

  1. 智能语音助手:仅响应用户语音,忽略背景他人
  2. 会议转录系统:区分目标说话人与其他参会者
  3. 助听器/耳机:增强目标说话人语音
  4. 安全系统:基于声纹的语音激活

二、奠基性工作:Enrollment-less Personal VAD (Makishima et al., 2021)

2.1 论文基本信息

  • 标题: Enrollment-less training for personalized voice activity detection
  • arXiv ID: 2106.12132
  • 机构: NTT Corporation

2.2 核心问题

传统PVAD训练需要enrollment-full数据

  • 每个说话人需要多条语音用于训练
  • 需要说话人标签
  • 数据准备成本高昂

大量标准VAD数据集(如VoiceActivity)缺乏说话人标签,无法直接用于PVAD训练。

2.3 核心创新:无注册训练(Enrollment-less Training)

核心思想:

训练时,将同一条语音同时用作输入和注册语音,通过数据增强创造差异。

方法流程:

代码语言:txt
复制
训练阶段:
输入语音 X → 特征提取
    ├─→ 直接作为输入特征
    └─→ 通过Enrollment Augmentation → 目标说话人嵌入

推理阶段:
输入语音 X → 特征提取
注册语音 Y → 特征提取 → 目标说话人嵌入

Enrollment Augmentation技术:

$$\tilde{e} = \text{Dropout}(\text{SpecAugment}(e))$$

其中$e$是从输入语音提取的说话人嵌入。

关键设计原则:

  • 保持说话人身份不变
  • 创造嵌入空间的多样性
  • 模拟真实注册语音与输入语音的差异

2.4 实验验证

嵌入相似度分析:

方法

同一说话人余弦相似度

不同说话人余弦相似度

无增强

1.0(完全相同)

-

SpecAugment

0.82

0.31

Dropout

0.88

0.28

SpecAugment + Dropout

0.76

0.29

性能对比:

训练方式

数据类型

测试AUC

传统方法

Enrollment-full

0.892

无注册训练

Enrollment-less

0.918

2.5 数学公式

PVAD条件概率:

$$P(qt|x_1, ..., x_t, Y, \theta) = F(x_1, ..., x_t, Y; \theta){q_t}$$

其中:

  • $q_t \in {0, 1}$:目标说话人是否在第t帧说话
  • $x_t$:第t帧特征
  • $Y$:注册语音
  • $\theta$:模型参数

损失函数:

$$L{CE}^P = -\frac{1}{|D_P|} \sum{(X, Y, q) \in D_P} \sum_t \log P(q_t|x_1, ..., x_t, Y, \theta_P)$$


三、关键技术进展

3.1 骨传导麦克风Personal VAD (Schilk et al., 2023)

问题: 传统空气传导麦克风在嘈杂环境中难以区分说话人

解决方案:骨传导麦克风 + TinyML

技术路线:

代码语言:txt
复制
骨传导麦克风 → 特征提取(MFCC) → RNN模型 → 语音活动检测

硬件平台:

  • Ambiq Apollo 4 Blue SoC
  • MEMS骨传导麦克风

性能指标:

指标

数值

延迟

12.8ms

准确率

95%

功耗

2.64mW

每次推理能耗

14μJ

电池续航(32mAh)

43小时

技术优势:

  • 骨传导天然隔绝外部噪声
  • 低功耗适合可穿戴设备
  • 无需说话人注册数据

3.2 MIMO-TSVAD中的音视频Personal VAD

在MIMO-TSVAD框架中,Personal VAD可以通过嘴唇轨迹实现:

嘴唇嵌入提取:

$$E{lip} = \text{LipEncoder}(V{lip})$$

其中$V_{lip}$是目标说话人的嘴唇视频轨迹。

优势:

  • 视觉信息完全不受其他说话人干扰
  • 无需额外的说话人注册过程
  • 支持实时跟踪

四、TS-VAD与Personal VAD的关系

4.1 技术统一视角

代码语言:txt
复制
TS-VAD = 多个Personal VAD并行 + 联合建模

共同点:

  • 都需要目标说话人的声学/视觉特征
  • 都进行帧级二分类
  • 都使用神经网络端到端学习

区别:

特性

Personal VAD

TS-VAD

说话人数

1(目标说话人)

N(所有参与者)

输出

单一二分类

N个二分类

联合建模

有(跨说话人相关性)

典型应用

语音助手

会议日志

4.2 技术演进路径

代码语言:txt
复制
Personal VAD (单说话人)
    ↓ 扩展
TS-VAD (固定N说话人)
    ↓ 改进
TS-VAD++ (灵活N说话人)
    ↓ 融合
MIMO-TSVAD (音视频 + 模态缺失鲁棒)

第三部分:方法论深度分析

一、模型架构对比

1.1 编码器设计

音频编码器:

方法

架构

特点

原始TS-VAD

CNN + BLSTM

逐帧特征提取 + 时序建模

Trans-TSVAD

Transformer

并行计算,全局注意力

MIMO-TSVAD

多模态Transformer

跨模态注意力融合

视频编码器(MIMO-TSVAD):

代码语言:txt
复制
嘴唇帧序列 → 3D-CNN → 时序Transformer → 视觉嵌入

1.2 说话人嵌入提取

i-vector(传统方法):

$$i = T^{-1} \cdot F(x)$$

其中$T$是总变化矩阵,$F(x)$是充分统计量。

d-vector / x-vector(深度方法):

$$e = \text{DNN}_{spk}(x)$$

嘴唇嵌入(视觉方法):

$$e{lip} = \text{LipNet}(V{lip})$$

1.3 融合机制

早期融合(原始TS-VAD):

$$H = E{audio}; E{spk}$$

注意力融合(多通道):

$$H = \sum_c \alpha_c H_c$$

跨模态Transformer(MIMO-TSVAD):

代码语言:python
复制
# 跨模态注意力
Q = W_q(E_audio)
K = W_k(E_video)
V = W_v(E_video)
cross_attn = softmax(QK^T / sqrt(d)) V

二、损失函数设计

2.1 二元交叉熵(基础)

$$L{BCE} = -\frac{1}{T} \sum{t=1}^{T} y_t \log \hat{y}_t + (1-y_t)\log(1-\hat{y}_t)$$

2.2 排列不变训练(多说话人)

$$L{PIT} = \min{\pi \in \Pi} \sum{i=1}^{N} L{BCE}(y_{\pi(i)}, \hat{y}_i)$$

其中$\Pi$是所有排列的集合。

2.3 说话人存在损失(EEND-EDA)

$$L{exist} = -\frac{1}{N+1} \sum{n=1}^{N+1} e_n \log \hat{e}_n + (1-e_n)\log(1-\hat{e}_n)$$

其中$e_n$表示第n个attractor是否存在。


三、训练策略

3.1 数据增强

音频增强:

  • SpecAugment:时间扭曲、频率掩蔽、时间掩蔽
  • 噪声添加:MUSAN、RIR混响
  • 房间脉冲响应卷积

视频增强:

  • 随机裁剪、水平翻转
  • 时间抖动
  • 模态随机丢弃(MIMO-TSVAD)

3.2 迭代训练(TS-VAD特有)

代码语言:python
复制
for iteration in range(max_iter):
    # Step 1: 提取说话人嵌入
    embeddings = extract_ivectors(initial_diarization)
    
    # Step 2: TS-VAD预测
    activities = TS_VAD(audio, embeddings)
    
    # Step 3: 更新分段
    diarization = activities_to_segments(activities)
    
    # Step 4: 更新嵌入
    embeddings = extract_ivectors(diarization)
    
    # 检查收敛
    if converged:
        break

3.3 无注册训练(Personal VAD)

代码语言:python
复制
def enrollment_less_training(utterance):
    # 从同一语音提取嵌入
    enrollment_embed = speaker_encoder(utterance)
    
    # Enrollment Augmentation
    augmented_embed = spec_augment(enrollment_embed)
    augmented_embed = dropout(augmented_embed)
    
    # PVAD预测
    input_feat = feature_extractor(utterance)
    prediction = PVAD(input_feat, augmented_embed)
    
    return prediction

第四部分:实验基准与性能分析

一、主要数据集

数据集

类型

时长

说话人数

特点

CHiME-6

晚餐聚会

33h

4/会话

高重叠、多通道

DIHARD-III

多场景

47h

变化

高难度基准

VoxConverse

视频/访谈

216h

变化

开源标准

LibriCSS

模拟会议

10h

0-8

可控重叠

CALLHOME

电话通话

20h

2-7

经典基准

二、性能指标

2.1 日志错误率(DER)

$$DER = \frac{FA + MISS + SPKERR}{TOTAL}$$

其中:

  • FA:误检语音时长
  • MISS:漏检语音时长
  • SPKERR:说话人错误时长
  • TOTAL:总语音时长(含重叠)

2.2 覆盖错误率(CER,音视频数据集)

$$CER = \frac{FP{frame} + FN{frame}}{N_{frame}}$$

三、SOTA性能对比

3.1 音频TS-VAD

方法

CHiME-6

DIHARD-III

VoxConverse

VBx基线

64.8%

23.4%

7.2%

EEND-EDA

-

15.8%

5.18%

TS-VAD

36.0%

14.2%

5.8%

Trans-TSVAD

-

12.1%

4.57%

3.2 音视频融合

方法

VoxConverse

DIHARD-III

MISP 2022

纯音频

5.25%

12.6%

11.2%

纯视频

8.3%

18.4%

14.6%

MIMO-TSVAD

4.18%

10.10%

8.15%


第五部分:应用场景与未来方向

一、实际应用

1.1 会议转录系统

代码语言:txt
复制
多通道音频 → 初始日志 → TS-VAD → 精确分段 → ASR → 转录

商业产品: Microsoft Teams、Zoom、Otter.ai

1.2 智能音箱/耳机

代码语言:txt
复制
麦克风阵列 → VAD → Personal VAD → 关键词检测 → 语音助手

挑战: 低功耗、实时性、无注册用户适应

1.3 助听器增强

骨传导Personal VAD + 目标语音提取 → 增强目标说话人

1.4 视频内容分析

音视频TS-VAD → 说话人标注 → 字幕生成、内容检索

二、开放问题与未来方向

2.1 计算效率

问题: TS-VAD需要迭代和初始系统,计算开销大

方向:

  • 轻量化架构设计
  • 知识蒸馏
  • 流式推理

2.2 长音频处理

问题: Transformer复杂度O(T²),长音频内存消耗大

方向:

  • 分块处理
  • 线性注意力机制
  • 状态空间模型

2.3 说话人数上限

问题: 理论上说话人数越多,性能越差

方向:

  • 动态输出维度
  • 层次化说话人建模

2.4 跨模态对齐

问题: 音视频特征空间不对齐

方向:

  • 对比学习预训练
  • 跨模态知识蒸馏

2.5 无监督/半监督学习

问题: 标注数据成本高

方向:

  • 自监督说话人表征学习
  • 无监督TS-VAD

第六部分:总结

技术里程碑

年份

里程碑

核心贡献

2020

TS-VAD诞生

将日志转化为多标签分类,突破重叠语音瓶颈

2021

未知说话人数

解决实际应用中说话人数未知的限制

2021

无注册PVAD训练

使PVAD可利用大规模无标签数据

2022

Transformer TS-VAD

提升模型性能,处理任意说话人数

2023

骨传导PVAD

实现毫瓦级功耗的Personal VAD

2025

音视频MIMO-TSVAD

统一框架处理多模态输入和模态缺失

核心洞察

  1. 范式转变:从"分段-聚类"到"端到端预测",TS-VAD代表了说话人日志的根本性方法创新
  2. 联合建模的价值:跨说话人相关性建模是处理重叠语音的关键
  3. 多模态互补:音频容忍噪声,视频容忍重叠,融合实现最优性能
  4. 实用性考量:说话人数灵活性、模态缺失鲁棒性、低功耗设计是实际部署的关键

对ASD领域的启发

TS-VAD的思想与活跃说话人检测(ASD)高度相关:

  • 都需要判断特定说话人的语音活动
  • 都面临多说话人重叠挑战
  • 都可受益于音视频融合

未来研究方向:将TS-VAD框架与ASD任务更紧密结合,实现端到端的多说话人活跃说话人检测。


参考文献

奠基论文

  1. Medennikov et al., "Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario", arXiv:2005.07272, 2020
  2. Makishima et al., "Enrollment-less training for personalized voice activity detection", arXiv:2106.12132, 2021

关键改进

  1. He et al., "Target-speaker Voice Activity Detection with Improved I-Vector Estimation for Unknown Number of Speaker", arXiv:2108.03342, 2021
  2. Wang et al., "Target Speaker Voice Activity Detection with Transformers and Its Integration with End-to-End Neural Diarization", arXiv:2208.13085, 2022
  3. He et al., "The USTC-XIMALAYA System for the ICASSP 2022 M2MeT Challenge", arXiv:2202.04855, 2022

最新SOTA

  1. Cheng & Li, "Multi-Input Multi-Output Target-Speaker Voice Activity Detection For Unified, Flexible, and Robust Audio-Visual Speaker Diarization", arXiv:2401.08052, 2025
  2. Schilk et al., "In-Ear-Voice: Towards Milli-Watt Audio Enhancement With Bone-Conduction Microphones", arXiv:2309.02393, 2023

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
  • 第一部分:TS-VAD技术分析
    • 一、技术背景与问题定义
      • 1.1 传统说话人日志的局限性
      • 1.2 TS-VAD的创新思想
    • 二、奠基性工作:TS-VAD (Medennikov et al., 2020)
      • 2.1 论文基本信息
      • 2.2 核心贡献
      • 2.3 实验结果
    • 三、关键技术改进
      • 3.1 未知说话人数处理 (He et al., 2021, arXiv:2108.03342)
      • 3.2 Transformer架构 (Wang et al., 2022, arXiv:2208.13085)
      • 3.3 音视频融合:MIMO-TSVAD (Cheng & Li, 2025, arXiv:2401.08052)
    • 四、最新SOTA方法对比
  • 第二部分:Personal VAD技术分析
    • 一、技术背景与问题定义
      • 1.1 标准VAD vs Personal VAD
      • 1.2 Personal VAD的应用场景
    • 二、奠基性工作:Enrollment-less Personal VAD (Makishima et al., 2021)
      • 2.1 论文基本信息
      • 2.2 核心问题
      • 2.3 核心创新:无注册训练(Enrollment-less Training)
      • 2.4 实验验证
      • 2.5 数学公式
    • 三、关键技术进展
      • 3.1 骨传导麦克风Personal VAD (Schilk et al., 2023)
      • 3.2 MIMO-TSVAD中的音视频Personal VAD
    • 四、TS-VAD与Personal VAD的关系
      • 4.1 技术统一视角
      • 4.2 技术演进路径
  • 第三部分:方法论深度分析
    • 一、模型架构对比
      • 1.1 编码器设计
      • 1.2 说话人嵌入提取
      • 1.3 融合机制
    • 二、损失函数设计
      • 2.1 二元交叉熵(基础)
      • 2.2 排列不变训练(多说话人)
      • 2.3 说话人存在损失(EEND-EDA)
    • 三、训练策略
      • 3.1 数据增强
      • 3.2 迭代训练(TS-VAD特有)
      • 3.3 无注册训练(Personal VAD)
  • 第四部分:实验基准与性能分析
    • 一、主要数据集
    • 二、性能指标
      • 2.1 日志错误率(DER)
      • 2.2 覆盖错误率(CER,音视频数据集)
    • 三、SOTA性能对比
      • 3.1 音频TS-VAD
      • 3.2 音视频融合
  • 第五部分:应用场景与未来方向
    • 一、实际应用
      • 1.1 会议转录系统
      • 1.2 智能音箱/耳机
      • 1.3 助听器增强
      • 1.4 视频内容分析
    • 二、开放问题与未来方向
      • 2.1 计算效率
      • 2.2 长音频处理
      • 2.3 说话人数上限
      • 2.4 跨模态对齐
      • 2.5 无监督/半监督学习
  • 第六部分:总结
    • 技术里程碑
    • 核心洞察
    • 对ASD领域的启发
    • 参考文献
      • 奠基论文
      • 关键改进
      • 最新SOTA
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档