活跃说话人检测(ASD)任务在许多下游应用中起着至关重要的作用,包括说话人日志(Speaker Diarization)、音视频语音识别(Audiovisual Speech Recognition)以及人机交互(Human-Robot Interaction)。 在实际的商业与生活部署中,UniTalk所针对的场景完美契合了现代真实世界的需求,例如视频会议、社交媒体短视频以及现场直播。在这些场景中,模型必须处理极其复杂的状况,如未被充分代表的小语种、嘈杂的背景音(街道声音、音乐或重叠语音)以及涉及多人、遮挡或动态镜头运动的拥挤画面。

AVA数据集长期以来是ASD任务的事实基准,但它几乎完全基于电影(尤其是老电影)构建,存在显著的“领域差距(Domain Gap)”。相比之下,UniTalk具有以下压倒性优势:




UniTalk将测试集细分为四个专门设计的“压力测试”子集:


虽然UniTalk极具挑战性,但它提供了极其优质的泛化特征。实验表明,在UniTalk上训练的模型在未见过的真实数据集(如Talkies和ASW)上展现出了极强的零样本迁移能力(得分均在90 mAP以上)。此外,将UniTalk预训练的模型在AVA上进行微调,仅需3小时的AVA数据即可迅速达到92.4 mAP,使用全量数据可达95.7 mAP,同时还能保持在UniTalk本域上的优异表现。这证明了UniTalk不仅是一个严苛的测试场,更是通向通用ASD模型的优秀“预训练教练”。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。