活跃说话人检测(ASD)任务在许多下游应用中起着至关重要的作用,包括说话人日志(Speaker Diarization)、音视频语音识别(Audiovisual Speech Recognition)以及人机交互(Human-Robot Interaction)。 在实际的商业与生活部署中,UniTalk所针对的场景完美契合了现代真实世界的需求,例如视频会议、社交媒体短视频以及现场直播。在这些场景中,模型必须处理极其复杂的状况,如未被充分代表的小语种、嘈杂的背景音(街道声音、音乐或重叠语音)以及涉及多人、遮挡或动态镜头运动的拥挤画面。