我不确定我能区分和理解以下几个方面的区别:
VAD (语音活动检测)和Speaker Segmentation我了解到:
例如:
VAD = [not speech, speech, not speech, speech, not speech]
Speaker Segmentation = [not speech, speech , not speech, speech A, speech B, not speech] 我说得对吗?
我的例子正确吗?
发布于 2023-04-07 07:19:11
在语音活动检测(VAD)中,并不能保证活动实际上是语音--仅仅是声音。例如,它也可能触发非语音声音,如唱歌,哼唱等。VAD的基本方法,如基于能量的VAD,也可以很容易地触发与声音(如小提琴、吉他等)相同频谱中的和弦音乐。有些VAD之所以如此简单,是因为它们被用作计算效率高的预处理步骤.
语音分割是一种稍微严格的任务描述,它的目的是避免VAD存在的这些问题。
说话人分割没有明确的“语音”类。虽然可以用speech = any(speakerA, speakerB, ...)合成。
所以我会稍微调整你的例子,使之成为:
VAD = [ other, voice, other, voice, other]
Speaker Segmentation = [ speakerA, no-speaker, speaker-B, no-speaker ]https://datascience.stackexchange.com/questions/120674
复制相似问题