文章/答案/技术大牛

发布

社区首页 >问答首页 >VAD和说话人分割有什么区别？

问VAD和说话人分割有什么区别？
EN

Data Science用户

提问于 2023-04-03 14:50:56

回答 1查看 13关注 0票数 0

我不确定我能区分和理解以下几个方面的区别：

VAD (语音活动检测)和
Speaker Segmentation

我了解到：

VAD -分割语音段或非语音段的音频
扬声器分割-将音频分割成非语音片段和不同的扬声器

例如：

VAD                  = [not speech, speech,  not speech,         speech,      not speech] 

Speaker Segmentation = [not speech, speech , not speech,  speech A, speech B, not speech]

我说得对吗？

我的例子正确吗？

deep-learning

voice

speaker-sgmentation

vad

回答 1

Data Science用户

发布于 2023-04-07 07:19:11

在语音活动检测(VAD)中，并不能保证活动实际上是语音--仅仅是声音。例如，它也可能触发非语音声音，如唱歌，哼唱等。VAD的基本方法，如基于能量的VAD，也可以很容易地触发与声音(如小提琴、吉他等)相同频谱中的和弦音乐。有些VAD之所以如此简单，是因为它们被用作计算效率高的预处理步骤.

语音分割是一种稍微严格的任务描述，它的目的是避免VAD存在的这些问题。

说话人分割没有明确的“语音”类。虽然可以用speech = any(speakerA, speakerB, ...)合成。

所以我会稍微调整你的例子，使之成为：

VAD = [ other, voice, other, voice, other] 
Speaker Segmentation = [ speakerA, no-speaker, speaker-B, no-speaker ]

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/120674

复制

相似问题

问VAD和说话人分割有什么区别？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问VAD和说话人分割有什么区别？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问VAD和说话人分割有什么区别？
EN