首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >VAD和说话人分割有什么区别?

VAD和说话人分割有什么区别?
EN

Data Science用户
提问于 2023-04-03 14:50:56
回答 1查看 13关注 0票数 0

我不确定我能区分和理解以下几个方面的区别:

  • VAD (语音活动检测)和
  • Speaker Segmentation

我了解到:

  • VAD -分割语音段或非语音段的音频
  • 扬声器分割-将音频分割成非语音片段和不同的扬声器

例如:

代码语言:javascript
复制
VAD                  = [not speech, speech,  not speech,         speech,      not speech] 

Speaker Segmentation = [not speech, speech , not speech,  speech A, speech B, not speech] 

我说得对吗?

我的例子正确吗?

EN

回答 1

Data Science用户

发布于 2023-04-07 07:19:11

在语音活动检测(VAD)中,并不能保证活动实际上是语音--仅仅是声音。例如,它也可能触发非语音声音,如唱歌,哼唱等。VAD的基本方法,如基于能量的VAD,也可以很容易地触发与声音(如小提琴、吉他等)相同频谱中的和弦音乐。有些VAD之所以如此简单,是因为它们被用作计算效率高的预处理步骤.

语音分割是一种稍微严格的任务描述,它的目的是避免VAD存在的这些问题。

说话人分割没有明确的“语音”类。虽然可以用speech = any(speakerA, speakerB, ...)合成。

所以我会稍微调整你的例子,使之成为:

代码语言:javascript
复制
VAD = [ other, voice, other, voice, other] 
Speaker Segmentation = [ speakerA, no-speaker, speaker-B, no-speaker ]
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/120674

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档