文章/答案/技术大牛

发布

社区首页 >问答首页 >音频分析:基于说话人识别的分段音频

问音频分析:基于说话人识别的分段音频
EN

Data Science用户

提问于 2018-06-18 00:50:57

回答 2查看 7K关注 0票数 8

我有被采访人的音频片段，我试图用python来分割音频片段，这样所有受访者的语音片段都被输出在一个音频文件中(如.wav格式)，即面试官的音频片段在另一个音频文件中。说话人识别需要使用无监督学习。

到目前为止，我已经找到了一些执行扬声器数字化任务(pyAudioAnalysis，阿尔托语)的库，但是没有一个库将不同的扬声器片段组合在一起并将其输出到单独的音频文件中。如何分割音频文件，并根据扬声器组合它们？

python

data-cleaning

audio-recognition

回答 2

Data Science用户

发布于 2020-01-21 10:17:31

最初，我使用了沉默检测，但后来转到了pyAudioAnalsis，这更好。

检查单组分分析中的分割中的“说话人二次化”部分

票数 3

Data Science用户

发布于 2020-09-10 14:41:07

我假设您使用wavfile.read从scipy.io读取音频文件。

我的方法是使N数组(每个扬声器一个)具有与原始音频数组相同的大小，但是填充了零(=静默)。对于每一个被二次化检测到的说话人，将他们的所有片段分配给说话者阵列中的相应片段。

最后，您可以将每个扬声器的数组保存在一个单独的文件中。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/33291

复制

相似问题

问音频分析:基于说话人识别的分段音频
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问音频分析:基于说话人识别的分段音频EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问音频分析:基于说话人识别的分段音频
EN