首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >音频分析:基于说话人识别的分段音频

音频分析:基于说话人识别的分段音频
EN

Data Science用户
提问于 2018-06-18 00:50:57
回答 2查看 7K关注 0票数 8

我有被采访人的音频片段,我试图用python来分割音频片段,这样所有受访者的语音片段都被输出在一个音频文件中(如.wav格式),即面试官的音频片段在另一个音频文件中。说话人识别需要使用无监督学习。

到目前为止,我已经找到了一些执行扬声器数字化任务(pyAudioAnalysis阿尔托语)的库,但是没有一个库将不同的扬声器片段组合在一起并将其输出到单独的音频文件中。如何分割音频文件,并根据扬声器组合它们?

EN

回答 2

Data Science用户

发布于 2020-01-21 10:17:31

最初,我使用了沉默检测,但后来转到了pyAudioAnalsis,这更好。

检查单组分分析中的分割中的“说话人二次化”部分

票数 3
EN

Data Science用户

发布于 2020-09-10 14:41:07

我假设您使用wavfile.readscipy.io读取音频文件。

我的方法是使N数组(每个扬声器一个)具有与原始音频数组相同的大小,但是填充了零(=静默)。对于每一个被二次化检测到的说话人,将他们的所有片段分配给说话者阵列中的相应片段。

最后,您可以将每个扬声器的数组保存在一个单独的文件中。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/33291

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档