文章/答案/技术大牛

发布

社区首页 >问答首页 >Soundfile以两种不同的格式导入音频

问Soundfile以两种不同的格式导入音频
EN

Stack Overflow用户

提问于 2020-07-15 05:12:11

回答 2查看 37关注 0票数 0

我正在尝试使用soundfile.read()对要在神经网络中使用的音频文件进行预处理，但该函数会使用相同的采样率和长度对不同的.FLAC文件以不同的方式格式化返回的数据。例如，调用data, sr = soundfile.read(audiofile1)会生成一个形状为data.shape = (48000, 2)的数组(其中各个元素的值要么是振幅0，要么是NumPy float64中的负振幅)，而调用data, sr = soundfile.read(audiofile2)则会产生一个形状为data.shape = (48000,)的数组(其中各个元素的值会变化为NumPy float64)。

此外，如果有帮助的话，audiofile1是通过PyAudio获取的录音，而audiofile2是来自LibriSpeech语料库的样本。

所以，我的问题有两个：

为什么soundfile.read()生成两种不同的数据格式，以及如何确保该函数将来以相同的格式返回数组？

python

neural-network

signal-processing

pyaudio

soundfile

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-07-15 10:10:50

您的audiofile2示例是单声道的，而您的audiofile1录制是立体声的(即您可能是用配置了channels=2的PyAudio流录制的)。因此，我建议您首先弄清楚您的应用程序需要单声道还是立体声。

如果您真正关心的是单声道音频信号，您可以通过平均通道将立体声(或更常见的N声道)音频转换为单声道：

data, sr = soundfile.read(audiofile)
if np.dim(data)>1:
  data = np.mean(data,axis=1)

如果您需要立体声音频，则可以通过复制已有的声道来创建一个附加声道(尽管这不会添加常用的附加信息，如不同声道之间的相位或振幅差异)：

if np.dim(data)<2:
  data = np.tile(data,(2,1)).transpose()

票数 0

Stack Overflow用户

发布于 2020-07-15 14:28:04

它很简单，如下所示：

data, sr = soundfile.read(audiofile2, always_2d=True)

这样，data.shape将始终具有两个元素；data.shape[0]将是帧数，data.shape[1]将是通道数。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62904089

复制

相似问题

问Soundfile以两种不同的格式导入音频
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Soundfile以两种不同的格式导入音频EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Soundfile以两种不同的格式导入音频
EN