首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用DCGAN,python创建新音乐

用DCGAN,python创建新音乐
EN

Stack Overflow用户
提问于 2022-03-24 22:14:19
回答 1查看 84关注 0票数 0

我知道,可以将音频转换成具有代表性的图像。有人知道是否有可能出现相反的情况吗?我们能把再现的图像转换成音频吗?如果可能的话请告诉我怎么做。

我想办法做到这一点,但我没有找到。

编辑:我的主要目标是使用DCGAN生成新的/随机的音乐。我想取一个音频,转换成freq图的图像,使用DCGAN并把它转换回音频。

我不知道如何使用工具,也不知道如何精确地做到这一点。如果有人能帮我,那就太好了。

EN

回答 1

Stack Overflow用户

发布于 2022-03-25 05:11:11

有很多方法可以做到这一点。我使用的方法是遍历输入图像中的每个像素.给每个像素分配一个独特的频率.频率的范围可以是任意的,让它改变它在人类可听到范围从200到8000赫兹.这个音频频率范围除以像素数,这将给你一个频率增量值.给出第一个像素200赫兹,当你遍历所有像素时,给每个像素一个频率,将这个频率增加到前一个像素的频率。

当您在所有像素上执行上述迭代时,确定当前像素的光强值,并使用此值来确定从0到1的归一化值,这将是给定像素的频率的放大因子。

现在你有了一个新的数组,每个元素记录光的强度值和频率.通过这个阵列,并创建一个振荡器输出一个正弦曲线的幅值驱动从放大因子在当前阵列元件的频率.现在,将所有这些振荡器输出合并为单个聚合音频。

这个聚合合成输出音频是输入图像的时域表示,这是您的频域起点。

美丽的是这个输出音频是图像的逆傅里叶变换.任何通晓傅里叶变换的人都会预测接下来会发生什么,即这个音频可以被发送到FFT调用中,它将输出一个新的输出图像,如果您正确地实现了这一切,那么它将或多或少地与您的原始输入图像匹配。

我用的不是蟒蛇,但是这个挑战是语言不可知论.祝好运,玩得开心

对此有几点改进..。一种简单的解析输入图像的方法是从左到右,从上到下,这将起作用,但如果你使用希尔伯特曲线来确定下一个像素,你的输出音频将更适合人们收听,特别是当你改变图像分辨率的原始输入图像.忽略这个点缀直到你让它起作用

比实现这一点的代码更有价值的是在编写代码时所经历的发现之旅。下面是一段视频,它激励我踏上了这次旅程,https://www.youtube.com/watch?v=3s7h2MHQtxc #Hilbert曲线:无限数学有用吗?

这是一个示例输入照片

这是将上面的图像转换成音频,然后返回到图像之后的输出照片。

一旦您启动并运行,并且能够从频域切换到时域,然后再次切换,您就可以自由选择是从音频还是从图像开始。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71610078

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档