人工智能 (AI) 生成的音乐已经成为现实。 AI 工具现在只需要文本提示就可以创作音乐,而且结果超出了所有人的预期。
然而,这并不意味着 AI 工具可以直接创作音乐。 相反,音乐通过 AI 图像生成器创建音乐的频谱图。 然后,您可以将这些频谱图转换为音频剪辑。 这是否意味着 AI 生成的音乐将在未来取代人类制作的音乐?
基于图像的 AI 教授计算机算法以识别地点和物体的图像。 之后,算法用于再现相似但独特的图像。 DALL-E 和 Stable Diffusion 就是很好的例子。 现在,您可以让这些程序呈现您想要的任何内容。 全靠文字!
因此,可以创建频谱图的 AI 工具称为 Riffusion。 这是最新的人工智能项目,从本质上讲,它是一个基于稳定扩散(Stable Diffusion)的文本图像生成器。 但他是如何变得能够创作音乐的呢?
Riffusion 的背后是机器人专家 Heik Martiros 和软件开发人员 Seth Forsgren。 他们想测试现代人工智能程序是否可以在音频领域工作。 就这样开始了 Riffusion 的音乐创作之旅。 Forsgren 是这样谈论这项技术的:“Hake 和我一起在一个小乐队里演奏,我们开始这个项目只是因为我们热爱音乐。 在看到 Stable Diffusion 用于图像生成的惊人结果后,我们问自己使用扩散方法来创作音乐会是什么样子?
为了找到答案,一个由两人组成的团队在频谱图图像上训练了开源稳定扩散。 它们与文本结合在一起。 之后,该程序能够根据某些线索创建音乐谱图。
起初,他们不知道稳定扩散模型架构是否可以创建足够准确的频谱图图像以转换为音频,但事实证明它可以做到这一点甚至更多。 Martiros 和 Forsgren 在 Riffusion 官方网站上发布了他们的结果。 起初这是一个业余爱好项目。 但现在访问者可以添加自己的文字提示。 这将强制 Riffusion 生成频谱图。 之后,访问者可以将其用作音频剪辑并在网站上播放。
此阶段的结果质量可能不是很高。 但它绝对没有你想象的那么糟糕。
Riffusion 还可能会尝试播放包含以下内容的歌曲 Eminem 风格的说唱 和韩国流行音乐。 但是生成歌词的功能不是很好。 您将听到悦耳的人类胡言乱语,而不是文字。 不过最有意思的是,这段乱码还是很符合歌曲的基调的。
这项技术还没有准备好取代人造音乐。 但该项目向我们展示了人工智能图像处理算法仍然具有巨大潜力。 很快它就可以成为音乐作者的助手。 也许是为了得到一些灵感来写一首歌。
你可以帮助乌克兰对抗俄罗斯侵略者。 最好的方法是通过以下方式向乌克兰武装部队捐款 拯救生命 或通过官方页面 NBU.