AI 音乐 | 2.26 资讯

用户6750

2024年2月28日修改

common.docs_name - LarkCCM_Docs_Menu_Image

15%

作者：叮当不是机器猫 ｜分享AI音乐动态，探索AI与音乐的无限可能！​

公众号：智音Brook 2024-02-26 16:00 广东

原文：https://mp.weixin.qq.com/s/MNqxjDvzMLZOZJoYDmCzEw

85%

FoleyGen：视觉引导音频生成

具有不可微分规则引导扩散的符号音乐生成

FIGARO：通过精细的艺术控制生成象征性音乐

资源受限的立体声歌声消除

物理驱动的扩散模型来产生撞击声

世界上第一个自然语言音乐搜索引擎

FoleyGen：视觉引导音频生成

演示：https://xinhaomei.github.io/foleygen_demo/

论文：https://arxiv.org/abs/2309.10537

FoleyGen 展示了一个基于视觉引导的音频生成模型，通过结合先进的神经音频编解码技术和 Transformer 模型，实现了从视频到音频的高效转换。利用视觉编码器提取的特征，该模型能够生成与视频内容紧密相关的音频令牌，有效解决了音视频不同步的问题。通过在 VGGSound 数据集上的测试，FoleyGen 证明了其在音频生成质量和同步性方面的优越性，为视频到音频的转换技术提供了一种新的解决方案。​

具有不可微分规则引导扩散的符号音乐生成

演示：https://scg-rule-guided-music.github.io/

论文：https://arxiv.org/abs/2402.14285

代码：https://github.com/yjhuangcd/rule-guided-music

这里提出了一款革新的符号音乐生成器，它采用一种独特的不可微分规则引导的扩散模型，使音乐家们能够高效地使用它作为作曲工具。​

相较于传统的强基线，该框架在音乐的质量和基于规则的可控性上都展示了明显的提升。请参考上面示例，展示了音乐家如何即兴创作出带有稀疏音符的生成片段以及符合 C 大调的 I-V 和弦进程。​

为了加强人类作曲家与生成模型之间的互动，遵循特定的音乐规则（比如和弦进程）是至关重要的。许多此类规则本质上是不可微分的，这为它们在引导扩散过程中的应用提出了挑战。​

这里引入了随机控制引导——一种创新的引导方法。它仅需对规则函数进行前向评估，能够与预训练的扩散模型即插即用地协同工作，实现了对不可微分规则的无需训练的引导。​

此外，还开发了一种新颖的潜在扩散架构，专门用于生成具有高时间分辨率的符号音乐，能够创造出具有丰富动态范围的高质量音乐。​

FIGARO：通过精细的艺术控制生成象征性音乐

AI 音乐 | 2.26 资讯​

AI 音乐 | 2.26 资讯