分享
AI 音乐 | 2.26 资讯
输入“/”快速插入内容
AI 音乐 | 2.26 资讯
用户6750
用户6750
2024年2月28日修改
15%
作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!
公众号:智音Brook
2024-02-26 16:00
广东
原文:
https://mp.weixin.qq.com/s/MNqxjDvzMLZOZJoYDmCzEw
85%
目录
FoleyGen:视觉引导音频生成
具有不可微分规则引导扩散的符号音乐生成
FIGARO:通过精细的艺术控制生成象征性音乐
资源受限的立体声歌声消除
物理驱动的扩散模型来产生撞击声
世界上第一个自然语言音乐搜索引擎
FoleyGen:视觉引导音频生成
演示:
https://xinhaomei.github.io/foleygen_demo/
论文:
https://arxiv.org/abs/2309.10537
FoleyGen 展示了一个基于视觉引导的音频生成模型,通过结合先进的神经音频编解码技术和 Transformer 模型,实现了从视频到音频的高效转换。利用视觉编码器提取的特征,该模型能够生成与视频内容紧密相关的音频令牌,有效解决了音视频不同步的问题。通过在 VGGSound 数据集上的测试,FoleyGen 证明了其在音频生成质量和同步性方面的优越性,为视频到音频的转换技术提供了一种新的解决方案。
具有不可微分规则引导扩散的符号音乐生成
演示:
https://scg-rule-guided-music.github.io/
论文:
https://arxiv.org/abs/2402.14285
代码:
https://github.com/yjhuangcd/rule-guided-music
这里提出了一款革新的符号音乐生成器,它采用一种独特的不可微分规则引导的扩散模型,使音乐家们能够高效地使用它作为作曲工具。
相较于传统的强基线,该框架在音乐的质量和基于规则的可控性上都展示了明显的提升。请参考上面示例,展示了音乐家如何即兴创作出带有稀疏音符的生成片段以及符合 C 大调的 I-V 和弦进程。
为了加强人类作曲家与生成模型之间的互动,遵循特定的音乐规则(比如和弦进程)是至关重要的。许多此类规则本质上是不可微分的,这为它们在引导扩散过程中的应用提出了挑战。
这里引入了随机控制引导——一种创新的引导方法。它仅需对规则函数进行前向评估,能够与预训练的扩散模型即插即用地协同工作,实现了对不可微分规则的无需训练的引导。
此外,还开发了一种新颖的潜在扩散架构,专门用于生成具有高时间分辨率的符号音乐,能够创造出具有丰富动态范围的高质量音乐。
FIGARO:通过精细的艺术控制生成象征性音乐