分享
AI音乐 | 2.20 资讯
输入“/”快速插入内容
AI音乐 | 2.20 资讯
用户6750
用户6750
2024年2月21日修改
15%
作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!
公众号:智音Brook
2024-02-20 21:16
广东
原文
https://mp.weixin.qq.com/s/ekr0jfytmzhGOn_ZqqeC9A
85%
目录
视频生成音效模型已开源
Sheet Music Transformer:超越单音转录的端到端光学音乐识别
AnyGPT:具有离散序列建模的统一多模态大型语言模型
腾讯与新加坡国立大学发布 M2UGen
DITTO:音乐生成的扩散推理时T优化
视频生成音效模型已开源
体验链接:
https://huggingface.co/spaces/fffiloni/Video-to-SoundFX
来自 fffiloni 大神发布的
Video-to-SoundFX
,目前已开源在 huggingface 上,一共有
MAGNet、AudioLDM-2、AudioGen、Tango
四种模型可供生成。
Sheet Music Transformer:超越单音转录的端到端光学音乐识别
论文:
https://arxiv.org/abs/2402.07596
本文介绍了 “乐谱变换器”(Sheet Music Transformer, SMT),这是第一个旨在转录复杂音乐乐谱而不仅仅依赖于单声部策略的端到端光学音乐识别(OMR)模型。该模型采用基于 Transformer 的图像到序列框架,从输入图像预测乐谱转录的标准数字音乐编码格式。
原理
:SMT 采用了自回归 Transformer 作为基础架构,能够将音乐输入图像转换为超越单声部的乐谱。
功能实现
:通过编码器提取图像特征,然后解码器自回归地预测每个符号的概率,生成音乐转录。
数据集
:在两个多声部音乐数据集上进行了测试,证明了 SMT 处理复杂音乐结构的能力。
实验结果表明,SMT 能够有效处理这些复杂的音乐结构,并且性能优于当前的最先进方法。
AnyGPT:具有离散序列建模的统一多模态大型语言模型