分享
AI 音乐 | 2.27 资讯
输入“/”快速插入内容
AI 音乐 | 2.27 资讯
用户6750
用户6750
2024年2月28日修改
15%
作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!
公众号:智音Brook
2024-02-27 20:46
广东
原文:
https://mp.weixin.qq.com/s/0Jn_VLzvjRA4MICIIPc5Zg
85%
目录
ChatMusician:使用 LLM 本质上理解与创造音乐
以色列理工学院研究人员彻底改变音频编辑:通过零样本技术和预训练模型释放创造力
可解释音频标签的感知音乐特征
SingVisio:歌声转换扩散模型的可视化分析
我实现了一个人工智能音乐评论家
ChatMusician:使用 LLM 本质上理解与创造音乐
演示:
https://shanghaicannon.github.io/ChatMusician/
论文:
https://arxiv.org/abs/2402.16153
代码:
https://github.com/EZMONYI/ChatMusician?tab=readme-ov-file
ChatMusician 标志着大型语言模型(LLMs)在音乐领域应用的一大突破。尽管 LLMs 在文本生成方面取得了显著成就,但将其能力扩展到音乐——人类的另一种创造性语言——方面,却是一项尚未广泛实现的挑战。ChatMusician 是一款集成了音乐内在能力的开源 LLM,通过在文本兼容的音乐表示 ABC 符号上进行持续预训练和微调 LLaMA2,将音乐视作第二语言进行处理。这种模型能够依靠纯文本分词器进行音乐的理解和生成,无需依赖外部的多模态神经结构或分词器。
引人注目的是,ChatMusician 在赋予音乐能力的同时,并未对其语言处理能力产生负面影响,反而在 MMLU 得分上实现了轻微的提升。该模型不仅能够创作出结构完整、全长的音乐作品,还能根据文本、和弦、旋律、主题和音乐形式等多种条件进行作曲,其性能超越了 GPT-4 的基线。在专门为大学级别音乐理解设计的基准测试 MusicTheoryBench 上,ChatMusician 在零样本设置中显著超过了 LLaMA2 和 GPT-3.5,展示了其在音乐理解和生成方面的卓越能力。
以色列理工学院研究人员彻底改变音频编辑:通过零样本技术和预训练模型释放创造力
论文:
https://arxiv.org/abs/2402.10009
以色列理工学院的研究人员在音频编辑领域取得了重大进展,利用大型语言模型(LLMs)和去噪扩散概率模型(DDPMs)进行内容生成和编辑,将零次学习(Zero-Shot)编辑能力扩展到音频信号。这项工作开发了两种独特的音频编辑方法,无需特定任务的直接训练:
基于文本的编辑方法
:通过自然语言描述来操纵音频信号,允许用户改变音乐作品的音乐类型或特定乐器,同时保持原始信号的感知质量和语义本质。
无监督编辑方法
:这种方法能够发现不依赖文本描述的语义上有意义的编辑方向,适合于揭示音乐上有趣的修改,如调整特定乐器的突出度或在旋律上进行即兴创作。
可解释音频标签的感知音乐特征