AI 音乐 | 2.27 资讯

用户6750

2024年2月28日修改

common.docs_name - LarkCCM_Docs_Menu_Image

15%

作者：叮当不是机器猫 ｜分享AI音乐动态，探索AI与音乐的无限可能！​

公众号：智音Brook 2024-02-27 20:46 广东

原文：https://mp.weixin.qq.com/s/0Jn_VLzvjRA4MICIIPc5Zg

85%

ChatMusician：使用 LLM 本质上理解与创造音乐

 以色列理工学院研究人员彻底改变音频编辑：通过零样本技术和预训练模型释放创造力​

可解释音频标签的感知音乐特征

SingVisio：歌声转换扩散模型的可视化分析

我实现了一个人工智能音乐评论家

ChatMusician：使用 LLM 本质上理解与创造音乐

演示：https://shanghaicannon.github.io/ChatMusician/

论文：https://arxiv.org/abs/2402.16153

代码：https://github.com/EZMONYI/ChatMusician?tab=readme-ov-file

ChatMusician 标志着大型语言模型（LLMs）在音乐领域应用的一大突破。尽管 LLMs 在文本生成方面取得了显著成就，但将其能力扩展到音乐——人类的另一种创造性语言——方面，却是一项尚未广泛实现的挑战。ChatMusician 是一款集成了音乐内在能力的开源 LLM，通过在文本兼容的音乐表示 ABC 符号上进行持续预训练和微调 LLaMA2，将音乐视作第二语言进行处理。这种模型能够依靠纯文本分词器进行音乐的理解和生成，无需依赖外部的多模态神经结构或分词器。​

引人注目的是，ChatMusician 在赋予音乐能力的同时，并未对其语言处理能力产生负面影响，反而在 MMLU 得分上实现了轻微的提升。该模型不仅能够创作出结构完整、全长的音乐作品，还能根据文本、和弦、旋律、主题和音乐形式等多种条件进行作曲，其性能超越了 GPT-4 的基线。在专门为大学级别音乐理解设计的基准测试 MusicTheoryBench 上，ChatMusician 在零样本设置中显著超过了 LLaMA2 和 GPT-3.5，展示了其在音乐理解和生成方面的卓越能力。​

以色列理工学院研究人员彻底改变音频编辑：通过零样本技术和预训练模型释放创造力​

论文：https://arxiv.org/abs/2402.10009

以色列理工学院的研究人员在音频编辑领域取得了重大进展，利用大型语言模型（LLMs）和去噪扩散概率模型（DDPMs）进行内容生成和编辑，将零次学习（Zero-Shot）编辑能力扩展到音频信号。这项工作开发了两种独特的音频编辑方法，无需特定任务的直接训练：​

基于文本的编辑方法：通过自然语言描述来操纵音频信号，允许用户改变音乐作品的音乐类型或特定乐器，同时保持原始信号的感知质量和语义本质。​

无监督编辑方法：这种方法能够发现不依赖文本描述的语义上有意义的编辑方向，适合于揭示音乐上有趣的修改，如调整特定乐器的突出度或在旋律上进行即兴创作。​

可解释音频标签的感知音乐特征

AI 音乐 | 2.27 资讯​

AI 音乐 | 2.27 资讯