AI音乐周刊 W.A 029

用户6411

5月25日修改

🏆

本文作者：Keen

链接：https://mp.weixin.qq.com/s/hkpQf569XckbadeTa8LAsA

注：文中部分资讯有视频演示，如需观看请到上方原帖

🌈

本周 AI 音乐资讯速览

# 前沿模型与底层技术

🎵 Stable Audio 3.0 发布：开源权重，主打端侧离线与 6 分钟长音频生成​

⚡ Stability AI 开源 SAME：实现 4096 倍极致压缩，打破音频自编码行业标准​

🎬 索尼 AI 推出 Woosh 大模型：文本与视频双驱动，直击影视游戏音效痛点​

🔊 Mirelo 推出 SFX 1.6 模型：视频与文本驱动音效生成，智能修补后期瑕疵​

🕒 LMDM 实时音乐框架上线：响应延迟仅 30ms，实现扩散模型现场即兴伴奏​

# 版权合规与巨头入局

🎵 Spotify 联手环球音乐：推出付费 AI 翻唱与混音，打造版权闭环生态​

🌟 Udio 将推新应用 Starstruck：联手四大版权巨头，开启明星声音正版二创​

⛓️ Splice 结盟 ElevenLabs：将全合规音乐大模型深度嵌入专业编曲工作流​

# 平台产品与专业工作流

🇨🇳 华为发布自研“音悦家 App”：携手上海音乐学院，打破海外 DAW 软件垄断​

📲 谷歌 I/O 2026 重磅升级：Google Flow Music 推出翻唱与 Gemini MV 生成​

✂️ LALAL.AI 推出本地模型 Lyra：支持 7 声部全离线分离，主打极致隐私​

🤖 Mureka 推出本地智能助手：Mureka Co 接入 Ableton，3秒灵感变实体分轨​

🎨 Riffle 推出“无限画布”工作室：网页端多人实时协作，引入 AI 制作人​

# 行业维权与诉讼风波

⚖️ 独立音乐人起诉 Suno：指控非法训练导致商业授权收入暴跌 80%​

打破行业标准！Stability AI 开源音频自编码器 SAME：实现 4096 倍极致压缩​

common.docs_name - LarkCCM_Docs_Menu_Image

5 月 18 日，Stability AI 在 Hugging Face 上正式开源了颠覆性的全新音频自编码器 SAME（Semantically-Aligned Music Autoencoder），并同步发布了技术论文。该模型专门针对立体声音乐及通用音频流设计，在大幅削减计算成本的同时，确立了生成式音频基础设施的新标杆。​

核心技术突破与亮点

•
双倍于行业标准的极致压缩： SAME 实现了惊人的 4096 倍时间压缩率，直接达到了目前主流神经音频编解码器（Codec）标准的两倍。这为生成式 AI 带来了极高的数据传输与处理效率。​

•
无损的立体声重构质量： 依托 Transformer 主干网络，该模型创新性地结合了语义正则化（Semantic Regularization）技术、相位感知重构损失以及改良的判别器设计。实验表明，在实现超高压缩的同时，它依然能保持完美的音频重构品质与强大的下游生成性能。​

•
多版本开源与生态联动： SAME 是此前发布的 Stable Audio 3.0 底层架构的“幕后核心功臣”，与其完美配对，共同驱动文本转音频、音频分段编辑和局部重绘（Inpainting）等前沿功能。​

目前，官方已开放了两个版本的模型权重：旗舰版 SAME-L 以及专为轻量化设计的 CPU 可部署版 SAME-S。开发者和研究人员现可免费下载实验，商业用途需遵循 Stability AI 的官方授权协议。​

HF：https://huggingface.co/stabilityai/SAME-L

论文：https://huggingface.co/papers/2605.18613

索尼 AI 推出音效大模型 Woosh：双版本并行，直击游戏与影视制作痛点​

5 月 18 日，索尼 AI 宣布推出专为游戏与电影音效设计打造的基建级大模型 Woosh，填补了此前 AI 音频研究过度集中于音乐生成、忽视边缘音效的行业空白。​

核心亮点与技术架构

•
双版本平行开发： 为平衡学术研究与商业机密，Woosh 推出两个版本。开源公开版基于公开数据集训练，现已开放权重与推理代码供全社区研究；专业私有版（Woosh-Flow Private）则采用 Pro Sound Effects 和 BOOM 等顶级正版授权录音棚库训练，在音质与精准度上代表了当前的业界最高水平。​

•
文本与视频双驱动： Woosh 不仅支持“文本生音效”，还支持“视频配音效（Video-to-Audio）”。在专门评估视觉对齐音频生成的 FoleyBench 基准测试中，Woosh 在参数量更少的情况下，音频质量和语义对齐指标均远超基线模型。​

•
深度嵌入专业工作流： 索尼 AI 正为数字化音频工作站（DAW）开发原生插件。未来将解锁时间精确控制、局部重绘（Inpainting）、声音渐变（Morphing）以及无缝循环生成等高级功能。​

通过坚持使用正版授权库训练并提供极具人性化的精细控制轴，索尼 AI 旨在将 AI 打造为辅助人类创意延伸的专业工具，而非替代者。​

详情：https://ai.sony/blog/introducing-woosh-sony-ais-sound-effect-foundation-model

AI音乐周刊 W.A 029​

AI音乐周刊 W.A 029