乐理篇：声音和音乐的基础

飞书用户8537

飞书用户5027

2024年9月23日修改

🎉

作者：吵爷

前言

音乐创作相对来说是一个比较主观、感性的过程，具有非常多的不确定性。但同时音乐也具备非常强的规律性，因此有时非常复杂的音乐，听起来并不杂乱，而是给人非常直观的韵律感。​

后来和一些专业做音乐的朋友聊过一阵，目前龙头的文生音乐软件Suno，Uido等，对于比较简单的广告BGM，游戏配乐等使用场景，已经有非常大的使用价值，但在音乐创作上还差的很远。首先是提示词的控制：Suno除了歌词部分外，音乐风格提示词只有120个字符，能够描述和理解的关键词也非常有限，其次就是Suno的创作丰富度还是很有限，写出来的旋律相对很单调，乍一听可能还可以，但很难一直想听下去。​

然而行业在肉眼可见的速度增长，未来也许我们能够更加可控的进行音乐创作。在技术还没有准备好之前，如果大家喜欢这一块，可以花一些时间来稍微补充乐理相关的一些知识，配合前面的音乐流派风格prompt食用，对自己生成的音乐有更好的理解。​

Colab上写了一个增强音质的脚本，Suno输出的音乐可以丢进去，输出44.1khz采样率和320kpbs码率的文件，不如现有的音频处理工具。。。调参实在太难了​

https://colab.research.google.com/drive/1y0kyNoVNDbs1VNKR6kxAr2wsV-QWVu0-#scrollTo=AFAmnxAkkWk9

声音的频率

所有的乐器都会发出特定频率的声音（包括人声），这些频率的变化和叠加构成了“音乐“。人类耳朵的声音频率感知范围大约在20Hz到20,000Hz之间。这意味着大多数健康的年轻人可以听到这个频率范围内的声音，从最低的低音到最高的高音。​

在这个宽广的频率范围内，人类耳朵对2,000至5,000赫兹范围内的声音最为敏感。这个频段内的声音对人类语言的清晰度非常重要，因为它包含了很多语音通信中的重要信息。此外，这个频段也是许多乐器音色和音乐细节的关键区域。​

举个例子，通用88键钢琴的音域是27.5Hz到4160Hz，但是通常我们知道的Do-Re-Mi-Fa-Soi-La-Si 频率并不是均匀提升的，而是结合了全音（两个半音）和半音。比如C大调: C-D-E-F-G-A-B-C，就是分别对应了全音、全音、半音、全音、全音、全音、半音。实际上每个调号从一个”Do“到下一个八度的”Do“，中间都间隔了12个半音，每个半音的频率增长幅度（包括白键和黑键）的频率差异都大约是5.9%，也叫做”十二平均律“，是现代音乐发展的基础。​

例如，C4的频率是261.6Hz，那么下一个半音C#的频率则为 
，约等于277.18Hz。同理，D音（再上一个半音的频率是 
，约等于293.66Hz。​

 附一张不同乐器的音频表，乍一看挺吓人的，但其实拆解起来很简单。从左到右是赫兹，左边是低音，右边是高音。钢琴的C4（也就是C大调的Do）就在中音声部的起始点。我们日常听的交响乐，组合伴奏之所以用不同的乐器，就是用乐器擅长的声部去填充旋律，让音乐听起来更加饱满。​

common.docs_name - LarkCCM_Docs_Menu_Image

调号

常用的调号有大调和小调，通常决定一首音乐的整体调性。在音乐创作的时候，根据音乐想表达的主题，我们可以预先设定整首音乐的调号（虽然Suno还不大能识别出来，roll的音乐很多调都会出现。在AI生成的音乐里，可以通过识别主旋律里的”Do“或者扒谱软件来判断一首音乐的调号）。​

乐理篇：声音和音乐的基础​

乐理篇：声音和音乐的基础