分享
乐理篇:声音和音乐的基础
输入“/”快速插入内容
乐理篇:声音和音乐的基础
飞书用户8537
飞书用户5027
2024年9月23日修改
🎉
作者:吵爷
前言
音乐创作相对来说是一个比较主观、感性的过程,具有非常多的不确定性。但同时音乐也具备非常强的规律性,因此有时非常复杂的音乐,听起来并不杂乱,而是给人非常直观的韵律感。
后来和一些专业做音乐的朋友聊过一阵,目前龙头的文生音乐软件Suno,Uido等,对于比较简单的广告BGM,游戏配乐等使用场景,已经有非常大的使用价值,但在音乐创作上还差的很远。首先是提示词的控制:Suno除了歌词部分外,音乐风格提示词只有120个字符,能够描述和理解的关键词也非常有限,其次就是Suno的创作丰富度还是很有限,写出来的旋律相对很单调,乍一听可能还可以,但很难一直想听下去。
然而行业在肉眼可见的速度增长,未来也许我们能够更加可控的进行音乐创作。在技术还没有准备好之前,如果大家喜欢这一块,可以花一些时间来稍微补充乐理相关的一些知识,配合前面的音乐流派风格prompt食用,对自己生成的音乐有更好的理解。
Colab上写了一个增强音质的脚本,Suno输出的音乐可以丢进去,输出44.1khz采样率和320kpbs码率的文件,不如现有的音频处理工具。。。调参实在太难了
https://colab.research.google.com/drive/1y0kyNoVNDbs1VNKR6kxAr2wsV-QWVu0-#scrollTo=AFAmnxAkkWk9
声音的频率
所有的乐器都会发出特定频率的声音(包括人声),这些频率的变化和叠加构成了“音乐“。人类耳朵的声音频率感知范围大约在20Hz到20,000Hz之间。这意味着大多数健康的年轻人可以听到这个频率范围内的声音,从最低的低音到最高的高音。
在这个宽广的频率范围内,人类耳朵对2,000至5,000赫兹范围内的声音最为敏感。这个频段内的声音对人类语言的清晰度非常重要,因为它包含了很多语音通信中的重要信息。此外,这个频段也是许多乐器音色和音乐细节的关键区域。
举个例子,通用88键钢琴的音域是27.5Hz到4160Hz,但是通常我们知道的Do-Re-Mi-Fa-Soi-La-Si 频率并不是均匀提升的,而是结合了全音(两个半音)和半音。比如C大调: C-D-E-F-G-A-B-C,就是分别对应了全音、全音、半音、全音、全音、全音、半音。实际上每个调号从一个”Do“到下一个八度的”Do“,中间都间隔了12个半音,每个半音的频率增长幅度(包括白键和黑键)的频率差异都大约是5.9%,也叫做”十二平均律“,是现代音乐发展的基础。
例如,C4的频率是261.6Hz,那么下一个半音C#的频率则为
,约等于277.18Hz。同理,D音(再上一个半音的频率是
,约等于293.66Hz。
附一张不同乐器的音频表,乍一看挺吓人的,但其实拆解起来很简单。从左到右是赫兹,左边是低音,右边是高音。钢琴的C4(也就是C大调的Do)就在中音声部的起始点。我们日常听的交响乐,组合伴奏之所以用不同的乐器,就是用乐器擅长的声部去填充旋律,让音乐听起来更加饱满。
调号
常用的调号有大调和小调,通常决定一首音乐的整体调性。在音乐创作的时候,根据音乐想表达的主题,我们可以预先设定整首音乐的调号(虽然Suno还不大能识别出来,roll的音乐很多调都会出现。在AI生成的音乐里,可以通过识别主旋律里的”Do“或者扒谱软件来判断一首音乐的调号)。