课代表笔记：吴恩达 & 李沐对AI的见解（8月总结版）

用户4771

用户8537

用户6351

2024年11月4日修改

2729

3143

“前言如图”

一、李沐演讲——模型、产品部分

“8月23日，李沐回到了母校上海交大，做了一场关于 LLM 和个人生涯的分享，整个分享干货满满。”​

1.1 开场科普

📌

1.
李沐将模型训练比作 "炼丹" 过程，巧妙地将其分为三大要素：数据、算力和算法。数据如同炼丹的材料，搜集困难但至关重要；算力类比为炼丹的火力和设备；而算法则是不断改进的炼丹配方。​

2.
他指出，当前的语言模型与早期的深度学习模型有显著不同。现在的目标是创造一个具有 "灵魂" 的多功能模型，能够解决各种各样的问题，而不仅仅是针对单一任务。​

3.
展望未来，李沐认为硬件、数据和算法的发展将遵循一定规律，预计在未来几年会持续稳步进展，而非出现突破性跃进。​

1.2 硬件趋势

📌

1.
新型 GPU 系统如英伟达的 GB200 能在单个机架位容纳多达 72张算力卡，大幅提升了空间利用率。​

2.
为应对高密度 GPU 带来的散热问题，水冷技术应运而生，虽然提高了算力密度和通讯效率，但也带来了漏水风险和更高的基建要求。​

3.
紧密排列 GPU 提高了整体通讯效率，类似多核芯片设计，尽管 GPU 和 CPU 间的 PCIe 通讯相对较慢。​

4.
最后，他指出大规模语言模型对内存需求巨大，当前技术可达 192GB/GPU，但未来可能因占用过多芯片面积而成为瓶颈。​

1.3 内存与算力趋势

📌

1.
内存大小是模型规模的主要限制因素，尽管英伟达在市场领先，但在内存方面落后于 AMD 和 Google 的 TPU。​

2.
关于算力，李沐预测长期来看会越来越便宜，特别是在解决带宽和内存问题后。他提到降低浮点数精度可优化硬件，但高能耗成为新挑战。​

3.
关于英伟达的市场垄断，短期内可能导致算力价格上涨，但长期看来，竞争加剧和摩尔定律作用下算力会变得更便宜。​

4.
李沐预测语言模型参数主流会在 100B 到 500B 之间，每次预训练使用 10T 到 50T 的 token，因为数据质量和多样性已达到足够规模。​

1.4 多模态模型

📌

1.
在语音技术方面，新方法直接处理原始语音信号，提供更丰富的信息和更低的延迟。音乐生成技术虽然取得进展，但主要挑战在于版权问题，而非技术本身。​

2.
图像生成技术已达到接近真实的效果，但仍有提升空间。视频生成则仍处于早期阶段，面临高成本和技术难度。​

3.
李沐还强调了多模态模型的趋势，即整合文本、图片、视频和声音等不同类型的信息，通过文本指令控制其他模态的输出（跟6月Natrue的论文如出一辙）。​

4.
李沐认为当前语言模型已经达到了较高的水平，得分在80到85分之间，音频模型处于可接受的水平，得分在70到80分之间。然而，在视频生成方面，尤其是生成具有特定功能的视频，整体水平较低，约为50分。​

课代表笔记：吴恩达 & 李沐对AI的见解（8月总结版）​