分享
Anthropic CEO Dario Amodei 访谈:我们正在接近指数的终点
输入“/”快速插入内容
Anthropic CEO Dario Amodei 访谈:我们正在接近指数的终点
用户4242
用户4242
2月16日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/nktUvwUw...
原创 宝玉 宝玉 宝玉AI
2026年2月15日 12:59 美国
Anthropic CEO Dario Amodei 三年前在 Dwarkesh Podcast 上做了一期长访谈,当时他预测“三年后你和 AI 对话一小时,很难分辨它跟一个受过良好教育的人有什么区别”。这个预测基本兑现了。
三年后他又来了。这次他说的话更大胆:
1-3 年内有 50% 的概率出现“数据中心里的天才之国”,10 年内 90% 确信
。他同时经营着一家收入每年翻 10 倍的公司,刚完成
300 亿美元
融资,估值
3800 亿
。
这期访谈覆盖了几乎所有关键问题:Scaling 到底在 scale 什么?AI 编程的真实生产力是多少?AI 公司凭什么能盈利?监管会不会毁掉一切?中美能不能各有各的“天才之国”?
原始视频链接:
https://youtu.be/n1E9IZfvGMA
要点速览:
•
强化学习(RL)的规模扩展(scaling)
呈现出与预训练相同的对数线性规律,Dario 2017 年提出的“大算力团块假说”至今成立
•
当前 AI 编程带来约
15-20% 的总生产力提升
,半年前约 5%,正在加速
•
1-3 年内有 50% 概率
出现“天才之国”,10 年内 90% 确信,但“我们目前显然还没到”
•
AI 行业天然盈利结构:约 50% 算力用于训练 + 50% 用于推理(运行模型为用户生成回答),
推理毛利率超 50%
,亏损主要来自需求预测偏差
•
经济扩散“极快但非无限快”,Anthropic 收入连续三年
每年 10 倍增长
,2026 年 1 月又增数十亿
•
Dario 约 30-40% 时间花在公司文化上,每两周做一次“Dario Vision Quest”全员分享
【1】Scaling 还在继续,只是换了个形式
Dwarkesh 开场问了一个他三年前就问过的问题:Scaling 为什么有效?
三年前答案相对简单——预训练(用海量数据训练模型的第一阶段)的损失值(loss)随着算力增加而对数线性下降,有公开的规模定律(scaling law)曲线可以看。但现在情况变复杂了。强化学习(RL)的 scaling 没有公开的规模定律,甚至连“RL 到底在教模型什么”都没有清晰的公共叙事。
Dario 的回答是:
别想复杂了,本质上和之前一样。
他说自己 2017 年写了一份内部文档叫
"大算力团块假说"
(The Big Blob of Compute Hypothesis),比 Rich Sutton 2019 年发表的“苦涩的教训”(The Bitter Lesson)还早两年。【注:Rich Sutton 是强化学习领域的奠基人之一,他的“苦涩的教训”指出,AI 研究史上,利用更多计算的通用方法总是最终胜出,人类精巧设计的特殊方法总是被淘汰。】
这份文档列了
七个关键要素
:原始算力、数据量、数据质量和分布广度、训练时间、可 scale 的目标函数(预训练和 RL 各一种)、以及数值稳定性相关的归一化技术。Dario 说这个框架至今没什么需要修改的。
关键新信息是:
RL 现在也展现出与预训练相同的对数线性的 scaling 规律。
“我们在 RL 上看到了和预训练一样的 scaling。”
而且不只是数学竞赛。Dario 说在“广泛的 RL 任务”上都看到了这种 scaling,虽然他没有透露具体是哪些任务。
他做了一个类比。早期的预训练也是从窄分布数据开始的,GPT-1 是在同人小说(fanfiction)上训练的,泛化能力很差。直到 GPT-2 用了全互联网数据(从 Reddit 链接抓取),才开始出现真正的泛化。RL 正在经历同样的过程:从数学竞赛到代码,再到更多任务,
泛化正在到来
。
Dwarkesh 追问:Rich Sutton 对大语言模型(LLM)其实并不看好。
Sutton 的观点大致是:如果一个系统真正拥有人类学习的核心算法,它不应该需要几十亿美元的数据和算力才能学会用 Excel。我们在 RL 环境中一个一个教模型技能,这本身就暗示我们缺少某种核心的学习能力。
Dario 承认这里有一个真实的困惑:模型确实比人类需要多得多的训练数据(人类看不到万亿个词,但模型需要)。但 Dario 把这个问题重新框架化了:
预训练不等于人类学习,它介于人类进化和人类学习之间。
人类大脑不是白板,很多先验知识来自进化。而模型从随机权重开始,更像白板。所以预训练做的事情,既不是进化也不是学习,而是介于两者之间。模型的上下文学习(in-context learning)则介于人类的长期学习和短期学习之间。
“LLM 的各个阶段存在于这个光谱上,但不一定在完全相同的位置。”
【2】“扩散”是借口吗?
Dwarkesh 的辣评(hot take):扩散是 AI 能力不够时的遮羞布。
他的论证是:AI 相比人类有天然的集成优势。它能在几分钟内读完你全部的 Slack 和文档,可以无限复制已验证的实例,没有招聘时的逆向选择问题。如果整合 AI 比雇人容易得多,那扩散不应该是瓶颈。
Dario 的区分:扩散确实存在,不只是模型能力不够的借口。
他举了 Claude Code 的例子。Claude Code 对个人开发者来说几乎零门槛就能开始用,大企业采用它的速度也比常规技术快得多。但即便如此,大企业仍然需要经过法务审查、安全合规、领导层决策、IT 部门部署等一系列流程。
“我们正在竭尽全力让 Anthropic 的收入每年增长 20 到 30 倍,而不是 10 倍。”
他的核心框架:
“我认为我们应该思考的是这个中间地带:一切都极快,但不是瞬间完成。”