分享
生成式人工智能的行动 o1
输入“/”快速插入内容
生成式人工智能的行动 o1
用户4392
2024年10月15日修改
原文链接:
https://www.sequoiacap.com/article/generative-ais-act-o1/
在生成式 AI 革命进入第二个年头时,研究正从“快速思考(System 1)”转向“慢速思考(System 2)”,也就是从迅速生成预训练结果转向推理过程中进行深度思考。这一转变为一系列全新的自主型应用程序打开了大门。
自我们发表《生成式 AI:一个创意新世界》一文以来,两年过去了,AI 生态系统已经发生了很大的变化,我们也对未来有了一些新的预测。
生成式 AI 市场的基础层已经趋于稳定,形成了由一些重要玩家和联盟主导的平衡态,包括 Microsoft/OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind。现在,只有那些具备经济实力并能够获得巨额资本的玩家还在竞争中。虽然这场竞争还远未结束(而且仍然像博弈论中的游戏一样不断升级),但市场结构正在逐渐明朗化。可以预见,未来生成下一个 token 的成本会越来越低,数量会越来越多。
随着大规模语言模型(LLM)市场趋于稳定,下一个竞争前沿已经开始显现。人们的注意力正逐渐转向推理层的开发和扩展,这一层以“系统 2”思维为主导。受到 AlphaGo 等模型的启发,这个层面旨在让 AI 系统在推理过程中进行深思熟虑的推理和问题解决,而不仅仅是简单的模式匹配。同时,新的认知架构和用户界面也在改变这些推理能力如何与用户互动。
1、 Strawberry(草莓) 模型
那么,这些变化对 AI 市场的创业者意味着什么?对现有的软件公司又意味着什么?作为投资者,我们在哪一层看到生成式 AI 堆栈的最大回报潜力?
在我们最新的文章中,我们将探讨基础 LLM 层的整合如何为扩展这些更高阶的推理和自主能力奠定基础,并展望一代具有新型认知架构和用户界面的“杀手级应用”。
2024 年最重要的模型更新非 OpenAI 的o1 莫属,它以前被称为 Q*,内部代号为 Strawberry。此次更新不仅是 OpenAI 重回模型质量榜首的有力宣言,也在现有的模型架构上做出了显著突破。更重要的是,这款模型首次展现了真正的通用推理能力,这一成就是通过推理阶段的计算实现的。
那具体意味着什么呢?目前的预训练模型主要依靠“训练阶段的计算”来在海量数据上进行下一个词的预测。规模的增加确实带来了基本的推理能力,但这种推理相对有限。设想一下,如果你能教会模型更直接地进行推理呢?这正是 Strawberry 所做的。当我们提到“推理时计算”时,指的是让模型在作答前进行“停下来思考”,这一过程需要更多的计算资源,因此被称为“推理时计算”。“停下来思考”本质上就是推理的过程。
2、AlphaGo 与大规模语言模型(LLM)的结合
那么,模型在停下来思考时到底在做什么呢?
我们可以回到 2016 年 3 月,地点是首尔。在那里发生了深度学习历史上具有划时代意义的时刻:AlphaGo 对战围棋传奇李世石。这不仅仅是一场 AI 对人类的胜利,也是 AI 开始展示超越简单模式模仿、真正“思考”的开端。
与早期的游戏 AI 系统(如深蓝)不同,AlphaGo 在预训练时不仅模仿了人类专家的决策,它还会在作答前“停下来思考”。在推理阶段,AlphaGo 会模拟多个未来可能的棋局,评估它们的得分,然后选择最优的应对方式。它使用的时间越多,表现越好。如果没有推理时计算,AlphaGo 无法击败顶尖的人类棋手,但随着推理时间的增加,它的表现逐步提升,最终超过了人类。
将这一概念移植到 LLM 上的难点在于如何构建价值函数,也就是如何对模型的响应进行评分。如果是围棋,模型可以通过模拟对局直到结束来确定最佳策略。如果是编程,可以测试代码的正确性。但如果是评估一篇文章的初稿、制定旅行计划或总结文件的关键术语,该如何打分呢?这就是推理在目前技术中的难点,也是 Strawberry 在逻辑领域(如编程、数学、科学)表现强大,但在较为开放的领域(如写作)表现相对不足的原因。
虽然 Strawberry 的具体实现细节仍是保密的,但核心思想是围绕模型生成的“思维链”进行强化学习。对这些思维链的审查表明,模型正在发生一些类似人类思维的突破性变化。例如,o1 展现了遇到瓶颈时能够“回头反思”的能力,这是一种推理时间扩展的自然结果。它还能像人类一样通过可视化思考来解决几何问题,甚至能够以超越人类的方式解决编程难题。
此外,还有许多新的研究方向正在推动推理时计算的发展,例如计算奖励函数的新方法、缩小生成器与验证器之间差距的新途径。研究团队正在不断改进模型的推理能力。换句话说,深度强化学习再次成为焦点,并为全新的推理层奠定了基础。
3、系统 1 vs 系统 2
思维 AI 研究正进入一个全新的阶段,从预训练的“本能反应”(“系统 1”)到深度推理(“系统 2”)的飞跃,成为下一个突破点。如今,AI 需要的不仅仅是记住知识,而是能够在作出决策前停下来思考,评估信息,进行实时的推理。
预训练可以看作是“系统 1”的过程。无论是像 AlphaGo 那样,通过数百万盘围棋对局数据训练,还是像 LLM 那样,用海量互联网文本进行预训练,其核心都是模仿模式——无论是模仿人类的棋局还是语言模式。然而,模仿虽然强大,但并非真正的推理,它在应对复杂且未知的问题时表现有限,尤其是样本外的情境。
这就是“系统 2”思维的重要性所在,也是目前 AI 研究的重点。当模型“停下来思考”时,它并非简单地复述过去的经验或模式,而是生成一系列可能的方案,考虑不同结果,并基于逻辑推理作出决策。
对于许多简单任务来说,“系统 1”已经足够。例如,正如 Noam Brown 在我们最新一期《Training Data》中提到的,花更多时间思考不丹的首都是什么并不会有帮助——你要么知道答案,要么不知道。在这种情况下,快速的模式识别和记忆完全足够。
但是,当面对更复杂的问题时,比如数学和生物学上的重大突破,简单的本能反应已经不够。这样的进展需要深度思考、创造性地解决问题,最重要的是需要时间。同样,对于 AI 来说,处理这些高难度的、有意义的问题,必须超越快速的“样本内”响应,花时间去进行深度推理,这也是推动人类进步的关键。
4、新的扩展法则
推理时代的竞赛开始 o1 论文最关键的发现是,AI 推理层面有了一条新的扩展法则。
预训练 LLMs 遵循的扩展法则已经被广泛理解:投入越多的计算资源和数据,模型的表现就越好。
而 o1 论文则揭示了另一个全新的扩展维度:你赋予模型的推理时间(或称“测试时间”)越多,模型的推理能力就越强。