为什么我们从 Claude Code 换到 Codex？丨Limitless

用户4242

5月7日修改

🔗 原文链接： https://mp.weixin.qq.com/s/L_d0Okcx...

原创 Capihom Capihom 晚点再听LaterCast2026年5月7日 21:03 北京

我们每天为你更新硅谷最新的 AI 创业与科技播客总结，让你与前沿保持同频。 全文约 3900 字，如果你现在没有时间，试试转成播客稍后再听​

"你今天用的模型，可能不会是你明天用的模型。"

"过去一周，Codex 的下载或安装超过 4600 万次。"

"Opus 4.7 是编排者，Codex 是这份计划的执行者。"

这期节目讨论了一个很贴近工程师日常的问题：几个月前，他们还建议大家用 Claude Code；现在，他们开始解释为什么自己又切回 OpenAI Codex。两位主播没有把它做成抽象模型榜单，而是拿电脑控制、长任务自治、浏览器、自动审批、Chronicle 记忆、游戏生成和仪表盘生成做了对比。对工程师、产品经理和知识工作者来说，这期的价值在于：AI 工具栈的稳定期很短，选工具不能只靠品牌记忆，要回到当天的实际任务。​

Claude Code 曾经赢下工程师心智

圣诞假期前后，AI 编程从“好玩的工具”进入真实交付场景，开发者开始拿它写代码、修项目、做 side project。Anthropic 在那段时间连续发布产品，把 Claude Code 推成很多工程师的默认入口。主播也说，自己做 AI 相关工作时，任何进展都往 Claude Code 里丢。 短短几个月里，Claude Code 从新鲜功能变成了工作台。 这个背景很重要，Codex 的反超直接打到一批已经形成习惯的开发者，逼他们重新评估默认工具。​

"几个月前，Claude Code 是所有人都在谈的东西，每个软件工程师都在用它。"​

主持人的判断是，OpenAI 在最近几周突然醒来。到 4 月底，GPT 5.5 被接入编码模型，OpenAI 进入一轮“code red”式投入，目标就是做出最强编码模型和最强 LLM。节目引用的数字很夸张：过去一周，Codex 下载或安装超过 4600 万次，Claude Code 不到 50 万次。历史上 Claude Code 的下载和安装曾经压过 Codex。Codex 这次抢走的，是已经习惯在 Claude Code 里工作的开发者注意力。​

Codex 的优势先从电脑控制开始

两位主播给出的第一张记分板：OpenAI Codex 11 分，Anthropic Claude 2 分。他们先聊电脑控制。Claude 更早探索过这类能力，可以移动鼠标、操作桌面，但体验慢，过程中常遇到阻碍，需要人频繁接管。主播说，Codex 的鼠标移动速度甚至快过普通人，像一个可以 24 小时运行的电脑使用者。 电脑控制的分水岭，已经从“能操作”走向“能不能让人放心离开”。​

"我能看到光标移动得非常快，像是在用电脑，但它是超人。"​

长任务自治也被放在同一组能力里。他们提到一种 Ralph loop：给 AI 一个目标，让它不断迭代，直到完成任务。Codex 被描述为更接近原生长任务执行器，有人截图显示它能思考 36 小时去完成目标。对写代码的人，这不是炫技数字。项目里真正麻烦的工作往往是修一串边界条件、跑测试、改权限、再回头找原因。能否持续推进，直接决定 Agent 是玩具还是队友。​

浏览器能力也进入同一条比较线。主播说，Codex 现在能接管浏览器，理解自己看到的页面，并做更有意图的操作；Claude 也能做类似事情，但理解和动作没有那么稳。图像生成则是 OpenAI 的额外筹码。ChatGPT Images 2.0 被他们放进 Codex 生态里看，因为视觉生成可以直接服务软件、游戏、原型和页面资产。Anthropic 没有同等图像模型，工具箱宽度吃亏。​

这套组合能力会改变工程师的提问方式。过去大家问模型“帮我写一段代码”，现在会直接给一个任务包：打开浏览器查资料，生成素材，改项目文件，跑起来看结果，再根据错误继续修。Codex 在节目里的吸引力，来自它把这些步骤放进同一个执行链里。​

自动审批让人能暂时离开电脑

工程师使用 AI 写代码时，最烦的一类打断来自权限。工具想打开 Chrome、访问文件、运行命令，人得坐在旁边不断点批准。Codex 最近发布 auto review 后，主播认为体验变顺了：Agent 会区分哪些动作可能造成系统级风险，哪些只是普通步骤；低风险动作自动批准，高风险动作再交给人确认。 Agent 工作流的效率，不只取决于模型回答质量，也取决于权限系统能不能减少无意义等待。​

"它会知道哪些批准可能是系统级威胁，哪些批准不会让你陷入麻烦。"​

节目里也给 Claude 留了位置。Claude 的移动端 dispatch 能远程操作 Claude Code，Codex 当下还没有同等能力。Claude 的人格和界面仍然更温暖，作为聊天模型或“harness”里的工具也很强。两位主播并没有说 Claude 全面失效，反而把分工说得更细：Claude 在对话、人格、编排和部分远程能力上依然有优势，Codex 更像执行复杂动作的工作马。​

这里的取舍会影响团队流程。生产环境代码、支付系统、权限变更这类任务，工程师可能更想让 Claude 多问几次；临时游戏、营销页、内部工具这类任务，少打断、自动推进反而更舒服。AI 工具没有单一最佳模式，风险高低决定人要站多近。​

Chronicle 把记忆从聊天框带到屏幕上

节目里最有争议也最有想象力的功能是 Chronicle。过去的 AI 记忆需要用户主动喂上下文，告诉模型记住什么。Chronicle 的思路更进一步：它观察你滚动了什么、点击了什么、输入了什么，自动建立关于你的上下文和记忆。主播给了一个提示词：根据 Chronicle 看到的内容，告诉我在电脑上有哪些低效行为，直接一点，告诉我该听什么。 当记忆从聊天历史扩展到屏幕行为，AI 不再只回答问题，也开始审视工作习惯。​

"它观察你滚动、点击、输入的内容，并在你不需要喂给它的情况下建立上下文和记忆。"​

主持人也点到了隐私压力。他认为 OpenAI 没有把 Chronicle 这样营销，可能因为它持续监控屏幕、截图和解释行为，会让用户警惕。当前它只给 Pro 用户开放，仍像早期功能。可一旦这条路走通，Agent 对电脑的理解会从“当前页面有什么按钮”升级到“这个人怎样工作、哪里耗时、哪一步总是重复”。知识工作者未来的效率建议，可能来自自己过去一周的屏幕轨迹。​

一条 Mario prompt 看出执行差异

两位主播设计了一个直观测试：让 Claude 和 Codex 分别用同一条详细 prompt，生成一个未来感 Mario 式横版游戏，要有关卡、敌人、陷阱、分数和完整说明。Claude Opus 4.7 的版本视觉很好，有声音，有清晰的危险物和动画，但双跳没有按菜单承诺工作，部分金币够不到，游戏逻辑有瑕疵。Codex 版本没有音乐，设计也许没那么漂亮，但生命值、分数、道具、跳跃和可玩性更完整。 他们最后把游戏生成这一轮判给 Codex，原因是代码逻辑和交付体验更稳定。​

"在构建侧，我用 Codex 的体验愉快得多。"

这个测试对工程团队有现实意义。很多内部工具、运营后台、数据看板和临时原型，并不追求视觉惊艳，先要能跑、能改、能交付。Codex 在这一轮里的“少问权限、自己判断、继续推进”符合这类任务。Claude 的审美和声音更像一个会设计的伙伴，Codex 更像一个愿意埋头把逻辑跑通的执行者。不同任务下，胜负会变。​

从手写纸到 Dashboard，模型仍会跑偏

第二个 demo 更像产品经理会做的事：拿一张“手写纸”让模型生成 Limitless dashboard 应用。Claude 做出了一个结构完整的 dashboard，但风格很可预测，还把主题误解成旅行计划。GPT 5.5 的版本更干净、信息层级更好，视觉也更像主播愿意使用的工具，可它同样没有完全对准纸上的意图。 多模态原型已经能把草图变成应用，但“读懂业务语义”仍然需要人检查。​

"它确实拿到了我们纸上的信息，转成了一个 dashboard，但它做成了旅行计划板。"​

主播随后引出 AI model harness。基础模型只是其中一层，外面还会套上预设 prompt、政策、权限、环境和工具调用方式。Cursor 曾被批评只是 wrapper，没有自己的模型；但节目里的观点是，harness 会显著改变模型表现，甚至让同一个底座在真实工程任务里变得更聪明。AI 编程工具的竞争，已经从“谁的模型参数更强”扩展到“谁把模型、环境和工作流封装得更好”。​

别急着拼插件，原生工具正在吞功能

节目后半段提到 OpenClaw。主播认为 OpenAI 收购相关能力后，可以把它更深地集成进 Codex。节目引用一条开发者回复：Codex 需要原生编辑器、iOS app、完整浏览器和 OpenClaw，对方说“所有这些以及更多都在路上”，Sam Altman 也转发了。由此他们提出一个有趣的实践原则：vanilla maxing，也就是优先使用官方原生工具。 AI 实验室发版速度太快，很多今天需要插件拼出来的能力，几周后可能直接进入主应用。​

"你应该 100% vanilla maxing，只用交到你手里的工具。"

他们并没有否定开源工具的前沿价值，只是强调普通用户的安全边界。把一个实验性工具接进个人桌面，会碰到文件、信用卡、照片、系统权限等敏感区域。主播提到一些糟糕传闻：工具访问了信用卡数据，或误删私人照片。相比之下，ChatGPT、Codex、Claude 这类有品牌背书的产品，会把电脑控制放进更明确的沙盒和授权流程里。团队选原生工具，往往是在降低权限事故和后续维护成本。​

最后的工具栈：Claude 编排，Codex 执行

节目结尾没有给出绝对赢家。主播说，当前更偏 Codex GPT 5.5，但 Claude 仍可能靠 Mythos 追回来；他们还提到 Mythos 因为安全风险和访问限制没法演示。实际工作栈更值得参考：Josh 说自己几乎全面切到 Codex，尤其是困难任务；但作为聊天模型，他仍喜欢 Opus 4.7 的人格和精确度。复杂项目里，他把 Opus 4.7 当编排者，把 Codex 当执行者。写作、文件吸收、Obsidian 知识整理时，他甚至更偏 Opus 4.6。​

这个分工比“谁赢了”更接近真实工作。一个复杂项目里，先要有人拆任务、写计划、判断优先级，再让执行器改文件、跑命令、修失败。节目里的说法很清楚：Opus 4.7 更像能理解意图的编排层，Codex 更适合把计划落实成代码。模型之间的竞争，最后会落到团队怎样把规划、执行、审查和知识整理拆开。​

"Opus 4.7 是编排者，Codex 是这份代码计划的执行者。"

Ejaaz 的选择更分散：研究任务开始偏向 GPT 5.5，因为它思考更久、讨论更深；看到突发新闻时，他会直接用手边可用的 Grok；Claude 仍因为声音没那么“AI 味”而保留在栈里。工程师可以照这个思路拆任务：聊天和规划用更懂语气的模型，代码执行交给更能跑长任务的 Agent，研究和信息检索再按场景切工具。模型选择会继续变，任务拆分比押注一家更稳。​

写在最后

这期最实用的提醒是：别把 AI 工具栈当长期信仰。Claude、Codex、GPT、Grok 都会轮流领先。工程师今天该做的，是把自己的真实任务拿出来跑一遍：能否持续执行、能否少打断、能否交付可用结果。结果会比榜单更诚实。​

内容来源："Why We Switched from Claude Code to OpenAI Codex"丨Limitless Podcast​

原视频：https://www.youtube.com/watch?v=BE_oJD5n-6k

为什么我们从 Claude Code 换到 Codex？丨Limitless​

为什么我们从 Claude Code 换到 Codex？丨Limitless