我们每天为你更新硅谷最新的 AI 创业与科技播客总结,让你与前沿保持同频。 全文约 3900 字,如果你现在没有时间,试试转成播客稍后再听
"你今天用的模型,可能不会是你明天用的模型。"
"过去一周,Codex 的下载或安装超过 4600 万次。"
"Opus 4.7 是编排者,Codex 是这份计划的执行者。"
这期节目讨论了一个很贴近工程师日常的问题:几个月前,他们还建议大家用 Claude Code;现在,他们开始解释为什么自己又切回 OpenAI Codex。两位主播没有把它做成抽象模型榜单,而是拿电脑控制、长任务自治、浏览器、自动审批、Chronicle 记忆、游戏生成和仪表盘生成做了对比。对工程师、产品经理和知识工作者来说,这期的价值在于:AI 工具栈的稳定期很短,选工具不能只靠品牌记忆,要回到当天的实际任务。
Claude Code 曾经赢下工程师心智
圣诞假期前后,AI 编程从“好玩的工具”进入真实交付场景,开发者开始拿它写代码、修项目、做 side project。Anthropic 在那段时间连续发布产品,把 Claude Code 推成很多工程师的默认入口。主播也说,自己做 AI 相关工作时,任何进展都往 Claude Code 里丢。 短短几个月里,Claude Code 从新鲜功能变成了工作台。 这个背景很重要,Codex 的反超直接打到一批已经形成习惯的开发者,逼他们重新评估默认工具。
长任务自治也被放在同一组能力里。他们提到一种 Ralph loop:给 AI 一个目标,让它不断迭代,直到完成任务。Codex 被描述为更接近原生长任务执行器,有人截图显示它能思考 36 小时去完成目标。对写代码的人,这不是炫技数字。项目里真正麻烦的工作往往是修一串边界条件、跑测试、改权限、再回头找原因。能否持续推进,直接决定 Agent 是玩具还是队友。
工程师使用 AI 写代码时,最烦的一类打断来自权限。工具想打开 Chrome、访问文件、运行命令,人得坐在旁边不断点批准。Codex 最近发布 auto review 后,主播认为体验变顺了:Agent 会区分哪些动作可能造成系统级风险,哪些只是普通步骤;低风险动作自动批准,高风险动作再交给人确认。 Agent 工作流的效率,不只取决于模型回答质量,也取决于权限系统能不能减少无意义等待。
"它会知道哪些批准可能是系统级威胁,哪些批准不会让你陷入麻烦。"
节目里也给 Claude 留了位置。Claude 的移动端 dispatch 能远程操作 Claude Code,Codex 当下还没有同等能力。Claude 的人格和界面仍然更温暖,作为聊天模型或“harness”里的工具也很强。两位主播并没有说 Claude 全面失效,反而把分工说得更细:Claude 在对话、人格、编排和部分远程能力上依然有优势,Codex 更像执行复杂动作的工作马。
这里的取舍会影响团队流程。生产环境代码、支付系统、权限变更这类任务,工程师可能更想让 Claude 多问几次;临时游戏、营销页、内部工具这类任务,少打断、自动推进反而更舒服。AI 工具没有单一最佳模式,风险高低决定人要站多近。
Chronicle 把记忆从聊天框带到屏幕上
节目里最有争议也最有想象力的功能是 Chronicle。过去的 AI 记忆需要用户主动喂上下文,告诉模型记住什么。Chronicle 的思路更进一步:它观察你滚动了什么、点击了什么、输入了什么,自动建立关于你的上下文和记忆。主播给了一个提示词:根据 Chronicle 看到的内容,告诉我在电脑上有哪些低效行为,直接一点,告诉我该听什么。 当记忆从聊天历史扩展到屏幕行为,AI 不再只回答问题,也开始审视工作习惯。
"它观察你滚动、点击、输入的内容,并在你不需要喂给它的情况下建立上下文和记忆。"
主持人也点到了隐私压力。他认为 OpenAI 没有把 Chronicle 这样营销,可能因为它持续监控屏幕、截图和解释行为,会让用户警惕。当前它只给 Pro 用户开放,仍像早期功能。可一旦这条路走通,Agent 对电脑的理解会从“当前页面有什么按钮”升级到“这个人怎样工作、哪里耗时、哪一步总是重复”。知识工作者未来的效率建议,可能来自自己过去一周的屏幕轨迹。
一条 Mario prompt 看出执行差异
两位主播设计了一个直观测试:让 Claude 和 Codex 分别用同一条详细 prompt,生成一个未来感 Mario 式横版游戏,要有关卡、敌人、陷阱、分数和完整说明。Claude Opus 4.7 的版本视觉很好,有声音,有清晰的危险物和动画,但双跳没有按菜单承诺工作,部分金币够不到,游戏逻辑有瑕疵。Codex 版本没有音乐,设计也许没那么漂亮,但生命值、分数、道具、跳跃和可玩性更完整。 他们最后把游戏生成这一轮判给 Codex,原因是代码逻辑和交付体验更稳定。
主播随后引出 AI model harness。基础模型只是其中一层,外面还会套上预设 prompt、政策、权限、环境和工具调用方式。Cursor 曾被批评只是 wrapper,没有自己的模型;但节目里的观点是,harness 会显著改变模型表现,甚至让同一个底座在真实工程任务里变得更聪明。AI 编程工具的竞争,已经从“谁的模型参数更强”扩展到“谁把模型、环境和工作流封装得更好”。