Claude 4 发布：实测代码更强，同时 Cue 了 Manus

用户4242

2025年5月23日修改

原创 金色传说大聪明 赛博禅心2025年05月23日 07:53  北京 标题已修改​

今天凌晨，Claude 4 系列模型发布，包括：

•
Claude Opus 4 （旗舰）​

•
Claude Sonnet 4 （主力）​

这两款模型同时支持扩展推理（extended thinking）、工具调用、文件读取、并行任务等 Agent 工作流所需核心能力。​

实测：能完成较为复杂任务

在 WebApp 上， Sonnet 免费，Opus 4 付费 ​
在 API 上，上下文均为 200k，定价与前代一致 ，每百万 token： ​
Opus 输入 $15，输出 $75 ​
Sonnet 输入 $3，输出 $15​

编程能力提升

作为旗舰模型的 Claude Opus 4 ，针对复杂编程场景，进行了很多优化：​

•
跨文件编辑能力 ：模型可识别项目结构，在多个文件间同步修改，减少遗漏；​

•
复杂指令执行 ：更好地解析多条件、分步骤的请求；​

•
长时间任务保持 ：具备较强的上下文记忆能力，适合执行耗时较长的流程；​

•
逻辑完整性增强 ：在多步推理中更少出现跳步或模板式回答的问题。​

根据公开基准测试数据，Claude Opus4 在 SWE-bench 中得分为 72.5%，在 Terminal-bench 得分为 43.2%。这两个得分均高于 GPT-4.1（54.6%/30.3%）和 Gemini 2.5 Pro（63.2%/25.3%）。​

编程相关跑分

另外的，你会发现 Claude Sonnet 4 在 SWE-bench 得分为 72.7%，略高于 Opus 4。 ​
该模型是对 Sonnet 3.7 的升级，提升了响应速度和执行精度，适合在原有场景中替代旧版使用。​

SWE-bench

Claude 4 发布：实测代码更强，同时 Cue 了 Manus​