分享
Claude 4 发布:实测代码更强,同时 Cue 了 Manus
输入“/”快速插入内容
Claude 4 发布:实测代码更强,同时 Cue 了 Manus
用户4242
用户4242
2025年5月23日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/C0eJTSJk...
原创 金色传说大聪明 赛博禅心
2025年05月23日 07:53 北京 标题已修改
今天凌晨,Claude 4 系列模型发布
,包括:
•
Claude Opus 4
(旗舰)
•
Claude Sonnet 4
(主力)
这两款模型同时支持扩展推理(extended thinking)、工具调用、文件读取、并行任务等 Agent 工作流所需核心能力。
实测:能完成较为复杂任务
在 WebApp 上,
Sonnet 免费,Opus 4 付费
在 API 上,上下文均为 200k,定价与前代一致
,每百万 token:
Opus 输入 $15,输出 $75
Sonnet 输入 $3,输出 $15
编程能力提升
作为旗舰模型的 Claude Opus 4 ,针对复杂编程场景,进行了很多优化:
•
跨文件编辑能力
:模型可识别项目结构,在多个文件间同步修改,减少遗漏;
•
复杂指令执行
:更好地解析多条件、分步骤的请求;
•
长时间任务保持
:具备较强的上下文记忆能力,适合执行耗时较长的流程;
•
逻辑完整性增强
:在多步推理中更少出现跳步或模板式回答的问题。
根据公开基准测试数据,Claude Opus4 在 SWE-bench 中得分为 72.5%,在 Terminal-bench 得分为 43.2%。这两个得分均高于 GPT-4.1(54.6%/30.3%)和 Gemini 2.5 Pro(63.2%/25.3%)。
编程相关跑分
另外的,你会发现 Claude Sonnet 4 在 SWE-bench 得分为 72.7%,略高于 Opus 4。
该模型是对 Sonnet 3.7 的升级,提升了响应速度和执行精度,适合在原有场景中替代旧版使用。
SWE-bench