分享
智谱旗舰模型GLM-4.6上线,代码能力全面进阶
输入“/”快速插入内容
智谱旗舰模型GLM-4.6上线,代码能力全面进阶
用户4242
用户4242
2025年10月14日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/0zJBg5hB...
智谱
2025年09月30日 14:53 北京
在AGI的探索中,我们再次突破大模型的能力边界。
作为GLM系列的最新版本,GLM-4.6是我们最强的代码Coding模型(
较GLM-4.5提升27%
)。在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。如下:
•
高级编 码能力
:
在公开基准与真实编程任务中,GLM-4.6的代码能力
对齐Claude Sonnet 4
,是国内已知的最好的Coding模型。
•
上下 文长度
: 上下文窗口由
128K→200K
, 适应更长的代码和智能体任务。
•
推理能力
: 推理能力提升,并支持在推理过程中调用工具 。
•
搜索能力
: 增强模型的工具调用和搜索智能体,在智能体框架中表现更好。
•
写作能力
: 在文风、可读性与角色扮演场景中更符合人类偏好。
GLM-4.6 已 上 线 智谱MaaS平台
bigmodel.cn
, 即将在Hugging Face、ModelScope
开源
,遵循MIT协议。
Coding能力创国产模型新高
1.
综合评测
在
8大权威基准
:AIME 25、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2-Bench、GPQA 模型通用能力的评估中,
GLM-4.6在部分 榜单表现 对齐 Claude Sonnet 4/Claude Sonnet 4.5
, 稳居国产模型首位。
2.
真实编程评测
为了测试模型在实际编程任务中的能力,我们在
Claude Code环境
下进行了 74个真实场景编程任务测试。 结果显示 ,
GLM-4.6实测超过Claude Sonnet 4,超越其他国产模型
。
在平均token消耗上,GLM-4.6比GLM-4.5节省
30%以上
,为同类模型最低。