GLM-5.1编程能力提升对比Claude Opus|模型性能全解析
4 月 3 日消息,昨天,智谱 GLM-5.1 低调上线,未举行发布会,未发布技术报告,直接面向 GLM Coding Plan 全体用户(Lite、Pro、Max)开放使用。

在官方公布的编程能力评测中,GLM-5.1 得分 45.3 分,与 Claude Opus 4.6 的 47.9 分仅差 2.6 分。与上一代 GLM-5 的 35.4 分相比,单次迭代提升近 10 分,升幅约 28%。
GLM-5.1 的核心能力提升集中在以下几个方面:
编程评测得分 45.3,SWE-bench Verified 得分 77.8%,与 Opus 4.6 差距在 3 个百分点以内;
支持 200K tokens 上下文窗口与 131K tokens 最大输出长度;
在 BrowseComp 联网检索、MCP-Atlas 复杂工具调用、τ²-Bench 多工具统筹执行等 Agent 场景中表现突出;
幻觉率从上一代的 38.6% 降至 34.1%。
此外,智谱昨天还官宣发布了多模态 Coding 基座模型 GLM-5V-Turbo:
原生支持图片、视频、设计稿等多模态输入,上下文窗口 200k;
核心能力:看懂设计稿/截图直接生成可运行代码(前端复刻);
与 Claude Code、AutoClaw 深度适配,支持完整 GUI Agent 闭环;
在 AndroidWorld、WebVoyager 等 GUI 基准上表现突出,纯文本编程能力同步保持。
免责声明:本站所有信息均来源于互联网搜集,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻删除。




