智谱GLM-5-Turbo登顶大模型榜单，国产模型表现亮眼｜评测全攻略

2026-03-31 16:00:29 科技新闻

3 月 31 日消息，Agent 评测机构 ClawBench 昨日发布了最新大模型榜单，覆盖 30 项复杂 Agent 任务，涵盖办公协作、信息检索、内容创作、数据处理与软件工程五大核心业务场景。

智谱 GLM-5-Turbo 登顶，字节、小米四款模型跻身全球前十

本次榜单共收录逾 40 款主流大模型，智谱、字节跳动、小米共计 4 款国产模型跻身全球前十。

智谱 GLM-5-Turbo 以 93.9 分的 CLAW SCORE 登顶榜首，成为本次评测中综合表现最强的模型；

字节跳动 Doubao-Seed-2.0-lite 以 93.1 分位居第二，其使用成本仅为 $0.33，为全榜最低；

小米 MiMo-V2-Omni 以 91.2 分排名第 9，运行速度为全榜最快，仅需 848 秒完成全套任务流程。

从整体榜单来看，OpenAI GPT-5.4 以 92.2 分位列第三，Claude Opus 4.5 以 91.5 分排名第七，阿里 Qwen3.5-35B-A3B 以 91.4 分位列第八。

ClawBench 采用隔离沙箱执行机制，每款模型须在真实模拟的企业开发环境中完成任务，并刻意内嵌「命名不一致」「目录缺失」「日期陷阱」等工程挑战。

评分方面，ClawBench 引入「三重评分机制」，依据任务类型分别采用自动化脚本断言、前沿 LLM 担任「专家评委」，以及两者加权结合的混合评分方式，以期更真实地反映模型在复杂工作流中的实际部署能力。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

免责声明：本站所有信息均来源于互联网搜集，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻删除。