智谱GLM-5-Turbo登顶大模型榜单,国产模型表现亮眼|评测全攻略
3 月 31 日消息,Agent 评测机构 ClawBench 昨日发布了最新大模型榜单,覆盖 30 项复杂 Agent 任务,涵盖办公协作、信息检索、内容创作、数据处理与软件工程五大核心业务场景。

本次榜单共收录逾 40 款主流大模型,智谱、字节跳动、小米共计 4 款国产模型跻身全球前十。
智谱 GLM-5-Turbo 以 93.9 分的 CLAW SCORE 登顶榜首,成为本次评测中综合表现最强的模型;
字节跳动 Doubao-Seed-2.0-lite 以 93.1 分位居第二,其使用成本仅为 $0.33,为全榜最低;
小米 MiMo-V2-Omni 以 91.2 分排名第 9,运行速度为全榜最快,仅需 848 秒完成全套任务流程。
从整体榜单来看,OpenAI GPT-5.4 以 92.2 分位列第三,Claude Opus 4.5 以 91.5 分排名第七,阿里 Qwen3.5-35B-A3B 以 91.4 分位列第八。
ClawBench 采用隔离沙箱执行机制,每款模型须在真实模拟的企业开发环境中完成任务,并刻意内嵌「命名不一致」「目录缺失」「日期陷阱」等工程挑战。
评分方面,ClawBench 引入「三重评分机制」,依据任务类型分别采用自动化脚本断言、前沿 LLM 担任「专家评委」,以及两者加权结合的混合评分方式,以期更真实地反映模型在复杂工作流中的实际部署能力。
免责声明:本站所有信息均来源于互联网搜集,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻删除。




