AI PK 北大化学学生:顶尖模型仅与低年级本科生的平均水平相当
12 月 29 日消息,据新华社报道,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,日前发布了化学领域多模态深度推理评测的最新成果 SUPERChem。

而在近期,他们以这套「北大试卷」为标尺,冷静丈量着 AI 在科学推理上的真实边界。
据悉,参与本场考试的除了 174 位北大化学与分子工程学院的大二学生,还有GPT、Gemini、DeepSeek、Qwen 等多款时下流行大模型。
报道指出,本次 SUPERChem 的题库由 500 道源于对高难度试题和前沿专业文献的深度改编组成,题目并非来自网络上随手可得的公开题库。同时该题库也是为了设计一套让 AI「没见过」、必须靠硬实力推理的题目。
在这场精心设计的考试中,人类展现出了复杂的科学直觉。作为基线,参与测试的北大化院本科生取得了 40.3% 的平均准确率。
而 AI 方面却表现平平:
即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的平均水平相当。据榜单显示,正确率最高的 GPT-5(High),其获得 39.6% 的正确率,低于人类水平。
不仅正确率较为「异常」,在部分领域,模型表现也令团队感觉困惑:
化学的语言是图形,分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言,当引入图像信息时,其准确率不升反降。这说明,当前的 AI 在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈。
即使选对了答案,解题步骤也可能经不起推敲。团队发现,AI 的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。
报道指出,团队发布这项成果,并非为了证明 AI 的短板,而是为了推动它走得更远。SUPERChem 就像一个路标。它提醒我们:
从通用的聊天机器人,到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走。那是从「记住知识」到「理解物理世界」的跨越。
免责声明:本站所有信息均来源于互联网搜集,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻删除。




