Reader

北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?

| 机器之心 | Default
图片

本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京大学计算中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。

PHYBench 项目汇聚了来自物理学院及兄弟院系的 200 余名学生,共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中,包含至少 50 位全国中学生物理竞赛金牌得主,更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作,不仅充分展现了北大学子深厚的学术功底和卓越的组织协调能力,也为 PHYBench 产出高质量成果提供了坚实保障。

在大语言模型(LLMs)飞速发展的当下,模型的推理能力俨然成为模型能力的代名词。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相继发布,这些大模型凭借强化学习技术的助力,在许多科学评测基准上频频刷新纪录,甚至声称 “超越人类专家”。

但是,随着模型能力和评测基准的军备竞赛白热化,越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。这些题目虽然能 “区分” 模型,但是逐渐脱离实际场景,可能难以真正反映模型的实际表现。

近日,北京大学物理学院联合人工智能研究院等多个院系,推出了全新评测基准 PHYBench。PHYBench 包含 500 道经过精心设计的高质量物理题(如图 1),难度横跨高中物理、大学物理以及物理奥林匹克竞赛。这些题目以真实的物理场景为基础,对人类来说并不抽象,却把一众大模型考得七零八落。大模型在解决物理题时的思维链也暴露了它们在感知(Perception)和推理(Reasoning)能力上的缺陷。

图片
  • 论文链接:https://arxiv.org/abs/2504.16074

  • 项目网址:https://phybench-official.github.io/phybench-demo/

  • 数据集:https://huggingface.co/datasets/Eureka-Lab/PHYBench

也许,物理才是最适合考察 AI 推理能力的学科?PHYBench 的尝试为评估大模型真正有效的推理能力提供了全新的工具和视角。

图片

图 1:题目样例与两种评估方法:表达式树编辑距离、正确率。

图片

表 1:与现有 benchmark 对比,PHYBench 在高难度数据集中,有着相对大的规模,同时引入了创新的分数度量:表达式树编辑距离。

评测方法创新  表达式树编辑距离(EED Score) 

传统基准通常依赖 Accuracy 这一单一指标:设置唯一正确答案,模型只有在完全匹配时才能得分。为了方便评分,问答题通常被改写成选择题或要求代入数值。这样会导致答案的信息量被严重压缩,而且给出过多条件可能导致模型 “根据选项猜过程”,或者缺乏使用解析表达式表达普适关系的能力。同时在高难度的样本上,0/1 打分会使得所有模型在分数层面都被归零,强弱差异无从体现。

EED Score(Expression‑tree Edit Distance)带来了更贴近人类阅卷的方案。它将数学表达式解析成表达式树,再计算模型答案与参考答案之间的编辑距离:树的结构越接近,得分越高。这一机制输出的是连续、细粒度的分数,能在更多题目上显示区分度,显著提高了统计效力。

实验表明,采用 EED Score 的 500 题,其区分能力相当于 1500 道使用 0/1 Accuracy 的题目。上图(图 1)展示了同一道题三种不同答案在 Accuracy 与 EED Score 下的对比:前者只能给出 “全错 / 全对” 的粗糙评价,而后者则定量刻画了模型解答与正确答案之间的 “距离”。

实验结果  前沿模型与人类专家的差距

PHYBench 团队招募了 81 名北大学子,在 3 小时时限内做 8 道题目,与最先进的 AI 模型展开了一场 "人机大战"。

结果显示,即使是最强的 Gemini 2.5 pro,也只能答对 36.9% 的题目,EED 评分 49.5%。而 “人类专家” 们则轻松碾压,平均正确率高达 61.9%,EED 评分高达 70.5%。 排名前 25% 的受试者更是达到了 71.4% 的正确率 —— 几乎是最强 AI 的两倍。其他模型与人类的差距则更为显著。这一显著差距揭示了现阶段 LLM 在在物理推理场景中的瓶颈。

图片

PHYBench 对模型的能力也进行了细粒度的对比。可以看到,Gemini 2.5 pro、o3 等强推理模型虽然和人类还有较大差距,但是相比前代推理模型已经有了明显的进步。DeepSeek-V3 等基座模型虽未能超越主流推理模型,但也展现出了亮眼的成绩。QwQ-32B 和 DeepSeek32B 蒸馏模型等小型推理模型在 PHYBench 上的表现很令人失望,这可能归因于其物理感知能力的不足。

基于思维链的错因分析:PP × RR

PHYBench 团队对模型的错误进行了系统性总结分析,将模型的推理过程和推理能力划分为了两个关键模块:物理感知(Physical Perception,PP)和鲁棒推理(Robust Reasoning,RR):

图片
  • 物理感知(PP):在此阶段,模型进行密集的文字推理,模型需要识别问题相关的物理对象、变量和动力学关系,定性判断哪些物理效应是重要的,哪些可以忽略不计。若 PP 出错,后续整个推理都会偏离轨道。(示例 1 展示典型 PP 失误)

  • 鲁棒推理(RR):在此阶段,模型写下大量的 “草稿”,一步步化简表达式,解方程。现阶段的推理模型在此阶段的推理效率尚不高,“草稿” 长度远长于人类,而且经常犯 “低级错误”。(示例 2 展示典型 RR 失误)

PP 和 RR 交替进行,组成了典型的物理解题思维链。

图片

未来展望

推动 AI 的物理理解与推理能力发展

PHYBench 的愿景远不止于 “评测”,更在于 “引领” AI 探索物理世界的无限可能。

PHYBench 的发布,不仅为评估大语言模型在物理感知与推理方面的能力提供了一个全新且权威的基准,更为未来 AI 系统的发展指明了攻坚方向。我们精心设计的真实、复杂的物理场景,旨在深度激发并验证 AI 理解世界并进行可靠推理的能力,推动 AI 系统真正实现对世界的认知、融入与变革。

面向未来,PHYBench 团队将持续致力于数据集的拓展与创新,计划纳入更多前沿物理课题、跨学科交叉内容,甚至挑战人类尚未解开的科学谜题。我们相信,通过提供更具深度和广度的物理挑战,PHYBench 将有力催化 AI 向着突破认知边界、探索未知领域的 “智能伙伴” 或 “超级助手” 发展。