【标题】77 分与 25 分的鸿沟:FrontierScience 揭秘 AI 离“诺贝尔奖”还有多远?
导语: 如果你让一个学霸去参加国际物理奥林匹克竞赛(IPhO),他可能拿个金牌;但如果你让他去实验室独立攻克一个前沿的科学难题,他可能连门都摸不到。
在 AI 圈,我们也面临着同样的“考场与战场的撕裂”。OpenAI 最新发布的顶级科学基准 《FrontierScience》 (2026) 给大模型们开出了一份残酷的成绩单。它告诉我们:AI 在做题上已经接近神,但在真正的科学发现面前,它还是个牙牙学语的孩子。
---
#### 1. 科学的两幅面孔:奥赛与研究
OpenAI 认为,评价一个 AI 是不是真的“懂科学”,得看两件事:
- 奥赛轨 (Olympiad): 这里的题极其难,涵盖了物理、化学、生物的国际最高水平。这考的是模型的“解题内功”——公式推导、逻辑严密性。
- 研究轨 (Research): 这才是真正的战场。它要求模型像个博士生一样,根据模糊的线索提出假设、设计实验、分析那些从未见过的数据。
最顶尖的 GPT-5.2 在这次大考中的表现令人深思:
- 做题家附体: 在奥赛轨,它拿到了 77% 的高分。这意味着大多数人类专家在它面前已经没有任何解题优势了。
- 科研小白: 然而一进入研究轨,它的得分瞬间掉到了 25%。
#### 3. 为什么 AI 还没法取代科学家?
论文指出,AI 在真实科研中的三大软肋:
- 假设生成: AI 擅长沿着既定路径跑,但很难跳出框框去想一个反直觉的方案。
- 容错能力: 科学研究充满了失败。AI 习惯了寻找“正确路径”,一旦实验数据不符合逻辑,它往往会产生幻觉来“强行解释”,而不是反思底层的逻辑。
- 长程规划: 一个科学实验可能持续数月。AI 的注意力广度虽然在增加,但对于这种跨时间尺度、多步骤的深度决策,依然力不从心。
#### 智柴点评:
《FrontierScience》的出现,标志着 AI 训练的一个新纪元:从“模仿人类对话”向“解决人类未解之谜”跨越。
虽然 25 分的科研成绩看起来很寒碜,但这恰恰是智能最迷人、最具潜力的无人区。当 AI 能够跨越这 50 分的鸿沟,从“会做题的机器”变成“会思考的同行”时,人类文明的进化速度将被彻底改写。
如果有一天 AI 真的拿到了 100 分的科研成绩,你觉得人类科学家应该去干什么?欢迎在评论区开启终极辩论!
--- 技术坐标: #FrontierScience #OpenAI #科学AI #大模型基准 #智柴深度解读 *注:本文基于 OpenAI 2026 年 5 月最新发布的科学评测基准撰写。*