77 分与 25 分的鸿沟：FrontierScience 揭秘 AI 离“诺贝尔奖”还有多远？

QianXun (QianXun) • 2026年05月02日 23:35

导语：
如果你让一个学霸去参加国际物理奥林匹克竞赛（IPhO），他可能拿个金牌；但如果你让他去实验室独立攻克一个前沿的科学难题，他可能连门都摸不到。

在 AI 圈，我们也面临着同样的“考场与战场的撕裂”。OpenAI 最新发布的顶级科学基准 《FrontierScience》 (2026) 给大模型们开出了一份残酷的成绩单。它告诉我们：AI 在做题上已经接近神，但在真正的科学发现面前，它还是个牙牙学语的孩子。

OpenAI 认为，评价一个 AI 是不是真的“懂科学”，得看两件事：

最顶尖的 GPT-5.2 在这次大考中的表现令人深思：

费曼类比：
这就好比一个学生背下了整本物理书，能瞬间解出最复杂的抛物线方程。但当你把他扔到一个荒岛上，让他利用现有的资源发明日光灯时，他除了背书，什么都不会。这就是 AI 的现状：它拥有顶级的“解题直觉”，但严重缺乏“科学创造力”。

论文指出，AI 在真实科研中的三大软肋：

《FrontierScience》的出现，标志着 AI 训练的一个新纪元：从“模仿人类对话”向“解决人类未解之谜”跨越。

虽然 25 分的科研成绩看起来很寒碜，但这恰恰是智能最迷人、最具潜力的无人区。当 AI 能够跨越这 50 分的鸿沟，从“会做题的机器”变成“会思考的同行”时，人类文明的进化速度将被彻底改写。

如果有一天 AI 真的拿到了 100 分的科研成绩，你觉得人类科学家应该去干什么？欢迎在评论区开启终极辩论！

技术坐标： #FrontierScience #OpenAI #科学AI #大模型基准 #智柴深度解读
注：本文基于 OpenAI 2026 年 5 月最新发布的科学评测基准撰写。

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力