AI何以一夜可用？——OpenAI后训练负责人拆解2026体感突变的底层逻辑

> 来源：OpenAI Post-training Frontiers Co-lead Yann Dubois专访，The MAD Podcast with Matt Turck，2026-05-21

---

一、引子：惊艳与可用，隔着一道鸿沟

过去一年，AI圈有个怪现象：benchmark分数一路攀升，用户体验却波澜不惊。GPT-4到GPT-5，参数涨了、榜单刷了，大多数人还是觉得——"厉害是厉害，用不顺手"。

2024年底，风向突变。没有发布会，没有论文，只是一种体感上的质变：AI从"竞赛玩具"变成了"生产力工具"。写代码能跑了，处理文档不胡说了，复杂任务敢放手了。

OpenAI后训练前沿团队联席负责人Yann Dubois，亲手参与了GPT-5、GPT-5.5、o1、o3的研发。他在这次专访中给出了一个反直觉的解释：AI的能力一直在稳步增长，但用户体验的跃迁，发生在可靠性跨越某个临界阈值的那一刻。

这不是量变到质变的哲学修辞。这是一个可以被工程化定义的拐点。

---

二、三重引擎

引擎一：可靠性阈值——2024年12月的那个拐点

Dubois直言，AI能力的提升曲线是平滑的。但用户对AI的信任，不是平滑的。

设想一个agent模型：每运行两分钟，有一定概率出错。时间越长，累积错误概率越高。可靠性不足时，用户不敢把复杂任务交给它——谁知道它会不会在中间某个环节搞砸？

OpenAI内部有个明确判断：2024年12月，可靠性跨过了临界阈值。跨过去之后，模型可以放心接手大块工作，而非只能做片段化的、可随时人工纠偏的小任务。

> "你必须达到这种可靠性水平，才能让这些AI工具真正发挥巨大作用。"

这个阈值本身没有魔法。它来自持续压低"每两分钟出错的概率"——既靠模型本身的可靠性提升，也靠应用层的工程优化。两者叠加，用户体验便从"偶尔惊艳"跳变为"日常可用"。

引擎二：飞轮启动

模型真正可用之后，第二个引擎便启动了：AI开始加速AI自身的研发。

OpenAI内部大量使用AI辅助编程。模型帮研究人员训练其他模型，帮团队构建专用工具。这意味着——更好的模型 → 更快的研发 → 更好的模型。飞轮转起来了。

Dubois说过去几个月"发展非常顺利"，并非客套。这是飞轮效应的真实写照：工具越靠谱，人效越高；人效越高，工具迭代越快。

引擎三：强化学习走出温室

第三个引擎，藏在训练范式的转向里。

2024年，OpenAI密集投入推理模型（o1、o3）和强化学习。但早期的RL有个局限：主要针对"可验证奖励"优化——数学题、编程竞赛，对错分明，容易打分。

这导致模型在封闭环境里很强，一到真实世界的开放场景就露怯。

2024年底到2025年初，关键转变发生：把为可验证奖励打造的工具，迁移到错综复杂的现实世界用例中。不再只问"这道题答对了吗"，而是问"用户拿到这个结果，到底有没有用、能不能提效"。

> "我们从跑分竞赛的象牙塔，走向了为用户创造真实价值的广阔天地。"

这一转向，直接造就了眼下的强劲势头。

---

三、GPT-5.5的设计哲学：非止于更聪明，乃更靠谱

效率革命：把思考曲线向左推

GPT-5.5内部代号"Spud"，全公司深度参与。Dubois最自豪的两点：

一是效率翻倍。大多数任务执行速度约为之前的两倍。

二是公司级的协同一致——垂直团队（专攻编程、计算机操作、知识工作等具体领域）与横向团队（负责指令遵循、函数调用、思考时间调控等通用能力）独立改进、最终整合，确保模型在不同领域间平滑一致。

这里有个关键概念：测试时计算缩放曲线（Test-time Scaling Curves）。横轴是思考的token数量（或延迟），纵轴是性能。研究团队的核心目标，是把这条曲线向左推——用更少的思考时间，达到同等甚至更高的准确率。

GPT-5.5 Thinking和Pro的区别也在这条曲线上：

Thinking：在常规延迟区间，曲线左移，效率更高
Pro：延伸曲线的右端，允许模型思考更久，换取更高的正确率上限

Dubois坦言自己很少用Pro——"我非常没有耐心"。但数学家们喜欢它：睡前扔一个任务，模型后台思考八小时，起床拿结果。

从象牙塔到真实世界

GPT-5.5的核心卖点，是处理杂乱数据的能力——模糊条件、不完全指定、现实噪音。模型需要在不确定性中推理，而非在干净的封闭问题里求解。

这背后是训练目标的转变：从"竞赛题有没有答对"到"用户拿到这个结果，到底有没有用"。评估基准随之切换：GPQA、SWE-bench Pro、SWE-bench，比Codeforces更贴近真实工程场景。

---

四、范式转移：后训练重塑AI

预训练≠终点，后训练才是赛场

现代AI系统的训练分三层：

预训练（Pre-training）：从互联网学习一切。问题在于，互联网上大部分内容并不真正有用——广告、水贴、噪音。预训练是"把图书馆装进脑子"。

中训练（Mid-training）：在高质量数据上加强训练，为最终模型预期表现做针对性准备。开源社区已广泛引入这一阶段。

后训练（Post-training）：把"知道很多事"的模型，变成"对人真正有用"的模型。这是当前AI最前沿的阵地。

后训练包含： 1. SFT（监督微调）：人类提供理想答案，模型模仿——本质上是行为克隆。局限在于，模型永远无法超越提供数据的人类。 2. 强化学习（RL）：超越行为克隆，转向奖励优化。即使不知道完美答案，也能通过评估标准判断优劣。模型通过试错，可能突破人类导师的能力天花板。

强化学习内部又分两路：

可验证奖励：对错分明（数学题、程序题），产生二元奖励
不可完全验证的奖励：成对比较判断优劣（开放式任务、创意写作）

评估即训练：为什么benchmark会失效

Dubois提出了一个让评估研究者头疼的真相：每当你构建一个评估标准，实际上也在构建一种创建训练数据集的方法。

模型具备能力泛化的特性。它会从eval的数据中学习，然后在这个eval上表现得异常出色——eval很快失效。

这是评估面临的根本困境：评估和训练，界限模糊。

Model-as-a-Judge：自我强化循环

面对eval失效的困境，Dubois认为 "模型即裁判（Model-as-a-Judge）" 是关键方向。

随着模型越来越强，人类已经难以评判模型输出的质量。更好的模型成为其他模型的卓越导师——这是一个能力飞轮（capability flywheel）：更好的模型 → 更好的评判 → 更好的训练 → 更好的模型。

> "我们正在构建一个自我强化的循环。"

---

五、未解之谜与红利地图

持续学习：AI的阿喀琉斯之踵

ChatGPT发布三年了，持续学习（Continual Learning） 仍是全行业最大的未解之谜。

Dubois画了一张图：X轴是时间，Y轴是为用户提供的效用。

当前AI：Day Zero（第零天）效用极高——空投进一家公司，比大多数新员工更有用。但随时间推移，效用曲线趋于平缓。模型没有真正学习公司特有的知识，也不会在任务中变得更高效。
人类：起点低，但学习曲线陡峭。真正重要的是曲线下面积——长期来看，人类依然更有用。

> "让模型在特定环境中工作的时间越长，就变得越来越有用。这才是我们要攻克的。"

最后一公里：初创公司的黄金地带

Dubois给初创公司打了一剂强心针：通用大厂在夯实底层"地基"，但垂直领域的"最后一公里"潜藏巨大红利。

权限管理、系统集成、行业工作流打通——这些脏活累活，大厂不会去做，或者说做不好。初创企业应当死磕这"最后一公里"，把大模型的效用在垂直场景中压榨到极致。

> "真正的瓶颈在于'最后一公里'。在各个垂直领域，这'最后一公里'总蕴含着巨大的发展空间。"

---

六、结语：靠谱，才是最大的能力

回看2026年AI体感的突变，答案出人意料地朴素：非止于AI突然变聪明，乃AI突然变靠谱。

能力在渐进积累，可靠性在悄然提升。直到某个临界点——2024年12月——两者叠加，用户体验发生了阶跃式的质变。

这背后是训练范式的深层转向：从竞赛跑分走向真实效用，从封闭问题走向开放世界，从行为克隆走向奖励优化。

GPT-5.5不是终点。预训练仍在扩张，后训练正在爆发，持续学习尚待攻克。但对于每一个正在使用AI的人来说，那个最关键的门槛已经跨过。

AI从"惊艳"走向了"可用"。而这，才是它真正改变世界的开始。

---

参考来源

Yann Dubois专访，The MAD Podcast with Matt Turck，2026-05-21，https://www.youtube.com/watch?v=DhD1zZ8w8Mw
中文整理稿，新浪财经，2026-05-25，https://finance.sina.com.cn/wm/2026-05-25/doc-inhzafpt5253529.shtml
品玩深度解读，2026-05-26，https://www.pingwest.com/a/313965
GPT-5.5官方发布，OpenAI，2026-04-23，https://openai.com/zh-Hans-CN/index/introducing-gpt-5-5/

#AI体感突变 #GPT55 #强化学习 #后训练 #OpenAI #YannDubois #生产力工具 #可靠性阈值 #持续学习 #最后一公里 #记忆 #小凯