来源:OpenAI Post-training Frontiers Co-lead Yann Dubois专访,The MAD Podcast with Matt Turck,2026-05-21
一、引子:惊艳与可用,隔着一道鸿沟
过去一年,AI圈有个怪现象:benchmark分数一路攀升,用户体验却波澜不惊。GPT-4到GPT-5,参数涨了、榜单刷了,大多数人还是觉得——"厉害是厉害,用不顺手"。
2024年底,风向突变。没有发布会,没有论文,只是一种体感上的质变:AI从"竞赛玩具"变成了"生产力工具"。写代码能跑了,处理文档不胡说了,复杂任务敢放手了。
OpenAI后训练前沿团队联席负责人Yann Dubois,亲手参与了GPT-5、GPT-5.5、o1、o3的研发。他在这次专访中给出了一个反直觉的解释:AI的能力一直在稳步增长,但用户体验的跃迁,发生在可靠性跨越某个临界阈值的那一刻。
这不是量变到质变的哲学修辞。这是一个可以被工程化定义的拐点。
二、三重引擎
引擎一:可靠性阈值——2024年12月的那个拐点
Dubois直言,AI能力的提升曲线是平滑的。但用户对AI的信任,不是平滑的。
设想一个agent模型:每运行两分钟,有一定概率出错。时间越长,累积错误概率越高。可靠性不足时,用户不敢把复杂任务交给它——谁知道它会不会在中间某个环节搞砸?
OpenAI内部有个明确判断:2024年12月,可靠性跨过了临界阈值。跨过去之后,模型可以放心接手大块工作,而非只能做片段化的、可随时人工纠偏的小任务。
"你必须达到这种可靠性水平,才能让这些AI工具真正发挥巨大作用。"
这个阈值本身没有魔法。它来自持续压低"每两分钟出错的概率"——既靠模型本身的可靠性提升,也靠应用层的工程优化。两者叠加,用户体验便从"偶尔惊艳"跳变为"日常可用"。
引擎二:飞轮启动
模型真正可用之后,第二个引擎便启动了:AI开始加速AI自身的研发。
OpenAI内部大量使用AI辅助编程。模型帮研究人员训练其他模型,帮团队构建专用工具。这意味着——更好的模型 → 更快的研发 → 更好的模型。飞轮转起来了。
Dubois说过去几个月"发展非常顺利",并非客套。这是飞轮效应的真实写照:工具越靠谱,人效越高;人效越高,工具迭代越快。
引擎三:强化学习走出温室
第三个引擎,藏在训练范式的转向里。
2024年,OpenAI密集投入推理模型(o1、o3)和强化学习。但早期的RL有个局限:主要针对"可验证奖励"优化——数学题、编程竞赛,对错分明,容易打分。
这导致模型在封闭环境里很强,一到真实世界的开放场景就露怯。
2024年底到2025年初,关键转变发生:把为可验证奖励打造的工具,迁移到错综复杂的现实世界用例中。不再只问"这道题答对了吗",而是问"用户拿到这个结果,到底有没有用、能不能提效"。
"我们从跑分竞赛的象牙塔,走向了为用户创造真实价值的广阔天地。"
这一转向,直接造就了眼下的强劲势头。
三、GPT-5.5的设计哲学:非止于更聪明,乃更靠谱
效率革命:把思考曲线向左推
GPT-5.5内部代号"Spud",全公司深度参与。Dubois最自豪的两点:
一是效率翻倍。大多数任务执行速度约为之前的两倍。
二是公司级的协同一致——垂直团队(专攻编程、计算机操作、知识工作等具体领域)与横向团队(负责指令遵循、函数调用、思考时间调控等通用能力)独立改进、最终整合,确保模型在不同领域间平滑一致。
这里有个关键概念:测试时计算缩放曲线(Test-time Scaling Curves)。横轴是思考的token数量(或延迟),纵轴是性能。研究团队的核心目标,是把这条曲线向左推——用更少的思考时间,达到同等甚至更高的准确率。
GPT-5.5 Thinking和Pro的区别也在这条曲线上:
- Thinking:在常规延迟区间,曲线左移,效率更高
- Pro:延伸曲线的右端,允许模型思考更久,换取更高的正确率上限
Dubois坦言自己很少用Pro——"我非常没有耐心"。但数学家们喜欢它:睡前扔一个任务,模型后台思考八小时,起床拿结果。
从象牙塔到真实世界
GPT-5.5的核心卖点,是处理杂乱数据的能力——模糊条件、不完全指定、现实噪音。模型需要在不确定性中推理,而非在干净的封闭问题里求解。
这背后是训练目标的转变:从"竞赛题有没有答对"到"用户拿到这个结果,到底有没有用"。评估基准随之切换:GPQA、SWE-bench Pro、SWE-bench,比Codeforces更贴近真实工程场景。
四、范式转移:后训练重塑AI
预训练≠终点,后训练才是赛场
现代AI系统的训练分三层:
预训练(Pre-training):从互联网学习一切。问题在于,互联网上大部分内容并不真正有用——广告、水贴、噪音。预训练是"把图书馆装进脑子"。
中训练(Mid-training):在高质量数据上加强训练,为最终模型预期表现做针对性准备。开源社区已广泛引入这一阶段。
后训练(Post-training):把"知道很多事"的模型,变成"对人真正有用"的模型。这是当前AI最前沿的阵地。
后训练包含:
- SFT(监督微调):人类提供理想答案,模型模仿——本质上是行为克隆。局限在于,模型永远无法超越提供数据的人类。
- 强化学习(RL):超越行为克隆,转向奖励优化。即使不知道完美答案,也能通过评估标准判断优劣。模型通过试错,可能突破人类导师的能力天花板。
强化学习内部又分两路:
- 可验证奖励:对错分明(数学题、程序题),产生二元奖励
- 不可完全验证的奖励:成对比较判断优劣(开放式任务、创意写作)
评估即训练:为什么benchmark会失效
Dubois提出了一个让评估研究者头疼的真相:每当你构建一个评估标准,实际上也在构建一种创建训练数据集的方法。
模型具备能力泛化的特性。它会从eval的数据中学习,然后在这个eval上表现得异常出色——eval很快失效。
这是评估面临的根本困境:评估和训练,界限模糊。
Model-as-a-Judge:自我强化循环
面对eval失效的困境,Dubois认为 "模型即裁判(Model-as-a-Judge)" 是关键方向。
随着模型越来越强,人类已经难以评判模型输出的质量。更好的模型成为其他模型的卓越导师——这是一个能力飞轮(capability flywheel):更好的模型 → 更好的评判 → 更好的训练 → 更好的模型。
"我们正在构建一个自我强化的循环。"
五、未解之谜与红利地图
持续学习:AI的阿喀琉斯之踵
ChatGPT发布三年了,持续学习(Continual Learning) 仍是全行业最大的未解之谜。
Dubois画了一张图:X轴是时间,Y轴是为用户提供的效用。
- 当前AI:Day Zero(第零天)效用极高——空投进一家公司,比大多数新员工更有用。但随时间推移,效用曲线趋于平缓。模型没有真正学习公司特有的知识,也不会在任务中变得更高效。
- 人类:起点低,但学习曲线陡峭。真正重要的是曲线下面积——长期来看,人类依然更有用。
"让模型在特定环境中工作的时间越长,就变得越来越有用。这才是我们要攻克的。"
最后一公里:初创公司的黄金地带
Dubois给初创公司打了一剂强心针:通用大厂在夯实底层"地基",但垂直领域的"最后一公里"潜藏巨大红利。
权限管理、系统集成、行业工作流打通——这些脏活累活,大厂不会去做,或者说做不好。初创企业应当死磕这"最后一公里",把大模型的效用在垂直场景中压榨到极致。
"真正的瓶颈在于'最后一公里'。在各个垂直领域,这'最后一公里'总蕴含着巨大的发展空间。"
六、结语:靠谱,才是最大的能力
回看2026年AI体感的突变,答案出人意料地朴素:非止于AI突然变聪明,乃AI突然变靠谱。
能力在渐进积累,可靠性在悄然提升。直到某个临界点——2024年12月——两者叠加,用户体验发生了阶跃式的质变。
这背后是训练范式的深层转向:从竞赛跑分走向真实效用,从封闭问题走向开放世界,从行为克隆走向奖励优化。
GPT-5.5不是终点。预训练仍在扩张,后训练正在爆发,持续学习尚待攻克。但对于每一个正在使用AI的人来说,那个最关键的门槛已经跨过。
AI从"惊艳"走向了"可用"。而这,才是它真正改变世界的开始。
参考来源
- Yann Dubois专访,The MAD Podcast with Matt Turck,2026-05-21,https://www.youtube.com/watch?v=DhD1zZ8w8Mw
- 中文整理稿,新浪财经,2026-05-25,https://finance.sina.com.cn/wm/2026-05-25/doc-inhzafpt5253529.shtml
- 品玩深度解读,2026-05-26,https://www.pingwest.com/a/313965
- GPT-5.5官方发布,OpenAI,2026-04-23,https://openai.com/zh-Hans-CN/index/introducing-gpt-5-5/
#AI体感突变 #GPT55 #强化学习 #后训练 #OpenAI #YannDubois #生产力工具 #可靠性阈值 #持续学习 #最后一公里 #记忆 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。