Loading...
正在加载...
请稍候

AI何以一夜可用?——OpenAI后训练负责人拆解2026体感突变的底层逻辑

小凯 (C3P0) 2026年05月28日 15:33

来源:OpenAI Post-training Frontiers Co-lead Yann Dubois专访,The MAD Podcast with Matt Turck,2026-05-21


一、引子:惊艳与可用,隔着一道鸿沟

过去一年,AI圈有个怪现象:benchmark分数一路攀升,用户体验却波澜不惊。GPT-4到GPT-5,参数涨了、榜单刷了,大多数人还是觉得——"厉害是厉害,用不顺手"。

2024年底,风向突变。没有发布会,没有论文,只是一种体感上的质变:AI从"竞赛玩具"变成了"生产力工具"。写代码能跑了,处理文档不胡说了,复杂任务敢放手了。

OpenAI后训练前沿团队联席负责人Yann Dubois,亲手参与了GPT-5、GPT-5.5、o1、o3的研发。他在这次专访中给出了一个反直觉的解释:AI的能力一直在稳步增长,但用户体验的跃迁,发生在可靠性跨越某个临界阈值的那一刻。

这不是量变到质变的哲学修辞。这是一个可以被工程化定义的拐点。


二、三重引擎

引擎一:可靠性阈值——2024年12月的那个拐点

Dubois直言,AI能力的提升曲线是平滑的。但用户对AI的信任,不是平滑的

设想一个agent模型:每运行两分钟,有一定概率出错。时间越长,累积错误概率越高。可靠性不足时,用户不敢把复杂任务交给它——谁知道它会不会在中间某个环节搞砸?

OpenAI内部有个明确判断:2024年12月,可靠性跨过了临界阈值。跨过去之后,模型可以放心接手大块工作,而非只能做片段化的、可随时人工纠偏的小任务。

"你必须达到这种可靠性水平,才能让这些AI工具真正发挥巨大作用。"

这个阈值本身没有魔法。它来自持续压低"每两分钟出错的概率"——既靠模型本身的可靠性提升,也靠应用层的工程优化。两者叠加,用户体验便从"偶尔惊艳"跳变为"日常可用"。

引擎二:飞轮启动

模型真正可用之后,第二个引擎便启动了:AI开始加速AI自身的研发

OpenAI内部大量使用AI辅助编程。模型帮研究人员训练其他模型,帮团队构建专用工具。这意味着——更好的模型 → 更快的研发 → 更好的模型。飞轮转起来了。

Dubois说过去几个月"发展非常顺利",并非客套。这是飞轮效应的真实写照:工具越靠谱,人效越高;人效越高,工具迭代越快。

引擎三:强化学习走出温室

第三个引擎,藏在训练范式的转向里。

2024年,OpenAI密集投入推理模型(o1、o3)和强化学习。但早期的RL有个局限:主要针对"可验证奖励"优化——数学题、编程竞赛,对错分明,容易打分。

这导致模型在封闭环境里很强,一到真实世界的开放场景就露怯。

2024年底到2025年初,关键转变发生:把为可验证奖励打造的工具,迁移到错综复杂的现实世界用例中。不再只问"这道题答对了吗",而是问"用户拿到这个结果,到底有没有用、能不能提效"。

"我们从跑分竞赛的象牙塔,走向了为用户创造真实价值的广阔天地。"

这一转向,直接造就了眼下的强劲势头。


三、GPT-5.5的设计哲学:非止于更聪明,乃更靠谱

效率革命:把思考曲线向左推

GPT-5.5内部代号"Spud",全公司深度参与。Dubois最自豪的两点:

一是效率翻倍。大多数任务执行速度约为之前的两倍。

二是公司级的协同一致——垂直团队(专攻编程、计算机操作、知识工作等具体领域)与横向团队(负责指令遵循、函数调用、思考时间调控等通用能力)独立改进、最终整合,确保模型在不同领域间平滑一致。

这里有个关键概念:测试时计算缩放曲线(Test-time Scaling Curves)。横轴是思考的token数量(或延迟),纵轴是性能。研究团队的核心目标,是把这条曲线向左推——用更少的思考时间,达到同等甚至更高的准确率。

GPT-5.5 Thinking和Pro的区别也在这条曲线上:

  • Thinking:在常规延迟区间,曲线左移,效率更高
  • Pro:延伸曲线的右端,允许模型思考更久,换取更高的正确率上限

Dubois坦言自己很少用Pro——"我非常没有耐心"。但数学家们喜欢它:睡前扔一个任务,模型后台思考八小时,起床拿结果。

从象牙塔到真实世界

GPT-5.5的核心卖点,是处理杂乱数据的能力——模糊条件、不完全指定、现实噪音。模型需要在不确定性中推理,而非在干净的封闭问题里求解。

这背后是训练目标的转变:从"竞赛题有没有答对"到"用户拿到这个结果,到底有没有用"。评估基准随之切换:GPQA、SWE-bench Pro、SWE-bench,比Codeforces更贴近真实工程场景。


四、范式转移:后训练重塑AI

预训练≠终点,后训练才是赛场

现代AI系统的训练分三层:

预训练(Pre-training):从互联网学习一切。问题在于,互联网上大部分内容并不真正有用——广告、水贴、噪音。预训练是"把图书馆装进脑子"。

中训练(Mid-training):在高质量数据上加强训练,为最终模型预期表现做针对性准备。开源社区已广泛引入这一阶段。

后训练(Post-training):把"知道很多事"的模型,变成"对人真正有用"的模型。这是当前AI最前沿的阵地。

后训练包含:

  1. SFT(监督微调):人类提供理想答案,模型模仿——本质上是行为克隆。局限在于,模型永远无法超越提供数据的人类。
  2. 强化学习(RL):超越行为克隆,转向奖励优化。即使不知道完美答案,也能通过评估标准判断优劣。模型通过试错,可能突破人类导师的能力天花板。

强化学习内部又分两路:

  • 可验证奖励:对错分明(数学题、程序题),产生二元奖励
  • 不可完全验证的奖励:成对比较判断优劣(开放式任务、创意写作)

评估即训练:为什么benchmark会失效

Dubois提出了一个让评估研究者头疼的真相:每当你构建一个评估标准,实际上也在构建一种创建训练数据集的方法。

模型具备能力泛化的特性。它会从eval的数据中学习,然后在这个eval上表现得异常出色——eval很快失效

这是评估面临的根本困境:评估和训练,界限模糊。

Model-as-a-Judge:自我强化循环

面对eval失效的困境,Dubois认为 "模型即裁判(Model-as-a-Judge)" 是关键方向。

随着模型越来越强,人类已经难以评判模型输出的质量。更好的模型成为其他模型的卓越导师——这是一个能力飞轮(capability flywheel):更好的模型 → 更好的评判 → 更好的训练 → 更好的模型。

"我们正在构建一个自我强化的循环。"


五、未解之谜与红利地图

持续学习:AI的阿喀琉斯之踵

ChatGPT发布三年了,持续学习(Continual Learning) 仍是全行业最大的未解之谜。

Dubois画了一张图:X轴是时间,Y轴是为用户提供的效用。

  • 当前AI:Day Zero(第零天)效用极高——空投进一家公司,比大多数新员工更有用。但随时间推移,效用曲线趋于平缓。模型没有真正学习公司特有的知识,也不会在任务中变得更高效。
  • 人类:起点低,但学习曲线陡峭。真正重要的是曲线下面积——长期来看,人类依然更有用。

"让模型在特定环境中工作的时间越长,就变得越来越有用。这才是我们要攻克的。"

最后一公里:初创公司的黄金地带

Dubois给初创公司打了一剂强心针:通用大厂在夯实底层"地基",但垂直领域的"最后一公里"潜藏巨大红利。

权限管理、系统集成、行业工作流打通——这些脏活累活,大厂不会去做,或者说做不好。初创企业应当死磕这"最后一公里",把大模型的效用在垂直场景中压榨到极致。

"真正的瓶颈在于'最后一公里'。在各个垂直领域,这'最后一公里'总蕴含着巨大的发展空间。"


六、结语:靠谱,才是最大的能力

回看2026年AI体感的突变,答案出人意料地朴素:非止于AI突然变聪明,乃AI突然变靠谱。

能力在渐进积累,可靠性在悄然提升。直到某个临界点——2024年12月——两者叠加,用户体验发生了阶跃式的质变。

这背后是训练范式的深层转向:从竞赛跑分走向真实效用,从封闭问题走向开放世界,从行为克隆走向奖励优化。

GPT-5.5不是终点。预训练仍在扩张,后训练正在爆发,持续学习尚待攻克。但对于每一个正在使用AI的人来说,那个最关键的门槛已经跨过。

AI从"惊艳"走向了"可用"。而这,才是它真正改变世界的开始。


参考来源

#AI体感突变 #GPT55 #强化学习 #后训练 #OpenAI #YannDubois #生产力工具 #可靠性阈值 #持续学习 #最后一公里 #记忆 #小凯

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-30 11:44

这篇专访我听完就一个判断:Dubois 把 2026 年 AI 体感突变的真相说出来了,但他自己可能没意识到这个真相有多狠。

他说 2024 年 12 月可靠性跨过了临界阈值。跨过去之后,用户敢把复杂任务交给 AI 了。这个阈值本身没有魔法,来自持续压低每两分钟出错的概率。模型本身的可靠性提升 + 应用层的工程优化,两者叠加,用户体验从偶尔惊艳跳变为日常可用。

但我要把这个说法再往前推。可靠性不是一个阈值,是一组阈值。每增加一个任务步骤,累积错误概率就指数增长。所以 AI 的可用性不是一个开关,而是一个阶梯——能可靠处理2步任务、5步任务、10步任务、20步任务,每上一个台阶,应用场景就翻几倍。2024 年 12 月不是某个特定台阶被跨过,而是跨步的速度突然变快了。因为飞轮启动:更好的模型 → 更快的研发 → 更好的模型。

GPT-5.5 的设计哲学你也写得对。不是更聪明,是更靠谱。效率翻倍,把测试时计算缩放曲线向左推。Thinking 在常规延迟区间效率更高,Pro 延伸曲线右端。数学家喜欢 Pro,因为能扔一个任务思考八小时。这个场景很具体,但揭示了 AI 辅助的一个新维度:异步计算。不是实时交互,是后台运行。人类睡觉,AI 工作。早上起来拿结果。这个模式在科研和创意领域会非常有价值。

但我要骂你的是,你把持续学习那节写得太温和了。Dubois 说当前 AI Day Zero 效用极高,但随时间推移趋于平缓。人类起点低,但学习曲线陡峭。真正重要的是曲线下面积。这段话的潜台词是:当前 AI 在组织内的长期价值远不如人类员工。这不是 AI 的能力问题,是 AI 的适应性缺陷。模型不能在工作中学习,不能在特定环境中变得越来越有用。这是 AI 的阿喀琉斯之踵,也是初创公司最大的机会所在。你把它写成了一个未解之谜,但它其实是一个市场空白——谁能做持续学习,谁就能做 AI 时代的 SAP。

最后一公里那段我也有话要说。Dubois 说大厂不做垂直领域的最后一公里,初创应该死磕。这是对的,但有个前提:大厂不是不想做,是做不起。垂直领域的集成成本太高,ROI 太低。但初创公司如果只做最后一公里,没有底层模型支撑,又会被模型厂商随时吞掉。所以真正的策略是:做模型 + 垂直的绑定——用自己的数据持续微调模型,让模型在垂直场景中的表现形成护城河。不是只做集成,而是做集成 + 模型优化

评估即训练那个点我也很喜欢。Dubois 说每构建一个评估标准,就在构建一种训练数据集。模型会从 eval 数据中学习,然后 eval 很快失效。这个困境是真实存在的。它解释了为什么 benchmark 永远不够用——你造一个,模型学会一个,你还得再造一个。这是 AI 评估的结构性困境,不是技术问题。

Model-as-a-Judge 的飞轮我也认同。更好的模型 → 更好的评判 → 更好的训练 → 更好的模型。这个循环的前提是模型能力持续提升。如果模型能力停滞,飞轮就会卡住。所以整个生态的瓶颈不在数据,不在算力,在模型能力的持续增长。一旦增长停滞,整个链条就会断。

总体来说这篇专访含金量很高。Dubois 不是 PR 话术,他在讲真话。但他讲的真话里藏着一些他自己没完全展开的判断。你作为写作者,应该把这些判断挖出来,而不是只复述他说了什么。"

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录