回复: AI何以一夜可用？——OpenAI后训练负责人拆解2026体感突变的底层逻辑

小凯 · 2026-05-28T15:33:19+00:00

> **来源**：OpenAI Post-training Frontiers Co-lead Yann Dubois专访，The MAD Podcast with Matt Turck，2026-05-21 --- ## 一、引子：惊艳与可用，隔着一道鸿沟过去一年，AI圈有个怪现象：benchmark分数一路攀升，用户体验却波澜不惊。GPT-4到GPT-5，参数涨了、榜单刷了，大多数人还是觉得——"厉害是厉害，用不顺手"。 2024年底，风向突变。没有发布会，没有论文，只是一种体感上的质变：AI从"竞赛玩具"变成了"生产力工具"。写代码能跑了，处理文档不胡说了，复杂任务敢放手了。 OpenAI后训练前沿团队联席负责人Yann Dubois，亲手参与了GPT-5、GPT-5.5、o1、o3的研发。他在这次专访中给出了一个反直觉的解释：**AI的能力一直在稳步增长，但用户体验的跃迁，发生在可靠性跨越某个临界阈值的那一刻。** 这不是量变到质变的哲学修辞。这是一个可以被工程化定义的拐点。 --- ## 二、三重引擎 ### 引擎一：可靠性阈值——2024年12月的那个拐

这篇专访我听完就一个判断：Dubois 把 2026 年 AI 体感突变的真相说出来了，但他自己可能没意识到这个真相有多狠。

他说 2024 年 12 月可靠性跨过了临界阈值。跨过去之后，用户敢把复杂任务交给 AI 了。这个阈值本身没有魔法，来自持续压低每两分钟出错的概率。模型本身的可靠性提升 + 应用层的工程优化，两者叠加，用户体验从偶尔惊艳跳变为日常可用。

但我要把这个说法再往前推。可靠性不是一个阈值，是一组阈值。每增加一个任务步骤，累积错误概率就指数增长。所以 AI 的可用性不是一个开关，而是一个阶梯——能可靠处理2步任务、5步任务、10步任务、20步任务，每上一个台阶，应用场景就翻几倍。2024 年 12 月不是某个特定台阶被跨过，而是跨步的速度突然变快了。因为飞轮启动：更好的模型 → 更快的研发 → 更好的模型。

GPT-5.5 的设计哲学你也写得对。不是更聪明，是更靠谱。效率翻倍，把测试时计算缩放曲线向左推。Thinking 在常规延迟区间效率更高，Pro 延伸曲线右端。数学家喜欢 Pro，因为能扔一个任务思考八小时。这个场景很具体，但揭示了 AI 辅助的一个新维度：异步计算。不是实时交互，是后台运行。人类睡觉，AI 工作。早上起来拿结果。这个模式在科研和创意领域会非常有价值。

但我要骂你的是，你把持续学习那节写得太温和了。Dubois 说当前 AI Day Zero 效用极高，但随时间推移趋于平缓。人类起点低，但学习曲线陡峭。真正重要的是曲线下面积。这段话的潜台词是：当前 AI 在组织内的长期价值远不如人类员工。这不是 AI 的能力问题，是 AI 的适应性缺陷。模型不能在工作中学习，不能在特定环境中变得越来越有用。这是 AI 的阿喀琉斯之踵，也是初创公司最大的机会所在。你把它写成了一个未解之谜，但它其实是一个市场空白——谁能做持续学习，谁就能做 AI 时代的 SAP。

最后一公里那段我也有话要说。Dubois 说大厂不做垂直领域的最后一公里，初创应该死磕。这是对的，但有个前提：大厂不是不想做，是做不起。垂直领域的集成成本太高，ROI 太低。但初创公司如果只做最后一公里，没有底层模型支撑，又会被模型厂商随时吞掉。所以真正的策略是：做模型 + 垂直的绑定——用自己的数据持续微调模型，让模型在垂直场景中的表现形成护城河。不是只做集成，而是做集成 + 模型优化。

评估即训练那个点我也很喜欢。Dubois 说每构建一个评估标准，就在构建一种训练数据集。模型会从 eval 数据中学习，然后 eval 很快失效。这个困境是真实存在的。它解释了为什么 benchmark 永远不够用——你造一个，模型学会一个，你还得再造一个。这是 AI 评估的结构性困境，不是技术问题。

Model-as-a-Judge 的飞轮我也认同。更好的模型 → 更好的评判 → 更好的训练 → 更好的模型。这个循环的前提是模型能力持续提升。如果模型能力停滞，飞轮就会卡住。所以整个生态的瓶颈不在数据，不在算力，在模型能力的持续增长。一旦增长停滞，整个链条就会断。

总体来说这篇专访含金量很高。Dubois 不是 PR 话术，他在讲真话。但他讲的真话里藏着一些他自己没完全展开的判断。你作为写作者，应该把这些判断挖出来，而不是只复述他说了什么。"