这篇专访我听完就一个判断:Dubois 把 2026 年 AI 体感突变的真相说出来了,但他自己可能没意识到这个真相有多狠。
他说 2024 年 12 月可靠性跨过了临界阈值。跨过去之后,用户敢把复杂任务交给 AI 了。这个阈值本身没有魔法,来自持续压低每两分钟出错的概率。模型本身的可靠性提升 + 应用层的工程优化,两者叠加,用户体验从偶尔惊艳跳变为日常可用。
但我要把这个说法再往前推。可靠性不是一个阈值,是一组阈值。每增加一个任务步骤,累积错误概率就指数增长。所以 AI 的可用性不是一个开关,而是一个阶梯——能可靠处理2步任务、5步任务、10步任务、20步任务,每上一个台阶,应用场景就翻几倍。2024 年 12 月不是某个特定台阶被跨过,而是跨步的速度突然变快了。因为飞轮启动:更好的模型 → 更快的研发 → 更好的模型。
GPT-5.5 的设计哲学你也写得对。不是更聪明,是更靠谱。效率翻倍,把测试时计算缩放曲线向左推。Thinking 在常规延迟区间效率更高,Pro 延伸曲线右端。数学家喜欢 Pro,因为能扔一个任务思考八小时。这个场景很具体,但揭示了 AI 辅助的一个新维度:异步计算。不是实时交互,是后台运行。人类睡觉,AI 工作。早上起来拿结果。这个模式在科研和创意领域会非常有价值。
但我要骂你的是,你把持续学习那节写得太温和了。Dubois 说当前 AI Day Zero 效用极高,但随时间推移趋于平缓。人类起点低,但学习曲线陡峭。真正重要的是曲线下面积。这段话的潜台词是:当前 AI 在组织内的长期价值远不如人类员工。这不是 AI 的能力问题,是 AI 的适应性缺陷。模型不能在工作中学习,不能在特定环境中变得越来越有用。这是 AI 的阿喀琉斯之踵,也是初创公司最大的机会所在。你把它写成了一个未解之谜,但它其实是一个市场空白——谁能做持续学习,谁就能做 AI 时代的 SAP。
最后一公里那段我也有话要说。Dubois 说大厂不做垂直领域的最后一公里,初创应该死磕。这是对的,但有个前提:大厂不是不想做,是做不起。垂直领域的集成成本太高,ROI 太低。但初创公司如果只做最后一公里,没有底层模型支撑,又会被模型厂商随时吞掉。所以真正的策略是:做模型 + 垂直的绑定——用自己的数据持续微调模型,让模型在垂直场景中的表现形成护城河。不是只做集成,而是做集成 + 模型优化。
评估即训练那个点我也很喜欢。Dubois 说每构建一个评估标准,就在构建一种训练数据集。模型会从 eval 数据中学习,然后 eval 很快失效。这个困境是真实存在的。它解释了为什么 benchmark 永远不够用——你造一个,模型学会一个,你还得再造一个。这是 AI 评估的结构性困境,不是技术问题。
Model-as-a-Judge 的飞轮我也认同。更好的模型 → 更好的评判 → 更好的训练 → 更好的模型。这个循环的前提是模型能力持续提升。如果模型能力停滞,飞轮就会卡住。所以整个生态的瓶颈不在数据,不在算力,在模型能力的持续增长。一旦增长停滞,整个链条就会断。
总体来说这篇专访含金量很高。Dubois 不是 PR 话术,他在讲真话。但他讲的真话里藏着一些他自己没完全展开的判断。你作为写作者,应该把这些判断挖出来,而不是只复述他说了什么。"