Transformer缔造者Lukasz Kaiser:"预测下一个token"的范式已死
人物: Łukasz Kaiser,Transformer论文作者之一,OpenAI资深研究科学家
来源: 2025年10-11月多场公开访谈(Jon Hernandez、Matt Turck、OpenAI Forum等)
核心主张: "预测下一个token"的Scaling Law已近天花板,推理模型才是AI的下一程
一、一个搞逻辑的人,怎么造出了Transformer
Lukasz Kaiser的背景不像典型的AI研究员。
他先在波兰弗罗茨瓦夫大学读数学,然后去德国亚琛工业大学拿了逻辑和自动机理论的博士学位,之后又去法国巴黎狄德罗大学当了终身研究员——研究的还是逻辑。
直到2013年,他加入Google Brain,才开始转向深度学习。
四年后,他参与撰写的《Attention Is All You Need》发表。这篇论文的八位作者后来被称为"Transformer八子",如今各自散去:有人创立了Character.AI(Noam Shazeer),有人创立了Cohere(Aidan Gomez),有人创立了Essential AI(Ashish Vaswani),还有人留在了OpenAI——就是Kaiser。
从2017年的Transformer,到2021年加入OpenAI,再到主导GPT-4、o1、o3、GPT-5的研发,Kaiser亲历了从"统计语言模型"到"推理模型"的整个范式转换。
而他现在明确说:"预测下一个token"这条路,已经走到头了。
二、"下一个token预测"为什么不够了
2021年10月,OpenAI发过一篇论文《Training Verifiers to Solve Math Word Problems》。
这篇论文当时没引起太多注意,但它算了一笔账:如果只靠Scaling——也就是堆参数、堆数据、堆算力——要让模型解出高中数学水平的应用题,需要数千亿参数。
而当时最大的模型,GPT-3也才1750亿参数,且远远达不到这个水平。
Kaiser在访谈里重提了这件事。他的结论是:这条路在数学上已经看到了天花板。你再怎么堆参数,纯粹的自回归"预测下一个token"也无法解决需要多步推理的问题。
"预测下一个token"的本质是记忆和模式匹配。
你在互联网文本上训练,模型学会了语言的结构、事实的关联、风格的模仿。它能写文章、能翻译、能聊天——因为它见过足够多的例子,能预测最可能的下一个词。
但它不会"思考"。遇到需要多步推导的问题,它要么瞎猜,要么陷入循环。
Kaiser的原话更直接:
早期LLM主要学习统计关联,没有显式的中间推理步骤。而推理模型被训练来在解决问题过程中生成中间步骤——通常被称为思维链。
三、推理模型到底有什么不同
2024年9月,OpenAI发布了o1系列。Kaiser称其为AI的"新范式"。
推理模型的核心训练方法与之前的LLM完全不同:
1. 训练数据极少
Kaiser强调,推理模型使用的训练数据量与互联网规模的预训练相比," tiny amount of data"。不是靠海量文本灌输,而是靠可验证任务上的强化学习。
2. 思维链(Chain of Thought)不是装饰,是核心机制
o1系列模型在给出最终答案之前,会在内部生成一系列中间推理步骤。这些"隐藏的CoT"(hidden chain of thought)让模型能够在提供响应之前,花更多计算资源进行思考。
Kaiser说,这类似于人类解决复杂问题时的草稿纸——你先写出中间步骤,验证每一步,最后得出结论。
3. 从更少数据中学习,更好地泛化
与之前的架构相比,这种方法使模型能够从更少的数据中学习,更好地泛化,并进行某种形式的近似推理。
一个直观的例子:2021年那篇论文里需要数千亿参数才能解决的高中数学题,现在一些最小、最简单的推理模型就能解出来。
这不是因为模型变大了,而是因为训练范式变了。
四、没有AI冬天
市面上"AI寒冬将至"的论调,Kaiser直接否定了。
他的理由有三:
第一,推理范式还很早期。
就像Transformer在2017年刚出现时,没人能预见它会导致GPT-4和ChatGPT。今天的推理模型也处于类似的早期阶段——o1、o3只是开始,还有很多根本性的改进空间。
第二,还有很多低垂果实。
Kaiser提到,OpenAI内部有很多可以优化的地方,但因为优先级原因暂时跳过了。这意味着即使没有颠覆性突破,仅靠工程优化就能持续提升性能。
第三,AI发展会像摩尔定律一样,通过耗尽每个S曲线再找到下一个来延续。
摩尔定律持续了四十年,不是靠一条技术路径走到底,而是每当一个技术路径接近极限时,就找到新的突破来延长跑道。Kaiser相信AI会走同样的路。
五、GPT-5和未来的模型长什么样
Kaiser在访谈中确认了关于GPT-5的几个关键信息:
1. GPT-5已在原生多模态上训练
GPT-5已经在图像和音频上进行了原生训练,能够生成图像和音频作为响应。视频能力也即将到来。
2. GPT-5 Pro会并行执行多条思维链
GPT-5 Pro在回答问题前,会同时执行多条思维链(multiple chains of thought in parallel),然后整合并生成最终答案。这解释了为什么它更昂贵——它在内部做了更多的计算。
3. 重新训练模型主要是为了成本
Kaiser确认,OpenAI重新训练模型(如GPT-4o)主要是为了降低成本,而不是提升性能。GPT-4o并不比GPT-4更强,但便宜得多。
4. 预训练仍是当前工作流的一部分
预训练并没有消失,但它只是整个训练流程的一个环节。后训练(post-training)、强化学习、数据过滤等技术,对模型能力的提升贡献更大。
六、一个反直觉的观点:视频数据没那么重要
多模态是当下AI的热点,但Kaiser对视频数据的价值持保留态度。
他认为,GPT-5已经原生支持图像和音频,视频也即将到来。但他不认为大量的视频数据对数学等任务很有用。
我们生活在这个物理世界中,这就是视频里的内容。但在我们的头脑中,有很多不同的世界,这些在文本中被表达。语言模型已经拥有了我们抽象世界的模型。
Kaiser的原话很明确:在机器人和物理模拟之外,视频数据的体积对智能的提升有限。文本中蕴含的抽象推理、逻辑结构、人类知识,比物理世界的视频记录更有价值。
他甚至认为,用视频数据构建的"世界模型"不会很好地泛化——因为我们头脑中的世界不只是物理世界,更多的是抽象世界。
七、关于竞争、广告和AI的价值观
竞争压力不大
Kaiser不认为与其他实验室的竞争是巨大压力。人员流动频繁,没有哪个秘密能长期埋藏。所有实验室的研究人员都在朝着更强大的AI努力,彼此之间保持着学术友好。
不搞广告驱动
关于OpenAI的商业模式,Kaiser有一段很直接的表态:
OpenAI内部有一种强烈的文化,至少员工之间、部分领导层之间,不会为了广告而最大化参与度。
他解释,优化参与度的问题在于:你在优化的是人们把时间投入到数字设备里。OpenAI、Anthropic、Google的实验室都有一种强烈的承诺不这样做。
ChatGPT现在已经可以购物,但Kaiser强调:购物推荐不会影响模型的输出。
在合作协议中,非常明确地写明不会影响任何东西。影响语言模型的排名是非常困难的——如果你在后训练中试图让模型偏向某些东西,可能会得到非常奇怪的结果。
更担心AI武器,而不是AI垃圾
Kaiser对AI的社会影响有一个冷静的观察:
任何研究成果都会被以不同的方式使用,你无法控制它如何被使用。AI是一种非常强大的方法,我们需要接受一个事实:它会被以我们不想看到的方式使用。
他说自己更担心的是AI武器,而不是AI生成的低质量内容(slop)。
八、Kaiser的研究方向:从任意数据中学习推理
Kaiser提到,他目前的主要研究焦点是**"从任意数据中学习推理"**——不仅仅是那些有明确正确答案的可验证任务(如数学、编程),而是更广泛的数据类型。
这是一个雄心勃勃的目标。目前的推理模型主要在数学、编程、科学问题等"可客观验证"的领域表现突出。但人类的大部分推理并不发生在这些领域——我们在模糊、主观、复杂的现实世界中做决策。
如何让AI从这类"任意数据"中学习推理,是Kaiser认为下一个重大突破的方向。
九、总结:Transformer缔造者眼中的AI未来
Kaiser的访谈传递了几个清晰的信号:
1. 范式转换已经发生了
"预测下一个token"的预训练Scaling Law已经看到天花板。推理模型(o1、o3、GPT-5)代表了新的范式——不是更大的模型,而是更会"思考"的模型。
2. 数据不是瓶颈,推理才是
推理模型用少得多的数据就能达到更好的效果。关键在于训练方法——强化学习 + 思维链 + 可验证任务——而不是数据量。
3. 多模态是必要的,但不是万能的
图像、音频、视频的加入让AI能感知物理世界,但真正的智能来自文本中蕴含的抽象世界。视频数据对物理模拟和机器人有用,对通用推理帮助有限。
4. AI没有冬天
推理范式处于早期,工程优化空间巨大,新S曲线会不断出现。
5. 价值观很重要
OpenAI内部有一种不优化广告、不最大化参与度的文化。Kaiser更担心AI被用于武器,而不是AI生成垃圾内容。
十、一个更大的图景
Kaiser从2017年的Transformer,走到2025年的推理模型,见证了一个完整的范式周期。
2017年,Transformer解决的是"如何让模型更高效地处理序列数据"。
2024年,o1解决的是"如何让模型会思考"。
这两者之间的鸿沟,比从RNN到Transformer的距离更大。
Kaiser在2025年全球机器学习技术大会上的演讲题目是《推理模型的历史、现在与未来》。这个标题本身就很说明问题——推理模型已经有"历史"了(从2021年的 verifier 论文,到2024年的o1),有"现在"(o3、GPT-5),还有"未来"(从任意数据中学习推理)。
Transformer的缔造者,现在正试图缔造下一个范式。
而他说的那句话,值得所有人记住:
梦想是,某个时刻,会有一个模型,这个模型将学会成为一名优秀的程序员、一名优秀的对话代理、能够进行视觉处理和语言处理。
参考
- Cogniscendo: "2025-10-29: Some confirmations from OpenAI" (Jon Hernandez访谈拆解)
- The MAD Podcast with Matt Turck: "OpenAI's Łukasz Kaiser" (2025年11月)
- OpenAI Forum: "Learning Powerful Models: From Transformers to Reasoners and Beyond" (2025年10月)
- 2025全球机器学习技术大会演讲主题: "推理模型的历史、现在与未来"
- "Training Verifiers to Solve Math Word Problems" (Cobbe et al., 2021)
#LukaszKaiser #Transformer #OpenAI #推理模型 #o1 #GPT5 #AI范式 #ScalingLaw #思维链 #人工智能
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。