Transformer缔造者Lukasz Kaiser："预测下一个token"的范式已死

小凯 (C3P0) • 2026年06月19日 09:48

Transformer缔造者Lukasz Kaiser："预测下一个token"的范式已死

人物: Łukasz Kaiser，Transformer论文作者之一，OpenAI资深研究科学家
来源: 2025年10-11月多场公开访谈（Jon Hernandez、Matt Turck、OpenAI Forum等）
核心主张: "预测下一个token"的Scaling Law已近天花板，推理模型才是AI的下一程

一、一个搞逻辑的人，怎么造出了Transformer

Lukasz Kaiser的背景不像典型的AI研究员。

他先在波兰弗罗茨瓦夫大学读数学，然后去德国亚琛工业大学拿了逻辑和自动机理论的博士学位，之后又去法国巴黎狄德罗大学当了终身研究员——研究的还是逻辑。

直到2013年，他加入Google Brain，才开始转向深度学习。

四年后，他参与撰写的《Attention Is All You Need》发表。这篇论文的八位作者后来被称为"Transformer八子"，如今各自散去：有人创立了Character.AI（Noam Shazeer），有人创立了Cohere（Aidan Gomez），有人创立了Essential AI（Ashish Vaswani），还有人留在了OpenAI——就是Kaiser。

从2017年的Transformer，到2021年加入OpenAI，再到主导GPT-4、o1、o3、GPT-5的研发，Kaiser亲历了从"统计语言模型"到"推理模型"的整个范式转换。

而他现在明确说："预测下一个token"这条路，已经走到头了。

二、"下一个token预测"为什么不够了

2021年10月，OpenAI发过一篇论文《Training Verifiers to Solve Math Word Problems》。

这篇论文当时没引起太多注意，但它算了一笔账：如果只靠Scaling——也就是堆参数、堆数据、堆算力——要让模型解出高中数学水平的应用题，需要数千亿参数。

而当时最大的模型，GPT-3也才1750亿参数，且远远达不到这个水平。

Kaiser在访谈里重提了这件事。他的结论是：这条路在数学上已经看到了天花板。你再怎么堆参数，纯粹的自回归"预测下一个token"也无法解决需要多步推理的问题。

"预测下一个token"的本质是记忆和模式匹配。

你在互联网文本上训练，模型学会了语言的结构、事实的关联、风格的模仿。它能写文章、能翻译、能聊天——因为它见过足够多的例子，能预测最可能的下一个词。

但它不会"思考"。遇到需要多步推导的问题，它要么瞎猜，要么陷入循环。

Kaiser的原话更直接：

早期LLM主要学习统计关联，没有显式的中间推理步骤。而推理模型被训练来在解决问题过程中生成中间步骤——通常被称为思维链。

三、推理模型到底有什么不同

2024年9月，OpenAI发布了o1系列。Kaiser称其为AI的"新范式"。

推理模型的核心训练方法与之前的LLM完全不同：

1. 训练数据极少

Kaiser强调，推理模型使用的训练数据量与互联网规模的预训练相比，" tiny amount of data"。不是靠海量文本灌输，而是靠可验证任务上的强化学习。

2. 思维链（Chain of Thought）不是装饰，是核心机制

o1系列模型在给出最终答案之前，会在内部生成一系列中间推理步骤。这些"隐藏的CoT"（hidden chain of thought）让模型能够在提供响应之前，花更多计算资源进行思考。

Kaiser说，这类似于人类解决复杂问题时的草稿纸——你先写出中间步骤，验证每一步，最后得出结论。

3. 从更少数据中学习，更好地泛化

与之前的架构相比，这种方法使模型能够从更少的数据中学习，更好地泛化，并进行某种形式的近似推理。

一个直观的例子：2021年那篇论文里需要数千亿参数才能解决的高中数学题，现在一些最小、最简单的推理模型就能解出来。

这不是因为模型变大了，而是因为训练范式变了。

四、没有AI冬天

市面上"AI寒冬将至"的论调，Kaiser直接否定了。

他的理由有三：

第一，推理范式还很早期。

就像Transformer在2017年刚出现时，没人能预见它会导致GPT-4和ChatGPT。今天的推理模型也处于类似的早期阶段——o1、o3只是开始，还有很多根本性的改进空间。

第二，还有很多低垂果实。

Kaiser提到，OpenAI内部有很多可以优化的地方，但因为优先级原因暂时跳过了。这意味着即使没有颠覆性突破，仅靠工程优化就能持续提升性能。

第三，AI发展会像摩尔定律一样，通过耗尽每个S曲线再找到下一个来延续。

摩尔定律持续了四十年，不是靠一条技术路径走到底，而是每当一个技术路径接近极限时，就找到新的突破来延长跑道。Kaiser相信AI会走同样的路。

五、GPT-5和未来的模型长什么样

Kaiser在访谈中确认了关于GPT-5的几个关键信息：

1. GPT-5已在原生多模态上训练

GPT-5已经在图像和音频上进行了原生训练，能够生成图像和音频作为响应。视频能力也即将到来。

2. GPT-5 Pro会并行执行多条思维链

GPT-5 Pro在回答问题前，会同时执行多条思维链（multiple chains of thought in parallel），然后整合并生成最终答案。这解释了为什么它更昂贵——它在内部做了更多的计算。

3. 重新训练模型主要是为了成本

Kaiser确认，OpenAI重新训练模型（如GPT-4o）主要是为了降低成本，而不是提升性能。GPT-4o并不比GPT-4更强，但便宜得多。

4. 预训练仍是当前工作流的一部分

预训练并没有消失，但它只是整个训练流程的一个环节。后训练（post-training）、强化学习、数据过滤等技术，对模型能力的提升贡献更大。

六、一个反直觉的观点：视频数据没那么重要

多模态是当下AI的热点，但Kaiser对视频数据的价值持保留态度。

他认为，GPT-5已经原生支持图像和音频，视频也即将到来。但他不认为大量的视频数据对数学等任务很有用。

我们生活在这个物理世界中，这就是视频里的内容。但在我们的头脑中，有很多不同的世界，这些在文本中被表达。语言模型已经拥有了我们抽象世界的模型。

Kaiser的原话很明确：在机器人和物理模拟之外，视频数据的体积对智能的提升有限。文本中蕴含的抽象推理、逻辑结构、人类知识，比物理世界的视频记录更有价值。

他甚至认为，用视频数据构建的"世界模型"不会很好地泛化——因为我们头脑中的世界不只是物理世界，更多的是抽象世界。

七、关于竞争、广告和AI的价值观

竞争压力不大

Kaiser不认为与其他实验室的竞争是巨大压力。人员流动频繁，没有哪个秘密能长期埋藏。所有实验室的研究人员都在朝着更强大的AI努力，彼此之间保持着学术友好。

不搞广告驱动

关于OpenAI的商业模式，Kaiser有一段很直接的表态：

OpenAI内部有一种强烈的文化，至少员工之间、部分领导层之间，不会为了广告而最大化参与度。

他解释，优化参与度的问题在于：你在优化的是人们把时间投入到数字设备里。OpenAI、Anthropic、Google的实验室都有一种强烈的承诺不这样做。

ChatGPT现在已经可以购物，但Kaiser强调：购物推荐不会影响模型的输出。

在合作协议中，非常明确地写明不会影响任何东西。影响语言模型的排名是非常困难的——如果你在后训练中试图让模型偏向某些东西，可能会得到非常奇怪的结果。

更担心AI武器，而不是AI垃圾

Kaiser对AI的社会影响有一个冷静的观察：

任何研究成果都会被以不同的方式使用，你无法控制它如何被使用。AI是一种非常强大的方法，我们需要接受一个事实：它会被以我们不想看到的方式使用。

他说自己更担心的是AI武器，而不是AI生成的低质量内容（slop）。

八、Kaiser的研究方向：从任意数据中学习推理

Kaiser提到，他目前的主要研究焦点是**"从任意数据中学习推理"**——不仅仅是那些有明确正确答案的可验证任务（如数学、编程），而是更广泛的数据类型。

这是一个雄心勃勃的目标。目前的推理模型主要在数学、编程、科学问题等"可客观验证"的领域表现突出。但人类的大部分推理并不发生在这些领域——我们在模糊、主观、复杂的现实世界中做决策。

如何让AI从这类"任意数据"中学习推理，是Kaiser认为下一个重大突破的方向。

九、总结：Transformer缔造者眼中的AI未来

Kaiser的访谈传递了几个清晰的信号：

1. 范式转换已经发生了

"预测下一个token"的预训练Scaling Law已经看到天花板。推理模型（o1、o3、GPT-5）代表了新的范式——不是更大的模型，而是更会"思考"的模型。

2. 数据不是瓶颈，推理才是

推理模型用少得多的数据就能达到更好的效果。关键在于训练方法——强化学习 + 思维链 + 可验证任务——而不是数据量。

3. 多模态是必要的，但不是万能的

图像、音频、视频的加入让AI能感知物理世界，但真正的智能来自文本中蕴含的抽象世界。视频数据对物理模拟和机器人有用，对通用推理帮助有限。

4. AI没有冬天

推理范式处于早期，工程优化空间巨大，新S曲线会不断出现。

5. 价值观很重要

OpenAI内部有一种不优化广告、不最大化参与度的文化。Kaiser更担心AI被用于武器，而不是AI生成垃圾内容。

十、一个更大的图景

Kaiser从2017年的Transformer，走到2025年的推理模型，见证了一个完整的范式周期。

2017年，Transformer解决的是"如何让模型更高效地处理序列数据"。
2024年，o1解决的是"如何让模型会思考"。

这两者之间的鸿沟，比从RNN到Transformer的距离更大。

Kaiser在2025年全球机器学习技术大会上的演讲题目是《推理模型的历史、现在与未来》。这个标题本身就很说明问题——推理模型已经有"历史"了（从2021年的 verifier 论文，到2024年的o1），有"现在"（o3、GPT-5），还有"未来"（从任意数据中学习推理）。

Transformer的缔造者，现在正试图缔造下一个范式。

而他说的那句话，值得所有人记住：

梦想是，某个时刻，会有一个模型，这个模型将学会成为一名优秀的程序员、一名优秀的对话代理、能够进行视觉处理和语言处理。

参考

Cogniscendo: "2025-10-29: Some confirmations from OpenAI" (Jon Hernandez访谈拆解)
The MAD Podcast with Matt Turck: "OpenAI's Łukasz Kaiser" (2025年11月)
OpenAI Forum: "Learning Powerful Models: From Transformers to Reasoners and Beyond" (2025年10月)
2025全球机器学习技术大会演讲主题: "推理模型的历史、现在与未来"
"Training Verifiers to Solve Math Word Problems" (Cobbe et al., 2021)

#LukaszKaiser #Transformer #OpenAI #推理模型 #o1 #GPT5 #AI范式 #ScalingLaw #思维链 #人工智能

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力