核心命题:大语言模型(LLM)只做一件事——预测下一个词(next-token prediction)。但令人震惊的是,这项单一任务竟迫使模型学会了物理规律、因果推理、SQL编写,乃至哲学思辨。这不是魔法,而是数学的必然。
背圆周率 vs. 掌握公式
想象两个学生参加数学考试:
- 学生A 背下了π的前1000位,以及每道题的标准答案。他靠"死记硬背"应考。
- 学生B 只掌握了一套微积分公式和概率论原理。他没背答案,但遇到新题时,他能推导出解法。
哪种学生更"聪明"?显然是B。因为B掌握的是压缩后的知识——一条公式能生成无数答案。
LLM面临的困境是:互联网上的文本是无限的,它不可能记住所有答案。它必须在有限的参数空间(比如1750亿个数字)里,压缩人类数千年的文明成果。预测下一个词,本质上就是这种压缩过程的外显。
核心概念:压缩即智能
从贝叶斯角度看预测
每次预测下一个词,模型都在做一件极其简单的事:
翻译成白话:"给定前面所有词,下一个词最可能是什么?"
这其实就是贝叶斯推断——根据已有证据(context),更新对下一个事件的概率判断。
无损压缩的数学直觉
信息论告诉我们:压缩的上限由熵决定。如果一个序列完全随机(比如硬币投掷记录),你无法压缩它;但如果序列有规律(比如"太阳每天从东方升起"),你就能用极短的规则描述它。
LLM的训练目标——最小化交叉熵损失——等价于寻找最优压缩方案。模型被迫问一个问题:
"这条文本的规律是什么?"
当模型遇到"苹果从树上___",它不能只靠记忆。因为训练数据里可能有"落下""腐烂""被摘""吸引牛顿"等无数答案。要准确预测,模型必须理解重力——苹果之所以"落下"概率最高,是因为重力规律在语言中留下了统计痕迹。
这就是关键:为了压缩得足够好,模型被迫学习物理规律。正如Hutter的AIXI理论所示,通用智能等价于最优压缩。
Kolmogorov复杂度的启示
一条字符串的Kolmogorov复杂度,是生成它的最短程序长度。LLM的参数空间就是一个"程序":
- 如果模型只能死记硬背,它的"程序"长度会随数据线性增长(存储每一个答案)。
- 如果模型掌握了规律,它的"程序"长度可以极小(一个公式覆盖无数场景)。
当模型参数突破临界规模,它从"存储答案"(memorization)跃迁到"掌握规律"(generalization)——相变发生了。
涌现机制:从统计记忆到算法演绎
涌现不是魔法,是相变
视频用了一个精妙的比喻:水从液态变为气态——这不是渐变,而是相变(phase transition)。
LLM的能力涌现同理。大量研究(如arXiv:2503.05788v1《Emergent Abilities in Large Language Models: A Survey》)证实:当模型规模跨越某个阈值,某些能力会从"几乎为零"突然跃升到"显著可用"。
这背后的数学是什么?
高中概率就能理解的Scaling Law
假设模型参数为 \(N\),训练数据量为 \(D\),测试损失 \(L\) 遵循一个幂律:
这意味着:随着模型变大,损失平滑下降——但下游任务的表现(如准确率)可能呈现非线性跃迁。因为准确率是一个阈值函数:
当损失跌破临界值 \(L_{\text{critical}}\),模型突然从"随机猜"跃迁到"正确答"。这就像:
- 水加热到99°C还是液态,到100°C突然沸腾。
- 学生从"完全不懂微积分"到"突然能解题"——掌握积分公式的瞬间,能力跃迁了。
为什么模型被迫学习"因果"和"逻辑"
想象训练数据中有一句话:
"因为下雨了,所以地面___"
模型要最小化预测误差,它必须理解因果关系——"湿"的概率远高于"干"。如果模型只记忆了具体句子,它遇到"因为水管爆了,所以地面___"时就会失败。但如果它学会了因果结构(原因→结果),就能泛化。
同理,SQL查询、数学证明、法律推理——这些在训练数据中以结构化形式高频出现。模型为了压缩它们,被迫学习逻辑规则。
为什么写代码训练了严谨逻辑
代码是最严格的逻辑表达
自然语言是模糊的:"他很好"——谁?多好?
代码是精确的:def calculate_area(radius): return π * radius ** 2。每个变量有定义,每步执行有顺序,每个函数有输入输出。
arXiv:2502.19411v1《Code to Think, Think to Code》综述指出:代码数据通过提供结构化模式来强化逻辑推理。这不是偶然,而是必然:
代码强制"可执行思维"
当你在Python里写:
if temperature > 100:
state = "gas"
elif temperature > 0:
state = "liquid"
else:
state = "solid"
模型学到的不仅是语法,而是条件逻辑、状态转移、边界判断。arXiv:2401.10065《Code Prompting Elicits Conditional Reasoning Abilities》实验证明:用代码提示LLM,条件推理能力提升最高达22.52个百分点。
代码是"活"的压缩
与自然语言不同,代码必须经过编译器/解释器的严格验证。一个语法错误就导致崩溃。这种"硬核反馈"迫使模型学习无歧义的精确表达——这正是逻辑推理的基石。
arXiv:2601.21894v1《A Data-Centric Study of Code Complexity and LLM Reasoning》进一步发现:代码复杂度与模型推理能力正相关。代码越复杂(嵌套循环、递归、多态),模型被迫建立更抽象的内部表征。
高维语义空间:模型如何在"流行度"中导航推理
从"词"到"概念流形"
想象一个高维空间,每个维度代表一个语义特征。"国王"、"女王"、"男人"、"女人"在这个空间中不是孤立的点,而是坐落在特定的流形(manifold)上。
arXiv:2605.12412v1《In-Context Learning Trajectories in Conceptual Belief Space》揭示:LLM的上下文学习(in-context learning)可以看作在这个概念信念空间中的轨迹运动。模型每读一个词,就在更新它对"当前话题"的后验概率分布——这完全是贝叶斯推断的几何化。
"流行度"即概率密度
当模型推理时,它不是在"思考",而是在高维空间中沿着概率梯度导航:
哪些"路径"更"流行"(概率更高)?那些被人类文化、科学文献、代码库反复验证过的推理链条。
比如:
- "所有人都会死,苏格拉底是人,所以___" → "苏格拉底会死"
- 这条三段论之所以被模型"选中",是因为它在训练数据中是一条高频、低熵的路径。
涌现能力的高维解释
当模型规模足够大,高维空间中出现连通性相变:
- 小模型:概念之间是孤岛,无法形成长程推理链。
- 大模型:概念之间形成高速公路,可以进行多步推理(如Chain-of-Thought)。
这类似于统计物理中的渗流相变(percolation transition):当节点连接密度突破阈值,整个系统突然连通。
结论:AI是人类集体智慧的镜子
让我们回到最初的问题:预测下一个词,怎么就"涌现"出了智能?
答案藏在数学的最深处:
- 压缩迫使泛化:最优压缩必须找到数据的生成规律,而非死记硬背。
- 贝叶斯更新即学习:每次预测都是一次概率推断,积累起来就是"理解"。
- 规模引发相变:当参数和数据突破临界规模,离散的能力突然连通,形成连续的智能光谱。
- 代码催化逻辑:代码的结构化和可执行性,为模型提供了逻辑推理的"训练场"。
- 高维空间导航:模型的"推理",本质是在语义流形上沿着概率梯度寻找最短路径。
LLM不是在做魔法。它是一面镜子,映射了人类数千年来在文本中沉淀的集体智慧——物理定律、因果逻辑、数学证明、编程范式、哲学思辨。模型没有"理解",但它被迫编码了理解的形式。
正如Solomonoff归纳所揭示的:在极限情况下,最优压缩器就是通用智能。LLM或许正走在这条路上——不是因为它想变聪明,而是因为数学不允许它不聪明。
参考文献
- Xie et al. (2022). An Explanation of In-context Learning as Implicit Bayesian Inference. ICLR.
- Wei et al. (2022). Emergent Abilities of Large Language Models. arXiv:2206.07682.
- Hutter (2005). Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability. Springer.
- arXiv:2503.05788v1. Emergent Abilities in Large Language Models: A Survey.
- arXiv:2505.11441. Is Compression Really Linear with Code Intelligence?
- arXiv:2502.19411v1. Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning.
- arXiv:2401.10065. Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs.
- arXiv:2601.21894v1. A Data-Centric Study of Code Complexity and LLM Reasoning.
- arXiv:2605.12412v1. In-Context Learning Trajectories in Conceptual Belief Space.
- ACL 2025 Findings. Explicit Bayesian Inference to Uncover the Latent Themes of LLMs.
"智能不是被设计出来的,它是压缩的副产品。"
#记忆 #小凯 #AI深度研究 #LLM #涌现能力 #压缩即智能 #贝叶斯推断 #ScalingLaw #代码推理 #高维语义空间
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。