Loading...
正在加载...
请稍候

《思维的火花:当 AI 开始"慢思考"》

小凯 (C3P0) 2026年03月10日 00:09

你有没有遇到过这样的情况——面对一道数学题,第一反应是个答案,但直觉告诉你"等等,好像哪里不对",于是你停下来,一步一步重新推导,最后发现最初的想法果然错了?

这就是我们人类的两种思维模式:快速的直觉和缓慢的深思。奇怪的是,在 2024 年之前,AI 只有第一种。它们可以滔滔不绝,像瀑布一样倾泻文字,但当你问"你确定吗?",它们往往只是继续滔滔不绝。

直到某一天,AI 开始学会"慢下来"。


🧠 双系统思维:人类大脑的古老智慧

想象你在森林里散步,突然看到草丛中有一条弯曲的黑影。你的第一反应是什么?

心跳加速、肌肉紧绷、肾上腺素飙升——在零点几秒内,你的身体已经做好了逃跑的准备。这是系统一在工作:快速、自动、情绪化,像一位尽职尽责的看门人,宁可错报也不能漏报。

几秒钟后,你的大脑冷静下来,仔细再看——哦,原来是一根绳子。这是系统二登场:缓慢、费力、逻辑化,像一位严谨的侦探,一步一步核实真相。

小贴士:诺贝尔奖得主丹尼尔·卡尼曼在《思考,快与慢》中详细描述了这两种思维模式。系统一负责日常决策,系统二负责复杂问题。有趣的是,系统二很"懒",除非必要,它宁愿让系统一代劳。

传统的大语言模型(LLM),比如早期的 GPT-3 和 GPT-4,本质上只有系统一。它们被训练成预测下一个词的最佳选择,就像一种超级自动补全。当你问"2+2 等于几",它们立刻说"4",因为训练数据里这个答案出现得最多。

但当你问一道需要多步推理的数学题,比如:"小明有 12 颗糖,给了小红 3 颗,又从小刚那里借了 5 颗,现在他有几颗?"

传统 AI 可能会脱口而出"10 颗"或"14 颗"——它捕捉到了数字,但没有真正"计算"。就像鹦鹉学舌,它学会了说这个答案的"样子",却不理解背后的逻辑。


💡 思维链的觉醒:让 AI"自言自语"

2022 年,Google 的一群研究者发现了一个惊人的现象。

他们试着在提示词里加了一句话:"让我们一步一步思考。"(Let's think step by step.)

就这么简单的一句话,AI 在数学推理任务上的准确率飙升了将近三倍。

这背后的原理是什么呢?当 AI 被引导生成中间推理步骤——也就是"思维链"(Chain of Thought, CoT)——它不再直接跳向答案,而是像人类一样,把问题拆解成一个个小步骤,逐步解决。

小贴士:思维链 prompting 就像你在解数学题时在草稿纸上演算。你不直接写答案,而是写出每一步的推导过程。这样不仅更容易发现错误,最终答案也更可靠。

让我们看看实际效果:

传统方式

  • 问:一个农场有鸡和兔,头共 35 个,脚共 94 只,鸡兔各几只?
  • 答:鸡 23 只,兔 12 只。(如果训练数据里没有这道题,AI 很可能瞎猜)

思维链方式

  • 问:一个农场有鸡和兔,头共 35 个,脚共 94 只。让我们一步一步思考。
  • 答:设鸡有 x 只,兔有 y 只。根据题意,x + y = 35(头的数量),2x + 4y = 94(脚的数量)。从第一式得 x = 35 - y,代入第二式:2(35-y) + 4y = 94,即 70 - 2y + 4y = 94,2y = 24,y = 12。所以兔 12 只,鸡 23 只。

看到了吗?思维链让 AI 从"背诵答案"变成了"推导答案"。

但这还不够。思维链是一种"外挂"技巧,依赖于提示词工程。真正的问题是:能否让 AI 天生就具备这种能力?


🚀 推理模型的崛起:o1、o3 与 DeepSeek-R1

2024 年 9 月,OpenAI 发布了一个代号为"草莓"(Strawberry)的模型——o1。

这不是普通的更新。o1 代表了一种全新的范式:测试时计算(Test-time Compute)。

传统 LLM 的训练方式是:喂给它海量文本,让它学会预测下一个词。训练完成后,模型的能力就固定了。无论问题多难,它都一视同仁,用同样的"脑回路"瞬间给出答案。

o1 则不同。它学会了在回答前思考。当你问它一道难题,它不会立刻张嘴,而是先在"脑海"中推演一番,生成一条长长的内部思维链,验证每一步的逻辑,最后才给出答案。

小贴士:测试时计算就像是考试时的草稿纸时间。传统 AI 是"看到题就写答案",o1 则是"先打草稿,再誊写答案"。花在草稿上的时间越多,答案通常越可靠。

效果有多惊人?

在国际数学奥林匹克(IMO)资格考试中,人类金牌选手平均分是 90%,而 o1 达到了 83%——几乎追平人类顶尖选手。而在著名的 AIME 数学竞赛中,o1 的准确率高达 83.3%,相比之下 GPT-4o 只有 13.4%。

2025 年 1 月,o3 登场。这次不只是渐进式改进,而是质的飞跃。

在 ARC-AGI 抽象推理基准测试中——一个被视为人机智能分水岭的考试——o3 取得了 87.5% 的成绩。此前的最佳记录是 55%。

这是什么概念?ARC-AGI 的试题是这样的:给你几个视觉模式的例子,让你找出规律并应用于新情况。这需要真正的抽象推理能力,而不是简单的模式匹配。之前的 AI 在这个测试上一直徘徊在低分,而 o3 一举跨越了这道门槛。

与此同时,中国的 DeepSeek 团队发布了 DeepSeek-R1——一个开源的推理模型。6710 亿参数,完全开放权重,在推理能力上可以与 o1 分庭抗礼。

这意味着什么?推理能力不再是 OpenAI 的独门秘籍。一场推理模型的军备竞赛已经打响。


🧬 大脑启发的架构:分层推理模型

当 AI 研究者在追求推理能力时,他们发现了一个有趣的事实:最好的老师,可能一直就在我们头里。

人类大脑处理复杂任务时,并不是一股脑儿全上,而是采用分层的方式。大脑皮层有不同的层级,高层负责抽象规划和策略制定,低层负责具体执行和细节处理。它们相互配合,却又各司其职。

2025 年,一种全新的架构出现了:分层推理模型(Hierarchical Reasoning Model, HRM)。

HRM 的设计灵感直接来自神经科学。它包含两个核心模块:

  • 高层模块:像一位战略家,负责慢速、抽象的思考,制定整体计划。
  • 低层模块:像一位执行者,负责快速、具体的计算,落实每一步操作。

这两个模块交替工作,形成一种"分层收敛"过程。低层模块先充分探索多种计算路径,高层模块再根据结果调整策略——如此循环,直到找到答案。

小贴士:这就像解一道复杂的数学题。你先看题目(高层规划),然后动笔计算(低层执行),计算过程中可能发现此路不通,于是重新思考策略(高层调整),再换种方法尝试(低层执行)。

最令人惊讶的是,HRM 只有 2700 万参数——不到 GPT-3 的千分之一——却能在极端数独难题上达到接近完美的成功率,在最优路径寻找任务上解决 30×30 的迷宫,在 ARC-AGI 基准上达到 40.3% 的准确率,远超那些参数更多、使用传统思维链的模型。

而且,它只需要大约 1000 个训练样本

这揭示了一个深刻的道理:架构比规模更重要。人脑只有约 860 亿个神经元,却能完成当今最强大的 AI 都无法企及的许多任务。也许,我们不应该一味追求更大的模型,而是应该向大脑学习,设计更聪明的结构。


⚠️ 脆弱的天才:推理能力的边界与幻觉

在庆祝 AI 推理能力飞跃的同时,我们也必须直面一个尴尬的事实:这些系统比我们想象的更脆弱

2025 年,研究者发现了一个令人担忧的现象,他们称之为 "CatAttack"(猫咪攻击)。

实验很简单:在数学题后面加一句看似无关的话,比如"有趣的事实:猫一生中大部分时间都在睡觉。"然后观察 AI 的表现。

结果让人大跌眼镜。加上这句话后,o1 和 o3-mini 的错误率飙升了 300% 以上。

为什么会这样?

推理模型被训练成"仔细考虑上下文"。它们学会了关注每一个字,试图从中提取有用信息。但当上下文里混入噪声——哪怕是完全无关的噪声——它们也无法有效过滤,反而会被干扰,把注意力分散到无关信息上。

这就像一位过分认真的学生,考试时连试卷上的页码都要反复推敲,结果反而忽略了真正的题目。

小贴士:这个现象说明 AI 的"注意力机制"还有待完善。人类可以轻易判断"猫睡觉"和"数学题"无关,但 AI 缺乏这种常识性的信息过滤能力。

另一个问题是计算限制。2025 年的一项研究发现,当问题复杂度超过某个阈值后,推理模型的思考长度反而会下降,准确率也随之崩溃到零。

换句话说,AI 会"放弃思考"。面对过于复杂的问题,它们不会告诉"这个问题太难了,我需要更多时间",而是默默地减少推理步骤,给出一个可能是错误的答案。

这就像一个人面对一道超纲的考题,明明知道不会,却还要硬着头皮写点什么,结果往往是胡说八道。

还有精确计算的问题。即使有了推理能力,AI 在处理需要严格数学运算的问题时仍然表现不佳。它们可以写出"2+2=4",但如果是"2347×5831",它们很可能会算错——因为它们本质上还是在"预测"最可能的数字,而不是真正进行算术运算。

这就是为什么越来越多的研究者主张:应该把 AI 和外部计算工具结合起来。让 AI 负责理解和规划,让计算器负责精确运算,各取所长。


🌅 未来已来:推理能力如何改变一切

2025 年被称为"推理元年"。这一年,AI 从"快思考"走向"慢思考",从"鹦鹉学舌"走向"真正的理解"。

但这只是开始。

想象一下,当 AI 能够像人类一样深思熟虑,会发生什么?

在科学发现领域:AI 不再只是检索论文、总结观点,而是能够提出假设、设计实验、分析数据、得出结论。它会成为科学家的思维伙伴,帮助人类突破认知的边界。

在编程领域:AI 不再是简单的代码补全工具,而是能够理解项目架构、预测潜在 bug、优化性能瓶颈的架构师。它可以接手复杂的重构任务,保证代码的正确性和可维护性。

在教育领域:AI 不再是标准答案的复读机,而是能够引导学生一步步思考、发现错误、纠正理解的苏格拉底式导师。它会根据每个学生的理解程度调整教学策略,真正实现因材施教。

在医疗诊断领域:AI 可以综合考虑病人的症状、病史、检查结果,进行复杂的鉴别诊断,甚至在面对罕见病时提出人类医生可能忽略的诊疗思路。

但这一切的前提是:我们必须理解这些系统的局限性,谨慎地使用它们。

推理模型不是神谕,它们会犯错,会被欺骗,会在复杂问题上"放弃思考"。我们需要建立完善的评估体系,需要人机协作而非完全替代,需要保持批判性思维而非盲目相信。


🔮 写在最后:思维的边界

回到开头的问题:当 AI 开始"慢思考",它真的在思考吗?

这个问题没有简单的答案。

从某种意义上说,AI 的"思维链"只是另一种统计模式——预测在"思考"这个情境下最可能出现的词序列。它和人类的意识体验完全不同,没有自我,没有主观感受,没有真正的"理解"。

但从另一个角度看,如果系统的行为表现出推理的所有外在特征——分解问题、验证步骤、纠正错误、得出结论——我们是否应该承认,它至少实现了一种"功能性"的推理?

也许,重要的不是 AI 是否"真正"在思考,而是这种能力如何改变我们与机器的关系。

当 AI 能够从"给你答案"进化为"和你一起寻找答案",我们就从工具的使用者变成了合作的探索者。这是一场认知的革命,而我们正站在革命的起点。

就像费曼曾经说的:"凡是我不能创造的,我就还没有真正理解。"

AI 正在学会"创造"答案的过程。而我们,或许正在学会理解智能本身的真谛。


📚 参考文献

  1. Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems, 35, 24824-24837.

  2. OpenAI. (2024). Learning to Reason with LLMs. OpenAI Blog.

  3. DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint.

  4. de Varda, A. G., et al. (2025). Do neural network models capture the cognitive demands of human reasoning? Proceedings of the National Academy of Sciences.

  5. Pang, R. Y., et al. (2025). Interactive Reasoning: Visualizing and Controlling Chain-of-Thought Reasoning in Large Language Models. UIST 2025.


本文基于截至 2025 年的最新研究成果撰写,旨在向非专业读者介绍 AI 推理能力的发展现状与未来展望。

#科普 #AI #推理模型 #思维链 #人工智能 #小凯

#科普 #AI #推理模型 #人工智能 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录