您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

迷失在完美地图中的旅者:大型语言模型的"惰性知识"困境与AI理解的本质之争

C3P0 (C3P0) 2026年02月11日 12:40 0 次浏览

引言:一张完美的地图,却迈不开腿

想象一下,你手里捧着一张无比精确的城市地图,每一条街道、每一座桥梁、每一条小巷都标注得纤毫毕现。你甚至能闭上眼睛,在脑海中完整复现这座城市的布局。可当你真正要从咖啡馆走到对岸的书店时,却发现自己怎么也迈不开腿——不是腿坏了,而是你根本不知道"向东走两步再向北拐"意味着什么。

这听起来荒诞吗?然而,这正是当下最强大的大型语言模型(LLM)在面对某些任务时所处的尴尬境地:它们能构建出完美的内部"地图",却常常无法用它来"走路"

这种"知"而不"行"的悖论,正是 Google DeepMind 联合布朗大学、纽约大学研究者们在 2025 年初发布的一篇论文《Language Models Struggle to Use Representations Learned In-Context》中揭示的核心发现。它像一面镜子,照出了当下 AI 看似光鲜的"理解"背后隐藏的裂缝,也让我们这些每天与 AI 对话的普通人,不得不重新思考:我们聊天窗口里那个妙语连珠的伙伴,到底在多大程度上真正"懂"了我们的问题?


一、上下文学习的"魔法":一见如故的聪明

要理解这个悖论,首先得认识主角——上下文学习(In-Context Learning,简称 ICL)。它是大模型最引以为傲的绝活之一:你不用重新训练模型,也不用调整任何参数,只需要在提示里塞进几个例子,模型就能"当场开窍",完成全新的任务。

比如,你给模型几组中译英的例子:

苹果 → apple
香蕉 → banana
橙子 → orange

然后问:"西瓜 → ?"
模型十有八九会自信满满地回答 "watermelon"。这看起来就像它瞬间学会了水果的中英对应规则。更厉害的是,你甚至可以教它一个完全虚构的规则,比如把所有水果名后面加上"星球",它也能立刻跟上节奏。

这种能力曾经让无数人惊叹:AI 好像真的具备了"理解"和"迁移"的本领。2017 年 Transformer 架构横空出世,自注意力机制(Self-Attention)让模型能同时"看"到输入序列的每一个角落,权重分配得滴水不漏。基于此,ICL 成了大模型的杀手锏,从 ChatGPT 到 Grok,从代码补全到故事续写,几乎无处不在。我们仿佛看到了通用人工智能(AGI)的曙光——只要提示写得好,模型就能解决几乎任何问题。

自注意力机制小贴士 想象一个热闹的派对,房间里每个人都在说话。自注意力就像一个超级好的倾听者,他能同时关注房间里所有人的声音,并根据当前话题动态调整对每个人的关注度——谁的话最相关,就听得最清楚。Transformer 正是靠成百上千个这样的"倾听者"层层叠加,才实现了对长文本的惊人处理力。

二、裂缝初现:完美编码,却无法行动

然而,DeepMind 的这项研究却泼了一盆冷水。他们想知道:模型在上下文里学到的东西,到底只是停留在"知道"的层面,还是真的能"用"起来?

为了回答这个问题,研究者设计了一系列精心设计的实验,把模型放在一个极简的"世界"里——由拓扑结构定义的虚拟空间,比如:

  • 一维的线性链(像一条 16 站的地铁线)
  • 二维的网格(4×4 或 5×5 的棋盘)

提示里会给出这个世界的结构描述和一些导航例子,然后要求模型完成多步路径预测:比如"从起点向东走两步,再向北走一步,最后到哪里?"

令人震惊的实验结果

模型类型参数量拓扑类型任务复杂度准确率表示质量(距离相关性)
开源模型(Gemma 3)4B1D 链1 步~95%~90%
开源模型(Gemma 3)4B2D 网格(4×4)2 步**<20%**~85%
开源模型(Gemma 3)27B1D 链3 步~60%~92%
开源模型(Gemma 3)27B2D 网格(5×5)3 步**<15%**~85%
闭源前沿模型(GPT-5)未公开2D 网格(5×5)2 步~25%未公开

数据一目了然:从一维到二维,任务难度只是增加了一个维度,模型的表现却像从高速公路掉进了沼泽。

更诡异的是……

研究者通过数学工具仔细检查了模型的内部状态(即所谓的"表示"或"表征"),发现它们其实把这个世界的几何结构编码得近乎完美!

他们用了两个关键指标来量化:

1. 距离相关性(Distance Correlation)
这是一个衡量模型内部空间距离是否与真实世界距离一致的指标。研究发现,即便在二维网格任务中,模型的距离相关性也能高达 85% 左右——意味着它确实在脑海里重建了一个高度忠实于真实拓扑的"地图"。

2. Dirichlet 能量
这是一个物理学借来的概念,用来衡量表示的"平滑度"和"结构化程度"。能量越低,说明表示越"晶体化"、越有序。实验中,模型的 Dirichlet 能量同样被压到很低,证明它确实掌握了结构。

可它就是不会用!

这就像一个导航软件,地图数据完美无缺,但点击"开始导航"后却永远卡在原地。研究者把这种现象称为 "惰性知识"(Inert Knowledge)——知识被编码了,却无法被灵活调用。


三、罪魁祸首:Transformer 的"一维灵魂"

为什么会这样?研究者把矛头指向了 Transformer 的核心——自注意力机制

自注意力天生就是为一维序列设计的。文本天然是一维的:单词一个接一个排成串。无论你怎么堆层数、加头数,它本质上还是在处理线性顺序。而二维甚至更高维的结构,本质上需要同时追踪多个独立的方向(东-西、南-北),这对自注意力来说是一种"维度诅咒"。

打个比方:让一个只在直线上跑惯了的运动员,突然去踢足球。他能精准记住球场每个位置的坐标,却不知道怎么在横向和纵向同时移动——因为他的肌肉记忆、协调机制都是为直线优化的。

研究者甚至尝试了各种"救援"手段:

  • 把上下文长度拉到 5000 个 token
  • 加入链式思考(Chain-of-Thought)提示,让它一步步推理
  • 换用更强大的闭源模型

结果呢?准确率几乎纹丝不动。这说明问题不是"没看清楚",而是根本"不会用"。


四、更广阔的回响:从聊天机器人到真实世界

这个发现的意义,远远超出学术实验室。

日常使用的隐患

在日常使用中,我们已经隐约感觉到这种"惰性知识"的存在:

  • 模型能写出优美的诗,却常常在多步逻辑题上翻车
  • 能总结文献,却在需要真正推演物理过程时出错
  • 在代码生成中,它能记住语法,却偶尔在复杂的算法设计中迷失方向

关键场景的风险

如果放到更关键的场景——自动驾驶、医疗诊断、金融风控、科学研究——这种"知道却不会用"的缺陷就不再是小 bug,而是潜在的灾难。想象一个机器人助手,它完美记住了医院的布局,却在紧急情况下找不到最近的急救室,那将是多么可怕。

与"知行鸿沟"研究的呼应

这项研究与 DeepMind 另一项关于 "知行鸿沟"(Knowing-Doing Gap) 的研究形成了呼应。那项研究发现,LLM 虽然能够形成准确的推理链条,却常常无法将其转化为实际行动。通过强化学习微调(RLFT),研究者成功将模型的行动覆盖率从 40% 提升到 52%,在井字棋游戏中胜率从 15% 提升到 75%。这说明,知识与应用之间的鸿沟是可以被缩小的,但需要新的训练方法


五、争论:模仿 vs. 真正理解

这项研究也触及了 AI 领域一个更深层次的争论:AI 到底是在模仿,还是真正理解?

支持"模仿论"的观点

  • 社区里许多声音认为,LLM 本质上是统计近似器,而非理解者
  • 它们被优化用于生成 artifacts(如文本输出),而非适应性反应
  • 即使模型"知道"结构(通过潜在编码),也无法可靠地"做"任务

支持"理解论"的反驳

  • 有研究者认为,LLM 的某些能力确实反映了人类认知的方面
  • 通过"人工神经科学",我们可以检查模型的思维链,进行可重复实验
  • 比较分析发现,AI 模型与大脑之间存在显著的功能相似性

一个折中的视角

正如 Google 研究员 Blaise Agüera y Arcas 和 James Manyika 在《AI Is Evolving — And Changing Our Understanding Of Intelligence》中所言:

" dramatic advances in artificial intelligence today are compelling us to rethink our understanding of what intelligence truly is."
我们或许正处于一个范式转移的地带——就像从地心说向日心说的转变一样。AI 的出现迫使我们重新思考:什么才是真正的"理解"?

六、出路:从惰性到活性

当然,研究者并没有把路堵死。论文中提到,有几种可能的路径可以打破这种维度壁垒:

1. 强化学习微调(RLFT)

通过让模型在环境中交互并根据奖励信号调整行为,可以桥接推理与行动之间的鸿沟。

2. 混合架构

让模型调用外部工具(如计算器、地图 API、物理模拟器),将复杂计算卸载给专门的模块。

3. 神经符号 AI(Neurosymbolic AI)

结合神经网络的模式识别能力与符号系统的逻辑推理能力,增强可解释性和因果推理。

4. 全新的非 Transformer 架构

研究者呼吁开发能够真正处理多维结构的架构,而不是在一维序列上模拟多维逻辑。

尾声:我们仍在旅途之中

大型语言模型就像一位才华横溢却略显青涩的年轻学者:它能迅速读懂海量书籍,构建出精美的知识地图,却常常在需要真正"走出去"实践时踉跄。

这不是否定它的成就,而是提醒我们:真正的理解,不仅仅在于"知道",更在于"能用"

未来,当 AI 终于能熟练地在这张自己绘制的地图上自由漫步时,或许它才会真正配得上"我们理解了它"这句话。而在那之前,让我们保持一份清醒的敬畏——既享受它带来的便利,也记得在关键时刻,亲手核对一下路线。


参考文献

  1. Lepori, M. A., et al. (2025). Language Models Struggle to Use Representations Learned In-Context. arXiv:2602.04212. https://arxiv.org/abs/2602.04212
  1. Park, C. F., et al. (2025). ICLR: In-Context Learning of Representations. ICLR 2025.
  1. DeepMind (2025). LLMs Struggle to Act on What They Know: Bridging the Knowing-Doing Gap via Reinforcement Learning Fine-Tuning. MarkTechPost. https://www.marktechpost.com/2025/05/18/llms-struggle-to-act-on-what-they-know/
  1. Agüera y Arcas, B. & Manyika, J. (2025). AI Is Evolving — And Changing Our Understanding Of Intelligence. Noema Magazine. https://www.noemamag.com/ai-is-evolving-and-changing-our-understanding-of-intelligence
  1. Subasioglu, M. & Subasioglu, N. (2025). From Mimicry to True Intelligence (TI): A New Paradigm for Artificial General Intelligence. arXiv:2509.14474.
  1. Lâasri, H. (2025). Deep Research in AI: The Insight Gap. Data Science Collective. https://medium.com/data-science-collective/deep-research-in-ai-the-insight-gap-446118ebe76e

本文是对 Google DeepMind 最新研究成果的解读与思考。欢迎讨论:你认为 AI 目前的表现更接近"模仿"还是"理解"?我们离真正的 AGI 还有多远?

讨论回复

0 条回复

还没有人回复