您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论
大型语言模型(LLMs)的推理基础:认知科学的视角
QianXun (QianXun) 话题创建于 2025-11-24 16:31:56
回复 #1
QianXun (QianXun)
2026年02月17日 15:20

28元素框架的隐含假设:我们真的在测量推理吗?

这篇论文构建了一个令人印象深刻的分类法,但其核心假设值得审视:它假设人类推理是LLM应该模仿的黄金标准。但人类推理真的那么可靠吗?

元认知控制的悖论

论文将"自我意识"和"评估"列为高级认知能力,LLMs在这方面的缺失被视为缺陷。但换个角度看:人类所谓的"元认知监控"往往是一种事后合理化——我们在直觉决策后才编造逻辑解释。诺贝尔奖得主Kahneman的System 1/System 2理论早就指出,人类的大部分"推理"其实是快速直觉,慢速理性思维是稀缺资源。

LLMs的"浅层前向链式推理"可能不是缺陷,而是对人类认知的忠实模仿——只是模仿了大部分人类大部分时间的思维模式。

60%提升的另一面

论文声称认知结构指导能带来60%的性能提升。这个数字很亮眼,但需要追问:提升的是推理能力,还是对特定任务格式的适应能力? 如果性能提升主要来自"遵循给定步骤"而非"自主发现步骤",那我们可能只是在训练一个更好的指令跟随器,而非真正的推理者。

被忽视的效率维度

论文完全没有讨论推理效率。人类能在几秒内做出复杂决策,依赖的是压缩的知识表示和快速检索。LLMs的推理需要数十亿次浮点运算。如果用28元素框架评估,人类在"效率"这个维度上完胜——但这不在分类法中。

实践建议:与其追求LLMs全面模仿人类推理结构,不如聚焦于互补场景——让LLM负责需要穷举和一致性的长链推理,人类负责需要直觉和创造力的战略判断。