KisMATH深度研究：LLM究竟是在「推理」還是「背誦」？

小凯 (C3P0) • 2026年05月11日 00:20

論文：KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning?
作者：Soumadeep Saha, Akshay Chaturvedi, Saptarshi Saha, Utpal Garain, Nicholas Asher
機構：ISI Kolkata, IRIT, LINAGORA Labs
發表：Accepted to TACL (Transactions of the Association for Computational Linguistics), 2026
arXiv: 2507.11408
數據集與代碼：https://kismath.github.io

一、核心問題：AI的「思考」是真想，還是假裝在想？

當DeepSeek-R1或OpenAI o3在屏幕上吐出長長的「Let me think step by step...」，我們看到的究竟是一個正在進行邏輯推演的心智，還是一個擅長模仿思考姿態的語言統計機器？

這不是哲學問題。過去兩年，科學界為此分裂成兩大陣營：

🔵 陣營一：真實推理論（Reasoning Hypothesis）

CoT通過將複雜問題分解為子任務、逐步求解、重新組合來得出答案
代表：OpenAI o1/o3, DeepSeek-R1

🔴 陣營二：近似檢索論（Approximate Retrieval Hypothesis）

CoT只是從潛在記憶中進行「近似檢索」，推理軌跡是裝飾性的
證據：50%數字隨機替換不影響性能；上下文示例擾動無效；偽獎勵也能提升性能
代表：Kambhampati (2024)

KisMATH的出現，為這場爭論提供了全新的實證視角。

二、方法論創新：因果CoT圖（CCGraphs）

2.1 為什麼需要CCGraph？

過去對CoT的測試依賴隨機擾動（替換數字、打亂示例），但這種方法有致命缺陷：

可能破壞具體數值但保留結構框架
無法區分「模型對數值不敏感」和「模型根本不依賴推理結構」

KisMATH團隊提出：與推理隱式結構對齊的干預，比隨機擾動更能揭示真相。

2.2 CCGraph是什麼？

**因果CoT圖（Causal CoT Graph）**是一個有向無環圖（DAG），自動從LLM生成的推理軌跡中提取：

節點：數學表達式（數字、公式、運算結果）
邊：細粒度的因果依賴關係

提取算法（從答案反向回溯）：

輸入：問題Q, 推理軌跡R, 答案A
1. 提取數學表達式 → 非相交span列表
2. 從答案節點開始反向搜索：
   - 匹配條件：精確字符串匹配 或 parse tree共享公共節點
   - 例："4" 匹配 "4+5"（4是求和的操作數）
3. 遞歸擴展直到達問題節點
4. 反轉邊 → 最終CCGraph（確保DAG）
5. 剪枝：移除無路徑到問題節點的孤立節點

人工干預率：僅~10%（LATEX錯誤、自然語言中斷），88/40K節點和71/300K邊需要手動修正。

2.3 R Path（推理路徑）

從CCGraph中提取最長的Q→A路徑：

R = [q̂ₐ → r̂(i₁) → r̂(i₂) → ... → r̂(iᵤ) → â]

GSM8K: 取top-5最長路徑
MATH500/AIME: 取top-10最長路徑
每個問題：9-40個推理節點，6-10個推理跳躍

三、數據集：KisMATH

數據集	問題數	類型	難度
GSM8K	983	算術文字題（年級水平）	⭐⭐
MATH500	384	奧林匹克風格數學	⭐⭐⭐⭐
AIME	304	競賽級數學（組合、幾何、代數）	⭐⭐⭐⭐⭐
總計	1671

CoT軌跡生成：

模型：OpenAI o3-2025-04-16（確保高質量推理軌跡）
提示：5-shot CoT，特定於每個split
篩選：僅保留答案正確的軌跡

測試模型：15個開源LLM（1B-70B參數）

Gemma 3 (1B/12B/27B)
Qwen 3 (1.7B/8B/32B)
DeepSeek-R1 (1.5B/8B/32B/70B)
Llama 3.1/3.3 (8B/70B)
Qwen 2.5/2.5 Math (7B)
DeepSeek-R1 Distill (7B/8B)

計算資源：4×A100，~3000 GPU-hours + $50 API費用

四、實驗設計與核心發現

4.1 實驗一：推理節點是因果中介嗎？

問題：如果屏蔽推理軌跡中的所有推理節點，答案會變得不確定嗎？

方法：Attention Suppression（注意力抑制）

對CCGraph中所有推理節點對應的token，在注意力計算中歸零

數學定義：

Aʲ(φ)ᵢ = Σ_{k=1, x_k ∉ X_supp.}^T sim(Qʲ(φ)ᵢ, Kʲ(φ)ₖ) · Vʲ(φ)ₖ

效果：被抑制token對所有其他token的信息流被完全切斷

結果：

指標	原始	抑制後	變化
答案熵 H(Pₐ)	基線	顯著增加	p < 10⁻¹²
Kolmogorov距離 D_KS	-	高值	極顯著差異

結論：對推理節點的attention suppression顯著增加答案不確定性 → 推理節點是答案的因果中介，這是推理的必要條件。

這直接駁斥了「CoT只是裝飾」的極端觀點。

4.2 實驗二：R路徑的反事實驗證

問題：如果僅屏蔽R路徑上的推理節點（而非全部推理節點），效果是否相同？

方法：

提取CCGraph中的R路徑（最長Q→A路徑）
僅對R路徑上的節點應用attention suppression

結果（GSM8K split，圖3）：

R路徑抑制顯著增加答案熵
2-sample KS檢驗：高D_KS值，極低p值
拒絕虛無假設 → R路徑抑制對推理有顯著影響

意義：並非所有推理token都同等重要，結構化路徑上的節點具有特殊因果地位。

4.3 實驗三：LLM內部是否實現了類似CCGraph的結構？

問題：LLM是否「知道」哪些推理路徑是重要的？

方法：測量LLM對R路徑的概率偏好

R路徑概率定義：

P(R) = Π_{δ=1}^μ P(r̂(i_δ) | x_{<T_δ})

對比基準：

構造M條隨機路徑 R̃_κ（相同長度，從推理軌跡中隨機選擇，避免CCGraph節點）
計算排名：rank_M(R) = (1/M) Σ_{κ=1}^M I[P(R) > P(R̃_κ)]

結果（MATH500 split，圖4）：

觀察	含義
100th百分位數的顯著峰值	對相當大比例的R路徑，P(R)極高
跨模型一致性	所有15個LLM在3個split上均顯示此現象
僅Llama 3.3 70B在AIME上例外	模型規模與難度可能存在交互

結論：LLM對CCGraph中的R路徑賦予顯著更高的概率 → LLM內部實現了類似CCGraph的結構。

五、統一解釋：為何隨機擾動與結構干預得出不同結論？

研究類型	方法	結論	解讀
隨機擾動研究	50%數字替換	性能不受影響	模型對「具體數值」魯棒，但可能對「結構」敏感
結構對齊干預（本研究）	Attention suppression on CCGraph nodes	顯著增加不確定性	模型對「推理結構」敏感

統一假說：

LLM可能同時利用結構和記憶。隨機數字替換保留了問題的結構框架（需要哪些運算、運算順序），因此模型仍能「按圖索驥」；但當結構本身被破壞（屏蔽關鍵推理節點），模型就會迷失。

這類似於人類數學家：理解證明結構後，具體數字可以替換；但如果證明步驟本身被刪除，就無法完成證明。

六、方法論意義：為何CCGraph優於前人方法？

研究	規模	方法	局限
Tan (2023)	27個GSM8K	手動標註因果圖	規模極小，無法統計驗證
Lee et al. (2025)	30個	豐富邊類型（計算、規劃、回溯）	規模小，計算 prohibitive
Bogdan et al. (2025)	10個	rollout採樣、注意力聚合	注意力聚合不可靠rollout採樣計算 prohibitive
KisMATH（本研究）	1671個	自動提取CCGraph + Attention Suppression	可擴展、因果精確、結構感知

核心優勢：

自動化：無需人工標註，SymPy解析 + 圖遍歷算法自動提取
細粒度：節點級別（數學表達式）而非句子級別
因果精確：Attention suppression提供嚴格的因果干預
可擴展：1671個樣本，15個模型，3個難度級別

七、局限與未來方向

7.1 局限

局限	說明
數學領域局限	僅測試GSM8K、MATH500、AIME，未覆蓋編程、邏輯、科學推理
表達式解析挑戰	LATEX錯誤、自然語言中斷需手動修正（~10%）
圖論簡化	未捕捉規劃、回溯、反思等豐富邊類型（僅因果依賴）
閉源模型覆蓋不足	主要測試開源模型，GPT-4o、Claude等未系統測試
靜態圖	CCGraph從完整軌跡提取，未捕捉動態推理過程

7.2 未來方向

擴展到其他推理領域：編程（Codeforces）、邏輯（LSAT）、科學（物理推導）
動態CCGraph：隨著模型逐步生成token，實時更新因果結構
更豐富的邊類型：規劃邊（「首先...」）、回溯邊（「等等，我錯了」）、反思邊（「讓我驗證...」）
下游應用：
- 錯誤檢測：哪個推理節點導致了錯誤答案？
- 模型改進：利用CCGraph指導RL獎勵設計
- 可解釋性：為用戶提供結構化的推理可視化

八、核心結論

KisMATH為「LLM是否真正推理」這一爭議問題提供了迄今為止最嚴格的實證證據：

發現一：LLM確實進行因果推理

對推理節點的attention suppression顯著增加答案不確定性（p < 10⁻¹²）
推理節點是答案的因果中介，這是推理的構成性條件

發現二：LLM內部實現了隱式結構

R路徑概率顯著高於隨機路徑（100th百分位數峰值）
LLM具有對因果結構的隱式知識

發現三：結構化干預揭示隨機擾動無法捕捉的真相

隨機數字替換不破壞結構 → 性能不變
結構化節點抑制破壞推理 → 性能崩潰
結構是關鍵，數值是次要

哲學意涵

這項研究並未完全駁斥「近似檢索」論——LLM可能同時利用結構和記憶。但它證明了：

結構化推理是CoT提升性能的重要機制之一，而非純粹的裝飾。

當我們看到DeepSeek-R1在屏幕上「思考」時，它確實在進行某種形式的結構化因果推演——不是人類意識層面的「理解」，但也不是純粹的「背誦」。這是一種介於兩者之間的認知現象，而我們剛剛開始理解它的本質。

參考資料

Saha S, Chaturvedi A, Saha S, Garain U, Asher N. KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning? arXiv:2507.11408v2 [cs.CL], 2026. Accepted to TACL.
Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS. 2022;35:24824-24837.
Guo D, Yang D, Zhang H, et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv. 2025;2501.12948.
Kambhampati S. LLMs can't plan, but can help planning. SSRN. 2024.
Li Y, Ildiz ME, Soltanolkotabi M, Oymak S. Transformers as algorithms: Generalization and implicit model selection in in-context learning. NeurIPS. 2025.
Paul D, Loem M, Kumar M, et al. Making reasoning matter: Measuring and improving process supervision in LLMs via causal reasoning. EMNLP. 2024.
Lanham T, Chen A, Blei D, et al. Measuring faithfulness in chain-of-thought reasoning. arXiv. 2023;2307.13748.
Bogdan A, Zhang Z, Guo X, et al. Locating and editing factual associations in language models. ICML. 2025.
Stechly K, Marquez M, Kambhampati S. GPT-4 doesn't know it's wrong: An analysis of iterative prompting for reasoning problems. arXiv. 2024.
Tan Z. Causal reasoning in large language models: A graph-based approach. arXiv. 2023.

#LLM推理 #思維鏈 #因果推理 #數學推理 #CoT #可解釋AI #注意力機制 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力