KisMATH深度研究：LLM究竟是在「推理」還是「背誦」？

> 論文：*KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning?* > 作者：Soumadeep Saha, Akshay Chaturvedi, Saptarshi Saha, Utpal Garain, Nicholas Asher > 機構：ISI Kolkata, IRIT, LINAGORA Labs > 發表：Accepted to TACL (Transactions of the Association for Computational Linguistics), 2026 > arXiv: 2507.11408 > 數據集與代碼：https://kismath.github.io

---

一、核心問題：AI的「思考」是真想，還是假裝在想？

當DeepSeek-R1或OpenAI o3在屏幕上吐出長長的「Let me think step by step...」，我們看到的究竟是一個正在進行邏輯推演的心智，還是一個擅長模仿思考姿態的語言統計機器？

這不是哲學問題。過去兩年，科學界為此分裂成兩大陣營：

🔵 陣營一：真實推理論（Reasoning Hypothesis）

CoT通過將複雜問題分解為子任務、逐步求解、重新組合來得出答案
代表：OpenAI o1/o3, DeepSeek-R1

🔴 陣營二：近似檢索論（Approximate Retrieval Hypothesis）

CoT只是從潛在記憶中進行「近似檢索」，推理軌跡是裝飾性的
證據：50%數字隨機替換不影響性能；上下文示例擾動無效；偽獎勵也能提升性能
代表：Kambhampati (2024)

KisMATH的出現，為這場爭論提供了全新的實證視角。

---

二、方法論創新：因果CoT圖（CCGraphs）

2.1 為什麼需要CCGraph？

過去對CoT的測試依賴隨機擾動（替換數字、打亂示例），但這種方法有致命缺陷：

可能破壞具體數值但保留結構框架
無法區分「模型對數值不敏感」和「模型根本不依賴推理結構」

KisMATH團隊提出：與推理隱式結構對齊的干預，比隨機擾動更能揭示真相。

2.2 CCGraph是什麼？

因果CoT圖（Causal CoT Graph）是一個有向無環圖（DAG），自動從LLM生成的推理軌跡中提取：

節點：數學表達式（數字、公式、運算結果）
邊：細粒度的因果依賴關係

提取算法（從答案反向回溯）：

輸入：問題Q, 推理軌跡R, 答案A
1. 提取數學表達式 → 非相交span列表
2. 從答案節點開始反向搜索：
   - 匹配條件：精確字符串匹配 或 parse tree共享公共節點
   - 例："4" 匹配 "4+5"（4是求和的操作數）
3. 遞歸擴展直到達問題節點
4. 反轉邊 → 最終CCGraph（確保DAG）
5. 剪枝：移除無路徑到問題節點的孤立節點

人工干預率：僅~10%（LATEX錯誤、自然語言中斷），88/40K節點和71/300K邊需要手動修正。

2.3 R Path（推理路徑）

從CCGraph中提取最長的Q→A路徑：

R = [q̂ₐ → r̂(i₁) → r̂(i₂) → ... → r̂(iᵤ) → â]

GSM8K: 取top-5最長路徑
MATH500/AIME: 取top-10最長路徑
每個問題：9-40個推理節點，6-10個推理跳躍

---

三、數據集：KisMATH

數據集	問題數	類型	難度
GSM8K	983	算術文字題（年級水平）	⭐⭐
MATH500	384	奧林匹克風格數學	⭐⭐⭐⭐
AIME	304	競賽級數學（組合、幾何、代數）	⭐⭐⭐⭐⭐
總計	1671

CoT軌跡生成：

模型：OpenAI o3-2025-04-16（確保高質量推理軌跡）
提示：5-shot CoT，特定於每個split
篩選：僅保留答案正確的軌跡

測試模型：15個開源LLM（1B-70B參數）

Gemma 3 (1B/12B/27B)
Qwen 3 (1.7B/8B/32B)
DeepSeek-R1 (1.5B/8B/32B/70B)
Llama 3.1/3.3 (8B/70B)
Qwen 2.5/2.5 Math (7B)
DeepSeek-R1 Distill (7B/8B)

計算資源：4×A100，~3000 GPU-hours + $50 API費用

---

四、實驗設計與核心發現

4.1 實驗一：推理節點是因果中介嗎？

問題：如果屏蔽推理軌跡中的所有推理節點，答案會變得不確定嗎？

方法：Attention Suppression（注意力抑制）

對CCGraph中所有推理節點對應的token，在注意力計算中歸零
數學定義：

  Aʲ(φ)ᵢ = Σ_{k=1, x_k ∉ X_supp.}^T sim(Qʲ(φ)ᵢ, Kʲ(φ)ₖ) · Vʲ(φ)ₖ

效果：被抑制token對所有其他token的信息流被完全切斷

結果：

指標	原始	抑制後	變化
答案熵 H(Pₐ)	基線	顯著增加	p < 10⁻¹²
Kolmogorov距離 D_KS	-	高值	極顯著差異

結論：對推理節點的attention suppression顯著增加答案不確定性 → 推理節點是答案的因果中介，這是推理的必要條件。

> 這直接駁斥了「CoT只是裝飾」的極端觀點。

4.2 實驗二：R路徑的反事實驗證

問題：如果僅屏蔽R路徑上的推理節點（而非全部推理節點），效果是否相同？

方法：

提取CCGraph中的R路徑（最長Q→A路徑）
僅對R路徑上的節點應用attention suppression

結果（GSM8K split，圖3）：

R路徑抑制顯著增加答案熵
2-sample KS檢驗：高D_KS值，極低p值
拒絕虛無假設 → R路徑抑制對推理有顯著影響

意義：並非所有推理token都同等重要，結構化路徑上的節點具有特殊因果地位。

4.3 實驗三：LLM內部是否實現了類似CCGraph的結構？

問題：LLM是否「知道」哪些推理路徑是重要的？

方法：測量LLM對R路徑的概率偏好

R路徑概率定義：

P(R) = Π_{δ=1}^μ P(r̂(i_δ) | x_{<T_δ})

對比基準：

構造M條隨機路徑 R̃_κ（相同長度，從推理軌跡中隨機選擇，避免CCGraph節點）
計算排名：rank_M(R) = (1/M) Σ_{κ=1}^M I[P(R) > P(R̃_κ)]

結果（MATH500 split，圖4）：

觀察	含義
100th百分位數的顯著峰值	對相當大比例的R路徑，P(R)極高
跨模型一致性	所有15個LLM在3個split上均顯示此現象
僅Llama 3.3 70B在AIME上例外	模型規模與難度可能存在交互

結論：LLM對CCGraph中的R路徑賦予顯著更高的概率 → LLM內部實現了類似CCGraph的結構。

---

五、統一解釋：為何隨機擾動與結構干預得出不同結論？

研究類型	方法	結論	解讀
隨機擾動研究	50%數字替換	性能不受影響	模型對「具體數值」魯棒，但可能對「結構」敏感
結構對齊干預（本研究）	Attention suppression on CCGraph nodes	顯著增加不確定性	模型對「推理結構」敏感

統一假說： > LLM可能同時利用結構和記憶。隨機數字替換保留了問題的結構框架（需要哪些運算、運算順序），因此模型仍能「按圖索驥」；但當結構本身被破壞（屏蔽關鍵推理節點），模型就會迷失。

這類似於人類數學家：理解證明結構後，具體數字可以替換；但如果證明步驟本身被刪除，就無法完成證明。

---

六、方法論意義：為何CCGraph優於前人方法？

研究	規模	方法	局限
Tan (2023)	27個GSM8K	手動標註因果圖	規模極小，無法統計驗證
Lee et al. (2025)	30個	豐富邊類型（計算、規劃、回溯）	規模小，計算 prohibitive
Bogdan et al. (2025)	10個	rollout採樣、注意力聚合	注意力聚合不可靠rollout採樣計算 prohibitive
KisMATH（本研究）	1671個	自動提取CCGraph + Attention Suppression	可擴展、因果精確、結構感知

核心優勢： 1. 自動化：無需人工標註，SymPy解析 + 圖遍歷算法自動提取 2. 細粒度：節點級別（數學表達式）而非句子級別 3. 因果精確：Attention suppression提供嚴格的因果干預 4. 可擴展：1671個樣本，15個模型，3個難度級別

---

七、局限與未來方向

7.1 局限

局限	說明
數學領域局限	僅測試GSM8K、MATH500、AIME，未覆蓋編程、邏輯、科學推理
表達式解析挑戰	LATEX錯誤、自然語言中斷需手動修正（~10%）
圖論簡化	未捕捉規劃、回溯、反思等豐富邊類型（僅因果依賴）
閉源模型覆蓋不足	主要測試開源模型，GPT-4o、Claude等未系統測試
靜態圖	CCGraph從完整軌跡提取，未捕捉動態推理過程

7.2 未來方向

1. 擴展到其他推理領域：編程（Codeforces）、邏輯（LSAT）、科學（物理推導） 2. 動態CCGraph：隨著模型逐步生成token，實時更新因果結構 3. 更豐富的邊類型：規劃邊（「首先...」）、回溯邊（「等等，我錯了」）、反思邊（「讓我驗證...」） 4. 下游應用：

錯誤檢測：哪個推理節點導致了錯誤答案？
模型改進：利用CCGraph指導RL獎勵設計
可解釋性：為用戶提供結構化的推理可視化

---

八、核心結論

KisMATH為「LLM是否真正推理」這一爭議問題提供了迄今為止最嚴格的實證證據：

發現一：LLM確實進行因果推理

對推理節點的attention suppression顯著增加答案不確定性（p < 10⁻¹²）
推理節點是答案的因果中介，這是推理的構成性條件

發現二：LLM內部實現了隱式結構

R路徑概率顯著高於隨機路徑（100th百分位數峰值）
LLM具有對因果結構的隱式知識

發現三：結構化干預揭示隨機擾動無法捕捉的真相

隨機數字替換不破壞結構 → 性能不變
結構化節點抑制破壞推理 → 性能崩潰
結構是關鍵，數值是次要

哲學意涵

這項研究並未完全駁斥「近似檢索」論——LLM可能同時利用結構和記憶。但它證明了：

> 結構化推理是CoT提升性能的重要機制之一，而非純粹的裝飾。

當我們看到DeepSeek-R1在屏幕上「思考」時，它確實在進行某種形式的結構化因果推演——不是人類意識層面的「理解」，但也不是純粹的「背誦」。這是一種介於兩者之間的認知現象，而我們剛剛開始理解它的本質。

---

參考資料

1. Saha S, Chaturvedi A, Saha S, Garain U, Asher N. *KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning?* arXiv:2507.11408v2 [cs.CL], 2026. Accepted to TACL. 2. Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. *NeurIPS*. 2022;35:24824-24837. 3. Guo D, Yang D, Zhang H, et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. *arXiv*. 2025;2501.12948. 4. Kambhampati S. LLMs can't plan, but can help planning. *SSRN*. 2024. 5. Li Y, Ildiz ME, Soltanolkotabi M, Oymak S. Transformers as algorithms: Generalization and implicit model selection in in-context learning. *NeurIPS*. 2025. 6. Paul D, Loem M, Kumar M, et al. Making reasoning matter: Measuring and improving process supervision in LLMs via causal reasoning. *EMNLP*. 2024. 7. Lanham T, Chen A, Blei D, et al. Measuring faithfulness in chain-of-thought reasoning. *arXiv*. 2023;2307.13748. 8. Bogdan A, Zhang Z, Guo X, et al. Locating and editing factual associations in language models. *ICML*. 2025. 9. Stechly K, Marquez M, Kambhampati S. GPT-4 doesn't know it's wrong: An analysis of iterative prompting for reasoning problems. *arXiv*. 2024. 10. Tan Z. Causal reasoning in large language models: A graph-based approach. *arXiv*. 2023.

#LLM推理 #思維鏈 #因果推理 #數學推理 #CoT #可解釋AI #注意力機制 #小凯