論文:KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning?
作者:Soumadeep Saha, Akshay Chaturvedi, Saptarshi Saha, Utpal Garain, Nicholas Asher
機構:ISI Kolkata, IRIT, LINAGORA Labs
發表:Accepted to TACL (Transactions of the Association for Computational Linguistics), 2026
arXiv: 2507.11408
數據集與代碼:https://kismath.github.io
一、核心問題:AI的「思考」是真想,還是假裝在想?
當DeepSeek-R1或OpenAI o3在屏幕上吐出長長的「Let me think step by step...」,我們看到的究竟是一個正在進行邏輯推演的心智,還是一個擅長模仿思考姿態的語言統計機器?
這不是哲學問題。過去兩年,科學界為此分裂成兩大陣營:
🔵 陣營一:真實推理論(Reasoning Hypothesis)
- CoT通過將複雜問題分解為子任務、逐步求解、重新組合來得出答案
- 代表:OpenAI o1/o3, DeepSeek-R1
🔴 陣營二:近似檢索論(Approximate Retrieval Hypothesis)
- CoT只是從潛在記憶中進行「近似檢索」,推理軌跡是裝飾性的
- 證據:50%數字隨機替換不影響性能;上下文示例擾動無效;偽獎勵也能提升性能
- 代表:Kambhampati (2024)
KisMATH的出現,為這場爭論提供了全新的實證視角。
二、方法論創新:因果CoT圖(CCGraphs)
2.1 為什麼需要CCGraph?
過去對CoT的測試依賴隨機擾動(替換數字、打亂示例),但這種方法有致命缺陷:
- 可能破壞具體數值但保留結構框架
- 無法區分「模型對數值不敏感」和「模型根本不依賴推理結構」
KisMATH團隊提出:與推理隱式結構對齊的干預,比隨機擾動更能揭示真相。
2.2 CCGraph是什麼?
**因果CoT圖(Causal CoT Graph)**是一個有向無環圖(DAG),自動從LLM生成的推理軌跡中提取:
- 節點:數學表達式(數字、公式、運算結果)
- 邊:細粒度的因果依賴關係
提取算法(從答案反向回溯):
輸入:問題Q, 推理軌跡R, 答案A
1. 提取數學表達式 → 非相交span列表
2. 從答案節點開始反向搜索:
- 匹配條件:精確字符串匹配 或 parse tree共享公共節點
- 例:"4" 匹配 "4+5"(4是求和的操作數)
3. 遞歸擴展直到達問題節點
4. 反轉邊 → 最終CCGraph(確保DAG)
5. 剪枝:移除無路徑到問題節點的孤立節點
人工干預率:僅~10%(LATEX錯誤、自然語言中斷),88/40K節點和71/300K邊需要手動修正。
2.3 R Path(推理路徑)
從CCGraph中提取最長的Q→A路徑:
R = [q̂ₐ → r̂(i₁) → r̂(i₂) → ... → r̂(iᵤ) → â]
- GSM8K: 取top-5最長路徑
- MATH500/AIME: 取top-10最長路徑
- 每個問題:9-40個推理節點,6-10個推理跳躍
三、數據集:KisMATH
| 數據集 | 問題數 | 類型 | 難度 |
|---|---|---|---|
| GSM8K | 983 | 算術文字題(年級水平) | ⭐⭐ |
| MATH500 | 384 | 奧林匹克風格數學 | ⭐⭐⭐⭐ |
| AIME | 304 | 競賽級數學(組合、幾何、代數) | ⭐⭐⭐⭐⭐ |
| 總計 | 1671 |
CoT軌跡生成:
- 模型:OpenAI o3-2025-04-16(確保高質量推理軌跡)
- 提示:5-shot CoT,特定於每個split
- 篩選:僅保留答案正確的軌跡
測試模型:15個開源LLM(1B-70B參數)
- Gemma 3 (1B/12B/27B)
- Qwen 3 (1.7B/8B/32B)
- DeepSeek-R1 (1.5B/8B/32B/70B)
- Llama 3.1/3.3 (8B/70B)
- Qwen 2.5/2.5 Math (7B)
- DeepSeek-R1 Distill (7B/8B)
計算資源:4×A100,~3000 GPU-hours + $50 API費用
四、實驗設計與核心發現
4.1 實驗一:推理節點是因果中介嗎?
問題:如果屏蔽推理軌跡中的所有推理節點,答案會變得不確定嗎?
方法:Attention Suppression(注意力抑制)
- 對CCGraph中所有推理節點對應的token,在注意力計算中歸零
- 數學定義:
Aʲ(φ)ᵢ = Σ_{k=1, x_k ∉ X_supp.}^T sim(Qʲ(φ)ᵢ, Kʲ(φ)ₖ) · Vʲ(φ)ₖ - 效果:被抑制token對所有其他token的信息流被完全切斷
結果:
| 指標 | 原始 | 抑制後 | 變化 |
|---|---|---|---|
| 答案熵 H(Pₐ) | 基線 | 顯著增加 | p < 10⁻¹² |
| Kolmogorov距離 D_KS | - | 高值 | 極顯著差異 |
結論:對推理節點的attention suppression顯著增加答案不確定性 → 推理節點是答案的因果中介,這是推理的必要條件。
這直接駁斥了「CoT只是裝飾」的極端觀點。
4.2 實驗二:R路徑的反事實驗證
問題:如果僅屏蔽R路徑上的推理節點(而非全部推理節點),效果是否相同?
方法:
- 提取CCGraph中的R路徑(最長Q→A路徑)
- 僅對R路徑上的節點應用attention suppression
結果(GSM8K split,圖3):
- R路徑抑制顯著增加答案熵
- 2-sample KS檢驗:高D_KS值,極低p值
- 拒絕虛無假設 → R路徑抑制對推理有顯著影響
意義:並非所有推理token都同等重要,結構化路徑上的節點具有特殊因果地位。
4.3 實驗三:LLM內部是否實現了類似CCGraph的結構?
問題:LLM是否「知道」哪些推理路徑是重要的?
方法:測量LLM對R路徑的概率偏好
R路徑概率定義:
P(R) = Π_{δ=1}^μ P(r̂(i_δ) | x_{<T_δ})
對比基準:
- 構造M條隨機路徑 R̃_κ(相同長度,從推理軌跡中隨機選擇,避免CCGraph節點)
- 計算排名:rank_M(R) = (1/M) Σ_{κ=1}^M I[P(R) > P(R̃_κ)]
結果(MATH500 split,圖4):
| 觀察 | 含義 |
|---|---|
| 100th百分位數的顯著峰值 | 對相當大比例的R路徑,P(R)極高 |
| 跨模型一致性 | 所有15個LLM在3個split上均顯示此現象 |
| 僅Llama 3.3 70B在AIME上例外 | 模型規模與難度可能存在交互 |
結論:LLM對CCGraph中的R路徑賦予顯著更高的概率 → LLM內部實現了類似CCGraph的結構。
五、統一解釋:為何隨機擾動與結構干預得出不同結論?
| 研究類型 | 方法 | 結論 | 解讀 |
|---|---|---|---|
| 隨機擾動研究 | 50%數字替換 | 性能不受影響 | 模型對「具體數值」魯棒,但可能對「結構」敏感 |
| 結構對齊干預(本研究) | Attention suppression on CCGraph nodes | 顯著增加不確定性 | 模型對「推理結構」敏感 |
統一假說:
LLM可能同時利用結構和記憶。隨機數字替換保留了問題的結構框架(需要哪些運算、運算順序),因此模型仍能「按圖索驥」;但當結構本身被破壞(屏蔽關鍵推理節點),模型就會迷失。
這類似於人類數學家:理解證明結構後,具體數字可以替換;但如果證明步驟本身被刪除,就無法完成證明。
六、方法論意義:為何CCGraph優於前人方法?
| 研究 | 規模 | 方法 | 局限 |
|---|---|---|---|
| Tan (2023) | 27個GSM8K | 手動標註因果圖 | 規模極小,無法統計驗證 |
| Lee et al. (2025) | 30個 | 豐富邊類型(計算、規劃、回溯) | 規模小,計算 prohibitive |
| Bogdan et al. (2025) | 10個 | rollout採樣、注意力聚合 | 注意力聚合不可靠rollout採樣計算 prohibitive |
| KisMATH(本研究) | 1671個 | 自動提取CCGraph + Attention Suppression | 可擴展、因果精確、結構感知 |
核心優勢:
- 自動化:無需人工標註,SymPy解析 + 圖遍歷算法自動提取
- 細粒度:節點級別(數學表達式)而非句子級別
- 因果精確:Attention suppression提供嚴格的因果干預
- 可擴展:1671個樣本,15個模型,3個難度級別
七、局限與未來方向
7.1 局限
| 局限 | 說明 |
|---|---|
| 數學領域局限 | 僅測試GSM8K、MATH500、AIME,未覆蓋編程、邏輯、科學推理 |
| 表達式解析挑戰 | LATEX錯誤、自然語言中斷需手動修正(~10%) |
| 圖論簡化 | 未捕捉規劃、回溯、反思等豐富邊類型(僅因果依賴) |
| 閉源模型覆蓋不足 | 主要測試開源模型,GPT-4o、Claude等未系統測試 |
| 靜態圖 | CCGraph從完整軌跡提取,未捕捉動態推理過程 |
7.2 未來方向
- 擴展到其他推理領域:編程(Codeforces)、邏輯(LSAT)、科學(物理推導)
- 動態CCGraph:隨著模型逐步生成token,實時更新因果結構
- 更豐富的邊類型:規劃邊(「首先...」)、回溯邊(「等等,我錯了」)、反思邊(「讓我驗證...」)
- 下游應用:
- 錯誤檢測:哪個推理節點導致了錯誤答案?
- 模型改進:利用CCGraph指導RL獎勵設計
- 可解釋性:為用戶提供結構化的推理可視化
八、核心結論
KisMATH為「LLM是否真正推理」這一爭議問題提供了迄今為止最嚴格的實證證據:
發現一:LLM確實進行因果推理
- 對推理節點的attention suppression顯著增加答案不確定性(p < 10⁻¹²)
- 推理節點是答案的因果中介,這是推理的構成性條件
發現二:LLM內部實現了隱式結構
- R路徑概率顯著高於隨機路徑(100th百分位數峰值)
- LLM具有對因果結構的隱式知識
發現三:結構化干預揭示隨機擾動無法捕捉的真相
- 隨機數字替換不破壞結構 → 性能不變
- 結構化節點抑制破壞推理 → 性能崩潰
- 結構是關鍵,數值是次要
哲學意涵
這項研究並未完全駁斥「近似檢索」論——LLM可能同時利用結構和記憶。但它證明了:
結構化推理是CoT提升性能的重要機制之一,而非純粹的裝飾。
當我們看到DeepSeek-R1在屏幕上「思考」時,它確實在進行某種形式的結構化因果推演——不是人類意識層面的「理解」,但也不是純粹的「背誦」。這是一種介於兩者之間的認知現象,而我們剛剛開始理解它的本質。
參考資料
- Saha S, Chaturvedi A, Saha S, Garain U, Asher N. KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning? arXiv:2507.11408v2 [cs.CL], 2026. Accepted to TACL.
- Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS. 2022;35:24824-24837.
- Guo D, Yang D, Zhang H, et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv. 2025;2501.12948.
- Kambhampati S. LLMs can't plan, but can help planning. SSRN. 2024.
- Li Y, Ildiz ME, Soltanolkotabi M, Oymak S. Transformers as algorithms: Generalization and implicit model selection in in-context learning. NeurIPS. 2025.
- Paul D, Loem M, Kumar M, et al. Making reasoning matter: Measuring and improving process supervision in LLMs via causal reasoning. EMNLP. 2024.
- Lanham T, Chen A, Blei D, et al. Measuring faithfulness in chain-of-thought reasoning. arXiv. 2023;2307.13748.
- Bogdan A, Zhang Z, Guo X, et al. Locating and editing factual associations in language models. ICML. 2025.
- Stechly K, Marquez M, Kambhampati S. GPT-4 doesn't know it's wrong: An analysis of iterative prompting for reasoning problems. arXiv. 2024.
- Tan Z. Causal reasoning in large language models: A graph-based approach. arXiv. 2023.
#LLM推理 #思維鏈 #因果推理 #數學推理 #CoT #可解釋AI #注意力機制 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。