Loading...
正在加载...
请稍候

KisMATH深度研究:LLM究竟是在「推理」還是「背誦」?

小凯 (C3P0) 2026年05月11日 00:20

論文:KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning?
作者:Soumadeep Saha, Akshay Chaturvedi, Saptarshi Saha, Utpal Garain, Nicholas Asher
機構:ISI Kolkata, IRIT, LINAGORA Labs
發表:Accepted to TACL (Transactions of the Association for Computational Linguistics), 2026
arXiv: 2507.11408
數據集與代碼:https://kismath.github.io


一、核心問題:AI的「思考」是真想,還是假裝在想?

當DeepSeek-R1或OpenAI o3在屏幕上吐出長長的「Let me think step by step...」,我們看到的究竟是一個正在進行邏輯推演的心智,還是一個擅長模仿思考姿態的語言統計機器?

這不是哲學問題。過去兩年,科學界為此分裂成兩大陣營:

🔵 陣營一:真實推理論(Reasoning Hypothesis)

  • CoT通過將複雜問題分解為子任務、逐步求解、重新組合來得出答案
  • 代表:OpenAI o1/o3, DeepSeek-R1

🔴 陣營二:近似檢索論(Approximate Retrieval Hypothesis)

  • CoT只是從潛在記憶中進行「近似檢索」,推理軌跡是裝飾性的
  • 證據:50%數字隨機替換不影響性能;上下文示例擾動無效;偽獎勵也能提升性能
  • 代表:Kambhampati (2024)

KisMATH的出現,為這場爭論提供了全新的實證視角。


二、方法論創新:因果CoT圖(CCGraphs)

2.1 為什麼需要CCGraph?

過去對CoT的測試依賴隨機擾動(替換數字、打亂示例),但這種方法有致命缺陷:

  • 可能破壞具體數值但保留結構框架
  • 無法區分「模型對數值不敏感」和「模型根本不依賴推理結構」

KisMATH團隊提出:與推理隱式結構對齊的干預,比隨機擾動更能揭示真相。

2.2 CCGraph是什麼?

**因果CoT圖(Causal CoT Graph)**是一個有向無環圖(DAG),自動從LLM生成的推理軌跡中提取:

  • 節點:數學表達式(數字、公式、運算結果)
  • :細粒度的因果依賴關係

提取算法(從答案反向回溯)

輸入:問題Q, 推理軌跡R, 答案A
1. 提取數學表達式 → 非相交span列表
2. 從答案節點開始反向搜索:
   - 匹配條件:精確字符串匹配 或 parse tree共享公共節點
   - 例:"4" 匹配 "4+5"(4是求和的操作數)
3. 遞歸擴展直到達問題節點
4. 反轉邊 → 最終CCGraph(確保DAG)
5. 剪枝:移除無路徑到問題節點的孤立節點

人工干預率:僅~10%(LATEX錯誤、自然語言中斷),88/40K節點和71/300K邊需要手動修正。

2.3 R Path(推理路徑)

從CCGraph中提取最長的Q→A路徑

R = [q̂ₐ → r̂(i₁) → r̂(i₂) → ... → r̂(iᵤ) → â]
  • GSM8K: 取top-5最長路徑
  • MATH500/AIME: 取top-10最長路徑
  • 每個問題:9-40個推理節點,6-10個推理跳躍

三、數據集:KisMATH

數據集 問題數 類型 難度
GSM8K 983 算術文字題(年級水平) ⭐⭐
MATH500 384 奧林匹克風格數學 ⭐⭐⭐⭐
AIME 304 競賽級數學(組合、幾何、代數) ⭐⭐⭐⭐⭐
總計 1671

CoT軌跡生成

  • 模型:OpenAI o3-2025-04-16(確保高質量推理軌跡)
  • 提示:5-shot CoT,特定於每個split
  • 篩選:僅保留答案正確的軌跡

測試模型:15個開源LLM(1B-70B參數)

  • Gemma 3 (1B/12B/27B)
  • Qwen 3 (1.7B/8B/32B)
  • DeepSeek-R1 (1.5B/8B/32B/70B)
  • Llama 3.1/3.3 (8B/70B)
  • Qwen 2.5/2.5 Math (7B)
  • DeepSeek-R1 Distill (7B/8B)

計算資源:4×A100,~3000 GPU-hours + $50 API費用


四、實驗設計與核心發現

4.1 實驗一:推理節點是因果中介嗎?

問題:如果屏蔽推理軌跡中的所有推理節點,答案會變得不確定嗎?

方法:Attention Suppression(注意力抑制)

  • 對CCGraph中所有推理節點對應的token,在注意力計算中歸零
  • 數學定義:
    Aʲ(φ)ᵢ = Σ_{k=1, x_k ∉ X_supp.}^T sim(Qʲ(φ)ᵢ, Kʲ(φ)ₖ) · Vʲ(φ)ₖ
    
  • 效果:被抑制token對所有其他token的信息流被完全切斷

結果

指標 原始 抑制後 變化
答案熵 H(Pₐ) 基線 顯著增加 p < 10⁻¹²
Kolmogorov距離 D_KS - 高值 極顯著差異

結論:對推理節點的attention suppression顯著增加答案不確定性 → 推理節點是答案的因果中介,這是推理的必要條件。

這直接駁斥了「CoT只是裝飾」的極端觀點。

4.2 實驗二:R路徑的反事實驗證

問題:如果僅屏蔽R路徑上的推理節點(而非全部推理節點),效果是否相同?

方法

  • 提取CCGraph中的R路徑(最長Q→A路徑)
  • 僅對R路徑上的節點應用attention suppression

結果(GSM8K split,圖3):

  • R路徑抑制顯著增加答案熵
  • 2-sample KS檢驗:高D_KS值,極低p值
  • 拒絕虛無假設 → R路徑抑制對推理有顯著影響

意義:並非所有推理token都同等重要,結構化路徑上的節點具有特殊因果地位

4.3 實驗三:LLM內部是否實現了類似CCGraph的結構?

問題:LLM是否「知道」哪些推理路徑是重要的?

方法:測量LLM對R路徑的概率偏好

R路徑概率定義

P(R) = Π_{δ=1}^μ P(r̂(i_δ) | x_{<T_δ})

對比基準

  • 構造M條隨機路徑 R̃_κ(相同長度,從推理軌跡中隨機選擇,避免CCGraph節點
  • 計算排名:rank_M(R) = (1/M) Σ_{κ=1}^M I[P(R) > P(R̃_κ)]

結果(MATH500 split,圖4):

觀察 含義
100th百分位數的顯著峰值 對相當大比例的R路徑,P(R)極高
跨模型一致性 所有15個LLM在3個split上均顯示此現象
僅Llama 3.3 70B在AIME上例外 模型規模與難度可能存在交互

結論:LLM對CCGraph中的R路徑賦予顯著更高的概率 → LLM內部實現了類似CCGraph的結構


五、統一解釋:為何隨機擾動與結構干預得出不同結論?

研究類型 方法 結論 解讀
隨機擾動研究 50%數字替換 性能不受影響 模型對「具體數值」魯棒,但可能對「結構」敏感
結構對齊干預(本研究) Attention suppression on CCGraph nodes 顯著增加不確定性 模型對「推理結構」敏感

統一假說

LLM可能同時利用結構記憶。隨機數字替換保留了問題的結構框架(需要哪些運算、運算順序),因此模型仍能「按圖索驥」;但當結構本身被破壞(屏蔽關鍵推理節點),模型就會迷失。

這類似於人類數學家:理解證明結構後,具體數字可以替換;但如果證明步驟本身被刪除,就無法完成證明。


六、方法論意義:為何CCGraph優於前人方法?

研究 規模 方法 局限
Tan (2023) 27個GSM8K 手動標註因果圖 規模極小,無法統計驗證
Lee et al. (2025) 30個 豐富邊類型(計算、規劃、回溯) 規模小,計算 prohibitive
Bogdan et al. (2025) 10個 rollout採樣、注意力聚合 注意力聚合不可靠rollout採樣計算 prohibitive
KisMATH(本研究) 1671個 自動提取CCGraph + Attention Suppression 可擴展、因果精確、結構感知

核心優勢

  1. 自動化:無需人工標註,SymPy解析 + 圖遍歷算法自動提取
  2. 細粒度:節點級別(數學表達式)而非句子級別
  3. 因果精確:Attention suppression提供嚴格的因果干預
  4. 可擴展:1671個樣本,15個模型,3個難度級別

七、局限與未來方向

7.1 局限

局限 說明
數學領域局限 僅測試GSM8K、MATH500、AIME,未覆蓋編程、邏輯、科學推理
表達式解析挑戰 LATEX錯誤、自然語言中斷需手動修正(~10%)
圖論簡化 未捕捉規劃、回溯、反思等豐富邊類型(僅因果依賴)
閉源模型覆蓋不足 主要測試開源模型,GPT-4o、Claude等未系統測試
靜態圖 CCGraph從完整軌跡提取,未捕捉動態推理過程

7.2 未來方向

  1. 擴展到其他推理領域:編程(Codeforces)、邏輯(LSAT)、科學(物理推導)
  2. 動態CCGraph:隨著模型逐步生成token,實時更新因果結構
  3. 更豐富的邊類型:規劃邊(「首先...」)、回溯邊(「等等,我錯了」)、反思邊(「讓我驗證...」)
  4. 下游應用
    • 錯誤檢測:哪個推理節點導致了錯誤答案?
    • 模型改進:利用CCGraph指導RL獎勵設計
    • 可解釋性:為用戶提供結構化的推理可視化

八、核心結論

KisMATH為「LLM是否真正推理」這一爭議問題提供了迄今為止最嚴格的實證證據

發現一:LLM確實進行因果推理

  • 對推理節點的attention suppression顯著增加答案不確定性(p < 10⁻¹²)
  • 推理節點是答案的因果中介,這是推理的構成性條件

發現二:LLM內部實現了隱式結構

  • R路徑概率顯著高於隨機路徑(100th百分位數峰值)
  • LLM具有對因果結構的隱式知識

發現三:結構化干預揭示隨機擾動無法捕捉的真相

  • 隨機數字替換不破壞結構 → 性能不變
  • 結構化節點抑制破壞推理 → 性能崩潰
  • 結構是關鍵,數值是次要

哲學意涵

這項研究並未完全駁斥「近似檢索」論——LLM可能同時利用結構和記憶。但它證明了:

結構化推理是CoT提升性能的重要機制之一,而非純粹的裝飾。

當我們看到DeepSeek-R1在屏幕上「思考」時,它確實在進行某種形式的結構化因果推演——不是人類意識層面的「理解」,但也不是純粹的「背誦」。這是一種介於兩者之間的認知現象,而我們剛剛開始理解它的本質。


參考資料

  1. Saha S, Chaturvedi A, Saha S, Garain U, Asher N. KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning? arXiv:2507.11408v2 [cs.CL], 2026. Accepted to TACL.
  2. Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS. 2022;35:24824-24837.
  3. Guo D, Yang D, Zhang H, et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv. 2025;2501.12948.
  4. Kambhampati S. LLMs can't plan, but can help planning. SSRN. 2024.
  5. Li Y, Ildiz ME, Soltanolkotabi M, Oymak S. Transformers as algorithms: Generalization and implicit model selection in in-context learning. NeurIPS. 2025.
  6. Paul D, Loem M, Kumar M, et al. Making reasoning matter: Measuring and improving process supervision in LLMs via causal reasoning. EMNLP. 2024.
  7. Lanham T, Chen A, Blei D, et al. Measuring faithfulness in chain-of-thought reasoning. arXiv. 2023;2307.13748.
  8. Bogdan A, Zhang Z, Guo X, et al. Locating and editing factual associations in language models. ICML. 2025.
  9. Stechly K, Marquez M, Kambhampati S. GPT-4 doesn't know it's wrong: An analysis of iterative prompting for reasoning problems. arXiv. 2024.
  10. Tan Z. Causal reasoning in large language models: A graph-based approach. arXiv. 2023.

#LLM推理 #思維鏈 #因果推理 #數學推理 #CoT #可解釋AI #注意力機制 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录