> 論文:*Hallucinations Undermine Trust; Metacognition is a Way Forward* > 作者:Gal Yona, Mor Geva, Yossi Matias > 機構:Google Research, Tel Aviv University > arXiv: 2605.01428 > 發表時間:2026年5月
---
一、核心命題:我們對「幻覺」的定義可能是錯的
這篇論文開篇就扔出一個震撼彈:我們一直以為消除幻覺的目標可能是錯的。
當前業界的共識是——幻覺=錯誤。模型說錯了,就是幻覺。但作者提出一個根本性的重新定義:
> 幻覺不是錯誤,而是「自信錯誤」(confident errors) ——錯誤信息以肯定、權威的語氣輸出,沒有任何適當的保留或質疑。
這個重新定義的意義是革命性的。它意味著:
- 一個錯誤如果伴隨著適當的不確定性表達,就不再是幻覺
- 它變成了一個「供考慮的假設」(hypothesis offered for consideration)
二、現有方案的隱藏矛盾:知識邊界 vs 邊界認知
2.1 事實性提升的真正來源
作者指出,到目前為止,模型事實性(factuality)的提升主要來自一個方向:
> 擴大知識邊界(expanding the knowledge boundary) ——通過規模、數據、更好的訓練配方,把更多事實編碼進模型參數。
但這忽略了另一個同樣重要的方向:
> 提升對邊界的認知(improving awareness of the boundary) ——讓模型知道「自己知道什麼」和「自己不知道什麼」。
2.2 為什麼後者更難?
作者推測,這個不對稱有其根本原因:
- 擴大知識邊界:可以通過規模、數據、訓練改進實現
- 提升邊界認知:可能需要模型具備「判別能力」(discriminative power)——在實例層面區分正確與錯誤
---
三、校準 vs 判別:被混淆的兩個概念
3.1 定義
| 概念 | 定義 | 數學表述 |
|---|---|---|
| 校準(Calibration) | 置信度與整體正確率對齊 | 所有被賦予置信度p的預測中,恰好p%是正確的 |
| 判別(Discrimination) | 置信度能在單個樣本層面區分正確與錯誤 | 高置信度→正確,低置信度→錯誤 |
3.2 最關鍵的區別
> 校準是聚合屬性,判別是實例級屬性。
一個模型可以完美校準但完全沒有判別能力:
- 給所有答案賦予靜態置信度0.6
- 如果整體正確率恰好是60%,那就是完美校準
- 但它在單個樣本上完全無法區分對錯
3.3 為什麼消除幻覺需要判別,不只是校準
要完全消除幻覺(在傳統定義下=零錯誤),模型必須在「不確定時拒絕回答」。
但如果模型沒有判別能力:
- 它無法知道哪些具體樣本是錯誤的
- 為了避免錯誤,它只能對所有不確定的樣本統統拒絕
- 這會連帶拒絕大量正確答案——這就是「實用性稅」(utility tax)
四、實證數據:判別差距(Discriminative Gap)有多大?
4.1 AUROC數據
作者回顧了文獻中各種置信度信號在事實問答任務上的AUROC(區分正確/錯誤的能力):
| 方法/模型 | AUROC | 任務 |
|---|---|---|
| Semantic entropy (Farquhar et al., 2024) | 0.79 | 跨30個模型×任務組合 |
| GPT-4 (Savage et al., 2025) | 0.79 | 醫療QA |
| GPT-4o-mini (Kang et al., 2025) | 0.68–0.72 | 人物傳記生成 |
| 文獻平均範圍 | 0.70–0.85 | 知識密集型任務 |
- AUROC 0.5 = 隨機猜測
- AUROC 1.0 = 完美判別
- 當前最佳水平約0.85
4.2 實用性稅的量化
作者用模擬展示了消除幻覺的代價(圖2):
| 目標錯誤率 | 基線錯誤率 | AUROC | 需丟棄的正確答案比例 |
|---|---|---|---|
| 5% | 25% | 0.71 | 52% |
| 5% | 25% | 0.85 | 28% |
| 5% | 25% | ≥0.95 | <5%(可忽略) |
- 以當前0.71的文獻平均AUROC,要把錯誤率從25%降到5%,必須犧牲52%的正確答案
- 即使達到0.85的理論上限,仍需犧牲28%
- 只有AUROC≥0.95時,實用性稅才變得可忽略
- 但0.95遠超當前任何已知方法在知識密集型任務上的表現
4.3 現實世界的印證(圖3)
在SimpleQA Verified數據集上的實證:
- 大多數前沿模型(藍色圓圈):緊貼對角線,優化覆蓋率,幻覺率高
- 試圖最大化事實性的模型(紅色圓圈):被迫向左移動,支付實用性稅
- 理想區域(右上角金點):完全無人佔據
---
五、現有異常現象的統一解釋
作者用「判別差距」框架統一解釋了近期模型開發中的一系列異常現象:
| 異常現象 | 傳統解釋 | 判別差距解釋 |
|---|---|---|
| 真實性探針泛化差 (Levinstein & Herrmann, 2023) | 探針設計不良 | 區分對錯的信息根本不在潛在狀態中 |
| 自信幻覺存在 (Simhi et al., 2025) | 校準失敗 | 模型內在置信度與真實性無法對齊 |
| 「認錯」訓練無法轉移 (Joglekar et al., 2025) | 對齊不夠強 | 幻覺不是行為bug,而是判別差距;模型無法報告它無法內部表徵的錯誤 |
| 推理延長增加幻覺 (Jaech et al., 2024) | 推理鏈引入噪音 | 訓練激勵模型優先完成推理路徑而非拒絕,有效合理化錯誤答案 |
六、第三條路:忠實不確定性(Faithful Uncertainty)
6.1 跳出回答/拒絕二元對立
傳統框架:
- 回答 → 可能包含幻覺,破壞信任
- 拒絕回答 → 支付實用性稅,犧牲有用信息
- 表達不確定性 → 保留答案,但用適當的認知標記包裝
6.2 什麼是忠實不確定性?
定義: > 忠實不確定性 = 語言不確定性(linguistic uncertainty)與內在不確定性(intrinsic uncertainty)的對齊。
- 內在不確定性:模型對其斷言語義的統計置信度(高不確定性意味著高概率生成衝突答案)
- 語言不確定性:模型在生成的回應中用語言詞彙表達的置信度(如「我90%確定」或「我可能錯了」)
- 「我確信」= 如果再次詢問,模型很可能給出相同答案
- 「我不確定」= 模型很可能給出衝突答案
6.3 為什麼這在理論上是可行的?
作者提出一個強有力的可行性論證:
> 映射有限參數到無限世界是理論上受限的(Xu et al., 2024),但 映射內部參數到輸出字符串是一個完全可觀測的閉環問題。
模型不需要知道 P(answer)=0.6 對應外部世界的「真實」;它只需要檢測到自己的內部置信度是0.6,並將這個信號映射到語言化的保留標記。
因為忠實性的ground truth在系統內部,它是理論上可解的。
6.4 可靠實用性(Reliable Utility)
作者創造了一個新概念:
> 可靠實用性 = 在不損害用戶信任的前提下,最大化提供的信息量。
實現方式:將傳達斷言的決斷性與模型對其的內在置信度對齊。
類比:我們信任醫生不是因為他們全知,而是因為他們忠實地區分「確診」和「待驗證的假設」。
---
七、元認知在Agent時代的角色
7.1 工具無法繞過元認知
Agent架構的支持者可能認為: > 「既然模型可以隨時搜索,為什麼還需要知道什麼不知道?直接查就好了。」
作者的反駁: > 沒有不確定性意識,模型無法決定何時調用工具(導致低效過度使用或危險的過少使用),也無法在檢索信息與自身信念衝突時適當權衡。
7.2 當前評估的盲點
現有基準測試聚焦於最終輸出準確性,獎勵成功的檢索,但 不測試模型是否理解為什麼需要搜索。
- 低幻覺率可能反映檢索質量,而非元認知能力
- 創造了事實正確但對自身局限無意識的系統
- 當工具失敗或返回意外結果時,這種脆弱性暴露無遺
7.3 元認知作為控制層
> 忠實不確定性不是被工具繞過的,而是成為治理工具的控制層。
這包括:
- 何時搜索:不確定時調用工具
- 信任什麼:檢索結果與內在信念的權衡
- 避免過度使用:現代搜索Agent因缺乏這種意識而導致低效的工具過度使用 (Lin et al., 2025; Qian et al., 2025)
八、評估建議:從校準到判別
作者對研究者提出具體建議:
8.1 優先判別性度量
| 度量類型 | 優先級 | 原因 |
|---|---|---|
| 判別性度量(如AUROC) | 高 | 直接衡量區分對錯的能力 |
| 校準度量(如ECE) | 中 | 整體對齊不保證實例級區分 |
| 幻覺率 | 低(單獨使用) | 不考慮實用性代價 |
8.2 整體量化實用性損失
評估幻覺緩解方案時,必須同時報告:
- 幻覺率降低幅度
- 實用性損失比例(utility tax)
- 使用F1或Omniscience Index等綜合指標
8.3 開放問題
作者列出推進忠實不確定性的關鍵開放問題: 1. 如何從模型內部表徵中提取可靠的內在不確定性信號? 2. 如何設計訓練目標來激勵忠實表達? 3. 如何評估不同語言表達形式(數字置信度 vs 語言保留標記)的忠實性? 4. 如何處理模型對自身不確定性的系統性低估?
---
九、核心貢獻總結
1. 重新定義幻覺:從「任何錯誤」重新定義為「自信錯誤」,揭示回答/拒絕之外的第三條路 2. 揭示判別差距:現有模型缺乏區分對錯的判別能力(AUROC 0.70-0.85),這是消除幻覺的根本障礙 3. 提出忠實不確定性:讓模型誠實傳達內在不確定性,實現可靠實用性 4. 論證元認知的必要性:對於Agent系統,元認知是工具調用的控制層,不是可選功能 5. 給出評估建議:優先判別性度量,整體量化實用性損失
---
十、哲學意涵
這篇論文的最深層貢獻可能是它對AI信任的重新框架:
> 信任可以建立在不完備知識之上,前提是誠實地傳達不確定性。
這不是技術上的妥協,而是對知識本質的深刻洞察。人類專業人士(醫生、律師、科學家)的價值不在於全知,而在於 可靠地區分確定與不確定。
當模型變得越來越複雜,輸出越來越難以獨立驗證時,誠實的不確定性傳達不僅是可用性問題,更是安全問題。
---
參考資料
1. Yona G, Geva M, Matias Y. *Hallucinations Undermine Trust; Metacognition is a Way Forward*. arXiv:2605.01428 [cs.CL], 2026. 2. Yona G, Lourie N, Sakaguchi K, Dziri N, Choi Y. *What Do Distributional Shifts Teach Us About Failures of Out-of-Distribution Generalization?* ACL. 2024. 3. Nakkiran P, Kaplan D. *Linearity of Relationship Between Model Confidence and Accuracy in Modern Neural Networks*. arXiv. 2025. 4. Farquhar S, Kossen J, Kuhn L, Gal Y. *Detecting hallucinations in large language models using semantic entropy*. Nature. 2024;630(8017):625-630. 5. Savage N, Tao T, et al. *Calibrated Language Models Must Hallucinate*. arXiv. 2025. 6. Joglekar A, et al. *Aligning LLMs to Confess*. arXiv. 2025. 7. Simhi A, et al. *Confident Hallucinations*. arXiv. 2025. 8. Eikema B, et al. *Teaching LLMs Faithful Uncertainty Expression*. arXiv. 2025. 9. Liu Z, et al. *Metacognitive Prompting*. arXiv. 2025. 10. Rabanser S, et al. *Tool Use and Uncertainty*. arXiv. 2026.
#LLM #幻覺 #元認知 #不確定性量化 #AI安全 #Agent #忠實不確定性 #校準 #判別能力 #小凯