Loading...
正在加载...
请稍候

Operadic Consistency:用高等数学检测AI推理的内部矛盾

✨步子哥 (steper) 2026年06月13日 17:27

一个简单的问题

问一个LLM:"埃菲尔铁塔在哪个国家?"它回答"法国"。

再问它两个子问题:"埃菲尔铁塔在哪个城市?"→"巴黎"。"巴黎在哪个国家?"→"法国"。

两个子答案组合起来,和直接回答一致。这很正常。

但有时候,LLM直接回答"法国",子问题却回答"巴黎"和"德国"。子答案组合出"德国",和直接回答矛盾。这说明什么?模型的推理内部不一致——它不是真的在"推理",而是在"编"。

这个简单的检查,就是Operadic Consistency(算子一致性,OC)的核心思想。而它的数学基础,是代数拓扑中的算子理论(Operad Theory)

从直觉到数学:什么是算子?

算子(Operad)是数学中描述"组合系统"的形式化工具。它的核心问题是:多个输入的操作如何组合成更大的操作?

举个烹饪的类比:

  • "炒鸡蛋"是一个操作,输入是{鸡蛋,油,盐}
  • "做三明治"是另一个操作,输入是{面包,生菜,炒鸡蛋}
  • "做三明治"可以嵌入"炒鸡蛋"——把"炒鸡蛋"的输出作为"做三明治"的一个输入

算子理论精确地描述了这种"操作嵌套操作"的结构。

在LLM推理中:

  • 一个"问题模板"就是一个操作,输入是待填的空位
  • "分解"就是把复杂问题拆成子问题,再把子答案组合回来
  • 算子一致性就是检查:直接回答和分解后组合的回答是否一致

论文定义了问题算子Q:操作对应问题模板(带空位),组合对应子问题分解。语言模型被解释为Q上的代数——它给每个问题模板填空,给每个分解组合答案。

为什么OC比现有方法更强?

现有的推理失败检测方法主要有三类:

  1. 自一致性(Self-Consistency):多次采样,看答案是否一致。问题:一个模型可能每次都自信地给出同一个错误答案。
  2. 语义熵(Semantic Entropy):计算答案的语义多样性。问题:只看输出的多样性,不看推理的结构。
  3. P(True):问模型"你觉得你对吗?"。问题:模型可能自信地错。

OC的独特之处:它检查的是推理的内部结构,而不是输出的表面特征。一个模型可以表面上很一致(每次都给同样的错误答案),但如果它的子推理组合不起来,OC就能抓住这个矛盾。

用侦探的类比:自一致性是"问嫌疑人三次同样的问题看回答是否一致";语义熵是"看嫌疑人给出了多少种不同的说法";P(True)是"问嫌疑人'你觉得你在说真话吗?'";而OC是"把嫌疑人的证词拆开,看细节能不能互相印证"。

实验结果:跨模型、跨数据集的强信号

论文在5个组合推理基准上测试了17个模型(12个指令微调LLM + 5个前沿思维模型):

OC与准确率的相关性:在4个多跳QA数据集上,OC率与准确率的Pearson相关系数r ∈ [0.86, 0.94](所有p ≤ 0.0004)。这是唯一一个在所有4个数据集上r ≥ 0.85的信号

作为对比,思维链自一致性(CoT-SC)在HotpotQA和DROP上表现不错(r = 0.93, 0.87),但在MuSiQue和StrategyQA上暴跌到r ≈ 0.45。

逐问题互补性:在控制了CoT-SC和语义熵之后,OC仍然提供显著的额外信息(cluster-robust p ≤ 10⁻¹⁶)。即使和专门设计的"分解感知"基线对比,结论依然成立(p ≤ 10⁻¹³)。

选择性预测:在等成本预算(K=3)下,OC相比调优过的CoT-SC基线,AUARC提升+0.086到+0.096,AUROC提升+0.092到+0.164,95%置信区间都不包含零。

思维模型:在5个前沿思维模型上,从模型自己的思维链中提取分解,等成本比较下,16个(数据集, 预算, 指标)单元全部给出正向提升,其中12个的95%置信区间不包含零。

跨模型准确率预测:OC率可以用来预测未见模型的准确率——留一法下,用其他11个模型拟合线性回归,预测被留出模型的准确率,平均绝对误差仅3.0个百分点。而CoT-SC(K=10,10次推理调用)的误差是4.6个百分点,且呈现双峰模式。

为什么这很重要?

OC揭示了一个深层的洞察:LLM推理失败往往不是随机的,而是结构性的

当一个模型在子问题推理中自相矛盾时,这不是"偶尔犯错",而是它的推理过程根本就没有在"组合"。它在直接回答和分解回答中走了两条不同的路,两条路互不通信。

这和人类认知中的"双系统理论"有异曲同工之妙:系统1(直觉)和系统2(分析)可能给出不同答案。OC检测的就是AI的"系统1和系统2不一致"。

更重要的是,OC不需要任何标注——不需要知道正确答案是什么,只需要检查模型自己的回答是否内部自洽。这使得它在实际部署中几乎零成本:3次推理调用(1次直接+2次子问题),就能得到一个比10次采样自一致性更强的信号。

诚实评价

OC目前只在组合推理任务上验证(多跳QA、数学应用题),在开放式生成任务上的适用性还不清楚。不是所有问题都有自然的分解结构。

OC也有假阳性和假阴性:模型可能OC一致但答案错误(自信地错),也可能OC不一致但答案正确(走了不同的有效推理路径)。论文坦诚地展示了这些案例。

算子理论的数学框架目前只用到了深度2的分解(一层子问题),更深层的树状分解还有待探索。但作为第一步,OC已经展示了一个令人信服的信号:检查推理的内部结构,比检查推理的表面特征更有效


论文: Operadic consistency: a label-free signal for compositional reasoning failures in LLMs
代码: https://github.com/natebottman/operadic-consistency-paper
作者: Nathaniel Bottman (Incubilate), Yinhong Liu (Cambridge), Kyle Richardson (Allen AI)
领域: LLM Reasoning, Uncertainty Quantification, Mathematical Foundations

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录