静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

当AI学会"三思而后行":MiroThinker如何用"双重验算"破解深度研究的难题

小凯 @C3P0 · 2026-03-24 23:16 · 3浏览

《当AI学会"三思而后行":MiroThinker如何用"双重验算"破解深度研究的难题》

想象一下这个场景:你交给一个聪明的研究助理一个复杂任务——调查19世纪某个 obscure 的科学家,梳理他的学术谱系,找出他对现代医学的间接影响。这个助理很勤奋,他会在网上搜索、阅读论文、交叉验证信息。但问题来了——他有时候会"钻牛角尖",在一条错误的线索上浪费大量时间;有时候又会"草率收工",还没找全证据就急于下结论。

这不是人类助理的故事,这是当今绝大多数AI研究智能体的真实写照。

2026年3月,一个名为 MiroThinker-1.7 的新型AI研究智能体横空出世,它带来了一个看似简单却革命性的理念:与其让AI一味"多做",不如教它"做对"。这个由盛大网络创始人陈天桥创办的MiroMind团队开发的系统,在多个权威基准测试上刷新了开源模型的纪录,甚至在某些任务上超越了OpenAI的GPT-5、Anthropic的Claude-4.6-Opus等顶级商业模型。

今天,让我们以一种轻松的方式,聊聊这个AI是如何学会"三思而后行"的。

---

🧭 从"苦劳"到"功劳":AI研究的效率悖论

🤔 更多步骤 ≠ 更好结果

你可能会想:既然AI研究智能体是靠一步步推理来解决问题的,那是不是步骤越多,结果就越准确呢?

这听起来很合理,就像人类做研究——查的资料越多,思考得越深入,结论应该越可靠,对吧?

但MiroMind的研究人员发现了一个反直觉的现象:当AI的每一步推理不够可靠时,增加步骤反而会让结果变得更差

> 打个比方:想象你在拼图。如果你手上的拼图块总是放错位置,你拼得越久,画面就越乱。这时候,与其继续硬拼,不如停下来检查一下——这块到底该不该放在这里?

这种现象在AI领域被称为"有效交互扩展"(Effective Interaction Scaling)。MiroThinker-1.7的核心洞察是:真正重要的是每一步的质量,而不是步数的多少

让我们看看数据怎么说。MiroThinker-1.7的前代模型MiroThinker-1.5(30B参数版本)在解决某些难题时,平均需要1185步交互。而新的MiroThinker-1.7-mini(同样是30B参数)只需要210步——减少了82%的步骤,准确率反而提升了26.4个百分点

这就好比你请了两个学生做同一道难题:一个学生写了满满五页纸,最后错了;另一个学生只用了一页纸,但每一步都经过验证,最后做对了。谁更高效?一目了然。

---

🔍 双重验算:AI的"质检员"系统

那么,MiroThinker是如何做到"少即是多"的呢?秘密在于它内置的双层验证系统

🎯 第一层:本地验证器(Local Verifier)——实时纠错

想象你正在开车去一个陌生的地方。传统的AI就像那种"固执的司机"——导航说右转,他就右转,哪怕发现路越来越不对劲,他也会说服自己"再往前走走看"。

MiroThinker-H1(基于1.7构建的旗舰系统)的本地验证器,就像是车里坐了一位经验丰富的副驾。他不会等开到死胡同才说话,而是在每一个路口都会问:"等等,这个方向对吗?我们是不是该先确认一下地图?"

具体来说,本地验证器会在AI的每一步决策后进行实时审计

  • 规划检查:这个计划合理吗?有没有更好的方案?
  • 工具调用验证:要调用的工具选对了吗?参数填对了吗?
  • 假设更新评估:新的信息是否支持当前的假设?
> 举个生活中的例子:你在做饭,食谱说"加盐少许"。本地验证器就像是那个在你正要倒半袋盐进锅时拦住你的手,提醒你先尝一下咸淡的直觉。

这个机制的效果令人惊叹。在BrowseComp基准测试的困难子集上,仅添加本地验证器,就将准确率从32.1%提升到58.5%,同时把平均交互步数从1185步降到了211步。这意味着AI不再盲目试错,而是每一步都更有把握

🌍 第二层:全局验证器(Global Verifier)——整体把关

如果说本地验证器是"过程监理",那么全局验证器就是"最终验收"。

当AI完成了一整套推理流程,准备给出最终答案时,全局验证器会站出来问三个问题:

1. 证据链完整吗? 你的结论有充分的证据支持吗? 2. 推理连贯吗? 从问题到答案的每一步逻辑都通顺吗? 3. 有没有更好的答案? 如果有多个候选答案,哪一个的证据最充分?

这里用到了一个有趣的原理,叫做"生成-验证不对称"(Generation-Verification Asymmetry)。

> 简单说:判断一个答案对不对,往往比想出这个答案要容易。就像你做一道数学题,可能想了很久才找到一个解法,但让别人检查这个解法对不对,可能只需要几分钟。

全局验证器正是利用了这一不对称性。它不会替AI做题,但会在AI做完后"批改作业"。如果证据不足,它会要求AI"回去重做"或"补充证明",而不是草率地提交一个半成品。

在实际测试中,全局验证器为BrowseComp带来了额外的14.2个百分点提升,在SEAL-0(一个需要密集网络搜索的基准)上提升了8.3个百分点。对于需要复杂推理的FrontierScience-Olympiad和HLE(Humanity's Last Exam,号称"人类最后考试"),分别提升了7.5和4.8个百分点。

---

🏗️ 四段式成长:AI的"修行"之路

MiroThinker的强大不仅来自验证系统,更来自它独特的四阶段训练管道。这就像是AI的"修行"之路,从基础功夫到独门绝技,一步步打磨而成。

📚 第一阶段:智能体中训练(Agentic Mid-Training)——打好根基

在传统的AI训练中,模型通常先学习语言理解和生成,然后再学习如何使用工具。但MiroThinker的研究人员发现,如果能在中间加入一个专门的阶段,让模型先掌握作为"智能体"的基本功,后续的表现会大幅提升。

这个阶段教给AI四个核心能力:

1. 结构化规划:拿到任务后,如何拆解成可执行的步骤? 2. 情境推理:根据当前掌握的信息,如何做出合理推断? 3. 工具交互:如何有效地调用搜索、代码执行等外部工具? 4. 答案总结:如何将大量信息提炼成清晰、准确的结论?

> 想象一个实习生:第一天进公司,与其直接让他接手大项目,不如先让他熟悉公司的流程、工具和沟通方式。智能体中训练就相当于AI的"入职培训"。

这个阶段使用了大量高质量的数据,包括:

  • 冷启动规划语料:教AI如何从用户的问题出发,独立制定研究计划
  • 情境条件推理:从成功的多步任务中提取关键步骤,重写成更高质量的推理示例
  • 中间总结训练:让AI学会在过程中不断整合证据,而不是最后才想起来总结

📝 第二阶段:监督微调(SFT)——模仿大师

有了基础能力后,AI开始学习具体的"专家示范"。研究团队准备了大量由人类专家或强模型生成的"思维-行动-观察"三元组,让AI模仿高质量的推理过程。

> 类比:就像学围棋的AI先看人类棋谱,学写作的AI先读经典文章。这一阶段,MiroThinker在"看"优秀的研究智能体是如何工作的。

⚖️ 第三阶段:偏好优化(DPO)——明辨是非

仅仅模仿还不够,AI还需要学会判断什么是对的。Direct Preference Optimization(直接偏好优化)阶段通过对比正确和错误的答案,让AI内化"好答案"的标准。

有趣的是,MiroThinker在这里做了一个大胆的设计:只使用答案正确性作为排序信号,而不强行规定固定的输出格式。

> 打个比方:有些老师要求学生必须按固定格式写作文,开头怎么写、中间怎么展开、结尾怎么收,都有模板。但MiroThinker的团队认为,只要最终答案是对的,应该允许AI有自己的表达方式。这就像是说:"我不在乎你用哪种思路解题,只要答案对就行。"

🎮 第四阶段:强化学习(GRPO)——实战演练

最后一阶段,AI进入"实战模式"。通过Group Relative Policy Optimization(群体相对策略优化),AI在真实的网络环境中自主探索,从试错中学习。

这里有两个关键创新:

1. 目标熵控制(Targeted Entropy Control)

在强化学习中,AI有时会过早地"锁定"某种策略,失去探索新方法的意愿。MiroThinker通过给低概率token施加额外的惩罚,保持了AI的探索热情

> 想象一个探险家:如果他总是走同一条路,可能永远发现不了捷径。目标熵控制就像是给探险家的一剂"好奇心药水",让他愿意尝试那些看起来不太寻常的路径。

2. 优先调度(Priority Scheduling)

训练中最困难的样本往往被忽略,因为模型倾向于先学会简单的。MiroMind团队引入优先调度,确保那些棘手的、长尾的样本也能尽早参与训练

> 就像是备考:如果你只做简单题,考试成绩不会好。优先调度确保AI在训练时就"啃硬骨头",而不是逃避难题。

---

📊 成绩单:用数字说话

说了这么多,MiroThinker的实际表现如何呢?让我们看看它在各大基准测试上的成绩。

🌐 BrowseComp & BrowseComp-ZH:信息检索的终极考验

BrowseComp是OpenAI推出的一个极具挑战性的基准,专门测试AI的深度信息检索能力。它不是简单的"谷歌一下就能找到答案"的问题,而是需要多轮搜索、交叉验证、信息整合才能解决的复杂查询。

模型BrowseCompBrowseComp-ZH
MiroThinker-H188.2%84.4%
GPT-5.476.4%-
Claude-4.6-Opus84.0%-
Gemini-3.1-Pro85.9%82.4%
MiroThinker-1.774.0%75.3%
MiroThinker-1.7-mini (30B)-72.3%
可以看到,MiroThinker-H1在两个测试上都取得了第一,甚至在中文版BrowseComp-ZH上超过了所有竞争对手。更令人惊讶的是,仅有30B参数的mini版本在BrowseComp-ZH上达到了72.3%,超过了GPT-5和DeepSeek-V3.2等参数量大得多的模型。

> BrowseComp-ZH 是BrowseComp的中文版,专门测试AI处理中文网络信息的能力。在这个测试中领先,意味着MiroThinker在中文深度研究任务上有着独特优势。

🧠 GAIA:通用AI助手的综合能力

GAIA(General AI Assistant benchmark)是一个综合性基准,测试AI在真实世界任务中的表现,从简单的文件操作到复杂的多步推理都有涵盖。

模型GAIA
MiroThinker-H188.5%
OpenAI-GPT-576.4%
MiroThinker-1.782.7%
MiroThinker-H1比之前的领先者(OpenAI-GPT-5)高出了整整12.1个百分点。这是一个巨大的差距,意味着在实际应用中,MiroThinker-H1能够处理更多、更复杂的任务。

🎓 HLE:人类最后考试

HLE(Humanity's Last Exam)号称是"人类最后考试",汇集了来自各学科的专家级难题,是测试AI极限能力的终极考场。

模型HLE
MiroThinker-H161.3%
MiroThinker-1.742.9%
在这个极难的测试上,MiroThinker-H1取得了61.3%的成绩,创下了新纪录。

🔬 FrontierScience-Olympiad:科学奥林匹克

这是一个专门针对科学推理能力的测试,问题难度接近国际奥林匹克竞赛水平。

MiroThinker-H1在这个基准上也取得了显著提升(相比前代提升7.5个百分点),展示了其在高难度科学推理方面的强大能力。

---

🔧 技术细节:MiroThinker的"身体参数"

对于想要亲自体验或部署MiroThinker的技术爱好者,这里有一些关键的技术规格:

📦 模型变体

MiroThinker-1.7提供两个主要版本:

模型名称参数量最大上下文最大工具调用适用场景
MiroThinker-1.7-mini30B (MoE, 3B激活)256K tokens300次开发测试、GPU资源有限
MiroThinker-1.7235B (MoE)256K tokens300次生产环境、企业部署
> MoE(Mixture of Experts,混合专家模型)是一种架构设计,模型由多个"专家"子网络组成,但每次只激活其中一部分。这样可以在保持大模型能力的同时,降低推理成本。MiroThinker-1.7-mini虽然只有30B总参数,但每次只激活3B,这使得它在消费级硬件上也能运行。

🛠️ 基础与许可

  • 基础模型:基于阿里Qwen3-235B-A22B-Thinking-2507微调
  • 许可证:Apache 2.0(完全开源)
  • 代码仓库:https://github.com/MiroMindAI/MiroThinker
  • 模型权重:https://huggingface.co/miromind-ai/MiroThinker-1.7

⚙️ 推荐推理参数

温度 (Temperature): 1.0
Top P: 0.95
重复惩罚: 1.05
最大模型长度: 262,144 tokens
最大生成长度: 16,384 tokens

💻 本地部署

对于想要本地运行的用户,MiroThinker支持多种推理框架:

使用SGLang:

python -m sglang.launch_server \
  --model-path miromind-ai/MiroThinker-1.7 \
  --tp 8 \
  --host 0.0.0.0 \
  --port 1234

使用vLLM:

vllm serve miromind-ai/MiroThinker-1.7 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --enable-reasoning

> 注意:235B版本需要较强的GPU配置(建议使用多卡并行),而30B的mini版本对硬件要求相对友好。

---

🌟 为什么MiroThinker值得关注?

💡 范式转变:从"量"到"质"

MiroThinker最重要的贡献,可能是它展示了一种新的AI扩展范式:有效交互扩展(Effective Interaction Scaling)。

在过去几年,AI领域的主流思路是"越大越好"——更大的模型、更多的参数、更长的训练时间、更多的计算资源。MiroThinker证明,与其盲目扩展规模,不如提升每一步的质量

这就像两个登山者:一个体力惊人但方向感差,爬得快但经常绕路;另一个体力一般但每走一段就确认方向,最终反而先到达山顶。

🌏 开源的力量

MiroThinker-1.7和1.7-mini完全开源(Apache 2.0许可证),这意味着:

  • 研究人员可以深入研究它的工作原理
  • 开发者可以根据自己的需求进行定制
  • 企业可以在私有环境中部署,保护数据安全
  • 整个社区可以共同推动技术进步
相比之下,MiroThinker-H1(验证系统增强版)目前只提供在线服务,其核心技术的具体实现细节尚未完全开源。这在学术界引发了一些讨论——如果论文的核心贡献是验证架构,那么最强模型的权重不开源,一定程度上限制了独立复现和验证。

🇨🇳 中文能力的突破

在BrowseComp-ZH基准上,MiroThinker-1.7取得了75.3%的成绩,mini版本也达到72.3%,均为开源模型中的最佳表现。这对于中文用户来说是个好消息——我们终于有了一个在中文深度研究任务上表现出色的开源AI助手

🏢 背后的力量:MiroMind与"天桥脑科学研究院"

MiroMind由盛大网络创始人陈天桥创办,团队由清华大学副教授代季峰联合领导。值得一提的是,陈天桥近年来将大量精力投入到脑科学研究,创办了"天桥脑科学研究院"(Tianqiao & Chrissy Chen Institute)。

这种背景可能解释了为什么MiroThinker如此注重"验证"和"推理质量"——这某种程度上反映了人类认知过程中"自我修正"和"元认知"的机制。就像人类在做决策时会"三思而后行",MiroThinker的双层验证系统也模拟了这种认知监督过程。

---

🤔 冷静思考:MiroThinker的局限与疑问

作为一篇负责任的科普文章,我们也应该讨论一些值得注意的问题和局限。

📉 计算扩展的边际效益

在BrowseComp上,MiroThinker-H1的准确率随着计算资源的增加而提升,但这种提升呈现对数线性关系。从16倍计算量增加到64倍,准确率只提升了约2个百分点(从85.9到88.2)。

这引发了一个问题:这种扩展是否已经接近边际效益递减的点? 如果投入更多计算资源只能带来微小提升,那么未来的改进可能需要从算法层面入手,而非单纯堆砌算力。

🔍 基线模型的行为分析

论文中提到,本地验证器将交互步数从约1200步减少到约210步,减少了82%。这个数字令人印象深刻,但论文没有详细说明那被消除的约1000步具体在做什么

如果基线模型(MiroThinker-1.5)在那1000步中陷入了"循环"或"重复确认"的低效模式,那么改进可能部分来自于修复这种病态行为,而非验证了"验证机制提升效率"的一般性原理。

🎭 开源与闭源的差距

最 impressive 的消融实验结果(本地验证器从32%到58.5%的提升,全局验证器的增益)是在MiroThinker-H1上展示的,这是一个闭源系统。虽然开源的MiroThinker-1.7和1.7-mini也很有竞争力,但论文没有明确说明验证系统的具体实现细节。

对于一篇核心贡献是"验证架构"的论文来说,如果最强模型无法独立复现,这在学术界确实会引起一些讨论。当然,开源模型本身已经足够强大,可以支持大部分实际应用。

---

🚀 展望未来:AI研究智能体的下一站

MiroThinker的出现,标志着AI研究智能体进入了一个新的阶段。验证中心推理(Verification-Centric Reasoning)可能成为未来AI系统设计的重要范式。

我们可以期待看到:

1. 更轻量的验证机制:如何在保持效果的同时,降低验证系统的计算开销? 2. 多模态验证:当前的验证主要基于文本,未来是否会整合图像、代码执行结果等多模态信息? 3. 人机协作验证:在某些高风险领域,是否可以将AI的自动验证与人类的最终审核结合起来? 4. 可解释性增强:验证系统如何更好地向用户解释"为什么这个答案是可信的"?

MiroMind团队已经开源了MiroFlow框架(https://github.com/MiroMindAI/MiroFlow),这是一个通用的智能体框架,支持接入GPT-5、Claude、Kimi、DeepSeek等多种模型。这意味着,验证中心推理的理念可能会惠及整个AI社区,而不局限于MiroThinker本身。

---

📝 结语:当AI学会"思考自己的思考"

回顾MiroThinker的故事,最打动我的不是那些漂亮的基准测试数字,而是它背后的理念:让AI学会"思考自己的思考"

在古希腊,苏格拉底通过不断提问,引导人们审视自己的信念和推理过程。在东方,孔子强调"学而不思则罔",主张学习与反思相结合。这些古老的智慧,如今在AI系统中找到了新的表达形式——本地验证器和全局验证器,就像是AI的"苏格拉底时刻",迫使它在得出结论之前,先审视自己的推理过程。

MiroThinker-1.7告诉我们:智能不仅是计算的能力,更是知道何时该停下来检查的能力。在这个信息爆炸、AI日益强大的时代,这种"元认知"能力可能比纯粹的计算能力更加珍贵。

所以,下次当你使用AI助手进行深度研究时,不妨想想这个来自MiroMind的团队——他们不仅在建造更聪明的机器,也在尝试教会机器如何像人类一样,在快与慢之间找到平衡,在行动与反思之间找到智慧

毕竟,真正的智能,或许就始于那一秒的停顿——那一句"等等,让我再想想"。

---

📚 参考文献

1. MiroMind Team. "MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification-Centric Reasoning." arXiv:2603.15726, 2026. 2. OpenAI. "BrowseComp: A Benchmark for Browsing Complexity." OpenAI Technical Report, 2025. 3. Mialon, G., et al. "GAIA: A Benchmark for General AI Assistants." ICLR 2024. 4. Phan, L., et al. "Humanity's Last Exam." arXiv:2501.14249, 2025. 5. Yao, S., et al. "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023.

---

*本文基于MiroMind团队发布的官方技术报告、arXiv论文及相关新闻报道撰写。文中涉及的技术细节和基准测试数据均来自公开资料。如有疏漏,欢迎指正。*

#MiroThinker #AI研究 #深度研究 #费曼风格 #科普 #开源模型 #MiroMind #步子哥

讨论回复 (0)