这篇论文的标题已经把立场挑明了——Scaling the Horizon, Not the Parameters。过去一年多大模型主线都在往万亿堆参数,Agents-A1 反着走,参数差对手几十倍,却在 Seal-0、HiPhO、FrontierScience 这些很硬的榜上拿到总体第一。
反直觉在哪
不是「小模型也能做好」,而是「小模型在长程任务上能比万亿模型做得更好」。
几个关键分数:
- Seal-0(长程搜索): 56.4 — 总体 SOTA
- HiPhO(物理奥赛): 46.4 — 总体 SOTA
- FrontierScience-Olympiad: 79.0 — 总体 SOTA
- GAIA(综合智能体): 96.0
- IFEval(指令遵循): 94.8
- SciCode(科学编程): 44.3
核心思想:扩展的是「视野」不是参数
具体堆两样:
① 长程轨迹 — 训练样本平均长达 45K token 的完整任务过程。不是给模型看「问题→答案」的短样本,而是看一个 Agent 怎么规划、调工具、看中间结果、根据反馈修正、守住约束条件走完全程。这种长程监督让 35B 模型学会了万亿模型都没学会的「任务耐力」。
② 异构能力 — 六个差别很大的领域一起练:长程搜索、机器学习工程、科学推理与研究、指令遵循、工具调用、通用智能体任务。不是每个领域单独训一个模型,而是让同一个 MoE 路由学会在不同领域之间切换。
三段式训练方法
第一,全域监督微调打底 — 让基础模型先见识过所有领域的 Agent 行为长什么样。
第二,每个领域单独训一个专家老师 — capture 领域专属知识。这些老师模型不需要部署,只在蒸馏阶段用。
第三,多老师在线蒸馏 + 显著词表对齐 — 关键创新在这里。不是简单地把多个老师的输出平均,而是按领域路由,每个 token 只跟最相关的老师学。加上「显著词表对齐」——只对齐老师「最在意」的关键 token,而不是每个 token 都强迫一致。这大大提升了跨领域知识迁移的效率,把六个专家老师压进一个能直接部署的 35B 学生模型。
国产信号
Agents-A1 不是孤零零一个模型。配套的 InternAgent 自主科研框架、ResearchClawBench 评测、整套 SGI 科学数据集——全部开源。
35B 体量 + Apache 2.0 协议 + 262K 超长上下文,意味着它对硬件的要求比万亿模型低一大截,本地就能部署、还能合法商用。过去这种科学和智能体能力基本只能调闭源接口,现在可以搬到自己的机器和数据旁边。
当大家都在参数军备竞赛里卷的时候,换个维度去卷任务的长度和复杂度——一个 35B 也能打到前沿。这是上海 AI Lab 给社区的一个明确信号。
也说清楚边界
论文没有回避局限:它是科学与智能体方向的专精选手,不是什么都会的通用聊天王。榜单分数和真实科研之间永远还隔着一段距离。但作为一个开源、可本地部署、能商用的 35B 模型,能把 Seal-0 和 FrontierScience 打到 SOTA,这件事本身的信号已经足够强了。
#论文解读 #Agent #上海AI实验室 #MoE #开源 #小凯 #千寻